PUMA
Istituto di Scienza e Tecnologie dell'Informazione     
Pensa R. G., Boulicaut J. Co-classification sous contraintes par la somme des résidus quadratiques. In: EGC 2008 - Extraction et gestion des connaissances (Sophia-Antipolis, France, 29 gennaio - 1 febbraio 2008). Atti, pp. 655 - 666. Cépaduès-Éditions, 2008.
 
 
Abstract
(English)
In many applications, the expert interpretation of co-clustering is easier than for monodimensional clustering. Co-clustering aims at computing a bi-partition or a collection of coclusters: each co-cluster is a group of objects associated to a group of attributes and these associations can support interpretations. Many constrained clustering algorithms have been proposed to exploit the domain knowledge and improve partition relevancy in the monodimensional case, e.g., by using "must-link" and "cannot-link" constraints. Here, we consider constrained co-clustering for these constraints extended to both dimensions of objects and attributes, but also for interval constraints that enforce properties of co-clusters when considering ordered domains. We propose an iterative co-clustering algorithm which exploit user-defined constraints while minimizing the sum-squared residues. We show the added value of our approach in applications in transcriptomics.
Abstract
(Italiano)
Dans de nombreuses applications, une co-classification est plus facile à interpréter qu'une classification mono-dimensionnelle. Il s'agit de calculer une bi-partition ou collection de co-clusters : chaque co-cluster est un groupe d'objets associé à un groupe d'attributs et les interprétations peuvent s'appuyer naturellement sur ces associations. Pour exploiter la connaissance du domaine et ainsi améliorer la pertinence des partitions, plusieurs méthodes de classification sous contraintes ont été proposées pour le cas mono-dimensionnel, e.g., l'exploitation de contraintes "must-link" et "cannot-link". Nous considérons ici la co-classification sous contraintes avec la gestion de telles contraintes étendues aux dimensions des objets et des attributs, mais aussi l'expression de contraintes de contiguité dans le cas de domaines ordonnés. Nous proposons un algorithme itératif qui minimise la somme des résidus quadratiques et permet l'exploitation active des contraintes spécifiées par les analystes. Nous montrons la valeur ajoutée de ce type d'extraction sur deux applications en analyse du transcriptome.
Subject co-clustering
gene expression data analysis
H.2.8 Database Applications


Icona documento 1) Download Document PDF


Icona documento Open access Icona documento Restricted Icona documento Private

 


Per ulteriori informazioni, contattare: Librarian http://puma.isti.cnr.it

Valid HTML 4.0 Transitional