Comparaison de méthodes de classification de sommets dans un réseau biologique

download Comparaison de méthodes de classification de sommets dans un réseau biologique

of 50

  • date post

    11-May-2015
  • Category

    Science

  • view

    103
  • download

    0

Embed Size (px)

description

Séminaire BioMaths, INRA d'Auzeville March 30th, 2010

Transcript of Comparaison de méthodes de classification de sommets dans un réseau biologique

  • 1.Comparaison de mthodes de classication de sommets dans un rseau biologique Nathalie Villa-Vialaneix http://www.nathalievilla.org Institut de Mathmatiques de Toulouse & IUT de Carcassonne (Universit de Perpignan) 30 mars 2010 Sminaire de Biomathmatiques, INRA de Castanet 1 / 24 Classication dans les rseaux biologiques

2. Travail ralis en collaboration avec : Pierre Cherel Adrien Gamot Laurence Liaubet Fabrice Rossi Magali SanCristobal 2 / 24 Classication dans les rseaux biologiques 3. Sommaire 1 Prsentation des donnes 2 Classication des sommets 3 / 24 Classication dans les rseaux biologiques 4. Prsentation des donnes Sommaire 1 Prsentation des donnes 2 Classication des sommets 4 / 24 Classication dans les rseaux biologiques 5. Prsentation des donnes Production danimaux F2 avec des fac- teurs de variation gntique F0 : 16 (Pitrain) 28 (Synthtique) F1 : 17 62 F2 : 1200 animaux structurs par ligne de pre Prlvement de tissus (dont longissimus dorsi) Mesures phnotypiques (30) (force de cisaillement, PH ...) 5 / 24 Classication dans les rseaux biologiques 6. Prsentation des donnes Production danimaux F2 avec des fac- teurs de variation gntique F0 : 16 (Pitrain) 28 (Synthtique) F1 : 17 62 F2 : 1200 animaux structurs par ligne de pre Prlvement de tissus (dont longissimus dorsi) Mesures phnotypiques (30) (force de cisaillement, PH ...) Donnes retenues : Une famille de 56 individus F2 (plus forte variabilit pour force de cisaillement et PH) ; transcri. 2 464 gnes. 5 / 24 Classication dans les rseaux biologiques 7. Prsentation des donnes Slection dun sous-ensemble de gnes : eQTL QTL (Quantitative Trait Locus) : Un QTL correspond une rgion gnomique lie un caractre (phnotype) dintrt (contrl gntiquement, dans lidal). Exemple : QTL pour la force de cisaillement et la tendret de la viande 6 / 24 Classication dans les rseaux biologiques 8. Prsentation des donnes Slection dun sous-ensemble de gnes : eQTL QTL (Quantitative Trait Locus) : Un QTL correspond une rgion gnomique lie un caractre (phnotype) dintrt (contrl gntiquement, dans lidal). eQTL (QTL dexpression) : Un eQTL est une position chromosomique responsable de la variabilit dexpression dun ou plusieurs gnes. Exemple : Dans le jeu de donnes 330 gnes sont rguls par un eQTL. 6 / 24 Classication dans les rseaux biologiques 9. Prsentation des donnes Slection dun sous-ensemble de gnes : eQTL QTL (Quantitative Trait Locus) : Un QTL correspond une rgion gnomique lie un caractre (phnotype) dintrt (contrl gntiquement, dans lidal). eQTL (QTL dexpression) : Un eQTL est une position chromosomique responsable de la variabilit dexpression dun ou plusieurs gnes. Exemple : Dans le jeu de donnes 330 gnes sont rguls par un eQTL. Hritabilit : Lhritabilit est la part de variance gntique sur la variance totale. Gnes retenus : eQTL dont lhritabilit est suprieure 10% : 128 gnes. 6 / 24 Classication dans les rseaux biologiques 10. Prsentation des donnes Des gnes aux rseaux de gnes Intrt : Dtecter et analyser les rseaux de gnes impliqus dans une ou plusieurs fonctions biologiques. 7 / 24 Classication dans les rseaux biologiques 11. Prsentation des donnes Des gnes aux rseaux de gnes Intrt : Dtecter et analyser les rseaux de gnes impliqus dans une ou plusieurs fonctions biologiques. Que modlise un rseau de gnes ? Sommets : Gnes (128 dans notre exemple) Artes : Corrlation forte dans lexpression des deux gnes 7 / 24 Classication dans les rseaux biologiques 12. Prsentation des donnes Corrlations, corrlations partielles Problme : Le calcul direct des corrlations entre deux gnes peut tre perturb par des relations communes indirectes qui ne sont pas rvlatrices dun phnomne biologique. 8 / 24 Classication dans les rseaux biologiques 13. Prsentation des donnes Corrlations, corrlations partielles Problme : Le calcul direct des corrlations entre deux gnes peut tre perturb par des relations communes indirectes qui ne sont pas rvlatrices dun phnomne biologique. Solution courante : Modle graphique Gaussien H : La matrice dexpression des gnes, X, est issue dune distribution N(, ) ; Quantit dintrt : Les corrlations partielles, i.e., ij = Cor(Xi , Xj |(Xk )k i,j) ; 8 / 24 Classication dans les rseaux biologiques 14. Prsentation des donnes Corrlations, corrlations partielles Problme : Le calcul direct des corrlations entre deux gnes peut tre perturb par des relations communes indirectes qui ne sont pas rvlatrices dun phnomne biologique. Solution courante : Modle graphique Gaussien H : La matrice dexpression des gnes, X, est issue dune distribution N(, ) ; Quantit dintrt : Les corrlations partielles, i.e., ij = Cor(Xi , Xj |(Xk )k i,j) ; Sous H, ij = wij wii wjj avec 1 = (wij)i,j. 8 / 24 Classication dans les rseaux biologiques 15. Prsentation des donnes Corrlations, corrlations partielles Problme : Le calcul direct des corrlations entre deux gnes peut tre perturb par des relations communes indirectes qui ne sont pas rvlatrices dun phnomne biologique. Solution courante : Modle graphique Gaussien H : La matrice dexpression des gnes, X, est issue dune distribution N(, ) ; Quantit dintrt : Les corrlations partielles, i.e., ij = Cor(Xi , Xj |(Xk )k i,j) ; Sous H, ij = wij wii wjj avec 1 = (wij)i,j. Problme important : Estimation et inversion de ! 8 / 24 Classication dans les rseaux biologiques 16. Prsentation des donnes Estimation des corrlations partielles [Schfer and Strimmer, 2005] Estimation des corrlations partielles par boostrap (package R GeneNet) : Rpter 1 Gnrer un chantillon bootstrap b dans les donnes initiales ; 2 Dterminer la variance empirique sur lchantillon boostrap, b ; 3 Calculer le pseudo-inverse de b , Wb puis b ; 9 / 24 Classication dans les rseaux biologiques 17. Prsentation des donnes Estimation des corrlations partielles [Schfer and Strimmer, 2005] Estimation des corrlations partielles par boostrap (package R GeneNet) : Rpter 1 Gnrer un chantillon bootstrap b dans les donnes initiales ; 2 Dterminer la variance empirique sur lchantillon boostrap, b ; 3 Calculer le pseudo-inverse de b , Wb puis b ; Estimer par la moyenne des b . 9 / 24 Classication dans les rseaux biologiques 18. Prsentation des donnes Estimation des corrlations partielles [Schfer and Strimmer, 2005] Estimation des corrlations partielles par boostrap (package R GeneNet) : Rpter 1 Gnrer un chantillon bootstrap b dans les donnes initiales ; 2 Dterminer la variance empirique sur lchantillon boostrap, b ; 3 Calculer le pseudo-inverse de b , Wb puis b ; Estimer par la moyenne des b . Combien dobservations pour estimer correctement ? 9 / 24 Classication dans les rseaux biologiques 19. Prsentation des donnes Rsultat de lestimation des corrlations partielles Histogramme des corrlations partielles estimes sur les 128 eQTL Corrlations partielles 0.2 0.1 0.0 0.1 0.2 01000200030004000 Seules les corrlations les plus importantes sont con- serves. Mthode 1 : Test [Schfer and Strimmer, 2005] bas sur un a priori baysien. Mthode 2 (utilise) : Seuil- lage pour lobtention dune densit xe lavance (ici : entre 5% et 10%). 10 / 24 Classication dans les rseaux biologiques 20. Prsentation des donnes Plus grande composante connexe du rseau obtenu q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q 110 sommets ; les artes sont pondres par la corrlation partielle Densit : 9,4 % Transitivit : 19,4 % 11 / 24 Classication dans les rseaux biologiques 21. Prsentation des donnes Plus grande composante connexe du rseau obtenu q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q 110 sommets ; les artes sont pondres par la corrlation partielle Densit : 9,4 % Transitivit : 19,4 % Problmatique : Remettre en vidence la structure modu- laire du rseau an didentier les groupes de gnes simi- laires. 11 / 24 Classication dans les rseaux biologiques 22. Classication des sommets Sommaire 1 Prsentation des donnes 2 Classication des sommets 12 / 24 Classication dans les rseaux biologiques 23. Classication des sommets Objectifs du travail Point de vue mthodologique : valuer la pertinence biologique de diverses approches de classication de sommets ; Point de vue biologique : Formuler des hypothses sur la fonction biologique de certains gnes non rpertoris. 13 / 24 Classication dans les rseaux biologiques 24. Classication des sommets Objectifs du travail Point de vue mthodologique : valuer la pertinence biologique de diverses approches de classication de sommets ; Point de vue biologique : Formuler des hypothses sur la fonction biologique de certains gnes non rpertoris. Deux approches compares : Approches noyau (ici, kernel k-means) Approches bases sur la modularit 13 / 24 Classication dans les rseaux biologiques 25. Classication des sommets Prsentation des approches noyau Principe de base : Doter le graphe G dune mtrique par le biais dun noyau et utiliser un algorithme de classication (type k-means) partir de cette mtrique. 14 / 24 Classication dans les rseaux biologiques 26. Classication des sommets Prsentation des approches noyau Principe de base : Doter le graphe G dune mtrique par le biais dun noyau et utiliser un algorithme de classication (type k-means) partir de cette mtrique. Quest-ce quun noyau ? Cest une fonction K : G G R, symtrique et positive : G (H, ., . ) telle que : (x), (x ) = K(x, x ). 14 / 24 Classication dans les rseaux biologiques 27. Classication des sommets Quels noyaux pour les graphes ? La plupart sont des rgularisations du Laplacien [Smola and Kondor, 2003] L = ij si i j di = k i ik si i = j 15 / 24 Classication dans les rseaux biologiques 28. Classication des sommets Quels noyaux pour les graphes ? La plupart sont des rgularisations du Laplacien [Smola