Compte-rendu bibliographique sur les réseaux biologiques III

download Compte-rendu bibliographique sur les réseaux biologiques III

If you can't read please download the document

  • date post

    11-May-2015
  • Category

    Science

  • view

    153
  • download

    2

Embed Size (px)

description

Groupe de travail Biopuces, INRA d'Auzeville January 8th, 2010

Transcript of Compte-rendu bibliographique sur les réseaux biologiques III

  • 1.Compte-rendu bibliographique sur les rseaux biologiques III Nathalie Villa-Vialaneix http ://www.nathalievilla.org Institut de Mathmatiques de Toulouse IUT de Carcassonne (Universit de Perpignan) Groupe de travail BioPuces, INRA de Castanet 8 janvier 2010 BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 1 / 31

2. Vue densemble des thmatiques Comprhension Infrence de graphes Analyse du graphe BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 2 / 31 3. Vue densemble des thmatiques Comprhension Infrence de graphes Analyse du graphe non supervise Recherche de motifs semi supervise Classication de sommets BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 2 / 31 4. Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 3 / 31 5. Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... Sommets (ou nuds) / en anglais : vertices, nodes BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 3 / 31 6. Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... Sommets Artes / en anglais : edges BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 3 / 31 7. Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Artes ventuellement pondres BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 3 / 31 8. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 4 / 31 9. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont lensemble des artes est not E. E est donc un sous-ensemble de V V BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 4 / 31 10. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont lensemble des artes est not E. E est donc un sous-ensemble de V V dont les artes sont pondres par la matrice de poids W telle que i, j = 1, . . . , n, wii = 0, wij = wji 0, wij > 0 (xi, xj) E BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 4 / 31 11. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont lensemble des artes est not E. E est donc un sous-ensemble de V V dont les artes sont pondres par la matrice de poids W telle que i, j = 1, . . . , n, wii = 0, wij = wji 0, wij > 0 (xi, xj) E Dans un graphe non pondr, on convient que wij {0; 1}. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 4 / 31 12. Sommaire 1 Infrence de graphes 2 Recherche de motifs 3 Recherche de modules : classication des sommets BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 5 / 31 13. Sommaire 1 Infrence de graphes 2 Recherche de motifs 3 Recherche de modules : classication des sommets BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 6 / 31 14. Rfrences 1 Schfer, J. and Strimmer, K. (2005) An empirical Bayes approach to inferring large-scale gene association networks. Bioinformatics, 21(6), pp 754-764. 2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised enzyme network inference from the integration of genomic data and chemical information. Bioinformatics, 21(Supp. 1), i468-i477. 3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of multiple biological data for supervised network inference. Bioinformatics, 21(10), 2488-2495. 4 Geurts, P. and Touleimat, N. and Dutreix, M. and dAlch-Buc, F. (2007) Inferring biological networks with output kernel trees. BMC Bioinformatics, 8(Supp. 2). BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 7 / 31 15. Sommaire 1 Infrence de graphes 2 Recherche de motifs 3 Recherche de modules : classication des sommets BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 8 / 31 16. Rfrences 1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Network motifs in the transcriptional regulation network of Escherichia Coli. Nature genetics, 31, 64-68. 2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Network thinking in ecology and evolution. Trends in Ecology and Evolution, 20(6), 345-353. 3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functional and evolutionary inference in gene networks : does topology matter ? Genetica, 129, 83-103. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 9 / 31 17. Sommaire 1 Infrence de graphes 2 Recherche de motifs 3 Recherche de modules : classication des sommets BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 10 / 31 18. Recherche de modules, classication de sommets Problme particulier pos par la classication de sommets dans un graphe : il ny a pas de distance naturelle entre sommets dun graphe donc pas de manire simple dutiliser les algorithmes de classication usuels (k-means, CAH ...) BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 11 / 31 19. Recherche de modules, classication de sommets Problme particulier pos par la classication de sommets dans un graphe : il ny a pas de distance naturelle entre sommets dun graphe donc pas de manire simple dutiliser les algorithmes de classication usuels (k-means, CAH ...) Trois grandes familles de mthodes : mthodes bases sur la dnition dune similarit ou dun noyau ; mthodes bases sur loptimisation dun critre de qualit ; mthodes bases sur un modle de graphe alatoire. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 11 / 31 20. Principe des mthodes noyau Le noyau K permet de passer dun graphe un espace vectoriel usuel (avec une distance) : Graphe Espace vectoriel H Rn Pas de mtrique Une distance : d(u, v) = u v, u v H Un sommet xi Limage du sommet (xi) On dnit la distance entre deux sommets par : d((xi), (xj)) = K(xi, xi) + K(xj, xj) 2K(xi, xj) uniquement partir du noyau ! BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 12 / 31 21. Noyaux bass sur le Laplacien Les noyaux frquemment utiliss sont des versions rgularises du Laplacien : L = wij si i j di = j i wij sinon. car cette matrice a des proprits intressantes en relation avec la structure du graphe. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 13 / 31 22. Proprits du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } o Ai indique les positions des sommets de la ime composante connexe du graphe. 1 4 5 2 3 KerL = Span 1 0 0 1 1 ; 0 1 1 0 0 BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 14 / 31 23. Proprits du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } o Ai indique les positions des sommets de la ime composante connexe du graphe. 1 4 5 2 3 KerL = Span 1 0 0 1 1 ; 0 1 1 0 0 Remarque : Il existe dautres proprits algbriques plus nes entre la structure du graphe et les valeurs propres du Laplacien. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 14 / 31 24. Proprits du Laplacien III [von Luxburg, 2007] Problme de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classication des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 jAi,j Ai wj,j est minimale , est quivalent H = arg min hRnk Tr hT Lh subject to hT h = I hi = 1/ |Ai|1Ai BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 15 / 31 25. Proprits du Laplacien III [von Luxburg, 2007] Problme de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classication des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 jAi,j Ai wj,j est minimale , est quivalent H = arg min hRnk Tr hT Lh subject to hT h = I hi = 1/ |Ai|1Ai problme NP-complet. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 15 / 31 26. Proprits du Laplacien III [von Luxburg, 2007] Problme de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classication des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 jAi,j Ai wj,j est minimale peut tre approch par H = arg min hRnk Tr hT Lh subject to hT h = I BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 15 / 31 27. Proprits du Laplacien III [von Luxburg, 2007] Problme de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classication des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 jAi,j Ai wj,j est minimale peut tre approch par H = arg min hRnk Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associs aux k plus petites valeurs propres de L, H, et faire la classication sur les colonnes de H. BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 15 / 31 28. Proprits du Laplacien III [von Luxburg, 2007] Problme de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classication des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 jAi,j Ai wj,j est minimale peut tre approch par H = arg min hRnk Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associs aux k plus petites valeurs propres de L, H, et faire la classication sur les colonnes de H. Quelques problmes du spectral clustering : Utilisation dune partie du spectre seulement (laquelle ?), a tendance produire un faible nombre de classes de trs grosses tailles et beaucoup de micro classes (un cinq individus). BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 15 / 31 29. Des versions rgularises de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour > 0, K = eL = + k=1 (L)k k! . K : V V R (xi, xj) K i,j noyau de diffusion (ou noyau de la chaleur) BioPuces (08/01/10) Nathalie Villa Biblio. rseaux biologiques 16 / 31 30. Des versions rgularises de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour > 0, K = eL