Contribution à l'Analyse de Données Non Vectorielles · formatique, sur les thématiques de la...

94
Université Toulouse 1 Capitole École Doctorale Mathématiques, Informatique et Télécommunications de Toulouse C ONTRIBUTIONS À L ’A NALYSE DE D ONNÉES N ON V ECTORIELLES Nathalie Vialaneix Manuscrit en vue de l’obtention de l’Habilitation à Diriger des Recherches présenté et soutenu publiquement le 13 novembre 2014 devant : Philippe Besse Professeur, INSA, Toulouse Dianne Cook Professeur, Iowa State University Marie-Laure Martin-Magniette Directrice de Recherche, AgroParisTech Jean-Michel Poggi Professeur, Université Paris Descartes Anne Ruiz-Gazen Professeur, Toulouse School of Economics Jean-Philippe Vert Chercheur, Mines ParisTech & Institut Curie sur la base des rapports rédigés par Mme Dianne Cook, M. Jean-Michel Poggi et M. Jean-Philippe Vert.

Transcript of Contribution à l'Analyse de Données Non Vectorielles · formatique, sur les thématiques de la...

  • Universit Toulouse 1 Capitole

    cole Doctorale Mathmatiques, Informatique et

    Tlcommunications de Toulouse

    CONTRIBUTIONS LANALYSE DEDONNES NON VECTORIELLES

    Nathalie Vialaneix

    Manuscrit en vue de lobtention de

    lHabilitation Diriger des Recherches

    prsent et soutenu publiquement le 13 novembre 2014 devant :

    Philippe Besse Professeur, INSA, ToulouseDianne Cook Professeur, Iowa State UniversityMarie-Laure Martin-Magniette Directrice de Recherche, AgroParisTechJean-Michel Poggi Professeur, Universit Paris DescartesAnne Ruiz-Gazen Professeur, Toulouse School of EconomicsJean-Philippe Vert Chercheur, Mines ParisTech & Institut Curie

    sur la base des rapports rdigs par Mme Dianne Cook, M. Jean-Michel

    Poggi et M. Jean-Philippe Vert.

  • 1

    RemerciementsEn premier lieu, je tiens exprimer ma gratitude Anne Ruiz-Gazen de m'avoir

    paule dans les diverses tapes cette habilitation, depuis la rdaction de ce manuscritjusqu' la soutenance. Son soutien, sa bienveillance, son dynamisme et son optimismeont t une aide prcieuse.

    Je veux aussi remercier chaleureusement Dianne Cook, Jean-Michel Poggi et Jean-Philippe Vert d'avoir pris le temps d'valuer ce document de synthse. Je leur suisreconnaissante de m'avoir appuye dans cette tape professionnelle qui me tenait cur.Je veux aussi remercier Philippe Besse, Marie-Laure Martin-Magniette et Josiane Mothepour avoir accept de faire partie du jury de soutenance car c'est toujours un plaisird'changer avec eux.

    La recherche est videmment un travail collectif et je n'aurais pu avancer dans cettevoie sans l'aide des nombreuses personnes avec lesquelles j'ai collabor depuis le dbut dema thse. Il est toujours dlicat de citer nommment certains collaborateurs - et que tousles autres sachent que j'ai conscience de leur devoir beaucoup - mais je tenais remercier,en particulier, Fabrice Rossi tant notre collaboration a t durable et fructueuse ets'est prolonge bien au-del de relations professionnelles. Il a indniablement beaucoupcompt dans ma formation scientique ; son amiti et son humour m'ont accompagnedans les moments les plus diciles.

    Je dois galement beaucoup aux quipes de recherche qui m'ont accueillie ces der-nires annes : l'quipe SAMM de l'universit Paris 1 m'a oert un cadre scientiquepanouissant et a tout fait pour faciliter mon intgration malgr la distance. Merci donc l'intgralit de l'quipe, et en particulier son ancienne directrice, Marie Cottrell, sondirecteur actuel, Jean-Marc Bardet, et aux membres de l'axe dit du mal qui ontorganis pour moi des sances de travail en visio-confrences dans des conditions tech-niques oses : les eorts consentis m'ont beaucoup aide ne pas me sentir isole. Je suisgalement trs reconnaissante aux membres de l'unit MIA-T de l'INRA de Toulousepour la qualit de leur accueil lors de ma dlgation au sein du laboratoire durant l'anne2012/2013 et, tout particulirement, Christine Cierco-Ayrolles qui m'a encourage faire cette demande : cette anne a t une anne d'panouissement scientique pour moi.Le soutien du laboratoire ainsi que celui de mes collaboratrices de l'quipe GenPhySE,Magali San Cristobal et Laurence Liaubet, m'ont permis de nalement intgrer l'uniten fvrier 2014 et de participer l'encadrement des thses de Jrme Mariette et ValrieSautron avec lesquels travailler est un plaisir. l'INRA, j'ai trouv un environnementscientique stimulant et un environnement professionnel chaleureux, en particulier enoccupant le bureau de Cline, avec laquelle je partage le got des activits fmininesdlicates.

    J'ai eu galement la chance de pouvoir apporter ma petite pierre l'animation dela SFdS, grce Jean-Michel Poggi, son prsident de l'poque, et cette exprience a tune source de rencontres stimulantes.

    Plusieurs pages seraient probablement ncessaires pour remercier les personnes quim'ont encourage ces dernires annes mais il faut savoir conclure et la conclusion decette page de remerciements est naturellement tourne vers Jean, mon compagnon depuisplus de vingt ans, dont le soutien inconditionnel ne s'est jamais dmenti. Il est indniableque je lui dois bien plus que la conclusion de ce modeste travail.

  • Table des matires

    Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1 Analyse et infrence de graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1 Introduction 9

    1.2 Classification non supervise & visualisation 101.2.1 Motivation et contribution personnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.2 Approches noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.3 Approches bases sur la modularit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.2.4 Application pour la fouille de donnes dun graphe rel . . . . . . . . . . . . . . . 351.2.5 Conclusions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.2.6 Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    1.3 Infrence 481.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481.3.2 Motivation et contribution personnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501.3.3 Consensus LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541.3.4 Conclusions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561.3.5 Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    2 Analyse de donnes fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 612.1 Introduction 61

    2.2 Contribution personnelle 61

    2.3 Approches dites inverses 642.3.1 Rgression inverse et perceptron multi-couches . . . . . . . . . . . . . . . . . . . . . . 642.3.2 Rgression inverse par estimation de densit (DBIR) . . . . . . . . . . . . . . . . . . . 66

    2.4 Mthodes noyau pour la discrimination 682.4.1 SVM pour la discrimination fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 682.4.2 Utiliser les drives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

  • 2.5 Conclusion et perspectives 71

    2.6 Rfrences 73

    Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    A Bref Curriculum Vitae . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79A.1 Formation et parcours professionnel 79

    A.2 Encadrements 79A.2.1 Encadrements de stages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79A.2.2 Encadrements de thses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80A.2.3 Participations des comits et des jurys de thse . . . . . . . . . . . . . . . . . . . . 81

    A.3 Contrats de recherche institutionnels et industriels 81

    A.4 Activits danimation scientifique 82

    A.5 Activits denseignement 82

    B Liste des publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85B.1 Publications dans des revues internationales comit de lecture 85

    B.2 Publications dans des revues nationales comit de lecture 86

    B.3 ditoriaux 87

    B.4 Chapitres douvrages collectifs 88

    B.5 Communications dans des confrences internationales avec comit delecture et publication des actes 88

    B.6 Confrences invites 90

    B.7 Autres confrences 90

    B.8 Articles soumis ou en rvision 92

    B.9 Logiciels 92

    Note technique : Ce manuscrit a t crit l'aide du logiciel libre LATEX partir du modle The

    Legrand Orange Book mis la disposition de tous par Mathias Legrand. La bibliographie a t ralise

    avec le programmes libres biblatex et biber. La plupart des graphiques ont t raliss avec le logiciel libre

    R et en particulier avec les packages igraph, ggplot2 et SOMbrero. La mise disposition, de manire

    libre, de ces outils facilite quotidiennement notre vie scientique et cette note technique a pour but de

    remercier collectivement les personnes qui participent leur dveloppement.

  • Introduction

    Dans de nombreux problmes rels d'analyse de donnes, les observations collectesne sont pas des donnes numriques et vectorielles classiques. Une premire stratgiepour aborder ce type de questions est de simplier celles-ci en les rsumant par unereprsentation vectorielle puis d'utiliser des mthodes d'analyse statistique classiques(apprentissage supervis, fouille non supervise de donnes). Une alternative souvent pr-fre cette approche simplicatrice est d'adapter les mthodes d'analyse la structureparticulire des donnes, que celles-ci soient des donnes reprsentes par des courbes(donnes fonctionnelles), des arbres ou des graphes (donnes relationnelles ou donneshirarchiques) ou bien d'autres types de donnes non vectorielles.

    Ce mmoire rsume mes activits de recherche dans cette dernire direction. Demanire plus prcise, je me suis intresse, au cours de ma thse, l'analyse de don-nes fonctionnelles, c'est--dire l'analyse de donnes qui peuvent tre dcrites par descourbes et qui sont frquemment modlises sous la forme d'observations d'une variablealatoire valeur dans un espace de Hilbert. J'ai tudi l'adaptation de mthodes neuro-nales et noyau ce type de donnes. Tout en maintenant une activit dans ce domaine,je me suis peu peu intresse d'autres types de donnes non vectorielles, savoir desdonnes relationnelles, modlises sous la forme de graphes. J'ai investi mes comptenceset connaissances sur les mthodes neuronales et les mthodes noyau pour tudier cetype de donnes.

    Mes activits de recherche actuelles se situent l'interface entre statistique et in-formatique, sur les thmatiques de la fouille de donnes et de l'apprentissage pour desdonnes complexes et non vectorielles. Au del des aspects de dveloppement mthodo-logique, une part non ngligeable de mes activits est consacre l'application de ces m-thodes sur des problmatiques concrtes issues de divers domaines d'application : scienceshumaines, sociales et environnementales, suite aux collaborations noues avec des cher-cheurs de l'Universit Toulouse 2 (Jean Jaurs) durant ma thse et, plus rcemment,gnomique et biologie des systmes. Mon intgration rcente l'INRA (comme chargede recherche, depuis fvrier 2014) promet une intensication de ce dernier type d'ap-plications. Les thmatiques abordes dans ce manuscrit ainsi que les liens qui existententre elles, sont schmatises dans la gure 2 que je reprendrai plusieurs reprises dansce mmoire.

  • 6

    L'ensemble des travaux prsents ici a donn lieu 25 publications dans des revuesnationales ou internationales comit de lecture ainsi qu' des publications dans desactes de confrences. La liste de mes publications est donne dans le chapitre B en annexe.Les publications dans des revues sont dcoupes en 4 grands ensembles thmatiques selonqu'elles sont des publications mthodologiques sur l'analyse de graphes, des publicationsmthodologiques sur l'analyse de donnes fonctionnelles, des applications en scienceshumaines, sociales et sciences de l'environnement ou bien des applications en biologie dessystmes et gnomique. La rpartition des publications selon ces 4 grandes thmatiquesest donne dans la gure 1 1.

    Figure 1 Rpartition des thmatiques des publications dans des revues comit delecture.

    De manire similaire, ce mmoire est organis de manire thmatique : dans le cha-pitre 1, je prsente mes contributions l'analyse de donnes relationnelles qui constituema thmatique de recherche la plus active actuellement. Ce chapitre est dcoup en deuxgrandes parties qui correspondent, respectivement, des contributions pour la fouille dedonnes relationnelles et pour l'infrence de rseau. Dans le chapitre 2, je prsente mescontributions l'analyse de donnes fonctionnelles ; pour simplier le propos, j'ai rsumles rsultats thoriques obtenus dans cette partie et n'ai inclus aucune dmonstration.Les dveloppements complets sont inclus dans les articles cits. la n de chacune destrois grandes parties de ce manuscrit (classication non supervise & visualisation degraphes, infrence de rseau, analyse de donnes fonctionnelles), j'ai inclus une prsen-tation des perspectives de mes travaux de recherche dans le domaine. La conclusion dece manuscrit (page 77) fait la synthse de mon projet de recherche. Une annexe contient

    1. Bien sr, cette rpartition est relativement subjective car il est parfois assez dicile de direncierce qui est de l'ordre du mthodologique de ce qui est de l'ordre de l' application , l'un et l'autretant troitement mls dans plusieurs travaux.

  • 7

    un court CV qui synthtise l'volution de ma carrire, mes activits d'encadrement etd'animation ainsi que mes participations des contrats de recherche.

  • 8

    Mthodes

    GGM

    Mthodesnoyau

    Mthodesneuronales

    SVM

    K-SOM

    modularit

    organise

    MLP

    Rseaux/Graphes

    Donnesfonctionnelles

    Donnesmultiples

    Donnes

    Applicationsen

    biologie

    (rseaux

    biologiques,donn

    es

    mtabolom

    iques)

    Applicationsen

    histoire

    (rseaux

    sociaux)

    Figure2Thmatiquesde

    recherchede

    cemanuscrit,organisesen

    mthodes(enhaut)et

    donn

    es&applications

    (enbas),etleursrelations.

    Les

    approchessupervises

    sont

    entouresd'un

    rectanglerouge,lesapprochesnonsupervises

    d'un

    rectanglebleu.SV

    M:Su

    pportVectorMachine.

    K-SOM

    :KernelSelf-O

    rganizingMaps.MLP:Multi-Layer

    perceptrons.GGM

    :ModleGraph

    ique

    Gaussien.

    Par

    Donnes

    multiples,

    jefaisrfrencedesdonn

    es

    comportant

    plusieursgroupes

    devariables,ventuellementde

    types

    dirents,ou

    desdonn

    esprovenantde

    plusieursgroupes

    d'individu

    s.

  • IntroductionClassification non supervise & visualisa-tion

    Motivation et contribution personnelleApproches noyauApproches bases sur la modularitApplication pour la fouille de donnesdun graphe relConclusions et perspectivesRfrences

    InfrenceIntroductionMotivation et contribution personnelleConsensus LASSOConclusions et perspectivesRfrences

    1 Analyse et infrence de graphes

    1.1 Introduction

    Dans de nombreuses applications, les donnes ne sont pas dcrites par des variablesnumriques ou qualitatives mais par leurs relations les unes aux autres. Ce type de don-nes, dites relationnelles et communment appeles rseaux, est frquemment modlispar des graphes, c'est--dire par la donne d'un ensemble de n sommets V = {x1, . . . ,xn},modlisant des entits, et d'un ensemble d'artes E qui modlisent les relations entreces entits. Cet expos se restreint au cas de graphes non orients, simples (sans boucleet arte multiple) et ventuellement pondrs. Dans ce dernier cas, les poids peuventtre reprsents par une matrice W , de taille n n, symtrique, diagonale nulle et coecients positifs. Ces donnes se retrouvent naturellement dans de nombreuses appli-cations (M.E.J. Newman 2003; Dorogovtsev and Mendes 2003), les plus connues tantprobablement les rseaux de l'internet (WWW : Wasserman and Faust 1994; Albert etal. 1999; Huberman and Adamic 1999; Scott 2000), les rseaux sociaux (Freeman 2004;Borgatti et al. 2009), comme les rseaux de collaborations (M.E.J. Newman 2001) oules rseaux sociaux de l'internet (Wellman et al. 1996; Adamic and Glance 2005; Traudet al. 2011) et les rseaux biologiques (rseau d'interactions protine-protine, rseauxmtaboliques, rseaux de rgulation gnique... voir Barabsi et al. 2011).

    Mes travaux de recherche ont trait l'analyse statistique sur les rseaux et abordentles deux principaux aspects de celle-ci : en premier lieu, la fouille de donnes, destine extraire de l'information pertinente d'un rseau donn et plus rcemment, l'infrence,qui consiste reconstruire, partir de donnes observes, le graphe de dpendance entreles variables. La section 1.2 se situe au cur de la premire thmatique, en prsentantdes travaux relatifs la classication non supervise de sommets dans les graphes etl'utilisation de la classication pour la visualisation de graphes. Ces mthodes s'avrentutiles pour guider l'utilisateur dans son exploration d'un grand rseau (certaines appli-cations pouvant conduire la manipulation de graphes de plusieurs centaines, plusieursmilliers, voire plusieurs dizaines de milliers de sommets) : la classication permet de d-couper le graphe en grands ensembles et d'aider mettre en lumire sa structure globale,par l'analyse des relations existant entre ces grands ensembles. Les revues de rfrences(Fortunato 2010; Schaeer 2007) donnent un panorama complet des mthodes de classi-cation de sommets d'un graphe. La section 1.3 prsente la problmatique de l'infrence

  • 10 Analyse et infrence de graphes

    de rseau, spcique au cadre biologique, o un graphe de dpendances entre variablesest reconstruit partir d'observations de ces variables. Mes travaux se restreignent aucas du modle graphique gaussien (D. Edwards 1995) et abordent la question de l'in-tgration de donnes de natures ou d'chantillons multiples dans l'infrence. Dans lesdeux sections de ce chapitre, les problmatiques et mthodes sont illustres sur des casd'tudes rels, en histoire (la section 1.2.4 prsente l'tudes de donnes historiques, issuesd'un grand corpus de documents du Moyen-ge) ou en biologie.

    1.2 Classification non supervise & visualisation

    1.2.1 Motivation et contribution personnelle

    La notion de communaut dans les rseaux est une notion qui a t tudie en premierdans le domaine des sciences sociales : en eet, il est gnralement admis de manireassez naturelle (Freeman 2004) que les groupes humains sont structurs en sous-groupessociaux cohsifs. Du point de vue de l'objet mathmatique graphe , la dnitionde ces communauts n'est pas compltement uniforme et peut varier selon le domained'application. Cependant, de manire assez consensuelle, la notion de communautsfait rfrence des groupes de sommets denses (ie avec un grand nombre d'artes l'intrieur du groupe) et connects entre eux par un nombre faible (comparativement)d'artes. De nombreuses tudes sur des rseaux sociaux (M.E.J. Newman 2003; Porter,Onnela, et al. 2009; Traud et al. 2011) ont montr les relations entre ces groupes et descaractristiques dcrivant les individus, validant la pertinence des mthodes de recherchede communauts dans des cas rels. Certaines tudes font aussi tat d'une structuremodulaire hirarchique complexe (Porter, Mucha, et al. 2007). L'exemple clbre duclub de karat de Zachary (Zachary 1977) montra que la recherche de communautsdans un rseau social simple pouvait eectivement mettre en valeur des phnomnessociaux important au sein du groupe de personnes tudi (et dans le cas de cette tude,anticiper ou expliquer la scission du club de karat en deux groupes). Ces questionsont progressivement gagn de l'attention dans d'autres domaines d'application que celuides sciences sociales, notamment en biologie o certains travaux ont mis en valeur unerelation entre communauts dans les graphes (plutt appels modules dans ce contexted'application) et groupes fonctionnels (voir (Guimer and Amaral 2005) pour un exempled'application un rseau mtabolique).

    Aussi, les propositions de mthodes de classication non supervise des sommets d'ungraphe, destines retrouver une partition de sommets en groupes densment connec-ts, ont connu un dveloppement trs important dans la littrature rcente o elles sontsouvent appeles mthodes de dtection de communauts . Les revues (Schaeer 2007;Porter, Onnela, et al. 2009; Fortunato 2010) proposent trois tats de l'art des mthodesde classication non supervises dans les graphes ainsi que des applications de ces m-thodes sur des donnes issues de domaines d'application varis. galement, (Danon et al.2005; Lancichinetti and Fortunato 2009) comparent les performances de direntes m-thodes de classication non supervise en terme de qualit de la classication obtenue etde complexit de l'algorithme. Parmi les mthodes les plus utilises, on trouve l'optimi-sation d'un critre de qualit spcique aux graphes, appel modularit et introduit dans(M.E.J. Newman and Girvan 2004). Cette optimisation est un problme NP complet etde nombreuses mthodes d'approximation de la rsolution de ce problme ont t propo-ses (M.E.J. Newman 2006; Reichardt and Bornholdt 2006; Blondel et al. 2008; Noackand Rotta 2009), pour n'en citer que quelques-unes. Parmi les approches courammentutilises pour la classication non supervise de sommets dans un graphe, on rencontre

  • 1.2 Classification non supervise & visualisation 11

    aussi le spectral clustering (classication spectrale, (Ng et al. 2002; Luxburg 2007)),qui est base sur la dcomposition spectrale du laplacien du graphe, une matrice dontles proprits algbriques sont fortement relies la structure du graphe.

    Mes travaux en classication non supervise se positionnent sur le dveloppementde mthodologies combinant classication avec visualisation : l'objectif de la visualisa-tion de graphes (Di Battista et al. 1999) est de fournir l'utilisateur une reprsentationd'ensemble du graphe qui soit la fois esthtique et une aide l'interprtation. La plu-part des algorithmes de reprsentation de graphes sont bass sur des modles de forces(Fruchterman and Reingold 1991) et se concentrent sur un rendu esthtique qui favorisedes artes courtes et de tailles uniformes. (Noack 2007) fait remarquer que ce type d'ap-proches a pour consquence de concentrer les sommets de forts degrs au centre de lagure et, de ce fait, ne correspond pas la manire intuitive qu'un utilisateur a de com-prendre les relations existant dans un grand rseau. En eet, l'analyste recherchera aucontraire extraire les grands ensembles et avoir une vue macroscopique des relationsexistant entre eux, puis se focalisera sur les dtails de tel ou tel ensemble d'intrt. Cettedmarche est proche de ce qui est fait en classication non supervise de sommets et ilest donc naturel de combiner les deux approches (classication et visualisation) commeoutil d'exploration d'un graphe. Pour ce faire, plusieurs approches sont possibles :

    1. eectuer une classication non supervise des sommets dans un premier temps etreprsenter le graphe des classes dans un deuxime temps. Le graphe des classes estun graphe simpli dans lequel chaque sommet reprsente une classe (Herman et al.2000). Ces mthodes peuvent tre utilises en combinaison avec une classicationhirarchique des sommets pour permettre une exploration de plus en plus nedu graphe (Auber et al. 2003; Archambault et al. 2010; Sei et al. 2010), quiest implmente de manire interactive dans certains logiciels de visualisation degraphes (voir par exemple, Tulip 1 (Auber 2003) ou Gephi 2 (Bastian et al. 2009)) ;

    2. eectuer une classication non supervise des sommets dans un premier tempset reprsenter le graphe dans son ensemble, en utilisant la donne des graphescomme contrainte sur la reprsentation, dans un second temps. Cette approche aparticulirement t tudie dans le milieu des annes 1990 sous le nom de clusteredgraph visualization (Bourqui et al. 2007; Eades and Feng 1996; Eades and Huang2000) ;

    3. eectuer classication et visualisation en mme temps en introduisant dans larecherche de communauts des contraintes lies la reprsentation du graphe desclasses qui en rsultera. (Noack 2007) propose galement une approche alternativequi est proche de celle-ci en optimisant un modle d'nergie conu pour reprsenter proximit les sommets de zones denses du graphe.

    Mes contributions dans ce champ se situent principalement sur la troisime approcheavec le dveloppement d'une extension des cartes auto-organisatrices pour des donnesdcrites par des noyaux (voir la section 1.2.2) . En particulier, cette approche est utilepour analyser des graphes mais elle peut tre aussi utilise pour l'analyse de donnes nonvectorielles (ou vectorielles) dans un cadre assez gnral. Une approche similaire, maisspcique aux graphes, est dcrite dans la section 1.2.3 o une extension de la modularitest propose pour reprsenter un graphe simpli sur une grille. Cette section prsentegalement une application de la classication base sur le critre de modularit lavisualisation hirarchique d'un grand graphe.

    1. http://tulip.labri.fr2. http://gephi.org

    http://tulip.labri.frhttp://gephi.org

  • 12 Analyse et infrence de graphes

    Mthodes

    Mthodesnoyau

    Mthodesneuronales

    K-SOM

    Rseaux/Graphes

    Donnesmultiples

    SVM

    MLP

    Donnesfonctionnelles

    GGM

    Donnes

    Applicationsen

    biologie

    (rseaux

    biologiques,donn

    es

    mtabolom

    iques)

    Applicationsen

    histoire

    (rseaux

    sociaux)

    modularit

    organise

    Figure1.1Contributions

    prsentes

    dans

    lasection1.2.2App

    roches

    noyau.

  • 1.2 Classification non supervise & visualisation 13

    1.2.2 Approches noyauCette premire partie prsente principalement les travaux des articles (Boulet, Jouve,

    et al. 2008; Massoni et al. 2013; Olteanu, Villa-Vialaneix, and Cierco-Ayrolles 2013; Ol-teanu and Villa-Vialaneix 2015; Mariette et al. 2014; Boelaert et al. 2014). Les thma-tiques abordes dans cette partie sont rsumes dans la gure 1.1 qui est une simpli-cation de la gure 2 dans laquelle les thmatiques non abordes ont t grises. Mesprincipaux collaborateurs sur ces sujets ont t, depuis 2007, Fabrice Rossi (professeurdans l'quipe SAMM, Universit Paris 1) et, depuis 2012, Madalina Olteanu (matressede confrences dans l'quipe SAMM, Universit Paris 1). Actuellement, la thse de J-rme Mariette (Unit MIA-T, INRA de Toulouse), que je co-encadre, s'inscrit dans lapoursuite du dveloppement de cette thmatique.

    Dfinir une dissimilarit ou un noyau pour les graphes

    Lorsque les objets d'tude ne sont pas des donnes numriques standard, commedans le cas des graphes o les objets d'tude sont des entits (les sommets) dcritespar leurs relations, il est commun de les dcrire par une mesure de similarit ou dedissimilarit. Dans le cas des graphes, une dissimilarit classique est la longueur duplus court chemin dans le graphe, reliant deux sommets du graphe. Ces mesures dedissimilarit sont gnralement symtriques et valeurs positives mais peuvent ne pastre euclidiennes. Une autre approche consiste utiliser un noyau qui est une mesure desimilarit possdant quelques proprits additionnelles qui en font son intrt. Le noyauest une application K : V V R (V dsigne l'ensemble des sommets du graphe ou,par extension, n'importe quel espace abstrait) tel que

    x,x V, K(x,x) = K(x,x),

    et

    N N et (i)i=1,...,N R et (xi)i=1,...,N V,N

    i,j=1

    ijK(xi,xj) 0.

    L'intrt des noyaux est qu'ils dnissent, de manire implicite, un cadre euclidien pourl'espace V sur lequel il sont dnis. En eet, (Aronszajn 1950) montre que pour toutnoyau K, il existe un espace de Hilbert (H,.,.H) et une application : V H tels quele noyau correspond exactement au produit scalaire de H pour les donnes transformespar :

    x,x V, K(x,x) = (x),(x)H. (1.1)

    Cette proprit de reproduction de l'espace de Hilbert H, a servi de justication tho-rique pour adapter beaucoup de mthodes d'analyse de donnes classiques au cadre desdonnes dcrites par des noyaux. En eet, utilisant la proprit (1.1), toute mthoded'analyse de donnes (classication supervise ou non supervise, rgression) peut treadapte au cadre non vectoriel de manire naturelle, partir du moment o elle n'estbase que sur des calculs de normes et de produits scalaires : il sut, en eet, de rem-placer ceux-ci par leur quivalent dans l'espace image H en faisant rfrence celui-cide manire implicite, simplement au travers du noyau K. C'est notamment le principesur lequel sont bases les machines vecteurs de support (SVM (Vapnik 1995), voirsection 2.4 pour mes travaux sur le sujet dans le cadre de l'analyse de donnes fonc-tionnelles). Ces approches, dites mthodes noyau ont t utilises avec succs dansde nombreux domaines d'application dont la biologie computationnelle (Schlkopf et al.2004).

  • 14 Analyse et infrence de graphes

    Pour les graphes, plusieurs noyaux ont t proposs dans la littrature, la plupartbass sur le laplacien du graphe qui est la matrice L, de dimension n n, telle que :

    i,j = 1, . . . ,n, Lij ={Wij si i 6= jdi sinon

    ,

    o di est le degr du sommet xi (ie, le nombre d'artes arentes au sommet xi oudi =

    j 6=iWij dans le cadre d'un graphe pondr). Cette matrice est fortement connec-

    te la structure du graphe : par exemple, (Luxburg 2007) montre que les vecteurspropres associs la valeur propre 0 de la matrice permettent de retrouver les compo-santes connexes du graphe. (Heuvel and Pejic 2001; Boulet, Jouve, et al. 2008) montrentd'autres proprits structurelles du graphe lis la dcomposition spectrale du laplacien.Dans un cadre trs gnral, ces proprits structurelles ont t utilises pour justier uneapproche de classication non supervise base sur le laplacien et appele classicationspectrale ( spectral clustering ).

    Plusieurs noyaux ont t dnis partir de versions rgularises du laplacien d'ungraphe, parmi lesquels : le noyau de la chaleur (R.I. Kondor and Laerty 2002) : K(xi,xj) = [K]ij avecK = e

    L dont on peut dmontrer qu'il correspond un processus de diusionde la chaleur le long des artes du graphe (le paramtre dnissant l'intensitde la diusion). Ce noyau a t utilis de nombreuses fois avec succs en biologiecomputationnelle (voir, par exemple, (Yamanishi, J.P. Vert, Nakaya, et al. 2003)pour une application la classication non supervise dans un rseau gnomique,(Yamanishi, J.P. Vert, and Kanehisa 2005) pour une application l'infrence derseaux enzymatiques) ; le noyau du temps moyen de parcours (Fouss et al. 2006) : K = L+ o L+ estl'inverse gnralise du laplacien. L aussi, ce noyau a une interprtation concrtesimple : il permet de calculer le temps moyen ncessaire avec une marche alatoirele long des artes pour relier deux sommets du graphe. (Pons and Latapy 2006)utilisent une ide similaire pour calculer une mesure de dissimilarit entre sommetsd'un graphe de manire rapide.

    Un cadre gnral pour ce type de noyaux, drivs du laplacien, est dcrit dans (Smolaand R. Kondor 2003).

    Parfois, les donnes ne sont pas dcrites pas un noyau mais par une mesure de dis-similarit. De manire similaire au cadre du noyau, cette dissimilarit peut tre plongedans un espace euclidien si elle ralise la condition suivante (Schoenberg 1935; Youngand Householder 1938; Krislock and Wolkowicz 2012) : la matrice d'lments

    sij =((xi,xn)

    2 + (xj ,xn)2 (xi,xj)2

    )/2

    est positive. Dans ce cas, s peut-tre utilis directement comme noyau, ainsi que lamatrice d'lments

    s(i,j) = 12

    2(xi,xj) 1n

    nk=1

    2(xi,xk)1

    n

    nk=1

    2(xk,xj) +1

    n2

    nk,k=1

    2(xk,xk)

    comme suggr dans (Lee and Verleysen 2007). Lorsque cela n'est pas le cas, (Y. Chenet al. 2009) propose de faire subir la matrice de similarits utilise, un pr-traitementconsistant supprimer du spectre les vecteurs propres associs aux valeurs propres n-gatives du spectre de la matrice ou bien utiliser une reconstruction base sur l'op-pose des valeurs propres ngatives. Les similarits obtenues ne sont alors plus iden-tiques aux similarits de dpart et une approche alternative s'appuie sur le concept

  • 1.2 Classification non supervise & visualisation 15

    d'espace pseudo-euclidien dcrit dans (Pkalska and Duin 2005) qui montrent que si = ((xi,xj))i,j=1,...,n est une matrice de dissimilarit symtrique entre lments xi etxj de V alors il existe deux espaces euclidiens (E ,.,.E) et (F ,.,.F ) et une applicationde plongement : x G (|E(x),|F (x)) E F tels que

    (xi,xj) = |E(xi) |E(xj)2E |F (xi) |F (xj)2F . (1.2)

    De manire similaire l'quation (1.1), l'quation prcdente donne un cadre gnralpour tendre les mthodes d'analyse de donnes bases sur des calculs de normes et deproduits scalaires aux donnes dcrites par des mesures de dissimilarit.

    Carte auto-organisatrice pour donnes dcrites par un noyau ou une mesure de dissi-milarit

    L'algorithme de cartes auto-organisatrices (parfois appeles cartes de Kohonen ouSOM ) a t propos par T. Kohonen (Kohonen 1995). C'est une mthode d'analyse dedonnes non supervise qui allie classication non supervise et projection des donnessur un espace de faible dimension. De manire plus prcise, les donnes sont projetessur une carte qui est une grille, souvent rgulire et rectangulaire, gnralement dedimension 2 ou 1, compose de neurones ou units. La grille est munie d'une topologiequi dnie une distance entre units. Les donnes sont alors classes dans les units(qui constituent donc chacune une classe) de manire ce que la topologie de celles-cidans l'espace initial soit prserve : deux observations voisines dans l'espace des donnessont classes dans la mme unit (comme pour tout algorithme de classication nonsupervise) ou dans des units voisines sur la carte. Chaque unit est reprsente dansl'espace d'origine par un prototype qui est un centre de gravit gnralis des observationsde cette unit et des units voisines (les observations sont prises en compte avec unepondration dpendant de la distance, sur la grille, avec l'unit dans laquelle elles sontclasses). Dans le cadre numrique, l'algorithme alterne de manire itrative : une tape d'aectation qui consiste aecter une ou des observations l'unitdont le prototype est le plus proche ; une tape de reprsentation qui consiste remettre jour les prototypes partir des modications eectues dans l'tape prcdente.

    L'apprentissage est gnralement eectu de deux manires possibles (qui sont dclinesen de trs nombreuses variantes) : en version dterministe (appel aussi batch : dansce cas, l'tape d'aectation concerne toutes les observations du jeu de donnes) ou enversion stochastique (appel aussi on-line : dans ce cas, chaque itration, une seuleobservation, tire au hasard, est traite et l'tape de reprsentation correspond unepseudo-descente de gradient stochastique ; des rsultats thoriques de convergence, surdes cartes de dimension 1, sont donnes dans (Cottrell, Fort, and Pags 1998) pour cetteversion de l'algorithme). (Fort et al. 2002) discutent les avantages et inconvnients desdeux approches : la version dterministe de l'apprentissage est gnralement plus rapidemais au dtriment de la qualit de l'organisation des donnes sur la carte.

    Lorsque les donnes ne sont pas vectorielles, la question de la dnition des proto-types dans l'espace initial ne peut tre ralise de manire classique. Plusieurs exten-sions de l'algorithme de carte auto-organisatrice ont t proposes dans ce cadre. Unepremire approche utilise une mthode proche de l'analyse des correspondances mul-tiples (AFCM) pour tendre les cartes auto-organisatrices des donnes catgorielles(Cottrell and Letrmy 2005). D'autres approches, utilisables dans le cadre de l'analysede graphe, ncessitent uniquement la connaissance d'une mesure de dissimilarit entreles donnes. Elles sont bases sur le principe de la mdiane (Kohohen and Somervuo1998) qui remplace le calcul traditionnel des prototypes par une optimisation eectue

  • 16 Analyse et infrence de graphes

    sur le jeu de donnes initial (un prototype correspond alors une observation du jeude donnes et la distance entre prototypes et observations dcoule alors directementde la connaissance de la mesure de dissimilarit entre paires d'observations). Un desprincipaux dsavantages de cette approche est qu'elle est particulirement restrictive etdpend fortement de la qualit de reprsentation des donnes traites avec des eets desous-optimisation importants sur l'tape de reprsentation. Pour augmenter la exibilitde cette mthode, (Conan-Guez et al. 2006) proposent de reprsenter chaque unit parplusieurs prototypes, tous choisis parmi les donnes initiales mais cette approche peutconsidrablement augmenter les temps de calcul alors que les prototypes sont toujourscontraints tre choisis parmi les donnes initiales.

    Une alternative aux algorithmes bass sur le principe de la mdiane se rapproche ducadre euclidien standard. Deux approches assez similaires ont t dveloppes : lorsque les donnes sont dcrites par un noyau K, l'algorithme de cartes auto-organisatrices noyau a t propos, pour sa version stochastique, dans (MacDonald and Fyfe 2000; Andras 2002) et pour sa version dterministe dans (Villaand Rossi 2007; Boulet, Jouve, et al. 2008) ; lorsque les donnes sont dcrites par une mesure de dissimilarit , non ncessai-rement euclidienne, l'algorithme de cartes auto-organisatrices dit relationnel a t propos, pour sa version stochastique dans (Olteanu, Villa-Vialaneix, andCottrell 2012; Olteanu and Villa-Vialaneix 2015), et pour sa version dterministedans (Hammer, Hasenfuss, et al. 2007; Rossi, Hasenfuss, et al. 2007; Hammer andHasenfuss 2010).

    Le rcent article (Rossi 2014) fait une revue des direntes versions de l'algorithmede cartes auto-organisatrices pour donnes non vectorielles, tablit les liens entre cesdirentes versions et en discute les limites et les perspectives. Ici, nous nous restrein-drons la prsentation des algorithmes proposs dans (Villa and Rossi 2007; Boulet,Jouve, et al. 2008; Olteanu and Villa-Vialaneix 2015) et montrerons ensuite commentces approches peuvent tre utilises pour reprsenter de manire simplie des grapheset tre ainsi une aide pour la comprhension de leur structure. Pour ce faire, nous d-nissons pralablement quelques notations relatives aux cartes auto-organisatrices. Dansla suite, la grille sera suppose tre compose de U units dont les prototypes serontnots (pu)u=1,...,U . La grille est galement munie d'une relation topologique entre units,classiquement appele distance que nous noterons d (d est donc une application de{1, . . . ,U}{1, . . . ,U} R+). Une distance naturelle d(u,u) sur une grille peut tre lalongueur du plus court chemin entre les units u et u sur la grille ou bien la distanceeuclidienne entre leurs positions sur la grille. Enn, pour une observation xi, f(xi) d-signera l'unit (ie, la classe, pour reprendre le vocabulaire utilise en classication nonsupervise) dans laquelle xi est aect.

    La version dterministe de l'algorithme de carte auto-organisatrice noyau consiste proposer une reprsentation des prototypes dans l'espace image(H,.,.H). En eet, contrairement l'espace initial dans lequel voluent les donnes(les sommets du graphe, par exemple), l'espace image est un espace vectoriel standardmuni des oprations usuelles. Les prototypes s'expriment alors comme des combinaisonsconvexes des images par des donnes initiales :

    pu =

    ni=1

    ui(xi) o ui 0 eti

    ui = 1.

    La phase d'aectation d'une donne xi consiste donc rechercher le prototype le plusproche, au sens de la distance dans l'espace image H, en utilisant un calcul des distances

  • 1.2 Classification non supervise & visualisation 17

    bas sur la seule connaissance du noyau K :

    (xi) pu2H = (xi)j

    uj(xj)2H

    = K(xi,xi) 2j

    ujK(xi,xj) +jj

    ujujK(xj ,xj).

    La phase de reprsentation des prototypes consiste ensuite remettre jour tous lesprototypes en calculant le centre de gravit gnralis des donnes :

    u = 1, . . . ,U, pu = arg minp=

    i i(xi)

    ni=1

    H(d(f(xi),u))(xi) p2H (1.3)

    oH est une fonction de voisinage telle queH : R+ R+,H(0) = 1 et limx+H(x) =0, qui gnralement, dcrot au cours de l'apprentissage. L'quation (1.3) a une solutiontrs simple qui ne ncessite pas non plus par la connaissance de l'espace image ni del'application de plongement :

    u = 1, . . . ,U et i = 1, . . . ,n, ui =H(d(f(xi),u))nj=1H(d(f(xj),u))

    .

    La mthode complte est dcrite dans l'algorithme 1. (Villa and Rossi 2007) discutent

    Algorithme 1 SOM noyau, version dterministe

    1: u = 1, . . . ,U et i = 1, . . . ,n, initialiser 0ui alatoirement dans [0,1] tel queni=1

    0ui = 1 Rsultat : p

    0u =

    i

    0ui(xi)

    2: Pour l = 1 L Faire3: aectation i = 1, . . . ,n, aecter xi :

    f l(xi) = arg minu(xi) pl1u 2H

    4: reprsentation u = 1, . . . ,U , mettre jour pu :

    plu =i

    lui(xi) o lui =

    H l(d(f l(xi),u))nj=1H

    l(d(f l(xj),u))

    5: Fin Pour6: Rsultat : (pLu )u et (f

    L(xi))i

    les relations entre cet algorithme et l'algorithme standard dans le cadre euclidien ainsique ces relations avec l'algorithme bas sur le principe de la mdiane.

    Lorsque les donnes ne sont pas dcrites par un noyau mais par une mesure dedissimilarit, non ncessairement euclidienne, (Hammer and Hasenfuss 2010) suggrentd'utiliser un principe similaire et d'exprimer galement les prototypes par une combi-naison convexe de leurs images dans l'espace pseudo-euclidien sous-jacent :

    pu =i

    ui(xi) o ui 0 eti

    ui = 1.

    La phase d'aectation d'une donne xi, choisie au hasard, qui consiste rechercher leprototype le plus proche au sens de la dissimilarit , se rduit donc

    f(xi) = arg minu=1,...,U

    iu 1

    2Tu u

  • 18 Analyse et infrence de graphes

    o i est la ime ligne de la matrice = (ij)i,j=1,...,n. En version stochastique, la phasede reprsentation consiste ensuite mettre jour les prototypes par une pseudo-descentede gradient :

    pnewu = pold

    u + H (d (f(xi),u))((xi) poldu

    ), (1.4)

    o est un paramtre qui en gnral dcrot au cours du temps t (classiquement lavitesse 1/t). La calcul de l'quation (1.4) ne ncessite pas la connaissance de l'espaceimage et de la fonction de plongement mais se rduit une remise jour des coecientsu :

    newu = old

    u + H (d (f(xi),u))(1i oldu

    ),

    o u = (u1, . . . ,un)T et 1i est le vecteur de dimension n dont le seul coecientnon nul est le ime. La mthode complte est dcrite dans l'algorithme 2. De manire

    Algorithme 2 SOM relationel, version stochastique

    1: u = 1, . . . ,U et i = 1, . . . ,n, initialiser alatoirement 0ui dans [0,1] tel queni=1

    0ui = 1 Rsultat : p

    0u =

    i

    0ui(xi)

    2: Pour l = 1 L Faire3: Choisir au hasard une observation xi parmi (xj)j4: aectation aecter xi :

    f l(xi) = arg minu=1,...,U

    (i

    l1u

    1

    2(l1u )

    Tl1u

    )5: reprsentation u = 1, . . . ,U ,

    plu =i

    lui(xi) o lu =

    l1u + (l)H

    l(d(f l(xi),u))(1i l1u

    )6: Fin Pour7: Rsultat : (pLu )u et (f

    L(xi))i

    rigoureuse, la phase de reprsentation n'est pas une vraie phase de descente de gradient,car l'algorithme de carte auto-organisatrice ne possde pas de vritable fonction de cot.Toutefois, (Heskes 1999) prouve que, dans le cadre d'une taille de voisinage xe, et avecune tape d'aectation modie, l'algorithme de carte auto-organisatrice minimise unenergie obtenue partir de la formule de la mdiane gnralise.

    (Olteanu and Villa-Vialaneix 2015) soulignent que les complexits des deux versions(dterministe et stochastique) des algorithmes relationels et noyau, sont comparables,de l'ordre de O(Un2)) mais que le nombre d'itrations ncessaires pour stabiliser l'al-gorithme dterministe est gnralement infrieur celui ncessaire pour stabiliser sonquivalent stochastique. Toutefois, la meilleure organisation des donnes sur la cartecompense ce dsavantage. Formellement parlant, la convergence de l'algorithme de cartesauto-organisatrices n'a t prouve que dans des cas trs restreints (Cottrell and Fort1987; Cottrell, Fort, and Pags 1998) et qui ne sont pas gnralisables au cadre pseudo-euclidien (lorsque la dissimilarit n'est pas euclidienne) comme soulign dans (Hammer,Gisbrecht, et al. 2011) pour l'algorithme Neural Gaz. Des preuves de la convergence dela version modie propose par (Heskes 1999) existent toutefois mais l encore, ne sontpas extensibles au cadre pseudo-euclidien.

  • 1.2 Classification non supervise & visualisation 19

    Mise en uvre et exemple dapplication en visualisation de graphesUne partie des mthodes dcrites dans la section prcdente ont t implmentes

    et rendues publiques dans un package R 3 appel SOMbrero 4. L'implmentation dupackage a dbut dans le cadre du stage de Laura Bendhaba, (Bendhaba et al. 2013;Boelaert et al. 2014) ; SOMbrero propose une implmentation de la version stochastiquede l'algorithme de carte auto-organisatrice, qui est prvue pour traiter trois types dedonnes : des donnes numriques standard, multi-dimensionnelles ; des donnes dcrites par une table de contingence qui sont traites l'aide del'algorithme Korresp (Cottrell, Letrmy, and Roy 1993) ; l'algorithme relationel comme dcrit dans (Olteanu and Villa-Vialaneix 2015).Le package incorpore de nombreuses fonctionnalits, notamment : de nombreux graphiques pour analyser la carte obtenue (eectifs des classes, r-sums des individus et des prototypes par classe, ajout de variables extrieures,reprsentation des distances entre prototypes) ; une fonctionnalit pour obtenir une classication non supervise a posteriori desprototypes, appele super-classes et pour reprsenter cette classication ; des critres de qualit (erreur de quantication, qui est le calcul de la varianceintra-classe gnralise des observations, erreur topographique (Polzlbauer 2004)qui dtermine la qualit de l'organisation de la carte en calculant la frquenced'observations pour laquelle la seconde meilleure unit n'est pas dans le voisinagedirect de l'unit laquelle l'observation a t aecte).

    Les deux premiers algorithmes (pour donnes numriques et tables de contin-gence) ont t implmentes en s'inspirant d'une partie des heuristiques des pro-grammes originaux de Patrick Letremy (SAS/IML, voir http://samm.univ-paris1.fr/Programmes-SAS-de-cartes-auto).

    L'implmentation a t pense de manire ce que l'utilisation soit simplie pourl'utilisateur, avec la possibilit d'appeler chacune de ces fonctionnalits en seulementune ligne de commande (et des valeurs par dfaut choisies de manire pertinente). Desexemples reprenant des jeux de donnes standard ou originaux ont galement t in-corpors au package, sous forme de vignettes dcrivant les commandes et analysant lesrsultats. En particulier, l'exemple fourni pour illustrer l'algorithme relationnel est bassur l'tude d'un graphe et montre comment l'algorithme de carte auto-organisatrice peuttre utilis pour fournir l'utilisateur une vision simplie du graphe et l'aider en em-brasser d'un coup d'il sa structure macroscopique avant une analyse plus dtaille.

    En guise d'exemple, un graphe simple est tudi qui est dcrit dans (Knuth 1993).Les sommets de ce graphe sont les 77 personnages du roman Les misrables de VictorHugo. Les 254 artes du graphe modlisent la co-apparition de deux personnages donnsdans le mme chapitre du roman 5. Le graphe de co-apparitions est reprsent dans lagure 1.2. En calculant une matrice de dissimilarits qui correspond la longueur duplus court chemin entre paires de sommets du graphe (non pondr), l'algorithme decarte auto-organisatrice relationnel permet de traiter les donnes : chaque sommet dugraphe est alors aect une unit d'une grille que nous avons choisie rectangulaire etde dimension 5 5. Une fois cette classication obtenue, il est possible d'en tirer unereprsentation simplie du graphe en reprsentant le graphe des classes comme suit :

    3. R est un logiciel libre de programmation statistique ; voir http://www.r-project.org.4. disponible sur R-Forge : http://sombrero.r-forge.r-project.org. Dernire version : 0.1-2-beta,

    Fvrier 2014.5. Le graphe est tlchargeable http://people.sc.fsu.edu/~jburkardt/datasets/sgb/jean.

    dat.

    http://samm.univ-paris1.fr/Programmes-SAS-de-cartes-autohttp://samm.univ-paris1.fr/Programmes-SAS-de-cartes-autohttp://www.r-project.orghttp://sombrero.r-forge.r-project.orghttp://people.sc.fsu.edu/~jburkardt/datasets/sgb/jean.dathttp://people.sc.fsu.edu/~jburkardt/datasets/sgb/jean.dat

  • 20 Analyse et infrence de graphes

    Figure 1.2 Graphe de co-apparitions des personnages du roman Les Misrables

    chaque unit de la grille est reprsente par un disque dont l'aire est proportionnelleau nombre de sommets classs dans cette unit ; les units sont jointes par des artes dont l'paisseur est proportionnelle au nombretotal d'artes joignant deux sommets de chacune des deux classes.

    Les rsultats sont donns dans les gures 1.3 (reprsentation simplie) et 1.4 (classi-cation des 77 personnages sur la grille). Ils ont t obtenus partir des commandessuivantes :

    data(lesmis)

    mis.som

  • 1.2 Classification non supervise & visualisation 21

    Figure 1.3 Reprsentation simplie (graphe des classes) de la carte obtenue pourle graphe Les Misrables par l'algorithme de carte auto-organisatrice stochastiquerelationel tel qu'implment dans le package SOMbrero

    On y retrouve les sous-histoires relatives au roman et plusieurs classes sont organisesautour d'un personnage principal. Les relations sur la carte permettent donc d'appr-hender les liens entre les divers personnages. Si on numrote les classes de 1 25, de basen haut puis de gauche droite, en haut gauche, la classe 5 est organise autour del'vque monseigneur Myriel, qui constitue la premire partie du roman et inuencerale destin futur de Valjean. Valjean est situ dans la classe 2 (sur la gauche), avec desconnexions vers toutes les autres parties de la carte. Parmi les personnages qui lui sontles plus proches se trouve Javert (classe 7, deuxime classe en bas et gauche), le policierqui le poursuit, et Fantine (classe 11, en bas, au centre) qui il vient en aide. Cosette, lapupille de Valjean, et Marius, son amoureux, sont dans les classes 14 et 15 (en haut aucentre). L'approche de simplication de la reprsentation d'un graphe, illustre ici surun exemple jouet simple qui peut tre compris directement par visualisation directe dugraphe, prend tout son sens pour l'analyse de graphes plus complexes (car plus grand),comme discut dans la section 1.2.4.

    noter que SOMbrero dispose aussi d'une interface graphique (interface web dve-loppe l'aide du package shiny) accessible en ligne http://shiny.nathalievilla.org/sombrero ou bien directement en local, en chargeant le package SOMbrero dans Ret en excutant la ligne de commande :

    sombreroGUI ()

    Une copie d'cran de l'interface graphique est fournie dans la gure 1.5

    http://shiny.nathalievilla.org/sombrerohttp://shiny.nathalievilla.org/sombrero

  • 22 Analyse et infrence de graphes

    Figure 1.4 Classication des divers personnages du graphe Les Misrables parl'algorithme de carte auto-organisatrice stochastique relationel tel qu'implment dansle package SOMbrero

    Intgrer des informations extrieures

    Les applications relles fournissent des donnes de plus en plus complexes et notam-ment, pour le cas de l'analyse de rseaux, il n'est pas rare de disposer d'informationssupplmentaires, sur les sommets ou les artes du graphe. Dans cette partie, nous sup-poserons connues un certain nombre de variables, appeles tiquettes, qui dcrivent lessommets du graphe. Ces variables peuvent tre ventuellement regroupes en groupes thmatiques . De manire plus prcise, on notera (x(1)i )i=1,...,n, ..., (x

    (D)i )i=1,...,n, D

    groupes de variables dcrivant les sommets x1, . . . ,xn du graphe, ces variables pouvanttre de nature quelconque (ou bien elles mmes des sommets d'un autre graphe).

    En sciences sociales, croiser les informations additionnelles sur les sommets du grapheavec la classication est une pratique courante : cette opration est habituellement me-ne sous l'angle de l'assortativit : il s'agit de comprendre si des sommets d'un groupedonn partagent des caractristiques communes aprs avoir eectu une classicationnon supervise des sommets (voir (Traud et al. 2011) pour le calcul de la signicativitd'un coecient d'assortativit qui met en relation classes du rseau facebook c de plu-sieurs universits amricaines) et divers types de caractristiques dcrivant les tudiantsimpliqus dans ce rseau ou bien (Laurent and Villa-Vialaneix 2011) pour l'utilisationd'indices issus de la statistique spatiale pour tudier la signicativit du lien entre struc-

  • 1.2 Classification non supervise & visualisation 23

    Figure 1.5 Interface web du package SOMbrero.

    ture d'un rseau et valeur des variables dcrivant les sommets.Dans (Olteanu, Villa-Vialaneix, and Cierco-Ayrolles 2013; Olteanu and Villa-

    Vialaneix 2015), nous abordons cette question sous l'angle de l'intgration des infor-mations supplmentaires pour construire une carte auto-organisatrice. En classicationnon supervise, cette question a dj t aborde par d'autres auteurs de diverses ma-nires : (Steinhaeuser and Chawla 2008) eectue une classication principalement basesur les tiquettes des sommets qui est ensuite corrige par un principe de seuillage bassur les poids des artes entre sommets. (Ester et al. 2006; Moser et al. 2007; Ge et al.2008) formalisent cette question sous la forme d'un problme d'optimisation bas sur desdistances entre tiquettes proches de l'algorithme des k-moyennes. l'inverse, d'autresauteurs favorisent la structure du graphe dans leur classication, comme (Cruz et al.2011; H. Li et al. 2008). Enn, d'autres auteurs cherchent, comme nous, quilibrerles contributions des dirents types de donnes : (Combe et al. 2012; Combe et al.2013) combinent deux critres (un critre de modularit et un critre d'entropie) pourobtenir un critre global optimiser tenant compte des dirents objectifs. (Hanischet al. 2002; Zhou et al. 2009) combinent diverses dissimilarits en une dissimilarit glo-bale qui est utilise pour la classication. Dans le cadre des cartes auto-organisatrices,diverses mthodologies ont galement t proposes pour combiner des informations :(Lebbah et al. 2005) combinent informations numriques et binaires en se basant surdeux nergies de quantication qui sont optimises en parallle. (Ghassany et al. 2012)introduisent un critre de collaboration, aprs la phase d'apprentissage des direntescartes qui correspondent chacune un groupe de variables.

    Nous abordons cette question de manire dirente en supposant connu unnoyau pour chaque groupe d'tiquettes, K(d) (d = 1, . . . ,D), qui dcrit la similarit

    K(d)(x(d)i ,x

    (d)i

    )entre les tiquettes du groupe d des sommets xi et xi du graphe ou

    bien une dissimilarit qui dcrit la dissimilarit entre ces mmes tiquettes. Pour desquestions de clart du propos, nous nous restreignons dans cet expos au cas o unnoyau est connu mais l'approche est gnralisable au cadre de dissimilarits comme d-crit dans (Olteanu and Villa-Vialaneix 2015). L'ide principale consiste combiner lesdiverses informations par le biais de la dnition d'un noyau unique qui est la combinai-son convexe des divers noyaux :

    i = 1, . . . ,n, K (xi,xi) =Dd=0

    dK(d)(x(d)i ,x

    (d)i

    ), d 0 et

    d

    d = 1, (1.5)

  • 24 Analyse et infrence de graphes

    o x(0)i := xi, K(0) := K est un noyau sur les sommets du graphe initial G, comme dcrit

    dans les sections prcdentes et xi = (xi, x(1)i , . . . ,x

    (D)i ). (Yamanishi, J. Vert, et al. 2004;

    Yamanishi, J.P. Vert, and Kanehisa 2005) ont utilis une approche similaire pour del'infrence de rseaux (classication supervise) qui intgre de l'information provenantde plusieurs sources de donnes recueillies divers niveaux de l'chelle du vivant. Le choixdes poids relatifs chacun des noyaux y est bas sur une mesure de performance de laclassication supervise. De manire similaire, (Lanckriet et al. 2004; Rakotomamonjy etal. 2008) proposent de rsoudre directement un problme d'optimisation dans lequel lespoids (d)d sont optimiss simultanment avec la rsolution du problme d'optimisationclassique de SVM supervis. Dans le cadre non supervis, une approche similaire estpropose par (Zhao et al. 2009) qui optimisent la combinaison linaire sur un critre dequalit de la classication (voir aussi (Gnen and Alpaydin 2011) pour une revue desdiverses approches permettant de combiner plusieurs noyaux).

    Algorithme 3 Carte auto-organisatrice multi-noyaux

    1: u = 1, . . . ,U et i = 1, . . . ,n, initialiser alatoirement 0ui dans [0,1] tel queni=1

    0ui = 1

    2: d = 0, . . . ,D, initialialiser 0d =1

    D+1 Rsultat : p,0u =n

    i=1 0ui

    Dd=0

    0d

    (d)(x(d)i )

    3: Pour l = 1 L Faire4: Choisir au hasard une observation xi parmi (xj)j5: aectation aecter xi

    f l(xi) arg minu=1,...,U

    l1(xi) p,l1u Hl16: reprsentation u = 1, . . . ,U ,

    lu l1u + (l)H l(d(f t(xi),u)

    ) (1i l1u

    )7: optimisation des poids

    d = 0, . . . ,D, ld l1d + (t)Dld

    Rsultat : p,lu =n

    i=1 lui

    Dd=0

    ld

    (d)(x(d)i )

    8: Fin Pour9: Rsultat : L, (p,Lu )u et (fL(xi))i

    De manire similaire (Rakotomamonjy et al. 2008), nous proposons d'optimiser lacombinaison convexe des noyaux en intgrant une tape de pseudo-descente de gradientstochastique l'algorithme. Cette ide est aussi similaire celle de (Villmann et al.2012) pour optimiser le paramtre d'un noyau dans les algorithmes LVQ. De manireplus prcise, on dtermine la drive, par rapport aux (d)d de la fonction de cot

    E((ui)ui,(d)d) =Uu=1

    ni=1

    H(d(f(xi),u))(xi) pu2H

    o(H,.,.H

    )dsigne l'espace de Hilbert associ au noyau dni dans l'quation (1.5),

  • 1.2 Classification non supervise & visualisation 25

    dsigne la fonction de plongement sous jacente et

    pu =ni=1

    ui

    Dd=0

    d(d)(x

    (d)i ) =

    ni=1

    ui(xi)

    avec (d) la fonction de plongement associ au noyau K(d). Dans la version stochastiquede l'algorithme de carte auto-organisatrice noyau, classication (f(xi))i xe, lacontribution de l'observation choisie xi cette drive est : d = 0, . . . ,D,

    Dd :=E|xid

    =Uu=1

    H (d(f(xi),u))

    K(d)(x(d)i ,x(d)i ) 2 nj=1

    ujK(d)(x

    (d)i ,x

    (d)j )+

    nj,j=1

    ujujK(d)(x

    (d)j ,x

    (d)j )

    .Utilisant cette drive, une tape de pseudo-descente de gradient est intgre dans l'al-gorithme pour l'optimisation en ligne des poids (d)d comme dcrit dans l'algorihme 3.

    Pour assurer que l'tape d'optimisation des poids respecte la contrainte de convexitdes (d)d, une stratgie similaire celle dcrite dans (Luenberger 1984; Bonnans 2006;Rakotomamonjy et al. 2008) est utilise : le gradient (Dld)d est rduit et projet de cettemanire :

    Dd =

    0 if d = 0 et Dd Dd0 > 0Dd +Dd0 if d > 0 et d 6= d0

    d6=d0, d>0 (Dd Dd0) sinon

    D'un point de vue pratique, on fait dcrotre le pas (t) la vitesse habituelle 0/t avecune valeur initiale 0 susamment petite pour assurer la positivit des (d)d.

  • 26 Analyse et infrence de graphes

    Mthodes

    Mthodesneuronales

    Rseaux/Graphes

    modularit

    organise

    SVM

    MLP

    Donnesfonctionnelles

    Donnes

    Applicationsen

    biologie

    (rseaux

    biologiques,donn

    es

    mtabolom

    iques)

    Donnesmultiples

    GGM

    Mthodesnoyau

    K-SOM

    Applicationsen

    histoire

    (rseaux

    sociaux)

    Figure1.6Contributions

    prsentes

    dans

    lasection1.2.3App

    roches

    bases

    surla

    modularit

  • 1.2 Classification non supervise & visualisation 27

    1.2.3 Approches bases sur la modularitCette seconde partie prsente principalement les travaux des articles (Rossi and Villa

    2009; Rossi and Villa-Vialaneix 2010; Rossi and Villa-Vialaneix 2011b). Les thmatiquesabordes dans cette partie sont rsumes dans la gure 1.6 qui est une simplication dela gure 2 dans laquelle les thmatiques non abordes ont t grises. Mon principal col-laborateur sur ce sujet est Fabrice Rossi (actuellement professeur dans l'quipe SAMM,Universit Paris 1).

    La modularit comme critre de classification de sommets dun grapheLes travaux prsents dans la section prcdente sont bass sur l'utilisation d'une

    approche gnrique pour des donnes non vectorielles dcrites par un noyau ou unemesure de dissimilarit. Elles construisent une classication, organise sur une carte, quiest base sur le plongement du graphe dans un espace euclidien ou pseudo-euclidien.Dans la section actuelle, nous utilisons un autre type d'approches, bases sur un critrede qualit propre aux graphes, la modularit (M.E.J. Newman and Girvan 2004). Nousdveloppons des mthodes qui permettent la visualisation du graphe en nous appuyantsur une classication obtenue par optimisation de la modularit ou d'un critre drivde celle-ci. Rappelons que, pour une partition donne des sommets du graphe, C1, . . . ,CC , la modularit a pour expression

    Q(C1, . . . ,CC) =1

    2m

    k=1,...,C

    xi, xjCk

    (Wij

    didj2m

    )(1.6)

    o m est le nombre d'artes (ou la somme des poids des artes 1/2n

    i,j=1Wij dans legraphe et les autres notations sont celles introduites prcdemment (Wij est le poidsde l'arte entre les sommets xi et xj et di est le degr du sommet xi, di =

    j 6=iWij).

    L'ide de ce critre de qualit d'une classication est qu'il mesure la pertinence de classerensemble deux sommets du graphe en comparant le poids de l'arte qui les joint (ce poidstant gal 0 si aucune arte ne relie les sommets considrs) un modle nul danslequel les poids des artes ne dpendent que du degr des sommets considrs et non dela partition des sommets. Dans le modle nul, les poids thoriques des artes, Pij =

    didj2m

    sont proportionnels aux degrs des sommets arents l'arte et sont normaliss de tellemanire que la somme des poids (Wij)ij est gale la somme des poids thoriques (Pij)ij .Ainsi, si le poids de l'arte (xi,xj), Wij , est beaucoup plus grand que le poids thoriquedu modle nul, Pij , cette arte est considre comme particulirement importante et la partition C1, . . . , CC maximisant le critre Q aura tendance classer xi et xjdans la mme classe. Le fait de ne pas minimiser directement le nombre d'artes entreles sommets de classes direntes mais de tenir compte des degrs des sommets desgraphes permet de mieux sparer les sommets de fort degrs (une arte arente un telsommet ayant une importance moindre dans le critre de qualit) que pour des approchessimilaires au critre de coupe optimale comme la classication spectrale (Luxburg 2007).L'ide est de dire que les artes des sommets les plus populaires n'ont pas unesignication aussi forte que les artes de sommets de plus faible degr.

    Dans (Fortunato and Barthlmy 2007), les auteurs montrent que l'optimisation dela modularit peut induire des problmes de rsolution (certaines petites communautssignicatives peuvent ne pas tre dtectes par optimisation de la modularit). Toutefois,malgr ce problme, la modularit reste une des mesures les plus utilises pour l'obten-tion de communauts et elle a montr sa pertinence pour mettre en valeur la structured'un rseau. Dans (Villa-Vialaneix, Liaubet, Laurent, Cherel, et al. 2013), lors d'un tra-vail dbut dans le cadre du stage de Adrien Gamot, nous montrons notamment que les

  • 28 Analyse et infrence de graphes

    groupes de gnes obtenus par optimisation de la modularit ont une cohrence forte enterme de groupe fonctionnel (c'est--dire de groupes de gnes partageant une fonctionbiologique commune). La maximisation de Q est un problme NP-complet et ncessitedonc un algorithme de rsolution heuristique. Pour ce faire, de nombreuses approchesont t proposes : l'approche initiale, dcrite dans (M. Newman 2004), s'appuie sur unedmarche de classication hirarchique simple, elle est rapide mais en pratique conduit des solutions sous ecaces (en terme de modularit de la classication trouve). Uneapproche plus performante, mais aussi plus coteuse en temps de calcul, est d'utiliserune optimisation par recuit simul (Guimer, Sales-Pardo, et al. 2004; Villa-Vialaneix,Liaubet, Laurent, Cherel, et al. 2013) ou par recuit dterministe (Lehmann and Han-sen 2007). Utilisant une matrice de modularit, (M.E.J. Newman 2006) a propos unemthode approche base sur une approche spectrale. Toutefois, le meilleur compromisentre temps de calcul (qui permet de traiter de trs gros rseaux) et qualit de l'optimi-sation semble avoir t atteint par les algorithmes gloutons ranement hirarchiquedcrits dans (Noack and Rotta 2009).

    Dans la suite, je prsenterai tout d'abord une approche base sur une carte auto-organisatrice qui s'appuie sur une adaptation du critre de modularit prsent plus haut.L'optimisation du nouveau critre est eectue par une approche par recuit dterministe.Dans un second travail, je prsenterai comment, par une approche en deux temps, il estpossible d'utiliser la modularit pour obtenir des reprsentations synthtiques du graphe.Dans ce travail, un algorithme similaire celui de (Noack and Rotta 2009) est utilis demanire hirarchique pour explorer le graphe et un test de signicativit d'une partitionde sommets est propos.

    Un critre de modularit organiseDans cette partie, nous adaptons l'ide de carte topographique un contexte qui est

    spcique au graphe. Ce travail est dcrit dans (Rossi and Villa 2009; Rossi and Villa-Vialaneix 2010). De la mme manire que dans la section 1.2.2, nous supposerons doncque nous disposons d'une carte compose de U units, {1, . . . ,U} munie d'une structurede voisinage. Cette structure de voisinage est ici modlise par une mesure de similarita priori, fournie sous la forme d'une matrice S, de dimensions UU et telle que Suu = 1et Suu = Suu. Pour faire le lien avec les notations introduites dans la section 1.2.2, cettematrice peut tre S(u,u) = H(d(u,u)), soit par exemple, Suu = exp (d(u,u)) 6 (pourun > 0), la dirence tant que cette similarit est xe et n'volue pas au cours del'algorithme contrairement l'approche classique de cartes auto-organisatrices o H estgnralement dcroissante au cours de l'apprentissage. Nous introduisons alors le critrede modularit organise (sur la carte) de la partition de sommets C1, . . . , CC comme

    O(f) = 12m

    ni,j=1

    Sf(xi),f(xj) (Wij Pij) (1.7)

    o f(xi) est l'unit (ou classe) dans laquelle le sommet xi est aect sur la carte. Leprincipe de ce critre devient clair lorsque l'on r-crit l'expression de la modularitdonne dans l'quation (1.6) sous la forme

    Q(C1, . . . ,CC) =1

    2m

    ni,j=1

    1{f(xi)=f(xj)} (Wij Pij)

    6. Dans (Rossi and Villa-Vialaneix 2010), nous utilisons une carte dont les units sont localises parun point dans R2 et pour distance entre ces units, d(u,u), la distance euclidienne.

  • 1.2 Classification non supervise & visualisation 29

    o 1{f(xi)=f(xj)} = 1 si et seulement si f(xi) = f(xj) (xi et xj sont classs dans la mmeclasse) et 0 sinon. La version organise du critre de modularit de l'quation (1.7)favorise donc, de manire similaire la modularit mais de faon plus souple, la clas-sication des sommets connects 7 du graphe dans des units voisines sur la carte. Demanire similaire ce qui est propos dans la section prcdente (et illustr sur le graphedes Misrables), la classication des sommets sur la carte peut tre utilise pour pro-poser une reprsentation statique et simplie du graphe, la position des units sur lagrille fournissant une position naturelle pour la reprsentation des classes de sommetscorrespondantes.

    Tout comme l'optimisation de la modularit, l'optimisation de O est un problmeNP-complet. Dans (Rossi and Villa-Vialaneix 2010), nous proposons une approximationde cette optimisation par un algorithme de recuit dterministe. Pour cela, O est rcritesous la forme :

    O(f) = F(M) =n

    i,j=1

    Uu,u=1

    MiuSuuMjuBij

    oMiu ={

    1 si f(xi) = u0 sinon

    et Bij ={

    0 si i = j12m(Wij Pij) sinon

    . La distribution de

    Gibbs de notre problme s'crit alors

    P(M) =1

    ZPexp(F(M)/T ),

    o ZP est la constante de normalisation

    M exp(F(M)) et T > 0 est la tempraturedu systme. Cette distribution est approche par l'introduction d'un champ moyen,(Eiu)i=1,...,n, u=1,...,U qui pondre la matrice d'aectationsM de telle sorte que la fonctionde cot

    G(M,E) =ni=1

    Uu=1

    MiuEiu

    approche au mieux F(M). De manire plus prcise, la matrice E est choisie de tellesorte minimiser la divergence de Kullback-Leibler entre P(M,E) = 1Z

    Pexp(G(M,E))

    (ZP

    =

    M exp(G(M,E)/T )) et P(M). La consquence de l'utilisation de la distributionP(M,E) au lieu de P(M) est que, sous cette distribution,Miu etMju sont indpendantsds lors que i 6= j. Le calcul de Z

    Pdevient donc numriquement facilement ralisable,

    contrairement celui de ZP dont la complexit combinatoire est trop lev. Une approchede type EM est utilise : celle-ci alterne une phase d'optimization (pour la recherchede E) et une phase de calcul d'esprance (pour le calcul de l'esprance de M sous ladistribution P). La mthode est dcrite dans l'algorithme 4.

    Une analyse dtaille des performances de l'algorithme sur un exemple jouet (le r-seau social du club de karat de Zachary (Zachary 1977)) ainsi que des comparaisonsavec d'autres mthodes sont dcrites dans (Rossi and Villa-Vialaneix 2010). En parti-culier, une des classications obtenues pour le graphe Les Misrables prcdemmentdcrit dans la section 1.2.2 est donne dans la gure 1.7 ( gauche). Les comparai-sons montrent que la mthode d'optimisation de recuit organise donne gnralement demeilleurs rsultats en terme de qualit de la classication (du point de vue de la valeurde la modularit) et en terme de qualit du rendu graphique (par rapport la mini-misation du nombre de paires de sommets qui se croisent sur le rendu graphique), queles approches de cartes auto-organisatrices noyau. Par ailleurs, dans (Rossi and Villa-

    7. ou plutt signicativement connects comparativement au modle nul.

  • 30 Analyse et infrence de graphes

    Algorithme 4 Optimisation de la modularit organise par recuit dterministe

    1: Initialiser i = 1, . . . ,n et u = 1, . . . ,U

    Eiu =2

    U

    j 6=i

    Bij

    Uu=1

    Suu

    Rsultat : E.2: Initialiser T 0 2BSU o B et S sont les rayons spectraux des matrices B etS et > 1 Rsultat : T 0

    3: Pour l = 1 L Faire boucle de recuit4: injection de bruit E E + avec iu U [0,1]5: Rpter tape de type EM

    6: tape E : calculer EP(Miu) =exp(Eiu/T

    l)u exp(Eiu/T

    l)

    7: tape M : calculer E par optimisation de la divergence de Kullback-Leibler :

    Eiu = 2j 6=i

    u

    ER(Mju)SuuBij

    8: Jusqu' Convergence de E9: T l T l1 avec ' 0,1T

    0

    10: Fin Pour11: Rsultat : i = 1, . . . ,n, f(xi) = maxu=1,...,U Eiu

    Vialaneix 2010), nous proposons l'utilisation directe des sorties (Eiu)i=1,...,n, u=1,...,U del'algorithme de recuit dterministe pour produire une reprsentation dite oue dugraphe sur la carte : supposons que les coordonnes de l'unit u dans le plan R2 soientdonnes par zu = (zu1 ,z

    u2 ). Pour chaque sommet xi du graphe, l'esprance de sa position

    zxi dans R2 est alors dtermine par :

    EP(zxi) =

    u

    EP(Miu)zu.

    Une classication ascendante hirarchique est alors applique l'ensemble des positions(zxi)i qui est coupe une hauteur donne, ce qui fournit la fois une classicationplus ne que celle qui est obtenue directement sur la grille et des positions pour lesclasses dans le plan R2. Une application limite de quelques itrations d'un algorithmede forces (de type Fruchterman & Reingold (Fruchterman and Reingold 1991)) est enneectue pour ajuster les positions ainsi obtenues et viter la superposition des classeset des artes. La visualisation nale, sur l'exemple Les Misrables , est donne dansla gure 1.7 ( droite).

    Utiliser la classification pour reprsenterLes approches dcrites prcdemment, bases sur des cartes topologiques, sont pra-

    tiques en une seule tape qui combine classication et visualisation. Cependant, ellespeuvent s'avrer trop lourdes d'un point de vue numrique pour des graphes de grandestailles. galement, il est frquent que pour des graphes de plusieurs milliers de sommets,l'utilisateur souhaite procder l'exploration de la structure de manire hirarchique :par zooms successifs l'intrieur des classes, il accde des dtails de plus en plus nssur des zones d'intrt. Comme dans ce qui prcde, chaque niveau de la hirarchie, la

  • 1.2 Classification non supervise & visualisation 31

    3

    8

    1

    16

    7

    10

    13

    Figure 1.7 Reprsentation simplie du graphe Les Misrables obtenue par op-timisation de la modularit ( gauche) et reprsentation oue correspondante obtenue partir des rsultats de l'algorithme de recuit dterministe ( droite). La reprsentationde droite est plus prcise (plus de classes, la granularit de la reprsentation est plus ne), mais au

    dtriment d'une petite perte de lisibilit (plus d'artes qui se croisent, par exemple).

    reprsentation du graphe est souvent simplie : les classes seules sont reprsentes ainsique les liens qui existent entre elles, et non l'intgralit des sommets (Auber et al. 2003;Sei et al. 2010; Archambault et al. 2010). L'approche que nous proposons dans (Rossiand Villa-Vialaneix 2011b) est proche de ces approches-ci. Comme les articles (Auberet al. 2003; Sei et al. 2010; Archambault et al. 2010), notre contribution se base eneet sur une classication hirarchique des sommets qui, dans notre cas, est eectuepar une mthode rapide d'optimisation de la modularit. Nos apports, dans ces travaux,touchent plusieurs points mthodologiques :

    pour un graphe (ou un sous-graphe donn), nous optimisons la modularitgrce un algorithme glouton ranement hirarchique comme dcrit dans(Noack and Rotta 2009). Par rapport l'algorithme initial, nous proposons unesimple modication qui est une tape de vrication de la connexit des classesobtenues. Comme soulign dans (Archambault et al. 2010), la connexit des classesest cruciale pour une reprsentation du graphe (simpli) des classes qui n'induisepas l'utilisateur en erreur lors de l'interprtation de son organisation macrosco-pique ; partant du graphe initial, la modularit est tout d'abord optimise pour obtenirune partition initiale du graphe puis le processus est itr pour chacune desclasses : pour une partition donne du graphe ou d'un sous-graphe, la modularitest maximise pour obtenir une partition plus ne de chacune des classes du grapheou du sous-graphe. Ceci permet, notamment, de limiter le dfaut de rsolution dela modularit en forant l'obtention de classes plus nes. Cette mthodologie estschmatise dans la gure 1.8. Le problme d'une telle approche est que chacunedes tapes d'optimisation de la modularit fournit une partition des sommets dusous-graphe considr, celle-ci pouvant tre ventuellement dpourvue de sens v-ritable si le graphe n'a pas une structure modulaire claire. Pour aborder cettequestion, nous proposons une approche base sur un test de permutations : lasignicativit d'une partition d'un sous-graphe est estime en comparant

  • 32 Analyse et infrence de graphes

    Figure 1.8 Schmatisation du processus de classication hirarchique : partant d'ungraphe (en haut gauche), une premire partition des sommets est obtenue par opti-misation de la modularit (en haut droite ; les sommets non entours correspondent une classe part entire) puis chacune des classes de cette partition est nouveaupartitionne (en bas gauche) et le processus est itr sur les classes de la partition ainsiobtenue (en bas droite).

    la modularit de cette partition avec la modularit maximale obtenue pour 100graphes alatoires de structures similaires et en ne conservant que les partitionsdont la modularit est suprieure toutes les modularits obtenues sur les 100graphes alatoires (modularit dite alors signicativement leve ). Pour gn-rer les graphes alatoires de comparaison, nous nous appuyons sur un modle ditde conguration (M.E.J. Newman 2003) qui est une distribution uniforme sur l'en-semble des graphes simples de mme distribution des sommets que le graphe (oule sous-graphe) partitionn. Pour ce faire, nous utilisons l'approche MCMC dcritedans (Roberts Jr. 2000) qui permet d'obtenir un graphe alatoire de mme distri-bution de degrs qu'un graphe cible, par permutations alatoires de ses artes :les rsultats de (Rao et al. 1996) montrent, en eet, que cette approche est uneapproximation asymptotique du tirage uniforme dans l'ensemble des graphes ayantune distribution de degrs xe ; des reprsentations successives des dirents niveaux de la hirarchie departitions sont alors construites, en partant de la classication la plus grossirepour aller vers la classication la plus ne. Pour respecter un principe gnral de

  • 1.2 Classification non supervise & visualisation 33

    cohrence, l'clatement d'une classe en sous-classes ne modie pas le rendu dureste du graphe. Cette contrainte requiert donc d'estimer pour la partition laplus grossire, l'espace ncessaire pour la reprsentation de toutes lessous-classes au niveau le plus n. Ceci est eectu en procdant de manirercursive : une visualisation de toutes les sous-classes est calcule de manire in-dpendante par un algorithme de forces adapt et l'espace ncessaire pour une super-classe regroupant plusieurs classes est approch par un cercle englobanttoutes les sous-classes comme dans la gure 1.9.

    0

    1

    2 3

    4

    5

    6

    0

    1

    2 3

    4

    5

    6

    Figure 1.9 Exemple d'estimation de l'occupation des classes : les sommets du graphed'origine (en haut) sont partitionns en deux classes dont les visualisations sont calculesindpendamment pour fournir une estimation d'occupation par des cercles englobants(en bas).

    Les direntes visualisations sont eectues en utilisant des algorithmes de forcesdu type de (Fruchterman and Reingold 1991) mais dans lesquels les forces ont tmodies pour prendre en compte des tailles de sommets direntes (qui corres-pondent aux surfaces des classes, proportionnelles leurs eectifs ou aux disquesenglobants). De manire plus prcise, nous utilisons l'approche propose dans (Tun-kelang 1999) dans laquelle les forces attirant les sommets (analogie aux ressorts)ont une longueur au repos qui est non nulle mais assure le non chevauchement decercles de rayons donns qui peuvent tre de longueurs direntes.Enn, les visualisations sont eectues de manire rcursive : la visualisation laplus grossire est tout d'abord calcule en tenant compte de l'estimation de l'espace

  • 34 Analyse et infrence de graphes

    ncessaire au dveloppement des sous-classes. Puis, les sous-classes sont peu peu dveloppes et leur visualisation est calcule en ajoutant une force attractivecentre, pour contraindre les sous-classes d'une mme classe rester autour del'emplacement prvu pour la classe mre de la visualisation de niveau suprieur,et en ajoutant galement des sommets virtuels, comme dans (Eades and Huang2000), reprsentant les classes extrieures connectes aux sous-classes de la classequi est dvelopper (ces sommets virtuels sont immobiles lors du calcul de lavisualisation de la classe).

    La mthode propose est ainsi compltement automatise et ne ncessite aucun ajuste-ment de paramtre. L'utilisateur doit uniquement choisir le niveau maximal de rane-ment envisag dans la visualisation, mais ce paramtre n'a pas d'inuence sur le calculde la hirarchie et plusieurs visualisations peuvent tre compares en faisant varier ceparamtre, sans devoir recalculer la classication hirarchique.

    Applique au graphe Les misrables dcrit dans la section 1.2.2, la mthodefournit une classication deux niveaux : au premier niveau, le plus grossier, la classication comprend 6 classes ; au second niveau, le plus n, deux classes de la classication initiale sont parti-tionnes, respectivement en 3 et 2 sous-classes, soit un total de 9 classes.

    La hirarchie de visualisation peut alors tre explore en trois temps comme prsentdans la gure 1.10. La classication organise ici encore l'histoire du roman Les Mis-

    niveau initial (le plus grossier)

    niveau 1 niveau 2(le plus n)

    Figure 1.10 Mise en uvre de la reprsentation par classication hirarchique pourle graphe Les Misrables .

    rables en sous-histoires avec des classes organises respectivement autour de Valjean(partage en trois sous-classes au niveau 2), de Gavroche (partage en deux sous-classesau niveau 1), des Thnardiers, de Cosette et Marius, de Fantine et de Myriel. Une deslimites de l'approche apparat dans cette reprsentation : la classe de Valjean, person-nage central du roman, en marron sur la gure 1.10, a une position lgrement excentredue une sur-estimation de la place ncessaire pour reprsenter son dveloppement auniveau 2 (cette limite a t souleve sur un exemple de plus grande taille dans (Rossi andVilla-Vialaneix 2011b)). Toutefois, l'approche prend tout son sens pour l'exploration de

  • 1.2 Classification non supervise & visualisation 35

    graphes de grande taille pour lesquels la gnration de reprsentations de plus en plusnes est trs rapide et permet une bonne exploration du graphe comme prsent dansla section 1.2.4.

    1.2.4 Application pour la fouille de donnes dun graphe rel

    Les mthodes dcrites dans les sections prcdentes ont t appliques des donnesrelles et, en particulier, elles sont t utilises pour un projet men en collaborationavec des historiens, en partie ralis dans le cadre du projet Graphes-Comp nancpar l'ANR 8. Dans ce programme, un corpus de documents mdivaux, provenant desarchives dpartementales du Lot (France) 9 a t tudi. Ce corpus est donc constitud'un nombre important de documents dont les actes originaux ont t perdus mais quiont pu nous parvenir grce au travail de retranscription d'un feudiste 10. Les documentsdu corpus sont tous des actes notaris, chacun dcrivant une ou plusieurs transactionset prsentant un certain nombre de caractristiques communes : tout d'abord, les tran-sactions concernent des lieux situs sur la seigneurie de Castelnau Montratier, localiseprs de l'actuel village du mme nom (Lot, France). Par ailleurs, toutes les transac-tions releves par le feudiste dcrivent des accords qui, bien que de natures direntes(vente, location, donation, bail ef...), portent pour la plupart sur des terres et im-pliquent des rentes. Ces transactions ont t ralises entre 1238 et 1768, avec unedensit de transactions assez variable tout au long de la priode. Les transactions ontt modlises dans une base de donnes consultable en ligne sur le site web du projet :http://graphcomp.univ-tlse2.fr (la manire dont les sources ont t modlises dansla base de donnes est brivement dcrite dans (Rossi et al. 2013)). De ces donnes, deuxgraphes peuvent tre dduits : un graphe biparti modlisant les relations entre transactions et individus active-ment impliqus dans celles-ci (voir (Rossi et al. 2013)) ; un graphe des individus qui est la projection du graphe biparti prcdent (pondrou non) : deux individus sont relis par une arte si ils ont t simultanmentimpliqus dans la mme transaction (voir (Boulet, Jouve, et al. 2008; Rossi andVilla-Vialaneix 2011b; Villa-Vialaneix, Jouve, et al. 2012)).

    Dans (Boulet, Jouve, et al. 2008), une approche par carte auto-organisatrice noyauxa t compare des approches algbriques permettant d'extraire de l'information dugraphe des individus partir du spectre de son Laplacien. La carte ainsi produite a fourniune reprsentation simplie du graphe, montrant sa division en trois grandes priodestemporelles (ce qui est consistant avec la connaissance historique puisque les sources etles familles impliques dans les transactions connaissent un changement abrupt durantla guerre de Cent ans). Le travail a aussi mis en valeur l'imparfaite retranscription dessources dans la base de donnes. Dans (Rossi and Villa-Vialaneix 2011b), nous reprenonsle graphe des individus pour aner sa reprsentation avec l'approche hiarchique dcritedans la section 1.2.3 qui est galement mise en relation avec la date des transactionsdans lesquelles les individus sont impliqus. Enn, dans (Villa-Vialaneix, Jouve, et al.2012), nous combinons l'information relationnelle fournie par le graphe des individusavec l'information spatiale connue sur les transactions pour montrer que ces deux typesde donnes sont signicativement dpendantes.

    8. Programme Non Thmatique, 2005/2009, Graphes-Comp, ANR-05-BLAN-0229.9. Archives dpartementales du Lot, ed. by Grard Miquel and Willy Luis http://www.lot.fr/cg_

    archives.php.10. Les feudistes sont, au Moyen-ge, des juristes spcialiss dans le droit fodal et les droits seigneu-

    riaux.

    http://graphcomp.univ-tlse2.frhttp://www.lot.fr/cg_archives.phphttp://www.lot.fr/cg_archives.php

  • 36 Analyse et infrence de graphes

    Enn, dans (Rossi et al. 2013), dans une perspective plus historique, nous mon-trons comment des tudes structurelles du graphe biparti peuvent aider automatiserla recherche des erreurs de transcription et notamment aider la dsambiguisation deshomonymes. galement, nous proposons la visualisation du graphe de la gure 1.11 danslaquelle visualisation (par l'algorithme dcrit dans (Fruchterman and Reingold 1991))et classication (par optimisation de la modularit) sont combins. Chaque classe repr-

    Figure 1.11 Reprsentation du graphe biparti transactions/individus issu du corpusde documents mdivaux tudi dans le projet Graphes-Comp .

    sente sur la gure est tiquete avec l'individu de plus fort degr qu'elle contient, ce quipermet de visualiser de manire trs simple les relations entre les plus gros seigneurs dela rgion.

    Ces travaux ont donn lieu des articles dans quelques journaux destins au grandpublic : sur le blog de Nature, Nature News 11, dans Le Figaro 12, dans le Journal du

    11. http://www.nature.com/news/2008/080519/full/news.2008.839.html12. par Yves Miserey, publi le 24/05/2008, http://bit.ly/1lb63sK

    http://www.nature.com/news/2008/080519/full/news.2008.839.htmlhttp://bit.ly/1lb63sK

  • 1.2 Classification non supervise & visualisation 37

    CNRS et sur le Blog de l'Opration 2013, Mathmatiques pour la plante terre, 2013 13.

    1.2.5 Conclusions et perspectivesCette section a prsent plusieurs approches permettant de fouiller la structure d'un

    graphe. Ces approches sont bases sur des combinaisons de classication non supervisedes sommets de mthodes de visualisation d'un graphe simpli, dit graphe des classes.Elles utilisent des structures de cartes topologiques, qui dnissent des positions a priorides classes sur une grille, ou bien des mthodes de reprsentations hirarchiques. Lesapproches en une tape prsentent l'avantage de construire une classication et une vi-sualisation en mme temps, fournissant une classication construite spciquement pourpermettre une meilleure visualisation. Toutefois, elles peuvent s'avrer trop lourdes entemps de calcul. L'approche hirarchique, au contraire, dcouple classication et repr-sentation et fournit une solution automatise trs rapide mais elle est exclusivementlimite au cadre de graphes simples, contrairement aux approches bases sur des dissi-milarits ou des noyaux qui peuvent tre utilises pour analyser des graphes tiquetsmais aussi des donnes trs gnrales, non vectorielles.

    Les perspectives de ce pan de mon travail de recherche sont l'extension de ces ap-proches pour aborder un certain nombre de verrous d'importance pour la fouille degraphe : la premire thmatique d'importance est la prise en compte d'informationsadditionnelles la structure du graphe : ces informations peuvent tre desdescripteurs des sommets (des tiquettes) ou bien des descripteurs des artes (au-del du poids, des descripteurs qualitatifs qui permettent de construire des multi-graphes, c'est--dire des graphes contenant plusieurs ensembles d'artes). J'ai com-menc aborder cette thmatique dans quelques travaux : comme dcrit dans lasection 1.2.2, (Massoni et al. 2013; Olteanu, Villa-Vialaneix, and Cierco-Ayrolles2013; Olteanu and Villa-Vialaneix 2015) proposent l'utilisation de multi-noyauxet de multi-dissimilarits pour dnir des classes et des cartes auto-organisatrices.Ces approches permettent de traiter de manire naturelle des graphes tiquetsmais pourraient aussi tre utilises pour analyser des multi-graphes de la mmemanire. Le choix de dissimilarits ou de noyaux appropris des types de donnesdivers (numriques, qualitatives, graphes ou donnes structures en gnral) resteencore largement un problme ouvert que je souhaite aborder dans les prochainesannes.Dans (Laurent and Villa-Vialaneix 2011; Villa-Vialaneix, Liaubet, Laurent, Cherel,et al. 2013), nous avons galement propos l'utilisation de tests pour dterminersi des tiquettes dcrivant les sommets avaient une distribution signicativementcorrles la structure du graphe. Dans (Villa-Vialaneix, Liaubet, Laurent, Che-rel, et al. 2013) ce type de mthodes est notamment utilis pour dterminer si unphnotype d'intrt est signicativement corrl la structure de co-expressiond'un ensemble de gnes rguls par des eQTL. Dans (Laurent and Villa-Vialaneix2012), nous avons galement propos une mthode de reprsentation globale desgra