C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique...

42

Transcript of C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique...

Page 1: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Rapport du sujet de Travail d'Étude et de Recherche no 126:exploitation des signatures génomiques pour laconstruction d'arbres phylogénétiquesDirigé par Criscuolo AlexisJung MatthieuFévrier 2007 - Mai 2007

Page 2: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

RésuméL'histoire évolutive d'un ensemble d'espèces est le plus souvent modélisée par le biais d'unarbre dit phylogénétique. Classiquement de tels arbres sont construit à partir de donnéesmoléculaires (séquences d'ADN), mais nécessitent une étape intermédiaire consistant àe�ectuer une opération dite d'alignement de gènes. Cette approche utilise uniquement lesgènes codants et, de plus, le problème est NP-complet pour un alignement de plus de troisgènes.Les signatures génomiques proposent une approche plus globale. Elles utilisent la totalitédu génotype (disponible) des organismes comparés, et elles se construisent en un tempslinéaire.Ce rapport propose d'étudier de telles signatures et de les utiliser pour générer un arbrephylogénétique à partir de données réelles.

Page 3: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

TABLE DES MATIÈRES1 Introduction 31.1 Théories religieuses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.1 Le �xisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.2 Le créationnisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.3 Le dessein intelligent . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Théories scienti�ques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Le transformisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.2 L'évolutionnisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3 Théorie synthétique de l'évolution . . . . . . . . . . . . . . . . . . . 51.2.4 Théorie des équilibres ponctués . . . . . . . . . . . . . . . . . . . . . 61.3 De nos jours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Signature génomique : dé�nitions et considérations algorithmiques 82.1 Rappel de biologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.1 L'ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.2 La cellule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Formalisation bio-informatique . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1 Alphabet, mots et lettres . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2 Analogie avec l'ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Construction d'une signature génomique . . . . . . . . . . . . . . . . . . . . 102.3.1 Mots et signatures génomiques . . . . . . . . . . . . . . . . . . . . . 102.3.2 Coordonnées des mots . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Post-traitement des signatures génomiques 173.1 Déduction d'une signature de rang inférieur . . . . . . . . . . . . . . . . . . 173.2 Correction du biais de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.2.1 Correction par chaîne de Markov d'ordre 0 . . . . . . . . . . . . . . . 193.2.2 Correction par chaîne de Markov d'ordre 1 . . . . . . . . . . . . . . . 193.3 Technique du bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Métriques entre signatures génomiques 224.1 Les normes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Les distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2.1 Dé�nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2.2 Quelques distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

Page 4: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

5 Applications 255.1 Construction d'une signature et traitement de celle-ci . . . . . . . . . . . . . 255.2 Inférence d'arbres phylogénétiques . . . . . . . . . . . . . . . . . . . . . . . 286 Conclusion 39Bibliographie 40

2

Page 5: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

CHAPITREUNIntroductionEn biologie, le mot évolution signi�e � l'apparition de nouveaux types d'organismes à partird'êtres pré-existants par accumulation de mutations sur de très longues durées. � [1]Au cours des siècles, de nombreuses théories virent le jour. Nous pouvons les classer endeux catégories.La première catégorie est composée par les théories religieuses formées par des hypothèsesse basant sur des écrits religieux, la seconde par les théories scienti�ques qui regroupentles théories basées exclusivement sur des faits scienti�ques.1.1 Théories religieuses1.1.1 Le �xismeLe �xisme est une théorie, se basant sur des écrits religieux chrétiens, selon laquelle lesespèces naissent, se développent et meurent de façon immuable. Ses partisans expliquentle fait de succession de nouvelles faunes et �ores par le biais de grandes catastrophesclimatiques qui sont la cause de l'extinction de certaines espèces et de la création d'autresespèces.Le �xisme est donc intimement lié au catastrophisme par Georges Cuvier (1769-1832),qui a�rme que certaines espèces s'éteignent en raison de grandes catastrophes climatiques.De ces catastrophes naissent de nouvelles espèces à partir du néant, gouverné par unphénomène de génération spontanée. Cette théorie est donc en parfaite concordance avecle récit biblique du Déluge : les espèces n'ayant pas pu trouver refuge sur l'Arche de Noé,se retrouveraient aux époques contemporaines sous forme de fossiles.1.1.2 Le créationnismeLa théorie du créationnisme chrétien est une théorie pseudo-scienti�que s'inspirant forte-ment des écrits bibliques. Elle s'est fortement implantée en Occident durant le xixe siècle,3

Page 6: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

et cela pour combattre le darwinisme 1.Elle ne se base pas sur des faits scienti�ques mais sur des récits bibliques, plus particuliè-rement sur celui de la Genèse. Elle fait reférence à un � Dieu � qui aurait créé les hommes,les animaux et les végétaux, il y a des milliers d'années. Aucun lien n'existe entre les dif-férentes espèces : l'Homme et le singe ne seraient pas de proche parent, ainsi la notiond'évolution des espèces n'existe pas.1.1.3 Le dessein intelligentJusqu'en 1987, aux Etats-Unis, la théorie du créationnisme a été enseignée dans les éta-blissements publics mais, suite à de longues procédures juridiques dues aux partisans dudarwinisme, elle fut interdite d'enseignement.Dès lors, une nouvelle théorie vit le jour, le dessein intelligent, imaginée par Percival Daviset Dean H. Kenyon. Cette nouvelle théorie n'est pas vraiment di�érente du créationnisme,car elle intègre certains faits scienti�ques pour expliquer, de manière dissimulée, le faitqu'un créateur est à l'origine du monde et des espèces vivantes.1.2 Théories scienti�quesIl y eut de nombreuses théories sur l'évolution.Les écrits les plus anciens remontent de l'époque d'Aristote et de Platon, ces explicationssur l'origine des hommes sont plus philosophiques que scienti�ques. Cependant, pendantdes siècles, la théorie la plus enracinée fut le dogme de la Génèse, mais qui, avec l'avancéede la science et de la technologie, et surtout à cause de nombreuses découvertes, perdit peuà peu de sa véracité dans le monde scienti�que.Ce n'est que bien récemment, vers la �n du xviiie siècle, que de nouvelles théories virentle jour, en se basant essentiellement sur des observations scienti�ques.1.2.1 Le transformismeLe transformisme, proposé par Jean-Baptiste de Lamarck (1744-1829) dans sa � Philo-sophie zoologique �, repose essentiellement sur deux lois :1o � Dans tout animal qui n'a point dépassé les termes de ses développements, l'emploiplus fréquent et soutenu d'un organe quelconque, forti�e peu à peu cet organe, ledéveloppe, l'agrandit, et lui donne une puissance proportionnée à la durée de cetemploi ; tandis que le défaut constant de cet organe, l'a�aiblit insensiblement, ledétériore, diminue progressivement ses facultés, et �nit par le faire disparaître. �2o � Tout ce que la nature a fait acquérir ou perdre aux individus par l'in�uence descirconstances où leur race se trouve depuis longtemps exposée et, par conséquent, parl'in�uence de l'emploi prédominant de cet organe, ou par celle d'un défaut constantd'usage de telle partie ; elle le conserve par la génération aux nouveaux individus quien proviennent, pourvu que les changements acquis soient communs aux deux sexes,ou à ceux qui ont produit ces nouveaux individus. �1Théorie de l'évolution proposée par Charles Darwin, voir section 1.2.24

Page 7: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Ces deux lois montrent bien que Lamarck a développé des idées avant-gardistes, car àl'époque, seul le dogme biblique était de mise.Cette théorie est aujourd'hui dépassée, car Lamarck a�rme que le mode de vie d'un indi-vidu change son génome et le transmet aux générations futures. Or le �ux de l'informationgénétique, représenté �gure 1.1, est unidirectionnel. Ainsi les changements physiologiquesADN ARN PROTEINE

transcription traductionFig. 1.1 � Le �ux de l'information génétique.ou morphologiques apportés à un individu ne peut changer l'ADN, et donc son génome. Parexemple, les femmes girafes qui, années après années, allongent leur cou à l'aide d'anneaux,développent une particularité morphologique : un cou plus long. Bien que, dans certainestribus, ces femmes allongent leur cou génération après génération, leurs nouveaux-néesn'héritent pas de cette modi�cation morphologique.1.2.2 L'évolutionnismeLa théorie de Charles Darwin (1809-1882) sur l'évolution des espèces sonna comme ungong dans les croyances de l'époque, lors de la publication de son ouvrage intitulé : � Del'origine des espèces au moyen de la sélection naturelle �. Son postulat inspiré et élaboréavec l'aide d'autres scienti�ques de l'époque, et notament Alfred Russel Wallace (1823-1913), implique le processus de sélection naturelle, qui est encore représenté dans les théoriesactuelles.Ce processus décrit le fait que certaines variations apparaissant chez certains individus leurseraient avantageuses dans la lutte pour la vie. Seuls les individus les plus aptes, dans leurmilieu (géographique, écologique, climatique), survivraient. Ces individus plus � perfor-mants �, vivraient plus longtemps et seraient plus fertiles, donc auraient une descendanceplus nombreuse possédant leurs caractéristiques héréditaires.Un tel processus, qui se répèterait au cours des générations, transformerait progressivementet imperceptiblement une espèce en une autre (on parle de gradualisme 2).Sa théorie repose donc sur deux grands postulats. D'une part, il précise que la diversitédu vivant est due à l'évolution, c'est-à-dire que chaque être vivant ou ayant vécu découled'un ancètre primitif. D'autre part, il explique l'évolution grâce au principe de sélectionnaturelle.1.2.3 Théorie synthétique de l'évolutionLa théorie synthétique de l'évolution, aussi appelée néo-darwinisme, est apparue dans lesannées 40. Elle regroupe les découvertes de plusieurs domaines, à savoir la paléontologie 3,2Théorie initialement géologique de James Hutton (1726-1797), qui explique l'état actuelle de la Terrepar des processus lents mais continus. Lamarck fut un des premiers à penser l'évolution du vivant à lalumière de cette théorie.3Science des êtres vivants (fossiles) ayant existé sur la Terre aux temps géologiques.5

Page 8: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

la taxinomie 4, la biogéographie 5 et la génétique des populations 6. Parmi les auteurs decette théorie �gurent Theodosius Dobzhansky (1900-1975), Ernst Mayr (1904-2005) etGeorge Gaylord Simpson (1902-1984).Le principe de cette théorie repose essentiellement sur la sélection naturelle, d'où le termede néo-darwinisme. Mais sa di�érence avec celle proposée par Darwin est que, ce n'estplus un individu qui apporte les transformations mais un groupe d'individus (on parle alorsde population). Entre autre, elle explique par le gradualisme que les changements résultentde l'accumulation de modi�cations ténues, mais étalées sur de longues périodes.Actuellement, certains points de cette théorie sont contestés par de nombreux biologistesde l'évolution.1.2.4 Théorie des équilibres ponctuésCette théorie a été développée dans les années 70. Ses auteurs sont Stephen Jay Gould(1941-2002) et Niles Eldredge (1943).Elle prend ses racines dans la théorie de l'évolution proposée par Darwin, mais revendiquele fait que l'évolution n'est pas continue dans le temps. Il existerait de grandes périodes autravers desquelles l'évolution stagnerait tandis que, pendant d'autres périodes, l'évolutionse ferait intensivement.1.3 De nos joursAujourd'hui, les deux théories les plus répandues sont celle des équilibres ponctués et cellede la théorie synthétique de l'évolution. Bon nombre de biologistes se battent pour faireprévaloir l'une ou l'autre, en fonction de leurs convictions.Cependant, toutes ces théories scienti�ques admettent deux postulats communs : le premierest que chaque organisme nouveau découle d'un autre organisme (on parle d'évolution) etle deuxième le fait que chaque espèce a un ancêtre commun ancestral unique.La phylogénétique est un domaine qui consiste en la classi�cation des organismes vivantsou ayant vécus, par rapport à d'autres organismes qui serait plus ou moins proches ausens de leur histoire évolutive. Dans ce domaine, on représente l'ensemble du vivant par unarbre, avec pour tronc, l'ancêtre commun, et pour feuilles, les organismes contemporains.Chaque embranchement de cet arbre se nomme évènement de spéciation 7. Cette descriptionde l'évolution du vivant n'est pas nouvelle, Darwin et Lamarck ayant déjà modélisél'évolution sous forme d'arbres phylogénétiques.Pour concevoir un arbre phylogénétique, nous procédons généralement par la comparaisondes organismes sur plusieurs critères. Ces comparaisons se font à partir de données morpho-anatomiques 8, physiologiques 9, biochimiques 10 et génétiques. Généralement, deux espèces4Science de la classi�cation des espèces.5Étude de la distribution géographique des espèces.6Étude scienti�que de la variation génétique au sein des populations.7Apparition de nouvelles espèces au cours de l'histoire évolutive.8Forme ou apparence des corps et des organes.9Fonctions et propriétés des organes et des tissus des êtres vivants.10Partie de la chimie qui traite de la matière vivante.6

Page 9: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

sont d'autant plus proches dans l'arbre que l'on peut observer peu de di�érences entre lesdonnées associées à chaque espèce.Notre cadre d'étude se penchera uniquement sur les comparaisons génétiques, par le biaisdes signatures.Actuellement, pour comparer di�érents organismes entre eux, la phylogénétique moléculaire� classique � collecte un ou plusieurs gènes codants, et compare les gènes homologues alignésdes di�érentes espèces. L'alignement est une pratique qui consiste à chercher les mutations(changement d'une base azotée en une autre), les insertions (apparition d'une base azotée)et les délétions (suppression d'une base azotée) di�érentiant les gènes homologues. Cettepratique correspond à un problème NP-complet lorsque le nombre de gènes alignés estsupérieur à trois, dans le cas contraire elle est polynomiale [2].Or les gènes codants représentent environ 15% du génotype complet. De plus, il est mêmecourant que certains gènes disparaîssent au cours de l'histoire évolutive. En�n, tous lesgènes codants n'ont pas été encore tous séquencés.Les signatures génomiques sont apparues récemment. Elles permettent une approche plusglobale, car s'appuyant sur l'ensemble des segments chromosomiques disponibles, et nonplus sur les seules parties codantes. Une signature génomique est une représentation de ladistribution des fréquences de mots dé�nis sur l'alphabet génétique {A,T,C,G}, et permetainsi de traduire le signal propre à un génome sous la forme d'un vecteur de réels, d'unemanière très similaire aux approches par noyaux [3].Alors, comment construire une telle signature ? Comment e�ectuer les comparaisons entredi�érents organismes ? Cette méthode o�re-t-elle de bonnes performances ?Le chapitre 2 nous permet de voir comment construire de telles signatures génomiques avecune complexité algorithmique optimale (linéaire en la taille des données).Le chapitre 3 explicite certains post-traitements que l'on peut appliquer aux signaturesgénomiques.Le chapitre 4 introduit la notion de métrique dans le but de comparer des signaturesgénomiques entre elles, et d'inférer des distances entre chaque paire.Le chapitre 5 regroupe les tests e�ectués à partir des algorithmes et des formules donnésdans les chapitres précédent. Une étude phylogénétique d'un groupe de carnivores y estdécrite.

7

Page 10: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

CHAPITREDEUXSignature génomique : dé�nitions et considérations algorithmiquesNous allons voir dans ce chapitre les moyens mis en ÷uvre pour construire une signaturegénomique, à partir de séquences de gène. Mais avant cela, nous allons donner quelquesdé�nitions de biologie.2.1 Rappel de biologieChaque organisme vivant possède une molécule en commun, l'ADN (Acide Désoxyribonu-cléique). L'ADN peut être considéré comme l'identité génétique d'une espèce.2.1.1 L'ADNPour chaque espèce, l'ADN est une structure en double hélice, formé de deux brins. Chaquebrin est relié avec des liaisons hydrogènes entre les bases azotées. Il existe cinq bases azotéesdi�érentes : l'adénine, la guanine, la thymine, la cytosine et l'uracile. Toutefois l'uracilen'intervient pas dans la composition de l'ADN, cette molécule remplace la thymine dansles molécules d'ARN (Acide Ribonucléique). Ces bases azotées se regroupent en deux sous-parties, l'adénine et la guanine sont des bases puriques et sont des molécules formées pardeux cycles adjacents ; la thymine (donc aussi l'uracile) et la cytosine sont des bases pyrimi-diques et sont des molécules formées par un cycle. Les bases azotées sont complémentaires,ainsi, l'adénine ne peut s'associer chimiquement qu'avec la thymine et la guanine avec lacytosine (et réciproquement). La composition d'une base azotée, d'un acide phosphoriqueet d'un sucre (ribose ou désoxyribose) forme un nucléotide. Il existe cinq nucléotides di�é-rents, l'adénosine, la cytidine, la thymidine, la guanosine et l'uridine dont les bases azotéessont respectivement l'adénine, la cytosine, la thymine, la guanine et l'uracile.Un schéma explicatif est donnée à la �gure 2.1.2.1.2 La celluleChaque organisme vivant est soit composé d'une cellule unique, on parle alors d'organismesunicellulaires, soit composé de plusieurs cellules, on parle alors d'organismes pluricellulaires.8

Page 11: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

PD

P

D

PD

P

D

P

D

P

D

P

D

P

D

PP

AT

T

TA

A

G

G

C

C

P

D

adénosine

cytidine

guanosine

thymidine

nucléotidesde l’ADN

liaison hydrogène (forte)

liaison hydrogène (faible)

1 brin

P

D

P acide phosphorique

D désoxyribose

A

G

adénine

guanine

T

C

thymine

cytosine

basespuriques

basespyrimidiques

bases azotéesde l’ADN

Fig. 2.1 � Structure de l'ADNLa cellule est la plus petite unité permettant les di�érentes réactions nécessaires à la vie,nutrition (métabolisme), croissance et division cellulaire (sorte de � reproduction �). Lacellule est constituée d'un cytoplasme 1 et d'un noyau, délimitée par une membrane plas-mique. Le noyau est un compartiment cellulaire qui contient de l'ADN et est délimité parune bicouche lipidique (c'est-à-dire une membrane). On distingue deux catégories de cel-lules en fonction de la présence (cellule eucaryote) ou de l'absence (cellule procaryote) denoyau.Les organismes pluricellulaires possèdent de nombreuses et di�érentes cellules, chacunepour une tâche spéci�que, fonctionnant de manière autonome mais coordonées avec toutesles autres cellules auxquelles elles sont rattachées. Un amas de cellules de type particulier,regroupées en une unité fonctionnelle, s'appelle un tissu, et un amas de tissus réalisant unemême fonction, se nomme un organe.Les cellules végétales se distinguent des cellules animales, entre autres, car les premièrespossèdent une paroi de cellulose qui assure un rôle de soutien.Chaque cellule de l'organisme contient de l'ADN, sous des formes di�érentes. Les cellulesprocaryotes contiennent de l'ADN circulaire, tandis que les cellules eucaryotes contiennentde l'ADN linéaire. Les chromosomes apparaissent uniquement lors d'une des phases de lamitose 2 des cellules eucaryotes.2.2 Formalisation bio-informatiqueNous allons dé�nir quelques notations souvent utilisées en bio-informatique.1Tout ce que contient une cellule, excepté le noyau.2Mécanisme de division cellulaire des eucaryotes qui comprend une phase de croissance (l'interphase)et cinq phases de division : la prophase, la prométaphase, la métaphase, l'anaphase et la télophase. Leschromosomes répliqués sont répartis également entre les cellules �lles. [4]9

Page 12: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

2.2.1 Alphabet, mots et lettresNous dé�nisson un alphabet, noté A, sur l'ensemble des bases azotées, par A = {A,T,C,G}.Dans la suite nous appelons les bases azotées A, T, C et G des lettres. Un mot est une suitequelconque d'alternance entre ces di�érentes lettres. Par exemple ATC ou AAAG sont desmots composés respectivement de trois et quatre lettres.Nous notons l'ensemble de tous les mots de longueur quelconque par A∗ et l'ensemble detous les mots de longueur m, avec m ∈ N∗, par A∗

m. On remarque alors que A = A∗

1.Nous notons le nombre de mots de l'ensemble A∗

m par |A∗

m|. Nous montrons facilement que|A∗

m| = 4m. En e�et, pour la première lettre, nous avons quatre possibilités le A, le T, leC et le G. Pour la deuxième lettre, nous en avons à nouveau quatre, et cætera. Ainsi, nousavons pour m lettres4× 4× · · · × 4× 4︸ ︷︷ ︸

m foispossibilités, soit 4m.2.2.2 Analogie avec l'ADNUne séquence d'ADN de taille ` est un mot de l'alphabet A∗

` , et implique di�érentes oc-curences de chaque lettre de A. Par exemple, soit la séquence d'ADN suivante : S =AATCGTGTA ; elle est formée de trois lettres A, de trois lettres T, de deux lettres G etde une lettre C.Nous pouvons faire de même avec les mots de longueur �xe. Par exemple, la séquence S estformée des 6 mots de longueur m = 4 suivants : AATC, ATCG, TCGT, CGTG, GTGT,TGTA. Plus généralement, une séquence contient au plus, `−m + 1 mots distincts.Cependant, nous remarquons qu'il n'existe pas de mots de longueur m supérieure à laséquence d'ADN, c'est-à-dire m > `. Par exemple, en reprenant l'exemple précédent, tousles mots de longueur supérieure à ` = 9 n'existent pas. De plus, il existe seulement un motde longueur neuf, c'est la séquence S elle-même.2.3 Construction d'une signature génomiquePrécédement, nous avons vu que la cellule est le composant de tout organisme, et quel'ADN est l'information codant l'architecture des organismes. Ainsi, l'ADN est un bonmoyen de comparaison entre les espèces. Les variations entre l'ADN de di�érentes espècesse font au niveau de la taille de l'ADN, et de l'alternance de bases azotées. Donc lors d'unecomparaison nous devons nous a�ranchir de ces deux contraintes.La comparaison sur les fréquences d'apparition de mots, semble être une solution e�cace.2.3.1 Mots et signatures génomiquesLors de la conception d'une signature génomique, nous ne prenons que les mots d'unecertaine longueur. Ainsi, une signature génomique est dé�nie sur l'ensemble A∗

m ou m ∈ N∗,qui est �ni pour un m �xé. 10

Page 13: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Définition 1 Une signature génomique de rang m, où m ∈ N∗, est un vecteur de taille

4m, à valeur dans [0 ; 1], où chaque coe�cient représente la fréquence d'apparition d'unmot de l'alphabet A∗

m.Il existe un mode de représentation appelé � Chaos Game Representation � (CGR), proposépar Jeffrey [5], qui permet de mieux visualiser et d'interpréter les résultats. Ce mode devisualisation représente la signature génomique sous la forme d'une matrice carrée de taille2m × 2m où chaque coe�cient représente un mot. L'attribution des mots aux coe�cientsne se fait pas de manière aléatoire, mais récursive.Pour une signature de rang 1, donc de taille 2× 2, nous associons au coe�cient (0 ; 0) lalettre A, au coe�cient (0 ; 1) la lettre C, au coe�cient (1 ; 0) la lettre T, et au coe�cient(1 ; 1) la lettre G. Pour construire le rang 2, nous dupliquons la signature de rang 1 troisfois, de façon à reformer un nouveau carré de taille 4×4, puis nous concaténons la lettre Apour le coin inférieur gauche, la lettre T pour le coin inférieur droit, la lettre C pour le coinsupérieur gauche et en�n la lettre G pour le coin supérieur droit. Pour construire le rang3 nous recommençons cette opération, mais cette fois ci, avec la signature de rang 2. La�gure 2.2 montre les trois premiers rangs d'une signature génomique dans la représentaionCGR.

Rang 1 Rang 2 Rang 3

A T

C G

A T

C G

A T

C G

A T

C G

A T

C GA

A

A

A

T

TT

T

C C

CC G

GG

G

A T

C G

A T

C G

A T

C G

A T

C GA

A

A

A

T

TT

T

C C

CC G

GG

G

A T

C G

A T

C G

A T

C G

A T

C GA

A

A

A

T

TT

T

C C

CC G

GG

G

A T

C G

A T

C G

A T

C G

A T

C GA

A

A

A

T

TT

T

C C

CC G

GG

G

A T

C G

A T

C G

A T

C G

A T

C GA

A

A

A

T

TT

T

C C

CC G

GG

G

A

A A

A

A

AA

A

A

AA

A

A

AA

A T

TT

T T

T

T

T

T

T

T

T

T T

T

T

C

C

C

C

C

CC

C

C

C

C

C

C

C

C

C

G

GG

GG G

G G

GG

G

G

G

GG

G

Fig. 2.2 � Les trois premiers rangs d'une signature génomique dans la représentaion CGR.En réitérant ce mode de construction, nous obtenons une représentation CGR de rangm > 0.Maintenant que nous savons comment on crée une signature génomique pour un rangdonné, nous devons trouver le moyen d'obtenir directement les coordonnées d'un mot dansla signature génomique, et vice-versa.2.3.2 Coordonnées des motsNous désignons, pour une signature génomique de rang m, les coordonnées (0 ; 0) pourle coe�cient du coin inférieur gauche, (2m − 1 ; 0) pour le coe�cient du coin inférieurdroit, (0 ; 2m − 1) pour le coe�cient du coin supérieur gauche et (2m − 1 ; 2m − 1) pourle coe�cient du coin supérieur droit.Nous introduisons aussi la notation Coord (X) pour désigner les coordonnées du mot X.11

Page 14: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Proposition 1 Soit un mot ω0 . . . ωm−1 de longueur m où ωi ∈ {A,T,G,C} pour i ∈{0, . . . ,m− 1}. Les coordonnées de ωi sont (0 ; 0), (1 ; 0), (0 ; 1) et (1 ; 1) si ωi vaut A,T, C et G respectivement. Alors les coordonnées du mot ω0 . . . ωm−1 sont données par laformule : Coord (ω0 . . . ωm−1) =

m−1∑

i=0

2i · Coord (ωi) (2.1)Nous allons démontrer cette proposition à l'aide d'un raisonnement par récurence sur lenombre de lettres.Preuve.Pour m = 0, le mot ω0 est composé d'une seule lettre, nous avons quatre choixpossibles :� ω0 = A, alors ses coordonnées sont (0 ; 0) = 20 · (0 ; 0) ;� ω0 = T, alors ses coordonnées sont (1 ; 0) = 20 · (1 ; 0) ;� ω0 = C, alors ses coordonnées sont (0 ; 1) = 20 · (0 ; 1) ;� ω0 = G, alors ses coordonnées sont (1 ; 1) = 20 · (1 ; 1).La formule est véri�ée au rang 0. Nous la supposons donc vraie au rang m − 1, lescoordonnées du mot ω0 . . . ωm−1 sont :Coord (ω0 . . . ωm−1) =m−1∑

i=0

2i · Coord (ωi)Nous allons montrer que les coordonnées du mot ω0 . . . ωm−1ωm véri�ent aussi cetterelation.Pour construire le rang m à partir du rang m−1, le carré de rang m−1 est dupliquétrois fois, de façon à reformer un nouveau carré. Suivant la règle de constructionémise en 2.3.1 nous ajoutons à la �n de tous les mots se situant dans le coin inférieurgauche la lettre A. Nous réitèrons cette dernière opération pour les coins restants,avec la lettre C, T et G. Un schéma de cette construction est représenté à la �gure 2.3.Nous connaissons les coordonnées du mot ω0 . . . ωm−1 au rang m − 1. Nous remar-quons, à l'aide du nouveau procédé de construction, que les coordonnées du motω0 . . . ωm−1A sont les mêmes que les coordonnées du mot ω0 . . . ωm−1, ainsi :Coord (ω0 . . . ωm−1A) = Coord (ω0 . . . ωm−1)

=

m−1∑

i=0

2i · (xωi; yωi

)

=

m−1∑

i=0

2i · (xωi; yωi

) + 0

=

m−1∑

i=0

2i · (xωi; yωi

) + 2m · (0 ; 0)D'où Coord (ω0 . . . ωm) =

m∑

i=0

2i · Coord (ωi)12

Page 15: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

rang m-1rang m

y

x

y

x

C

C G

T

G

T AAFig. 2.3 � Le carré blanc représente l'emlacement du mot ω0 . . . ωm−1, le carré rougel'emplacement du mot ω0 . . . ωm−1C, le carré vert l'emplacement du mot ω0 . . . ωm−1T,le carré bleu l'emplacement du mot ω0 . . . ωm−1G et le carré gris l'emplacement du motω0 . . . ωm−1A.avec ωm = A.Il nous reste encore à montrer que cette formule reste vraie si ωm vaut T, C ou G.Prenons par exemple le cas où ωm = T. D'après le procédé de construction, si nousdéplaçons le coin inférieur gauche (celui où tous les mots se terminent par A), et quenous le plaçons sur le carré inférieur droit (celui où tous les mots se terminent parT), les coordonnées du mot ω0 . . . ωm−1A, sont exactement les mêmes que celles dumot ω0 . . . ωm−1T.Donc nous avons e�ectué une translation de 2m cases vers la droite. Nous avons,Coord (ω0 . . . ωm−1T) = Coord (ω0 . . . ωm−1A) + 2m · (1 ; 0)

= Coord (ω0 . . . ωm−1) + 2m · (1 ; 0)

=

m−1∑

i=0

2i · (xωi; yωi

) + 2m · (1 ; 0)D'où Coord (ω0 . . . ωm) =

m∑

i=0

2i · Coord (ωi)avec ωm = {A,T}. De là, par le même raisonnement nous montrons que cette formulereste valable pour ωm = {A,T,C,G}.Ainsi cette formule est vraie au rang m, donc elle est vraie pour tout m ∈ N.�Nous connaissons à présent, le moyen d'obtenir les coordonnées d'un mot dans la représen-tation CGR d'une signature génomique d'un rang m donné. Par exemple, le mot de quatrelettres ATCG, a ses coordonnées, dans une signature génomique CGR de rang m = 4,13

Page 16: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

comme suitCoord (ATCG) =3∑

i=0

2i · Coord (ωi)

= 20 · Coord (A) + 21 · Coord (T) + 22 · Coord (C) + 23 · Coord (G)

= 20 · (0 ; 0) + 21 · (1 ; 0) + 22 · (0 ; 1) + 23 · (1 ; 1)

=(21 + 23 ; 22 + 23

)

= (10 ; 12)L'algorithme 1, basé sur le principe de diviser pour régner, permet d'e�ectuer la manipu-lation en sens inverse. Nous donnons en entrée les coordonnées x et y du coe�cient vouluet le rang m de la signature génomique. En sortie, nous avons une chaîne de caractère quiest le mot correspondant aux coordonnées passées en paramètre.Nous considèrons que les paramètres en entrée véri�ent les propriétés suivantes :� m doit être supérieure ou égale à 1 ;� x doit être compris entre 0 et 2m − 1 inclus ;� y doit être, comme x, compris entre 0 et 2m − 1 inclus.Fonction CoordToWord(x : Entier, y : Entier, m : Entier) : Ch. de Car.Si (m == 1) AlorsSelon quex == 0 ET y == 0 : Retourner "A" ;x == 0 ET y == 1 : Retourner "T" ;x == 1 ET y == 0 : Retourner "C" ;x == 1 ET y == 1 : Retourner "G" ;Fin Selon queFin Si

y1, x1 : Entier ;y1←− y − 2m−1 ;x1←− x− 2m−1 ;Selon que

x1 < 0 ET y1 < 0 : Retourner CoordToWord(x, y, m− 1)+"A" ;x1 < 0 ET y1 >= 0 : Retourner CoordToWord(x, y1, m− 1)+"C" ;x1 >= 0 ET y1 < 0 : Retourner CoordToWord(x1, y, m− 1)+"T" ;x1 >= 0 ET y1 >= 0 : Retourner CoordToWord(x1, y1, m−1)+"G" ;Fin Selon queFinAlgorithme 1: Retourne une chaîne de caractères correspondant au mot des coordon-nées x et y dans une représentation CGR de rang m.La complexité de cette algorithme est en O(m).

14

Page 17: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

2.3.3 OptimisationLe calcul d'une signature génomique dépend essentiellement de deux paramètres, la taille` de la séquence d'ADN à traiter et le rang m de la signature, avec l ≥ m. Il y a l−m + 1mots à traiter, donc on appliquera la formule (2.1), l − m + 1 fois. La formule (2.1) secalculant en O(m), son utilisation systématique induit une complexité en O(`m).Nous pouvons réduire ce coût en calculant les coordonnées du prochain mot en fonctiondu mot précédent.Proposition 2 La formule qui relie les coordonnées du mot ω = ω0ω1 . . . ωm−1 et celledu mot ω′ = ω1 . . . ωm−1ωm, avec ωi ∈ {A,T,C,G} pour 0 ≤ i ≤ m, estCoord (ω′

)=

1

2

(Coord (ω)− Coord (ω0) + 2m · Coord (ωm)) (2.2)Preuve.En appliquant la formule (2.1), on a pour ωCoord (ω) =

m−1∑

i=0

2i · Coord (ωi)et ω′ Coord (ω′)

=m∑

i=1

2i−1 · Coord (ωi)Ainsi,Coord (ω′)

=

m∑

i=1

2i−1 · Coord (ωi)

=

m−1∑

i=1

2i−1 · Coord (ωi) + 2m−1 · Coord (ωm)

=1

2

(m−1∑

i=1

2i · Coord (ωi)

)

+ 2m−1 · Coord (ωm)

=1

2

(m−1∑

i=1

2i · Coord (ωi) + 20 · Coord (ω0)− 20 · Coord (ω0)

)

+ 2m−1 · Coord (ωm)

=1

2

(m−1∑

i=0

2i · Coord (ωi)− 20 · Coord (ω0)

)

+ 2m−1 · Coord (ωm)

=1

2

(Coord (ω)− 20 · Coord (ω0))

+ 2m−1 · Coord (ωm)

=1

2

(Coord (ω)− Coord (ω0) + 2m · Coord (ωm))

�La formule (2.2) présente d'impliquer que peu d'opérations arithmétiques. Ainsi nous avonsm multiplications pour le calcul de la première coordonnée, en utilisant la formule (2.1),puis pour le reste de la séquence d'ADN, nous utilisons la formule (2.2).15

Page 18: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Il est aussi important de remarquer que nous multiplions par des puissances de 2. Doncnous pouvons utiliser les opérateurs binaires pour gagner en rapidité. À noter que m est�xé au départ donc 2m peut l'être aussi. Ainsi, le processus complet induit une complexitétotale en O(m + `).

16

Page 19: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

CHAPITRETROISPost-traitement des signatures génomiquesLes post-traitements des signatures génomiques modi�ent les signatures génomiques dansle but d'e�acer certaines contraintes ou d'accentuer des propriétés très peu visibles.3.1 Déduction d'une signature de rang inférieurIl est possible d'obtenir une signature d'un rang m′, si nous connaissons la signature d'unrang m, avec m′ < m.Fonction SignInf(m′ : Entier, SG : Reel[][], m : Entier) : Reel[][]newDim, decal, i2, j2 : Entier ;newDim←− 2m′ ;NewSG[newDim][newDim] : Reel[][] ;decal ←− 2m−m′ ;Pour i de 0 à newDim faire

i2←− i · decal ;Pour j de 0 à newDim fairej2←− j · decal ;Pour k de 0 à decal fairePour l de 0 à decal faire

NewSG[i][j] ←− NewSG[i][j] + SG[i2 + k][j2 + l] ;Fin PourFin PourFin PourFin PourRetourner NewSG ;FinAlgorithme 2: Retourne une nouvelle signature d'un rang donné inférieur au rang dela signature courante. 17

Page 20: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Cette algorithme a une complexité en O(2m′

· 2m′

· 2m−m′

· 2m−m′

) donc en O(4m).L'algorithme 2, nous permet d'obtenir une signature CGR de rang m′, en ayant une si-gnature CGR de rang m en entrée. Par défaut tous les éléments de la nouvelle signature(NewSG) sont initialisés à 0. Il incombe à l'utilisateur de véri�er si la condition m′ < mest respectée.Cet algorithme utilise le principe de récurrence. Nous savons, grâce au procédé de construc-tion, qu'une signature génomique CGR peut être divisée en quatre carrés égaux, et quechaque carré possède la même dernière lettre pour toutes les cases qui le constituent. Ainsi,il su�t de savoir lequel de ces carrés possède les coordonnées indiquées, et nous saurons ladernière lettre du mot correspondant. Puis, nous faisons un changement de coordonnées,pour rechercher l'avant dernière lettre, qui peut être trouvée de la même façon, mais dansla signature de rang inférieur. Et ainsi de suite jusqu'au rang 1.3.2 Correction du biais de baseLes signatures génomiques détiennent plusieurs informations qui sont extraites à partird'une décomposition en base de la séquence d'ADN. Cette décomposition apparaît aussidans la signature génomique, puisqu'elle est construite à partir de celle-ci. Ainsi, une si-gnature ayant un fort taux de A et de T aura une forte accentuation de valeur à sa base.Ceci peut cacher certains détails plus importants.C'est dans le but de faire disparaître ces accentuations gênantes que plusieurs solutions ontété proposées pour annuler cette in�uence sur les signatures génomiques, un exemple estdonnée �gure 3.1.

Signature Genomique Markov d’ordre 0 Markov d’ordre 1

Suricata suricatta

Fig. 3.1 � Signature génomique obtenu sur une séquence d'ADN de Suricata suricatta.Nous remarquons que les corrections de Markov permettent d'uniformiser la signature ene�acant la contrainte de la composition en base.Nous présentons deux méthodes qui permettent cela. Ces deux méthodes comparent lenombre d'occurences réel des mots, au nombre d'occurences théorique des mêmes mots,a�n de corriger et accentuer plus ou moins certains détails.18

Page 21: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

3.2.1 Correction par chaîne de Markov d'ordre 0Pour obtenir une signature corrigée par chaîne de Markov d'ordre 0, il faut connaîtrela fréquence d'apparition de chaque lettre. Ceci est possible, en calculant la signaturegénomique de rang 1. Il est aussi possible de déduire la signature de rang 1 à partir d'unesignature de rang supérieur (voir section 3.1).Dès que nous connaissons les fréquences d'apparition de chaque lettre, nous pouvons endéduire la fréquence d'apparition théorique d'un mot composé de ces lettres.Soit ω0 . . . ωm−1 un mot de longueur `, avec ωi ∈ {A,T,C,G} pour i ∈ {0, . . . ,m− 1}.Nous notons par F(ωi), la fréquence d'apparition de la lettre ωi, et F(ω0 . . . ωm−1) la fré-quence d'apparition du mot ω0 . . . ωm−1. Ainsi la fréquence d'apparition théorique du motω0 . . . ωm−1 est Fatt(ω0 . . . ωm−1) = F(ω0)× · · · × F(ωm−1) (3.1)De là, nous pouvons en déduire une fréquence d'apparition indépendante de la compositionen base Find(ω0 . . . ωm−1) =

F(ω0 . . . ωm−1)Fatt(ω0 . . . ωm−1)(3.2)En appliquant à tous les mots de la signature génomique la formule (3.2), nous obtenonsune signature modi�ée par chaîne de Markov d'ordre 0.3.2.2 Correction par chaîne de Markov d'ordre 1La correction par chaîne de Markov d'ordre 0, ne permet pas d'éliminer correctement ladécomposition en base. La correction par chaîne de Markov d'ordre 1 permet de mieuxtraiter les signatures génomiques.Pour calculer la correction par chaîne de Markov d'ordre 1, nous introduisons une nou-velle notion. Nous notons par V(ω0 . . . ωm−1) la variance du mot ω0 . . . ωm−1, avec ωi ∈

{A,T,C,G}. La variance est dé�nie par [6]V(ω0 . . . ωm−1) =1

L× F(ω0)× · · · × F(ωm−1)× (1− F(ω0))× · · · × (1− F(ωm−1))où L = `−m + 1 est le nombre total de mots lus.De là, nous en déduisons la fréquence d'apparition indépendante corrigée par chaîne deMarkov d'ordre 1Find(ω0 . . . ωm−1) =

F(ω0 . . . ωm−1)− Fatt(ω0 . . . ωm−1)√V(ω0 . . . ωm−1)

(3.3)avec Fatt(ω0 . . . ωm−1) dé�ni par la formule (3.1) de la section précédente.En appliquant la formule (3.3) à tous les mots de la signatures génomiques, nous obtenonsune signature génomique corrigée par chaîne de Markov 1.3.3 Technique du bootstrapLa technique du bootstrap 1 nous permet d'obtenir un grand nombre de réplicats bruitésà partir d'une signature génomique donnée, cela par des successions de tirages aléatoire de1Le bootstrap est une technique d'inférence statistique basée sur une succession de rééchantillonnages.19

Page 22: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

mots avec remise.Fonction BootStrapA(SG : Reel[][], m : Entier) : Reel[][]nbr : Entier ;NewSG[2m][2m] : Reel[][] ;Pour k de 0 à L faire

nbr ←− rand(0, 1) ;Pour i de 0 à 2m fairePour j de 0 à 2m fairenbr←− nbr − SG[i][j] ;Si (nbr <= 0) Alors

NewSG[i][j] ←− NewSG[i][j] + 1L ;break ;Fin SiFin PourSi (nbr <= 0) Alorsbreak ;Fin SiFin PourFin PourRetourner NewSG ;FinAlgorithme 3: Retourne une signature avec des tirages aléatoires en fonction d'unesignature donnée.Nous utilisons cette technique dans le but de connaître la stabilité d'un résultat. Dans notrecas, elle servira à appuyer les résultats obtenus lors de la création d'arbres phylogénétiques.Pour que les résultats soient e�caces, nous devons e�ectuer cette technique plusieurs cen-taines de fois. C'est dans ce but que nous proposons deux algorithmes di�érents. Les deuxalgorithmes ont un point fort et un point faible. Le premier nécessite beaucoup de temps decalcul mais l'occupation de l'espace mémoire est moindre 3. Tandis que le second nécessitebeaucoup d'espace mémoire, mais est très rapide en temps d'exécution 4.Ça sera à l'utilisateur de choisir l'algorithme le mieux adapté à sa machine.Dans les algorithmes nous notons par L le nombre total de mot lu dans la signatureinitiale. La fonction rand(x, y), renvoie un nombre aléatoire entre x et y inclus. La fonction

Trier(tab), trie par ordre croissant les éléments du tableau tab. Une signature génomiquede rang m est représentée comme un tableau de taille 2m×2m. Par défaut tous les élémentsde la nouvelle signature (NewSG) sont initialisés à 0.L'algorithme 3 tire un nombre aléatoire entre 0 et 1, puis parcours la signature initiale. Dèsque la case du mot tiré ait été trouvée, nous incrémentons la même case mais de la nouvellesignature. Une fois cette incrémentations e�ectuée, nous recommençons le processus Lfois, donc le parcours de la signature génomique initiale aussi. Ainsi sa complexité est enO(L4m).L'algorithme 4 tire aussi un nombre aléatoire entre 0 et 1 et le place dans un tableau. Cetableau contient L nombres. Puis trie ce tableau et en�n parcourt une et une seule fois20

Page 23: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

la signature génomique initiale pour incrémenter les valeurs de la nouvelle signature. Sacomplexité est donc en O(L).Fonction BootStrapB(SG : Reel[][], m : Entier) : Reel[][]tab[L] : Reel[] ;tmp,i,j : Entier ;NewSG[2m][2m] : Reel[][] ;tmp←− SG[0][0] ;i←− 0 ;j ←− 0 ;Pour k de 0 à L faire

tab[k]←− rand(0, 1) ;Fin PourTrier(tab) ;Pour k de 0 à L faireSi (tab[k] <= tmp) AlorsNewSG[i][j] ←− NewSG[i][j] + 1

L ;Sinoni←− i + 1 ;Si (i >= 2m) Alors

i←− 0 ;j ←− j + 1 ;Fin Si

tmp←− tmp + SG[i][j] ;k ←− k − 1 ;Fin SiFin PourRetourner NewSG ;FinAlgorithme 4: Retourne une signature avec des tirages aléatoires en fonction d'unesignature donnée.

21

Page 24: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

CHAPITREQUATREMétriques entre signatures génomiquesNous connaissons à présent, les moyens pour construire des signatures génomiques et ef-fectuer des post-traitements sur celles-ci.Notre objectif reste la comparaison de signatures génomiques. Dans ce but, nous devonsintroduire une méthode e�cace et rapide pour les comparer.Etant donné qu'une signature génomique est représentée sous la forme d'un vecteur defréquences, la méthode la plus appropriée serait de les comparer à l'aide de distances. Maisavant, nous allons donner quelques généralités sur les normes.4.1 Les normesDéfinition 2 Soit E un espace vectoriel 1 et x, y ∈ E. Une norme sur E est une appli-cation de E −→ R+, x 7−→ ‖x‖ tel que :1. ‖x‖ = 0 si et seulement si x = 0 ;2. pour tous λ ∈ K, ‖λ · x‖ = |λ| · ‖x‖ ;3. ‖x + y‖ ≤ ‖x‖+ ‖y‖.La propriété 3 se nomme l'inégalité triangulaire.Il existe plusieurs normes di�érentes. Nous allons donner quelques exemples de normes bienconnues sur Rm. Soit x = (x1, . . . , xm) un élément de R

m. La norme 1 est dé�nie commesuit :‖x‖1 = |x1|+ · · · + |xm|La norme 2 est dé�nie comme suit :‖x‖2 =

x21 + · · ·+ x2

mLa norme in�nie est dé�nie comme suit :‖x‖

∞= max (|x1| , . . . , |xm|)1Un K-espace vectoriel ou un espace vectoriel sur K, est un ensemble non vide E dont les élémentss'appellent des vecteurs et qui est muni de deux opérations, la somme de vecteurs et la multiplication d'unvecteur par un scalaire de K. 22

Page 25: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

D'une manière générale, nous allons donner une famille de normes sur Rm, dé�nie par lesformules

‖x‖p = (|x1|p + · · · + |xm|

p)1/ppour 1 ≤ p <∞. Nous remarquons que pour p = 1, 2 et pour p→∞, nous retrouvons lestrois normes précédentes.4.2 Les distances4.2.1 Dé�nitionDéfinition 3 Soit E un ensemble. Une distance sur E est une application d de E × Edans R+ qui véri�e, pour tous x, y, z de E :1. d(x, y) = 0 si et seulement si x = y ;2. d(x, y) = d(y, x) ;3. d(x, z) ≤ d(x, y) + d(y, z).Dans notre cas d'étude l'espace E est l'intervalle [0 ; 1]. La propriété 1 est l'axiome de sé-paration, la propriété 2 est l'axiome de symétrie et la propriété 3 est l'inégalité triangulaire.4.2.2 Quelques distancesNous allons présenter quelques distances qui peuvent servir pour la comparaison de signa-tures génomiques.Nous dé�nissons deux vecteurs x = (x1, . . . , xm) et y = (y1, . . . , ym) de Rm. Ainsi, saufexception, les distances ci-dessous sont des applications de R

m × Rm −→ R+.Distance euclidienneLa distance euclidienne est la distance standard de l'espace R

m. Elle est dé�nie commesuit :deucl (x, y) =

√√√√

m∑

i=1

(yi − xi)2Distance de MinkowskiSoit k ∈ [1 ; ∞[ un réel.

dmink (x, y) =

(m∑

i=1

|yi − xi|k

)1/kLa distance de Minkowski est une généralisation de la distance euclidienne. En e�et, pourk = 2 nous avons la distance euclidienne.Si k ∈ ]0 ; 1[, la condition 3 (l'inégalité triangulaire) de la dé�nition d'une distance n'estplus véri�ée. Nous appelons ce genre de distances des � pseudo-distances �.23

Page 26: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de PearsonCette distance fait appel à la notion de norme dé�nie au paragraphe 4.1. Elle s'appliqueuniquement à des vecteurs de Rm non nuls.

dpear (x, y) = arccos

m∑

i=1

xi × yi

‖x‖2 × ‖y‖2

Distance de DiceCette distance est une variante de la distance de Pearson.

ddice (x, y) =

arccos

2 ·m∑

i=1

xi × yi

‖x‖22 + ‖y‖2

2

si (x, y) 6= (0, 0)

0 sinon

24

Page 27: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

CHAPITRECINQApplicationsNous allons utiliser les algorithmes et les formules vus dans les chapitres précédents, pourétudier un jeu de données sur des carnivores. Ce jeu de données contient 31 espèces di�é-rentes. [7]Le but de cette application est de construire les 31 signatures génomiques, puis de lescomparer à l'aide de distances, pour construire un arbre phylogénétique. Ces comparaisonsse feront aussi aux signatures modi�ées par chaîne de Markov.Puis nous conclurons sur l'importance des corrections par chaîne de Markov ainsi quesur la pertinence des distances utilisées en comparant les résultats obtenus aux résultatsexistants.5.1 Construction d'une signature et traitement de celle-ci

Signature Génomique Correction par Markov 0 Correction par Markov 1

Herpestes edwardsii

Fig. 5.1 � La représentaion CGR de la signature génomique de rang 4 de Herpestes ed-wardsii, ainsi que celles traitées par chaîne de Markov d'ordre 0 et 1.Dans cette section, nous allons faire une selection parmi les 31 espèces présentes dans notrejeu de données, l'espèce qui sera choisit sera Herpestes edwardsii. L'étude se fait à partir du25

Page 28: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Rang 4 Rang 5 Rang 6

Herpestes edwardsii

Rang 3Rang 2Rang 1

Fig. 5.2 � La représentaion CGR d'une signature génomique de rang 1, 2, 3, 4, 5 et 6 pourl'espèce Herpestes edwardsii.gène nucléaire IRBP séquencé sur l'ensemble de ces 31 espèces. La logueur de la séquenced'ADN est d'environ 1000 nucléotides.En premier lieu (�gure 5.2), nous montrons des signatures génomiques de rang 1, 2, 3, 4, 5et 6 obtenues à l'aide d'une séquence d'ADN, par la méthode d'optimisation que nous avonsvu dans le chapitre 2. Les valeurs faible sont de couleurs blanches tandis que les valeursfortes sont de couleurs noires. Cette représentation pratique nous permet, d'un coup d'÷il,de voir que la séquence d'ADN présente un fort taux de C et de G, ainsi qu'un faibletaux de A et de T. Nous avons pu déduire ce résultat car, la base des images présente descouleurs très claires et le haut des images des couleurs très foncées. La représentaion CGRde rang 6 est très claire car la séquences d'ADN ne contient pas beauoup d'information.En deuxième lieu (�gure 5.1), nous montrons des signatures génomiques de rang 4 corrigéespar chaîne de Markov d'ordre 0 et 1. Les corrections par chaîne de Markov ont pourbut d'uniformiser les signatures génomiques, en supprimant leur décomposition en base.Nous observons nettement que la signature par chaîne de Markov 0 possède une netteaccentuation de couleur à sa base et une perte de couleur à son sommet. La correction parchaîne de Markov d'ordre 1 a une trop forte homogénéisation de ses valeurs, et perd plusd'informations visuelles qu'elle n'en gagne.En troisième lieu (�gure 5.3), nous présentons 16 signatures génomiques générées par latechnique du bootstrap à partir de la signature génomique sans correction de rang 4. Ces16 signatures génomiques possèdent deux choses en communs : la première est la présencede faibles valeurs à leur base et la deuxième est la présence de fortes valeurs à leur sommet.26

Page 29: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Herpestes edwardsii

Fig. 5.3 � La représentaion CGR de signatures génomiques de rang 4 de Herpestes edwardsiiobtenues par la technique du bootstrap.Malgré cela, ces 16 signatures sont toutes di�érentes.Nous allons comparer les signatures génomiques des 31 espèces à l'aide de la distanceeuclidienne, de la distance de Dice et celle de Pearson sur les signatures génomiques et surles mêmes corrigées par chaîne de Markov 0 et 1. La technique du bootstrap nous permettrad'appuyer les résultats obtenus.27

Page 30: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

5.2 Inférence d'arbres phylogénétiquesLes arbres phylogénétiques ont été inférés à partir des 31 signatures génomiques de rangm = 6, corrigées par chaîne de Markov ou non. Nous avons comparé ces signatures géno-miques entres elles à l'aide de la distance euclidienne, de la distance de Dice et celle dePearson. Les valeurs présentes sur ces arbres ont été obtenues par la technique du boots-trap en générant 500 signatures pour chaque espèce. Ces 500 signatures nous ont permisd'obtenir 500 matrices de distances, qui ont servi à l'élaboration des résultats.Nous comparerons les résultats obtenus avec les résultats fournis dans Nature [7]. Leurarbre sur le jeu de données des 31 espèces est représenté �gure 5.4.

Fig. 5.4 � L'arbre phylogénétique des 31 espèces comparées présenté dans [7].Tous les arbres phylogénétiques ont été inférés par la variante UNJ* [8] de l'algorithmeUNJ [9] avec un paramètre s = 30.Nous remarquons que les arbres inférés à partir de signatures génomiques sans correctionet avec correction par chaîne de Markov d'ordre 1 ont les mêmes topologies T1, et ceuxinférés à partir de signatures génomiques avec correction par chaîne de Markov d'ordre 0ont les mêmes topologies T2.Si nous comparons les résultats avec l'arbre des carnivores publié dans Nature [7] avec latopologie T1, nous avons :� Canis lupus entre l'outgroup (Homo et Scalopus aquaticus) et l'ingroup. Ceci est proba-blement dû à un artefact d'attraction des longues branches (LBA) ;28

Page 31: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

� Nandinia bionata est mal placé (probablement dû à un artefact LBA).À part ces détails, T1 présente la même histoire évolutive que l'arbre dans Nature.La topologie T2 est un peu plus di�érente :� Nandinia bionata est encore plus mal placé (LBA) ;� Mungos mungo forme une cerise avec Suricata suricatta, alors que T1 et [7] lui préfèreCrossarchus obscurus ;� Galidictis fasciata est au milieu du clade formé par les 5 individus Mungotictis decemli-neata.La topologie T2 est donc globalement plus mauvaise.Si nous considèrons les valeurs de bootstrap, nous observons que celles associées aux topolo-gies T2 (i.e. inféré avec correction par chaîne de Markov d'ordre 0) sont moins importantesque celles associées aux topologies T1. Cette observation montre que non seulement lescorrections par chaîne de Markov d'ordre 0 conduisent à de plus mauvaises topologies,mais elles impliquent de plus des distances relativement peu stables.Globalement, nous observons que les valeurs de bootstrap calculées à partir de réplicationsaléatoires de signatures génomiques sont beaucoup plus faibles que celles présentées auxbranches de l'arbre dans [7]. Toutefois, ce dernier arbre a été inféré par une méthodeprobabiliste à partir de la concaténation de quatre gènes di�érents, alors que notre études'est porté uniquement sur le gène nucléaire IRBP.Si nous considèrons plus précisément les valeurs de bootstrap des topologies T1 correspon-dant aux distances estimées avec et sans correction par chaîne de Markov d'ordre 1, nousobservons qu'elles sont globalement corrélées, sauf :� l'ingroup − (Canis lupus) a 10% de plus avec la correction par chaîne de Markov d'ordre 1 ;� l'ingroup − (Canis lupus + Felis sylvestris + Panthera) va de 10% à 20% de plus avecla correction par chaîne de Markov d'ordre 1 ;� l'ingroup − (Canis lupus + Felis sylvestris + Panthera + Nandina) va de 10% à 20% demoins avec la correction de Markov d'ordre 1 ;� le noeud interne correspondant à Crocuta crocuta a 20% de plus avec la correction parchaîne de Markov d'ordre 1.Nous observons aussi un meilleur soutien des valeurs de bootstrap utilisées avec la distancede Dice, particulièrement lorsqu'elle est corrigée suivant un processus markovien d'ordre 1(cf. noeud correspondant au clade (Galidictis + Mungodictis))Nous remarquerons néanmoins les faibles valeurs de bootstrap à l'intérieur du groupe d'indi-vidus Mungodictis ; ce qui s'explique par les séquences quasiment identiques et donc di�ci-lement di�érentiable via signatures génomiques. Nous remarquerons également le très faiblesupprot de bootstrap de la cerise (Fossa fossana + Cryptoprocta) ; toutefois cette mêmecerise est également très faiblement soutenue dans l'arbre de référence publié dans [7].

29

Page 32: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance euclidienne

Signature génomique normale

Fig. 5.5 � Arbre inféré à partir des signatures génomiques sans correction et comparéesavec la distance euclidienne. Il appartient à la topologie T1.30

Page 33: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance euclidienne

Signature génomique Markov 0

Fig. 5.6 � Arbre inféré à partir des signatures génomiques avec correction de Markovd'ordre 0 et comparées avec la distance euclidienne. Il appartient à la topologie T2.31

Page 34: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance euclidienne

Signature génomique Markov 1

Fig. 5.7 � Arbre inféré à partir des signatures génomiques avec correction de Markovd'ordre 1 et comparées avec la distance euclidienne. Il appartient à la topologie T1.32

Page 35: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de Dice

Signature génomique normale

Fig. 5.8 � Arbre inféré à partir des signatures génomiques sans correction et comparéesavec la distance de Dice. Il appartient à la topologie T1.33

Page 36: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de Dice

Signature génomique Markov 0

Fig. 5.9 � Arbre inféré à partir des signatures génomiques avec correction de Markovd'ordre 0 et comparées avec la distance de Dice. Il appartient à la topologie T2.34

Page 37: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de Dice

Signature génomique Markov 1

Fig. 5.10 � Arbre inféré à partir des signatures génomiques avec correction de Markovd'ordre 1 et comparées avec la distance de Dice. Il appartient à la topologie T1.35

Page 38: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de Pearson

Signature génomique normale

Fig. 5.11 � Arbre inféré à partir des signatures génomiques sans correction et comparéesavec la distance de Pearson. Il appartient à la topologie T1.36

Page 39: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de Pearson

Signature génomique Markov 0

Fig. 5.12 � Arbre inféré à partir des signatures génomiques avec correction de Markovd'ordre 0 et comparées avec la distance de Pearson. Il appartient à la topologie T2.37

Page 40: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

Distance de Pearson

Signature génomique Markov 1

Fig. 5.13 � Arbre inféré à partir des signatures génomiques avec correction de Markovd'ordre 1 et comparées avec la distance de Pearson. Il appartient à la topologie T1.38

Page 41: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

CHAPITRESIXConclusionLes signatures génomiques o�rent des avantages dans l'inférence d'arbres phylogénétiques.Elles peuvent être générées à partir de longues séquences d'ADN, et sont rapidement com-parables entre elles.La correction par chaîne de Markov d'ordre 0 ne nous donne pas des résultats satisfaisantsdu point de vue phylogénétique. Lors de l'inférence d'arbres, la correction par chaîne deMarkov d'ordre 1 nous permet d'obtenir des résultats plus convainquants que les signaturessans correction, mais ces derniers restent tout de même valables.Le jeu de données biologique réel étudié nous a permis de comparer les signatures géno-miques par rapport à une approche plus � classique �. Cette comparaison s'avère positive.L'étude plus approfondie de celles-ci est donc envisageable pour obtenir de meilleurs per-formances dans ce domaine.Elles sont donc une bonne approche pour l'inférece d'arbres phylogénétiques.

39

Page 42: C:/Users/Myers/Documents/Facult /2006-07 M1 Informatique ...icube-bfo.unistra.fr/fr/img_auth.php/1/19/TER_Jung_Matthieu.pdf · T ABLE DES MA TIÈRES 1 In tro duction 3 1.1 Théories

BIBLIOGRAPHIE[1] Breuil Michel. Dictionnaire des sciences de la vie et de la Terre. Nathan, 1997.[2] Wang L. & Jiang T. And the complexity of multiple sequence alignment. Journal ofcomputationel biology, 1 :337�348, 1994.[3] Vert Jean-Philippe. Kernel Methods in Bioengineering, Signal and Image Processing,chapter Kernel methods in genomics and computational biology, pages 42�63. IdeaGroup, 2007. Camps-Valls, G., Rojo-Alvarez, J.-L. and Martinez-Ramon, M. (Eds.).[4] Campbell. Biologie. DeBoeck Université, 1995.[5] Jeffrey H. J. Chaos game representation of gene structure. Nucleic Acids Res, 1990.[6] Lespinats Sylvain. Style du génome exploré par analyse textuelle de l'adn. PhDthesis, Université Paris 6, 2006.[7] Sarah Zehr Thomas Delefosse Geraldine Veron Steven M. Goodman & John J. FlynnAnne D. Yoder, Melissa M. Burns. Single origin of malagasy carnivora from an africanancestor. Nature Publishing Group, 421 :734�737, 2003.[8] A. Criscuolo. Adaptation de algorithmes agglomératifs nj, unj, bionj et mvr pourl'inférence très rapide de superarbres. In A. Denise, P. Durrens, S. Robin, E. Rocha,A. de Daruvar, and A. Groppi, editors, JOBIM06, pages 227�240, 2006.[9] O. Gascuel. Concerning the NJ algorithm and its unweighted version, UNJ. In B. Mir-kin, F.R. McMorris, F.S. Roberts, and A. Rzhetsky, editors, Mathematical Hierarchiesand Biology, pages 149�170. DIMACS Series in Discrete Mathematics and TheoreticalComputer Science. American Mathematical Society, Providence, 1997.[10] Kuo Ann. The distance macro : Preliminary documentation, 2nd ed. Technical report,SAS Institute Inc., 1997.

40