La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome...

16
La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome [email protected] Carry-le-Rouet, Décembre 2006

Transcript of La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome...

Page 1: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

La phylogénomique sansalignement de séquences

Jean-Loup RislerStatistique & Génome

[email protected] Carry-le-Rouet, Décembre 2006

Page 2: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

Reconstructions phylogénétiques

Distances Maximum de parcimonie Maximum de vraisemblance

Recherche de synténies

Identification des orthologues Blast Alignements multiples

Page 3: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

Une alternative: la recherche de « mots » communsdans les séquences (k-words, k-tups, k-grams...)

Exemple classique : le « Dotplot »

Page 4: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

Les alignements de chromosomes entiers sontimpossibles à cause des réarrangements.

La recherche de « mots communs » ne se souciepas de leurs positions.

On peut donc penser à déterminer une « distance »entre chromosomes à partir de leur contenu enmots communs.

Page 5: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

B. E. Blaisdell, PNAS 83 (1986), 5155-5159

Composition en di- et tri-nucléotides (chaînes deMarkov d’ordre 1 et 2) de séquences codantes etnon codantes test du chi2:

Page 6: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

1

2

3

4

5

A

B

Page 7: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

Revue: Vinga, S. & Almeida, J.Alignment-free sequence comparisonBioinformatics 19 (2003), 513-523.

Gary W. Stuart

Une séquence peut être représentée par un vecteur

S = AATATTAAATTTATA

AA = 3AT = 4TT = 3TA = 4 AA

TT

AT

{s343

s = (3, 4, 3, 4)

Page 8: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

AA

TT

AT

{s1 2

22

{s2 4

44

Page 9: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

AA

TT

AT

{s1 u1 = 3

v1 = 4t1 = 4

{s2 u2 = 4

v2 = 4t2 = 4

s1 . s2 = u1*u2 + v1*v2 + t1*t2

= |s1|*|s2|*cos()

|s1| = (u12 + v1

2 + t12)1/2

Page 10: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

d(i,j) = -Log[(1 + cos )/2]

Page 11: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.
Page 12: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

Il y a 160.000 tetrapeptides possibles.Donc, si l’on décompose un jeu de protéines en motsde longueur 4, chaque protéine sera représentée parun vecteur dans un espace à 160.000 dimensions...

De très nombreux « axes » portent peu d’information(tetrapeptides peu ou pas présents). On réduit la taillede l’espace en prenant pour repères les axes d’inertieles plus significatifs du nuage de points (changementde repère) et en supprimant les axes de faible inertie.

Page 13: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

xy

z

A

A’

B

B’

A A’

B

B’

Page 14: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.
Page 15: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.

Toutes les protéines d’une même espèce sont regroupéesen un seul vecteur --> chaque espèce est représentée parun vecteur.

Page 16: La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006.