Plan Epidémiologie Moléculaire

http://lunebleue.canalblog.com/images/Van_Gogh_la_nuit__toil_e_sur_le_Rh_ne.jpg

Plan Epidémiologie Moléculaire

•Introduction

•Approches en Phylogénie Moléculaire : Logiciels et progiciel PHYLIP- Cladistique- Phénétique- Probabiliste

•Applications en Virologie : - Epidémie (ex : RHDV)- Origine d’un virus (ex : HIV)- Classement d’un nouveau virus (ex : Paramyxovirus)- Cospéciation (ex : hantavirus)- Maladie Nosocomiale (ex : HCV)

Introduction Epidémiologie Moléculaire

L’épidémiologie moléculaire est un outil et n’est qu’un outil

Elle est complémentaire des approches “fondamentales” sur les virus

- Biochimie- Biologie Cellulaire- Biologie Moléculaire

•Permet de répondre à des questions posées par les approches “fondamentales”

• Origine d’un virus • Evolution d’un virus• Description d’une épidémie• ...

• Permet de poser de nouvelles questions

• Vectorisation ?• Mutants d’échappement ?• ...

==>Point de départ pour des études avec les approches “fondamentales”

Introduction Epidémiologie Moléculaire

L’épidémiologie moléculaire est un outil et n’est qu’un outil

Double Valence

==> Epidémiologie Moléculaire

•Confrontation des données de séquence et de “phylogénie” avec l’enquête terrain

• Nécessité d’avoir une enquête bien documentée :

- Animaux : limités aux commémorations

- Humains : qualité du questionnaire importante

Alignement séquencesLogiciels d’alignements

•les 2 logiciels les plus utilisés : Pile UP : par entrée successive et comparaison des unités (séquences)

Clustal : par entrée successive des unités (séquences) et définition d’une matrice d’alignement

•Alignement pour que le taux d’homologie ==> minimum de différences site par site• Point de départ de la phylogénie :

==> l’événement évolutif = remplacement d’une base par une autre•Exemple: Pile UP partiel

==> Séquences du gène de la capside de RHDV, 50 bases, 18 séquences 18 50 W

W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA

Pile UPA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA

B AAAGCGTAGT TTT

GGGAATT CGCCGCTGCC ATGCC

ATAGG GTACCTACAA

C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT

D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA

E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA

F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT

G AAAGCGTAGT TTTGGGAATT

CGCCGCGGCC ATGCCATAGG GTACGTAC

AA

H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA

I AAAGCGTAGT

TTTTGGAATA CGCTTCTG

GA ATGCCACCGG GTACGT

ACAA

J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT

Z AATTGGTACT TAATGGAATT CGTGACAGTT

ATGGGATAGG GTTTATATGG

10 séquences à aligner

9 séquences +

la séquence « externe »d’enracinement




Pile UP

A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA


E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP

A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA

B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA


40 41




E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP

A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT

C plus proche de B que de A




E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP



49



E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP



4349



E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP



4349 39



E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP



D plus proche de A que de BLoin de C



E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP



etc



E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Pile UP

Pile UP

11 50H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAG AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTTF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTTJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG

ClustalA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA

B AAAGCGTAGT TTT

GGGAATT CGCCGCTGCC ATGCC

ATAGG GTACCTACAA



E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA




10 séquences à aligner

9 séquences +

la séquence « externe »d’enracinement

ClustalD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA





E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Modèle AA--CGTAGT TTT-GGAATT CG--GCTGCC ATGCCATAGG GTAC-TACAA

ClustalD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA





E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA


Modèle AA--CGTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC--




Clustal


E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA

Modèle AA---GTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC--





Clustal


E AA

AGCGTAGT TTT

TGGAATA CGCT

TCTGGA ATGCC

ACTGG GTACGT

ACAA




AA


I AAAGCGTAGT

TTTTGGAATA CGCTTCTG


ACAA

Modèle AA---GTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC--


etc

Clustal

Travail sur

l’alignement

Clustal

11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG

Modèle -----GTAGT T-----AAT- CG---C-G-- AT---A--GG GT---TA---

Clustal


UPGMA

Clustal

11 50H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAG AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTTF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTTJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG

Cladistique Epidémiologie Moléculaire

Méthodes Cladistiques?

• Dérivées directement de la phylogénie classique

• Hypothèses • Intègre la notion d’évolution

•Identification •des états plésiomorphes (primitifs) •des états apomorphes (dérivés)

•La parenté entre les Unités Evolutives (UE) repose sur les synapomorphies (caractères dérivés partagés par au

moins 2 taxons)

• Principe ==> Mise en évidence de la transformations des

caractères de l’état plésiomorphe vers l’état apomorphe.

Primitif Dérivé, « Evolué »


Application à la Phylogénie Moléculaire

==> Qu’est ce qui est informatif ?

•Un caractère = position dans la séquence (une base de la séquence)

• 4 états possibles pour chaque caractère (ATG ou C)

• Seuls les mutations partagées par au moins 2 taxons sont informatives

==> prises en compte

•Caractère idéal en Cladistique ==> Transformé une seule fois au cours de l’évolution •Problèmes avec les séquences

• Problème d’homoplasies (caractères pouvant changer plusieurs fois au cours de l’évolution) : Réversions...

• Mutations ≠ successives au même site possibles

• On observe un cliché à un temps t, ==> Nécessité d’intégrer les variations potentielles inapparentes

dans la séquence mais fruit de l’évolution


Parcimonie permet de résoudre ces problèmes

Algorithme de Wagner

•Algorithme le plus utilisé en phylogénie

•Impose des hypothèses de départ ==> Principe Principe

• Minimiser le nombre d’apparitions multiples de caractères dérivés et le nombre des réversions nécessaires pour établir les arbres finaux.

• Etablir les états des caractères à chaque noeud de l’arbre

==> Nœuds de l’arbre = Ancêtre commun

•Méthode permet de définir les arbres phylogéniques minimaux : Parcimonieux

==> Nécessitant le moins de reversions

==> Donc, gestion globale de l’arbre

==> Moins d’événements mutationnels en fin de construction de l’arbre


DNAPARS (Felsenstein- Progiciel PHYLIP)• Dans le progiciel PHYLIP• PAUP aussi de la cladistique

Principe DNAPARS • Etablit l’arbre directement à partir de la séquence•Données de base => seulement les sites informatifs

==> Mutations partagées par au moins 2 UE

• Nécessité de ne garder que les sites informatifs ==> mettre des poids à chaque site 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA

18 13 a99-05 GAGCCGTCGA AAA a96-har GAGCCGTCGA TAA a98-05 GGACCATCGA AGG a99-09 GGGCCATCGA GGG a00-13 GGACCATCGA AGG a00-06 GGACTATCGG AGG a99-02 GGACTGTCGA AAA a99-19 GAACCATCGG AAA a96-01 GAACCGTCGA AGG a95-12 GAACCGTCGA AGG a99-31 GAACCGTCGA AGG a98-03 GAACCGTTAA AGG a87-tc GAGCCGTCAG AGC a89-ge GAGCCGTCGG AGC a90-au GAGCCGACGA AGC a91-07 TAGCCGTTGG AGC a00-08 TGGTCGACGG GAC ARCV TAATTATTTA AAA


DNAPARS (Felsenstein- Progiciel PHYLIP)

Principe DNAPARS • Etablit l’arbre directement à partir de la séquence ?

•Transforme l’alignement en arbre parcimonieux

•Gestion heuristique de l’arbre ==> Par approche progressive, évaluation successives et hypothèses provisoires

• Arbre non enraciné ==> Car parcimonie = gestion globale de toutes les UE -

séquences- et non par comparaison avec un ancêtre

putatif• Autour de 100 arbres équivalents

•Pseudo-enracinement possible avec un Extra-groupe 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA

Extra-Groupe Epidémiologie Moléculaire

Phylogénie Classique• Permet de réaliser un pseudo-enracinement

==> les caractères partagés par le groupe et l’extra-groupe sont considérés comme plésiomorphes (ancestraux)

•Hypothèse ==> Les UE et l’extra-groupe ont un ancêtre commun

Phylogénie Moléculaire•Séquence d’une espèce proche (alignement possible)

mais suffisamment différente pour permettre un enracinement.

•idéal autour de 30% de divergence avec toutes les séquences de l’enquête

18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA EBHS TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA

Extra-Groupe Epidémiologie Moléculaire

Où est la séquence externe dans cet alignement ?Et pourquoi?

Phénétique Epidémiologie Moléculaire

Méthodes Phénétiques ?==> Dérivées directement de la phylogénie classique

•Hypothèses- Fondées sur les similitudes de Phénotypes entre 2 UE- Les divergences et les similitudes sont informatives- Notion de similitude globale entre les UE (séquences)- Arbres construits à partir des ressemblances entre chaque paire

d’UE- A partir de matrices de distances entre les UE

•Principe Plus la ressemblance globale entre 2 UE est importante => Plus la distance les séparant est faible

=> Plus leurs liens de parenté sont étroits

•Application à la phylogénie moléculaire : Qu’est ce qui est informatif?

- un phénotype = une Unité Evolutive = une séquence

-Tous les sites sont informatifs entre les unités ==> les mutations ou la conservation des

nucléotides

Nœuds de l’arbre ==> Phénotype commun (Pas Ancêtre)


DNADIST : (PHYLIP)• Première étape de l’analyse par phénétique

- Transforme les alignements de séquences en

==> Matrices de distance entre les UE prises 2 à 2

- “% de similarité” avec coefficients pondérateurs

Hypothèses => transitions/transversions, insertions/délétions...

18 a99-05 0.0000 0.0414 0.1515 0.1515 0.1515 0.2500 0.1058 0.1058 0.1058 0.1058 0.1058 0.1515 0.1302 0.1072 0.1339 0.1832 0.2387 0.3180

a96-har 0.0414 0.0000 0.1537 0.1302 0.1537 0.2538 0.1072 0.1072 0.1072 0.1072 0.1072 0.1537 0.1320 0.1087 0.1359 0.1860 0.2154 0.3234

… a00-08 0.2387 0.2154 0.2387 0.1860 0.2387 0.2944 0.2120 0.2120 0.2387 0.2387 0.2387 0.2944 0.1832 0.1582 0.1832 0.1832 0.0000 0.3909

EBHS 0.3180 0.3234 0.2896 0.3471 0.2896 0.3471 0.2350 0.2350 0.2896 0.2896 0.2896 0.2619 0.3532 0.3532 0.3660 0.3234 0.3909 0.0000

Exemple•4 matrices 2 premières et 2 dernières / 18•Indice de Kimura = 2 : Poids de 2 pour les transversions/transitions


Algorithmes pour l’élaboration du phénogramme

•Principe commun à tous les Algorithmes

• Les UE sont regroupés pour minimiser la longueur des branches de l’arbre.

• Longueur des branches de l’arbre proportionnelle à la distance

•Sans hypothèse évolutive

• Neighbor-joining le plus utilisé==> aucune contrainte dans les taux d’évolution entre les

différentes branches•FITSCH ( principe des Moindres carrés, lourd peu utilisable)

• Arbre non enraciné (“pas d’ancêtre initial”) de longueur minimal• Pseudo-enracinement possible par un extra groupe.

18 a99-05 0.0000 0.0414 0.1515 0.1515 0.1515 0.2500 0.1058 0.1058 0.1058 0.1058 0.1058 0.1515 0.1302 0.1072 0.1339 0.1832 0.2387 0.3180 a96-har 0.0414 0.0000 0.1537 0.1302 0.1537 0.2538 0.1072 0.1072 0.1072 0.1072 0.1072 0.1537 0.1320 0.1087 0.1359 0.1860 0.2154 0.3234 a98-05 0.1515 0.1537 0.0000 0.0409 0.0000 0.0836 0.0836 0.0836 0.0409 0.0409 0.0409 0.0836 0.1302 0.1072 0.1339 0.1832 0.2387 0.2896 a99-09 0.1515 0.1302 0.0409 0.0000 0.0409 0.1284 0.1284 0.1284 0.0836 0.0836 0.0836 0.1284 0.1302 0.1072 0.1339 0.1832 0.1860 0.3471 a00-13 0.1515 0.1537 0.0000 0.0409 0.0000 0.0836 0.0836 0.0836 0.0409 0.0409 0.0409 0.0836 0.1302 0.1072 0.1339 0.1832 0.2387 0.2896 a00-06 0.2500 0.2538 0.0836 0.1284 0.0836 0.0000 0.1284 0.1284 0.1284 0.1284 0.1284 0.1753 0.1778 0.1537 0.2350 0.2350 0.2944 0.3471 a99-02 0.1058 0.1072 0.0836 0.1284 0.0836 0.1284 0.0000 0.0836 0.0836 0.0836 0.0836 0.1284 0.1537 0.1302 0.1582 0.2087 0.2120 0.2350 a99-19 0.1058 0.1072 0.0836 0.1284 0.0836 0.1284 0.0836 0.0000 0.0836 0.0836 0.0836 0.1284 0.1072 0.0848 0.1582 0.1582 0.2120 0.2350 a96-01 0.1058 0.1072 0.0409 0.0836 0.0409 0.1284 0.0836 0.0836 0.0000 0.0000 0.0000 0.0409 0.0848 0.0628 0.0871 0.1339 0.2387 0.2896 a95-12 0.1058 0.1072 0.0409 0.0836 0.0409 0.1284 0.0836 0.0836 0.0000 0.0000 0.0000 0.0409 0.0848 0.0628 0.0871 0.1339 0.2387 0.2896 a99-31 0.1058 0.1072 0.0409 0.0836 0.0409 0.1284 0.0836 0.0836 0.0000 0.0000 0.0000 0.0409 0.0848 0.0628 0.0871 0.1339 0.2387 0.2896 a98-03 0.1515 0.1537 0.0836 0.1284 0.0836 0.1753 0.1284 0.1284 0.0409 0.0409 0.0409 0.0000 0.0848 0.1072 0.1339 0.1339 0.2944 0.2619 a87-tc 0.1302 0.1320 0.1302 0.1302 0.1302 0.1778 0.1537 0.1072 0.0848 0.0848 0.0848 0.0848 0.0000 0.0202 0.0859 0.0859 0.1832 0.3532 a89-ge 0.1072 0.1087 0.1072 0.1072 0.1072 0.1537 0.1302 0.0848 0.0628 0.0628 0.0628 0.1072 0.0202 0.0000 0.0637 0.0637 0.1582 0.3532 a90-au 0.1339 0.1359 0.1339 0.1339 0.1339 0.2350 0.1582 0.1582 0.0871 0.0871 0.0871 0.1339 0.0859 0.0637 0.0000 0.1359 0.1832 0.3660 a91-07 0.1832 0.1860 0.1832 0.1832 0.1832 0.2350 0.2087 0.1582 0.1339 0.1339 0.1339 0.1339 0.0859 0.0637 0.1359 0.0000 0.1832 0.3234 a00-08 0.2387 0.2154 0.2387 0.1860 0.2387 0.2944 0.2120 0.2120 0.2387 0.2387 0.2387 0.2944 0.1832 0.1582 0.1832 0.1832 0.0000 0.3909

18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA


Algorithmes pour l’élaboration du phénogramme•Avec hypothèse évolutive

•UPGMA, KITCH ==> mêmes algorithmes que Neighbor-joining ou FITSCH

•Avec une hypothèse supplémentaire ==> L’Horloge moléculaire •Postulat initial : Le taux de mutation est le même sur toutes les branches de l’arbre

==> La distance devient proportionnelle au temps évolutif

==> Les noeuds de l’arbre correspondent à des ancêtres communs

•Arbre enraciné et extra-groupe possible

•Problème :

Logiciel « efficace » MAIS Postulat de départ fort ==> applicable seulement dans certaines conditions==> même pression de sélection sur tous les UE ==> méthode sensible à des taux de mutations différents sur les différentes branches

Contre : ==> horloge épisodique: mutations pas de façon indépendante : des périodes d’accumulation et des périodes d’arrêt évolutif (Gillepsie)==> horloge pas constante: les mutations pas équivalentes les avantageuses se

fixeraient plus vites (Goodman)

Probabiliste Epidémiologie Moléculaire

Méthodes Probabilistes : “Maximum de vraisemblance”

==> Méthode la plus adaptée à la Phylogénie Moléculaire

•Hypothèses

•Les transformations de caractères obéissent à des lois de probabilité définies a priori

==> paramètres définis a priori

•Paramètres :•Structure de l’arbre• Probabilité des événements mutationnels• Probabilité liée à l’état du caractère chez l’ancêtre...

• Pour la phylogénie moléculaire : Qu’est ce qui est informatif ?

• Intègre la probabilité de la variation d’une base sur 5 possibilités

•Tout est informatif : mutations et conservation des sites entre les UE (séquences)

Probabiliste Epidémiologie Moléculaire

DNAml ou DNAmlk (PHYLIP)

•Principe : • Construit l’arbre le plus probable directement à partir d’alignements

• Arbre dont les longueurs de branche sont les plus probables

• Sans ou avec horloge moléculaire (ml ou mlk)• Possibilité d’extra-groupe

•Algorithme le plus adapté pour la phylogénie moléculaire : MAIS

==>Très lourd : d’utilisation marginale ==> Ne tourne qu’avec un faible nombre d’unité et un faible nombre

de sites

18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA

Comparaison des méthodes Epidémiologie Moléculaire

Avantages de Parcimonie/Phénétique

• Fondée sur les caractères : méthode cladistique plutôt que phénétique. • Ne réduit pas la séquence à un simple nombre. • Essaie de donner une information sur les séquences ancestrales. • Evalue différents arbres possibles ± équivalents.

Inconvénients de Parcimonie/Phénétique

• Très lente par rapport aux méthodes basées sur les distances. • N'utilise pas toute l'information disponible ==>seuls les sites informatifs sont pris en compte • Ne fait pas de corrections pour les substitutions multiples • Pas d’informations sur la longueur des branches • Méthode très sensible au biais des codons

Probabiliste

•Le maximum de vraisemblance est une bonne méthode de reconstruction phylogénétique • Mais plus il y a de paramètres introduits, plus le calcul est long et plus il y a accumulation de petites erreurs informatiques

==> utilisation un modèle simple est préférable.

Arbres résultants Epidémiologie Moléculaire

DNApars

•Longueur des branches proportionnelle à la distance entre les unités•Seulement les parties horizontales sont informatives

Neighbor-joining DNAml

Rééchantillonage Epidémiologie Moléculaire

Estimation de la robustesse de l’arbre

Hypothèse de base

•Si les UE sont regroupées dans des groupes stables ==> L’introduction de mutations aléatoires

ne doit pas perturber la composition de ces regroupements

Principe

•Introduction dans les séquences de mutations aléatoires pour voir si la structure de l’arbre en est modifiée

•Test pour évaluer si les mutations générant l’arbre ==> mutations réelles ou fruit du hasard :

significatives ou non


Méthodes Seqboot (PHYLIP)Jacknife•Séquence de k caractères enlevée aléatoirement au même niveau dans toutes les unités• Ampute les séquences de la moitié de leur longueur•Procédure recommencée N fois (100<N<1000) ==> N arbres sont ensuite élaborés.

Bootstrap•Méthode la plus utilisée •Tirage au hasard de k caractères avec remplacement par une autre séquence

==> constitue les données de l’arbre•Procédure recommencée N fois (100<N<1000)

==> N arbres sont ensuite élaborés.

•Exemple sur les 4 premières séquences ==> •Jacknife•Bootstrap

Bilan• Il faut pour les 2 des longueurs de séquence et des différences entre les séquences des Unités significatives ==> Sur des séquences courtes pas utilisable

•Boostrap mieux car séquence garde sa taille d’origine==> information modifiée aléatoirement mais pas

tronquée

a99-05 CACGGCTGTT CCCCCCATTT TGGTGGGAAA ACCCCGGGCA CAAACCCCAAa99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCAa99-05 CAGA GCCAAGT GTG AACCG AAACCA

a96-har CACGGCTGTT CCCCCCATTT TGGTGGGAAA ACCCCGGGCA CTTACCCCAAa96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCAa96-har CAGA GCCAAGT GTG AACCG TAACCA

a98-05 CGCAACTGTT CCCCCCATTT TGGTGGGAAA ACTTTGGGCA CAAGCCCCAAa98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCAa98-05 CAAA GCCAAAT GTG AACTG AGGCCA

a99-09 CGCGGCTGTT CCCCCCATTT TGGTGGGAAA ACTTTGGGCA CGGGCCCCAAa99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a99-09 CAGA GCCAAAT GTG AACTG GGGCCA

Méthodes Seqboot (PHYLIP)

Consens

•Etablissement d’un arbre consensus à partir des N arbres du Seqboot•Définit les groupes rencontrés le plus fréquemment parmi les arbres comparés

•Les valeurs de rééchantillonage sont reportées en pourcentage aux embranchements de l’arbre vrai •Valide le regroupement des unités situées après le nœud et non l’embranchement

==> X% des UE sont toujours regroupées ensemble


95

Neighbor-joining

47

60

40


11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000








100, 500, 1000 séquences ≠

11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000

11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000

11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000

11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000

11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000

11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000

100, 500, 1000 matrices ≠

100, 500, 1000 arbres ≠

…

CladistiquePhénétique

Limites Epidémiologie Moléculaire

Beaucoup d’hypothèses au départ

Type la nature favorise le moindre coûtParcimonie???

Hypothèses de départ dans les algorythmes

Kimura approximation etc à bien maitriser


Ne pas faire dire n’importe quoi aux arbres

Rester modeste


Pour Valider l’étude

Faire plusieurs techniques

Valider par bootsrap

Arbre change en fonction du nombre de séquences et de leur représentativité dans le groupe

Groupe externe peut changer l’arbre

L’ordre d’entrée des séquences aussi

Epidémiologie RHDV Epidémiologie Moléculaire

RHDV (Rabbit Haemorrhagic Disease Virus)

•Hépatite fulminante chez le lapin.•Mort en 24 à 48 heures, présence d’hémorragies diffuses.•Maladie apparue en Europe en 88-89 : première épizootie•Depuis endémique

Structure des virions• Famille des Caliciviridae

•Particule virale non enveloppée : Une capside constituée de l’assemblage de 90 dimères de VP60

•Génome virale :ARN monocaténaire de polarité positive, polyadénilé en 3’ et non coiffé.Protéine Vpg fixée à l’extrémité 5’ du génome

Thouvenin et al, 1997

100 nm

HélicasePolymérasecapside (VP60)VPgPro VP10Helicase5'3'AAAAAVpg


Définition de l’échantillonnage

•57 isolats français de RHDV - Diverses régions surtout Bretagne et Auvergne- de 88 à 95, surtout 89, 90 et 91.

•5 isolats Européens publiés.

93-2

BRETAGNEMIDIPYRENEES90-18 ; 95-1

92-1 ; 92-6

93-194-4

HAUTEBASSE NORMANDIEPICARDIEILE DEFRANCELORRAINEFRANCHECOMTERHONEALPESPROVENCEALPESCORSE89-SD ; 89-7; 89-8 ; 90-7 ; 90-8 90-10 ; 90-13 ; 90-14 ; 90-1590-19 ; 91-10 ; 91-11 AUVERGNE

NORMANDIE

COTE D'AZUR

92-492-3 ; 92-593-394-190-11

94-2 88-1 ; 89-1 ; 89-2 ; 89-3 89-4 ; 89-5 ; 89-6 ; 89-990-1 ; 90-2 ; 90-3 ; 90-490-5 ; 90-6 ; 90-9 ; 90-1290-16 ; 90-17 ; 90-20 90-21 ; 91-1 ; 91-2 ; 91-391-4 ; 91-5 ; 91-6 ; 91-791-8 ; 91-9 ; 92-2 ; 94-3


Définition des cibles moléculaires

•Résultats après Séquençage complet de quelques souches :==> Faible variabilité globale du génome virale : moins de 10 % de

divergence

• 3 régions sélectionnées sur le génome du virus: A, B et C

- A région conservée dans le gène de la capside- B région variable dans le gène de la capside - C région divergente dans un gène conservé : gène de la polymérase

Hélicase Polymérase capside (VP60)VPg Pro

p29

p30

C

p27

p28

B

p33

p34

A

VP10Helicase

5' 3'AAAAA

Epidémiologie RHDV Epidémiologie MoléculaireBroyageExtraction des particules viralesExtraction d'ARNSynthèse de l'ADNcPCR sur 3 régions du génome

Analyse informatiqueSéquençage automatiqueFoieDe l’animal à la séquence

Résultats d’Alignement de séquences•62 séquences alignées par PILE UP

Région A (497nt) ==> 7,6% de divergenceRégion B (467nt) ==> 9,4% de divergenceRégion C (455nt) ==> 8,7% de divergence

==> Région D (1419nt) ==> 8,6% de divergence


Analyse des arbres

Quelque soit la Méthode utilisée ==> Arbres équivalents : regroupements identiques

• 3 Génogroupes identifiables G1 G2 et G3 (fortes valeurs de Bootstrap 93 à 100%)• G3 divisable en 2 sous-groupes G3-1 et G3-2

==> G2 -TC-87, AL-89 et 88-1- Isolat le plus récent 89

==> G1 - 89-SD, 89-ES -Essentiellement des 89 et 90 un seul 93- Disparition du groupe G1 depuis 90

==> G3 - Isolat le plus ancien 90- Semble être issu de G2- G3-2 : Isolats 92, 93 et 94

==> Nouveau groupe ?

Arbre UPGMA : - région D (A+B+C)- Outgroup EBHSV- Bootstrap de 500

G3-2G3-1G3G2G1

D 91-2

D 93-1D 94-3D 92-GBD 90-5D 94-1D 94-4

D 92-4D 93-3D 91-6D 91-9D 91-1D 91-8D 91-7D 91-5D 92-2D 92-3

D 90-15D 90-14D 92-1D 90-13D 90-10D 90-19D 90-11D 91-10D 91-11D 91-4

D 90-17D 92-5

D 93-2D 90-2D 90-1D 89-ESD 90-3D 89-7D 89-SDD 91-3D 90-4D 90-6D 90-20D 90-12D 90-18D 87-TCD 89-ALD 89-5D 89-1D 89-4D 88-1D 89-6D 92-6

D 94-2D 95-1D 89-IT

D 90-8D 89-8D 90-7

D 89-3D 89-9D 90-21D 90-16D 90-9D 89-2

D EBHSV-GD

0.003 547777100

69

6383100

958799

72

9960100

89798694965777100

93100 1001001005994 64

Epidémiologie Moléculaire RHDV

• Reprise des données de l’enquête épidémiologique- Lapins morts de RHDV - Date de leur mort- Origine géographique- Origine : élevage fermier, élevage industriel, garenne

• Confrontation avec les données des arbres• Pas de regroupement en fonction du type d’élevage• Regroupement en fonction de la localisation

géographique• Regroupement en fonction du temps

• Historique de l’Epizootie-En 88-89 entrée simultanée du RHDV,

==> par l’est (G2) et le sud (G1).-Disparition ==> du groupe G2 en 89

et du groupe G1 en 90-Groupe G3 (Sous-groupe G3-2) issu de G2 remplace G2 et G1 sur toute la France.

- Sous groupe G3-1 semble s’installer depuis 93.

• Suite de l’enquête...- 104 nouveaux échantillons de 1993 à 2000-Séquences région A


G 2D 89-AL ; D 89-5 ; D 87-TC ; D 89-4 ; D 89-1 ; D 89-6 ; D 88-1G 1 D 89-ES ; D 89-3 ; D 90-21 ; D 91-3 D 89-9 ; D 90-20 ; D 90-9 ; D 89-2 ; D 90-4 ; D 90-6; D 90-3 ; D 90-12 ; D 90-16 ;D 90-2 ; D 90-18 ; D 90-1 ; D 89-7 ; D 90-8 ; D 89-SD ; D 89-8 ; D 90-7 ; D 93-2


99-05

00-Iow

96-Tri

96-Har

89-ES89-Eis

00-Reu

RCV

90-20

89-SD

88-01

87-TC

95-13 99-0699-04

95-18

89-GE89-Mex

96-Fra 89-05

99-2195-02

99-18

95-10

99-13

98-10

95-07

95-1593-05

95-01

97-0395-17

92-06

96-0298-20

95-08

95-1198-13

90-15

95-03

91-04

95-0495-14

94-08

95-0597-01

90-19

92-05

94-07

91-09

93-04

90-13

93-Mei

92-01

93-03

91-07

91-11

91-01

93-0692-02

90-Hag

90-05

94-01

92-GB

94-03 93-01

94-04

95-12 99-31

98-05

97-02

99-11

99-28

98-07

99-15

97-10

98-23

99-27

00-10

00-0399-10

99-30

99-25

99-32

99-26

00-04

00-13

99-23

99-2900-12

00-06

00-14

00-05

96-01

99-1999-02

98-21

99-09

99-16

00-01

99-33

00-0799-34

99-08

00-11

99-12

00-09 99-07

98-19

98-2298-06

99-14

97-0699-01

99-17

98-14

98-04

98-01

99-03

96-Wri

98-03

98-09

95-16

98-12

95-09

98-02

95-19

95-06

94-02

94-05

99-20

98-18

99-3698-17

97-07

95-20

99-24

G4

G5

G6

G1

G2

G3

81

100

91

94

81

92

100

97

100

83

82

83

98

97

98

84

95

88

95

99

99

94

92 89

87

58

6761

51

54

5864

77

73

72

56

77

58

61

57

6573

70

00-08

0.001

Suite de l’enquête

• G3-1 et G3-2 non différentié• G4 = 95-1• G5 = 94-2• G5 nouveau groupe à partir de 1994• G5 et G4 perdurent jusqu’en 2000

• G6 et 99-05 semblent reliés à la vaccination (Réunion et Iowa??)

==> Mutants d’échappement ?==> Vaccin mal inactivé ( Vaccins des souches G1

et G2 inactivées à la Béta-propiolactone)

• Isolat 00-08 ==> •Apparition d’un nouveau génogroupe ?•Remplaçant ou coexistant avec G4 et G5 ultérieurement•Résurgence d’un isolat du génogroupe G1 ayant continué

à évoluer ailleurs qu’en France.•A suivre...


1988198919901991199219931994199519961997199919982000G2G1 G3 G4G599-05 et G600-08 = G7?


VecteurHypothèses de notre enquête

• Dissémination très rapide de la maladie dès son apparition en France.• En Haute-Normandie en 93, virus très proche GB-93.•En Corse 2 isolats 90-18 (G1) et 95-1 (G3-1) reflet de l’épizootie RHDV

sur le continent la même année, et non une évolution du groupe G1 en Corse.

Maladie vectorisée ==> Homme, vent, oiseaux, insectes ????

Epizootie en Australie, à partir de l’île de Wardang (1995). • La souche de départ est connue TC-87• Point de départ de l’épizootie unique•Intéressant pour suivre l’évolution d’un virus à ARN lors d’une épizootie.

Observations de l’enquête australienne•Asgari et al, 1999 ont montré que le virus en 2 ans 1995 à 1997 avait

peu varié (1,8% maximum de diversité dans 380 b de la capside). Pas de regroupement des isolats en fonction du site de prélèvement.

•5 % des lapins ont survécus, et sont séro-convertis.

•Vitesse de propagation : ==> 9 à 414 km/mois. ==> Espagne : 2 à 30 km/mois

==> Vecteur nécessaire vitesse pas compatible avec transmission de lapin à lapin


Vecteur

•Homme (le long des grands axes).

• Chiens et Renards.- Virus retrouvé dans les féces

• Mouches (Diptera Calliphoridae) : - Mouche nécrophage- Virus retrouvé dans les crottes de mouches par RT/PCR.- Une crotte de mouche inoculée per os à un lapin suffit pour

causer la maladie. Asgari et al, 1998.

Echappement

- Recherche de mutants d’échappement - Analyse in vivo et in vitro du 9905

==> Pour vérifier si 9905 est un mutant d’échappement

à la vaccination avec une seule souche

Origine d’un virus : HIV Epidémiologie Moléculaire

Marylin et l’origine de HIV-1HIV-1 a pour origine SIV du chimpanzé Pan troglodytes troglodytes : Nature (1999) 397: 436-440

Marilyn ?• Chimpanzé P. t. troglodytes originaire d’afrique •Naturellement infecté par un VIS•Importée aux USA dépistée séropositive pour HIV-1 •Morte à 26 ans •Analyse post-mortem des séquences du virus VIScpz US

Méthode: Neighbor-Joining + Bootstrap 1000

b) cpz ==> ADN mitochondrialc) Virus ==> gène pol

Analyse des arbres:b montre la différenciation des sous espèces de cpz en fonction de leur origine géographique (cf: a)c montre le regroupement de HIV-1 (M, N, O) dans le même groupe monophylétique que SIVcpz P. t. troglodytes(valeur de bootstrap>80%) alors que SIVcpzANT séparé=> mêmes arbres obtenus avec d’autres séquences virales

Conlusions-HIV-1 provient de SIVcpz P. t. troglodytes (réservoir)-SIVcpz présent chez le singe depuis des milliers d’années-Localisation du cpz P. t. troglodytes coïncide avec région d’endémie actuelle de HIV-1

ADN mitochondrial

gène pol

ADN mitochondrial

Gène pol

Phylogénie et paramyxovirus Epidémiologie Moléculaire

Classement d’un nouveau paramyxovirus TPMV : Virology (1999) 258: 425-34

HeV: - Hendra Virus (virus équin mortel pour l’homme) ==> maladie respiratoireTPMV: - Tupaia Paramyxovirus

- virus isolé lors de mise en culture de cellules de musaraigneMéthode: • Séquences aa : nucléocapside+phosphoprotéine• Prodist et Fitsch, Bootstrap de 1000• Avec séquences de virus prototypes des Paramyxoviridae

Analyse de l’arbre•2 sous-familles Paramixovirinae et Pneumovirinae •les virus sont regroupés dans les genres avec des valeurs de bootstrap =100%•TPMV et HeV sont dans la sous-famille des Paramyxovirinae proches du genre Morbillivirus mais pas regroupés dans genre Morbillivirus

==> bootstrap 98% pour HeV et 77% pour TPMV

Conclusion /Question• HEV et TPMV sont -ils des prototypes de 1/2? nouveau(x) genre(s) des Paramyxovirinae?• 2000 Isolement du Virus Nipah ==> nouveau genre avec Hendra et Tupaia

Paramyxovirinae

Pneumovirinae

Cospéciation des hantavirus Epidémiologie Moléculaire

Etude de la cospéciationMise en évidence d’un changement d’hôte

Caractérisation d’un nouvel hantavirus : Topografov J. Virol. (1999) 73:5586-92

Méthode: •FITCH + Bootstrap 250

•Séquence: gène du cytochrome b pour les hôte gène de S pour les

hantavirus

•Extra-groupe : Rattus rattus pour les hôtes Séoul pour les hantavirus

Conclusion :

•Coévolution des hôtes et des hantavirus = règle générale

•Mise en évidence d’un changement d’hôte au cours de l’évolution

==> KBR avec TOP==> Pas de Cospéciation

==> Changement d’hôte

Phylogénie et Nosocomiale Epidémiologie Moléculaire

Mise en évidence d’une infection nosocomialeTransmission du virus HCV dans une unité d’autodialyse en France : J. Clin. Microbiol. (1998) 36:3040-43

Cohorte de l’étude: - 5 malades HD1, HD2, HD3, HD4, HD5- 4 témoins (T) infectés par VHC génotype 4 provenant de la même région- 38 isolats de HCV restreint au génotype 4

Méthodes: - Etude de région de 221pb du gène de NS5- Analyse par la méthode de Neighbor-Joining - Bootstraps 500

Analyse de l’arbre :• Remise en cause des sous-types établis auparavant :

==> Les sous-type 4c ne forment pas un groupe monophylétique (4c+4a)

•Les séquences HD et T n’appartiennent pas à un sous-type déjà décrit

•Toutes les séquences HD sont regroupés dans un groupe monophylétique (une même branche de l’arbre)



Historique : Enquête commémorative

•HD2, HD3, HD4 dépistés VHC4+ entre sep et nov 95 (pas de transfusion, greffe...)

•HD2, HD3, HD4 fréquentent unité d’auto dialyse A

•HD3 a été en contact avec HD1 (VHC4+) lors d’une séance d’auto dialyse à l’unité A un matin

•HD2 et HD4 ont fait leurs séance d’auto dialyse l’après midi de ce même jour à l’unité A

Données à connaître :

•Faible prévalence du sérotype HCV-4 en France (plutôt répandu en Afrique) •Les autres patients VHC+ de l’unité A sont VHC-1


Confrontation de l’arbre avec les données commémoratives

• Confirmation de la transmission nosocomiale de HCV-4 dans l’unité A ==> probablement de HD1 à HD2,3,4,5

• Hypothèses sur la chronologie de la transmission

- Contamination manu portée par le personnel soignant de HD1 à HD3==> à la même heure sur 2 machines

différentes

- Partage de l’appareil d’auto dialyse entre HD1 et HD2 -HD4 ==> pas de stérilisation entre les 2 séances

• Bilan de l ’enquête

• Confirmation d’une transmission nosocomiale de HCV-4 due à un l’absence de stérilisation des appareils d’auto dialyse et au non respect des règles d’hygiène élémentaires

• Depuis mise en place de la stérilisation entre 2 séances d’auto dialyse ==> pas de nouvelle contamination

observée


SRAS Epidémiologie Moléculaire


Europe:9 pays 37

Brésil 3

Canada (250)

Etats-Unis 75

Colombie 1

Koweit 1

Afrique du Sud 1

Inde 3

Australie 5

Nlle Zélande 1

Mongolie 9

Russie 1

Foyers épidémiques avant l’alerte OMS, le 15 mars 2003

Chine (5327)Hong Kong (1755)Viet Nam (63)Singapour (206)

Japon 1Corée 3Macao 1

Taiwan 686

Malaisie 5Indonésie 2Philippines 14Thaïlande 9

25 juin 2003 : 8460 cas probables, 808 décès

219 soignants 30 non-soignants

Index case from

Guangdong

Index case from

GuangdongHospital 2Hong Kong4 HCW +2

Hospital 2Hong Kong4 HCW +2

Hospital 3Hong Kong

3 HCW

Hospital 3Hong Kong

3 HCW

Hospital 1Hong Kong99 HCW

Hospital 1Hong Kong99 HCW

Canada12 HCW +

4

Canada12 HCW +

4

Hotel MHong Kong

IrelandIreland

USAUSA

New YorkNew York

Singapore34 HCW +

37

Singapore34 HCW +

37

Viet Nam37 HCW +

?

Viet Nam37 HCW +

?

BangkokHCW

BangkokHCW

4 otherHong Kong

hospitals28 HCW

4 otherHong Kong

hospitals28 HCW

Hospital 4Hong KongHospital 4

Hong Kong

B

I

K

F G

ED

CJ

H

A

GermanyHCW +

2

GermanyHCW +

2

Source: WHO/CDC

Hôtel M. à Hong Kong , février 2003


En FranceEn FranceEn avril 2003 :

394 cas suspects notifiés à l’IVS, 5 cas probables (4 hommes, 1 femme, 26 à 56 ans) 4 cas confirmés par la biologie (RT-PCR, sérologie)

Cas index A :

Médecin Français ayant travaillé à l’Hôpital Français de Hanoï 16/17 mars : examen sans masque d’un patient atteint de SRAS 20 mars : début des signes cliniques : toux, fatigue 22/23 mars : vol Hanoï – Paris via Bangkok Hospitalisation en France, unités de soins intensifs Décès J+95 3 cas secondaires


SRAS en France

A

Vol Air France 17122/23 mars 2004

Suivi pendant 10 jours

B

C

Desenclos et al. EID, 2004


Evolution du génome viral isolé ou détecté chez les patients pendant l’épidémie SRAS 2002/2003

The Chinese SARS Molecular Epiemiology Consortium. Science 2004

Confirmation de l’enquête terrain par Phylo moléculaireConfirmation de l’enquête terrain par Phylo moléculaire


Stavrinides J, Guttman D, J Virol, 2004

Plan Epidémiologie Moléculaire

Documents

Transcript of Plan Epidémiologie Moléculaire