Plan Epidémiologie Moléculaire
description
Transcript of Plan Epidémiologie Moléculaire
Plan Epidémiologie Moléculaire
•Introduction
•Approches en Phylogénie Moléculaire : Logiciels et progiciel PHYLIP- Cladistique- Phénétique- Probabiliste
•Applications en Virologie : - Epidémie (ex : RHDV)- Origine d’un virus (ex : HIV)- Classement d’un nouveau virus (ex : Paramyxovirus)- Cospéciation (ex : hantavirus)- Maladie Nosocomiale (ex : HCV)
Introduction Epidémiologie Moléculaire
L’épidémiologie moléculaire est un outil et n’est qu’un outil
Elle est complémentaire des approches “fondamentales” sur les virus
- Biochimie- Biologie Cellulaire- Biologie Moléculaire
•Permet de répondre à des questions posées par les approches “fondamentales”
• Origine d’un virus • Evolution d’un virus• Description d’une épidémie• ...
• Permet de poser de nouvelles questions
• Vectorisation ?• Mutants d’échappement ?• ...
==>Point de départ pour des études avec les approches “fondamentales”
Introduction Epidémiologie Moléculaire
L’épidémiologie moléculaire est un outil et n’est qu’un outil
Double Valence
==> Epidémiologie Moléculaire
•Confrontation des données de séquence et de “phylogénie” avec l’enquête terrain
• Nécessité d’avoir une enquête bien documentée :
- Animaux : limités aux commémorations
- Humains : qualité du questionnaire importante
Alignement séquencesLogiciels d’alignements
•les 2 logiciels les plus utilisés : Pile UP : par entrée successive et comparaison des unités (séquences)
Clustal : par entrée successive des unités (séquences) et définition d’une matrice d’alignement
•Alignement pour que le taux d’homologie ==> minimum de différences site par site• Point de départ de la phylogénie :
==> l’événement évolutif = remplacement d’une base par une autre•Exemple: Pile UP partiel
==> Séquences du gène de la capside de RHDV, 50 bases, 18 séquences 18 50 W
W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Pile UPA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
B AAAGCGTAGT TTT
GGGAATT CGCCGCTGCC ATGCC
ATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
10 séquences à aligner
9 séquences +
la séquence « externe »d’enracinement
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
40 41
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
C plus proche de B que de A
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
49
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
4349
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
4349 39
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
D plus proche de A que de BLoin de C
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
etc
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Pile UP
Pile UP
11 50H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAG AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTTF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTTJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
ClustalA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
B AAAGCGTAGT TTT
GGGAATT CGCCGCTGCC ATGCC
ATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
10 séquences à aligner
9 séquences +
la séquence « externe »d’enracinement
ClustalD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Modèle AA--CGTAGT TTT-GGAATT CG--GCTGCC ATGCCATAGG GTAC-TACAA
ClustalD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Modèle AA--CGTAGT TTT-GGAATT CG--GCTGCC ATGCCATAGG GTAC-TACAA
ClustalD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA
C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Modèle AA--CGTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC--
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Clustal
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
Modèle AA---GTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC--
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Z AATTGGTACT TAATGGAATT CGTGACAGTT
ATGGGATAGG GTTTATATGG
J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT
Clustal
A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
E AA
AGCGTAGT TTT
TGGAATA CGCT
TCTGGA ATGCC
ACTGG GTACGT
ACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT
G AAAGCGTAGT TTTGGGAATT
CGCCGCGGCC ATGCCATAGG GTACGTAC
AA
H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
I AAAGCGTAGT
TTTTGGAATA CGCTTCTG
GA ATGCCACCGG GTACGT
ACAA
Modèle AA---GTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC--
D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
etc
Clustal
Travail sur
l’alignement
Clustal
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
Modèle -----GTAGT T-----AAT- CG---C-G-- AT---A--GG GT---TA---
Clustal
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
UPGMA
Clustal
11 50H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAD AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAA AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAG AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTTF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTTJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
Cladistique Epidémiologie Moléculaire
Méthodes Cladistiques?
• Dérivées directement de la phylogénie classique
• Hypothèses • Intègre la notion d’évolution
•Identification •des états plésiomorphes (primitifs) •des états apomorphes (dérivés)
•La parenté entre les Unités Evolutives (UE) repose sur les synapomorphies (caractères dérivés partagés par au
moins 2 taxons)
• Principe ==> Mise en évidence de la transformations des
caractères de l’état plésiomorphe vers l’état apomorphe.
Primitif Dérivé, « Evolué »
Cladistique Epidémiologie Moléculaire
Application à la Phylogénie Moléculaire
==> Qu’est ce qui est informatif ?
•Un caractère = position dans la séquence (une base de la séquence)
• 4 états possibles pour chaque caractère (ATG ou C)
• Seuls les mutations partagées par au moins 2 taxons sont informatives
==> prises en compte
•Caractère idéal en Cladistique ==> Transformé une seule fois au cours de l’évolution •Problèmes avec les séquences
• Problème d’homoplasies (caractères pouvant changer plusieurs fois au cours de l’évolution) : Réversions...
• Mutations ≠ successives au même site possibles
• On observe un cliché à un temps t, ==> Nécessité d’intégrer les variations potentielles inapparentes
dans la séquence mais fruit de l’évolution
Cladistique Epidémiologie Moléculaire
Parcimonie permet de résoudre ces problèmes
Algorithme de Wagner
•Algorithme le plus utilisé en phylogénie
•Impose des hypothèses de départ ==> Principe Principe
• Minimiser le nombre d’apparitions multiples de caractères dérivés et le nombre des réversions nécessaires pour établir les arbres finaux.
• Etablir les états des caractères à chaque noeud de l’arbre
==> Nœuds de l’arbre = Ancêtre commun
•Méthode permet de définir les arbres phylogéniques minimaux : Parcimonieux
==> Nécessitant le moins de reversions
==> Donc, gestion globale de l’arbre
==> Moins d’événements mutationnels en fin de construction de l’arbre
Cladistique Epidémiologie Moléculaire
DNAPARS (Felsenstein- Progiciel PHYLIP)• Dans le progiciel PHYLIP• PAUP aussi de la cladistique
Principe DNAPARS • Etablit l’arbre directement à partir de la séquence•Données de base => seulement les sites informatifs
==> Mutations partagées par au moins 2 UE
• Nécessité de ne garder que les sites informatifs ==> mettre des poids à chaque site 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
18 13 a99-05 GAGCCGTCGA AAA a96-har GAGCCGTCGA TAA a98-05 GGACCATCGA AGG a99-09 GGGCCATCGA GGG a00-13 GGACCATCGA AGG a00-06 GGACTATCGG AGG a99-02 GGACTGTCGA AAA a99-19 GAACCATCGG AAA a96-01 GAACCGTCGA AGG a95-12 GAACCGTCGA AGG a99-31 GAACCGTCGA AGG a98-03 GAACCGTTAA AGG a87-tc GAGCCGTCAG AGC a89-ge GAGCCGTCGG AGC a90-au GAGCCGACGA AGC a91-07 TAGCCGTTGG AGC a00-08 TGGTCGACGG GAC ARCV TAATTATTTA AAA
Cladistique Epidémiologie Moléculaire
DNAPARS (Felsenstein- Progiciel PHYLIP)
Principe DNAPARS • Etablit l’arbre directement à partir de la séquence ?
•Transforme l’alignement en arbre parcimonieux
•Gestion heuristique de l’arbre ==> Par approche progressive, évaluation successives et hypothèses provisoires
• Arbre non enraciné ==> Car parcimonie = gestion globale de toutes les UE -
séquences- et non par comparaison avec un ancêtre
putatif• Autour de 100 arbres équivalents
•Pseudo-enracinement possible avec un Extra-groupe 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Extra-Groupe Epidémiologie Moléculaire
Phylogénie Classique• Permet de réaliser un pseudo-enracinement
==> les caractères partagés par le groupe et l’extra-groupe sont considérés comme plésiomorphes (ancestraux)
•Hypothèse ==> Les UE et l’extra-groupe ont un ancêtre commun
Phylogénie Moléculaire•Séquence d’une espèce proche (alignement possible)
mais suffisamment différente pour permettre un enracinement.
•idéal autour de 30% de divergence avec toutes les séquences de l’enquête
18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA EBHS TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Extra-Groupe Epidémiologie Moléculaire
Où est la séquence externe dans cet alignement ?Et pourquoi?
Phénétique Epidémiologie Moléculaire
Méthodes Phénétiques ?==> Dérivées directement de la phylogénie classique
•Hypothèses- Fondées sur les similitudes de Phénotypes entre 2 UE- Les divergences et les similitudes sont informatives- Notion de similitude globale entre les UE (séquences)- Arbres construits à partir des ressemblances entre chaque paire
d’UE- A partir de matrices de distances entre les UE
•Principe Plus la ressemblance globale entre 2 UE est importante => Plus la distance les séparant est faible
=> Plus leurs liens de parenté sont étroits
•Application à la phylogénie moléculaire : Qu’est ce qui est informatif?
- un phénotype = une Unité Evolutive = une séquence
-Tous les sites sont informatifs entre les unités ==> les mutations ou la conservation des
nucléotides
Nœuds de l’arbre ==> Phénotype commun (Pas Ancêtre)
Phénétique Epidémiologie Moléculaire
DNADIST : (PHYLIP)• Première étape de l’analyse par phénétique
- Transforme les alignements de séquences en
==> Matrices de distance entre les UE prises 2 à 2
- “% de similarité” avec coefficients pondérateurs
Hypothèses => transitions/transversions, insertions/délétions...
18 a99-05 0.0000 0.0414 0.1515 0.1515 0.1515 0.2500 0.1058 0.1058 0.1058 0.1058 0.1058 0.1515 0.1302 0.1072 0.1339 0.1832 0.2387 0.3180
a96-har 0.0414 0.0000 0.1537 0.1302 0.1537 0.2538 0.1072 0.1072 0.1072 0.1072 0.1072 0.1537 0.1320 0.1087 0.1359 0.1860 0.2154 0.3234
… a00-08 0.2387 0.2154 0.2387 0.1860 0.2387 0.2944 0.2120 0.2120 0.2387 0.2387 0.2387 0.2944 0.1832 0.1582 0.1832 0.1832 0.0000 0.3909
EBHS 0.3180 0.3234 0.2896 0.3471 0.2896 0.3471 0.2350 0.2350 0.2896 0.2896 0.2896 0.2619 0.3532 0.3532 0.3660 0.3234 0.3909 0.0000
Exemple•4 matrices 2 premières et 2 dernières / 18•Indice de Kimura = 2 : Poids de 2 pour les transversions/transitions
Phénétique Epidémiologie Moléculaire
Algorithmes pour l’élaboration du phénogramme
•Principe commun à tous les Algorithmes
• Les UE sont regroupés pour minimiser la longueur des branches de l’arbre.
• Longueur des branches de l’arbre proportionnelle à la distance
•Sans hypothèse évolutive
• Neighbor-joining le plus utilisé==> aucune contrainte dans les taux d’évolution entre les
différentes branches•FITSCH ( principe des Moindres carrés, lourd peu utilisable)
• Arbre non enraciné (“pas d’ancêtre initial”) de longueur minimal• Pseudo-enracinement possible par un extra groupe.
18 a99-05 0.0000 0.0414 0.1515 0.1515 0.1515 0.2500 0.1058 0.1058 0.1058 0.1058 0.1058 0.1515 0.1302 0.1072 0.1339 0.1832 0.2387 0.3180 a96-har 0.0414 0.0000 0.1537 0.1302 0.1537 0.2538 0.1072 0.1072 0.1072 0.1072 0.1072 0.1537 0.1320 0.1087 0.1359 0.1860 0.2154 0.3234 a98-05 0.1515 0.1537 0.0000 0.0409 0.0000 0.0836 0.0836 0.0836 0.0409 0.0409 0.0409 0.0836 0.1302 0.1072 0.1339 0.1832 0.2387 0.2896 a99-09 0.1515 0.1302 0.0409 0.0000 0.0409 0.1284 0.1284 0.1284 0.0836 0.0836 0.0836 0.1284 0.1302 0.1072 0.1339 0.1832 0.1860 0.3471 a00-13 0.1515 0.1537 0.0000 0.0409 0.0000 0.0836 0.0836 0.0836 0.0409 0.0409 0.0409 0.0836 0.1302 0.1072 0.1339 0.1832 0.2387 0.2896 a00-06 0.2500 0.2538 0.0836 0.1284 0.0836 0.0000 0.1284 0.1284 0.1284 0.1284 0.1284 0.1753 0.1778 0.1537 0.2350 0.2350 0.2944 0.3471 a99-02 0.1058 0.1072 0.0836 0.1284 0.0836 0.1284 0.0000 0.0836 0.0836 0.0836 0.0836 0.1284 0.1537 0.1302 0.1582 0.2087 0.2120 0.2350 a99-19 0.1058 0.1072 0.0836 0.1284 0.0836 0.1284 0.0836 0.0000 0.0836 0.0836 0.0836 0.1284 0.1072 0.0848 0.1582 0.1582 0.2120 0.2350 a96-01 0.1058 0.1072 0.0409 0.0836 0.0409 0.1284 0.0836 0.0836 0.0000 0.0000 0.0000 0.0409 0.0848 0.0628 0.0871 0.1339 0.2387 0.2896 a95-12 0.1058 0.1072 0.0409 0.0836 0.0409 0.1284 0.0836 0.0836 0.0000 0.0000 0.0000 0.0409 0.0848 0.0628 0.0871 0.1339 0.2387 0.2896 a99-31 0.1058 0.1072 0.0409 0.0836 0.0409 0.1284 0.0836 0.0836 0.0000 0.0000 0.0000 0.0409 0.0848 0.0628 0.0871 0.1339 0.2387 0.2896 a98-03 0.1515 0.1537 0.0836 0.1284 0.0836 0.1753 0.1284 0.1284 0.0409 0.0409 0.0409 0.0000 0.0848 0.1072 0.1339 0.1339 0.2944 0.2619 a87-tc 0.1302 0.1320 0.1302 0.1302 0.1302 0.1778 0.1537 0.1072 0.0848 0.0848 0.0848 0.0848 0.0000 0.0202 0.0859 0.0859 0.1832 0.3532 a89-ge 0.1072 0.1087 0.1072 0.1072 0.1072 0.1537 0.1302 0.0848 0.0628 0.0628 0.0628 0.1072 0.0202 0.0000 0.0637 0.0637 0.1582 0.3532 a90-au 0.1339 0.1359 0.1339 0.1339 0.1339 0.2350 0.1582 0.1582 0.0871 0.0871 0.0871 0.1339 0.0859 0.0637 0.0000 0.1359 0.1832 0.3660 a91-07 0.1832 0.1860 0.1832 0.1832 0.1832 0.2350 0.2087 0.1582 0.1339 0.1339 0.1339 0.1339 0.0859 0.0637 0.1359 0.0000 0.1832 0.3234 a00-08 0.2387 0.2154 0.2387 0.1860 0.2387 0.2944 0.2120 0.2120 0.2387 0.2387 0.2387 0.2944 0.1832 0.1582 0.1832 0.1832 0.0000 0.3909
18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Phénétique Epidémiologie Moléculaire
Algorithmes pour l’élaboration du phénogramme•Avec hypothèse évolutive
•UPGMA, KITCH ==> mêmes algorithmes que Neighbor-joining ou FITSCH
•Avec une hypothèse supplémentaire ==> L’Horloge moléculaire •Postulat initial : Le taux de mutation est le même sur toutes les branches de l’arbre
==> La distance devient proportionnelle au temps évolutif
==> Les noeuds de l’arbre correspondent à des ancêtres communs
•Arbre enraciné et extra-groupe possible
•Problème :
Logiciel « efficace » MAIS Postulat de départ fort ==> applicable seulement dans certaines conditions==> même pression de sélection sur tous les UE ==> méthode sensible à des taux de mutations différents sur les différentes branches
Contre : ==> horloge épisodique: mutations pas de façon indépendante : des périodes d’accumulation et des périodes d’arrêt évolutif (Gillepsie)==> horloge pas constante: les mutations pas équivalentes les avantageuses se
fixeraient plus vites (Goodman)
Probabiliste Epidémiologie Moléculaire
Méthodes Probabilistes : “Maximum de vraisemblance”
==> Méthode la plus adaptée à la Phylogénie Moléculaire
•Hypothèses
•Les transformations de caractères obéissent à des lois de probabilité définies a priori
==> paramètres définis a priori
•Paramètres :•Structure de l’arbre• Probabilité des événements mutationnels• Probabilité liée à l’état du caractère chez l’ancêtre...
• Pour la phylogénie moléculaire : Qu’est ce qui est informatif ?
• Intègre la probabilité de la variation d’une base sur 5 possibilités
•Tout est informatif : mutations et conservation des sites entre les UE (séquences)
Probabiliste Epidémiologie Moléculaire
DNAml ou DNAmlk (PHYLIP)
•Principe : • Construit l’arbre le plus probable directement à partir d’alignements
• Arbre dont les longueurs de branche sont les plus probables
• Sans ou avec horloge moléculaire (ml ou mlk)• Possibilité d’extra-groupe
•Algorithme le plus adapté pour la phylogénie moléculaire : MAIS
==>Très lourd : d’utilisation marginale ==> Ne tourne qu’avec un faible nombre d’unité et un faible nombre
de sites
18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Comparaison des méthodes Epidémiologie Moléculaire
Avantages de Parcimonie/Phénétique
• Fondée sur les caractères : méthode cladistique plutôt que phénétique. • Ne réduit pas la séquence à un simple nombre. • Essaie de donner une information sur les séquences ancestrales. • Evalue différents arbres possibles ± équivalents.
Inconvénients de Parcimonie/Phénétique
• Très lente par rapport aux méthodes basées sur les distances. • N'utilise pas toute l'information disponible ==>seuls les sites informatifs sont pris en compte • Ne fait pas de corrections pour les substitutions multiples • Pas d’informations sur la longueur des branches • Méthode très sensible au biais des codons
Probabiliste
•Le maximum de vraisemblance est une bonne méthode de reconstruction phylogénétique • Mais plus il y a de paramètres introduits, plus le calcul est long et plus il y a accumulation de petites erreurs informatiques
==> utilisation un modèle simple est préférable.
Arbres résultants Epidémiologie Moléculaire
DNApars
•Longueur des branches proportionnelle à la distance entre les unités•Seulement les parties horizontales sont informatives
Neighbor-joining DNAml
Rééchantillonage Epidémiologie Moléculaire
Estimation de la robustesse de l’arbre
Hypothèse de base
•Si les UE sont regroupées dans des groupes stables ==> L’introduction de mutations aléatoires
ne doit pas perturber la composition de ces regroupements
Principe
•Introduction dans les séquences de mutations aléatoires pour voir si la structure de l’arbre en est modifiée
•Test pour évaluer si les mutations générant l’arbre ==> mutations réelles ou fruit du hasard :
significatives ou non
Rééchantillonage Epidémiologie Moléculaire
Méthodes Seqboot (PHYLIP)Jacknife•Séquence de k caractères enlevée aléatoirement au même niveau dans toutes les unités• Ampute les séquences de la moitié de leur longueur•Procédure recommencée N fois (100<N<1000) ==> N arbres sont ensuite élaborés.
Bootstrap•Méthode la plus utilisée •Tirage au hasard de k caractères avec remplacement par une autre séquence
==> constitue les données de l’arbre•Procédure recommencée N fois (100<N<1000)
==> N arbres sont ensuite élaborés.
•Exemple sur les 4 premières séquences ==> •Jacknife•Bootstrap
Bilan• Il faut pour les 2 des longueurs de séquence et des différences entre les séquences des Unités significatives ==> Sur des séquences courtes pas utilisable
•Boostrap mieux car séquence garde sa taille d’origine==> information modifiée aléatoirement mais pas
tronquée
a99-05 CACGGCTGTT CCCCCCATTT TGGTGGGAAA ACCCCGGGCA CAAACCCCAAa99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCAa99-05 CAGA GCCAAGT GTG AACCG AAACCA
a96-har CACGGCTGTT CCCCCCATTT TGGTGGGAAA ACCCCGGGCA CTTACCCCAAa96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCAa96-har CAGA GCCAAGT GTG AACCG TAACCA
a98-05 CGCAACTGTT CCCCCCATTT TGGTGGGAAA ACTTTGGGCA CAAGCCCCAAa98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCAa98-05 CAAA GCCAAAT GTG AACTG AGGCCA
a99-09 CGCGGCTGTT CCCCCCATTT TGGTGGGAAA ACTTTGGGCA CGGGCCCCAAa99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a99-09 CAGA GCCAAAT GTG AACTG GGGCCA
Méthodes Seqboot (PHYLIP)
Consens
•Etablissement d’un arbre consensus à partir des N arbres du Seqboot•Définit les groupes rencontrés le plus fréquemment parmi les arbres comparés
•Les valeurs de rééchantillonage sont reportées en pourcentage aux embranchements de l’arbre vrai •Valide le regroupement des unités situées après le nœud et non l’embranchement
==> X% des UE sont toujours regroupées ensemble
Rééchantillonage Epidémiologie Moléculaire
95
Neighbor-joining
47
60
40
Rééchantillonage Epidémiologie Moléculaire
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
11 50A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAB AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAAC AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAE AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAAF AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAAH GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAAI AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAAJ AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTTZ AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG
100, 500, 1000 séquences ≠
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
11B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000
100, 500, 1000 matrices ≠
100, 500, 1000 arbres ≠
…
CladistiquePhénétique
Limites Epidémiologie Moléculaire
Beaucoup d’hypothèses au départ
Type la nature favorise le moindre coûtParcimonie???
Hypothèses de départ dans les algorythmes
Kimura approximation etc à bien maitriser
Limites Epidémiologie Moléculaire
Ne pas faire dire n’importe quoi aux arbres
Rester modeste
Limites Epidémiologie Moléculaire
Pour Valider l’étude
Faire plusieurs techniques
Valider par bootsrap
Arbre change en fonction du nombre de séquences et de leur représentativité dans le groupe
Groupe externe peut changer l’arbre
L’ordre d’entrée des séquences aussi
Epidémiologie RHDV Epidémiologie Moléculaire
RHDV (Rabbit Haemorrhagic Disease Virus)
•Hépatite fulminante chez le lapin.•Mort en 24 à 48 heures, présence d’hémorragies diffuses.•Maladie apparue en Europe en 88-89 : première épizootie•Depuis endémique
Structure des virions• Famille des Caliciviridae
•Particule virale non enveloppée : Une capside constituée de l’assemblage de 90 dimères de VP60
•Génome virale :ARN monocaténaire de polarité positive, polyadénilé en 3’ et non coiffé.Protéine Vpg fixée à l’extrémité 5’ du génome
Thouvenin et al, 1997
100 nm
HélicasePolymérasecapside (VP60)VPgPro VP10Helicase5'3'AAAAAVpg
Epidémiologie RHDV Epidémiologie Moléculaire
Définition de l’échantillonnage
•57 isolats français de RHDV - Diverses régions surtout Bretagne et Auvergne- de 88 à 95, surtout 89, 90 et 91.
•5 isolats Européens publiés.
93-2
BRETAGNEMIDIPYRENEES90-18 ; 95-1
92-1 ; 92-6
93-194-4
HAUTEBASSE NORMANDIEPICARDIEILE DEFRANCELORRAINEFRANCHECOMTERHONEALPESPROVENCEALPESCORSE89-SD ; 89-7; 89-8 ; 90-7 ; 90-8 90-10 ; 90-13 ; 90-14 ; 90-1590-19 ; 91-10 ; 91-11 AUVERGNE
NORMANDIE
COTE D'AZUR
92-492-3 ; 92-593-394-190-11
94-2 88-1 ; 89-1 ; 89-2 ; 89-3 89-4 ; 89-5 ; 89-6 ; 89-990-1 ; 90-2 ; 90-3 ; 90-490-5 ; 90-6 ; 90-9 ; 90-1290-16 ; 90-17 ; 90-20 90-21 ; 91-1 ; 91-2 ; 91-391-4 ; 91-5 ; 91-6 ; 91-791-8 ; 91-9 ; 92-2 ; 94-3
Epidémiologie RHDV Epidémiologie Moléculaire
Définition des cibles moléculaires
•Résultats après Séquençage complet de quelques souches :==> Faible variabilité globale du génome virale : moins de 10 % de
divergence
• 3 régions sélectionnées sur le génome du virus: A, B et C
- A région conservée dans le gène de la capside- B région variable dans le gène de la capside - C région divergente dans un gène conservé : gène de la polymérase
Hélicase Polymérase capside (VP60)VPg Pro
p29
p30
C
p27
p28
B
p33
p34
A
VP10Helicase
5' 3'AAAAA
Epidémiologie RHDV Epidémiologie MoléculaireBroyageExtraction des particules viralesExtraction d'ARNSynthèse de l'ADNcPCR sur 3 régions du génome
Analyse informatiqueSéquençage automatiqueFoieDe l’animal à la séquence
Résultats d’Alignement de séquences•62 séquences alignées par PILE UP
Région A (497nt) ==> 7,6% de divergenceRégion B (467nt) ==> 9,4% de divergenceRégion C (455nt) ==> 8,7% de divergence
==> Région D (1419nt) ==> 8,6% de divergence
Epidémiologie RHDV Epidémiologie Moléculaire
Analyse des arbres
Quelque soit la Méthode utilisée ==> Arbres équivalents : regroupements identiques
• 3 Génogroupes identifiables G1 G2 et G3 (fortes valeurs de Bootstrap 93 à 100%)• G3 divisable en 2 sous-groupes G3-1 et G3-2
==> G2 -TC-87, AL-89 et 88-1- Isolat le plus récent 89
==> G1 - 89-SD, 89-ES -Essentiellement des 89 et 90 un seul 93- Disparition du groupe G1 depuis 90
==> G3 - Isolat le plus ancien 90- Semble être issu de G2- G3-2 : Isolats 92, 93 et 94
==> Nouveau groupe ?
Arbre UPGMA : - région D (A+B+C)- Outgroup EBHSV- Bootstrap de 500
G3-2G3-1G3G2G1
D 91-2
D 93-1D 94-3D 92-GBD 90-5D 94-1D 94-4
D 92-4D 93-3D 91-6D 91-9D 91-1D 91-8D 91-7D 91-5D 92-2D 92-3
D 90-15D 90-14D 92-1D 90-13D 90-10D 90-19D 90-11D 91-10D 91-11D 91-4
D 90-17D 92-5
D 93-2D 90-2D 90-1D 89-ESD 90-3D 89-7D 89-SDD 91-3D 90-4D 90-6D 90-20D 90-12D 90-18D 87-TCD 89-ALD 89-5D 89-1D 89-4D 88-1D 89-6D 92-6
D 94-2D 95-1D 89-IT
D 90-8D 89-8D 90-7
D 89-3D 89-9D 90-21D 90-16D 90-9D 89-2
D EBHSV-GD
0.003 547777100
69
6383100
958799
72
9960100
89798694965777100
93100 1001001005994 64
Epidémiologie Moléculaire RHDV
• Reprise des données de l’enquête épidémiologique- Lapins morts de RHDV - Date de leur mort- Origine géographique- Origine : élevage fermier, élevage industriel, garenne
• Confrontation avec les données des arbres• Pas de regroupement en fonction du type d’élevage• Regroupement en fonction de la localisation
géographique• Regroupement en fonction du temps
• Historique de l’Epizootie-En 88-89 entrée simultanée du RHDV,
==> par l’est (G2) et le sud (G1).-Disparition ==> du groupe G2 en 89
et du groupe G1 en 90-Groupe G3 (Sous-groupe G3-2) issu de G2 remplace G2 et G1 sur toute la France.
- Sous groupe G3-1 semble s’installer depuis 93.
• Suite de l’enquête...- 104 nouveaux échantillons de 1993 à 2000-Séquences région A
Epidémiologie RHDV Epidémiologie Moléculaire
G 2D 89-AL ; D 89-5 ; D 87-TC ; D 89-4 ; D 89-1 ; D 89-6 ; D 88-1G 1 D 89-ES ; D 89-3 ; D 90-21 ; D 91-3 D 89-9 ; D 90-20 ; D 90-9 ; D 89-2 ; D 90-4 ; D 90-6; D 90-3 ; D 90-12 ; D 90-16 ;D 90-2 ; D 90-18 ; D 90-1 ; D 89-7 ; D 90-8 ; D 89-SD ; D 89-8 ; D 90-7 ; D 93-2
Epidémiologie RHDV Epidémiologie Moléculaire
99-05
00-Iow
96-Tri
96-Har
89-ES89-Eis
00-Reu
RCV
90-20
89-SD
88-01
87-TC
95-13 99-0699-04
95-18
89-GE89-Mex
96-Fra 89-05
99-2195-02
99-18
95-10
99-13
98-10
95-07
95-1593-05
95-01
97-0395-17
92-06
96-0298-20
95-08
95-1198-13
90-15
95-03
91-04
95-0495-14
94-08
95-0597-01
90-19
92-05
94-07
91-09
93-04
90-13
93-Mei
92-01
93-03
91-07
91-11
91-01
93-0692-02
90-Hag
90-05
94-01
92-GB
94-03 93-01
94-04
95-12 99-31
98-05
97-02
99-11
99-28
98-07
99-15
97-10
98-23
99-27
00-10
00-0399-10
99-30
99-25
99-32
99-26
00-04
00-13
99-23
99-2900-12
00-06
00-14
00-05
96-01
99-1999-02
98-21
99-09
99-16
00-01
99-33
00-0799-34
99-08
00-11
99-12
00-09 99-07
98-19
98-2298-06
99-14
97-0699-01
99-17
98-14
98-04
98-01
99-03
96-Wri
98-03
98-09
95-16
98-12
95-09
98-02
95-19
95-06
94-02
94-05
99-20
98-18
99-3698-17
97-07
95-20
99-24
G4
G5
G6
G1
G2
G3
81
100
91
94
81
92
100
97
100
83
82
83
98
97
98
84
95
88
95
99
99
94
92 89
87
58
6761
51
54
5864
77
73
72
56
77
58
61
57
6573
70
00-08
0.001
Suite de l’enquête
• G3-1 et G3-2 non différentié• G4 = 95-1• G5 = 94-2• G5 nouveau groupe à partir de 1994• G5 et G4 perdurent jusqu’en 2000
• G6 et 99-05 semblent reliés à la vaccination (Réunion et Iowa??)
==> Mutants d’échappement ?==> Vaccin mal inactivé ( Vaccins des souches G1
et G2 inactivées à la Béta-propiolactone)
• Isolat 00-08 ==> •Apparition d’un nouveau génogroupe ?•Remplaçant ou coexistant avec G4 et G5 ultérieurement•Résurgence d’un isolat du génogroupe G1 ayant continué
à évoluer ailleurs qu’en France.•A suivre...
Epidémiologie RHDV Epidémiologie Moléculaire
1988198919901991199219931994199519961997199919982000G2G1 G3 G4G599-05 et G600-08 = G7?
Epidémiologie RHDV Epidémiologie Moléculaire
VecteurHypothèses de notre enquête
• Dissémination très rapide de la maladie dès son apparition en France.• En Haute-Normandie en 93, virus très proche GB-93.•En Corse 2 isolats 90-18 (G1) et 95-1 (G3-1) reflet de l’épizootie RHDV
sur le continent la même année, et non une évolution du groupe G1 en Corse.
Maladie vectorisée ==> Homme, vent, oiseaux, insectes ????
Epizootie en Australie, à partir de l’île de Wardang (1995). • La souche de départ est connue TC-87• Point de départ de l’épizootie unique•Intéressant pour suivre l’évolution d’un virus à ARN lors d’une épizootie.
Observations de l’enquête australienne•Asgari et al, 1999 ont montré que le virus en 2 ans 1995 à 1997 avait
peu varié (1,8% maximum de diversité dans 380 b de la capside). Pas de regroupement des isolats en fonction du site de prélèvement.
•5 % des lapins ont survécus, et sont séro-convertis.
•Vitesse de propagation : ==> 9 à 414 km/mois. ==> Espagne : 2 à 30 km/mois
==> Vecteur nécessaire vitesse pas compatible avec transmission de lapin à lapin
Epidémiologie RHDV Epidémiologie Moléculaire
Vecteur
•Homme (le long des grands axes).
• Chiens et Renards.- Virus retrouvé dans les féces
• Mouches (Diptera Calliphoridae) : - Mouche nécrophage- Virus retrouvé dans les crottes de mouches par RT/PCR.- Une crotte de mouche inoculée per os à un lapin suffit pour
causer la maladie. Asgari et al, 1998.
Echappement
- Recherche de mutants d’échappement - Analyse in vivo et in vitro du 9905
==> Pour vérifier si 9905 est un mutant d’échappement
à la vaccination avec une seule souche
Origine d’un virus : HIV Epidémiologie Moléculaire
Marylin et l’origine de HIV-1HIV-1 a pour origine SIV du chimpanzé Pan troglodytes troglodytes : Nature (1999) 397: 436-440
Marilyn ?• Chimpanzé P. t. troglodytes originaire d’afrique •Naturellement infecté par un VIS•Importée aux USA dépistée séropositive pour HIV-1 •Morte à 26 ans •Analyse post-mortem des séquences du virus VIScpz US
Méthode: Neighbor-Joining + Bootstrap 1000
b) cpz ==> ADN mitochondrialc) Virus ==> gène pol
Analyse des arbres:b montre la différenciation des sous espèces de cpz en fonction de leur origine géographique (cf: a)c montre le regroupement de HIV-1 (M, N, O) dans le même groupe monophylétique que SIVcpz P. t. troglodytes(valeur de bootstrap>80%) alors que SIVcpzANT séparé=> mêmes arbres obtenus avec d’autres séquences virales
Conlusions-HIV-1 provient de SIVcpz P. t. troglodytes (réservoir)-SIVcpz présent chez le singe depuis des milliers d’années-Localisation du cpz P. t. troglodytes coïncide avec région d’endémie actuelle de HIV-1
ADN mitochondrial
gène pol
ADN mitochondrial
Gène pol
Phylogénie et paramyxovirus Epidémiologie Moléculaire
Classement d’un nouveau paramyxovirus TPMV : Virology (1999) 258: 425-34
HeV: - Hendra Virus (virus équin mortel pour l’homme) ==> maladie respiratoireTPMV: - Tupaia Paramyxovirus
- virus isolé lors de mise en culture de cellules de musaraigneMéthode: • Séquences aa : nucléocapside+phosphoprotéine• Prodist et Fitsch, Bootstrap de 1000• Avec séquences de virus prototypes des Paramyxoviridae
Analyse de l’arbre•2 sous-familles Paramixovirinae et Pneumovirinae •les virus sont regroupés dans les genres avec des valeurs de bootstrap =100%•TPMV et HeV sont dans la sous-famille des Paramyxovirinae proches du genre Morbillivirus mais pas regroupés dans genre Morbillivirus
==> bootstrap 98% pour HeV et 77% pour TPMV
Conclusion /Question• HEV et TPMV sont -ils des prototypes de 1/2? nouveau(x) genre(s) des Paramyxovirinae?• 2000 Isolement du Virus Nipah ==> nouveau genre avec Hendra et Tupaia
Paramyxovirinae
Pneumovirinae
Cospéciation des hantavirus Epidémiologie Moléculaire
Etude de la cospéciationMise en évidence d’un changement d’hôte
Caractérisation d’un nouvel hantavirus : Topografov J. Virol. (1999) 73:5586-92
Méthode: •FITCH + Bootstrap 250
•Séquence: gène du cytochrome b pour les hôte gène de S pour les
hantavirus
•Extra-groupe : Rattus rattus pour les hôtes Séoul pour les hantavirus
Conclusion :
•Coévolution des hôtes et des hantavirus = règle générale
•Mise en évidence d’un changement d’hôte au cours de l’évolution
==> KBR avec TOP==> Pas de Cospéciation
==> Changement d’hôte
Phylogénie et Nosocomiale Epidémiologie Moléculaire
Mise en évidence d’une infection nosocomialeTransmission du virus HCV dans une unité d’autodialyse en France : J. Clin. Microbiol. (1998) 36:3040-43
Cohorte de l’étude: - 5 malades HD1, HD2, HD3, HD4, HD5- 4 témoins (T) infectés par VHC génotype 4 provenant de la même région- 38 isolats de HCV restreint au génotype 4
Méthodes: - Etude de région de 221pb du gène de NS5- Analyse par la méthode de Neighbor-Joining - Bootstraps 500
Analyse de l’arbre :• Remise en cause des sous-types établis auparavant :
==> Les sous-type 4c ne forment pas un groupe monophylétique (4c+4a)
•Les séquences HD et T n’appartiennent pas à un sous-type déjà décrit
•Toutes les séquences HD sont regroupés dans un groupe monophylétique (une même branche de l’arbre)
Phylogénie et Nosocomiale Epidémiologie Moléculaire
Mise en évidence d’une infection nosocomialeTransmission du virus HCV dans une unité d’autodialyse en France : J. Clin. Microbiol. (1998) 36:3040-43
Historique : Enquête commémorative
•HD2, HD3, HD4 dépistés VHC4+ entre sep et nov 95 (pas de transfusion, greffe...)
•HD2, HD3, HD4 fréquentent unité d’auto dialyse A
•HD3 a été en contact avec HD1 (VHC4+) lors d’une séance d’auto dialyse à l’unité A un matin
•HD2 et HD4 ont fait leurs séance d’auto dialyse l’après midi de ce même jour à l’unité A
Données à connaître :
•Faible prévalence du sérotype HCV-4 en France (plutôt répandu en Afrique) •Les autres patients VHC+ de l’unité A sont VHC-1
Phylogénie et Nosocomiale Epidémiologie Moléculaire
Confrontation de l’arbre avec les données commémoratives
• Confirmation de la transmission nosocomiale de HCV-4 dans l’unité A ==> probablement de HD1 à HD2,3,4,5
• Hypothèses sur la chronologie de la transmission
- Contamination manu portée par le personnel soignant de HD1 à HD3==> à la même heure sur 2 machines
différentes
- Partage de l’appareil d’auto dialyse entre HD1 et HD2 -HD4 ==> pas de stérilisation entre les 2 séances
• Bilan de l ’enquête
• Confirmation d’une transmission nosocomiale de HCV-4 due à un l’absence de stérilisation des appareils d’auto dialyse et au non respect des règles d’hygiène élémentaires
• Depuis mise en place de la stérilisation entre 2 séances d’auto dialyse ==> pas de nouvelle contamination
observée
Mise en évidence d’une infection nosocomialeTransmission du virus HCV dans une unité d’autodialyse en France : J. Clin. Microbiol. (1998) 36:3040-43
SRAS Epidémiologie Moléculaire
SRAS Epidémiologie Moléculaire
Europe:9 pays 37
Brésil 3
Canada (250)
Etats-Unis 75
Colombie 1
Koweit 1
Afrique du Sud 1
Inde 3
Australie 5
Nlle Zélande 1
Mongolie 9
Russie 1
Foyers épidémiques avant l’alerte OMS, le 15 mars 2003
Chine (5327)Hong Kong (1755)Viet Nam (63)Singapour (206)
Japon 1Corée 3Macao 1
Taiwan 686
Malaisie 5Indonésie 2Philippines 14Thaïlande 9
25 juin 2003 : 8460 cas probables, 808 décès
219 soignants 30 non-soignants
Index case from
Guangdong
Index case from
GuangdongHospital 2Hong Kong4 HCW +2
Hospital 2Hong Kong4 HCW +2
Hospital 3Hong Kong
3 HCW
Hospital 3Hong Kong
3 HCW
Hospital 1Hong Kong99 HCW
Hospital 1Hong Kong99 HCW
Canada12 HCW +
4
Canada12 HCW +
4
Hotel MHong Kong
IrelandIreland
USAUSA
New YorkNew York
Singapore34 HCW +
37
Singapore34 HCW +
37
Viet Nam37 HCW +
?
Viet Nam37 HCW +
?
BangkokHCW
BangkokHCW
4 otherHong Kong
hospitals28 HCW
4 otherHong Kong
hospitals28 HCW
Hospital 4Hong KongHospital 4
Hong Kong
B
I
K
F G
ED
CJ
H
A
GermanyHCW +
2
GermanyHCW +
2
Source: WHO/CDC
Hôtel M. à Hong Kong , février 2003
SRAS Epidémiologie Moléculaire
En FranceEn FranceEn avril 2003 :
394 cas suspects notifiés à l’IVS, 5 cas probables (4 hommes, 1 femme, 26 à 56 ans) 4 cas confirmés par la biologie (RT-PCR, sérologie)
Cas index A :
Médecin Français ayant travaillé à l’Hôpital Français de Hanoï 16/17 mars : examen sans masque d’un patient atteint de SRAS 20 mars : début des signes cliniques : toux, fatigue 22/23 mars : vol Hanoï – Paris via Bangkok Hospitalisation en France, unités de soins intensifs Décès J+95 3 cas secondaires
SRAS Epidémiologie Moléculaire
SRAS en France
A
Vol Air France 17122/23 mars 2004
Suivi pendant 10 jours
B
C
Desenclos et al. EID, 2004
SRAS Epidémiologie Moléculaire
Evolution du génome viral isolé ou détecté chez les patients pendant l’épidémie SRAS 2002/2003
The Chinese SARS Molecular Epiemiology Consortium. Science 2004
Confirmation de l’enquête terrain par Phylo moléculaireConfirmation de l’enquête terrain par Phylo moléculaire
SRAS Epidémiologie Moléculaire
Stavrinides J, Guttman D, J Virol, 2004