1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du...
Transcript of 1 Comparaison de génomes bactériens : questions méthodologiques autour de la définition du...
1
Comparaison de génomes bactériens :questions méthodologiques autour de la
définition du squelette et des boucles
UBLO
2
Le projet MOSAIC
MOSAIC* version 3:• 87 comparaisons, 24 espèces bactériennes• Comparaison aux annotations (GenomeReview+autres)• Visualisation graphique (MuGeN)
http://genome.jouy.inra.fr/mosaic
But: déterminer systématiquement la structure squelette-boucles des génomes bactériens à l’échelle intra-espèce
*Chiapello et al. BMC Bioinformatics, 2005
Méthode: alignement de génomes complets (MGA) + post-traitement
3
Les comparaisons MOSAIC
* Multiple Genome Aligner , Höhl, Kurtz and Ohlebusch, Bioinformatics 2002
1. Sélection des génomes à comparer:
2. Alignement global multiple des génomes avec MGA*
3. Définition du squelette et des boucles
• Même espèce (nomenclature), pas de réarrangement
• les paramètres MGA sont définis à partir d’un alignement de référence vérifié manuellement
• Squelette : régions conservées
• Boucles : régions variables ou spécifique à une souche
Les trois étapes:
4
MOSAIC : en cours…
I. Evaluation de la divergence des génomes
II. Evaluation de la robustesse des boucles
Annotation et classification des boucles
Axe 1: Stratégie de comparaison
Axe 2: Analyse des boucles
Axe 3: Propriétés du squelette
Prédictions de motifs nucléiques basées sur la séquence du squelette
III. Détection des réarrangements
5
I. Evaluation de la divergence des génomes
Motivation :
Idée :
Exemples : groupe Shigella-Coli, groupe B. cereus,…
• La classification des espèces bactériennes n’est pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère d’hybridation ADN-ADN,…)
• il serait utile de disposer d’un critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes
Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence
6
L’indice de couverture des MUM
• Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences d’une taille minimale k présente une fois sur
chaque génome) pour évaluer la similarité
• L’indice MUM coverage (MC) :
€
MCk(GO,G1) =1−LMUMkG
210 GG ll
G+
=
• tient compte des inversions (MUMs détectés sur le brin RC)
• Propriétés:
• mesure la dissimilarité entre 2 génomes
• très rapide à calculer en utilisant des structures de type arbre de suffixes
∑=
=n
iiMUMMUM lL
0with
7
Choix de la taille minimum des MUM k
Conclusion:La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
7 11 15 19 23 27 50
k
MC
E.coli.Sakai/S.aureus.MSSA
E. coli. Sakai/P.syrDC3000
S.typhiLT2/E.coli.Sakai
S.flex2a/E.coli.Sakai
E.coli.K12/E.coli.CFT
E.coli.K12/E.coli.Sakai
E.coli.Sakai/E.coli.EDL
8
Validité de l’indice MC• L’ANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes (Konstantidinis, PNAS 2005)
• For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001)
• Les données de MLST (Multi Locus Sequence Type) des groupes E. coli/Shigella (Pupo, PNAS 2000) et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 5 10 15 20 25 30 35
100-ANI
MC
Current Species Cutoff
• ANI ~94% correspond à MC ~0.5 et au seuil de définition de l’espèce
9
Evaluation de la diversité intra-espèce avec MC
- très grande diversité à l’échelle intra-espèce
Conclusion:
- certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1
k=19
MC
S.aureus.COL/S.aureus.MRSA
E.coli.CFT/E.coli.Sakai
B.cereus.10987/B.cereus.14579
P.syringae.pv/P.syringae.DC3000
E.coli.K12/S.typhimurium.LT2
P.syringae.DC3000/P.eruginosa
B.aphid/B.aphid.sg
Distribution des valeurs de MC parmi 7 espèces bactériennes :
10
II. MOSAIC: évaluation de la robustesse des boucles
• Observation 1: le nombre de boucles est très variable selon l’espèce bactérienne
• Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé
Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus
Ex: la moitié des boucles d’E. coli sont inférieures à 100 nt
Question : est-il possible d’évaluer la robustesse- des petites boucles ?- des frontières squelette/boucles ?
11
Stratégie
Méthode :
1. Perturbations aléatoires des génomes
2. Analyse de l’impact des perturbations sur la segmentation squelette/boucles initiale
Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements
*Maximal Exact Matches
But : évaluer la robustesse locale des boucles
12
Protocole de perturbation• Trois opérations de perturbation sont effectuées N fois sur chaque génome :
1. La suppression d’un pourcentage x de MEMs
2. L’inversion d’un pourcentage x de MEMs
3. La translocation d’un pourcentage x MEMs
• Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores :
- Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle
- Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.
13
Résultats : scores de nucléotideDonnées : 617 boucles de E. coli K12 (541 kb)
• Les boucles sont en général robustes :
Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs)
• Les frontières de boucles sont les plus affectées par les perturbations :
score 1 score [0.95;1[ score [0.90;0.95[ score [0.80;0.90[ score < 0.80
Position dans la boucle (en % de la taille de la boucle)
14
Résultats: scores de boucles
• Peu de boucles sont affectées par les perturbations :
5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs)
• Les boucles peu robustes sont en général petites (88% ont une longueur<200nt):
Taille des boucles
Données : 617 boucles de E. coli K12 (541 kb)
15
Exemple de visualisation
15% de MEMs supprimés
15 % de MEMs inversés
15% de MEMs transloqués
Annotations biologiques
Structure mosaïque
score = 0.5
score = 1
score = 0
16
III. Traitement des génomes réarrangés
1. Alignement multiples et doubles avec MAUVE*
2. Définition du squelette et des boucles à partir des LCBs
* Darling et al., Genome Research 2004
Principe :
• Définition des LCBs : Locally Colinear Blocks
• Choix d’un génome de référence
• Choix des paramètres d’alignement
3. Alignements MGA des génomes sans réarrangement
17
MOSAIC release 4 (en cours)
Données = Genome Review release 56 (07/2006) :
• 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes)
• 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA
• nouvelle interface de navigation (LCB)
18
Retour aux questions méthodologiques
• Choix des paramètres d’alignement (en fonction de la divergence des génomes ?)
• Evaluation de la qualité d’un résultat d’alignement de génomes (alignements de références ?)
• Problème des séquences répétées (filtrage ?)
• Taille minimale d’un réarrangement (inversion, translocation)
19
H. ChiapelloS. SchbathA. Gendrault-JacquemardMathématique Informatique et Génome
M.-A. PetitD. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes
UBLO