Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et...

Génomique comparative

Guy Perrière

Pôle Bioinformatique LyonnaisLaboratoire de Biométrie et Biologie Évolutive

UMR CNRS n° 5558Université Claude Bernard – Lyon 1

Plan du cours

Projets génomes Utilisation et définitions Recherche des homologues Exemples d’applications Comparaison de génomes

Génomes séquencés

Bactéries : 24 génomes complets publics.

Archées : Six génomes complets publics.

Eucaryotes : Saccharomyces cerevisiae. Caenorhabditis elegans (90 %). Drosophila melanogaster (75 %).

Phylogénie des espèces

EucaryotesArchéesBactéries

Caenorhabditis

Saccharomyces

Drosophila

Archeoglobus

MethanobacteriumMethanococcusPyrococcus

Aquifex

Thermotoga

Synechocystis

Bacillus

Mycobacterium

MycoplasmaChlamydia Rickettsia

HaemophilusEscherichia

BorreliaTreponema

Helicobacter

Projets publics en cours

Saccharomyces pombeLeishmania majorTrypanosoma bruceiPlasmodium falciparumArabidopsis thalianaMus musculusHomo sapiens

14 Mb (87 %)34 Mb (15 %)53 Mb (33 %)60 Mb (25 %)

100 Mb (95 %)2 900 Mb (13 %)3 200 Mb (90 %)

+ 28 autres eucaryotes

+ 113 procarotes

Cas du génome humain

Un nombre important de séquences ne sont disponibles que sous la forme de drafts.

La séquence “propre” ne sera pas disponible avant 2003.

L’annotation complète prendra encore plus de temps…

Fragments non ordonnésGaps de longueur inconnue

Taille des banques

EMBLGenBankNBRF/PIRSWISS-PROT

5,0

5,5

6,0

6,5

7,0

7,5

8,0

8,5

9,0

9,5

log(

Tai

lle)

1/1

0/8

2

1/0

8/8

3

1/0

6/8

4

1/0

4/8

5

1/0

2/8

6

1/1

2/8

6

1/1

0/8

7

1/0

8/8

8

1/0

6/8

9

1/0

4/9

0

1/0

2/9

1

1/1

2/9

1

1/1

0/9

2

1/0

8/9

3

1/0

6/9

4

1/0

4/9

5

1/0

2/9

6

1/1

2/9

6

1/1

0/9

7

1/0

8/9

8

EST

Analyses in silico

L’annotation de toutes ces séquences est une tâche colossale : Il est impossible de réaliser des expérimenta-

tions biologiques sur toutes ces séquences. L’utilisation de méthodes d’analyses in silico

est maintenant prépondérante. Du fait même de la quantité de données dispo-

nibles, la génomique comparative constitue une approche incontournable.

Plan du cours


Prédiction de gènes

Utilisation de méthodes intrinsèques : Glimmer, GeneMark (procaryotes). GRAIL, GenScan (vertébrés).

Confirmation par la recherche d’homolo-gues (BLASTP).

Recherche par traduction dans les six phases possibles (BLASTX).

Analyse fonctionnelle

Assignation de la fonction d’une protéine par homologie.

Détection des différentes régions fonction-nelles (protéines modulaires).

Étude des contraintes structurales : Amélioration de la prédiction de structures

secondaires (threading). Présence de mutations compensatoires.

Évolution moléculaire

Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre

certaines espèces bactériennes. Détermination de voies métaboliques com-

munes ou spécifiques à certains taxons. Étude de la contribution des duplications

géniques à l’évolution des génomes.

Similarité ou homologie ?

Deux séquences sont dites homologues si elles ont un ancêtre commun.

L’existence d’un ancêtre commun est infé-rée à partir de la similarité.

Seuil pour les protéines : 30 % d’identité sur une longueur de 100 AA

homologie entre les séquences.

Similarité sans homologie

La similarité n’est pas toujours due à de l’homologie : Convergence ou simple hasard pour de courtes

séquences (quelques résidus). Existence de régions de faible complexité (e.g.,

cas de la fibroïne [GSGAGA]n) :– Présentes dans 40 % des protéines.

– Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln).

Homologie sans similarité

Deux séquences peuvent être homologues sans que leur similarité soit forte :

ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLGACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : :::

ACP_KLEAE VKECDNVQLARVQAAALRWQQACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : :

La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent qu’elles sont homologues.

Orthologues et paralogues

Primates Rongeurs

Gène ancestral

INSHomme

INS1Rat

INS1Souris

INS1 INS2

INS2Rat

INS2Souris

Spéciation

Duplication

Orthologie

Paralogie

a1 b1 c1 a2 b2 c2

Duplication

Spéciation

Paralogues et phylogénies

Phylogéniedéduite

A B C

CBA

Phylogénievraie

Les paralogues sont fréquents

SaccharomycesMycobacteriumEscherichiaHaemophilusBacillusMethanococcusStreptomycesPyrococcus

GABT_MYCTUO86823GOAG_ECOLI

GABT_ECOLIGABT_BACSU

ARGD_METJAARGD_ECOLI

ARGD_BACSUO59401OAT_BACSU

Y949_HAEINO69975

OAT_ECOLIO58478

O59170O57878O50131

O86744O53379

YHXA_BACSUYODT_BACSU

BIOA_METJABIOA_BACSU

BIOA_HAEINBIOA_ECOLI

BIOA_MYCTUBIOA_YEAST Aminotransférases pyridoxal-

phosphate dépendantes (III)

Plan du cours


Banques généralistes

Faiblesse des annotations : Définitions rares ou erronées.

Informations limitées au fait qu’un gène est similaire à un autre ou à une famille :

/note="similar to tremblnew|U52681|MT52681_5"

/note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic"

/note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"

Le système ENTREZ

Introduit la notion de voisins entre séquen-ces, structures et références.

Les voisinages entre séquences sont établis sur des critères de similarité.

Pas d’accès aux ali-gnements multiples.

Phylogénie(Taxman)

Structures(MMDB)

Réfs.(PubMed)

GénomesComplets

Séq. Nucl.(GenBank)

Séq. Prot.(GenPept)

Recherche manuelle

La recherche des homologues et l’interpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des

banques.

Banques de familles de gènes

Construites par automatisation de la procé-dure décrite précédemment : Recherche de similarité entre toutes les proté-

ines (BLASTP, FASTP, Smith-Waterman). Regroupement en familles homologues sur des

critères de similarité :– En “simple lien”, si {A, B} et {B, C} passent les

critères, alors {A, B, C} sont classées ensemble.

– En “lien complet”, toutes les paires doivent passer les critères.

ProtFam

Développée par le MIPS (Martinsried Insti-tute for Protein Sequence).

Construite à partir des séquences de PIR. Intègre quatre niveaux de classification :

Superfamilles de PIR (fonction et similarité). Familles (50 % de similarité). Sous-familles (80 %). Entrées (95 %).

Caractéristiques de ProtFAm

Permet de visualiser les alignements et les dendrogrammes construits avec les familles.

Intègre les données en domaines de Pfam. Permet à l’utilisateur de soumettre ses

propres séquences. Serveur Web :

http://www.mips.biochem.mpg.de

ProtoMap

Développée au Department of Biological Chemistry de The Hebrew University of Jerusalem.

Construite à partir des séquences de SWISS-PROT.

Utilise trois mesures pour déterminer la similarité entre les séquences (BLASTP, FASTP et Smith-Waterman).

Caractéristiques de ProtoMap

Alignements et arbres visualisés au moyen d’applets Java.

Possibilité de soumettre ses propres séquen-ces pour les classer dans une famille.

Pas de données sur les domaines mais visu-alisation d’homologies extra-famille.

Serveur Web :http://www.protomap.cs.huji.ac.il

Banques dédiées

HOVERGEN (Homologous Vertebrate Genes Database) pour les vertébrés : Basée sur GenBank.

HOBACGEN (Homologous Bacterial Genes Database) pour les procaryotes et la levure : Basée sur SWISS-PROT / TrEMBL.

COG (Clusters of Orthologous Genes) pour les génomes complets.

HOBACGEN

Intègre séquences protéiques et nucléiques ainsi que des alignements et des arbres.

Possède une structure de type client-serveur. Distribution du logiciel client mais aussi du

serveur complet. Serveur Web :

http://pbil.univ-lyon1.fr/databases/hobacgen.html

Architecture client-serveur

Service Web+

Programme C(Unix)

RequêtesHTTP

T-RRDLNHSTVRRDFQYITVRRDIRKLTIRRDL-KLTIRRDI--LTIRRDLIN-

Alignements

Arbres

SWISS-PROT

EMBLACNUC

ACNUC

Client Java(Unix, Mac, Windows)

Structure en domaines

6PG1_YEAST

6PGD_CANAL

6PGD_SOYBN

6PG2_BACSU

O32911_MYCLR

P95165_MYCTU

6PGD_CERCA

Q40311_MEDSA

Y770_MYCTU

Y229_SYNY3

Découpage en domaines de la famille 6PGD

Banques disponibles

Banques de domaines (Blocks, Domo, Pfam, ProDom, SBASE).

Banques de motifs ou des profils caractéris-tiques de certaines familles (PRINTS, PRO-SITE).

La banque InterPro regroupe les données des différentes banques sur les domaines et les motifs expertisés.

Plan du cours


Assignation de fonction

Famille des carboxylases et formyltransférasesaccC : gène de la biotine carboxylase

ACCC_ANASP

Q54755

Q55160

ACCC_PSEAE

ACCC_BACSU

ACCC_METJA

ACCC_ECOLI

ACCC_HAEIN

Confirmation par l’alignement

ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPASAKS Q54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAASSKS Q55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPPSNKS ACCC_ECOLI M-LDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAPSVKS ACCC_HAEIN M-LEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAPSAKS ACCC_PSEAE M-LEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAPATQS ACCC_BACSU M-IKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKASKDS ACCC_METJA M-FNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAPAAKS * *::********:**:::* *:** *:** * *: * :*:*: *** .: .*

ACCC_ANASP LNIPNIIAAALTRNASAIHPGYGFLSENAKFAEICADHHIAFIGPTPEAIRLMGDKSTAK Q54755 LNIPNIIAAALTRNASAIHPGYGFLAENARFAEICADHHLTFIGPSPDSIRAMGDKSTAK Q55160 LNIPNIIAAALTRNATAIHPGYGFLAENARFAEICADHQITFIGPSPEAITAMGDKSTAK ACCC_ECOLI LNIPAIISAAEITGAVAIHPGYGFLSENANFAEQVERSGFIFIGPKAETIRLMGDKVSAI ACCC_HAEIN LNIPAIIAAAEVTGADAIHPGYGFLSENADFAEQVERSGFTFIGPTADVIRLMGDKVSAI ACCC_PSEAE LQIPAIIAAAEVTGATAIHPGYGFLAENADFAEQIERSGFTFVGPTAEVIRLMGDKVSAK ACCC_BACSU LNVTNIVSVAKLTGTDAIHPGYGFLAENADFAELCEEVNVTFVGPSADAISKMGTKDVAR ACCC_METJA LNIDAILNVAEKAKVDAIHPGYGFLAENAEFARAVKKAGFEFIGPNPDAIEAMGSKINAK *:: *: * *********:*** **. *:** .: * ** * *

Erreurs d’assignation

Famille de la 6-phospho-gluconate déhydrogenase

6PGD_SHIBO

6PGD_SHIDY

6PGD_SHISO

6PGD_SHIFL

6PGD_ECOLI

6PGD_ESCVU

6PGD_CITDI

6PGD_SALTY

6PGD_CITFR

YQJI_BACSU

6PGD_BACLI

6PGD_BACSU

6PGD_SYNY3

6PGD_SYNP7

Historique des annotations

La chronologie de l’introduction de ces séquences dans SWISS-PROT est la suivante :

6PGD_ECOLI6PGD_BACSU6PGD_SALTYYQJI_BACSU

21-JUL-198601-OCT-198901-JAN-199001-OCT-1996

L’assignation de 6PGD_BACSU comme étant orthologue à 6PGD_ECOLI s’est faite bien avant l’obtention du génome complet de B. subtilis.

Alignement de départ

6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENP-GKKLVPYYTVKE6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENP-GKKLVPYYTVKE6PGD_BACSU -MFNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQ-SLSPYYELEDYQJI_BACSU ------------------------------------------------------------

6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGIYQJI_BACSU ---METPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI :* **:* *** ** *: *:** * *:: *:::****: ::** ** ** *

6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHFYQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:

Alignement corrigé

6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENPGKKLVPYYTVKEF6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENPGKKLVPYYTVKEF6PGD_BACSU M-FNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQSLSPYYELEDFYQJI_BACSU MSKQQIGVIGLAVMGKNLALNIESRGFSVSVYNRSSSKTEEFLQEAKGKNVVGTYSIEEF * :.***:*:.*** *:***: .:* .*:::* : . *::.: : *:.: * :::*

6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGIYQJI_BACSU VQSMETPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI *.*:* **:* *** ** . *: *:** * *:: *:::****: ::** ** ** *

6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHFYQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:

Transferts horizontaux

Se définissent comme étant le passage de séquences d’ADN d’un génome à un autre.

Se distinguent de la transmission verticale de la génération parentale à la progéniture.

De nombreux mécanismes moléculaires sont impliqués dans ces échanges : Transformation, conjugaison, transduction. Recombinaison.

Interêt de ces phénomènes

Remise en cause de la notion d’espèce chez les procaryotes.

Fiabilité des méthodes de reconstruction phylogénétiques.

Implication dans l’acquisition de la patho-génicité chez certaines souches.

Résistance aux antibiotiques et aux métaux lourds.

Principe général

Gène X

Gène Y

A B

CD

E

A B

CD

E

Congruence avecl’arbre des espèces

Transfert horizontal

Phylogénie de ilvD

ProtéobactériesFirmicutesCyanobactérieEucaryote

E. coliH. infuenzae

B. aphidicolaM. leprae

M. tuberculosis

S. cerevisiae

L. lactis

Synechocystis

86

73

100

100

100

100

88

95

Archaea

S. coelicor

Famille de la dihydroxy-acid déshydratase

Alignement des gènes ilvD

M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR-------GITARDILTKEAFENA/…/M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR-------GITARDILTKEAFENA/…/L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK-------DIKPSDIMTKEAFENA/…/S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL-------GILPRDILTKEAFENA/…/Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK-------QILPSQILTRKAFENA/…/H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/

*:: * . * : . : : . . : * :* **

M. tuberculosis AENLAAITPPD-----------------------------------PDGK-VLRALANPIM. leprae AENLASIAPPD-----------------------------------PDGQ-VIRTLHNPIL. lactis AENVETALDLD-----------------------------------FDSQDIMRPLKNPIS. cerevisiae AERAKKAPSLP------------------------------------EGQEIIKPLSHPISynechocystis AEVLADIPDQP-----------------------------------PAGQDVIHSWDDPVH. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAIE. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAYB. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAYS. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY

. :. .:

Homologies lointaines

Les analyses précédentes impliquaient que les similarités entre séquences soient fortes : Utilisation de programmes comme BLAST.

Si les similarités sont faibles il est nécessaire d’employer d’autres approches : Recherche de signatures PROSITE. Recherche de profils réalisés à partir d’aligne-

ments multiples. Utilisation de PSI-BLAST.

Principe de la méthode

Alignementde départ

profileweight

Matrice depondération

1 2 3 4 5 6 7 8 9 … l

AC…W

Récupérationd ’homologues

pfsearch

Homologues prochesPositions conservéesHomologues lointains

L’insuline chez les vertébrés

HomoPan

ChlorocebusMacaca

AotusBosOvis

SusCanis

OryctolagusCavia (I)Cavia (II)

OctodonRattus (II)Mus (II)

Rattus (I)Mus (I)

MesocricetusPsammomys

GallusSelasphorus

Xenopus (I)Xenopus (II)

DanioCyprinus

LophiusVerasperOreochromis

Oncorhynchus

Myxine AgnatesPoissonsAmphibiensOiseauxRongeursCochon d’IndeCanidésOngulésPrimates

Famille FAM000008 d’HOVERGEN

Recherche avec BLASTP2

Sequences producing significant alignments: bits E

O76469 109 INSULIN-LIKE PEPTIDE PRECURSOR. 27 45O62341 1943 R06F6.8B PROTEIN. 27 77YRM8_CAEEL 1941 HYPOTHETICAL 216.3 KDA PROTEIN R06F6.8 27 77O01806 396 SIMILARITY TO AN RNA RECOGNITION MOTIF. 24 388O17176 1369 C08F1.5 PROTEIN. 24 388O16786 297 T21D12.3 PROTEIN. 23 665O16772 300 R07C3.13 PROTEIN. 23 872Q9U232 300 Y56A3A.14 PROTEIN. 23 872Q9XWF1 541 Y52B11A.3 PROTEIN. 23 872

Recherche effectuée dans SWISS-PROT / TrEMBL à partir de l’insuline humaine : Valeur de E ≤ 10 000 (sensibilité maximale). Un seul homologue détecté sur neuf neuf hits :

Recherche avec ProfileSearch

O76469 INSULIN-LIKE PEPTIDE PRECURSOR. 12.8100INB3_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 3 PRECURSOR; 9.0900CAB61047 Y116F11B.B PROTEIN. 8.6500Q9XVA1 F08G2.6 PROTEIN. 7.8900BAA84470 CEINSULIN-3. 7.5800INB5_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 5 PRECURSOR. 6.7900AAF60452 HYPOTHETICAL PROTEIN Y23B4A.2. 6.3500INB2_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 2 PRECURSOR. 6.2500Q9XV80 F20E11.8 PROTEIN. 6.1800…INB4_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 4 PRECURSOR. 4.1800…

Recherche effectuée à partir de l’alignement de 30 séquences d’insulines de vertébrés : Six homologues détectés sur 129 hits !

Plan du cours


Répartition des familles

184

304 56

Levure

5295

975Archées

6772

Bactéries

29489

LUCA ?

Nature des familles

Les familles communes aux trois règnes comprennent : Des protéines de la machinerie de traduction

(protéines ribosomales, facteurs d’élongation). Des enzymes du métabolisme basal (glycolyse,

cycle de Krebs, biosynthèse des nucléotides). Le génome ancestral devait contenir un

nombre plus élevé de gènes.

Espèces étudiées

Saccharomyces cerevisiaeCaenorhabditis elegansSchizosaccharomyces pombe

Methanococcus jannaschiiMethanobacterium thermoautotrophicumArchaeoglobus fulgidusPyrococcus horikoshii

Haemophilus influenzaeMycoplasma genitaliumMycoplasma pneumoniaeSynechocystis sp. PCC 6803Escherichia coliHelicobacter pyloriBacillus subtilisBorrelia burgdorferiMycobacterium tuberculosisAquifex aeolicusTreponema pallidumChlamydia trachomatisCampylobacter jejuniRickettsia prowazekii

ScCeSp

MjMthAfPh

HiMgMpSspEcHpBsBbMtAeTpCtCjRp

13,0097,0015,00

1,661,752,181,74

1,830,580,813,574,601,664,201,444,401,551,141,041,641,11

6 18219 099

3 579

1 7351 8712 4372 061

1 680468677

3 1684 2901 5774 100

8503 9241 5221 031

8941 731

837

Duplications et conservations

ScCeSpHsMm

MjMthAfPh

HiMgMpSspEcHpBsBbAeMtTpCtRpCj

Tot.

Cj

15,918,823,511,6

8,0

24,726,228,729,8

47,017,816,844,255,960,549,326,948,736,528,633,937,231,1

80,2

Rp

22,628,032,018,412,5

21,526,228,831,8

55,627,027,154,564,452,255,037,655,848,938,551,029,056,4

85,8

Mj

17,418,921,6

9,77,7

42,064,862,055,9

22,216,813,734,232,627,629,915,741,623,614,724,121,724,6

89,7

Mth

17,419,020,911,2

7,7

60,744,060,649,3

22,012,712,637,636,725,732,713,338,729,915,922,820,424,5

86,2

Af

15,420,721,011,6

8,1

51,052,651,050,5

21,512,311,234,335,820,132,514,039,927,814,221,520,424,1

83,1

Ph

14,819,621,311,8

7,8

44,442,949,642,9

20,010,1

9,824,328,519,326,711,630,121,114,121,819,122,6

75,6

Hi

19,722,224,713,7

9,5

21,225,027,729,7

29,518,719,447,779,741,453,225,744,042,630,439,136,148,3

89,6

Mg

24,829,933,116,211,5

30,328,226,731,4

52,131,897,955,853,848,963,748,151,149,147,050,648,553,0

98,7

Mp

17,921,124,112,3

8,7

21,921,420,527,0

39,384,245,644,240,937,546,834,437,835,534,338,836,238,1

93,2

Ssp

14,317,822,010,6

7,6

20,824,024,823,0

31,613,314,647,242,526,339,117,335,537,121,026,425,631,0

70,7

Ec

14,718,620,711,4

7,7

17,520,425,125,6

48,110,812,240,450,028,347,616,734,235,819,926,825,335,2

78,5

Hp

14,216,920,6

9,96,4

19,321,423,126,9

40,817,218,138,747,229,941,624,444,431,527,334,133,962,8

77,9

Bs

15,519,422,611,1

8,0

18,823,428,130,6

35,914,815,039,649,728,948,419,635,836,822,332,028,034,5

77,4

Bb

13,519,826,811,5

7,4

20,821,524,530,8

45,130,930,743,450,743,954,824,650,535,259,445,644,450,2

84,5

Ae

20,822,827,513,7

8,9

33,635,538,939,4

44,217,718,055,358,246,355,828,836,244,330,337,437,654,0

87,3

Mt

13,219,618,112,2

8,2

12,818,121,918,2

26,48,79,3

35,438,019,937,110,326,951,015,620,518,322,5

61,5

Tp

14,517,620,411,2

7,6

16,020,518,722,5

40,222,122,841,647,037,447,248,541,735,125,840,533,740,2

72,9

Ct

19,622,925,313,510,3

17,020,321,824,6

50,125,225,449,854,542,452,534,348,041,538,829,045,046,5

74,7

Sp

65,452,647,040,430,2

14,516,917,420,5

15,19,8

10,022,519,713,120,8

8,819,218,711,318,014,414,3

68,8

Ce

16,766,624,531,224,7

4,85,57,29,8

5,94,94,59,07,65,49,24,18,78,15,5

10,39,87,3

47,2

Sc

40,342,453,929,621,3

11,313,517,816,7

12,77,37,3

16,516,611,216,7

6,914,614,410,215,813,112,0

72,0

Duplications et taille

Chez les bactéries, le pourcentage de dupli-cations est corrélé à la taille du génome.

% D

uplic

atio

ns

Taille (Mb)

r2 = 0,311 (p < 10-4)20

25

30

35

40

45

50

55

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

Conservations exclusives

ScCeSpHsMm

MjMthAfPh

HiMgMpSspEcHpBsBbAeMtTpCtRpCj

Cj

0,00,0

0,050,00,0

0,20,20,00,2

0,30,05

0,00,20,46,203

0,40,50,20,30,30,5

19,8

Rp

0,10,00,70,00,0

0,40,10,10,6

0,20,20,10,50,41,10,20,00,70,10,41,2

14,20,2

Mj

0,00,05

0,10,00,0

10,33,21,52,8

0,20,60,30,30,00,30,00,20,90,00,00,70,40,1

Mth

0,00,00,00,00,0

4,013,8

1,81,2

0,10,10,30,60,40,20,40,10,60,20,20,90,20,1

Af

0,00,08

0,10,00,0

1,21,2

16,82,3

0,080,3

0,040,90,5

0,080,50,10,80,30,20,60,4

0,08

Ph

0,040,10,7

0,040,0

1,71,31,6

24,4

0,10,30,10,20,40,40,40,11,00,00,13,21,50,4

Hi

0,00,05

0,00,00,0

0,00,10,30,4

10,40,1

0,050,27,60,50,20,00,10,00,31,10,40,5

Mg

0,00,00,00,00,0

0,00,00,00,0

0,01,3

15,40,20,00,00,00,00,20,00,00,00,00,2

Mp

0,00,00,00,10,0

0,00,00,10,3

0,022,5

6,80,10,10,10,30,00,00,00,00,40,10,0

Ssp

0,00,20,7

0,030,03

0,60,51,20,9

0,30,30,4

29,31,10,20,8

0,030,91,40,51,70,40,3

Ec

0,00,09

0,20,1

0,06

0,30,20,50,8

3,70,06

0,11,0

21,50,21,6

0,020,50,70,41,40,30,4

Hp

0,00,06

0,30,00,0

0,20,06

0,20,6

0,30,06

0,10,06

0,222,1

0,10,10,30,00,21,50,86,2

Bs

0,020,09

0,30,0

0,02

0,20,40,61,3

0,20,2

0,091,01,70,4

22,60,30,50,70,32,40,70,4

Bb

0,00,11,10,00,0

0,00,00,10,4

0,10,10,20,10,10,40,6

15,50,70,05,20,71,20,5

Ae

0,00,00,20,00,0

0,30,41,01,1

0,060,1

0,060,70,50,30,50,4

12,70,0

0,060,90,40,7

Mt

0,00,50,3

0,050,02

0,20,60,80,8

0,30,10,22,11,5

0,071,8

0,020,3

38,50,41,40,40,1

Tp

0,00,09

0,40,00,0

0,090,09

0,00,3

0,20,00,00,50,3

0,090,44,80,30,2

27,11,60,30,5

Ct

0,00,20,30,00,0

0,00,20,60,9

0,60,20,00,70,70,51,30,10,20,10,3

25,30,90,5

Sp

8,08,5

31,20,3

0,08

0,020,02

0,00,3

0,050,0

0,020,050,080,0820,8

0,00,2

0,080,08

0,60,2

0,08

Ce

0,252,8

2,32,90,5

0,030,04

0,10,6

0,060,1

0,050,2

0,040,070,04

0,10,2

0,060,21,00,90,2

Sc

28,01,79,40,20,1

0,20,30,60,7

0,10,30,30,30,40,10,20,30,30,10,21,30,50,1

Génes spécifiques

Gènes spécifiques dupliqués : Duplication après l’ap-

parition de l’espèce. Perte dans les autres

lignées. Gènes spécifiques

uniques : Obtention récente. Évolution rapide.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Sc

Ce

Sp Mj

Mth A

fP

h Hi

Mg

Mp

Ssp Ec

Hp

Bs

Bb

Ae

Mt

Tp Ct

Rp Cj

Non-spécifique uniqueNon-spécifique dupliquéSpécifique dupliquéSpécifique unique

Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et...

Documents

Transcript of Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et...