Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et...
-
Upload
fantine-mounier -
Category
Documents
-
view
108 -
download
4
Transcript of Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et...
Génomique comparative
Guy Perrière
Pôle Bioinformatique LyonnaisLaboratoire de Biométrie et Biologie Évolutive
UMR CNRS n° 5558Université Claude Bernard – Lyon 1
Plan du cours
Projets génomes Utilisation et définitions Recherche des homologues Exemples d’applications Comparaison de génomes
Génomes séquencés
Bactéries : 24 génomes complets publics.
Archées : Six génomes complets publics.
Eucaryotes : Saccharomyces cerevisiae. Caenorhabditis elegans (90 %). Drosophila melanogaster (75 %).
Phylogénie des espèces
EucaryotesArchéesBactéries
Caenorhabditis
Saccharomyces
Drosophila
Archeoglobus
MethanobacteriumMethanococcusPyrococcus
Aquifex
Thermotoga
Synechocystis
Bacillus
Mycobacterium
MycoplasmaChlamydia Rickettsia
HaemophilusEscherichia
BorreliaTreponema
Helicobacter
Projets publics en cours
Saccharomyces pombeLeishmania majorTrypanosoma bruceiPlasmodium falciparumArabidopsis thalianaMus musculusHomo sapiens
14 Mb (87 %)34 Mb (15 %)53 Mb (33 %)60 Mb (25 %)
100 Mb (95 %)2 900 Mb (13 %)3 200 Mb (90 %)
+ 28 autres eucaryotes
+ 113 procarotes
Cas du génome humain
Un nombre important de séquences ne sont disponibles que sous la forme de drafts.
La séquence “propre” ne sera pas disponible avant 2003.
L’annotation complète prendra encore plus de temps…
Fragments non ordonnésGaps de longueur inconnue
Taille des banques
EMBLGenBankNBRF/PIRSWISS-PROT
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
9,0
9,5
log(
Tai
lle)
1/1
0/8
2
1/0
8/8
3
1/0
6/8
4
1/0
4/8
5
1/0
2/8
6
1/1
2/8
6
1/1
0/8
7
1/0
8/8
8
1/0
6/8
9
1/0
4/9
0
1/0
2/9
1
1/1
2/9
1
1/1
0/9
2
1/0
8/9
3
1/0
6/9
4
1/0
4/9
5
1/0
2/9
6
1/1
2/9
6
1/1
0/9
7
1/0
8/9
8
EST
Analyses in silico
L’annotation de toutes ces séquences est une tâche colossale : Il est impossible de réaliser des expérimenta-
tions biologiques sur toutes ces séquences. L’utilisation de méthodes d’analyses in silico
est maintenant prépondérante. Du fait même de la quantité de données dispo-
nibles, la génomique comparative constitue une approche incontournable.
Plan du cours
Projets génomes Utilisation et définitions Recherche des homologues Exemples d’applications Comparaison de génomes
Prédiction de gènes
Utilisation de méthodes intrinsèques : Glimmer, GeneMark (procaryotes). GRAIL, GenScan (vertébrés).
Confirmation par la recherche d’homolo-gues (BLASTP).
Recherche par traduction dans les six phases possibles (BLASTX).
Analyse fonctionnelle
Assignation de la fonction d’une protéine par homologie.
Détection des différentes régions fonction-nelles (protéines modulaires).
Étude des contraintes structurales : Amélioration de la prédiction de structures
secondaires (threading). Présence de mutations compensatoires.
Évolution moléculaire
Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre
certaines espèces bactériennes. Détermination de voies métaboliques com-
munes ou spécifiques à certains taxons. Étude de la contribution des duplications
géniques à l’évolution des génomes.
Similarité ou homologie ?
Deux séquences sont dites homologues si elles ont un ancêtre commun.
L’existence d’un ancêtre commun est infé-rée à partir de la similarité.
Seuil pour les protéines : 30 % d’identité sur une longueur de 100 AA
homologie entre les séquences.
Similarité sans homologie
La similarité n’est pas toujours due à de l’homologie : Convergence ou simple hasard pour de courtes
séquences (quelques résidus). Existence de régions de faible complexité (e.g.,
cas de la fibroïne [GSGAGA]n) :– Présentes dans 40 % des protéines.
– Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln).
Homologie sans similarité
Deux séquences peuvent être homologues sans que leur similarité soit forte :
ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLGACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : :::
ACP_KLEAE VKECDNVQLARVQAAALRWQQACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : :
La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent qu’elles sont homologues.
Orthologues et paralogues
Primates Rongeurs
Gène ancestral
INSHomme
INS1Rat
INS1Souris
INS1 INS2
INS2Rat
INS2Souris
Spéciation
Duplication
Orthologie
Paralogie
a1 b1 c1 a2 b2 c2
Duplication
Spéciation
Paralogues et phylogénies
Phylogéniedéduite
A B C
CBA
Phylogénievraie
Les paralogues sont fréquents
SaccharomycesMycobacteriumEscherichiaHaemophilusBacillusMethanococcusStreptomycesPyrococcus
GABT_MYCTUO86823GOAG_ECOLI
GABT_ECOLIGABT_BACSU
ARGD_METJAARGD_ECOLI
ARGD_BACSUO59401OAT_BACSU
Y949_HAEINO69975
OAT_ECOLIO58478
O59170O57878O50131
O86744O53379
YHXA_BACSUYODT_BACSU
BIOA_METJABIOA_BACSU
BIOA_HAEINBIOA_ECOLI
BIOA_MYCTUBIOA_YEAST Aminotransférases pyridoxal-
phosphate dépendantes (III)
Plan du cours
Projets génomes Utilisation et définitions Recherche des homologues Exemples d’applications Comparaison de génomes
Banques généralistes
Faiblesse des annotations : Définitions rares ou erronées.
Informations limitées au fait qu’un gène est similaire à un autre ou à une famille :
/note="similar to tremblnew|U52681|MT52681_5"
/note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic"
/note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"
Le système ENTREZ
Introduit la notion de voisins entre séquen-ces, structures et références.
Les voisinages entre séquences sont établis sur des critères de similarité.
Pas d’accès aux ali-gnements multiples.
Phylogénie(Taxman)
Structures(MMDB)
Réfs.(PubMed)
GénomesComplets
Séq. Nucl.(GenBank)
Séq. Prot.(GenPept)
Recherche manuelle
La recherche des homologues et l’interpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des
banques.
Banques de familles de gènes
Construites par automatisation de la procé-dure décrite précédemment : Recherche de similarité entre toutes les proté-
ines (BLASTP, FASTP, Smith-Waterman). Regroupement en familles homologues sur des
critères de similarité :– En “simple lien”, si {A, B} et {B, C} passent les
critères, alors {A, B, C} sont classées ensemble.
– En “lien complet”, toutes les paires doivent passer les critères.
ProtFam
Développée par le MIPS (Martinsried Insti-tute for Protein Sequence).
Construite à partir des séquences de PIR. Intègre quatre niveaux de classification :
Superfamilles de PIR (fonction et similarité). Familles (50 % de similarité). Sous-familles (80 %). Entrées (95 %).
Caractéristiques de ProtFAm
Permet de visualiser les alignements et les dendrogrammes construits avec les familles.
Intègre les données en domaines de Pfam. Permet à l’utilisateur de soumettre ses
propres séquences. Serveur Web :
http://www.mips.biochem.mpg.de
ProtoMap
Développée au Department of Biological Chemistry de The Hebrew University of Jerusalem.
Construite à partir des séquences de SWISS-PROT.
Utilise trois mesures pour déterminer la similarité entre les séquences (BLASTP, FASTP et Smith-Waterman).
Caractéristiques de ProtoMap
Alignements et arbres visualisés au moyen d’applets Java.
Possibilité de soumettre ses propres séquen-ces pour les classer dans une famille.
Pas de données sur les domaines mais visu-alisation d’homologies extra-famille.
Serveur Web :http://www.protomap.cs.huji.ac.il
Banques dédiées
HOVERGEN (Homologous Vertebrate Genes Database) pour les vertébrés : Basée sur GenBank.
HOBACGEN (Homologous Bacterial Genes Database) pour les procaryotes et la levure : Basée sur SWISS-PROT / TrEMBL.
COG (Clusters of Orthologous Genes) pour les génomes complets.
HOBACGEN
Intègre séquences protéiques et nucléiques ainsi que des alignements et des arbres.
Possède une structure de type client-serveur. Distribution du logiciel client mais aussi du
serveur complet. Serveur Web :
http://pbil.univ-lyon1.fr/databases/hobacgen.html
Architecture client-serveur
Service Web+
Programme C(Unix)
RequêtesHTTP
T-RRDLNHSTVRRDFQYITVRRDIRKLTIRRDL-KLTIRRDI--LTIRRDLIN-
Alignements
Arbres
SWISS-PROT
EMBLACNUC
ACNUC
Client Java(Unix, Mac, Windows)
Structure en domaines
6PG1_YEAST
6PGD_CANAL
6PGD_SOYBN
6PG2_BACSU
O32911_MYCLR
P95165_MYCTU
6PGD_CERCA
Q40311_MEDSA
Y770_MYCTU
Y229_SYNY3
Découpage en domaines de la famille 6PGD
Banques disponibles
Banques de domaines (Blocks, Domo, Pfam, ProDom, SBASE).
Banques de motifs ou des profils caractéris-tiques de certaines familles (PRINTS, PRO-SITE).
La banque InterPro regroupe les données des différentes banques sur les domaines et les motifs expertisés.
Plan du cours
Projets génomes Utilisation et définitions Recherche des homologues Exemples d’applications Comparaison de génomes
Assignation de fonction
Famille des carboxylases et formyltransférasesaccC : gène de la biotine carboxylase
ACCC_ANASP
Q54755
Q55160
ACCC_PSEAE
ACCC_BACSU
ACCC_METJA
ACCC_ECOLI
ACCC_HAEIN
Confirmation par l’alignement
ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPASAKS Q54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAASSKS Q55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPPSNKS ACCC_ECOLI M-LDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAPSVKS ACCC_HAEIN M-LEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAPSAKS ACCC_PSEAE M-LEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAPATQS ACCC_BACSU M-IKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKASKDS ACCC_METJA M-FNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAPAAKS * *::********:**:::* *:** *:** * *: * :*:*: *** .: .*
ACCC_ANASP LNIPNIIAAALTRNASAIHPGYGFLSENAKFAEICADHHIAFIGPTPEAIRLMGDKSTAK Q54755 LNIPNIIAAALTRNASAIHPGYGFLAENARFAEICADHHLTFIGPSPDSIRAMGDKSTAK Q55160 LNIPNIIAAALTRNATAIHPGYGFLAENARFAEICADHQITFIGPSPEAITAMGDKSTAK ACCC_ECOLI LNIPAIISAAEITGAVAIHPGYGFLSENANFAEQVERSGFIFIGPKAETIRLMGDKVSAI ACCC_HAEIN LNIPAIIAAAEVTGADAIHPGYGFLSENADFAEQVERSGFTFIGPTADVIRLMGDKVSAI ACCC_PSEAE LQIPAIIAAAEVTGATAIHPGYGFLAENADFAEQIERSGFTFVGPTAEVIRLMGDKVSAK ACCC_BACSU LNVTNIVSVAKLTGTDAIHPGYGFLAENADFAELCEEVNVTFVGPSADAISKMGTKDVAR ACCC_METJA LNIDAILNVAEKAKVDAIHPGYGFLAENAEFARAVKKAGFEFIGPNPDAIEAMGSKINAK *:: *: * *********:*** **. *:** .: * ** * *
Erreurs d’assignation
Famille de la 6-phospho-gluconate déhydrogenase
6PGD_SHIBO
6PGD_SHIDY
6PGD_SHISO
6PGD_SHIFL
6PGD_ECOLI
6PGD_ESCVU
6PGD_CITDI
6PGD_SALTY
6PGD_CITFR
YQJI_BACSU
6PGD_BACLI
6PGD_BACSU
6PGD_SYNY3
6PGD_SYNP7
Historique des annotations
La chronologie de l’introduction de ces séquences dans SWISS-PROT est la suivante :
6PGD_ECOLI6PGD_BACSU6PGD_SALTYYQJI_BACSU
21-JUL-198601-OCT-198901-JAN-199001-OCT-1996
L’assignation de 6PGD_BACSU comme étant orthologue à 6PGD_ECOLI s’est faite bien avant l’obtention du génome complet de B. subtilis.
Alignement de départ
6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENP-GKKLVPYYTVKE6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENP-GKKLVPYYTVKE6PGD_BACSU -MFNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQ-SLSPYYELEDYQJI_BACSU ------------------------------------------------------------
6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGIYQJI_BACSU ---METPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI :* **:* *** ** *: *:** * *:: *:::****: ::** ** ** *
6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHFYQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:
Alignement corrigé
6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENPGKKLVPYYTVKEF6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENPGKKLVPYYTVKEF6PGD_BACSU M-FNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQSLSPYYELEDFYQJI_BACSU MSKQQIGVIGLAVMGKNLALNIESRGFSVSVYNRSSSKTEEFLQEAKGKNVVGTYSIEEF * :.***:*:.*** *:***: .:* .*:::* : . *::.: : *:.: * :::*
6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGIYQJI_BACSU VQSMETPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI *.*:* **:* *** ** . *: *:** * *:: *:::****: ::** ** ** *
6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHFYQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:
Transferts horizontaux
Se définissent comme étant le passage de séquences d’ADN d’un génome à un autre.
Se distinguent de la transmission verticale de la génération parentale à la progéniture.
De nombreux mécanismes moléculaires sont impliqués dans ces échanges : Transformation, conjugaison, transduction. Recombinaison.
Interêt de ces phénomènes
Remise en cause de la notion d’espèce chez les procaryotes.
Fiabilité des méthodes de reconstruction phylogénétiques.
Implication dans l’acquisition de la patho-génicité chez certaines souches.
Résistance aux antibiotiques et aux métaux lourds.
Principe général
Gène X
Gène Y
A B
CD
E
A B
CD
E
Congruence avecl’arbre des espèces
Transfert horizontal
Phylogénie de ilvD
ProtéobactériesFirmicutesCyanobactérieEucaryote
E. coliH. infuenzae
B. aphidicolaM. leprae
M. tuberculosis
S. cerevisiae
L. lactis
Synechocystis
86
73
100
100
100
100
88
95
Archaea
S. coelicor
Famille de la dihydroxy-acid déshydratase
Alignement des gènes ilvD
M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR-------GITARDILTKEAFENA/…/M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR-------GITARDILTKEAFENA/…/L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK-------DIKPSDIMTKEAFENA/…/S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL-------GILPRDILTKEAFENA/…/Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK-------QILPSQILTRKAFENA/…/H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/
*:: * . * : . : : . . : * :* **
M. tuberculosis AENLAAITPPD-----------------------------------PDGK-VLRALANPIM. leprae AENLASIAPPD-----------------------------------PDGQ-VIRTLHNPIL. lactis AENVETALDLD-----------------------------------FDSQDIMRPLKNPIS. cerevisiae AERAKKAPSLP------------------------------------EGQEIIKPLSHPISynechocystis AEVLADIPDQP-----------------------------------PAGQDVIHSWDDPVH. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAIE. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAYB. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAYS. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY
. :. .:
Homologies lointaines
Les analyses précédentes impliquaient que les similarités entre séquences soient fortes : Utilisation de programmes comme BLAST.
Si les similarités sont faibles il est nécessaire d’employer d’autres approches : Recherche de signatures PROSITE. Recherche de profils réalisés à partir d’aligne-
ments multiples. Utilisation de PSI-BLAST.
Principe de la méthode
Alignementde départ
profileweight
Matrice depondération
1 2 3 4 5 6 7 8 9 … l
AC…W
Récupérationd ’homologues
pfsearch
Homologues prochesPositions conservéesHomologues lointains
L’insuline chez les vertébrés
HomoPan
ChlorocebusMacaca
AotusBosOvis
SusCanis
OryctolagusCavia (I)Cavia (II)
OctodonRattus (II)Mus (II)
Rattus (I)Mus (I)
MesocricetusPsammomys
GallusSelasphorus
Xenopus (I)Xenopus (II)
DanioCyprinus
LophiusVerasperOreochromis
Oncorhynchus
Myxine AgnatesPoissonsAmphibiensOiseauxRongeursCochon d’IndeCanidésOngulésPrimates
Famille FAM000008 d’HOVERGEN
Recherche avec BLASTP2
Sequences producing significant alignments: bits E
O76469 109 INSULIN-LIKE PEPTIDE PRECURSOR. 27 45O62341 1943 R06F6.8B PROTEIN. 27 77YRM8_CAEEL 1941 HYPOTHETICAL 216.3 KDA PROTEIN R06F6.8 27 77O01806 396 SIMILARITY TO AN RNA RECOGNITION MOTIF. 24 388O17176 1369 C08F1.5 PROTEIN. 24 388O16786 297 T21D12.3 PROTEIN. 23 665O16772 300 R07C3.13 PROTEIN. 23 872Q9U232 300 Y56A3A.14 PROTEIN. 23 872Q9XWF1 541 Y52B11A.3 PROTEIN. 23 872
Recherche effectuée dans SWISS-PROT / TrEMBL à partir de l’insuline humaine : Valeur de E ≤ 10 000 (sensibilité maximale). Un seul homologue détecté sur neuf neuf hits :
Recherche avec ProfileSearch
O76469 INSULIN-LIKE PEPTIDE PRECURSOR. 12.8100INB3_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 3 PRECURSOR; 9.0900CAB61047 Y116F11B.B PROTEIN. 8.6500Q9XVA1 F08G2.6 PROTEIN. 7.8900BAA84470 CEINSULIN-3. 7.5800INB5_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 5 PRECURSOR. 6.7900AAF60452 HYPOTHETICAL PROTEIN Y23B4A.2. 6.3500INB2_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 2 PRECURSOR. 6.2500Q9XV80 F20E11.8 PROTEIN. 6.1800…INB4_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 4 PRECURSOR. 4.1800…
Recherche effectuée à partir de l’alignement de 30 séquences d’insulines de vertébrés : Six homologues détectés sur 129 hits !
Plan du cours
Projets génomes Utilisation et définitions Recherche des homologues Exemples d’applications Comparaison de génomes
Répartition des familles
184
304 56
Levure
5295
975Archées
6772
Bactéries
29489
LUCA ?
Nature des familles
Les familles communes aux trois règnes comprennent : Des protéines de la machinerie de traduction
(protéines ribosomales, facteurs d’élongation). Des enzymes du métabolisme basal (glycolyse,
cycle de Krebs, biosynthèse des nucléotides). Le génome ancestral devait contenir un
nombre plus élevé de gènes.
Espèces étudiées
Saccharomyces cerevisiaeCaenorhabditis elegansSchizosaccharomyces pombe
Methanococcus jannaschiiMethanobacterium thermoautotrophicumArchaeoglobus fulgidusPyrococcus horikoshii
Haemophilus influenzaeMycoplasma genitaliumMycoplasma pneumoniaeSynechocystis sp. PCC 6803Escherichia coliHelicobacter pyloriBacillus subtilisBorrelia burgdorferiMycobacterium tuberculosisAquifex aeolicusTreponema pallidumChlamydia trachomatisCampylobacter jejuniRickettsia prowazekii
ScCeSp
MjMthAfPh
HiMgMpSspEcHpBsBbMtAeTpCtCjRp
13,0097,0015,00
1,661,752,181,74
1,830,580,813,574,601,664,201,444,401,551,141,041,641,11
6 18219 099
3 579
1 7351 8712 4372 061
1 680468677
3 1684 2901 5774 100
8503 9241 5221 031
8941 731
837
Duplications et conservations
ScCeSpHsMm
MjMthAfPh
HiMgMpSspEcHpBsBbAeMtTpCtRpCj
Tot.
Cj
15,918,823,511,6
8,0
24,726,228,729,8
47,017,816,844,255,960,549,326,948,736,528,633,937,231,1
80,2
Rp
22,628,032,018,412,5
21,526,228,831,8
55,627,027,154,564,452,255,037,655,848,938,551,029,056,4
85,8
Mj
17,418,921,6
9,77,7
42,064,862,055,9
22,216,813,734,232,627,629,915,741,623,614,724,121,724,6
89,7
Mth
17,419,020,911,2
7,7
60,744,060,649,3
22,012,712,637,636,725,732,713,338,729,915,922,820,424,5
86,2
Af
15,420,721,011,6
8,1
51,052,651,050,5
21,512,311,234,335,820,132,514,039,927,814,221,520,424,1
83,1
Ph
14,819,621,311,8
7,8
44,442,949,642,9
20,010,1
9,824,328,519,326,711,630,121,114,121,819,122,6
75,6
Hi
19,722,224,713,7
9,5
21,225,027,729,7
29,518,719,447,779,741,453,225,744,042,630,439,136,148,3
89,6
Mg
24,829,933,116,211,5
30,328,226,731,4
52,131,897,955,853,848,963,748,151,149,147,050,648,553,0
98,7
Mp
17,921,124,112,3
8,7
21,921,420,527,0
39,384,245,644,240,937,546,834,437,835,534,338,836,238,1
93,2
Ssp
14,317,822,010,6
7,6
20,824,024,823,0
31,613,314,647,242,526,339,117,335,537,121,026,425,631,0
70,7
Ec
14,718,620,711,4
7,7
17,520,425,125,6
48,110,812,240,450,028,347,616,734,235,819,926,825,335,2
78,5
Hp
14,216,920,6
9,96,4
19,321,423,126,9
40,817,218,138,747,229,941,624,444,431,527,334,133,962,8
77,9
Bs
15,519,422,611,1
8,0
18,823,428,130,6
35,914,815,039,649,728,948,419,635,836,822,332,028,034,5
77,4
Bb
13,519,826,811,5
7,4
20,821,524,530,8
45,130,930,743,450,743,954,824,650,535,259,445,644,450,2
84,5
Ae
20,822,827,513,7
8,9
33,635,538,939,4
44,217,718,055,358,246,355,828,836,244,330,337,437,654,0
87,3
Mt
13,219,618,112,2
8,2
12,818,121,918,2
26,48,79,3
35,438,019,937,110,326,951,015,620,518,322,5
61,5
Tp
14,517,620,411,2
7,6
16,020,518,722,5
40,222,122,841,647,037,447,248,541,735,125,840,533,740,2
72,9
Ct
19,622,925,313,510,3
17,020,321,824,6
50,125,225,449,854,542,452,534,348,041,538,829,045,046,5
74,7
Sp
65,452,647,040,430,2
14,516,917,420,5
15,19,8
10,022,519,713,120,8
8,819,218,711,318,014,414,3
68,8
Ce
16,766,624,531,224,7
4,85,57,29,8
5,94,94,59,07,65,49,24,18,78,15,5
10,39,87,3
47,2
Sc
40,342,453,929,621,3
11,313,517,816,7
12,77,37,3
16,516,611,216,7
6,914,614,410,215,813,112,0
72,0
Duplications et taille
Chez les bactéries, le pourcentage de dupli-cations est corrélé à la taille du génome.
% D
uplic
atio
ns
Taille (Mb)
r2 = 0,311 (p < 10-4)20
25
30
35
40
45
50
55
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
Conservations exclusives
ScCeSpHsMm
MjMthAfPh
HiMgMpSspEcHpBsBbAeMtTpCtRpCj
Cj
0,00,0
0,050,00,0
0,20,20,00,2
0,30,05
0,00,20,46,203
0,40,50,20,30,30,5
19,8
Rp
0,10,00,70,00,0
0,40,10,10,6
0,20,20,10,50,41,10,20,00,70,10,41,2
14,20,2
Mj
0,00,05
0,10,00,0
10,33,21,52,8
0,20,60,30,30,00,30,00,20,90,00,00,70,40,1
Mth
0,00,00,00,00,0
4,013,8
1,81,2
0,10,10,30,60,40,20,40,10,60,20,20,90,20,1
Af
0,00,08
0,10,00,0
1,21,2
16,82,3
0,080,3
0,040,90,5
0,080,50,10,80,30,20,60,4
0,08
Ph
0,040,10,7
0,040,0
1,71,31,6
24,4
0,10,30,10,20,40,40,40,11,00,00,13,21,50,4
Hi
0,00,05
0,00,00,0
0,00,10,30,4
10,40,1
0,050,27,60,50,20,00,10,00,31,10,40,5
Mg
0,00,00,00,00,0
0,00,00,00,0
0,01,3
15,40,20,00,00,00,00,20,00,00,00,00,2
Mp
0,00,00,00,10,0
0,00,00,10,3
0,022,5
6,80,10,10,10,30,00,00,00,00,40,10,0
Ssp
0,00,20,7
0,030,03
0,60,51,20,9
0,30,30,4
29,31,10,20,8
0,030,91,40,51,70,40,3
Ec
0,00,09
0,20,1
0,06
0,30,20,50,8
3,70,06
0,11,0
21,50,21,6
0,020,50,70,41,40,30,4
Hp
0,00,06
0,30,00,0
0,20,06
0,20,6
0,30,06
0,10,06
0,222,1
0,10,10,30,00,21,50,86,2
Bs
0,020,09
0,30,0
0,02
0,20,40,61,3
0,20,2
0,091,01,70,4
22,60,30,50,70,32,40,70,4
Bb
0,00,11,10,00,0
0,00,00,10,4
0,10,10,20,10,10,40,6
15,50,70,05,20,71,20,5
Ae
0,00,00,20,00,0
0,30,41,01,1
0,060,1
0,060,70,50,30,50,4
12,70,0
0,060,90,40,7
Mt
0,00,50,3
0,050,02
0,20,60,80,8
0,30,10,22,11,5
0,071,8
0,020,3
38,50,41,40,40,1
Tp
0,00,09
0,40,00,0
0,090,09
0,00,3
0,20,00,00,50,3
0,090,44,80,30,2
27,11,60,30,5
Ct
0,00,20,30,00,0
0,00,20,60,9
0,60,20,00,70,70,51,30,10,20,10,3
25,30,90,5
Sp
8,08,5
31,20,3
0,08
0,020,02
0,00,3
0,050,0
0,020,050,080,0820,8
0,00,2
0,080,08
0,60,2
0,08
Ce
0,252,8
2,32,90,5
0,030,04
0,10,6
0,060,1
0,050,2
0,040,070,04
0,10,2
0,060,21,00,90,2
Sc
28,01,79,40,20,1
0,20,30,60,7
0,10,30,30,30,40,10,20,30,30,10,21,30,50,1
Génes spécifiques
Gènes spécifiques dupliqués : Duplication après l’ap-
parition de l’espèce. Perte dans les autres
lignées. Gènes spécifiques
uniques : Obtention récente. Évolution rapide.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Sc
Ce
Sp Mj
Mth A
fP
h Hi
Mg
Mp
Ssp Ec
Hp
Bs
Bb
Ae
Mt
Tp Ct
Rp Cj
Non-spécifique uniqueNon-spécifique dupliquéSpécifique dupliquéSpécifique unique