HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle...
-
Upload
donatienne-goujon -
Category
Documents
-
view
116 -
download
1
Transcript of HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle...
HOBACGEN : phylogénie des gènes de bactéries et d’archées
Guy Perrière et Laurent Duret
Pôle Bioinformatique LyonnaisLaboratoire de Biométrie et Biologie Évolutive
UMR CNRS n° 5558Université Claude Bernard – Lyon 1
Génomique comparative
Recherche de régions codantes. Analyse fonctionnelle :
Prédiction de la fonction d’une protéine. Repérage de régions fonctionnelles.
Étude des contraintes structurales : Prédiction de structures secondaires. Recherche de mutations compensatoires.
Évolution moléculaire
Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre
certaines espèces bactériennes. Détermination de voies métaboliques com-
munes ou spécifiques à certains taxons. Étude de la contribution des duplications
géniques à l’évolution des génomes.
Banques généralistes
Faiblesse des annotations : Définitions rares ou erronées.
Informations limitées au fait qu’un gène est similaire à un autre ou à une famille :
/note="similar to tremblnew|U52681|MT52681_5"
/note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic"
/note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"
Le système ENTREZ
Introduit la notion de voisins entre séquen-ces, structures et références.
Les voisinages entre séquences sont établis sur des critères de similarité.
Pas d’accès aux ali-gnements multiples.
Phylogénie(Taxman)
Structures(MMDB)
Réfs.(PubMed)
GénomesComplets
Séq. Nucl.(GenBank)
Séq. Prot.(GenPept)
Recherche manuelle
La recherche des homologues et l’interpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des
banques.
Contenu d’HOBACGEN
Organisation des gènes en familles. Alignements multiples. Arbres phylogénétiques. Données taxonomiques du NCBI. Séquences protéiques de SWISS-PROT /
TrEMBL. Séquences nucléotidiques d’EMBL.
Construction des familles
Comparaison de toutes les séquences proté-iques entre elles au moyen de BLASTP2 : Avantages :
– Plus grande sensibilité que BLASTP.
– Permet l’introduction de gaps. Paramètres utilisés :
– Filtrage des régions de faible complexité par le programme SEG.
– Matrice BLOSUM62.
– Seuil fixé à E ≤ 10-4.
Sélection des segments
S2 S4S1S3Séq. A
Séq. B
S2S1’
∆lg1 lgHSP1 ∆lg2 ∆lg3lgHSP2
Séq. A
Séq. B
Critères d’intégration
Deux séquences non partielles font partie d’une même famille si : Les régions conservées restantes recouvrent au
moins 80 % de la longueur. Leur similarité est ≥ 50 %.
Utilisation de l’inclusion transitive simple : Si {A, B} F et {B, C} F {A, B, C} F
même si {A, C} ne remplit pas les critères pré-cédents.
Séquences partielles
Une séquence partielle peut être incluse dans une famille préexistante si : Elle rempli les conditions requises pour les
séquences non partielles. Sa longueur est ≥ 100 AA ou ≥ 50 % de la lon-
gueur des autres séquences. L’inclusion transitive ne s’applique pas aux
séquences partielles.
Structure en domaines
6PG1_YEAST
6PGD_CANAL
6PGD_SOYBN
6PG2_BACSU
O32911_MYCLR
P95165_MYCTU
6PGD_CERCA
Q40311_MEDSA
Y770_MYCTU
Y229_SYNY3
Découpage en domaines de la famille 6PGD
Dérives liées à la modularité
En simple lien, risque d’intégration dans une même famille de protéines non-homologues : Maintient de seuils élevés pour la longueur et intégra-
tion des données de Prodom dans HOBACGEN.
C
A
BClassificationde A, B, C ?
Alignements et arbres
Les alignements sont calculés avec CLUS- TALW version 1.7 (paramètres par défaut).
Les arbres sont construits en utilisant : La divergence observée comme distance. BIONJ avec une matrice de distances complète. La méthode de Guénoche (non publiée) avec
une matrice de distances incomplète. Racinement par la méthode du mid-point.
Accès à la banque
Architecture de type client/serveur : Supprime les problèmes d’installation et de
mises à jour pour les utilisateurs. Utilisation de miroirs pour limiter les risques
d’embouteillage sur le serveur principal. Informations pour le téléchargement du
client et du serveur disponible à l’URL :http://pbil.univ-lyon1.fr/databases/hobacgen.html
Architecture client-serveur
Service Web+
Programme C(Unix)
RequêtesHTTP
T-RRDLNHSTVRRDFQYITVRRDIRKLTIRRDL-KLTIRRDI--LTIRRDLIN-
Alignements
Arbres
SWISS-PROT
EMBLACNUC
ACNUC
Client Java(Unix, Mac, Windows)
Visualisation des familles
HBG000059 5 5 POTASSIUM-TRANSPORTING ATPASE A CHAINHBG000060 6 6 CA-TRANSPORTING ATPASES; POTASSIUM-TRANSPORTING ATPASEHBG000061 4 4 POTASSIUM-TRANSPORTING ATPASE C CHAINHBG000062 33 30 ATPASE A CHAIN FAMILYHBG000063 40 36 ATP SYNTHASE ALPHA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG000064 68 60 ATP SYNTHASE BETA CHAIN, MITOCHONDRIAL; ATP SYNTHASE BHBG000065 2 2 ATPASE DELTA CHAIN FAMILYHBG000066 17 17 ATP SYNTHASE EPSILON CHAIN; SODIUM ION SPECIFIC; ATP SHBG000067 1 1 ATP SYNTHASE B CHAIN; ATPF_VIBALHBG000068 1 1 ATP SYNTHASE B CHAIN; ATPF_HELPYHBG000069 38 36 ATP SYNTHASE GAMMA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG000070 1 1 ATP SYNTHASE E CHAIN; MITOCHONDRIAL; ATPJ_YEASTHBG000071 1 1 ATPASE C CHAIN FAMILY; ATP SYNTHASE C CHAIN; ATPL_HELPHBG000072 1 1 N-ACYL-D-AMINO-ACID DEACYLASE FAMILY; N-ISOPROPYLAMMELHBG000073 1 1 AURACYANIN B; AURB_CHLAUHBG000074 3 3 AZLC FAMILY; AF1755; BRANCHED-CHAIN AMINO ACID TRANSPOHBG000075 3 3 ALZD/HI1737/HP1330 FAMILY; BRANCHED-CHAIN AMINO ACID THBG000076 19 16 AZURIN II; AZURIN ISO-1; AZURIN ISO-2; H.8 OUTER MEMBR
File Select Help
Total number of families: 36153
View
Families
Visualisation de l’arbre
ACCC_ANASP
Q54755
Q55160
ACCC_ECOLI
ACCC_HAEIN
ACCC_PSEAE
ACCC_BACSU
ACCC_METJA
Tree
Family: HBG000066
Select Subtree Outgroup Swap nodes
Use leaf Up Reset Colors Close Help
Partial Length
Visualisation des séquences
ID ACCC_ECOLI STANDARD; PRT; 449 AA.AC P24182;DT 01-MAR-1992 (REL. 21, CREATED)DT 01-FEB-1994 (REL. 28, LAST SEQUENCE UPDATE)DT 01-FEB-1997 (REL. 35, LAST ANNOTATION UPDATE)DE BIOTIN CARBOXYLASE (EC 6.3.4.14) (A SUBUNIT OF ACETYL-COADE CARBOXYLASE (EC 6.4.1.2)) (ACC).GN ACCC OR FABG.OS ESCHERICHIA COLI.OC PROKARYOTA; GRACILICUTES; SCOTOBACTERIA; FACULTATIVELY ANAEROBIC RODS;OC ENTEROBACTERIACEAE.RN [1]RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.RC STRAIN=K12;RX MEDLINE; 92052166.RA KONDO H., SHIRATSUCHI K., YOSHIMOTO T., MASUDA T., KITAZONO A.,RA TSURU D., ANAI M., SEKIGUCHI M., TANABE T.;RL PROC. NATL. ACAD. SCI. U.S.A. 88:9730-9733(1991).
Close Help
ACC_ECOLI
Sequence
Visualisation des alignements
Close Help
ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPAQ54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAAQ55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPPACCC_ECOLI -MLDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAPACCC_HAEIN -MLEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAPACCC_PSEAE -MLEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAPACCC_BACSU -MIKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKAACCC_METJA -MFNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAP
Alignment
Transferts horizontaux
Remise en cause de la notion d’espèce chez les procaryotes.
Fiabilité des méthodes de reconstruction phylogénétiques.
Implication dans l’acquisition de la patho-génicité chez certaines souches.
Résistance aux antibiotiques et aux métaux lourds.
Méthodes intrinsèques
Utilisent exclusivement l’information stockée au sein du génome étudié.
Se basent sur la composition en codons ou en oligonucléotides des gènes.
Ne tiennent pas compte des variations de G+C % existant le long du chromosome : Surestimation du nombre de gènes transférés au
voisinage du terminus de réplication.
Méthodes extrinsèques
Gène X
Gène Y
A B
CD
E
A B
CD
E
Congruence avecl’arbre des espèces
Transfert horizontal
Phylogénie de ilvD
ProtéobactériesFirmicutesCyanobactérieEucaryote
E. coliH. infuenzae
B. aphidicolaM. leprae
M. tuberculosis
S. cerevisiae
L. lactis
Synechocystis
86
73
100
100
100
100
88
95
Archaea
S. coelicolor
Famille de la dihydroxy-acid déshydratase
Alignement des gènes ilvD
M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR-------GITARDILTKEAFENA/…/M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR-------GITARDILTKEAFENA/…/L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK-------DIKPSDIMTKEAFENA/…/S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL-------GILPRDILTKEAFENA/…/Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK-------QILPSQILTRKAFENA/…/H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/
*:: * . * : . : : . . : * :* **
M. tuberculosis AENLAAITPPD-----------------------------------PDGK-VLRALANPIM. leprae AENLASIAPPD-----------------------------------PDGQ-VIRTLHNPIL. lactis AENVETALDLD-----------------------------------FDSQDIMRPLKNPIS. cerevisiae AERAKKAPSLP------------------------------------EGQEIIKPLSHPISynechocystis AEVLADIPDQP-----------------------------------PAGQDVIHSWDDPVH. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAIE. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAYB. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAYS. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY
. :. .:
Perspectives
Introduction dans les alignements et les arbres de séquences personnelles.
Visualisation des données sur les domaines protéiques (ProDom).
Développement d’autres banques sur le même modèle : Gènes de recepteurs nucléaires. Bactéries endocytobiotiques. Tous les gènes disponibles !