HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle...

26
HOBACGEN : phylogénie des gènes de bactéries et d’archées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1

Transcript of HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle...

Page 1: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

HOBACGEN : phylogénie des gènes de bactéries et d’archées

Guy Perrière et Laurent Duret

Pôle Bioinformatique LyonnaisLaboratoire de Biométrie et Biologie Évolutive

UMR CNRS n° 5558Université Claude Bernard – Lyon 1

Page 2: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Génomique comparative

Recherche de régions codantes. Analyse fonctionnelle :

Prédiction de la fonction d’une protéine. Repérage de régions fonctionnelles.

Étude des contraintes structurales : Prédiction de structures secondaires. Recherche de mutations compensatoires.

Page 3: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Évolution moléculaire

Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre

certaines espèces bactériennes. Détermination de voies métaboliques com-

munes ou spécifiques à certains taxons. Étude de la contribution des duplications

géniques à l’évolution des génomes.

Page 4: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Banques généralistes

Faiblesse des annotations : Définitions rares ou erronées.

Informations limitées au fait qu’un gène est similaire à un autre ou à une famille :

/note="similar to tremblnew|U52681|MT52681_5"

/note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic"

/note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"

Page 5: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Le système ENTREZ

Introduit la notion de voisins entre séquen-ces, structures et références.

Les voisinages entre séquences sont établis sur des critères de similarité.

Pas d’accès aux ali-gnements multiples.

Phylogénie(Taxman)

Structures(MMDB)

Réfs.(PubMed)

GénomesComplets

Séq. Nucl.(GenBank)

Séq. Prot.(GenPept)

Page 6: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Recherche manuelle

La recherche des homologues et l’interpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des

banques.

Page 7: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Contenu d’HOBACGEN

Organisation des gènes en familles. Alignements multiples. Arbres phylogénétiques. Données taxonomiques du NCBI. Séquences protéiques de SWISS-PROT /

TrEMBL. Séquences nucléotidiques d’EMBL.

Page 8: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Construction des familles

Comparaison de toutes les séquences proté-iques entre elles au moyen de BLASTP2 : Avantages :

– Plus grande sensibilité que BLASTP.

– Permet l’introduction de gaps. Paramètres utilisés :

– Filtrage des régions de faible complexité par le programme SEG.

– Matrice BLOSUM62.

– Seuil fixé à E ≤ 10-4.

Page 9: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Sélection des segments

S2 S4S1S3Séq. A

Séq. B

S2S1’

∆lg1 lgHSP1 ∆lg2 ∆lg3lgHSP2

Séq. A

Séq. B

Page 10: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Critères d’intégration

Deux séquences non partielles font partie d’une même famille si : Les régions conservées restantes recouvrent au

moins 80 % de la longueur. Leur similarité est ≥ 50 %.

Utilisation de l’inclusion transitive simple : Si {A, B} F et {B, C} F {A, B, C} F

même si {A, C} ne remplit pas les critères pré-cédents.

Page 11: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Séquences partielles

Une séquence partielle peut être incluse dans une famille préexistante si : Elle rempli les conditions requises pour les

séquences non partielles. Sa longueur est ≥ 100 AA ou ≥ 50 % de la lon-

gueur des autres séquences. L’inclusion transitive ne s’applique pas aux

séquences partielles.

Page 12: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Structure en domaines

6PG1_YEAST

6PGD_CANAL

6PGD_SOYBN

6PG2_BACSU

O32911_MYCLR

P95165_MYCTU

6PGD_CERCA

Q40311_MEDSA

Y770_MYCTU

Y229_SYNY3

Découpage en domaines de la famille 6PGD

Page 13: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Dérives liées à la modularité

En simple lien, risque d’intégration dans une même famille de protéines non-homologues : Maintient de seuils élevés pour la longueur et intégra-

tion des données de Prodom dans HOBACGEN.

C

A

BClassificationde A, B, C ?

Page 14: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Alignements et arbres

Les alignements sont calculés avec CLUS- TALW version 1.7 (paramètres par défaut).

Les arbres sont construits en utilisant : La divergence observée comme distance. BIONJ avec une matrice de distances complète. La méthode de Guénoche (non publiée) avec

une matrice de distances incomplète. Racinement par la méthode du mid-point.

Page 15: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Accès à la banque

Architecture de type client/serveur : Supprime les problèmes d’installation et de

mises à jour pour les utilisateurs. Utilisation de miroirs pour limiter les risques

d’embouteillage sur le serveur principal. Informations pour le téléchargement du

client et du serveur disponible à l’URL :http://pbil.univ-lyon1.fr/databases/hobacgen.html

Page 16: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Architecture client-serveur

Service Web+

Programme C(Unix)

RequêtesHTTP

T-RRDLNHSTVRRDFQYITVRRDIRKLTIRRDL-KLTIRRDI--LTIRRDLIN-

Alignements

Arbres

SWISS-PROT

EMBLACNUC

ACNUC

Client Java(Unix, Mac, Windows)

Page 17: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Visualisation des familles

HBG000059 5 5 POTASSIUM-TRANSPORTING ATPASE A CHAINHBG000060 6 6 CA-TRANSPORTING ATPASES; POTASSIUM-TRANSPORTING ATPASEHBG000061 4 4 POTASSIUM-TRANSPORTING ATPASE C CHAINHBG000062 33 30 ATPASE A CHAIN FAMILYHBG000063 40 36 ATP SYNTHASE ALPHA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG000064 68 60 ATP SYNTHASE BETA CHAIN, MITOCHONDRIAL; ATP SYNTHASE BHBG000065 2 2 ATPASE DELTA CHAIN FAMILYHBG000066 17 17 ATP SYNTHASE EPSILON CHAIN; SODIUM ION SPECIFIC; ATP SHBG000067 1 1 ATP SYNTHASE B CHAIN; ATPF_VIBALHBG000068 1 1 ATP SYNTHASE B CHAIN; ATPF_HELPYHBG000069 38 36 ATP SYNTHASE GAMMA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG000070 1 1 ATP SYNTHASE E CHAIN; MITOCHONDRIAL; ATPJ_YEASTHBG000071 1 1 ATPASE C CHAIN FAMILY; ATP SYNTHASE C CHAIN; ATPL_HELPHBG000072 1 1 N-ACYL-D-AMINO-ACID DEACYLASE FAMILY; N-ISOPROPYLAMMELHBG000073 1 1 AURACYANIN B; AURB_CHLAUHBG000074 3 3 AZLC FAMILY; AF1755; BRANCHED-CHAIN AMINO ACID TRANSPOHBG000075 3 3 ALZD/HI1737/HP1330 FAMILY; BRANCHED-CHAIN AMINO ACID THBG000076 19 16 AZURIN II; AZURIN ISO-1; AZURIN ISO-2; H.8 OUTER MEMBR

File Select Help

Total number of families: 36153

View

Families

Page 18: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Visualisation de l’arbre

ACCC_ANASP

Q54755

Q55160

ACCC_ECOLI

ACCC_HAEIN

ACCC_PSEAE

ACCC_BACSU

ACCC_METJA

Tree

Family: HBG000066

Select Subtree Outgroup Swap nodes

Use leaf Up Reset Colors Close Help

Partial Length

Page 19: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Visualisation des séquences

ID ACCC_ECOLI STANDARD; PRT; 449 AA.AC P24182;DT 01-MAR-1992 (REL. 21, CREATED)DT 01-FEB-1994 (REL. 28, LAST SEQUENCE UPDATE)DT 01-FEB-1997 (REL. 35, LAST ANNOTATION UPDATE)DE BIOTIN CARBOXYLASE (EC 6.3.4.14) (A SUBUNIT OF ACETYL-COADE CARBOXYLASE (EC 6.4.1.2)) (ACC).GN ACCC OR FABG.OS ESCHERICHIA COLI.OC PROKARYOTA; GRACILICUTES; SCOTOBACTERIA; FACULTATIVELY ANAEROBIC RODS;OC ENTEROBACTERIACEAE.RN [1]RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.RC STRAIN=K12;RX MEDLINE; 92052166.RA KONDO H., SHIRATSUCHI K., YOSHIMOTO T., MASUDA T., KITAZONO A.,RA TSURU D., ANAI M., SEKIGUCHI M., TANABE T.;RL PROC. NATL. ACAD. SCI. U.S.A. 88:9730-9733(1991).

Close Help

ACC_ECOLI

Sequence

Page 20: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Visualisation des alignements

Close Help

ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPAQ54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAAQ55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPPACCC_ECOLI -MLDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAPACCC_HAEIN -MLEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAPACCC_PSEAE -MLEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAPACCC_BACSU -MIKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKAACCC_METJA -MFNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAP

Alignment

Page 21: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Transferts horizontaux

Remise en cause de la notion d’espèce chez les procaryotes.

Fiabilité des méthodes de reconstruction phylogénétiques.

Implication dans l’acquisition de la patho-génicité chez certaines souches.

Résistance aux antibiotiques et aux métaux lourds.

Page 22: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Méthodes intrinsèques

Utilisent exclusivement l’information stockée au sein du génome étudié.

Se basent sur la composition en codons ou en oligonucléotides des gènes.

Ne tiennent pas compte des variations de G+C % existant le long du chromosome : Surestimation du nombre de gènes transférés au

voisinage du terminus de réplication.

Page 23: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Méthodes extrinsèques

Gène X

Gène Y

A B

CD

E

A B

CD

E

Congruence avecl’arbre des espèces

Transfert horizontal

Page 24: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Phylogénie de ilvD

ProtéobactériesFirmicutesCyanobactérieEucaryote

E. coliH. infuenzae

B. aphidicolaM. leprae

M. tuberculosis

S. cerevisiae

L. lactis

Synechocystis

86

73

100

100

100

100

88

95

Archaea

S. coelicolor

Famille de la dihydroxy-acid déshydratase

Page 25: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Alignement des gènes ilvD

M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR-------GITARDILTKEAFENA/…/M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR-------GITARDILTKEAFENA/…/L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK-------DIKPSDIMTKEAFENA/…/S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL-------GILPRDILTKEAFENA/…/Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK-------QILPSQILTRKAFENA/…/H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/

*:: * . * : . : : . . : * :* **

M. tuberculosis AENLAAITPPD-----------------------------------PDGK-VLRALANPIM. leprae AENLASIAPPD-----------------------------------PDGQ-VIRTLHNPIL. lactis AENVETALDLD-----------------------------------FDSQDIMRPLKNPIS. cerevisiae AERAKKAPSLP------------------------------------EGQEIIKPLSHPISynechocystis AEVLADIPDQP-----------------------------------PAGQDVIHSWDDPVH. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAIE. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAYB. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAYS. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY

. :. .:

Page 26: HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Perspectives

Introduction dans les alignements et les arbres de séquences personnelles.

Visualisation des données sur les domaines protéiques (ProDom).

Développement d’autres banques sur le même modèle : Gènes de recepteurs nucléaires. Bactéries endocytobiotiques. Tous les gènes disponibles !