Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle...

Post on 04-Apr-2015

114 views 7 download

Transcript of Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle...

Développement d’une méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par

homologie et application au protéome de Brucella melitensis

Christophe LambertUnité de Recherche en Biologie Moléculaire

FUNDP

FUNDP, 26 septembre 2003, Namur

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Brucella sp.

• Bactérie Gram négative (-proteo bactérie)• Pathogène intracellulaire facultatif d’animaux (stérilité et avortement) et des humains (fièvre de Malte ou brucellose). Zoonose mondiale. • 6(8?) espèces sont définies• Les génomes de deux espèces sont séquencés (Brucella melitensis et Brucella suis)

Génome de Brucella melitensis

2 chromosomes (2118216 bp et 1178737 bp)3197 protéines déduites (fonction assignée par similarité: 2487)

NH2

RO

OH

C CH

valine (V) leucine (L)méthionine (M)

phénylalanine (F) tyrosine (Y)

isoleucine (I)

tryptophane (W)glycine (G)

Protéines

Grande partie du poids sec des êtres vivantsHétéropolymères d’acides aminés

Introduction

• Structure 3D: information importante pour

• mieux comprendre

• la fonction d’une protéine

• les interactions avec des ligands ou d’autres protéines

• planifier de la mutagenèse dirigée

• Nombre de structures connues (~15.000) est plus petit que le nombre de séquences connues (~1.500.000)

• Techniques expérimentales: longues et coûteuses

• Alternative: modélisation

Modélisation par homologieou comparative modeling

Recherche en banque de données

PDB template

Etape

critique

Construction du modèle 3D

Evaluation du modèle

Alignement Cible-template

MAO B (PDB ID: 1gos)

MAO B (template: 1f8r, LAAO)MAO B (template: 1f8r, LAAO)

21

Modélisation par homologieRecherche en banques de séquences de

structures connues

Score ESequences producing significant alignments: (bits) Value

pdb|1YUB Solution Structure Of An Rrna Methyltransferase... 58 1e-09pdb|1QAN Chain A, The Structure Of The Rrna Methyltransfe... 53 6e-08pdb|1G6Q Chain 1, Crystal Structure Of Yeast Arginine Met... 31 0.28pdb|1EI1 Chain A, Dimerization Of E. Coli Dna Gyrase B Pr... 29 1.1pdb|3HDH Chain A, Pig Heart Short Chain L-3-Hydroxyacyl C... 27 2.4pdb|1PSZ Chain A, Pneumococcal Surface Antigen Psaa 27 3.2pdb|1VID Catechol O-Methyltransferase 26 7.2

DIM1p (Saccharomyces cerevisiae)

MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVVLEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELPYFDICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSANVQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTISAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKCDQNDFLRLLYAFHQVGIHF

Modélisation par homologieAlignement cible-template

DIM1p MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV1YUB ---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV

DIM1p LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP1YUB YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯DIM1p YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN1YUB NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL

DIM1p VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI1YUB LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK----

DIM1p SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC1YUB -----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI

DIM1p DQNDFLRLLYAFHQVGIHF1YUB TYEQVLSIFNSYLLFNGR-

%id. = 18%

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

Y EI

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

1YUB

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EI

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EI

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG KG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG KG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG T G

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

HL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

NL

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

NL

Modélisation par homologieAssignation des coordonnées

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

NL

Modèle de DIM1p

Alignement pairé: la plupart des caractéristiques bien prédites

Alignement multiple: beaucoup de caractéristiques bien prédites

100

50

40

302520

0

Twilight zone

Midnight zone

reconnaissance de fold

(pas très fiable)

Modélisation par

homologie (fiable)

Protéines pas nécessairement homologues MAIS des protéines de séquences différentes peuvent adopter le

même fold

%id.

Combinaison d’alignements et données expérimentalesquelques caractéristiques bien prédites

Sensibilité (%)

Sél

ecti

vité

(%

)

10/535

10/10

10/20

10/100

1/1

1/2

1/10

5/5

5/10

5/50

10

50

100

10 50 100

A. Alignement de structure

1ton M E G G K - - D T C A G D S G G P L I C - - - - - D G V L Q G I T S G G A T P C A K P - - - - - - - K T P A I Y A K L I K F T S W I K K V M2pka_ab L P G G K - - D T C M G D S G G P L I C - - - - - N G M W Q G I T S W G H T P C G S A - - - - - - - N K P S I Y T K L I F Y L D W I D D T I2ptn L E G G K - - D S C Q G D S G G P V V C - - - - - S G K L Q G I V S W G S G C A Q K - - - - - - - - N K P G V Y T K V C N Y V S W I K Q T I4cha_a S G V - - - - S S C M G D S G G P L V C K K N G - A W T L V G I V S W G S S T C S T - - - - - - - - S T P G V Y A R V T A L V N W V Q Q T L3est G G D G V R - S G C Q G D S G G P L H C L V N G - Q Y A V H G V T S F V S R L G C N V T - - - - - - R K P T V F T R V S A Y I S W I N N V I3rp2_a T T L R - - - A A F M G D S G G P L L C - - - - - A G V A H G I V S Y G H P D A - - - - - - - - - - K P P A I F T R V S T Y V P W I N A V I1sgt Y P D T G G V D T C Q G D S G G P M F R K D N A D E W I Q V G I V S W G Y G C A R P - - - - - - - - G Y P G V Y T E V S T F A S A I A S A A2sga - - - - - - - C A Q P G D S G G S L F A - - - - - G S T A L G L T S G G S G N C R T - - - - - - - - G G T T F Y Q P V T E A L S A Y G A T V3sgb_e - - - - - - - C A E P G D S G G P L Y S - - - - - G T R A I G L T S G G S G N C S S - - - - - - - - G G T T F F Q P V T E A L V A Y G V S V2alp - - - - - - - C M G R G D S G G S W I T S - - - - A G Q A Q G V M S G G N V Q S N G N N C G I P A S Q R S S L F E R L Q P I L S Q Y G L S L

N col ref = 41

B. Alignement Match-Box 1.21

1ton - - M E G G K d t c a g d s g g p l i c - - - - - d g v l q g i t s g g a t p c A K P - - - - - - - k t p a i y a k l i k f t s w i k k v m2pka_ab - - L P G G K d t c m g d s g g p l i c - - - - - n g m w q g i t s w g h t p c G S A - - - - - - - n k p s i y t k l i f y l d w i d d t i2ptn - - L E G G K d s c q g d s g g p v v c - - - - - s g k l q g i v s w g s g c a Q K - - - - - - - - n k p g v y t k v c n y v s w i k q t i4cha_a - - - - S G V s s c m g d s g g p l v c K K N G - a w t l v g i v s w g s s t c S T - - - - - - - - s t p g v y a r v t a l v n w v q q t l3est - G G D G V R s g c q g d s g g p l h c L V N G - q y a v h g v t s f v s r l g C N V T - - - - - - r k p t v f t r v s a y i s w i n n v i3rp2_a - - - T T L R a a f m g d s g g p l l c - - - - - a g v a h g i v s y g h p d a - - - - - - - - - - k p p a i f t r v s t y v p w i n a v i1sgt Y P D T G G V d t c q g d s g g p m f r K D N A D e w i q v g i v s w g y g c a R P - - - - - - - - g y p g v y t e v s t f a s a i a s a a2sga - - - - - - - c a q p g d s g g s l f a - - - - - g s t a l g l t s g g s g n c R T - - - - - - - - g g t t f y q p v t e a l s a y g a t v3sgb_e - - - - - - - c a e p g d s g g p l y s - - - - - g t r a i g l t s g g s g n c S S - - - - - - - - g g t t f f q p v t e a l v a y g v s v2alp - - - - - - - c m g r g d s g g s w i t S - - - - a g q a q g v m s g g n v q s N G N N C G I P A S q r s s l f e r l q p i l s q y g l s l

N col vraies = 41 N col alignées = 48 Sensibilité = 41/41 = 100% Sélectivité = 41/48 = 85%

C. Alignement Clustal 1.74

1ton M E G G K D T C A G D S G G P L I C D G - - - - - V L Q G I T S G G - - - - A T P - C - - - A K P K T P A I Y A K L I K F T S W I K K V M K2pka_Ab L P G G K D T C M G D S G G P L I C N G - - - - - M W Q G I T S W G - - - - H T P - C - - - G S A N K P S I Y T K L I F Y L D W I D D T I T2ptn L E G G K D S C Q G D S G G P V V C S G - - - - - K L Q G I V S W G - - - - S G - - C - - - A Q K N K P G V Y T K V C N Y V S W I K Q T I A4cha_A A S G - V S S C M G D S G G P L V C K K N G - A W T L V G I V S W G - - - - S S T - C - - - S T S - T P G V Y A R V T A L V N W V Q Q T L A3est G D G V R S G C Q G D S G G P L H C L V N G - Q Y A V H G V T S F V - - - - S R L G C - - - N V T R K P T V F T R V S A Y I S W I N N V I A3rp2_a P T T L R A A F M G D S G G P L L C A G - - - - - V A H G I V S Y G - - - - H P - - - - - - - D A K P P A I F T R V S T Y V P W I N A V I N1sgt D T G G V D T C Q G D S G G P M F R K D N A D E W I Q V G I V S W G - - - - Y G - - C - - - A R P G Y P G V Y T E V S T F A S A I A S A A R2sga Q P G - - - - - - - D S G G S L F A G S - - - - - T A L G L T S G G - - - - S G N - C - - - R T G G T T F Y Q P V T E A L S A Y G A T V L -3sgb_e E P G - - - - - - - D S G G P L Y S G T - - - - - R A I G L T S G G - - - - S G N - C - - - S S G G T T F F Q P V T E A L V A Y G V S V Y -2alp - R G - - - - - - - D S G G S W I T S A G - - - - Q A Q G V M S G G N V Q S N G N N C G I P A S Q R S S L F E R L Q P I L S Q Y G L S L V T

N col vraies = 17 N col alignées = 44 Sensibilité = 17/41 = 41 % Sélectivité = 17/44 = 39%

Régions C-terminales de sérine protéases de microbes et de mammifères alignées avec Match-Box 1.21 (B) et ClustalW (C). Ces alignements sont comparés à l'alignement de structure (A). Les régions structuralement conservées sont en gris et les régions alignées sont encadrées.

Sélectivité vs sensibilité pour différents programmes d'alignement de séquences

50

55

60

65

70

75

80

85

90

20 30 40 50 60 70 80 90

Sensibilité (%)

lec

tiv

ité

(%

)

DBClustal

Dialign2

PRRP

SAGA

T-COFFEE

ClustalW

MAP

Match-Box

MB1-3

MB1-6

Multalin

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Buts

• Développer une méthode fiable d’alignement pairé de

séquences

• Développer un programme de modélisation

automatique par homologie

• Prédire la structure 3D des protéines déduites du

génome de Brucella melitensis

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Thompson J.D. et al. Nucleic Acids Res. 27(13):2682-2690 (1999)

• Aucun programme n’est meilleur que les autres• La qualité de l’alignement dépend de l’ensemble de séquences (séquences similaires, divergentes, courtes, longues, ...)• Il y a des erreurs systématiques lorsqu’on aligne des séquences dans la twilight zone (20-30% d’identité)

Limites de l’alignement multiple

Briffeuil P. et al. Bioinformatics 4:357-366 (1998)

• Le consensus de plusieurs méthodes augmente la sélectivité

Lambert C. et al. Current Genomics 4:131-146 (2003)

• La combinaison de plusieurs méthodes peut augmenter la précision

Deux séquences

ESyPAliExpert System for Pairwise Alignment

PSI-BLASTEtape 1

Etape 2Ensemble A Ensemble B

PURGE

Etape 3

Multalin T-COFFEE Dialign2ClustalW Match-Box

Extraction des alignements pairés

Extraction des alignements pairés

ESyPAli

Etape 4Attribution d’un

score aux positions alignées

Extraction des positions alignées

Fréquence

target ...VQADL..IIYLRTSPEVAYERIRQRARSEES..C..VPL..KYLQELHECLUSTALW LGALPEDR..HIDRLAKRQRPGERLDLAMLAAIR..R..VYGLLANTVRYLQDIALIGN2 ...LPGTN..IVLGALPEDRHIDRLAKRQRPGER..L..D............MATCHBOX ...IVLGA..LPEDRHI.....DRLAKRQRPGER..L..DLA...MLAAIRRMULTALIN ...VYVPEPMTYWRVLGASETIANIYTTQHRLDQGEISAGDA..AVVMTSAQPSI-BLAST .....GTN..IVLGALPEDRHIDRLAKRQRPGER.....LDL..AMLAAIRRT-COFFEE ....PGTN..IVLGALPEDRHIDRLAKRQRPGERLDL..AML..AAIRRVYGESyPred LPGTN IVLGALPEDRHIDRLAKRQRPGER L DLA MLAAIRRScore 12333 333333333333444444444444 2 211 2222222

Attribution d’un score aux positions alignées

Séquence 1

L-G: 3L-R: 2L-D: 1

E-D: 4E-E: 1E-A: 1

Extraction des alignements pairés

ESyPAli

Etape 4Attribution d’un

score aux positions alignées

Extraction des positions alignées

Fréquence

Choix de la position ayant le plus haut score comme point

d’ancrage

Elimination des positions

incompatiblesPoints d’ancrage

Construction de l’alignement

consensus final

Etape 5

Alignements incompatibles

A D L I I Y L R T S P E V A Y E

L P G T N I V L G A L P E D R H

1.

2.

Extraction des alignements pairés

ESyPAli

Etape 4Attribution d’un

score aux positions alignées

Extraction des positions alignées

Fréquence

Choix de la position ayant le plus haut score comme point

d’ancrage

Elimination des positions

incompatiblesPoints d’ancrage

Construction de l’alignement

consensus final

Etape 5

Etape 4

Extraction des alignements pairés

Choix de la position ayant le plus haut score comme point

d’ancrage

Elimination des positions

incompatiblesPoints d’ancrage

Attribution d’un score aux positions

alignées

Extraction des positions alignées

Construction de l’alignement

consensus final

Etape 5

Réseauneuronal

ESyPAliNN

Entraînement du réseau neuronal

Entrée

Cachée

Sortie connue

Séquence 1 V

Multalin MultalinI

PSI-BLAST PSI-BLASTT

Dialign2 Dialign2I

ClustalW ClustalWL L

Match-Box Match-BoxI

T-COFFEE T-COFFEEL L

V Structure 1

Yi

Wik

Yk ki

iikk bYWX Entrée

kXk eY

1

1

Sortie

Utilisation du réseau neuronal

Entrée Cachée Sortie

Séquence 1 Y

Multalin MultalinT

PSI-BLAST PSI-BLASTY

Dialign2 Dialign2T

ClustalW ClustalWW W

Match-Box Match-BoxT

T-COFFEE T-COFFEEW W

Y Séquence 1

Résultats de l’évaluation sur 202 alignements pairés

Programme Sensibilité (%) Sélectivité (%)

Alignement de structures 100,0 100,0MULTALIN 25,5 44,0MATCHBOX 27,1 27,8DIALIGN2 33,9 48,1PSIBLAST 35,2 47,8CLUSTALW 35,9 29,2T-COFFEE 37,5 47,4ESyPAli 44,2 36,8ESyPAliNN 46,8 38,9

% identité inférieur à 36 %%ID moyen = 20%

Alignement pairéConclusions

ESyPAli• Combinaison efficace d’alignements

ESyPAliNN• Utilisation de réseaux neuronaux• Alignements de meilleure qualité

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

ESyPred3DExpert System to Predict 3D structures of proteins

C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)

PSI-BLAST, nr (NCBI)

MODELLER v6.2

PDB template

ESyPAliNN Alignement Cible-template

Procheck

Séquence cible

Structure cible prédite

Résultat

Entrée

Qualité de l’étape ESyPAliau concours CASP4

C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)

0

10

20

30

40

50

60

70

80

90

100

T0090

T0092

T0099

T0103

T0111

T0112

T0113

T0117

T0121

T0122

T0123

T0125

T0128

Targets

AL

0 (

in %

of

the

len

gth

)

3. b

Différence moyenne

t-student Différence moyenne

t-student

Couverture (%) 0,581 P< 0,05 1,571 P< 0,05

Positions équivalentes (%) 1,878 P< 0,05 0,643

Résidus correctement alignés (%) 4,632 P< 0,05 4,218 P< 0,05

RMSD (Å) -0,460 P< 0,05 -0,789 P< 0,05

ESyPred3D / 3D-Jigsaw ESyPred3D / Swiss-Model

ESyPred3D EVA

Système d’évaluation continue de serveurs de modélisation par homologie (catégorie CM)

853 modèles de janvier à juin 2003

ESyPred3D , 3D-Jigsaw , Swiss-Model

ESyPred3DCASP5

CASP5

• ESyPred3D parmi les 10 meilleurs serveurs évalués (sur 55)

• ESyPred3D dans le top 40 (si modélisateurs humains + serveurs (180))

• Améliorer possible de la sélection du template

ESyPred3DConclusions

• ESyPred3D est un des meilleurs serveurs de modélisation• Performances dues essentiellement à ESyPAliNN

Introduction

Buts

Développement de ESyPAli(NN)

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Prédiction (détermination) de structures 3D à l’échelle d’un génome

1) Structure (prédite) accessible• Ingénierie, hypothèses mutations

2) Recherche de sites actifs• Aide à la détermination de fonction

3) Screening (docking) de petites molécules• Recherche de cibles pour antibiotiques

Banque de données structuralesIntérêt

Banque de donnéesQualité des données

Problème définition de la position des codons start des pCDS de Integrated Genomics Inc.

----> Correction: consortium de spécialistes de Brucella

Fonction prédite par similarité: BLAST/Swiss-Prot et hmmer/PfamLocalisation cellulaire: PSORTPrédiction des structures secondaires: PSI-PRED2

Application de ESyPred3D aux protéines déduites du génome de Brucella melitensis

http://serine.urbm.fundp.ac.be/~seqbruce/GENOMES

• Centraliser les informations à propos du génome de Brucella

• Fournir des prédictions pour faciliter l’annotation et la rendre

plus fiable

• Corriger les informations de la base de données suivant les

modifications des utilisateurs

• Effectuer des recherches avancées

• Aider à coordonner des corrections à l’échelle génomique

• Intégrer des données biologiques pertinentes

Objectifs atteints de la banque de données

Introduction

Buts

Développement de ESyPAli(NN)

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Conclusion

• Développement d’une méthode fiable d’alignement pairé de séquences

• Utilisation de ce nouveau programme dans une méthode automatique de modélisation par homologie

• Développement d’une banque de données structurales et fonctionnelles

Alignement de séquences• Développer une méthode d’alignement multiple

Modélisation par homologie• Amélioration de l’identification du template

Base de données

• Docking de petites molécules

• Prédiction d’interactions protéine-protéine

Perspectives

Remerciements

Eric Depiereux

Guy BaudouxMonique Nadia

JohanKatalin et BernardNicolas et Isabelle

Marc Marti-Renom (UCSF)Volker Eirich (Columbia)Ernest Feytmans (SIB)

Benjamin

URBM Aïko et Etienne Xavier Jean-Jacques Jean VDH

Labo CMS

Labo CTA

Parents