Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle...

54
Développement d’une méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome de Brucella melitensis Christophe Lambert Unité de Recherche en Biologie Moléculaire FUNDP FUNDP, 26 septembre 2003, Namur

Transcript of Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle...

Page 1: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Développement d’une méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par

homologie et application au protéome de Brucella melitensis

Christophe LambertUnité de Recherche en Biologie Moléculaire

FUNDP

FUNDP, 26 septembre 2003, Namur

Page 2: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Page 3: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Brucella sp.

• Bactérie Gram négative (-proteo bactérie)• Pathogène intracellulaire facultatif d’animaux (stérilité et avortement) et des humains (fièvre de Malte ou brucellose). Zoonose mondiale. • 6(8?) espèces sont définies• Les génomes de deux espèces sont séquencés (Brucella melitensis et Brucella suis)

Génome de Brucella melitensis

2 chromosomes (2118216 bp et 1178737 bp)3197 protéines déduites (fonction assignée par similarité: 2487)

Page 4: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

NH2

RO

OH

C CH

valine (V) leucine (L)méthionine (M)

phénylalanine (F) tyrosine (Y)

isoleucine (I)

tryptophane (W)glycine (G)

Protéines

Grande partie du poids sec des êtres vivantsHétéropolymères d’acides aminés

Page 5: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

• Structure 3D: information importante pour

• mieux comprendre

• la fonction d’une protéine

• les interactions avec des ligands ou d’autres protéines

• planifier de la mutagenèse dirigée

• Nombre de structures connues (~15.000) est plus petit que le nombre de séquences connues (~1.500.000)

• Techniques expérimentales: longues et coûteuses

• Alternative: modélisation

Page 6: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Modélisation par homologieou comparative modeling

Recherche en banque de données

PDB template

Etape

critique

Construction du modèle 3D

Evaluation du modèle

Alignement Cible-template

Page 7: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

MAO B (PDB ID: 1gos)

MAO B (template: 1f8r, LAAO)MAO B (template: 1f8r, LAAO)

21

Page 8: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Modélisation par homologieRecherche en banques de séquences de

structures connues

Score ESequences producing significant alignments: (bits) Value

pdb|1YUB Solution Structure Of An Rrna Methyltransferase... 58 1e-09pdb|1QAN Chain A, The Structure Of The Rrna Methyltransfe... 53 6e-08pdb|1G6Q Chain 1, Crystal Structure Of Yeast Arginine Met... 31 0.28pdb|1EI1 Chain A, Dimerization Of E. Coli Dna Gyrase B Pr... 29 1.1pdb|3HDH Chain A, Pig Heart Short Chain L-3-Hydroxyacyl C... 27 2.4pdb|1PSZ Chain A, Pneumococcal Surface Antigen Psaa 27 3.2pdb|1VID Catechol O-Methyltransferase 26 7.2

DIM1p (Saccharomyces cerevisiae)

MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVVLEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELPYFDICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSANVQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTISAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKCDQNDFLRLLYAFHQVGIHF

Page 9: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Modélisation par homologieAlignement cible-template

DIM1p MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV1YUB ---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV

DIM1p LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP1YUB YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯DIM1p YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN1YUB NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL

DIM1p VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI1YUB LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK----

DIM1p SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC1YUB -----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI

DIM1p DQNDFLRLLYAFHQVGIHF1YUB TYEQVLSIFNSYLLFNGR-

%id. = 18%

Page 10: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

Y EI

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

1YUB

Page 11: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EI

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

Page 12: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EI

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

Page 13: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

Page 14: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GTG KG

HL

Modélisation par homologieAssignation des coordonnées

Page 15: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG KG

HL

Modélisation par homologieAssignation des coordonnées

Page 16: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG KG

HL

Modélisation par homologieAssignation des coordonnées

Page 17: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG T G

HL

Modélisation par homologieAssignation des coordonnées

Page 18: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

HL

Modélisation par homologieAssignation des coordonnées

Page 19: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

NL

Modélisation par homologieAssignation des coordonnées

Page 20: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

NL

Modélisation par homologieAssignation des coordonnées

Page 21: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Modélisation par homologieAssignation des coordonnées

DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...

L EV

GPG TG

NL

Modèle de DIM1p

Page 22: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Alignement pairé: la plupart des caractéristiques bien prédites

Alignement multiple: beaucoup de caractéristiques bien prédites

100

50

40

302520

0

Twilight zone

Midnight zone

reconnaissance de fold

(pas très fiable)

Modélisation par

homologie (fiable)

Protéines pas nécessairement homologues MAIS des protéines de séquences différentes peuvent adopter le

même fold

%id.

Combinaison d’alignements et données expérimentalesquelques caractéristiques bien prédites

Page 23: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Sensibilité (%)

Sél

ecti

vité

(%

)

10/535

10/10

10/20

10/100

1/1

1/2

1/10

5/5

5/10

5/50

10

50

100

10 50 100

Page 24: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

A. Alignement de structure

1ton M E G G K - - D T C A G D S G G P L I C - - - - - D G V L Q G I T S G G A T P C A K P - - - - - - - K T P A I Y A K L I K F T S W I K K V M2pka_ab L P G G K - - D T C M G D S G G P L I C - - - - - N G M W Q G I T S W G H T P C G S A - - - - - - - N K P S I Y T K L I F Y L D W I D D T I2ptn L E G G K - - D S C Q G D S G G P V V C - - - - - S G K L Q G I V S W G S G C A Q K - - - - - - - - N K P G V Y T K V C N Y V S W I K Q T I4cha_a S G V - - - - S S C M G D S G G P L V C K K N G - A W T L V G I V S W G S S T C S T - - - - - - - - S T P G V Y A R V T A L V N W V Q Q T L3est G G D G V R - S G C Q G D S G G P L H C L V N G - Q Y A V H G V T S F V S R L G C N V T - - - - - - R K P T V F T R V S A Y I S W I N N V I3rp2_a T T L R - - - A A F M G D S G G P L L C - - - - - A G V A H G I V S Y G H P D A - - - - - - - - - - K P P A I F T R V S T Y V P W I N A V I1sgt Y P D T G G V D T C Q G D S G G P M F R K D N A D E W I Q V G I V S W G Y G C A R P - - - - - - - - G Y P G V Y T E V S T F A S A I A S A A2sga - - - - - - - C A Q P G D S G G S L F A - - - - - G S T A L G L T S G G S G N C R T - - - - - - - - G G T T F Y Q P V T E A L S A Y G A T V3sgb_e - - - - - - - C A E P G D S G G P L Y S - - - - - G T R A I G L T S G G S G N C S S - - - - - - - - G G T T F F Q P V T E A L V A Y G V S V2alp - - - - - - - C M G R G D S G G S W I T S - - - - A G Q A Q G V M S G G N V Q S N G N N C G I P A S Q R S S L F E R L Q P I L S Q Y G L S L

N col ref = 41

B. Alignement Match-Box 1.21

1ton - - M E G G K d t c a g d s g g p l i c - - - - - d g v l q g i t s g g a t p c A K P - - - - - - - k t p a i y a k l i k f t s w i k k v m2pka_ab - - L P G G K d t c m g d s g g p l i c - - - - - n g m w q g i t s w g h t p c G S A - - - - - - - n k p s i y t k l i f y l d w i d d t i2ptn - - L E G G K d s c q g d s g g p v v c - - - - - s g k l q g i v s w g s g c a Q K - - - - - - - - n k p g v y t k v c n y v s w i k q t i4cha_a - - - - S G V s s c m g d s g g p l v c K K N G - a w t l v g i v s w g s s t c S T - - - - - - - - s t p g v y a r v t a l v n w v q q t l3est - G G D G V R s g c q g d s g g p l h c L V N G - q y a v h g v t s f v s r l g C N V T - - - - - - r k p t v f t r v s a y i s w i n n v i3rp2_a - - - T T L R a a f m g d s g g p l l c - - - - - a g v a h g i v s y g h p d a - - - - - - - - - - k p p a i f t r v s t y v p w i n a v i1sgt Y P D T G G V d t c q g d s g g p m f r K D N A D e w i q v g i v s w g y g c a R P - - - - - - - - g y p g v y t e v s t f a s a i a s a a2sga - - - - - - - c a q p g d s g g s l f a - - - - - g s t a l g l t s g g s g n c R T - - - - - - - - g g t t f y q p v t e a l s a y g a t v3sgb_e - - - - - - - c a e p g d s g g p l y s - - - - - g t r a i g l t s g g s g n c S S - - - - - - - - g g t t f f q p v t e a l v a y g v s v2alp - - - - - - - c m g r g d s g g s w i t S - - - - a g q a q g v m s g g n v q s N G N N C G I P A S q r s s l f e r l q p i l s q y g l s l

N col vraies = 41 N col alignées = 48 Sensibilité = 41/41 = 100% Sélectivité = 41/48 = 85%

C. Alignement Clustal 1.74

1ton M E G G K D T C A G D S G G P L I C D G - - - - - V L Q G I T S G G - - - - A T P - C - - - A K P K T P A I Y A K L I K F T S W I K K V M K2pka_Ab L P G G K D T C M G D S G G P L I C N G - - - - - M W Q G I T S W G - - - - H T P - C - - - G S A N K P S I Y T K L I F Y L D W I D D T I T2ptn L E G G K D S C Q G D S G G P V V C S G - - - - - K L Q G I V S W G - - - - S G - - C - - - A Q K N K P G V Y T K V C N Y V S W I K Q T I A4cha_A A S G - V S S C M G D S G G P L V C K K N G - A W T L V G I V S W G - - - - S S T - C - - - S T S - T P G V Y A R V T A L V N W V Q Q T L A3est G D G V R S G C Q G D S G G P L H C L V N G - Q Y A V H G V T S F V - - - - S R L G C - - - N V T R K P T V F T R V S A Y I S W I N N V I A3rp2_a P T T L R A A F M G D S G G P L L C A G - - - - - V A H G I V S Y G - - - - H P - - - - - - - D A K P P A I F T R V S T Y V P W I N A V I N1sgt D T G G V D T C Q G D S G G P M F R K D N A D E W I Q V G I V S W G - - - - Y G - - C - - - A R P G Y P G V Y T E V S T F A S A I A S A A R2sga Q P G - - - - - - - D S G G S L F A G S - - - - - T A L G L T S G G - - - - S G N - C - - - R T G G T T F Y Q P V T E A L S A Y G A T V L -3sgb_e E P G - - - - - - - D S G G P L Y S G T - - - - - R A I G L T S G G - - - - S G N - C - - - S S G G T T F F Q P V T E A L V A Y G V S V Y -2alp - R G - - - - - - - D S G G S W I T S A G - - - - Q A Q G V M S G G N V Q S N G N N C G I P A S Q R S S L F E R L Q P I L S Q Y G L S L V T

N col vraies = 17 N col alignées = 44 Sensibilité = 17/41 = 41 % Sélectivité = 17/44 = 39%

Régions C-terminales de sérine protéases de microbes et de mammifères alignées avec Match-Box 1.21 (B) et ClustalW (C). Ces alignements sont comparés à l'alignement de structure (A). Les régions structuralement conservées sont en gris et les régions alignées sont encadrées.

Page 25: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Sélectivité vs sensibilité pour différents programmes d'alignement de séquences

50

55

60

65

70

75

80

85

90

20 30 40 50 60 70 80 90

Sensibilité (%)

lec

tiv

ité

(%

)

DBClustal

Dialign2

PRRP

SAGA

T-COFFEE

ClustalW

MAP

Match-Box

MB1-3

MB1-6

Multalin

Page 26: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Page 27: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Buts

• Développer une méthode fiable d’alignement pairé de

séquences

• Développer un programme de modélisation

automatique par homologie

• Prédire la structure 3D des protéines déduites du

génome de Brucella melitensis

Page 28: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Page 29: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Thompson J.D. et al. Nucleic Acids Res. 27(13):2682-2690 (1999)

• Aucun programme n’est meilleur que les autres• La qualité de l’alignement dépend de l’ensemble de séquences (séquences similaires, divergentes, courtes, longues, ...)• Il y a des erreurs systématiques lorsqu’on aligne des séquences dans la twilight zone (20-30% d’identité)

Limites de l’alignement multiple

Briffeuil P. et al. Bioinformatics 4:357-366 (1998)

• Le consensus de plusieurs méthodes augmente la sélectivité

Lambert C. et al. Current Genomics 4:131-146 (2003)

• La combinaison de plusieurs méthodes peut augmenter la précision

Page 30: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Deux séquences

ESyPAliExpert System for Pairwise Alignment

PSI-BLASTEtape 1

Etape 2Ensemble A Ensemble B

PURGE

Etape 3

Multalin T-COFFEE Dialign2ClustalW Match-Box

Extraction des alignements pairés

Page 31: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Extraction des alignements pairés

ESyPAli

Etape 4Attribution d’un

score aux positions alignées

Extraction des positions alignées

Fréquence

Page 32: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

target ...VQADL..IIYLRTSPEVAYERIRQRARSEES..C..VPL..KYLQELHECLUSTALW LGALPEDR..HIDRLAKRQRPGERLDLAMLAAIR..R..VYGLLANTVRYLQDIALIGN2 ...LPGTN..IVLGALPEDRHIDRLAKRQRPGER..L..D............MATCHBOX ...IVLGA..LPEDRHI.....DRLAKRQRPGER..L..DLA...MLAAIRRMULTALIN ...VYVPEPMTYWRVLGASETIANIYTTQHRLDQGEISAGDA..AVVMTSAQPSI-BLAST .....GTN..IVLGALPEDRHIDRLAKRQRPGER.....LDL..AMLAAIRRT-COFFEE ....PGTN..IVLGALPEDRHIDRLAKRQRPGERLDL..AML..AAIRRVYGESyPred LPGTN IVLGALPEDRHIDRLAKRQRPGER L DLA MLAAIRRScore 12333 333333333333444444444444 2 211 2222222

Attribution d’un score aux positions alignées

Séquence 1

L-G: 3L-R: 2L-D: 1

E-D: 4E-E: 1E-A: 1

Page 33: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Extraction des alignements pairés

ESyPAli

Etape 4Attribution d’un

score aux positions alignées

Extraction des positions alignées

Fréquence

Choix de la position ayant le plus haut score comme point

d’ancrage

Elimination des positions

incompatiblesPoints d’ancrage

Construction de l’alignement

consensus final

Etape 5

Page 34: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Alignements incompatibles

A D L I I Y L R T S P E V A Y E

L P G T N I V L G A L P E D R H

1.

2.

Page 35: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Extraction des alignements pairés

ESyPAli

Etape 4Attribution d’un

score aux positions alignées

Extraction des positions alignées

Fréquence

Choix de la position ayant le plus haut score comme point

d’ancrage

Elimination des positions

incompatiblesPoints d’ancrage

Construction de l’alignement

consensus final

Etape 5

Page 36: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Etape 4

Extraction des alignements pairés

Choix de la position ayant le plus haut score comme point

d’ancrage

Elimination des positions

incompatiblesPoints d’ancrage

Attribution d’un score aux positions

alignées

Extraction des positions alignées

Construction de l’alignement

consensus final

Etape 5

Réseauneuronal

ESyPAliNN

Page 37: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Entraînement du réseau neuronal

Entrée

Cachée

Sortie connue

Séquence 1 V

Multalin MultalinI

PSI-BLAST PSI-BLASTT

Dialign2 Dialign2I

ClustalW ClustalWL L

Match-Box Match-BoxI

T-COFFEE T-COFFEEL L

V Structure 1

Yi

Wik

Yk ki

iikk bYWX Entrée

kXk eY

1

1

Sortie

Page 38: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Utilisation du réseau neuronal

Entrée Cachée Sortie

Séquence 1 Y

Multalin MultalinT

PSI-BLAST PSI-BLASTY

Dialign2 Dialign2T

ClustalW ClustalWW W

Match-Box Match-BoxT

T-COFFEE T-COFFEEW W

Y Séquence 1

Page 39: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Résultats de l’évaluation sur 202 alignements pairés

Programme Sensibilité (%) Sélectivité (%)

Alignement de structures 100,0 100,0MULTALIN 25,5 44,0MATCHBOX 27,1 27,8DIALIGN2 33,9 48,1PSIBLAST 35,2 47,8CLUSTALW 35,9 29,2T-COFFEE 37,5 47,4ESyPAli 44,2 36,8ESyPAliNN 46,8 38,9

% identité inférieur à 36 %%ID moyen = 20%

Page 40: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Alignement pairéConclusions

ESyPAli• Combinaison efficace d’alignements

ESyPAliNN• Utilisation de réseaux neuronaux• Alignements de meilleure qualité

Page 41: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

Buts

Développement de ESyPAliNN

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Page 42: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

ESyPred3DExpert System to Predict 3D structures of proteins

C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)

PSI-BLAST, nr (NCBI)

MODELLER v6.2

PDB template

ESyPAliNN Alignement Cible-template

Procheck

Séquence cible

Structure cible prédite

Résultat

Entrée

Page 43: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Qualité de l’étape ESyPAliau concours CASP4

C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)

0

10

20

30

40

50

60

70

80

90

100

T0090

T0092

T0099

T0103

T0111

T0112

T0113

T0117

T0121

T0122

T0123

T0125

T0128

Targets

AL

0 (

in %

of

the

len

gth

)

3. b

Page 44: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Différence moyenne

t-student Différence moyenne

t-student

Couverture (%) 0,581 P< 0,05 1,571 P< 0,05

Positions équivalentes (%) 1,878 P< 0,05 0,643

Résidus correctement alignés (%) 4,632 P< 0,05 4,218 P< 0,05

RMSD (Å) -0,460 P< 0,05 -0,789 P< 0,05

ESyPred3D / 3D-Jigsaw ESyPred3D / Swiss-Model

ESyPred3D EVA

Système d’évaluation continue de serveurs de modélisation par homologie (catégorie CM)

853 modèles de janvier à juin 2003

ESyPred3D , 3D-Jigsaw , Swiss-Model

Page 45: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

ESyPred3DCASP5

CASP5

• ESyPred3D parmi les 10 meilleurs serveurs évalués (sur 55)

• ESyPred3D dans le top 40 (si modélisateurs humains + serveurs (180))

• Améliorer possible de la sélection du template

Page 46: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

ESyPred3DConclusions

• ESyPred3D est un des meilleurs serveurs de modélisation• Performances dues essentiellement à ESyPAliNN

Page 47: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

Buts

Développement de ESyPAli(NN)

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Page 48: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Prédiction (détermination) de structures 3D à l’échelle d’un génome

1) Structure (prédite) accessible• Ingénierie, hypothèses mutations

2) Recherche de sites actifs• Aide à la détermination de fonction

3) Screening (docking) de petites molécules• Recherche de cibles pour antibiotiques

Banque de données structuralesIntérêt

Page 49: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Banque de donnéesQualité des données

Problème définition de la position des codons start des pCDS de Integrated Genomics Inc.

----> Correction: consortium de spécialistes de Brucella

Fonction prédite par similarité: BLAST/Swiss-Prot et hmmer/PfamLocalisation cellulaire: PSORTPrédiction des structures secondaires: PSI-PRED2

Application de ESyPred3D aux protéines déduites du génome de Brucella melitensis

http://serine.urbm.fundp.ac.be/~seqbruce/GENOMES

Page 50: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

• Centraliser les informations à propos du génome de Brucella

• Fournir des prédictions pour faciliter l’annotation et la rendre

plus fiable

• Corriger les informations de la base de données suivant les

modifications des utilisateurs

• Effectuer des recherches avancées

• Aider à coordonner des corrections à l’échelle génomique

• Intégrer des données biologiques pertinentes

Objectifs atteints de la banque de données

Page 51: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Introduction

Buts

Développement de ESyPAli(NN)

Développement de ESyPred3D

Base de données Brucella melitensis

Conclusions / perspectives

Plan

Page 52: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Conclusion

• Développement d’une méthode fiable d’alignement pairé de séquences

• Utilisation de ce nouveau programme dans une méthode automatique de modélisation par homologie

• Développement d’une banque de données structurales et fonctionnelles

Page 53: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Alignement de séquences• Développer une méthode d’alignement multiple

Modélisation par homologie• Amélioration de l’identification du template

Base de données

• Docking de petites molécules

• Prédiction d’interactions protéine-protéine

Perspectives

Page 54: Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Remerciements

Eric Depiereux

Guy BaudouxMonique Nadia

JohanKatalin et BernardNicolas et Isabelle

Marc Marti-Renom (UCSF)Volker Eirich (Columbia)Ernest Feytmans (SIB)

Benjamin

URBM Aïko et Etienne Xavier Jean-Jacques Jean VDH

Labo CMS

Labo CTA

Parents