Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008...

22
Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologique 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars 2002 – Bioinformatics Étude des classes d’atomes des Étude des classes d’atomes des protéines pour la prédiction protéines pour la prédiction d’interactions moléculaires d’interactions moléculaires

Transcript of Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008...

Page 1: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Présenté par Mathieu Almeida, Amine Ghozlane

Analyses de Données Biologiques05 février 2008

Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S.

Mars 2002 – Bioinformatics

Étude des classes d’atomes des protéines pour la Étude des classes d’atomes des protéines pour la prédiction d’interactions moléculaires prédiction d’interactions moléculaires

Page 2: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Introduction• Interactions moléculaires des protéines

– Nombreuses cibles possibles • Ions, petites molécules, protéines, ADN, ARN

– Conception d’un médicament

Prédiction du ligandIdentification du ligand

• Criblage virtuel Docking

• RMN• Cristallographie Rayon x

Page 3: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Introduction• Interactions moléculaires des protéines

– Nombreuses cibles possibles • Ions, petites molécules, protéines, ADN, ARN

– Conception d’un médicament

Prédiction du ligandIdentification du ligand

• Criblage virtuel Docking

• RMN• Cristallographie Rayon x

On a besoin de comprendre comment s’effectue la liaison

Page 4: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

• Identification des interactionsIntroduction

ModélisationMoléculaire

Reconnaissance statistique des

modèles

Analyse d’une base de donnée

Identification des interactions

Évaluation des champs de force(GRID, AQUARIUS)

Évaluation statistique des liaisons d’un groupement(SuperStar, X-Site)

Utilisation de classes d’atomes

Amélioration des classifications des atomes intervenant dans les interactions protéiques

Page 5: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Construction d’une librairie d’interaction12880 fichiers de coordonnées

Interaction protéine -ligand930 pairs d’interaction protéine

– protéine non homologues

Classification en 24 classes des atomes des protéines impliqués

dans ces liaisons

Atomes impliqués dans les interactions

Li A.J. et Nussinov R. 1998

Classes comportant les même types

d’atomes

Page 6: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Construction d’une librairie d’interaction

Hypothèse : Existence d’un groupement plus naturel des atomes pour une meilleure prédiction

Estimation de l’erreur :

classe Oxygèneclasse Carbone

Page 7: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

I - Classification des ligands en 30 fragments

• 9 classes Azotes• 9 classes Oxygène• 10 classes Carbones• 2 classes Sulfures

Estimation de la distribution des atomes de protéines autour de ligands

Page 8: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

autres atomes du ligand liés à M

M atome principal du ligandCentre du repère x,y,z

T atome de la classe Ck

Distance entre l’atome M du fragment et l’atome de la classe Ck

angles α, г

Estimation de la distribution des atomes de protéines autour de ligands

II - Disposition des atomes de protéines dans un systèmes de coordonnée centré sur F

x = {r, α, г}

Page 9: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Estimation de la densité de probabilité d’une interaction

III – Estimation du nombre optimal de mélanges gaussiens

Utilisation de plusieurs lois normales

Page 10: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Estimation de la densité de probabilité d’une interaction

Distribution optimal des intéractions dès le

mélange de 3 distributions gaussiennes

Dispositions des atomes d’oxygène

carboxylé de la classe 23 autour d’un

atome d’Azote.

III – Estimation du nombre optimal de mélanges gaussiens

Page 11: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Estimation de la densité de probabilité d’une interaction

IV - Densité de probabilité d’interaction entre Ck et F

Mfk = nombre de composante du mélange Gaussien

βj = distribution du mélange Gaussien

Pf(x|Ck, θj) = Fonction de distribution Gaussienne

• Maximisation de la log-vraisemblance de la densité de probabilité par l’algorithme EM

Lf(Ck, Θ) = Estimation du paramètre θj de la classe

Page 12: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Calcul de la matrice de dissimilarité des classes d’atomes de protéine

Ecart entre la densité de probabilité que F interagisse avec une atome de la classe Ci ou Cj

(distance de Jeffrey)

distances Euclidiennes entre les classes d’atomes Ck

But:Estimer la différence d’association aux fragments de ligand entre les classes d’atome Ck.

Page 13: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

But : Visualiser la différence d’association aux fragments des atomes des protéines (Ck)

Hypothèse: Les classes d’atomes de protéine 4, 5, 6 et 8, 10 peuvent être regroupées.

Classification hiérarchique des classes d’atomes protéiques

Coefficient cophénétique : 0.85 ≥ 0.8

r²= 72% de la variance de la matrice de dissimilarité

Validation des résultats

BootstrapJackknife

MANOVA

Qualité des classes

Coefficent decorrélation

cophénétique

Estimation de la précision

Dendrogramme construit par KITCHPackage PHYLIP (Felsenstein - 1985)

Estimation de la cohérence interne et de la stabilité des classes

Page 14: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Package PHYLIP (Felsenstein - 1985)

Classification hiérarchique des classes d’atomes protéiques

Classe des Carbones

Classe des Sulfures

Classe des Oxygènes

Classe des Azotes

Page 15: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Package PHYLIP (Felsenstein - 1985)

Classification hiérarchique des classes d’atomes protéiques

Forte proximité entre les classes d’atomes de carbone 4-5-6 (D4-5=19,6,

D5-6=23.0) et 7-8 (D7-8=14,4)

Forte dissimilarité entre les classes d’atomes 8-10

Proposition des auteurs :– fusion des classes 7-8 , 4-5 et 8-10

Page 16: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Distribution de la dissimilarité des classes d’atomes des protéines

Pas de stress indiqué

But : Visualiser la dissimilarité au sein des classes d’atomes de protéine par MDS

Classe des Carbones

Classe des oxygènes et azotes

Fort regroupement de la classe carbone– Redondances de cette classe

Page 17: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Discussion - Conclusion• Réalisation d’une matrice des dissimilarités entre les classes d’atomes grâce aux

mélanges gaussiens Estimation des distances classes d’atomes

+ Informe bien sur la dissimilarité des classes d’atome- Contradiction sur les interprétations des distances lié à son estimation globale

• Étude des interactions atomes – ligands par Reconnaissance statistique des modèles

+ Pas limitation lié au temps calcul, ni d’analyse de base de donnée+ Permet de considérer les interactions protéine – protéine- Interprétation complexe : considère simultanément plusieurs caractéristiques

- Méthode prédisant encore mal les interactions de la classe Carbone

• Visualisation des dissimilarités par Classification Hiérarchique et MDS Mise en évidence des regroupements des classes Redondance de la classe Carbone : fusion des classes d’atomes 4-5, 7-8 et 8-10

+ Mise en évidence du regroupement sur des distances- Classe 8-10 : Problème de la classification hiérarchique

Page 18: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Perspectives• Étudier les 30 matrices individuellement

nature environnemental (complexe avec le solvant) et chimique des dissimilarités

• Déterminer si la nouvelle classification proposé par les auteurs améliore les prédictions d’interaction

• Réalisation d’un logiciel de prédiction des interactions protéine - ligand et protéine - protéine

Page 19: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Annexes

Page 20: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

Banque de donnée PDB

Informations contenu dans les structures 3D est la clé de la compréhension des fonctions protéiques au niveau atomique

Page 21: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

MDL

• Minimum description length

• Dimension du modèle de mélange

Page 22: Présenté par Mathieu Almeida, Amine Ghozlane Analyses de Données Biologiques 05 février 2008 Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars.

ERROR

Erreur importante pour les classes carbones