Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions
-
Upload
amity-england -
Category
Documents
-
view
21 -
download
4
description
Transcript of Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions
Bioinformatique fonctionnelle des protéines
et analyse structurale de réseaux d'interactions
Octobre 2008 Bernard Jacq
intégration
MoléculeFonction biochimique
ou moléculaire
Réseau d’interactionsentre molécules
Fonction cellulaire : voie,cascade, processus
Cellules
Tissus, organes
Organismes
Populations
Régulations physiologiques
Développement, reproduction,vieillissement
Relations inter-espèces, Équilibres écologiques
Migrations,Communications
Deuxième partie
Les méthodes de prédiction fonctionnelle existantes
• Sont souvent basées sur des inférences utilisant des données structurales (alignments de séquence, fusions de domaines, proximités géniques, profils phylogénétiques)• Similarité de séquence/structure n’est pas toujours synonyme de similarité de fonction• Ne peuvent souvent être appliquées qu’à un sous-ensemble de protéines• Sont souvent dépendantes de la qualité de l’annotation• Problème du transfert automatique d’annotations (catastrophes transitives)• Nécessitent la connaissance de la séquence génomique• Ne donnent pas accès à des prédictions au niveau cellulaire
• NB : Une prédiction doit toujours être vérifiée expérimentalement
Les approches de la fonction à grande échelle (suite) :protéome et interactome
Etude à grande échelle des complexes protéiques
Stratégie
• PCR of the TAP cassette• Transformation of yeast cells• Selection for positive clones• Large scale cultivation• Cell lysis, Tandem affinity purification• 1D SDS-PAGE• MALDI-TOF protein identification• Bioinformatic interpretation data
ANALYSE SYSTEMATIQUE DES COMPLEXES PROTEIQUES CHEZ LA LEVURE
Gavin et al. (2002) Nature, 415:141-
147
• 589 protéines utilisées comme entrées 78 % ont des partenaires 232 complexes identifiés
• 304 protéines sans annotation fonctionnelle dans YPD proposition de rôle pour 231 d’entre elles 76 %
• 113 protéines de fonction connue se voient attribuer une nouvelle fonction
Quelques résultats
Un RESEAU DE COMPLEXES PROTEIQUES
Rouge : Cell cycleVert foncé : SignallingBleu foncé : Transcription, DNA maintenance, chromatin
structureRose : Protein and RNA transportOrange : RNA metabolismVert clair : Protein synthesis and turnoverMarron : Cell polarity and structureViolet: Intermediate and energy metabolismBleu clair : Membrane biogenesis and traffic
ANALYSE STATISTIQUE DES PROTEINES ET DES COMPLEXES
L’interactomeListe de toutes les interactions entre toutes les macromolécules d’une cellule, d’un type cellulaire, d’un organisme
Employé par défaut pour décrire l ’ensemble des interactions protéine-protéine
L’interactome (motivation)
• Les protéines n’agissent pas seules et les processus cellulaires reposent dans leur grande majorité sur des interactions spécifiques entre protéines
• Après avoir établi la liste des composants protéiques individuels (d’après les résultats du séquençage), une tâche essentielle est maintenant de déchiffrer la sructure, la dynamique, l’évolution des réseaux d’interaction
• Identifier quels sont les partenaires connus d’une protéine inconnue pourra nous aider à en comprendre la fonction
Genome
Transcriptome
Interactome
Proteome
Les Interactions :quelques définitions
Il y a interaction moléculaire entre le gène A et le gène B si le gène A (ou son ARNm ou son produit) interagit directement au niveau moléculaire avec le gène B (ou son ARNm ou son produit) --> Il existe un contact physique entre macromolécules.
La majorité des interactions décrites sont de 3 types: Protéine-ADN Protéine-ARN Protéine-Protéine
Interactions moléculaires
Les interactions peuvent être orientées (Protéine-ADN, Protéine-ARN) ou non orientées (Protéine-Protéine).
Interactions et réseaux Un ensemble d’interactions forme un réseau
d’interactions Un réseau peut illustrer les relation fonctionnelles
existant entre gènes/protéines Un réseau peut être représenté par un graphe orienté ou
non
G
B
A
C
D
E
F
•A-->B:interaction directe
• A-->C-->D-->F-->G:Interactions indirectes
• En bleu : le réseau
Les Interactions :quelques définitions,
suite
Interactions génétiques
• Interactions indirectes entre gènes/protéines (mais aussi directes) • Analyse et mise en évidence au niveau du phénotype de l’animal
Quelques Propriétés des interactions
• Spécifiques • Dynamiques • Dépendantes des caractéristiques intrinsèques de la protéine (modularité structurale, temps de 1/2 vie, localisation…)• Nombre ?• Eléments de base des réseaux de régulation
Les Interactions :quelques définitions,
fin
Tucker, Gera, and Uetz
TCB, 2001
CARTE D’INTERACTIONS Protéine-ProtéineLEVURE, 1200 protéines
CARTE D’INTERACTIONS PP LEVURE 1548 protéines, 2358 interactions
Gris : Chromatine structureBleu : Membrane fusionVert : Cell structureJaune : Lipid metabolismRouge : Cytokinesis Schikowski et al. (2000), Nat.Biotech., 18, 1257-1261
Les réseaux protéines-ADN
Crédit: N. Luscombe
Comment évolue la dynamique des réseaux P-ADN en fonction des conditions physiologiques ?
Gène 1 Gène 2 Gène 3
.....
Facteurs deTranscription
Un trait liant 2 pointsSur la circonférence
Représente une interactionProtéine-ADN
Utilisation du réseau dans differentes Conditions physiologiques
Cycle cellulaire Sporulation Diauxic shift Réparation du DNA Stress
Crédit: N. Luscombe
On dispose maintenant, grâce aux approches à grande échelle (double hybride, Chromatin IP) de
milliers d’interactions binaires entre protéines ou entre protéines et ADN
Que faire avec cette masse de données ??
• décrire les caractéristiques de l'organisation du protéome/interactome= statistique, approche descriptive
• prédire certaines « règles » à partir de l'observation du réseau = inférence, approche prédictive
Schwikowski et al. (2000), Nat.Biotech., 18, 1257-1261
Comptage des interactions entre groupes fonctionnels
Analyse fonctionnelle du réseau
Un réseau PPI de levure
Analyse structurale et fonctionnelle de réseaux d’interaction
Quelles caractéristiques structurales peut-on mettre en évidence ?
Deletion phenotype:Red = lethalRed = lethalGreen = non-lethalGreen = non-lethalOrange = slow growthOrange = slow growthYellow = unknownYellow = unknown
Ce réseau représente un type d’organisation dit « scale-free »
La plupart des nœuds (protéines) ont peu d’interactions
Un petit nombre de nœuds (hubs) sont connectés à un grand nombre de noeuds
Un réseau PPI de levure
Analyse structurale et fonctionnelle de réseaux d’interaction
Des mesures topologiques pour caractériser un réseau
Degré de connectivité Longueur de chemin
Coefficient de clusterisation
Crédit: N. luscombe
Analyse structurale et fonctionnelle de réseaux d’interaction
Méthodes d’analyse de graphes d’interactions
protéine-protéine
Comment identifier à l’intérieur du graphe des groupes de protéines reliées fonctionnellement ?
• Approches :- distance dans le graphe- connectivité des protéines- densité
Dense (clique)Peu dense
Crédit: C. Herrmann
Caractéristiques statistiques
• connectivité k d'une protéine = nombre de voisins
k = 4k = 4
kin = 1kout = 3
kin = 1kout = 3
Crédit: C. Herrmann
• si le réseau est dirigé (réseaux protéine-ADN) , on distingue kin et kout
• distribution de connectivité:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
0.2
2
20
200
2000
levure S. cerevisae
connectivité k
nom
bre
de g
ènes
beaucoup de protéinesfaiblement connectées
quelques protéinesfortement connectées = « hub »
Crédit: C. Herrmann
Caractéristiques statistiques
Interprétation biologique (1/3)
• particularité des protéines ayant un grand nombre d'interacteurs – protéines structurantes
ex.: PBS2 chez S. cerevisae, k=15protéine structurante (« échafaudage ») pour le complexe MAP-kinase
– protéines létalesex.: Jeong et al. ont montré une corrélation entre la connectivité d'une protéine et son caractère létal chez la levure« plus une protéine a de partenaires, plus elle est essentielle »
Crédit: C. Herrmann
Interprétation biologique (2/3)
• Si des protéines ont une grande densité de connections ...
... c'est qu'elles forment un module fonctionnel
• 2 type de modules fonctionnels
• les complexes protéiques (interactions simultanées)
• les voies de signalisation/voies métaboliques (interactions consécutives)
Crédit: C. Herrmann
Interprétation biologique (3/3)
module impliquédans la régulation du cycle cellulaire
module impliquédans la régulation du cycle cellulaire
voie de transduction du signal déclenchéepar la phéromone
voie de transduction du signal déclenchéepar la phéromone
[Spirin & Mirny, PNAS 2003]
levure
Crédit: C. Herrmann
Prédire quoi ?
• on dispose d'informations encore très partielles sur le rôle des protéines
Nombre de gènes
estimés (Ensembl)Swissprot total
Swissprot annoté
Gene Ontology
Gene Ontology (annotations
manuelles)
homme 24195 13360 7454 9387
souris 28055 11460 2616 4585
drosophile 13525 2660 1224 6715
les réseaux d'interactions sont un moyenprivilégié pour inférer des fonctions
[date: 9/11/2004]
Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ?
Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ?
Crédit: C. Herrmann
Exemple de prédiction à partir d’un réseau d'interaction PP levure[Schwikowski et al., Nature Biotech 2000]
Observation:les protéines de mêmefonction ont tendance à être en interaction directeles unes avec les autres
Observation:les protéines de mêmefonction ont tendance à être en interaction directeles unes avec les autres
Règle inférée:on peut déduire la fonctiond'une protéine à partir desfonctions de ses voisines
Règle inférée:on peut déduire la fonctiond'une protéine à partir desfonctions de ses voisines
sourced'erreurs
Crédit: C. Herrmann
Comment peut-on systématiser les prédictions fonctionnelles faites à partir de réseaux d’interactions ?
Utilisation de la clusterisation fonctionnelleExemple de la méthode Prodistin (PROtein DIStance based on INteractions
Brun et al., Genome Biology(2003) R, R6
Tucker, Gera and Uetz
Trends in Cell Biology, March 2001
AB
D
C
What can be inferred about the functional relationships between A and B on the one hand and C and D on the other ?
C and D interact directly and share several common interactors, whereas A and B do not
It is likely that the network (cellular) functions of C and D are related whereas that of proteins A and B are not
Principles of our functional classification method (ProDistIn)
• Etablish a functional distance between proteins using lists of common and specific interactors
• Calculate the distance for all possible pairs of proteins
• Perform a clusterisation (NJ)
• Visualisation of result as a tree (dendrogram)
… Do not compare proteins themselves but…
…compare the lists of their interactors…
1- Czekanovski-Dice distance for protein pairs
e
c a
b
fgh
Y
d
XD(X, Y) =
X spec + Y spec
(X U Y) + (X Y)
1 + 4
8 + 3= 0.45 =
-T
0.84-Z
0.660.6-Y
0.770.50.45-X
TZYX
2- distance table for all possible pairs
ijklm
Z
T
nop
In order to make a functional comparison between N proteins:
- calculate D for all pairwise comparisons of proteins
- fill in a distance matrix
X
YZ
T
3- clusterisation and tree drawing
Apply a clusterisation method (e.g. NJ) and
build a functional similarity tree
ProDistIn : the 3 first steps
Test on the yeast proteome
• A total of 2946 direct protein-protein interactions involving 2143 proteins
• Only proteins with at least 3 interactors are considered further
• =>Classification of 602 yeast proteins (10% of the proteome)
• Double-hybrid screens (Fromont-Racine et al., Uetz et al., Ito et al.)
• literature (via MIPS and YPD)
• Information Extraction on Medline yeast abstracts
Data from :
RESULT :
FUNCTIONAL
PROXIMITY
TREE
FOR 602
YEAST
PROTEINS
Il existe maintenant des bases de données dédiées aux interactions
• Les interactions sont devenues en quelques années des données essentielles pour analyser et comprendre les fonctions des gènes et protéines
• Pour chaque organisme et dans chaque type cellulaire, il existe probablement des dizaines, centaines de milliers voire millions d’interactions moléculaires différentes
• Il est nécessaire de stocker informatiquement les données relatives aux interactions
Exemple des bases DIP et BIND …
La biologie à grande échelle conduit à un changement de vision
de la fonction des protéines
Vision classique
La fonction de la protéine A est définie par
son action de transformation du substrat (S) en produit (P)
S (Substrat)
P (Produit)
A
Nouvelle vision
A
La fonction de la protéine A est définie par
Le contexte des ses interactions avec d ’autres produits dans la
cellule
C ’EST FINI !
Le double-hybride dans la levure
Uetz et al. (2000) Nature, 403:623-627 Ito et al. (2000) PNAS, 97:1143-1147
Schächter (2002)
Le double-hybride dans la levure :bas-débit et haut-débit
Kumar and Snyder (2001)
Le double-hybride dans la levure :automatisation
PRINCIPAUX CRIBLES DOUBLE-HYBRIDE A GRANDE ECHELLE
Schachter (2002) DDT,7:S48-S54
Approche Spectrométrie de masse :
+ On peut détecter les interactions du signalling- Impératif de stabilité, solubilité, temps, concentration, taille- Approche chromosomique : pb tag des gènes essentiels
Avantages et inconvénients des deux méthodes
Approche double-hybride :
+ Mise en évidence d’interactions binaires carte d’interactions+ Automatisable- Nombreux faux positifs des appâts semblent interagir avec beaucoup de protéines car ils sont auto-activateurs, pb des proies collantes- Nombreux faux-négatifs repliement incorrect, localisation subcellulaire incorrecte, absence de modification post-traductionnelle- Ne met en évidence que les interactions « durables »