Post on 30-Dec-2015
description
Bioinformatique fonctionnelle des protéines
Bernard Jacq, IBDML
intégration
MoléculeFonction biochimique
ou moléculaire
Réseau d’interactionsentre molécules
Fonction cellulaire : voie,cascade, processus
Cellules
Tissus, organes
Organismes
Populations
Régulations physiologiques
Développement, reproduction,vieillissement
Relations inter-espèces, Équilibres écologiques
Migrations,Communications
Mastère BBSG-M2 Marseille 2007-2008Mastère BBSG-M2 Marseille 2007-2008
Des constats (1/2)
• Le fait de disposer de plusieurs dizaines de séquences génomiques donne (potentiellement) accès aux protéomes complets de nombreuses espèces
• Des comparaisons de séquences de protéomes complets sont maintenant réalisables permettant de commencer à classer structuralement et fonctionnellement les protéines du monde vivant
Des constats (2/2)
• Le fossé s’accroit entre le nombre de séquences protéiques déterminées, le nombre de structures 3D disponibles et le nombre de fonctions expérimentalement connues pour ces séquences
• Il y a un besoin de plus en plus important pour prédire des structures ou des fonctions pour des protéines totalement ou partiellement inconnues
QU’APPELLE T’ON LA FONCTION D’ UNE PROTEINE ?
• La structure d ’une protéine correspond à la représentation d ’un objet physique
• Même s ’il est trop petit pour être directement visible, nous avons une idée précise de sa constitution et de sa forme (structures 1D, 2D, 3D)
• La (les) fonction(s) d ’une protéine correspondent à des propriétés effectrices de la structure
LA FONCTION BIOCHIMIQUE Activité moléculaire du produit d’un gène
Exemples : ATPase, protéine affine de l’ADN…
LA FONCTION CELLULAIREProcessus cellulaire dans lequel le produit du gène intervient intégration de la fonction biochimique au sein d’un processus
Exemples : Synthèse de l’ADN, métabolisme des nucléotides, traffic des protéines .....
On peut distinguer différents niveaux de fonction
Fonctions biochimiques : Facteur de transcription Protéine affine de l’ADN
Fonctions cellulaires : Transcription dépendante de l’ARN polymérase II
Structure de la chromatine/ des chromosomes
Métabolisme des carbohydrates
EXEMPLE : LES FONCTIONS DE LA PROTEINE RAP1 De LEVURE
Niveaux d’intégration des fonctions
Niveaux d’organisationNiveaux fonctionnels
intégration
MoléculeFonction biochimique
ou moléculaire
Réseau d’interactionsentre molécules
Fonction cellulaire : voie,cascade, processus
Cellules
Tissus, organes
Organismes
Populations
Régulations physiologiques
Développement, reproduction,vieillissement
Relations inter-espèces, Équilibres écologiques
Migrations,Communications
La fonction : une notion complexe
• Une fonction se définit par rapport à un niveau structural
• Une protéine peut avoir plusieurs fonctions, au sein d ’un même niveau et/ou entre niveaux différents
• Comment représenter informatiquement la notion de fonction ?
• la nécessité d’un language commun : l’initiative GO (Gene Ontology)
Comment accéder à la fonction d’un gène/protéine ?
1- Approche « classique »
Phénotype mutant
Séquençage,structure
Tests fonctionnels
Clonage du gène
Fonction biochimique,Fonction cellulaire(dans un contexte peu connu)
Fonction biochimique inférée
DU GENE…
Analyse génétique
Biologie moléculaire
Biologie moléculaire,Bioinformatique
Analyses génétique, biochimique
Biologie moléculaire
Comment accéder à la fonction d’un gène/protéine ?
2- Approche génomique
Les gènes/protéines sont les composants élémentaires d’un système
dont on étudie les variations
Fonction cellulaireet niveaux d’intégrationsupérieurs de la fonction
… A L’ANALYSE DES SYSTEMES
Génomique et protéomiquefonctionnell
es, Bioinformati
que
L’approche change, le raisonnement du biologiste aussi…
L’utilisation de données “complètes” change tout
En biologie moléculaire classique, l’ingéniosité consiste à essayer d ’apporter une réponse fonctionnelle pour un gène en ignorant presque tous les autres (99,9% des gènes)
En génomique, l’ingéniosité est de découvrir ce qui devient possible quand vous « voyez » tous les gènes
Il faut changer complètement de mode de raisonnement ...
Passer du réductionisme à l’analyse de systèmes
• En biologie moléculaire : disséquer un phénomène complexe en ses plus petits éléments et caractériser chacun d’eux.Problème: Il est très difficile d’essayer de mettre ensuite les pièces du puzzle ensemble: Soient A, B, C : A+B+C = ?
• En génomique : Utiliser la cellule come un tube à essais dont l’ensemble des composants serait “visible”. Il devient possible de “voir” A+B+C (+D+E+…) travaillant ensemble.On étudie comment tous les composants élémentaires travaillent ensemble en identifiant des groupes fonctionnels non initialement connus.On étudie alors le comportement du système.
• Plusieurs approches importantes en prédictions structurales et fonctionnelles
– prédiction de la séquence protéique à partir de l’ADN génomique (identification start/stop de transcription et de traduction, prédiction et identification jonctions exons-introns)
– prédiction de la structure 2D ou 3D à partir des séquences – prédiction des fonctions protéiques à partir des séquences– prédiction de la fonction protéique à partir de la structure– Nouvelles méthodes de prédiction fonctionnelle fournies par la génomique
Les prédictions bioinformatiques
La méthode de prédiction de fonction « classique » utilisant les données de séquence
Crédit 3 diapos: Christine Brun
Méthodes de prédiction fonctionnelle existantes (I)
Inférence par homologie
1- recherche de similitudes• Séquences (Blast)• Structures (Prosite, Prodom, PDB)
2- utilisation des annotations des protéines similaires
• Texte libre• EC code (Enzyme Commission) (1-
oxydoreductase; 2- transferase; 3- hydrolase; 4- lyases; 5- isomerase; 6- ligases)
• Mots clefs (classification, ontologies)
• Renseigne sur les fonctions biochimiques et moléculaires• Dépend de la qualité des annotations• Dépend de l’étendue des connaissances• Ne renseigne pas sur le contexte et les fonctions cellulaires
L’inférence de fonction par homologie de séquence ou de
structure
Quand l’inférence de fonction par homologie ne suffit pas…
Une variation de séquence très subtile peut conduire à une variation de fonction importante (exemple: neurotactine vs. acetylcholinesterase)
Le domaine cholinesterase
de la neurotactine de Drosophile
a des propriétés
d’adhésion et non plus d’activité
cholinestérase
Darboux et al. (1996), EMBO J, 15: 4835-43
Mutation d ’un acide aminé de la triade catalytique
Quand l’inférence de fonction par homologie ne suffit pas…
Une variation de séquence très subtile peut conduire à une variation de fonction importante (exemple: neurotactine vs. acetylcholinesterase)
Des protéines ne partageant aucune similarité de séquence peuvent avoir des structures 3D similaires (exemple: le domaine de fixation à l’ADN de EBNA1 vs. E2)
Exemple :EBNA1 et
E2
Bochkarev et al. (1995) Cell 83: 39-46
Des protéines dont la structure primaire est différente peuvent avoir des structures 3D identiques
Quelles informations, apportées par la génomique, peuvent être
utilisées pour la mise au point de méthodes de prédiction
fonctionnelle ?
Les variations de séquences entre organismes Les séquences regulatrices près des gènes Le contenu en gènes d’un organisme La variation du contenu en gènes entre organismes La variation de l’ordre des gènes entre organismes La variation d’organisation des gènes entre organismes
Méthodes de prédiction fonctionnelle existantes II
Inférences par corrélation
La variation d’organisation des gènes entre organismes
Méthode de la pierre de Rosette (Marcotte et al. (1999), Science 285, 751-753)
La variation de l’ordre des gènes entre organismes Méthode des gènes voisins (Dandekar et al. (1998)
TIBS 23, 324-328; Overbeek et al. (1999) PNAS 96, 2896-2901)
La variation du contenu en gènes entre organismes Méthode des profils phylogénétiques (Pellegrini
et al. (1999) PNAS 96,4285-4288)
La méthode de la « Pierre de Rosette »
Principe : utilise la variation d’organisation des gènes entre organismes et la modularité des protéines
Si dans un génome 1, on trouve un gène A composé d’un module A et un gène B composé d’un module B
Si dans un génome 2, le module A et le module B sont associés pour former un seul gène C contenant A+B
Alors A et B pourraient être des gènes/protéines fonctionnellement reliés.
Marcotte et al., Science 285, 751-753 (1999)
Principe : utiliser la variation de l’ordre des gènes ou des groupes de gènes sur les chromosomes
Dandekar et al. TIBS 1998Overbeek et al. PNAS 1999
AB
C
Génome 1
A
CB
Génome 2
AB
C
Génome 3
ABC
Génome 4
Les gènes & sont fonctionnellement reliésA B
La méthode des gènes voisins
DD D
D
BB, Borrelia burgdorferi; DR, Deinococcus radiodurans; CA, Clostridium acetobutylicum; BS, Bacillus subtilis; EF, Enterococcus faecalis; MP, Mycoplasma pneumoniae; MG, Mycoplasma genitalium; ML, Mycobacterium leprae; MT, Mycobacterium tuberculosis; CJ, Campylobacter jejuni; TP, Treponema pallidum; HP, Helicobacter pylori; ST, Streptococcus pyogenes; PN, Streptococcus pneumoniae.
Exemple : Groupes fonctionnels dans la glycolyse
Overbeek et al. (1999) PNAS 96, 2896-2901
Pellegrini et al. PNAS 96, 4285-4288 (1999)
La méthode des profils
phylogénétiques
Principe : utiliser les corrélations + ou - de variation du contenu en gènes entre organismes
Renseigne sur l’existence probable de liens fonctionnels entre protéines
Ces liens fonctionnels suggèrent :
que les protéines participent à une même voie, un même processus cellulaire fonction cellulaire parfois qu’il existe des interactions directes entre protéines (interaction protéine-protéine)
L’inférence de fonction par corrélation : bilan