Bioinformatique fonctionnelle des protéines

33
Bioinformatique fonctionnelle des protéines Bernard Jacq, IBDML intégration Molécule Fonction biochimique ou moléculaire Réseau d’interactions entre molécules Fonction cellulaire : voie, cascade, processus Cellules Tissus, organes Organismes Populations Régulations physiologiques Développement, reproduction, vieillissement Relations inter-espèces, Équilibres écologiques Migrations, Communications Mastère BBSG-M2 Marseille 2007-2008

description

intégration. Relations inter-espèces, Équilibres écologiques. Populations. Développement, reproduction, vieillissement. Organismes. Régulations physiologiques. Tissus, organes. Migrations, Communications. Cellules. Réseau d’interactions entre molécules. Fonction cellulaire : voie, - PowerPoint PPT Presentation

Transcript of Bioinformatique fonctionnelle des protéines

Bioinformatique fonctionnelle des protéines

Bernard Jacq, IBDML

intégration

MoléculeFonction biochimique

ou moléculaire

Réseau d’interactionsentre molécules

Fonction cellulaire : voie,cascade, processus

Cellules

Tissus, organes

Organismes

Populations

Régulations physiologiques

Développement, reproduction,vieillissement

Relations inter-espèces, Équilibres écologiques

Migrations,Communications

Mastère BBSG-M2 Marseille 2007-2008Mastère BBSG-M2 Marseille 2007-2008

Des constats (1/2)

• Le fait de disposer de plusieurs dizaines de séquences génomiques donne (potentiellement) accès aux protéomes complets de nombreuses espèces

• Des comparaisons de séquences de protéomes complets sont maintenant réalisables permettant de commencer à classer structuralement et fonctionnellement les protéines du monde vivant

Des constats (2/2)

• Le fossé s’accroit entre le nombre de séquences protéiques déterminées, le nombre de structures 3D disponibles et le nombre de fonctions expérimentalement connues pour ces séquences

• Il y a un besoin de plus en plus important pour prédire des structures ou des fonctions pour des protéines totalement ou partiellement inconnues

QU’APPELLE T’ON LA FONCTION D’ UNE PROTEINE ?

• La structure d ’une protéine correspond à la représentation d ’un objet physique

• Même s ’il est trop petit pour être directement visible, nous avons une idée précise de sa constitution et de sa forme (structures 1D, 2D, 3D)

• La (les) fonction(s) d ’une protéine correspondent à des propriétés effectrices de la structure

LA FONCTION BIOCHIMIQUE Activité moléculaire du produit d’un gène

Exemples : ATPase, protéine affine de l’ADN…

LA FONCTION CELLULAIREProcessus cellulaire dans lequel le produit du gène intervient intégration de la fonction biochimique au sein d’un processus

Exemples : Synthèse de l’ADN, métabolisme des nucléotides, traffic des protéines .....

On peut distinguer différents niveaux de fonction

Fonctions biochimiques : Facteur de transcription Protéine affine de l’ADN

Fonctions cellulaires : Transcription dépendante de l’ARN polymérase II

Structure de la chromatine/ des chromosomes

Métabolisme des carbohydrates

EXEMPLE : LES FONCTIONS DE LA PROTEINE RAP1 De LEVURE

Niveaux d’intégration des fonctions

Niveaux d’organisationNiveaux fonctionnels

intégration

MoléculeFonction biochimique

ou moléculaire

Réseau d’interactionsentre molécules

Fonction cellulaire : voie,cascade, processus

Cellules

Tissus, organes

Organismes

Populations

Régulations physiologiques

Développement, reproduction,vieillissement

Relations inter-espèces, Équilibres écologiques

Migrations,Communications

La fonction : une notion complexe

• Une fonction se définit par rapport à un niveau structural

• Une protéine peut avoir plusieurs fonctions, au sein d ’un même niveau et/ou entre niveaux différents

• Comment représenter informatiquement la notion de fonction ?

• la nécessité d’un language commun : l’initiative GO (Gene Ontology)

Comment accéder à la fonction d’un gène/protéine ?

1- Approche « classique »

Phénotype mutant

Séquençage,structure

Tests fonctionnels

Clonage du gène

Fonction biochimique,Fonction cellulaire(dans un contexte peu connu)

Fonction biochimique inférée

DU GENE…

Analyse génétique

Biologie moléculaire

Biologie moléculaire,Bioinformatique

Analyses génétique, biochimique

Biologie moléculaire

Comment accéder à la fonction d’un gène/protéine ?

2- Approche génomique

Les gènes/protéines sont les composants élémentaires d’un système

dont on étudie les variations

Fonction cellulaireet niveaux d’intégrationsupérieurs de la fonction

… A L’ANALYSE DES SYSTEMES

Génomique et protéomiquefonctionnell

es, Bioinformati

que

L’approche change, le raisonnement du biologiste aussi…

L’utilisation de données “complètes” change tout

En biologie moléculaire classique, l’ingéniosité consiste à essayer d ’apporter une réponse fonctionnelle pour un gène en ignorant presque tous les autres (99,9% des gènes)

En génomique, l’ingéniosité est de découvrir ce qui devient possible quand vous « voyez » tous les gènes

Il faut changer complètement de mode de raisonnement ...

Passer du réductionisme à l’analyse de systèmes

• En biologie moléculaire : disséquer un phénomène complexe en ses plus petits éléments et caractériser chacun d’eux.Problème: Il est très difficile d’essayer de mettre ensuite les pièces du puzzle ensemble: Soient A, B, C : A+B+C = ?

• En génomique : Utiliser la cellule come un tube à essais dont l’ensemble des composants serait “visible”. Il devient possible de “voir” A+B+C (+D+E+…) travaillant ensemble.On étudie comment tous les composants élémentaires travaillent ensemble en identifiant des groupes fonctionnels non initialement connus.On étudie alors le comportement du système.

Les prédictions bioinformatiques

• Plusieurs approches importantes en prédictions structurales et fonctionnelles

– prédiction de la séquence protéique à partir de l’ADN génomique (identification start/stop de transcription et de traduction, prédiction et identification jonctions exons-introns)

– prédiction de la structure 2D ou 3D à partir des séquences – prédiction des fonctions protéiques à partir des séquences– prédiction de la fonction protéique à partir de la structure– Nouvelles méthodes de prédiction fonctionnelle fournies par la génomique

Les prédictions bioinformatiques

La méthode de prédiction de fonction « classique » utilisant les données de séquence

Crédit 3 diapos: Christine Brun

Méthodes de prédiction fonctionnelle existantes (I)

Inférence par homologie

1- recherche de similitudes• Séquences (Blast)• Structures (Prosite, Prodom, PDB)

2- utilisation des annotations des protéines similaires

• Texte libre• EC code (Enzyme Commission) (1-

oxydoreductase; 2- transferase; 3- hydrolase; 4- lyases; 5- isomerase; 6- ligases)

• Mots clefs (classification, ontologies)

• Renseigne sur les fonctions biochimiques et moléculaires• Dépend de la qualité des annotations• Dépend de l’étendue des connaissances• Ne renseigne pas sur le contexte et les fonctions cellulaires

L’inférence de fonction par homologie de séquence ou de

structure

Quand l’inférence de fonction par homologie ne suffit pas…

Une variation de séquence très subtile peut conduire à une variation de fonction importante (exemple: neurotactine vs. acetylcholinesterase)

Le domaine cholinesterase

de la neurotactine de Drosophile

a des propriétés

d’adhésion et non plus d’activité

cholinestérase

Darboux et al. (1996), EMBO J, 15: 4835-43

Mutation d ’un acide aminé de la triade catalytique

Quand l’inférence de fonction par homologie ne suffit pas…

Une variation de séquence très subtile peut conduire à une variation de fonction importante (exemple: neurotactine vs. acetylcholinesterase)

Des protéines ne partageant aucune similarité de séquence peuvent avoir des structures 3D similaires (exemple: le domaine de fixation à l’ADN de EBNA1 vs. E2)

Exemple :EBNA1 et

E2

Bochkarev et al. (1995) Cell 83: 39-46

Des protéines dont la structure primaire est différente peuvent avoir des structures 3D identiques

Les méthodes de prédiction de

fonction utilisant les données de la

génomique

Quelles informations, apportées par la génomique, peuvent être

utilisées pour la mise au point de méthodes de prédiction

fonctionnelle ?

Les variations de séquences entre organismes Les séquences regulatrices près des gènes Le contenu en gènes d’un organisme La variation du contenu en gènes entre organismes La variation de l’ordre des gènes entre organismes La variation d’organisation des gènes entre organismes

Méthodes de prédiction fonctionnelle existantes II

Inférences par corrélation

La variation d’organisation des gènes entre organismes

Méthode de la pierre de Rosette (Marcotte et al. (1999), Science 285, 751-753)

La variation de l’ordre des gènes entre organismes Méthode des gènes voisins (Dandekar et al. (1998)

TIBS 23, 324-328; Overbeek et al. (1999) PNAS 96, 2896-2901)

La variation du contenu en gènes entre organismes Méthode des profils phylogénétiques (Pellegrini

et al. (1999) PNAS 96,4285-4288)

La méthode de la « Pierre de Rosette »

Principe : utilise la variation d’organisation des gènes entre organismes et la modularité des protéines

Si dans un génome 1, on trouve un gène A composé d’un module A et un gène B composé d’un module B

Si dans un génome 2, le module A et le module B sont associés pour former un seul gène C contenant A+B

Alors A et B pourraient être des gènes/protéines fonctionnellement reliés.

Marcotte et al., Science 285, 751-753 (1999)

Marcotte et al., Science 285, 751-753 (1999)

La méthode de la « Pierre de Rosette »exemples

Principe : utiliser la variation de l’ordre des gènes ou des groupes de gènes sur les chromosomes

Dandekar et al. TIBS 1998Overbeek et al. PNAS 1999

AB

C

Génome 1

A

CB

Génome 2

AB

C

Génome 3

ABC

Génome 4

Les gènes & sont fonctionnellement reliésA B

La méthode des gènes voisins

DD D

D

BB, Borrelia burgdorferi; DR, Deinococcus radiodurans; CA, Clostridium acetobutylicum; BS, Bacillus subtilis; EF, Enterococcus faecalis; MP, Mycoplasma pneumoniae; MG, Mycoplasma genitalium; ML, Mycobacterium leprae; MT, Mycobacterium tuberculosis; CJ, Campylobacter jejuni; TP, Treponema pallidum; HP, Helicobacter pylori; ST, Streptococcus pyogenes; PN, Streptococcus pneumoniae.

Exemple : Groupes fonctionnels dans la glycolyse

Overbeek et al. (1999) PNAS 96, 2896-2901

Pellegrini et al. PNAS 96, 4285-4288 (1999)

La méthode des profils

phylogénétiques

Principe : utiliser les corrélations + ou - de variation du contenu en gènes entre organismes

Marcotte et al.,Nature 402, 83-6 (1999)

Méthodes combinées de prédiction fonctionnelle

Nature 402, 83-6 (1999)

Un réseau de liens

fonctionnels entre protéines

Renseigne sur l’existence probable de liens fonctionnels entre protéines

Ces liens fonctionnels suggèrent :

que les protéines participent à une même voie, un même processus cellulaire fonction cellulaire parfois qu’il existe des interactions directes entre protéines (interaction protéine-protéine)

L’inférence de fonction par corrélation : bilan

Séquence

Fonction

Prédictions de fonction

Structure

TranscriptomeGénome Protéome Interactome