Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...

36
Annotation de prot´ eines JS Varr´ e Universit´ e Lille 1 [email protected] http://www.lifl.fr/~varre JS Varr´ e (Univ. Lille 1) Annotation de prot´ eines [email protected] 1/ 36

Transcript of Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...

  • Annotation de protéines

    JS Varré

    Université Lille 1

    [email protected]

    http://www.lifl.fr/~varre

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 1 /

    36

  • Pourquoi faire de l’annotation automatique de protéines ?

    Il est difficile de trouver expérimentalement la fonction d’une protéinesans connaissance préalable

    I Besoin de nombreuses expériences dans diverses conditionsexpérimentales

    Long et coûteuxI Pas garantie de résultats

    ⇒Besoin de points de départ pour orienter les recherches

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 2 /

    36

  • Que peut-on prédire de façon automatique ?

    La fonction de la protéine (pas finement)I C’est un transporteur de sucre, mais duquel ?

    Certains domaines fonctionnelsI Cette partie de la protéine se lie à l’ATP (molécule énergétique)

    Les modifications post-traductionnellesI C’est une protéine O-glycosylée sur tel acide aminé

    Les structures 2D et 3D des protéines

    La localisation cellulaire de la protéineI C’est une protéine membranaire

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 3 /

    36

  • Limite des connaissances

    En général, plus de 30% des gènes d’un génome sont de fonction inconnue

    Exemple d’une bactérie, Bacillus subtilisI 16% des gènes similaires à d’autres gènes de fonction inconnueI 26% des gènes sans similarité

    Exemple de la levureI 6400 gènes dont 2.500 (39%) de fonction complètement inconnue.I Il s’agit de l’un des organismes les plus étudiés du point de vue

    expérimental (génétique et biologie moléculaire).I Son génome complet est disponible depuis 1996.

    Pour le génome humain, 60% des gènes sont complètement inconnus.

    ⇒ Beaucoup de fonctions cellulaires sont encore à découvrir !

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 4 /

    36

  • Prédiction de la fonction

    Comparaison de séquenceI Utilisation de BlastI Pb : si la (les) région(s) trouvée(s) ne couvre(nt) pas toute la protéine,

    est-ce qu’il s’agit de la (les) régions importante(s) pour la fonction ?

    Prédiction de domainesI Des banques contiennent uniquement les régions importantes pour la

    fonction des protéines (domaines/motifs protéiques)I Pb : comment définir ces domaines ?I Pb : comment identifier ces domaines sur une protéine inconnue ?

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 5 /

    36

  • Motifs et domaines protéiques

    Motifs protéiquesI Résidus essentiels à une fonction conservée (site actif)I Résidus pas nécessairement consécutifs sur la séquence primaire, mais

    proches dans la structure 3DI Ne se replient pas indépendamment

    Domaines protéiquesI Fragments de séquence contigus conservés dans une ou plusieurs

    famillesI Se replient indépendamment

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 6 /

    36

  • Prosite, une banque de motifs protéiques

    Créée en 1988 (http://www.expasy.ch/prosite/)

    Motifs protéiques ayant une signification biologique particulière +documentation complète

    Deux représentations des motifs

    Pseudo-expression régulière (”pattern”)

    Matrice de poids (profil)

    Construite manuellement

    But : aide à l’annotation protéique

    Recherche la présence de motifs dans une séquence

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 7 /

    36

  • Construction d’un pattern Prosite

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 8 /

    36

  • Etapes de construction d’un pattern

    Construction :I Etude d’un article de revueI Recherche d’autres séquences qui possèdent le motifI Construction d’un alignement multiple (correction à la main)I Recherche de sites pertinents biologiquementI Recherche d’une séquence courte conservée (max. 5 résidus)I Vérification de la qualité du pattern et correction éventuelle

    Bon pattern :I Aussi court que possibleI Détecte toutes (ou presque) les séquences qui ont le motifI Ne détecte pas trop de faux positifs

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 9 /

    36

  • Exemple de motif protéique

    Basic-leucine zipper (bZIP)

    Site trouvé dans des facteursde transcription eucaryotes

    Fonction :I Fixation à l’ADN

    (reconnaissance d’unpalindrome de 6 nt)

    I Dimérisation entrefacteurs

    N◦ Acc : PS00036,PDOC00036, PS50217

    PFAM : PF00170

    InterPro : IPR004827

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 10 /

    36

  • Construction du pattern de bZIP

    TOXE_COCCA/19-34 RrklQNrvAQrKyRtRFOS_MESAU/143-157 Rr.eRNkmAAaKcRnRFOS_MOUSE/143-157 Rr.eRNkmAAaKcRnRFOS_MSVFB/143-157 Rr.eRNkmAAaKcRnRYA82_SCHPO/128-141 Ka..RNrqAAqKcRiKYDC3_SCHPO/270-284 Kr.rRNtaASaRfRiKYEN5_YEAST/389-404 RlleRNriAAsKcRqRYHA9_YEAST/149-164 KkkaQNraAQkAfReR

    [KR]-x(1,3)-[RKSAQ]-N-x(2)-[SAQ](2)-x-[RKTAENQ]-x-R-x-[RK]

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 11 /

    36

  • Vérification de la qualité du pattern

    Trouvé dans 149 séquencesI 131 vrais positifs (avec bZIP et pattern)I 18 faux positifs (sans bZIP, avec pattern)

    62 faux négatifs (bZIP, sans pattern) (3 seq tronquées)

    Sélectivité : 87,92 %I Vrais positifs / (vrais positifs + faux positifs)I Aptitude de la méthode à éviter les faux positifs

    Sensibilité : 68,95 %I Vrais positifs / (vrais positifs + faux négatifs)I Aptitude de la méthode à trouver tous les vrais positifs

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 12 /

    36

  • Construction d’une matrice de poids (profil)

    Même point de départ : alignement multiple

    Calcul du poids de chaque acide aminé pour chaque positionpertinente

    I Fréquence de chaque acide aminé de la colonneI Equivalence entre acides aminés

    Recherche d’un profil dans une séquence :I Fréquence de l’acide aminé présent dans la séquence étudiéeI Somme des fréquences trouvée à chaque positionI Profil trouvé si la somme est supérieure à un seuil propre au profil

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 13 /

    36

  • La qualité du profil bZIP

    Trouvé dans 180 séquences (tous vrais positifs)

    13 faux négatifs (dont 2 séquences tronquées)

    Sélectivité : 100 %I Vrais positifs / (vrais positifs + faux positifs)I Aptitude de la méthode à éviter les faux positifs

    Sensibilité : 94,24 %I Vrais positifs / (vrais positifs + faux négatifs)I Aptitude de la méthode à trouver tous les vrais positifs

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 14 /

    36

  • PFAM, une autre banque de motifs et domaines

    Gérée par le Sanger (http://www.sanger.ac.uk/Software/Pfam/)

    Construction et annotation automatiques des entrées

    Motifs et domaines représentés par des châınes de Markov cachées(HMM)

    I Permettent la modélisation des insertions-délétions

    Etapes de constructionI Mise en place à partir de séquences similairesI Extension à des séquences de plus en plus éloignées

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 15 /

    36

  • Construction du HMM de bZIP

    RrklQNrvAQrKyRtRRr.eRNkmAAaKcRnRRr.eRNkmAAaKcRnRRr.eRNkmAAaKcRnRKa..RNrqAAqKcRiKKr.rRNtaASaRfRiKRlleRNriAAsKcRqRKkkaQNraAQkAfReR

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 16 /

    36

  • Exemples de banques de domaines

    BlocksI Segments multiples alignés sans insertions-délétionsI Régions les plus conservées des protéinesI Calibrage contre la banque SwissProtI Description du domaine : alignement

    ProdomI Recherche de blocs par comparaison de toutes les séquences de

    SwissProt deux à deuxI Annotation automatiqueI Description du domaine : consensus (acide aminé le plus fréquent)

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 17 /

    36

  • InterPro

    Gérée par l’EBI (http://www.ebi.ac.uk/interpro/)

    ContenuI Superfamilles, familles, domaines, motifs, sites fonctionnels,

    modifications post-traductionnelles, structures 3D

    Regroupe plusieurs banques existantesI Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams,

    Superfamilly, SCOP, CATH, MSD

    Une entréeI Description biologique détailléeI Représentation de l’objet par les différentes banques

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 18 /

    36

  • Prédiction de la localisation cellulaire

    Prédiction de domaines transmembranairesI Programmes basés sur l’apprentissage à partir de protéines dont les

    domaines transmembranaires sont connusI Critère principal : hydrophobicité des acides aminés

    Prédiction de peptide signalI Peptide signal : suite d’acides aminés située au début d’une protéine et

    indiquant à la machinerie cellulaire vers quel compartiment adresser laprotéine

    I Aussi basé sur l’apprentissageI Les jeux d’apprentissage sont spécifiques à un compartiment cellulaire

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 19 /

    36

  • Part I

    Etude des structures 2D et 3D

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 20 /

    36

  • Structures 3D de protéines

    1958 : détermination de la première structure 3D de protéine parKendrew et Perutz

    I Découverte de la complexité de la structure 3D d’une protéine

    Hypothèses de l’époque :I Deux protéines avec des séquences proches se replient de façon

    semblableI Deux protéines ayant des structures 3D proches ont des séquences

    proches

    La structure 3D des protéines est déterminante pour leur fonction

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 21 /

    36

  • wwPDB : la banque de structures 3D

    worldwilde Protein Data Bank

    Seule banque de structures 3D de protéines, acides aminés et grossesmolécules biologiques

    1971 : le RSCB (Research Collaboratory for StructuralBioinformatics) créé la banque PDB

    2003 : regroupement des 3 banques de structures 3D en une seuleI RSCB (Research Collaboratory for Structural Bioinformatics)I MSD (Macromolecular Structure Database)I PDBj (Protein Data Bank Japan)

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 22 /

    36

  • PDB, nombre d’entrées

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 23 /

    36

  • Structure d’une partie de AP1 human

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 24 /

    36

  • Classification structurale des protéines

    Classification des protéines basée sur leurs structures 2D, 3D et leurfonction

    I Construction manuelle aidée d’outils de comparaison de structures etde séquences

    2 banques :I SCOPI CATH

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 25 /

    36

  • SCOP, hiérarchie principaleStructural Classification of Proteins

    Fold (similarités structurales majeures)I Mêmes éléments 2D, dans le même ordre et avec la même topologie

    Superfamilly (possibilité d’un ancêtre commun)I Faible conservation de séquenceI Mais caractéristiques structurelles et fonctionnelles liées

    Familly (lien dans l’évolution clairement démontré)I Souvent > 30% identité

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 26 /

    36

  • SCOP, les classes (haut de la hiérarchie)

    Protéines tout α

    Protéines tout β

    Protéines α/β (éléments α et β mélangés)

    Protéines α+β (éléments α et β séparés)

    Protéines multi-domaine

    Peptides et protéines de membrane et de surface

    Petites protéines

    Protéines ”coiled-coil”

    Peptides

    Protéines artificielles

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 27 /

    36

  • Hiérarchie de AP1 human dans SCOP

    1 Root: scop

    2 Class: Coiled coil proteins [57942] Not a true class

    3 Fold: Parallel coiled-coil [57943] this is not a true fold; includesoligomers of shorter identical helices

    4 Superfamily: Leucine zipper domain [57959]

    5 Family: Leucine zipper domain [57960]

    6 Protein: C-jun [57975]

    7 Species: Human (Homo sapiens) [57976]

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 28 /

    36

  • CATH, hiérarchie principaleClass(C), Architecture(A), Topology(T) and Homologous superfamily (H).

    Class

    Architecture

    Topology

    Homologous Superfamily

    Sequence Family (S35)

    Non-identical (S95)

    Identical (S100)

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 29 /

    36

  • Hiérarchie de AP1 human dans CATH

    1.20.5.170.8.1.1

    Class : Mainly Alpha

    Architecture : Up-down Bundle

    Topology : Single alpha-helices involved in coiled-coils or otherhelix-helix interfaces

    Homologous Superfamily : TRANSCRIPTION/DNA

    Sequence Family (S35) : TRANSCRIPTION/DNA

    Non-identical (S95) : TRANSCRIPTION/DNA

    Identical (S100) : TRANSCRIPTION/DNA

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 30 /

    36

  • Prédiction de la structure des protéines

    Nbre protéines dans les banques (UniProt : 2.299.834) >> Nbrestructures 3D expérimentales (PDB : 33.367 )

    I Besoin de logiciels de prédictionI Efforts pour déterminer expérimentalement plus de structures 3D

    Difficultés de prédiction :I Pas de règle simple d’interactions entre acides aminésI Des homologues distants peuvent avoir des structures prochesI Grande variété de structures

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 31 /

    36

  • Prédiction de structure 2D

    Localisation des éléments de base de structure 2DI Hélices α, feuillets β, boucles

    Reconnaissance de motifsI Basée sur des règles de construction des éléments de base et

    l’enchâınement de ces éléments dans les protéines

    Méthodes statistiquesI Apprentissage à partir d’alignements multiples de séquences impliquées

    dans une hélice ou un feuillet (protéines de structure 3D connue)

    Résultats : en moyenne 70% des aa bien prédits

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 32 /

    36

  • Exemple de prédiction 2D (site NPSA)

    KAERKRMRNRIAASKSRKRKLERIARLEEKVKTLReel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHDSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhMLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhPHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhConsensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh

    KAQNSELASTANMLREQVAQLKQKVMNHHHHHHHHHHHHHHHHHHHHHTThhcchhhhhhhhhhhhhhhhhhhhhhhhhhchhhhhhhhhhhhhhhhhhhhhhhhh AP1_human (254..315)hhcchhhhhhhhhhhhhhhhhhhhhhhhhhcchhhhhhhhhhhhhhhhhhhhhhhh

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 33 /

    36

  • Exemple de prédiction 2D (PSIPRED)

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 34 /

    36

  • Prédiction de structure 3D

    Modélisation 3D à partir d’un homologueI Recherche des séquences proches dans PDBI Repliement de la seq inconnue à l’aide de la structure connue

    Enfilage (threading)I Banques représentatives des topologies de baseI Repliement de la seq dans chaque structure et sélection de la structure

    la plus probable

    Qualité de la prédictionI Très variable selon la séquence étudiéeI Maximum entre 60 et 70% de bonne prédiction

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 35 /

    36

  • Format des fichiers de structure 3D

    Ce sont des fichiers textes

    Format PDB (Brookhaven) :I En-tête avec des informations générales sur les molécules modélisées

    (éventuellement leur structure 2D)I Coordonnées des atomes qui composent la structureI ATOM = atome de la protéineI HETATM = HETeroAToM = atome des cofacteurs, substrats, ions, ...

    liés par une liaison covalente à la protéine)

    mmCIF (macromolecular Crystallographic Information Format)

    JS Varré (Univ. Lille 1) Annotation de proté[email protected] 36 /

    36

    Etude des structures 2D et 3D