Analyse statistique des données de protéomique...

36
Analyse statistique des données de protéomique quantitative

Transcript of Analyse statistique des données de protéomique...

Page 1: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Analyse statistique des données de protéomique quantitative

Page 2: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Quantification des protéines

XtandemMascot

X!TandemPipeline

MassChroQ

Protein identification

Protein inference,filtering

Peptide quantification

Protein quantification

AllPSum

Mean,...

Statistics(R scripts)

Quantitative comparisons

PROTICdb

Objectif● Calculer une valeur représentant la quantité relative de chaque protéine ● Comparer les quantités de protéine estimées entre échantillons

Point de départ

Page 3: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

● un fichier de résultats « peptides » : 1 ligne par peptide*z dans chaque échantillon(1 peptide = association sequence-modif )

● un fichier « protéines » : liaison peptide-protéine et descripteur de la protéineune ligne par association peptide-protéine

Données produites par MassChroQ

Colonnes : group msrun msrunfile mz rt maxintensity area rtbegin rtend peptideisotope sequence z mods+ variable « peptiz » créée par concaténation peptide-charge

Colonnes : peptide protein protein_description

Dans MassChroQ un sous-groupe de protéine n'est représenté que par une des protéines du sous-groupe (= une des protéines identifiées par le même set de peptides)

Page 4: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Métadonnées

Toutes les données associées à l'échantillon nécessaires à l'analyse : données biologiques, répétition, fraction, etc...

Page 5: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Quantification des protéines

Problèmes :

● Les peptides partagés : comment faire pour tenir compte du fait que la valeur quantitative observée sur certains peptides est le résultat de la présence de plusieurs protéines ?

● Effet peptide : tous les peptides ne répondent pas de la même façon.

● Effet MPT ou artefact : certains peptides répondent de façon non corrélée aux autres

● Données manquantes : les données manquantes ne doivent pas induire une variation importante de l'estimation de la quantité.

Comment fabriquer une valeur quantitative par protéine à partir de la quantification des peptides ?

Page 6: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Transformation de variable

0,8 1 1,2 1,4 1,6 1,8 2 2,20

10203040506070

Quantité de protéine

Inte

ns

ité p

ep

tide

0,8 1 1,2 1,4 1,6 1,8 2 2,20

0,5

1

1,5

2

Quantité de protéine

log

10

(In

ten

sité

pe

ptid

e)

Plus l'intensité est grande plus l'erreur de mesure est grande :liaison entre moyenne et variance

area log10

(area)

Transformation log : plus de liaison moyenne-variance

La plupart des tests statistiques supposent une indépendance entre moyenne et variance

L'intensité des peptides est proportionnelle à la quantité de protéine :

Ipep

=a*Qprot

Page 7: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Transformation de variable

L'intensité des peptides est proportionnelle à la quantité de protéine : Ipep=a*QprotLes peptides ne répondent pas de la même façon : la pente a dépend du peptide

0,8 1 1,2 1,4 1,6 1,8 2 2,20

50

100

150

200

250

Peptide 1

Peptide 2

0,8 1 1,2 1,4 1,6 1,8 2 2,20

0,5

1

1,5

2

2,5

Peptide 1

Peptide 2

area log10

(area)

area

log1

0(ar

ea)

Qprot Qprot

La variation de la quantité de protéine n'a pas le même effet sur les deux peptides

La variation de la quantité de protéine a le même effet sur les deux peptides : chaque peptide est le même estimateur de la quantité de protéine, inutile de connaître sa courbe de réponse propre.

Page 8: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Transformation de variable

Echantillons de grains de maïs, analyses shotgun● 2 traitements : déficit hydrique/témoin● 2 stades de prélèvement● 5 zones de prélèvement le long de l'épi● 3 répétitions biologiques

Echantillons de grains de maïs, analyses shotgun● 2 traitements : déficit hydrique/témoin● 2 stades de prélèvement● 5 zones de prélèvement le long de l'épi● 3 répétitions biologiques

area

log 10

(are

a)

En données réelles :

Page 9: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Vérification de la qualité des données

Contrôle qualité sur les peptides

● Eliminer les peptides qui traînent en LCMassChroQ nous donne pour chaque peptide un Rtbegin et un Rtend : on analyse la durée du passage du pic : Rtend-RTbegin

● Eliminer les peptides dont le RT n'est pas stable : éventuellement, erreurs d'appariement.MassChroQ nous donne le RT de chaque peptide (après alignement) : analyse de sa stabilité en étudiant l'écart type de la variation par peptide

Contrôle qualité sur les échantillons

● Eliminer les échantillons hors-type : problèmes techniques, …

✔ analyse par ACP des échantillons sur les peptides, données brutes✔ distributions des valeurs d'intensité par échantillon

Page 10: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Normalisation

Première méthode : utiliser un échantillon comme référence● Choisir une référence « moyenne » contenant un grand nombre de peptides● Pour chaque échantillon

✔ Pour chaque peptiz, calcul du rapport échantillon/refChaque rapport est une estimation du rapport global entre l'échantillon et la référence. On considère que la proportion de peptides non variables entre échantillons est importante (ou que les + compensent les -)

✔ Calculer la médiane de ces rapports : facteur de normalisation✔ Diviser toutes les intensités des peptiz de l'échantillon par la médiane des

rapports ( ou soustraire si on est déjà en log)

Deuxième méthode : pourcentages● Calculer le pourcentage représenté par le peptide● Multiplier par une constante (moyenne des sommes d'intensité par échantillon)

En théorie, même quantité totale de peptide dans tous les échantillons.

Dans les faits, variabilité : problèmes de dosage, variations de sensibilité de l'appareil…)

Normalisation

Page 11: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2

Normalisation

Cas idéal : pas de variation des quantités relatives entre les échantillons

Normalisation parfaite

Normalisation :mediane des différences

oupourcentages

Page 12: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2

Normalisation

Cas habituel : existence de variation des quantités relatives entre les échantillons

La médiane permet de ne pas tenir compte des valeurs extrèmes des différences

Normalisation :mediane des différences

Page 13: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Sample 1 Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2

Normalisation

Protéines majoritaires dans l'échantillon, saturation de la réponse

Mediane : correcte pour l'ensemble des protéines, incorrecte pour les majoritairesPourcentages : les protéines majoritaires comptent plus que les moins abondantes (rapport > 1/1000) : moins bonne normalisation pour la plupart des protéines

Normalisation :mediane des différences

Page 14: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2Faible intensité, des peptides sont

manquants

Normalisation

Cas extrême : les peptides communs présentent de fortes différences

Normalisation :médiane des différences

Normalisation OK ?

Page 15: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Normalisation

Que donnerait une normalisation par les pourcentages ?

Normalisation :pourcentages

Normalisation OK ?

= 1 %

= 0,8 %

= 0,5 %

= 0,3 %

= 0,1 %

= 3 %= 2 %

= 1 %

% in

tens

itéSample 2

Faible intensité, des peptides sont manquants

Page 16: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Normalisation

Problème de la représentativité des peptides communs

Normalisation :médiane des différences

Ex : sample2 contient des protéines d'une autre espèce :La méthode des médianes permet de bien normaliser les communs mais ne rend pas compte de la proportion réelle des protéines dans les échantillonsLa méthode des % rendra bien compte de la chute en proportion des protéines communes.

La plupart des non communs sont en quantité supérieure

Sample 2Faible intensité, des peptides sont

manquants

Page 17: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Inte

nsi

ty r

atio

(lo

g10

)

RT

Normalisation

Normalisation en fonction du RT

Tient compte des variations affectant l’intensité de l’ensemble des peptides au cours de la LC.

Page 18: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Normalisation

Méthode des médianes

+ : facteur de normalisation calculé à partir de milliers de mesures différentes

+ : chaque rapport est précisément le rapport entre les intensités des 2 mêmes peptiz

+ : chaque peptide commun à la ref pèse le même poids dans le calcul du facteur de normalisation

- : représentativité des peptides commun ?

Méthode des pourcentages

+ : simplicité

+/- : pas d'échantillonnage : tous les peptides sont pris en compte, aussi bien communs que spécifiques

- : les protéines abondantes comptent plus que les autres dans le calcul

Page 19: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Variations quantitatives et qualitatives

Analyse quantitative : traitement 4 ignorétraitement 3 éliminé : trop de données manquantes

Peptide counting : semi-quantitatif sur toutes protéines : permet de repérer ce type de variation.Pas de sélection des peptides répétables.

Continuum entre variation qualitative (présence/absence) et quantitative(sauf cas de peptide ou protéine spécifique : mutant, ou variation allélique de la séquence du peptide)

Traitement 1 Traitement 2 Traitement 4

Inte

nsité

Traitement 3

Page 20: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Répétabilité des peptides

● Variations présence/absence déjà été prises en compte par peak counting

● Jeu de données complet nécessaire pour calculer la valeur des protéines

Minimiser le nombre de données manquantes Accepter par ex au maximum 10 % de données manquantes par peptide sur la totalité de l'expérience

Répétabilité des peptides pour les analyses quantitatives

Page 21: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Les peptides partagés

● Utiliser des modèles statistiques sophistiqués permettant de prendre en compte les peptides partagés et d'estimer leur contribution aux différentes protéines présentes dans l'échantillon (Blein-Nicolas et al 2012)

● Quantifier les protéines uniquement à partir de peptides protéotypiques, en utilisant les méthodes de type SRM

● Ne pas tenir compte des peptides partagés dans la quantification

Comment tenir compte des peptides partagés entre plusieurs protéines ?

Remarque : les peptides restant ne sont pas seulement des peptides protéotypiques :

Il peut rester des peptides communs● entre protéines d'un même sous-groupe ( = protéines indistinguables

sur la base des peptides identifiés)● avec des protéines non identifiées car représentées par un nombre

inférieur de peptides (sous-sous-groupes)

Page 22: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides

Les peptides d'une même protéine peuvent avoir des comportements différents

● modifications post-traductionnelles● dégradation in vivo de la protéine ● peptides partagés avec protéines non identifiées● stabilité de l'analyse LC-MS/MS

Variation quantitative d'un peptide =

Variation de la protéine + variation individuelle du peptide

Pour s'assurer que c'est plutôt la quantité de la protéine qui est mesurée, quantifier une protéine avec au moins 2 peptides

Page 23: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides

Doit-on garder tous les peptides ?

Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.

Traitement A Traitement B Traitement C Traitement D

Protéine

Peptides

log 10

(I)

Page 24: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides

Traitement A Traitement B Traitement C Traitement D

Protéine

Peptides

Doit-on garder tous les peptides ?

Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.

log 10

(I)

Page 25: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides

Traitement A Traitement B Traitement C Traitement D

Protéine

Peptides

Doit-on garder tous les peptides ?

Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.Les peptides qui ne sont pas corrélés aux autres mesurent donc autre chose que la protéine (leur variation biologique propre, ou des variations techniques). Les éliminer.

log 10

(I)

Page 26: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides : sélection des peptides corrélés entre eux

Pointillés : peptides non corrélés, supprimés de l'analyse

Page 27: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides : sélection des peptides corrélés entre eux

Aucun peptide corrélé : protéine supprimée

Page 28: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides : sélection des peptides corrélés entre eux

Pas de variation biologique : reste la variation technique aléatoire : peptides non corrélés, protéine suppriméeLa méthode tend à pré-sélectionner les protéines significatives

Page 29: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Fiabilité des peptides : sélection des peptides corrélés entre eux

Tous peptides conservésRemarque : présence de données manquantes

Page 30: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

A CB

Femtomoles (log scale)

All peptidesMYG_HUMAN_UPS1 MYG_HUMAN_UPS1MYG_HUMAN_UPS1

Correlated peptides Computed protein value

log1

0(in

tens

ity)

Fiabilité des peptides : sélection des peptides corrélés entre eux

Exemple : Gamme de concentration pour une protéine de UPS1 dans lysat de levure en concentration constante. Elimination des peptides non reproductibles et non corrélés entre eux.

Page 31: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Calcul de la quantité relative de protéine

● Modéliser l'effet peptide dans des analyses de variance après retrait des peptides partagés

● IBAQ : somme de tous les peptides quantifiés, normalisés par le nombre de peptides théoriquement observables

● Moyenne des intensités de tous les peptides quantifiés● Top3 : somme des 3 peptides les plus intenses

Top3 serait meilleure que IBAQ et Moyenne (Ahrné et al 2013, Proteomics 13, 2567–2578)

De façon générale le problème des données manquantes n'est pas abordé dans ces méthodes.

Ex : Top3 : que doit-on faire quand l'un des 3 peptides est manquant ?

Méthodes de calcul de la quantité de protéine à partir des intensités des peptides

Page 32: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Moyenne ou somme ?

En termes de statistiques, le résultat sur la moyenne ou sur la somme sera le même, sauf s'il y a des données manquantes

Traitement A Traitement B Traitement C Traitement D

moyenne

Calcul de la quantité relative de protéine

somme

Page 33: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Calcul de la quantité relative de protéine

Traitement A

Traitement B

Traitement C

Traitement D

somme

moyenne

Traitement A

Traitement B

Traitement C

Traitement D

somme

moyenne

Somme et moyenne ne « répondent » pas de la même façon aux données manquantes.La somme est plus « logique » dans le cas où la valeur manquante peut être interprétée comme une valeur faible.

Les deux méthodes donnent plus de poids aux variations des peptides les plus intenses.

Pour éviter les variations brutales provoquées par les données manquantes, imputations.

Page 34: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Données manquantes

Imputation sur les peptides

On peut se servir des autres peptides de la même protéine pour prédire la valeur que « devrait prendre » le peptide s'il avait été détecté (régressions)

Introduction de données calculées : biais pour les analyses statistiques. On compense en ajoutant du bruit dans la prédiction.

Limiter au maximum le nombre de données imputées (ex : 5%).

Valeur prédite pour le peptide rouge

Page 35: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

On calcule la valeur protéine par somme des intensités des peptides.

Pour les analyses statistiques on repasse ensuite aux logs :q=log10(I

pep1+I

pep2+...)

Calcul de la quantité relative de protéinear

ea

log 10

(are

a)

La somme est calculée sur les intensités non transformées : les variations des peptides les plus intenses ont plus d'influence que celles des peptides les moins intenses

Page 36: Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Les analyses globales (ACP, clusters,...) ont besoin de tableaux complets.

Hypothèse : la protéine est en faible quantité, tous ses peptides sont sous le seuil de détection.

Imputation par une valeur faible (la plus faible valeur mesurée pour la protéine dans l'expérience)

Sample1 Sample 2 Sample 3 Sample 4

protéine protéine

Données manquantes dans les quantités de protéine calculées

Sample1 Sample 2 Sample 3 Sample 4

Si aucun autre peptide de la protéine n'est présent dans un échantillon, pas d'imputation au niveau des peptides : donnée manquante pour la protéine