Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat.

Post on 04-Apr-2015

111 views 0 download

Transcript of Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat.

Transcriptome

Introduction aux biopuces et à l’analyse du transcriptome

Emmanuel Prestat

Transcriptome

Les différentes puces

• Mesures d’expression

• Etude du nombre de copies

• Analyse de polymorphisme

• Puces à tissus, à cellules, à immunoprécipition

Transcriptome

Mesures d’expression

• Biopuces les plus utilisées à ce jour (premières auxquelles on pense, quand on parle de puces à ADN)

• Principe :– les sondes, petits fragments d’ADN (20 à 50 nt)

complémentaires à chaque gène ciblé, sont déposées sur une lame de verre, type lame de microscope ;

– Les cibles, ARNm ou ADNc issus d’ARNm, sont marquées (radioactivité ou fluorescence) puis hybridées avec la lame sur laquelle les sondes sont déposées

Transcriptome

Transcription

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Transcriptome

La technologie des puces bifluorescentes

Transcriptome

Dépôt des sondes (« spotting »)

Transcriptome

Dépôt des sondes (« spotting »)

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Transcriptome

Puces à oligo : pas de « spotting » !

Procédé Affymetrix (et NimbleGene…)

Transcriptome

Particularités des puces Affymetrix

• La fabrication in situ des sondes• Leur ultra-haute densité : jusqu’à 1,3

millions d’objets• Leur design :

– Objets carrés– Pas d’espace entre eux– Concept de probeset– Concept de PM et MM

Transcriptome

Puces Affymetrix

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Transcriptome

Préparation des échantillons (cibles)

• Extraction d’ARNKit

• AmplificationPCR

• Marquage– Radioactivité (S35, P32)– Fluorescence (Cy3 - vert, Cy5 - rouge)

En général réalisé en même temps que l’amplification: utilisation d’une amorce de PCR marquée

• Digestion (λ-exonucléase) ADN simple brin

Transcriptome

L’hybridation• Séchage des cibles et reprise dans un tampon

d’hybridation

• Volume d’hybridation : 3 à 50 μl (entre lame et lamelle) attention à l’évaporation ! à répartir sur l’ensemble de la surface de la puce

• Température d’hybridation45 65°C– + la température ↑, + le signal d’hybridation ↓– + la température ↓, + l’hybridation aspécifique ↑

• Temps d’hybridation1h 12h

dans une chambre d’hybridation

Transcriptome

Le lavage

• Après hybridation, lavage de la lame, pour éviter – L’adsorption de fluorescence sur le support

– Les hybridations aspécifiques

• Conditions de lavage :– Dans des solutions de plus en plus stringentes

• Evaluation de la qualité du lavage (et de l’hybridation)– Témoins positifs et négatifs

– Répartition aléatoire sur la lame

vérification : pas d’effet de localisation, de bord

Transcriptome

Acquisition des images

Extraction des données

Excitation

Amplification du signal (PMT)

Émission

Laser 1 Laser 2

Fluorescence verte

Fluorescence rouge

(Ech 1) (Ech 2)

Transcriptome

Acquisition des imagesEtat excité

Etat stable

Spectre d’excitation&

Spectre d’émission

Transcriptome

Choix des fluorochromes

Fluorescence verte

Fluorescence rouge

Transcriptome

« Vrais » images et images d’« interprétation »

Transcriptome

Pas si simple…

Transcriptome

Pas si simple…

Queues de comètes Bavures

Mauvais blocage du processus pendant la phase d’hybridation

Sondes/Cibles

Spotting ? Lavage ?

Transcriptome

Pas si simple……etc

Transcriptome

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Différences avec les puces radioactives

• Marquage radioactif (!)• Une seule condition expérimentale• Le support est une membrane• Maximum : 2400 dépôts par

membrane (on les appelle parfois les macroarrays)

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

Transcriptome

Extraction des données à partir de l’image

1. Adressage – Localisation

2. Segmentation

3. Extraction de l’information (pour chaque spot)

- signal d’intérêt

- bruit local (autour de chaque spot)

- morphologie (surface, périmètre…)

Transcriptome

Méthodes de segmentation

Cercles fixes

Transcriptome

Méthodes de segmentation

Cercles fixes / rotation & distorsions !

Cercles fixes / variabilité du spot

GenePix Pro 4.0

Transcriptome

Méthodes de segmentation

Cercles adaptables :

modifier position du cercle

modifier la taille du cerle

Transcriptome

Méthodes de segmentation

Dérivée seconde

Détection de contours

Transcriptome

Méthodes de segmentation

Détection de contours vs cercles fixes

Transcriptome

Méthodes de segmentation

Adams R et Bishof 1994

http://www.ch.embnet.org/…..

Détection de régions (graines ou agrégation de pixels)

Transcriptome

Méthodes de segmentation

Détection de régions : seuillage (ou histogrammes)

Détection de régions (Watershed Function) Morphologie mathématique

Transcriptome

Mesure du bruit de fond

Transcriptome

Quelques chiffresDiamètre des spots : 100-600 µmCapacité totale : 30000 spots / lame ; 2-10 ng ac.nucl./spotDistance entre les spots : 100 µm – 600 µm

Durée de conservation : 9 moisConditions optimum de conservation : 2 – 8 °CDurée totale de préparation : 3 joursPréparation d’un échantillon : 2 joursHybridation : 16 heuresLavage : 1 heureScan : 5 - 15 minutes

Transcriptome

Normalisation de biopuces : pourquoi ?

«Traitement visant à ajuster les données selon les effets des variations dues à la technologie plutôt qu’à des différences biologiques » Yang et al. 2002

Transcriptome

Normalisation de biopuces : pourquoi ?

Transcriptome

Normalisation de biopuces : pourquoi ?

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

Effet microplaque (ou aiguille)

Transcriptome

Normalisation de biopuces : pourquoi ?

Transcriptome

Normalisation de biopuces : pourquoi ?

Après normalisation qui tient compte de la variabilité due aux différentes aiguilles du « spotter ».

Rmq : la normalisation inter-lames observe le même principe

Transcriptome

Analyse de données

• Identification de gènes DE– Fold change– Tests statistiques

• Identification de gènes DE (plus de 2 conditions)

• Répétitions (quel type, combien ?)

Transcriptome

Fold change

• Avantage : sens pour un biologiste• Fold Change =expression value sample 1/ expression value

sample 2

• Décision :– Quel seuil ?– Même pour tous les gènes

• Inconvénients– Seulement les valeurs moy, sans tenir compte de la

variabilité sont considérées– Les gènes ayant une expression très variable, ont plus de

chance de dépasser le seuil aléatoirement

Transcriptome

Tests à un facteur

Transcriptome

Tests à un facteur

• Paramétriques– Condition de normalité

Transormation Log

=> Transformer les données !

Transcriptome

Tests à un facteur

• Tests non paramétriques– Ne supposent pas la normalité– Ne supposent pas l’homoscédasticité– L’utilisation des rangs à la place des

valeurs d’intensité :• Diminue l’effet des outliers• Ne sont pas affectés par la log-transformation

– Pas recommandés si les échantillons ont peu de répétitions

Transcriptome

Volcano plot• Combine les p-values et fold

changes• Qu’est-ce qui est

biologiquement important ?– La significativité des

différences– Leur valeur

• Quels seuils ?– Combien veut-on identifier de

gènes ?– Où sont les contrôles ?

• Le t-test modéré fait quelque-chose de similaire

Transcriptome

Quel seuil de p-value choisir ?• Dépend du type d’erreur

– Type 1• Faux positifs

• => identifie des gènes différentiellement exprimés alors qu’ils ne le sont pas

– Type 2• Faux négatifs

• => ne détecte pas certains gènes pourtant différentiellement exprimés dans la réalité

Transcriptome

Correction des tests multiples

• Le problème…– Ho = l’expression moyenne du gène X est la même pour

toutes les populations comparées– Identification des gènes DE : autant de tests à faire que de

gènes considérés– Nombre moyen de faux positifs : G.

• Exemple– G = 25000 gènes = 0.05

=> G. = 1250 faux positifs…

Transcriptome

Correction des tests multiples

• Méthodes de correction des p-values– Correction FWER (Family-Wise Error Rate)

• FWER = proba- d’obtenir au moins 1 faux positif• Méthodes utilisées :

– Bonferroni– Bonferroni step-down (Holm)– Westfall and Young permutation

– Correction FDR (False Discovery Rate)• FDR = taux attendu de faux positifs• Méthode utilisée

– Benjamini et Hochberg

Transcriptome

Lequel utiliser ?

• FWER: ne tolère pas de faux positifs (Ho est difficilement rejeté) => procédure très conservative

• FDR : moins conservatif, on estime le pourcentage de FP parmi les gènes « appelés »

• Aucun : le pourcentage de FP est estimé sur l’ensemble des gènes testés

Transcriptome

Tests bi-facteurs

• ANOVA– Comme un t-test avec + de deux conditions– Mesure les effets de différents facteurs ainsi que leurs

interactions– ANOVA 2

• Test deux facteurs

• 3 tests– Temps– Traitement– Interaction entre les 2 (additif ? Multiplicatif ?)

Transcriptome

Importance des répétitions

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

Transcriptome

Classification

• But :Regrouper une collection d’objets de façon à

ce que les objets d’une partition soient plus liés entre eux qu’avec les objets d’une autre partition

• Analyse discriminante (classification supervisée) : les classes sont définies

• Classification (non-supervisée) : on ne connaît pas les classes

Transcriptome

Classification

• Exemples :– Traitement/contrôle, malade/normal,

thérapie efficace/sans succès,…– Si on a des informations sur la façon de

classer les échantillons, elles devraient être intégrées dans la méthode

Transcriptome

Les données

Genes(thousands)

Experimental conditions (from tens up to no more than a few houndreds)

A B C

Expression profile of a gene across the experimental conditions

Expression profile of all the genes for a experimental condition (array)

Different classes of experimental conditions, e.g. Cancer types, tissues, drug treatments, time survival, etc.

• La plupart des gènes sont non-informatifs pour le trait étudier

• Le nombre de variables est plus important (plusieurs ordres de magnitude) que le nombre d’expériences

Caractéristiques

Transcriptome

Classification : corrélations et distances

• Corrélations :– Pearson : corrélation entre les valeurs– Sperman : corrélation de rangs (réduit l’effet des variations

extrèmes)=> Prend en compte les tendances

• Spearman confidence (mesure de similarité) = 1 - p-value

• Distance euclidienne => différences entre coordonnées

• Distance de manhattan (somme des différences absolues pour toutes les coordonnées du vecteur) => plus robuste

Transcriptome

Classification hiérarchique

• Arbre des gènes

• Arbre des conditions

Exemple : UPGMA

Alizadeh et al., Nature 2000

Transcriptome

Classification non-hiérarchique

• K-means : minimisation de la variance intra-classe (le nombre de classes est une instance)

• ACP : rotation de la base maximisant les variances

• SOM (Self Organising Maps)

Transcriptome

Classification supervisée = « class prediction »

• Quelques méthodes:– Bayes– Analyse discriminante linéaire– Les k plus proches voisins (k-NN)– Les arbres de classification (CART)

Transcriptome

Autre type de puce analysant le transcriptome

• Puces à exons :

Analyse de l’épissage

Transcriptome

Principe du CGH

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Transcriptome

Analyse des puces CGH

Transcriptome

Objectifs de l’étude statistiques

Transcriptome

Analyse de polymorphisme

• Les Single Nucleotide Polymorphims (S.N.P) désignent des variations d'une seule paire de base du génome, entre individus d'une même espèce (e.g. 1/1000 paire de bases dans le génome humain).

• On parlera de formes alléliques synonymes dans le cas où plusieurs formes d'un SNP mènent à la même séquence polypeptidique, et de formes non-synonymes dans le cas où les séquences produites diffèrent.

• Les SNP qui se retrouvent dans des régions non-codantes peuvent avoir des conséquences sur l'épissage, les facteurs de transcription, ou sur les séquences d'ARN non-codant

Transcriptome

Une séquence d'ADN contenant un site SNP. Les allèles A et G sont illustrés.

Une région chromosomique où seuls les SNP sont montrés. Trois haplotypes sont illustrés. Les deux SNP colorés suffisent à identifier (marquer) chacun des haplotypes. Par exemple, si les deux sites SNP marqueurs du chromosome portent les allèles A et T, on peut déduire qu'il s'agit du premier haplotype.

Les SNP

Transcriptome

Puces SNP

• Exemple : Affymetrix Genome-Wide Human SNP Array 6.01.8 million markers for genetic variation

• 900 000 single nucleotide polymorphisms (SNPs)

• 946,000 probes for the detection of copy number variation

Transcriptome

ChIP-on-Chip (étude des points de contacts entre une protéine et tout le génome)

Transcriptome 64

Problématique biologique du TP• Buchnera est une bactérie symbiotique intracellulaire associée à la

majorité des pucerons. L’association est très ancienne (250 Ma). Les partenaires sont devenus dépendants.

• Buchnera possède un génome de taille très réduite (400 à 600 kb), très riche en bases A et T et incluant de nombreuses mutations délétères

(adaptatives ?). -> Bon modèle d’étude à un niveau théorique (simple)-> très difficile à manipuler expérimentalement (incultivable)

• Le génome de Buchnera est « dégénéré »-> Comment Buchnera régule-t-elle l’expression des ces gènes ?-> Comment Buchnera s’adapte-t-elle aux variations des besoins

nutritionnels de l’hôte ?

Transcriptome 65

La puce Buchnera

aiguille1

aiguille2

aiguille3

aiguille4

= =

bloc (12 x 16)

Contrôles (+ et -)

Doublets de spotsOligo 5’

Oligo 3’

3ème oligo

Superposition des 2 images (R et G)

Transcriptome 66

• Approche comparative (non cinétique)

– Expérience Naas (16 lames) :

Milieu équilibré Milieu déséquilibré

en AA en AA

riche en saccharose A B

pauvre en sacharose C D

2 répétitions indépendantes de 8 lames :

A/B, B/C, C/D, D/A, A/C, B/D, D/B, C/A

A B

CD

-> Les données ont été acquises par N. Reymond (expérience naas.tri analysée en TP)

Plan expérimental du TP