BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

85
BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008

Transcript of BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Page 1: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

BioInformatique des micropuces

Abdoulaye Baniré Diallo

25 mars 2008

Page 2: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

plan Introduction

Types de puces

Déroulement d’une expérience

Mise au point d’une puce

Choix des gènes et des sondes

Analyse des données d’expression

Analyse des images et segmentation

Normalisation

Page 3: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Plan(2) Analyse des données d’expression Types d’analyse Clustering Comparaison de profils Différentes types de distances classificateur

Page 4: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Applications Identifier des gènes différentiellement exprimés (sur ou sous

exprimés) dans des conditions déterminées: Maladie ou traitement Réponse à un stress ou à un signal

Déterminer un profil d’expression lié à un état particulier de la cellule: Classification des sous types de cancer

Déterminer tout ou une partie du réseau de régulation: Gènes d’expression similaires (recherche de promoteurs communs) Réseau de régulation

Page 5: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Format d’une micropuce

Spot: ensemble de Sondes spéciques à une cible (un gène par exemple)

Sonde: une séquence de nucléotides

Page 6: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Hybridation

Page 7: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Réalisation d’une analyse Une image vaut 1000 mots et un ensemble

d’images animées? http://www.bio.davidson.edu/courses/genomi

cs/chip/chip.html

Page 8: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Résumé

Page 9: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Étape de réalisation d’une analyse

Page 10: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

cDNA microArray

mRNA étudié (malade)CY5

mRNA standard (sain)CY3

Spot G

Mesure de l’expression différentielle = Ratio intensité cy5/intensité cy3

Micropuce à CDNA

Page 11: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Oligonucléotides genechips (Affymetrix)

Page 12: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Oligonucléotides genechips (Affymetrix)

Page 13: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Oligonucléotides genechips (Affymetrix) Perfect Match: G1,…,Gk: k spots, 2 à 2 différents,

spécifiques au gène G

MisMatch: sondes avec une modification au milieu de la séquence. Capture les hybridations non spécifiques

⎭⎬⎫

⎩⎨⎧

−×= ∑=

k

iii GG

k 1

)int()int(1

G de expression

Page 14: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

complément Principale différence:

Micropuce = expression différentielle Genechip = expression pour un seul échantillon

Genechip 2 types de redondance

Spots multiples et différents pour un seul gène PM vs MM

Page 15: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Déroulement d’une expérience Mise au point de la puce

Choix du type de puce (oligos, cDNA,…) Sélection des gènes à mésurer Sélection des sondes Manufacture ou commande de la puce

Utilisation Hybridation - lavage

Analyse Mesure de l’expression de chaque gène (image- matrice numérique) Analyse statistique (normalisation, validation) Interprétation des résultats (clustering, data mining…)

Gestion des données

Page 16: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.
Page 17: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Mise au point d’une puce Choix des gènes à mesurer Choix des sondes1. Acheter tout fait

Récupérer sur le web Geo (NCBI), NWG, Affymetrix,…

2. La mettre au point soi-même Où récupérer les gènes? Comment choisir les sondes?

Page 18: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Gènes Informations à conserver Bases de données

UniGene (NCBI) Regrouperment (clusters) d’ARNm et EST de Genbank (1 gène

par groupe) TIGR

Même principe qu’UniGene REFSEQ (NCBI)

Banque de séquences de qualité grande Ucsc genome browser

Banque de données de diverses informations génomiques de l’humain

Page 19: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Banques de données Unigène – décembre 2007

66488 groupes (>> 30000)!!, 157 753 mRNA 6 586 504 séquences au total Contient de nombreuses informations (tissus, NCBI, lignée,…) Manque: séquences consensus, épissage, stabilité

TIGR – février 2008 Plus de 200000 cluster et plus de 5 millions d’EST Séquence consensus, ontologie du gène, épissage alternatif, réseau métabolique

RefSeq – Donne des références stables sur l’identification, la caractérisation, les analyses de

mutations, les études d’expression … Utilise des numéros d’accession et peu de séquences (environ 20 000)

Uscs Genome browser Répertorie les analyses au niveau génomique effectuées Prédiction de gènes, expression, régulation Utile dans le cadre des tiling arrays

Page 20: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Choix des sondes ou primers 3 conditions1. Sensibilité

Une bonne sonde "hybride" hybride bien avec sa cible et produit un signal représentant son niveau d’expression

2. Spécificité Une bonne sonde n’hybride pas avec une d’autres cibles (cross

hybridization)

3. Comportement isothermal Chaque sonde "hybride" avec sa cible à une température optimale L’intervalle des températures de toutes n’est pas trop large

Comment combiner ces conditions? Autant de stratégies que de logiciels

Page 21: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Choix des sondes Sensibilité: éviter les repliements en structure

secondaire stable Calcul du repliement optimal: MFOLD, Rnafold

Spécificité: éviter qu’une partie de la sonde soit similaire à plusieurs gènes: Blast

Position dans le transcrit: plus on est proche du début de la reverse transcriptase (fin 3’) mieux c’est

Température: Différentes techniques de calcul de la température de

fusion (hybridation)

Page 22: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Spécificité d’une sonde Nettoyage ou filtrage

Nous voulons éviter les séquences Ambigues (mauvais séquençage) De faible complexité

Longues séquences de nucléotides identiques: TTTTT…TT Répétitions: TATATA…TA Séquences communes à plusieurs gènes Contaminant, vecteurs !!!!!!

Outils RepeatMasker (RepBase) MaskerAid (WuBlast) OligoArray Dust (Blast)

Important: séquences non nettoyées créent plusieurs problèmes à l’expériences

Page 23: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Calcul de la température de fusion Température de fusion = température à laquelle 50% d’une

sonde s’hybride avec son brin complémentaire

Paramètres importants Nucléotides de la sonde Concentration C du brin (inconnu en général) Concentration en sodium (Na+) de la solution contenant les cibles

Une équation simple pour des oligos assez long (> 50 nt) utilisé par Qiagen pour des oligos de 70mer

length

500

length

)G#C#(41]Nalog[165.81 −+×++×+=mT

Page 24: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Calcul de la température : modèle NN Formule de base

Tm = H /(S – R ln (C/4))

H = enthalpie (chaleur absorbée par la création du lien G-C)

S = entropie ("perte de dynamisme")

Modèle NN (nearest-neighbor)5’ TAACCACGAT | | | fermeture ATTGGTGCTA

Page 25: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

SantaLucia et al. 1998

Page 26: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Spécificité: hybridation croisée Le problème

n séquences S1…Sn

l = longueur de sonde

Trouver n sous séquences P1…Pn tel que: Pour tout i /= j Pi n’est pas "similaire" à une sous

séquence de Sj

Similarité Blast

Page 27: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Choix des sondes et règles de sélection1. Une fois un gène est choisie dans une analyse, une sonde est

choisie pour lui avec un ensemble optimal de paramètres (un grand nombre de 70mer candidats)

Tous les oligos sont entre 78°C± 5°C en utilsant la formule

length

500

length

)G#C#(41]Nalog[165.81 −+×++×+=mT

Où [Na+] = 0.1M et length = #A + #C + #G + #T

2. Chaque oligo est autour de 1000 bases de 3’ end de la séquence disponible

3. Un oligo ne peut avoir une répétition contigue d’un seul nucléotide (ou poly(N)) de plus de 7 bases

Page 28: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Choix des sondes et règles de sélection

4. Une oligo ne peut avoir une potentielle hairpin avec une tige de plus de 9 bases

5. Un score normalisé est assigné à chaque oligo basé sur le nombre de répétitions

Les oligos avec plus de répétitions ayant un score plus grand que le seuil sont filtrés

Page 29: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Choix des sondes et règles de sélection6. Chaque Oligo a un score <= 70% d’identité avec

tous les autres gènes Utilisez Blast sur les 96073 séquences de l’humain

7. Chaque Oligo de n’importe quelle taille ne peut avoir plus de 20 bases communes contigues avec n’importe quelle autre gène

Au final: Une fois que les candidats ont été choisies, les oligos

sont choisis avec un score minimal de blast (cross-hybridization)

Page 30: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Oligo Array 1.0 SCANNER PAGE

Page 31: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Analyse de données d’expression Données d’expression n gènes et

m échantillons (puces)

Expressions normalisées sur chaque puce et entre les puces

Gènes: certaines valeurs d’expression peuvent manquer

Samples/puces: Patients (sains/malades) Expérience temporelle

(ei,1; …;ei,m) = profil d’expression du gène i

(e1,j; …;en,j) = profil d’expression d’un échantillon

i

eij = Expresion du gène isur la puce j

1 2 ………………………………m

j

Gène 1....Gène n

Page 32: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Micropuces et analyse d’images Table des intensités

Gene 1: rouge 100 vert 125 …. 2 images (intensité rouge et intensité vert) (format

Tiff) Combinaison d’analyses 3 problèmes

Associer les pixels correspondant à un gène Calculer l’intensité Évaluer la qualité de la mesure

Page 33: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Association gène-pixels Localisation des spots

Structure micropuce n * m grilles 1 grille = k*l spots

Problème

Irrégularité du placement des spots Grilles non alignées Grilles courbées (verre) Espace entre grilles inconstant Spots inconstants dans une grille

Doit être vérifié avant l’analyse

Page 34: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Association gène-pixels Segmentation: différencier,

dans la zone associée à un gène, les pixels présentant un signal dû à l’hybridation (foreground) du fond (background)

Problème difficile de traitement d’image

4 méthodes (entre autre) Cercle fixe Cercle adaptatif Forme adaptative histogramme

Page 35: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Méthodes de segmentation Cercle fixe (ScanAnalyze)

Pas d’intervention utilisateur Méthode sommaire et limitée

Cercle adaptatif Diamètre spécifique à chaque spot ScanAlyze: ajustable à la main

Forme adaptative Non circulaire Algorithme de Watershed Étendre la zone « foreground" à partir d’un pixel de départ (seed)

histogramme

Page 36: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Détermination du fond

Nous avons tous les éléments pour transformer notre image en données numériques avant d’évaluer la qualité

Page 37: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Informations calculées Foreground (signal) : ration Rouge/vert

Moyenne et médian des pixels du signal La médiane est moins sensible aux pixels extrêmes

Background idem

Intensité (intégral, moyenne, mediane) et forme du signal

Étiquette sur les pixels douteux (contrôle de la qualité) Signal moins fort que le fond Déviation standard élevée Signal trop bruité,…

Page 38: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Exemple ImaGene

Page 39: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Résultat d’analyse d’expression

Page 40: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.
Page 41: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Saturation

Page 42: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Saturation Les spots partiellement saturés peuvent être traités en

supprimant seulement les pixels aux alentours du spot

Peut être réalisé par traitement d’image, un facteur de

saturation de mois que 1 sera considéré

Facteur de saturation = fraction des bons pixels non saturés

Les spots complètements saturés ne peuvent être utilisés pour

une analyse quantitative

Page 43: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Contrôle de la qualité Le contrôle de qualité d’un spot

peut se faire par traitement d’image

Score de QC = Aire /Perimètre

Cercle idéal = R/2

Si score < cercle idéal, mauvaise forme

Spot pixel > 2*median(bkg) est pris comme estimé du ratio signal/bruit > 50%

Page 44: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Normalisation But: comparer les expressions de chaque spot pour

déterminer les gènes sur ou sous exprimés Il faut que les mésures soient comparables

Problèmes: Les expériences de micropuces sont soumises à de multiples biais

aléatoires ou systématiques Données bruitées Résultats bruts non comparables

souhait: éliminer les variations non biologiques pour qu’un gène qui est reconnu comme exprimé différentiellement le soit pour les raisons biologiques étudiées

Page 45: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Sources d’erreurs Aléatoires

Systématiques ARN hybridé: quantité ou préparation Conditions expérimentales ou qualité de la puce Puces multiples Biais spatiaux ou biais de couleurs

Problème de correction Variation locale, intensité, non linéaire

Pour diminuer les variations non corrigées: Réplicats biologiques: plusieurs puces (coût), samples pooling Réplicats techniques: sur une même puce ou différentes puces

Page 46: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Techniques de normalisation: survol Interne à une puce (Rouge vs vert) MA-plot: M = log(R/V)

1 A = log (sqrt(RV)) y- M: log ratio x-A: average log-intensity Si il n’y a pas de biais, on a en gros des données distribuées

en nuage autour de y = 0 Principe de normalisation

M = M-quelque chose

Calculée sur un ensemble S de spots

Page 47: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Normalisation dépendant de l’intensité M = M – Cs(A) Cs(A) = (h*A + c) h = pente c = décalage (h*A + c) = régression linéaire D’autres formes: non linéaire (Loess)

Page 48: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Régression linéaire

Page 49: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Régression non linéaire (Loess)

Page 50: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Normalisation entre plusieurs puces Exemple: nous disposons d’une puce par patient et

nous voulons comparer toutes les puces

Technique Analyse de box plot Modification par

Rééchelonnage Recentrage Normalisation de la distribution

Hypothèse: Les variations proviennent du processus expérimental et

non pas de valeur biologique

Page 51: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Normalisation entre plusieurs puces

Page 52: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Types d’analyse Recherche de groupes de gènes ayant des profils

d’expression similaires Gènes réagissant de la même façon à un stimulus (froid,

maladie, …) Recherche d’échantillons au profil similaire

Classification des sous-types d’une maladie Solution: clustering

Construction d’un classifieur ou prédicteur Diagnostic à partir du profil

Inférence de réseaux de régulation

Page 53: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Comparaison entre 2 profils Problème

2 vecteurs V1 et V2: profils

V1 = (x1,…,xk)

V2 = (y1,…,yk)

(k = n ou m) Ces deux profils sont –ils similaires?

Similarité ? Correlation distance

Page 54: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Correlation R(V1,V2) = coefficient de corrélation entre les profils V1et V2 Représente le niveau de relation entre ces 2 profils -1 ≤ r ≤ 1 1: correlation positive -1: correlation négative 0: pas de correlation Mésure de colinéarité

Page 55: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Correlation standard (Pearson) V1 = (1, 2, 3, 4) et V2 = (1, 2, 3, 4) => r = 1

V1 = (1, 2, 3, 4) et V2 = (4, 3, 2, 1) => r = -1

V1 = (1, 1, 1, 1) et V2 = (1, 1, 1, 1) => r = 0

Remarque: si les données ont été centrées avec moyenne 0 et écart type 1 alors R = somme des xiyi

Page 56: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Correlation de pearson Fortement correlé (r = 0.97)

Page 57: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Correlation de pearson Correlé négativement (r = -0.47)

Page 58: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Corrélation de Spearman Principe: prendre en compte l’ordre des xi et yi plutôt

que leurs valeurs Exemple:

V1 = (-4, 1, -2, 1) et V2 = (-3, -2, 1, -1)

V1 = (1, 3, 2, 3) et V2 = (1, 2, 4, 3)

But: minimiser l’influence du bruit et des outliers Plus spécifique que Pearson Moins sensible que Pearson Problème: Perte de la direction de la régulation

Page 59: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Mauvaise correlation due à un outlier Correlation de 0.63 à cause de l’outlier

Page 60: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Corrélation et Jacknife Principe:

Éviter d’être trop sensible à un ou des outliers l = entier fixé (petit) pour le nombre d’outliers à éliminer

au maximum

( ){ }I i que tel xdes privé

||]&[|,,min),(

i11

2121

∉=

−=≤=

VVoù

lkIkIVVrVVr

I

IIj

En prenant le min, on élimine les cas où un ou plusieurs points sont dominants

Page 61: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Les distances Distance euclidienne

Distance de correlation

Distance de Manhattan

Information mutuelle

Et d’autres

Page 62: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Distance euclidienne La distance que nous avons

tous appris au secondaire

Distance entre les échantillons

Peut être généralisé à N dimensions

Chaque gène est une dimension. Donc pour n gènes, nous avons un espace à n-dimension

( )∑=

−=dimension

1

2),(m

iii QPQPd

Page 63: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Distance euclidienne est sensible à l’échelle

Bien que les profils soient similaires, BUR6 est beaucoup plus régulé que IDH1

(a)Distance euclidienne = 5.8 (b) les données ont été mise en échelle en divisant par l’écart type D = 0.88

Page 64: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Différences entre la distance euclidienne et la corrélation de Pearson

r = 0.79

d = 0.21

Page 65: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Distance de Manhattan Appelé également city block distance |∆x| + |∆y|

Page 66: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Information mutuelle Si nous connaissons quelques choses d’une variable aléatoire X,

quelle information peut –elle nous donner pour la distribution de probabilité Y

Basée sur l’entropie

L’entropie se définie comme

L’information mutuelle se définie comme

Implanté dans le score TNOM (treshold number of misclassification) pour distinguer des gènes

Page 67: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Clustering hiérarchique Principe similaire aux algorithmes de clustering vus

en phylogénie comme NJ ou PGM.

E D: matrice de distances

clustering

arbre

Page 68: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Clustering des données d’expression Principe E: matrice n*m de données d’expression

C1,…, Ck : k groupes de profils Dans un bon clustering

2 profils appartenant à la même classe sont similaires: homogénéité des clusters

2 profils de classes différentes ne sont pas similaires: Séparabilité des clusters

Page 69: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.
Page 70: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Clustering: aspects techniques 3 points

Choix de la distance

Choix des 2 clusters à regrouper En général les 2 clusters les plus proches (Eisen,

1998)

Calcul de la distance du nouveau cluster aux autres clusters

Page 71: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Chaînage (linkage) Single linkage

d(C1,C2) = distance entre leurs éléments les plus proches

Average linkage

d(C1,C2) = moyenne des distances entre les gènes de chaque cluster

Complete linkage

d(C1,C2) = distance entre leurs éléments les plus éloignés

Notes 3, 4 et 5

Page 72: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Analyse d’un clustering Bootstrap

Rééchantillonnage de colonnes, lignes ou cases Arbre consensus + scores de bootstrap Bootstrap paramétrique

Intégrer les paramètres statistiques connus dans le rééchantillonnage (variabilité, distribution, …)

Choix des clusters Se baser sur la longueur des branches

Voir notes 1 et 2

Page 73: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Clustering par partitionnement: k-mean Principe

Définir une notion de représentant pour un cluster: Moyenne (centroide) : (1,2,3) et (3,1,2) => (2,1.5,2.5) Fixer le nombre K de clusters voulus

Algorithme1. Assigner aléatoirement chaque profil à un des k clusters2. Calculer le représentant de chaque cluster3. Pour chaque profil x: déplacer x dans le cluster dont le

dont le représentant est le plus proche de x4. Si aucun profil n’a changé de cluster: arrêter5. Sinon retourner en 2.

Page 74: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Clustering différent par rapport au nombre de cluster

Page 75: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Caractéristiques du k-mean But: essayer de minimiser le critère suivant: Technique:

Algorithme de machine learning (apprentissage HMM)

Défauts: Sensibilité à la partition initiale

Répéter plusieurs fois et faire un consensus Choix du paramètre k

En essayer plusieurs Multidimensional scaling (MDS)

Validation Homogénéité vs séparabilité bootstrap

( )( )∑ ∑= ∈ ⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧k

i iclusterxiclusterrepxd

1

2)(,

Page 76: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Données d’expression et classificationConstruction d’un classificateur

Expérience de micropuces:n gènes, m samples (patients), k classes (type de

maladie, pronostic, ….)

On connaît laclasse de chaque

sample

Matrice de profilsd’expression

Apprentissage (reconnaître lesdifférents types de maladie par

le profil associé)

Classificateurou prédicteur

Prédiction du type demaladie de ce patient

Profild’expression

de patient(micropuce,

PCR)

Page 77: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Principaux problèmes Choix des gènes pertinents vis-à-vis de la classification

souhaitée

Méthode d’apprentissage Apprentissage supervisé car on connaît la classe de chaque sample

Méthode de classification

Validation du prédicateur

Notions importantes Séparabilité des données

Linéaire/ non linéaire

Page 78: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Séparabilité; linéarité

Page 79: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Séparabilité; linéarité

Page 80: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Séparabilité; linéarité

Page 81: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

K-nearest-neighbor Données:

m samples classifiés (A) p gènes classificateurs s un nouveau sample: données d’expression pour les p

gènes choisis Deux paramètres k et l

Algorithme Examiner les k samples les plus proches de s Assigner à s la classe contenant le plus grand nombre de

samples parmi ces k voisins, sauf si on en a moins de l auquel cas s est non classifié

Page 82: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

K-nearest-neighbor Propriétés

Positives Rapide Apprentissage trivial Non sensible à la linéarité

Négatives Sensible aux données trompeuses Sensible à la distance choisie Sensible aux choix des p gènes

Remarque: Souvent l = 0 alors on parle de N-N

Page 83: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Classification par centroïde Données

m samples classifiés en k classes p gènes classificateurs s nouveaux samples ( p gènes)

Algorithme Calculer le centroïde de chacune des k classes Affecter s à la classe du plus proche centroïde

Propriétés Rapide, sans apprentissage Sensible à la non linéarité des données

Page 84: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Classification par centroïde

Page 85: BioInformatique des micropuces Abdoulaye Baniré Diallo 25 mars 2008.

Autres approches Analyse par discriminant Linéaire (LDA)

S’applique à 2 samples seulement Séparation par un hyperplan (droite) minimisant la variance dans

chaque classe et maximisant la variance entre classes Considère seulement les données linéairement séparables

Réseau de neurones artificiels

Support Vector Machines (version sophistiqué de LDA)

Validation Similaire aux HMM Training set / test set Cross validation LOOCV (similaire à la validation croisée, mais un seul sample laissé)