Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

40
Master 2007 1 Introduction à la fouille de données en BioInformatique Master EID 2008 Cours MASTER EID-P13 2008 Jean-Daniel Zucker DR à l’IRD UR GEODES (Modèlisation Mathématiques Et Informatiques des Systèmes Complexes) UMR U872 Eq. 7 INSERM 1 lundi 24 mars 2008 Master 2007 2 Plan I. A) Généralités et rappels B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces Clustering Classification/Prediction Feature Selection IV. Conclusion http://videolectures.net 2 lundi 24 mars 2008

Transcript of Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Page 1: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

1

Introduction à la fouille de données en BioInformatique

Ma

st

er

EID

20

08

Cours MASTER EID-P13 2008

Jean-Daniel Zucker

DR à l’IRD UR GEODES (Modèlisation Mathématiques Et Informatiques des Systèmes Complexes)

UMR U872 Eq. 7 INSERM

1lundi 24 mars 2008

Master 2007

2

Pl

an

I. A) Généralités et rappels

B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

• Clustering

• Classification/Prediction

• Feature Selection

IV. Conclusionhttp://videolectures.net

2lundi 24 mars 2008

Page 2: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

3

Agents autonomes

150 mile off-road robot race across the Mojave desert

Natural and manmade hazards

No driver, no remote control

No dynamic passing

Fastest vehicle wins the race (and 2 million dollar prize)

http://www.darpa.mil/grandchallenge/rules.asp

3lundi 24 mars 2008

Master 2007

4

Grand DARPA challenge (2005)

•Tâche: apprendre le programme de conduite en temps réel

4lundi 24 mars 2008

Page 3: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

5

Grand DARPA challenge (2005)

Top three finishers to receive $2 million, $1 million and $500,000 prizes. (12/8/06)

5lundi 24 mars 2008

11/12/06

des données (2/2)6

Le risque de métastase est x15 pour les profils «!mauvais pronostic!» p=0.003

Etude d’une cohorte de 295 cancers du sein

avec/sans métastase ganglionnaire (Vijver et

al., NEJM, décembre 2002)

70

gèn

es:

«!p

rog

no

sis

cla

ssifi

er g

enes!»

An

née

s

6lundi 24 mars 2008

Page 4: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

Types d’apprentissages

7

1. Apprentissage superviséprédiction/régression/classification

apprentissage de paramètres

2. Apprentissage non-supervisé

regroupement (clustering)

3. Apprentissage par renforcement

planification dans monde inconnu

supervision par l’environnement

7lundi 24 mars 2008

Master 2007

Formulation du problème d’apprentissage supervisé

8

Learning – Problem Formulation I

ROunion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 4

· · ·natural plastic natural plastic

+1 -1 +1 -1?

Le ‘Monde’:Donnees: {(xn, yn)}N

n=1,xn ∈ Rd, yn ∈ {±1}Fonction cible inconnue: y = f (x) (or y ∼ P (y|x))Distribution inconnue: x ∼ p(x)

But: Etant donne n nouvel x, predire y

Probleme: P (x, y) est inconnu!

8lundi 24 mars 2008

Page 5: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

9

Formulation du problème d’apprentissage supervisé

• Si f est une fonction continue

– Régression (ex: durée de vie d!un malade)

– Estimation de densité

• Si f est une fonction discrète

– Classification (ex: niveau de gravité)

• Si f est une fonction binaire (booléenne)– Apprentissage de concept (ex: rechute oui/non plastic: oui/non)

9lundi 24 mars 2008

Master 2007

Formulation du problème d’apprentissage supervisé

10

Learning – Problem Formulation II

ROunion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 5

Le ‘Modèle’Espace des Hypotheses: H =

{h | h : Rd → {±1}

}

Fonction de perte: l(y, h(x)) (par ex. I[y "= h(x)])

But: Minimiser la vraie (attendue) perte – “erreuren generalisation”

h∗ = argminh∈H

L(h) with L(h) := EX×Y l(Y, h(X))

Probleme: on a qu’un echantillon de donneesdisponible, P (x, y) inconnue!

Solution: Trouver un minimiseur empirique

hN = argminh∈H

1

N

N∑

n=1

l(yn, h(xn))

Comment construire efficacement des hypothesescomplexes de faible erreur en generalisation ?

10lundi 24 mars 2008

Page 6: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

11

Exemples de fonctions de perte

• Discrimination

• Régression

• Estimation de densité

l (h(xi), u

i) =

0 si ui = h(x

i)

1 si ui ! h(x

i)

" # $

l (h(xi), u

i) = h(x

i) ! u

i[ ]2

l (h(xi)) = ! ln h(x

i)

yi

yi

yi

yi yi

11lundi 24 mars 2008

Master 2007

12

Pl

an

I. A) Généralités B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

• Clustering

• Classification/Prediction

• Feature Selection

IV. Conclusion

12lundi 24 mars 2008

Page 7: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

13

Qu’est-ce que la Bio-Informatique?

Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour:

! Formaliser des problèmes de biologie moléculaire;

! Concevoir des solutions computationelles à la portée des machines,

! Développer et valider des outils;

! Analyser, structurer, comparer, traiter les information biologiques

! Stocker, accéder, filtrer ces informations

! Modéliser des processus biologiques

! Prédire des résultats biologiques; etc.

Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire.

13lundi 24 mars 2008

Master 2007

14

Une définition

• La bioinformatique est une science interdisciplinaire – Analyser l'info. biologique disponible et produire de nouvelles K.

– Propose et développe des modèles, des méthodes et des outils

– Requiert des K. en mathématique, en informatique et en biologie.

(Introduction à la bioinformatique Cynthia Gibas & Per Jambeck , O’Reilly.)

Langage: BIOPERL

Algorithmique : ex. Algo Appariement BLAST

Réseaux : ex. Grille de calcul GBIO

BD: ex: NCBI (1988 Nat. Res. Mol. Biol)

Modèlisation: Réseaux de régulations Equa Diff.

IA: Prédiction de gènes14lundi 24 mars 2008

Page 8: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

15

Cellule Noyau

Chromosome

Protéine

National Human Genome Research Institute

Gene (ADN)Gene (ARNm), Simple brin

Niveaux de l’information biologiquel'éty

molo

gie d

e chro

moso

me: ch

rom

o =

couleu

r et som

a =

corp

s: des co

rps co

lorab

les

15lundi 24 mars 2008

Master 2007

16

Quelles Types d’informations: «omes» ?

Génome (l!ensemble du matériel génétique d'un individu ou d'une espèce.)

Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)

Protéome (l'ensemble des protéines exprimés à partir du génome)

Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …)

Bioinformatics in the Post-Genomic

Era: Genome, Transcriptome,

Proteome, and Information-Based

Medicine

16lundi 24 mars 2008

Page 9: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

17

Structure d’un gène codant une protéine

5!’ 3!’TATA

- 25 - 30

Début de la

transcription

Partie transcriteRégion 5!’ régulatrice : promoteur

Introns: séquences transcrites puis éliminées (épissage)

Exons: séquences retouvées dans l’ARNm

Séquences exoniques retrouvées dans l’ARNm mais non traduites

17lundi 24 mars 2008

Master 2007

18

Traduction : le code génétique (de l’ARN)

- Les protéines sont formées de 20 acides aminés différents qui s!’enchaînent de façon bien précise.

- L‘ADN a une structure primaire formée de l!’enchaînement de 4 bases. Pour traduire l!’information ADN ==>

acides aminés, il faut donc au minimum un enchaînement de trois bases (codon) pour définir un acide aminé. Il

existe donc 64 possibilités.

18lundi 24 mars 2008

Page 10: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

19

Le transcriptome: entre le gène et la protéine

AR

N

pri

ma

ire

TRANSCRIPTIONRecopie d!un brin où U à la place de T

MATURATIONEpissage alternatif, …

AAAAAAAAAAAAAAAAAA…..AAAAA

AAUAAAAAAAAAAAAAAAAAAAAAA…..AAAAA

Ribosomes

NOYAU

CYTOPLASME

AAG CGC TTG CGC TGT ATG CGT CCG

AAG CGC UUG CGC UGU AUG CGU CCG

A

DN

A

RN

mes

sag

erP

roté

ine

TRADUCTION

Exp

ressio

n d

’un

gen

e

19lundi 24 mars 2008

Master 2007

20

….ACGTGGTTAAATCGTATGCTTAGCTACCCACGTGGTTAAATCGTATGCTTAGCTA

GTTACGTGGTTAAATCGTATGCTTAGCTAGCCACGTGGTTAAATCGTATGCTTAGCT

ATTTACGTGGTTAAATCGTATGCTTAGCTACGCACGTGGTTAAATCGTATGCTTAGC

TA………

ADN

• Localisation: noyau de chaque cellule

• Composition: Nucleotides

• 4 Types de Nucleotide Bases: A, G, C, T

• Humain: 3 millions de kilobases ADN, 1 mètre

• 90% “Junk DNA”; 10% Genes

…..ACGTGGTTAAATCGTA……

….UGCACCAAUUUAGCAU……

• T->U• Modifications

ARN

• 3 Nucleotides "1 acide aminé• 20 acides aminé

• Modifications Post-traduction

Protéines

20lundi 24 mars 2008

Page 11: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

21

Les types d’information biologique : les “omes” et outils associés

ARN

Transcriptome

ADN

Génome

enzymes

P

O

O

O P

O

O

O P

O

OO

ON

O

N

N

O

N

N

O

Métabolome

ProtéomeProtéines

régulation

ATP

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50

es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38

y2312.12

330.13

b 762.36

y1516.25401.24

932.44

y3

825.42

1033.48

1259.57

TCACTAC

GGGTCAG

GGGAAGG

AAAGGGG

AACTGAG

AGATTT..

UCACUAC

GGGUCAG

GGGAAGG

AAAGGGG

AACUGAG

AGAUUU..

Séquenceur

Puces

RTPCR Electrophorèse

Spectromètrede masse

Puces

21lundi 24 mars 2008

Génome (l’ensemble du matériel génétique d'un individu ou d'une espèce.)

– Identifier, prédire les gènes dans une séquence (HMM)

– Aligner et comparer de séquences ex: BLAST (Basic Local Alignment Search Tool)

Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)

– Analyser l’expression des gènes différentiel. exprimés / conditions

– Regrouper des gènes co-exprimés, Réseaux de régulation des gènes

– Identifier la fonction de gènes.

Protéome (l'ensemble des protéines exprimés à partir du génome)

– Prédire de la structure secondaire, la fonction des protéines, …

– Analyser, mesurer l’expression en fonction des organes

Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …)

– Analyser, visualiser, prédire, mesure des concentrations

22

Problemes algorithmiques et “omes” : le rôle de l'apprentissage automatique

Normale Précancereuse Cancereuse

A B C

Exp

ress

ion

Lev

el

A B C

Exp

ress

ion

Lev

el

A B C

Exp

ress

ion

Lev

el

22lundi 24 mars 2008

Page 12: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

23

APPRENTISSAGE ET GENOME

• Les observations sont ordonnées

• Un processus aléatoire peut être représenté par une machine à état stochastique.

• Evaluer la probabilité d!une séquence donnée étant donné le model (Forward)

• Trouver le chemin le plus probable dans un modèle étant donnée une observation (Viterbi)

23lundi 24 mars 2008

Master 2007

24

APPRENTISSAGE ET GENOME

• Problème: – Trouver les régions codantes (exons) et non-codantes (introns)

d!un brin d!AND. Les sites des “splice”: accepteur et donneurs

• Application:– Annotation de genes séquencés

– Compréhension des mécanismes de transcriptions, etc.

==> Apprentissage des paramètres à partir d!exemples (cf. Rätsch)24lundi 24 mars 2008

Page 13: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

25

APPRENTISSAGE ET PROTEOME

Structure Primaire

– Chaîne d’acides aminés

– Chiralité (lévogyre(-),dextrogyre (+))

H20

H20 H20

H20

H20

H20

H20

H20

H20

Structure Secondaire

# Deux structures: Hélice Alpha, Feuillet Beta

http://io.uwinnipeg.ca/~simmons/cm1503/proteins.htm

25lundi 24 mars 2008

Master 2007

Prédiction de la structure secondaire, teriaire et quaternaire

26

# Structure tertiaire– Structure 3D: Arrangement

séquentiel des structures

# Structure quaternaire– Protéines avec plus d’une

chaîne

– Arrangement des chaînes

26lundi 24 mars 2008

Page 14: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

Différentes classes à prédire

27

# dont:– Alpha/Alpha

# Mainly packing of alpha helices

– Beta/Beta# Mainly one or more beta sheets

– Alpha/Beta# Roughly alternate alpha helices and beta sheets

– Alpha+Beta# Mixed alpha helices and beta

– Coil# Mainly small proteins (fewer than 50 residues)

27lundi 24 mars 2008

Master 2007

Tâche d’apprentissage

28

Formatlisible

Algorithmed’apprentissage

StructurePredictor

– Déterminer la structure de la protéine est difficile -> prédiction

– Nombreux algorithmes

– CAPS : Comparative Assessment of Protein Structure Prediction

– Prédiction à l’aveugle les chimistes ne publient pas leurs résultats et les algorithmes sont comparés.

28lundi 24 mars 2008

Page 15: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

Etat de l’art

29

# Prédiction de la structure secondaire– Alpha, Beta, Coil

# Majority class predictor: 40%

# Prediction est passée de 60%– avec des méthodes à bases de règles.

– à 80% avec des approches ML

– NN et SVM très bons

– ILP aussi très performants

29lundi 24 mars 2008

Master 2007

30

Des BD et encore des BD…

• Base de Données de Motifs – Prosite, Pfam, BLOCKS, TransFac,

PRINTS, URLs,…

• Base de Données sur les maladies– GeneCards, OMIM, OMIA,…

• Base de Données taxonomique• Base de données littérature scient.

– PubMed, Medline,…

• Base de données de brevets– Apipa, CA-STN, IPN, USPTO, EPO,

Beilstein,…

• Autres…– RNA databases, QTL…

• Base de Données ADN– GenBank, DDBJ, EMBL,…

• Base de Données Protéines– PIR, Swiss-Prot, PRF, GenPept,

TrEMBL, PDB,…

• Base de Données EST– dbEST, DOTS, UniGene, GIs,

STACK,…

• Base de Données Structure– MMDB, PDB, Swiss-3DIMAGE,…

• Base de Données voies métabol.– KEGG, BRITE, TRANSPATH,…

• Base de Données intégrées– SRS

30lundi 24 mars 2008

Page 16: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

31

Données en bioinformatique

• Explosion de la quantité de données (ADN 73 Gb,

arrivée des données biopuces, voies

métaboliques, …)

• Croissance exponentielle des données (11-15% tous les 3 mois), plus traitable localement

• Données hétérogènes dans leur structure et leur

sémantique

• Systèmes d!information hétérogènes

• Beaucoup de connaissances cachées, privées ou inconnues.

• …

31lundi 24 mars 2008

Master 2007

32

http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

Croissance des données dans GenBank

http://commons.wikimedia.org/wiki/Image:Growth_of_Genbank.svg

32lundi 24 mars 2008

Page 17: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

33 Les Défis

! Décoder l!information contenue dans les séquences d!ADN et de protéines! Trouver les gènes

! Différencier entre introns et exons

! Analyser les répétitions dans l!ADN

! Identifier les sites des facteurs de transcription

! Étudier l!évolution des génomes

! Génomique Comparative! Construire les relations de parenté entre organismes

! Génomique fonctionnelle! Étudier l!expression des gènes

! Étudier la régulation des gènes

! Déterminer les réseaux d!interaction entre les protéines

! Génomique structurale: ! Modéliser les structures 3D des protéines et des ARN structurels

! Déterminer la relation entre structure et fonction

! Pharmacogénomique

33lundi 24 mars 2008

Master 2007

34

Pl

an

I. A) Généralités B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

• Clustering

• Classification/Prediction

• Feature Selection

IV. Conclusion

34lundi 24 mars 2008

Page 18: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

35

Transcriptome: perspective historique

• Mécanisme d'hybridation de l!ADN (1960s)

• «!un fragment d’ADN simple brin ou d’ARN messager

est capable de reconnaître son brin complémentaire

parmi des milliers d’autres: c’est le phénomène

d’hybridation!»

– Détection des hybrides

– Fixation sur les supports:

»Southern blots (1970s), Northern blots, Dot blots

Dans l’ère de la “post-génomique”: identifier la fonction des gènes

35lundi 24 mars 2008

Master 2007

36

Une (r)évolution ?

•La nouveauté (1990): passage à l!échelle

«!Il est devenu courant de déposer 20!000!préparations différentes

sur des membranes de Nylon de 20!centimètres de côté. La puce à ADN (DNA chip ou biochip en anglais) résulte de l’évolution de ce format vers une miniaturisation plus poussée, qui atteint une densité de 250!000!unités réactionnelles par centimètre carré.!»

–centaines, milliers de sondes au lieu de 10

•Sondes sont attachées à des supports physiques

•La robotique est largement utilisée

•L!informatique joue un rôle clef dans toutes les étapes

36lundi 24 mars 2008

Page 19: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

37

Pl

an

A. Les données BioPuces: du signal aux données brutes

B. Stockage et standardisation des données

C. Le traitement statistique des données

D. Analyse et Fouille de données: Clustering

E. Analyse et Fouille de données: Annotations

F. Analyse et Fouille de données: Prédiction

37lundi 24 mars 2008

Master 2007

38

Principales technologies

• Sondes cDNA (> 200 nt) sur nylon ou verre

• Oligonucleotides (25-50 nt) sur du verre

• Oligonucleotides (25-60 nt) synthétisées in situ sur du silicon

• (et d!autres puces chromosomiques, …)

• Clontech, Incyte, Research Genetics : jusqu!à 8000 clones

• Incyte / Synteni - Biopuces à 10000 sondes, non distribuées (il faut envoyer l!ARN)

• Affymetrix - Biopuce basée sur des oligon. Ex: HG-U133A Affymetrix contient des sondes pour 22.000 gènes humain.

• …

Biopuces Commercialisées (liste non exhaustives)

Des puces possédant une unique opération: «!quantifier les transcrits!»

38lundi 24 mars 2008

Page 20: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

39

Un facteur limitant: le prix d’achat

• Prix des puces Affymetrix GeneChip (Prix 3 Mars 2008)

• Chaque puce « GeneChip » représente entre 10,000 et 40,000 gènes différents ou EST.

• Les prix ci-dessous tiennent compte d’un rabais …

* Rhesus Macaque Genome Array -"" " $460

* Human Genome HG-U133 Plus 2.0 - " " $460 * Human Genome HG-U133A 2.0 - " " " $310

* Murine Genome MOE 430 2.0 - " " " $460 * Murine Genome MOE 430A 2.0 - " " " $310 * Murine Genome MOE 430A -" " " " $410 * Murine Genome MOE 430B - "" " " $410

* Rat Genome RAE 230 2.0 - " " " " $435 * Rat Genome RAE 230A - " " " " $385 * Rat Genome RAE 230B - " " " " $385

* C. elegans Genome Array " " " " $310 * Canine Genome Array - "" " " " $310 * Chicken Genome Array - " " " " $ 435 * Drosophila Genome 2.0 - " " " " $310

http://www.ohsu.edu/gmsr/amc/amc_price.html

39lundi 24 mars 2008

Master 2007

40

Exemple: Analyse de la réponse à un VLCD

• Hypothèse: – L!expression de certains gènes clés varie en réponse au changement de

l!environnement nutritionnel ou hormonal.

• Matériels: – Données phénotypiques (investig. cliniques) et d!expression (Puces

pangénomiques (44000 ADNc)) au cours d!un régime hypocalorique.

• Méthodes: – Analyse différentielle, exploratoire et prédictive des liens phénotype/

expression.

J0 J3 J30

Données biopuces

Données cliniques

A B

Données génétiques

40lundi 24 mars 2008

Page 21: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

41

… autres types d’analyse

• Analyse de l!expression du génome pour caractériser– Effets de certains médicaments

– Mécanismes de développement de maladie– Réponses à des facteurs environnementaux

– Diagnostic moléculaire

– Réseaux de régulations de gènes

• Détection de variation de séquences– Typage génétique

– Détection de mutations somatique

– Séquençage direct

Seule l’imagination des chercheurs

peut limiter le nombre d’analyses…et leur budget

41lundi 24 mars 2008

Master 2007

42

Etape 1: De l’artisanat à la fabrication en série de puces

Clones d’ADN

Arraying

PCR

Figure de: David J. Duggan et al. (1999) Expression Profiling using cDNA microarrays. Nature Genetics 21: 10-14

42lundi 24 mars 2008

Page 22: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

43

URL: http://cmgm.stanford.edu/pbrown

Le calibrage du robot imprimeur

secteur:

Un print-tip

Puce: 25x75 mm

Spot-à-spot: 150-350 µm

Tweezer Split PinMicro Spotting

Pin

43lundi 24 mars 2008

Master 2007

44

Etape 2: Hybridation

Test Référence

RTcolorant

Fluorescent Cy5 et Cy3

Hybridation

44lundi 24 mars 2008

Page 23: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

45

Type II: Pool de référence d’ARN (tissus-teque)

• Tous les ARN de test sont comparés au même “pool” de référence.

• Permet de réduire le nombre d!expérimentations comparatives pour n de 0.5 x (n2-n) à n

• Le fait d!utiliser deux populations d!ARN en compétition et de mesurer le rapport d!hybridation permet d!éviter les complications liés aux problèmes de cinétique de l!hybridation.

• Permet de comparer des protocoles d!expérimentations

Le choix du plan d!expérience

Type I: Test/Référence Condi vs. condj ou avant/après

Série temporelles/Données appariées ou non

n=8nbpuces=28

n=8nbpuces=8

45lundi 24 mars 2008

Master 2007

46

Excitation

Laser 2Laser 1

Emission

Images

Etape 3: Le signal des puces

46lundi 24 mars 2008

Page 24: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

47

Cy3 Cy5Cy5Cy3

Cy5Cy3

log2

8

4

2

fois

2

4

8

Sous-exprimé

relative to

reference pool

Sur-exprimé

Mesure du ratio

47lundi 24 mars 2008

Hybridisation,

Nettoyage

ARN de Contrôle

ARN à tester

Cy3

Cy5

48

Le principe des puces : photographie de l’expression génique

Mesure de

la fluorescence

rouge/verte

Scan

Expériences

40 0

00 G

èn

es

Analyse des

profils

D’expression

Key factor of variability/precision:• Protocols (Type I ou Type II, “dye-swap”, replication)

• Quality of RNA used

• Technology of the chips (cDNA, oligo, …)

• Chip batches

• Hybrudizatiion (conditions and technician)

• Scan (software and technician)

• Number of chips

48lundi 24 mars 2008

Page 25: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

49

Taille des Bases de Données

Ex: VLCD 49 40000 cDNA Clement, et al.

49lundi 24 mars 2008

Master 2007

I. A) Généralités B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

• Clustering

• Classification/Prediction

• Feature Selection

IV. Conclusion, Projets...

50

Pl

an

50lundi 24 mars 2008

Page 26: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

51

Ge

ne

s

Experiments

Regrouper des gènes ayant le meme profil d’expression

51lundi 24 mars 2008

Master 2007

52

Temps ou conditions

Gen

es

Classification Ascendante Hiérarchique (Cluster [Eisen,98])

distance(D,E)

distance(X, Y)

X

Y

52lundi 24 mars 2008

Page 27: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

53

Temps ou conditions

Cluster A

Cluster BCluster CCluster D

Cluster E

Gen

es

Regrouper des gènes ayant le meme profil d’expression (II)

53lundi 24 mars 2008

Master 2007

54

Algorithmes de Clustering

• Hiérarchique

– single linkage method

– complete linkage method

– average linkage method

• Non-hiérarchique

– k-means method

54lundi 24 mars 2008

Page 28: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

55

Le “clustering” est un problème mal pose…

… mais on peut apprendre à un ordinateur le type de clustering que l’on désire.

Idée des articles présentés :

) comment apprendre à clusteriser

55lundi 24 mars 2008

Master 2007

56

Algorithmes de Clustering basés

• Similarité

– corrélation

• Distance– Euclidienne

– Manhattan Minkowski

56lundi 24 mars 2008

Page 29: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

57

Algorithme Hierarchique (principe 1/)

57lundi 24 mars 2008

Master 2007

58

min(dij)=d35=2

Algorithme Hierarchique (principe 2/)

• Single linkage method

1

2

3

4

5

1 2 3 4 5

58lundi 24 mars 2008

Page 30: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

59

Algorithme Hierarchique (principe 3/)

• Single linkage methodd(35)1=min(d31,d51)=min(3,11)=3

d(35)2=min(d32,d52)=min(7,10)=7

d(35)4=min(d34,d54)=min(9, 8)=8

(35)

1

2

4

(35) 1 2 4

d(135)2=min[d(35)2,d12]=min(7,9)=7

d(135)4=min[d(35)4,d14]=min(8,6)=6

(135)

2

4

(135) 2 4

59lundi 24 mars 2008

Master 2007

60

Algorithme Hierarchique (principe 4/)

• Single linkage methodd(135)(24)=min[d(135)2,d(135)4]=min(7,6)=6 (135)

(24)

(135) (24)

60lundi 24 mars 2008

Page 31: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

61

B) Classification Non-hierarchique

• méthode des K-moyennes

– 2 clusters initiaux : (AB),(CD)

– d2(A,(AB))=10

– d2(A,(CD))=61

– d2(B,(AB))=10

– d2(B,(CD))=9

– A,(BCD)

61lundi 24 mars 2008

Master 2007

62

Carte Auto-Organisatrice: Self-organization maps (SOM)

(Kohonen, 1982)

mi(t+1)=mi(t)+hci(t)[x(t)-mi(t)]

where, t is the time index,

hci(t)=f(||rc-ri||,t),

ri and rc are the location

of node c and I.

(Tamayo et al. PNAS, 1999)

Cartes de Kohonen

62lundi 24 mars 2008

Page 32: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

I. A) Généralités B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

• Clustering

• Classification/Prediction

• Feature Selection

IV. Conclusion, Projets...

63

Pl

an

63lundi 24 mars 2008

Master 2007

64

Classer et Prédire: algorithmes

• But : utiliser les données d!expression pour construire des modèles prédictifs ou des classeurs (par ex: arbre de décisions,, réseaux de neurones)

• Difficultés: peu d!exemples (conditions), souvent < 100, beaucoup d!attributs (gènes), souvent > 1,000

• Problématique d’apprentissage et statistique [MLJ, 2003]:

! réduction de dimensions (sélection de genes) adapter les algorithmes

Réseaux de neurones

Machine à vecteurs de support (SVM)

Arbre de décision

Random Forest

Arbre de régression

K plus proche voisins

Environnement: R, Bioconductor, Clémentine©, SAS©, MeV, BRB, TIGR©

64lundi 24 mars 2008

Page 33: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

65

Analyse pour la Classification et

Normale Précancereuse Cancereuse

A B C

Exp

ress

ion

Lev

el

A B C

Exp

ress

ion

Lev

el

A B C

Exp

ress

ion

Lev

el

• Problème: Construire des modèles pour la prédiction et classification à partir de données d’expression.

• Utilisation : Identification de gènes cibles (prédicteurs), Modèle prédictifs (d’un risque), Modèle de classification (traitement)

C

A

C > 0.9C< 0.9

65lundi 24 mars 2008

Master 2007

66

Construction automatique de classfieurs

Données d’apprentissage

(classées)

Algorithmede classification

Règles de classification

Apprentissaged’une règle de classification

Données non classées

Prediction

Une classe

66lundi 24 mars 2008

Page 34: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

67

?

Nouvellepuce

Mauais prognosticrecurrence < 5ans

Bon Prognosticrecurrence > 5ans

ReferenceL van’t Veer et al (2002) Gene expression profiling predicts clinical outcome of breast cancer. Nature, Jan.

ObjetsBioPuces

Feature vectorsL’expression des gènes de la puce

Classesprédéfinies“Diagnostic

clinique”

Données d’apprentissage

Règles de classification

Bon prognostic

67lundi 24 mars 2008

Master 2007

68

B-ALL T-ALL AML

ReferenceGolub et al (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286(5439): 531-537.

Classesprédéfinies

“type de tumeurs”

?

Nouvellepuces

Données d’apprentissage

Règles de classification

T-ALL

68lundi 24 mars 2008

Page 35: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

69

faible moyenne forteClassesprédéfinies

“Perte de poids après 30 jours”

?

Nouvellepucesà J3

Données d’apprentissage

Règles de classification

Perte moyenne

à J30

ObjetsBioPuces

Feature vectorsL’expression des gènes de la puce

à J3

DioGenes : Diet, obesity and genes

6th framework

Basé sur NUGENOB (5th framework)

69lundi 24 mars 2008

Master 2007

70

3) Les algorithmes: a) interpretables

Gene 1Mi1 < -0.67

Gene 2Mi2 > 0.18

0

2

1

yes

yes

no

no 0

1

2

Gene 1

Gene 2

-0.67

0.18

70lundi 24 mars 2008

Page 36: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

71

3) Les algorithmes: b) “paresseux” k-PPV

71lundi 24 mars 2008

Master 2007

72

[DLDA] Diagonal linear discriminant analysis

[DQDA] Diagonal quadratic discriminant analysis

NB: Vote pondéré dans Golub et al. (1999) est une variante de DLDA dans le cas biclasses

3) Les algorithmes: d) approches statistiques

72lundi 24 mars 2008

Page 37: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Bases d’apprentissage de la littérature

73

!"#"$%# &'()(*"+,-%./

01'(23#$4

%*%$

56%78+%$

9":%*#$ ;+"$$%$

!"#$%"&'% ())* +,-. +/ 0

12"%34 (5* )/65 7/ 0

12"%34 (5* )/65 56 +

89:;6, (6.* -0)) 6. /

<=">?@%2@'>?&% (60* 5/6/ 76 0

12%'> (6+* --57 )0 -

9?A?> (6)* 0,,, 60 0

!B&CD?&% (6-* ),06 60 +

E2?34%4" (66* 6,++ .,0 0

F2G@4 (67* 0+,/ 6+ )

Nombre d’attributs = O( [NB exemples]2)

73lundi 24 mars 2008

Résultats d’apprentissage sur ces bases

[Díaz-Uriarte,2006]

74lundi 24 mars 2008

Page 38: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

75

Problématique pour l’apprentissage

Peu d’exemple (50-100 biopuces)

Nombreux d’attributs (2,000-40,000 gènes)Une majorité d’attributs non pertinents

« Malédiction de la dimension »Performances des classeurs dégradées Modèles très complexesTemps de calcul importants

Interprétation biologique difficile

Réduction de dimension nécessaire ((ROC [Mamitzuka, 2006, Pattern Recognition], Incremental Wrapper [Ruiz et al. 2006], Revue [Guyon & Elisseeff, JMLR2003])3 types de méthodes dans le contexte des biopuces (Filter, Wrapper, Reformulation)

Probleme des estimateurs...

75lundi 24 mars 2008

Master 2007

76

Pl

an

I. A) Généralités B) petite intro à la bioinformatique

II. Une source de données: les BioPuces

III. La fouille de données BioPuces

• Clustering

• Classification/Prediction

• Feature Selection

IV. Conclusion...

76lundi 24 mars 2008

Page 39: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

77

Génomique Fonctionnelle/transcriptomique

• Une hypothèse: l’approche «!pangénomique!» plutot que «!gène candidat!»

• Le défis biotechnologique: mesurer simultanément l’expression de

milliers de genes (ou tous les gènes) —> les puces à ADN

• Les défis biologiques et médicaux:

" • Découvrir les fonctions des gènes d’après l’expressions.

" • Elucider les voies métabolique à partir de l’expression des gènes.

" • … aider au diagnostique

• Les directions de recherche en bioinformatique du transcriptome:

" • Analyse de données différentielles. Tests multiples (FDR)

" • Représentation des données d’expression et normalisation.

" • Outils de visualisation.

• Fouille de données. Analyse de données exploratoires.

• Intégration de bases de données, de connaissances, d’ontologies, …

77lundi 24 mars 2008

Master 2007

78

78lundi 24 mars 2008

Page 40: Jean-Daniel Zucker UMR U872 Eq. 7 INSERM

Master 2007

79

Conclusions: un long et lourd processus d’analyse

• Technologie dans une ère de maturité

• Variabilité expérimentale très forte mais force du parallélisme. Importance des réplications biologiques.

• Nécessité de stocker (standard) tous les résultats intermédiaires.

• Problématiques de recherche: statistique (multiplicité), réduction de dim. (sélection de gènes), prédiction (algorithmes adaptées), modélisation des réseaux de régulations, visualisation, BD, …

• Interprétation des listes de gènes requiert des connaissances.

• Prédiction requiert toujours plus de biopuces.

• Validations biologiques restent indispensables (ex: RT-PCR)

• Complémentaire de toutes les autres méthodes d!investigation

http://videolectures.net/mlsb07_evry/

79lundi 24 mars 2008