1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées...

32
1 Club SAS Stat 12 Décembre 2002 Application des réseaux Application des réseaux de neurones aux données de neurones aux données censurées censurées Antonio Ciampi Mac Gill Antonio Ciampi Mac Gill University, Canada University, Canada Yves Lechevallier INRIA, France Yves Lechevallier INRIA, France

Transcript of 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées...

Page 1: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

1Club SAS Stat12 Décembre 2002

Application des réseaux Application des réseaux de neurones aux données de neurones aux données

censurées censurées

Antonio Ciampi Mac Gill University, Antonio Ciampi Mac Gill University,

CanadaCanada

Yves Lechevallier INRIA, FranceYves Lechevallier INRIA, France

Page 2: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

2Club SAS Stat12 Décembre 2002

Problème (1/2)Construire un modèle de prédiction du temps de

survie à partir d’un ensemble de descripteurs ou variables

• Ingénierie:– Brown, S.F., Branford, A.J., Moran, (1997) ‘On the use of Artificial

Neural networks for the Analysis of Survival Data’, IEEE Transacions on Neural Networks, 8, 1071-1077

• Médecine: - Faraggi, D., Simon, R. (1995) ‘A Neural Network Model for Survival Data’, Statistics in Medicine, 14, p73-82

- Biganzoli, E., Boracchi, P., Mariani, L., Marubini, E. (1998) ‘Feed Forward Neural Networks for he analysis of censored survival data : a partial logistic regression approach’ Statistics in Medicine, 17, 1169-1186

Page 3: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

3Club SAS Stat12 Décembre 2002

Problème (2/2)

Difficultés:•Comment introduire la notion de censure dans un réseau de neurones?•Comment entraîner un réseau afin d’obtenir des bonnes prédictions sur des nouvelles données?

Page 4: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

4Club SAS Stat12 Décembre 2002

Organisation de la présentation

• Notion de base de l’analyse de survie

• Utilisation du Perceptron multi-couches

• Architecture, apprentissage, évaluation

• Un exemple

Page 5: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

5Club SAS Stat12 Décembre 2002

Analyse de Survie

t

Données de survie avec une censure à droite

L’approche statistique est de construire un modèle de régression approprié à partir du tableau de données

Page 6: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

6Club SAS Stat12 Décembre 2002

Données de survie

(z(i), t(i),(i)), i = 1,…,N

• z(i) son vecteur de description

•t(i) son temps de survie

(i) l’indicateur de censure (1 = observé, 0 = censuré)

Pour chaque observation i nous avons :

Un échantillon de taille N

Page 7: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

7Club SAS Stat12 Décembre 2002

La fonction de survie

Les variables prédictives servent à estimer le paramètre de la distribution de la fonction de survie

La fonction h(t;z) est définie à partir de la fonction de survie par:

z) S(t;

z) ;z ;

z ;

z ;

z.

()(

)(

)(

);(t

tSttS

tSdttdS

th

zz ;);( tTPtS

C’est le taux de décroissance de la survie en fonction de z

Page 8: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

8Club SAS Stat12 Décembre 2002

Hypothèses sur la fonction h(t;z)

)();( 0)( theth zz

h peut être décomposée comme un produit de deux fonctions. L’une dépend de t, l’autre est liée à z.

avec (0)=0

On suppose que les variables prédictives sont centrées et normées.

)](log[);( z ;z tSdt

dth

Page 9: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

9Club SAS Stat12 Décembre 2002

la vraisemblance

Pour une observation (z(i), t(i),(i)) le log de la vraisemblance est égal à :

)()(log)( )(0

)(0

)()( )( nnnn tHethlnz(n)z

t

duuhtH0

00 )()( Voir Cox et Oakes, 1984

Il faut estimer les fonctions h0 et à partir des données

Page 10: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

10Club SAS Stat12 Décembre 2002

Modèle exponentiel

(z) = w’z

)()()( )(

)( nnn telnz(n)z

On suppose que le fonction est linéaire

et que h0(t) = 0=constant

d’où l’équation du log de la vraisemblance

)log( 0 redéfinir

Page 11: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

11Club SAS Stat12 Décembre 2002

Régression

1

1

I

z

z

O u t ( ; ) (z w z ; w )

(z;w) = w’z

Page 12: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

12Club SAS Stat12 Décembre 2002

Architecture du Perceptron Multi-Couches

Entrée

p+1 valeurs

Couche cachée

H neurones

Sortie calculéeOut(z;w)

Sortie désirée (t,)

Page 13: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

13Club SAS Stat12 Décembre 2002

La fonction de transfert les variables prédictives sont associées aux cellules de la couche d’entrée

Le couple (t,) est associé au neurone de la couche de sortie

J

i

p

jiijki zwfwffWwOut

1 1

)1(,

)2(,))(,();( zz

L’apprentissage de ce réseau est supervisé. Il utilise un algorithme de rétropropagation du gradient de l’erreur

W est un vecteur de matrices

Page 14: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

14Club SAS Stat12 Décembre 2002

Algorithme du gradient stochastique

On choisit un w0 dans l'espace des solutions.

à l'étape t on effectue un tirage aléatoire. On obtient une réalisation zt

on procède à la mise à jour par la formule suivante :

w

zwww

),(

)1(tt

ttt

c

la suite de termes t positifs doit vérifier :

lim , ,t

t tt

tt

0

1

2

1

Page 15: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

15Club SAS Stat12 Décembre 2002

La mise à jour des pondérations Mesure de l’erreur le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids W.

On utilise l’erreur quadratique moyenne

Algorithme de minimisation de l’erreur On peut écrire qu’à l’étape t, le vecteur des matrices des pondérations W dépendent de l’étape t-1 par la formule suivante:

)(

),()1()(

)(,

)(,

)(, tw

tWctwtw

cji

tcji

cji

K

kkk yOuttWc

1

2),(

Page 16: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

16Club SAS Stat12 Décembre 2002

Calcul des pondérations

Pour le neurone i de la couche de sortie NC il faut calculer:

De manière générale nous avons :

)()1()(

,

)1(

)1()(,

.),(

)(.

),(

)(

),( cjc

icji

ci

ci

cji

se

tWj

tw

e

e

tWj

tw

tWj

)('.),(

.),(),( )(

)()(

)(

)()(NC

iNCi

NCi

NCi

NCi

NCi

efs

tWj

e

s

s

tWj

e

tWj

)(2),( )(

)(NC

itiNC

i

sys

tWj

Cette partie est dépendante

de la fonction de coût J.

Page 17: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

17Club SAS Stat12 Décembre 2002

Calcul des pondérations

11

1

)()()1(

1)(

)1(

)1()()('.

),(.

),(),( cc n

l

ci

clic

l

n

lc

i

ci

cl

ci

efWe

tWj

e

e

e

tWj

e

tWj

)1()(

1

)()1()1(

).('.),(),( 1

c

jc

i

n

l

clic

lc

ij

sefWe

tWj

W

tWj c

car )(' )()()(

)1(c

ic

lici

ci efWe

e

D’où

Ce calcul est indépendant de la fonction de coût J.

Page 18: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

18Club SAS Stat12 Décembre 2002

Perceptron multi-couches

(n))()( ,t);;( lwOutc nn (n)z

Fonction de coût :

)(;)()()( t);(,t);;()( nwzOutnnn n

ewOutwOutc (n)(n) zz

Avec le modèle exponentiel nous avons:

la fonction Out de sortie du réseau représente la fonction du modèle de survie

Page 19: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

19Club SAS Stat12 Décembre 2002

Architecture

Le choix le plus simple est d’utiliser un réseau de neurones ayant une couche cachée. Dans ce cas il faut spécifier le nombre de neurones dans cette couche.

1

1

p

z

z

w k( )2

Out ( ; ) (z w z; w)

w ij( )1

Page 20: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

20Club SAS Stat12 Décembre 2002

Apprentissage, évaluation

Apprentissage :L’objectif est de déterminer, à partir des données, le vecteur de pondération w qui minimise la fonction coûtÉvaluation : on se propose de comparer la performance de notre prédiction avec les approches « classiques »

Page 21: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

21Club SAS Stat12 Décembre 2002

GénéralisationOn veut estimer l’efficacité de notre prédiction par rapport à des situations futures. Cette prédiction a été construite à partir d’un ensemble d’apprentissage. Cependant cette prédiction dépend de l’architecture du réseau et donc à chaque modification de l’architecture nous avons une autre fonction de prédiction.

Un troisième ensemble des données (ensemble de validation) est donc nécessaire pour pouvoir comparer deux prédictions issues d’architectures différentes mais construites sur le même ensemble « d’apprentissage ».

Page 22: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

22Club SAS Stat12 Décembre 2002

« Early Stopping »Dans Bishop (1995) « Neural Networks for Pattern Recognition » de nombreuses solutions sont proposées pour comparer et évaluer différents fonctions de prédiction issues d’architectures neuronales différentes.

Dans cette stratégie on divise l’ensemble d’apprentissage Le en deux ensembles: l’ensemble d’entraînement Tr qui permet de calculer les pondérations w de réseau, l’ensemble de validation Vl qui permet d’arrêter le processus d’apprentissage. La convergence est déclarée quand la fonction de coût, évaluée sur Tr croit sur Vl. L’ensemble test Ts mesure la qualité de la prédiction choisie.

Page 23: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

23Club SAS Stat12 Décembre 2002

Choix de l’architectureC(wH(A) ;B) coût global d’une architecture avec H neurones dans

la couche cachée, évalué sur l’ensemble B mais estimé sur l’ensemble A.

wH(A, i, r)  pondérations wH à l'itération i de l’essai r (initialisation

au hasard) calculées avec A

H nombre de neurones fixé, choisir l’itération i et l’essai r par

(iV(H), rV(H)) =argmin { C(wH(Tr, i, r)) ;Vl)

pour  i = 1,2,....., et r = 1, 2,...R}

et déterminer le bon choix du nombre de neurones H* par 

H* = argmin {C(wH(Tr, iV(H), rV(H);Vl) ; h = 1,2,...}

Page 24: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

24Club SAS Stat12 Décembre 2002

Un exemple

Treize variables décrivent des rythmes cardiaques ont été utilisées pour construire une prédiction de la fonction de survie à partir d’un ensemble de 1550 malades ayant une maladie cardiaque.

L’ensemble de données a été divisé en trois parties: l’ensemble d’apprentissage Le (1000 malades) et l’ensemble test Ts (550 malades). L‘ensemble d’apprentissage a été divisé en deux : l’ensemble d’entraînement Tr ( 700 malades) et l’ensemble de validation Vl (300 malades)

Page 25: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

25Club SAS Stat12 Décembre 2002

Courbes d’évaluation sur Vl

140

145

150

155

160

165

170

175

180

0 50 100 150 200 250 300 350 400 140

145

150

155

160

165

170

175

180

0 50 100 150 200 250 300 350 400

H=1 H=2

Page 26: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

26Club SAS Stat12 Décembre 2002

Courbes d’évaluation sur Vl

140

145

150

155

160

165

170

175

180

0 50 100 150 200 250 300 350 400

H=8 H=10

140

145

150

155

160

165

170

175

180

0 50 100 150 200 250 300 350 400

Page 27: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

27Club SAS Stat12 Décembre 2002

Fonction coût sur Tr, Vl et Ts

vi ));,(( TriTrWC vh));,(( VliTrWC vh ));,(( TsiTrWC vh )1(

hb )( )1(hbSEH

1 275 426.38 152.68 298.16 0.16 0.20

2 185 420.05 151.15 296.40 1.55 1.32

3 57 423.18 151.15 296.16 1.21 1.08

4 143 407.46 152.35 307.56 1.42 2.39

5 67 415.38 150.77 299.34 1.10 1.43

6 50 420.20 150.60 298.54 1.36 1.36

7 39 420.00 152.67 302.68 0.86 0.68

8 79 410.60 149.19 299.82 1.40 1.03

9 22 423.31 153.58 294.50 0.82 0.92

10 73 409.12 152.35 303.51 1.87 1.97

 

));,(( TriTrWC vh

));,(( VliTrWC vh

));,(( TsiTrWC vh

H=4

H=8

H=3

Page 28: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

28Club SAS Stat12 Décembre 2002

(iTs(H), rTs(H)) =argmin { C(wH(Le, i, r)) ;Ts) ;

pour i = 1,2,....., r = 1, 2,...R} 

H = argmin {C(wH(Le, iTs(H), rTs(H)) ;

h = 1,2,..

Biais lié à l’utilisation de l’ensemble Ts:

))H);(r,ir,,(C()H);(r,ir,,((C(b HH

R

1rR1

H TsLewTsTrw TsV

Intérêt de l’utilisation de Vl

Page 29: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

29Club SAS Stat12 Décembre 2002

Biais associé à Ts

H iVl

C(wH(Tr,r(H),iVl(H)) ;Vl)

 bH

 SE(bH)

1 275 152.68 3.73 1.82

2 185 151.15 6.69 3.05

3 57 151.15 8.36 4.53

4 143 152.35 5.84 2.29

5 67 150.77 5.57 3.05

6 50 150.60 5.08 2.08

7 39 152.67 6.63 4.06

8 79 149.19 4.12 1.88

9 22 153.58 3.69 2.62

10 73 152.35 5.23 4.07

Page 30: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

30Club SAS Stat12 Décembre 2002

Mesures pour l’évaluation

i) Le coût global

ii) Moyenne quadratique de l’erreur de prédiction (c'est calculé après avoir complété la valeur censurée du temps en ajoutant la survie résiduelle attendue);

iii) l'adaptation du C-index de Harrel (Harrel et al.,1984).

C c Outn

Nn n( ; ) ( ( ; ); )( ) ( )D w z w y

1

Page 31: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

31Club SAS Stat12 Décembre 2002

Évaluation et comparaison de deux réseaux

avec la régression   Régression ANN

Ens Apprentissage 8 AN 2 AN

Coût = 573.73 563.14 563.50

EMS = 169.46 137.87 106.13

C-index = 0.68 0.70 0.68

Ens test

Coût = 327.98 294.28 298.29

EMS = 178.11 180.28 116.98

C-index =0.69 0.70 0.70

Page 32: 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

32Club SAS Stat12 Décembre 2002

ConclusionL’approche neuronale peut être appliquée avec succès à l'analyse de données de la survie

Notre approche évite la discretisation de la variable temps mais suppose un modèle paramétrique qui est un compromis entre l'approche semi-paramétrique de Faraggi et Simon et celle de Biganzoli.

Nous avons aussi utilisé une nouvelle approche qui permet d’arrêter le processus d’apprentissage et semble bien fonctionner avec un temps de calcul raisonnable.

La limitation majeure de ce travail peut être vaincue par le développement de modèles plus réalistes, par exemples des mélanges de distributions exponentielles.