Analyse de grandes bases de données en santé -...

21
. . Analyse de grandes bases de donn´ ees en sant´ e Alain Duhamel Micha¨ el Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Sant´ e Journ´ ee Th´ ematique Fouille de Donn´ ees

Transcript of Analyse de grandes bases de données en santé -...

Page 1: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

.

......Analyse de grandes bases de donnees en sante

Alain Duhamel Michael Genin Mohamed Lemdani

EA 2694 / CERIMMaster 2 Recherche Biologie et Sante

Journee Thematique Fouille de Donnees

Page 2: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Plan

...1 Problematique

...2 Knowledge Data DiscoveryPhase 1Phase 2

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 1 / 18

Page 3: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Plan

...1 Problematique

...2 Knowledge Data DiscoveryPhase 1Phase 2

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 1 / 18

Page 4: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Plan

...1 Problematique

...2 Knowledge Data DiscoveryPhase 1Phase 2

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 1 / 18

Page 5: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Problematique

Point etudie

...1 Problematique

...2 Knowledge Data Discovery

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 2 / 18

Page 6: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Problematique

Problematique

Developpement des outils informatiques et des NTIC

Augmentation tres importante du nombre et de la taille des BDD en Sante :SIH (sejours), BDD medicales (MICI, nutrition), epidemiologiques (prisons)

= gisements de donnees

Necessite de disposer de methodes efficaces pour

L’exploitation (requetes simples, . . . ) mais aussiLa decouverte (extraction) de connaissancesLa valorisation des connaissances extraites pour l’aide a la decision

Techniques de la statistique inferentielle classique insuffisantes (multiplicationdes tests, des croisements, . . . )

⇒ Methodologie d’extraction de connaissances a partir de bases de donnees(KDD) (milieu 90 - Fayyad)

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 3 / 18

Page 7: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery

Point etudie

...1 Problematique

...2 Knowledge Data DiscoveryPhase 1Phase 2

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 4 / 18

Page 8: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery

Knowledge Data Discovery

KDD = Knowledge Data Discovery = Extraction de connaissances a partir debases de donnees

Processus permettant la decouverte, a partir de Base De Donnees (BDD), deconnaissances auparavant inconnues et potentiellement utiles pour la prise dedecision (Fayyad)

Methodologie differente de l’etude de recherche classique

Etude classique : prospectif, un objectif principal, donnees recueillies pour yrepondreKDD souvent retrospectif = on travaille sur une BDD existante

Domaine de recherche inter disciplinaire

KDD largement utilise en marketing, grandes distributions, banques, . . .

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 5 / 18

Page 9: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery

Knowledge Data Discovery

KDD encore plus difficile a utiliser pour l’analyse des BDD cliniques

Nature des donnees : valeurs aberrantes, valeurs manquantes, differents typesde variablesNecessite d’une validation a chaque etape du processusNecessite de modeles explicatifsExpertise rare et couteuse

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 6 / 18

Page 10: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery

BDD  Existante  

Données  ne.oyées  

Fouille  de  données  

Valorisa6on  des  résultats  

ACTIONS  

Phase 1 Phase 2 Phase 3

3 phases principales :

Phase 1 : pre traitement des donnees (80% du temps du projet)

Phase 2 : extraction de connaissances (fouille de donnees ou data mining) :procedures derivees des statistiques, de l’informatique et de l’ntelligenceartificielle

Phase 3 : valorisation des connaissances extraites : prise de decision

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 7 / 18

Page 11: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 1

Point etudie

...1 Problematique

...2 Knowledge Data DiscoveryPhase 1Phase 2

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 8 / 18

Page 12: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 1

KDD - Phase 1

Objectifs du projet

Plan d’analyseSelection des donneesType de donnees

Pre traitement ( ”garbage in” ”garbage out”)Valeurs aberrantes

Methodes univaries : boxplot, . . .Methodes multivariees : Analyses en Composantes Principales (ACP),Classifications, . . .

Coherence des donnees : homme et grossesse !

Methodes statistiques (supra)Regles logiques : expertise

SI traitement par voie orale et age debut diabete > 30 ans et BMI > 25 ALORS type diabete =2

(2% des dossiers corriges)

Gestion de donnees manquantes

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 9 / 18

Page 13: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 1

KDD - Phase 1

Pre traitement : +++ Gestion des donnees manquantes

Frequemment : valeurs manquantes sur de nombreuses variablesDomaine de recherche en StatistiqueComment faire des analyses multivariees ? (exemple : regressions)Travaux fondamentaux : Rubin, Little, SchaferTres important d’utiliser ces methodes modernes (Rubin)Dans cette JT : presentation des principales methodes de gestion des donneesmanquantes

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 10 / 18

Page 14: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 2

Point etudie

...1 Problematique

...2 Knowledge Data DiscoveryPhase 1Phase 2

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 11 / 18

Page 15: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 2

KDD - Phase 2 : Datamining

Data mining : methodes multi-disciplinaires

Methodes statistiques

Methodes descriptives : Classifications, analyse en composantes principales,analyses factoriellesModelisation : regression, discrimination

Methodes informatiques

Regles d’associationsAlgorithmes genetiques : boıte noire

Methodes statistiques et informatiques

Arbres de decisions

Methodes derivees de l’intelligence artificielle

Reseaux de neurones : boıte noireReseaux bayesiens : boıte noire

Methode de base de donnees (entrepots de donnees data warehouse)

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 12 / 18

Page 16: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 2

KDD - Phase 2 : Datamining

Certaines methodes existent depuis de nombreuses annees :

Classifications (Fischer : 1936, . . . , Diday 1979, . . . )

Arbres de decision : Hunt 1966

Reseaux de neurones : perceptron de Rosenblat, 1961

Nouveautes

Developpement de nouveaux outils (regles d’association)

Regrouper les methodes, les outils pour les 3 phases : pre traitement,extraction de connaissances, valorisation

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 13 / 18

Page 17: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 2

KDD - Phase 2 : Datamining

Methodes utilisees depuis plusieurs annees en marketing, banques, grandedistribution . . .

Logiciels disponibles :

Mineset (Silicon Graphics)SAS (entreprise miner) ⇒ Prix exhorbitantsSPSS Modeler

R, SIPINA, TANAGRA, CBA, . . . ⇒ Gratuits ou prix ”universitaires”

Principales methodes dans le domaine medical :

Regles d’association, (presentation succincte)

Arbres de decision,

Classifications (clusters)

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 14 / 18

Page 18: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 2

KDD - Phase 2 : Datamining - Regles d’association

Une regle d’association est une regle du type : Si A et B alors C

Identification automatique = algorithme d’Agrawal (1993) pour l’analyse dupanier de la menagereExemple : SI achat couche culotte ET achat samedi ALORS achat biere

Regles d’association caracterisees differentes mesures :

Le support : P(A et B et C ) (= frequence)La confiance : P(C/A et B) (= probabilite conditionnelle)L’amelioration : P(C/A et B)/P(C). . .

Pas necessairement de variable a expliquer et d’ordre de priorite entre lesvariables.

Methode adaptee aux gros volumes de donnees et a un nombre important devariables

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 15 / 18

Page 19: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Knowledge Data Discovery Phase 2

KDD - Phase 2 : Datamining - Regles d’association

Attention au parametrage du support et confiance minimum ET au nombrede variables

⇒ Nombre eleve de regles generees !

Exemple 1 : DIABCARE = programme europeen d’evaluation du suivi desdiabetiques (type 2)

29165 patients , 51 variables → 128150 regles (support=10%, confiance=60%)

Exemple 2 : 12 variables dont complication de St Vincent (s=10%, c=60%)

Nombre de Regles : 943Exemples de Regle :

SI cholesterol>5,2mmol/l ET diabete de type 2 ALORS presence d’angor (support = 31,6%, confiance=71.89%)

Logiciels libres : Tanagra, R, . . .

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 16 / 18

Page 20: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Programme de la Journee Thematique

Point etudie

...1 Problematique

...2 Knowledge Data Discovery

...3 Programme de la Journee Thematique

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 17 / 18

Page 21: Analyse de grandes bases de données en santé - Accueilcerim.univ-lille2.fr/.../Data_Mining/Intro_M2_JT_fouille_donnees.pdf · Probl ematique Probl ematique D eveloppement des outils

Programme de la Journee Thematique

Programme

Arbres de decision : 9h30 - 11h

Methodes de classification : 11h - 12h30

Methodes de gestion des donnees manquantes : 14h - 16h30

Exemples gestion des donnees manquantes : 16h30 - 18h

Presentation d’articles - Discussion

A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 18 / 18