DM Cours Final

235
Data Mining et Analyse de Données Apprendre et décider à partir de données -3 -2 -1 0 1 2 3 -4 -3 -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 -4 -3 -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 -4 -3 -2 -1 0 1 2 3 4 B. LE GRAND & P. LATOUCHE Master M2 Miage – Année 2013-2014 Université Paris 1 Panthéon-Sorbonne Supports créés par C. BOUVEYRON

Transcript of DM Cours Final

Page 1: DM Cours Final

Data Mining et Analyse de DonnéesApprendre et décider à partir de données

−3 −2 −1 0 1 2 3

−4

−3

−2

−1

0

1

2

3

4

−3 −2 −1 0 1 2 3

−4

−3

−2

−1

0

1

2

3

4

−3 −2 −1 0 1 2 3

−4

−3

−2

−1

0

1

2

3

4

B. LE GRAND & P. LATOUCHE

Master M2 Miage – Année 2013-2014Université Paris 1 Panthéon-Sorbonne

Supports créés par C. BOUVEYRON

Page 2: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 3: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 4: DM Cours Final

Data Mining : tentative de définition

Traduction du terme «Data Mining» :traduction littérale (à la québecoise) «forage de données»mais on préfère «fouille de données» en français,

Le Data Mining est connu également sous les noms :exploration de données,extraction des connaissances.

Le Data Mining est fortement lié :à la Statistique (en particulier à l’analyse de données et àl’apprentissage statistique)à l’Intelligence Artificielle (IA)

Page 5: DM Cours Final

Data Mining : tentative de définition

Tentative de définition :le Data Mining est un processus ayant pour objet l’extractiond’un savoir ou d’une connaissance à partir de grandesquantités de données,pour ce faire, le Data Mining repose sur un ensemble detechniques automatiques ou semi-automatiques permettant detraiter des données,le Data Mining a vocation à être utilisé dans unenvironnement professionnel pour résoudre des problématiquestrès diverses :

gestion de relation client,maintenance préventive,détection de fraudes,optimisation de sites web.

Page 6: DM Cours Final

Data Mining 6= statistiques descriptives

Les techniques de data mining sont bien sûr plus complexes que desimples statistiques descriptives.

Le Data Mining utilise généralement :des outils d’intelligence artificielle (réseaux de neurones),des algorithmes sophistiqués (algorithmes génétiques, analyserelationnelle) ,la théorie de l’information (arbres de décision),et beaucoup d’analyse des données « traditionnelle » :

analyse factorielle,classification non-supervisée,analyse discriminante.

Page 7: DM Cours Final

Exemples d’applicationsAnalyse de comportements (des consommateurs),

similarités de comportements (anecdote de Wal-Mart)cartes de fidélité.

Prédiction :prédire la réponse à un mailing (pour en optimiser les coûts),prédire l’attrition des clients (banque, opérateur de téléphoniemobile, ...).

Détection :détecter des comportements anormaux (NSA, CSE, ...),détecter des comportements frauduleux (banques, assurances,énergie, ...).

Suggestion:suggérer des produits similaires (vente en ligne),suggérer une tarification adaptée (banques, compagniesd’assurance, ...).

Page 8: DM Cours Final

Historique des applications

Historique de l’usage du Data Mining :tout d’abord, dans le secteur bancaire :

scoring,classification.

ensuite dans la grande distribution :tickets de caisse,carte de fidélité -> scoring et classification.

dans les assurances :plus difficile que dans le secteur bancaire,utilisation de données géographiques.

vente par correspondance :proposer des produits adaptés.

téléphonie mobile :fidéliser les clients.

Page 9: DM Cours Final

Exemples d’applications : E-commerce

Dell :Problème : 50% des clients de Dell achètent leurs machines àtravers le site Web. Mais seulement 0.5% des visiteurs du sitedeviennent clients.Solution : stocker les séquences de clicks des visiteurs,analyser les caractéristiques des acheteurs et lors de la visited’un client potentiel, adapter le contenu du site pourmaximiser la probabilité d’un achat.

AmazonOpportunité : lAchats des clients sont stockés en mémoire etpar ailleurs, les utilisateurs du site notent les produits !Comment tirer profit des choix d’un utilisateur pour proposerdes produits à un client similaire ?Solution : technique dit de filtrage collaboratif permettant deregrouper des clients ayant les mêmes goûts.

Page 10: DM Cours Final

Domaines d’application du Data Mining

Domaines d’application du Data Mining en 2002 (source www.kdnuggets.com)

Page 11: DM Cours Final

Domaines d’application du Data Mining

Domaines d’application du Data Mining en 2005 (source www.kdnuggets.com)

Page 12: DM Cours Final

(Pré)-histoire du Data Mining

1875 : régression linéaire de Francis Galton1900 : distribution du χ2 de Karl Pearson1936 : analyse discriminante de Fisher et Mahalanobis1941 : analyse factorielle des correspondances de Guttman1943 : réseaux de neurones de Mc Culloch et Pitts1944 : régression logistique de Joseph Berkson1958 : perceptron de Rosenblatt1962 : analyse des correspondances de J.-P. Benzécri1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan1965 : méthode des centres mobiles de E. W. Forgy1967 : méthode des k-means de Mac Queen1972 : modèle linéaire généralisé de Nelder et Wedderburn

Page 13: DM Cours Final

Histoire du Data Mining

1975 : algorithmes génétiques de Holland1975 : méthode de classement DISQUAL de Gilbert Saporta1980 : arbre de décision CHAID de KASS1983 : régression PLS de Herman et Svante Wold1984 : arbre CART de Breiman, Friedman, Olshen, Stone1986 : perceptron multicouches de Rumelhart et McClelland1989 : réseaux de T. Kohonen (cartes auto-adaptatives)1990 : apparition du concept de Data Mining1993 : arbre C4.5 de J. Ross Quinlan1996 : bagging (Breiman) et boosting (Freund-Shapire)1998 : Support Vector Machines (SVM) de Vladimir Vapnik2000 : régression logistique PLS de Michel Tenenhaus

Page 14: DM Cours Final

De la Statistique au Data Mining

Statistique :quelques centaines d’individus,quelques variables recueillies avec un protocole spécial(échantillonnage, plan d’expérience, ...),fortes hypothèses sur les lois statistiques suivies,les modèles sont issus de la théorie et confrontés aux données,utilisation le plus souvent en laboratoire

Analyse des données :quelques milliers d’individus,plusieurs dizaines ou centaines de variables,construction des tableaux «Individus x Variables»,importance du calcul et de la représentation visuelle.

Page 15: DM Cours Final

De la Statistique au Data MiningData mining :

plusieurs milliers ou millions d’individus,plusieurs centaines de variables,nombreuses variables non numériques, parfois textuelles,données recueillies avant l’étude, et souvent à d’autres finsdonnées imparfaites, avec des erreurs de saisie, decodification, des valeurs manquantes, aberrantes,population constamment évolutive (difficultéd’échantillonner),nécessité de calculs rapides, parfois en temps réel,on ne recherche pas toujours l’optimum mathématique, maisle modèle le plus facile à appréhender par des utilisateurs non-statisticiens,faibles hypothèses sur les lois statistiques suivies,les modèles sont issus des données et on en tire des élémentsthéoriques,utilisation en entreprise.

Page 16: DM Cours Final

Data Mining vs. Analyse de Données

L’analyse de données :les données sontgénéralement recueilliespour une étude précise,données de taille moyenne àgrande (Mo-Go),centrée sur le couplemodèle – données,utilisé en laboratoire derecherche ou de RD,utilisé en recherchefondamentale qui serasouvent suivi d’applicationsà plus grande échelle (DataMining).

Le Data Mining :les données n’ont pas éténecessairement recueilliespour une étude spécifique,données de très grande taille(Go-To),centré sur les données,commandé et utilisé par uneentreprise,application directe dansl’entreprise dans le butd’augmenter les bénéfices del’entreprise.

Page 17: DM Cours Final

Les raisons du développement du Data Mining

Pourquoi le Data Mining s’est développé ?interet économique : du produit aux clients,technologie de l’information : faible coût de stockage dedonnées, saisie automatique de transaction (code barre, clic,données de localisation GPS, internet),augmentation de la puissance de calcul des ordinateurs (loi deMoore).

En résumé :extraire de la connaissance à partir de grandes bases dedonnées est devenu possible et (surtout) peu coûteux !

Page 18: DM Cours Final

Extensions du Data Mining

Text Mining :mise en œuvre de certaines méthodes de Data Mining à desdonnées textuelles (documents composés de mots),applications :

indexation de textes,recherche d’information (Google, Yahoo, ...),filtrage des communications (filtres anti-spam).

Web Mining :mise en œuvre de certaines méthodes de Data Mining auxenregistrements du comportement des utilisateurs sur le web,applications :

optimisation des sites web,adapter les pubs sur les sites en fonction de l’utilisateur.

Page 19: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 20: DM Cours Final

Principe du Data Mining

On ne veut plus seulement savoir :

Combien de clients ont acheté tel produit pendant tellepériode ?A quelle période les clients achètent le plus tel produit ?

Mais on veut savoir:

Quel est leur profil ?Quels autres produits les intéresseront ?Quand seront-ils intéressés ?

Page 21: DM Cours Final

Principe du Data Mining

Le Data Mining est :un processus qui contient plusieurs étapesfaisant appel à des techniques :

d’exploration (visualisation),d’analyse,d’apprentissage.

Pour cela, le Data Miner a besoin d’avoir :des bases de Statistique,des bases d’Informatique,et des bases d’analyste dans le domaine de la société.

Page 22: DM Cours Final

Les étapes d’un projet de Data Mining

Un projet de Data Mining comprend les étapes suivantes :Comprendre et analyser les objectifs de l’application.Traitement des données par le Data Miner :

1 récupérer (ou créer) une base de données pour la mise aupoint de l’application,

2 prétraitement et nettoyage des données,3 analyse statistique des données (réduction de la dimension,

projection, ...),4 identifier le type de problème (discrimination, clustering, ...) et

choisir un algorithme,5 évaluer les performances de l’algorithme,6 réitérer les étapes précédentes si necessaire.

Déployer l’application à grande échelle dans l’entreprise.

. Le cours couvre les étapes 2 à 5.

Page 23: DM Cours Final

Les étapes d’un projet de Data Mining

Récupérer (ou créer) la base de données :on souhaite le plus souvent exploiter des données existantes(tickets de caisse, log de serveur web, ...),mais parfois il faut créer des données spécifiques au problème.

Prétraitement des données :recherche et traitement des valeurs manquantes,transformation des données,éventuellement, échantillonage de la base de données.

Page 24: DM Cours Final

Les étapes d’un projet de Data Mining

Analyse statistique des données :résumés numériques,distribution des données,détection des valeurs extrêmes et des valeurs aberrantes.

Identifier le type de problème :méthodes descriptives : clustering, ...méthodes prédictives : discrimination, régression, ...

Evaluer les performances de l’algorithme :évaluation des résultats sur un échantillon test,comparer les performances de différentes méthodes.

Page 25: DM Cours Final

Vocabulaire du Data Miner

Vocabulaire spécifique au Data Mining :Datawarehouse (entrepôt de données) : base de données nonspécifiquement préparée pour une étude spécifique,Datamart : base de donnée préparée pour une étudespécifique (issu du DWH),les DWH et DM sont souvent représentés sous formed’hypercubes.

Vocabulaire commun avec l’analyse des données :variable explicative : les p variables sur lesquelles lesobservations sont mesurées,variable prédictive : la variable à prédire,et, plus généralement, tous les termes d’analyse de données !

Page 26: DM Cours Final

Les diférents types de données

Les données quantitatives :numérique continue : x = (1.2, 2.5,−2.2, 10.3)numérique discrète : x = (1, 2,−2, 10)

Les données qualitatives :numérique binaire : x = (0, 1, 1, 0)catégorielles : x = (rouge, vert, bleu, rouge)

Les données structurées :graphes,tableaux de similitudes.

Page 27: DM Cours Final

Représentation matricielle des données

Deux types de réprésentations :matrice rectangulaire individus x variables (donnéesquantitatives ou qualitatives),matrice carrée de similarités ou de relations (donnéesstructurées).

x11 x12 . . . x1px21x31x41...xn1 xnp

d11 d12 d13 d14 . . . d1n

d21. . .

d31. . .

d41. . .

... . . .dn1 dnn

Matrice individus x variables Matrice de similarités

Page 28: DM Cours Final

La pré-traitement des données

L’étape de pré-traitement des données :est essentielle car les données arrivent rarement formatées,peut prendre beaucoup de temps en fonction de la taille desdonnées,n’est pas triviale car cela peut beaucoup influencer lesrésultats !

Trois types de pré-traitement :le traitement des valeurs manquantes,le traitement des valeurs abbérantes,le traitement des valeurs extrêmes.

Page 29: DM Cours Final

Le traitement des valeurs manquantes

Le problème :il surgit dans les enquêtes contenant des entrées facultatives,une variable peut ne contenir que 1% de valeurs manquantes,mais l’échantillon peut avoir jusqu’à 10% d’individus ayantune valeur manquante !

Les solutions :ne pas utiliser la variable / l’individu concerné,remplacer les valeurs manquantes par une valeur moyenne, ...traiter les valeurs manquantes comme une valeur à partentière.

Page 30: DM Cours Final

Le traitement des valeurs abbérantes

Le problème :dû à une erreur de mesure de calcul ou de saisie,ou dû à une fausse déclaration,il peut y avoir un lien entre valeur extrême et aberrante,mais une valeur aberrante n’est pas forcément extrême !

La solution :techniques de tri à plat (dates incohérentes, ...) pour lesreconnaître,ne pas utiliser la variable / l’individu concerné,remplacer les valeurs manquantes par une valeur moyenne, ...traiter les valeurs manquantes comme une valeur à part entière

Page 31: DM Cours Final

Le traitement des valeurs extrêmes

Le problème :certaines valeurs extrêmes sont des valeurs aberrantes etdoivent être traitées comme telles,mais d’autres sont réelles et correspondent à un profil rare etintéressant à détecter,mais elles risquent d’avoir un poids trop important dans lesrésultats d’une analyse.

La solution :écarter ces valeurs durant l’apprentissage du modèle,créer une classe de valeurs extrêmes,on peut aussi «winsoriser» ces valeurs ...

Page 32: DM Cours Final

Les diférentes méthodes du Data MiningLes méthodes descriptives :

elles visent à mettre en évidence des informations présentesmais cachées par le volume des données :

segmentation de clientèle,recherche d’associations de produits sur les tickets de caisse.

le but est de réduire, résumer et synthétiser les données,il n’y a pas de variable «cible» à prédire.

Les méthodes prédictives :elles expliquent les données par rapport à uneconnaissance :

âge des individus,catégorie socio-professionnelle,niveau de formation.

elles permettront de prendre des décisions lors de l’arrivéede nouvelles données,il y a une variable «cible» à prédire.

Page 33: DM Cours Final

Les diférentes méthodes du Data MiningLes méthodes descriptives :

visualisation,ACP, analyse factorielle et des correspondances,classification non supervisée (clustering).

Les méthodes prédictives :Classification supervisée (variable «cible» qualitative)

Linear Discriminant Analysis (LDA), basée sur le modèle demélange gaussien,Support Vector Machines (SVM), qui est une méthodediscriminative.arbres de décision (decision trees),réseaux de neurones.

Prédiction (variable «cible» quantitative) :régression linéaire (simple et multiple),ANOVA,modèle linéaire généralisé.

Page 34: DM Cours Final

Méthodes d’apprentissage non supervisé

Objectifs des méthode d’apprentissage non supervisé :

seules les observations X = {x1, x2, ..., xn} ∈ X p sontdisponibles,

l’objectif est de décrire comment les données sont organiséeset d’en extraire des sous-ensemble homogènes,

par exemple, on cherche à étudier le panier de la ménagèredans une certaine zone démographique en fonction de certainscritères sociaux :

x représente un individu au travers de ses caractéristiquessociales et de ses habitudes lors des courses.

Page 35: DM Cours Final

Méthodes d’apprentissage non supervisé

−3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3

−2 −1 0 1 2 3 4

−3

−2

−1

0

1

2

Observations X Algorithme EM Clustering final

Page 36: DM Cours Final

Méthodes d’apprentissage non supervisé

Exemples de méthodes :

classification hierarchique,k-means,algorithme EM (Espérance - Maximisation)

Exemples d’applications :

identification de segments de marchés,identification de comportements similaires,identification de documents similaires,

Page 37: DM Cours Final

Méthodes d’apprentissage supervisé

Objectif des méthode d’apprentissage supervisé :

à partir d’un ensemble :de n observations X = {x1, x2, ..., xn} ∈ X p

et de n mesures Y = {y1, y2, ..., yn} ∈ Y,

on cherche à estimer les dépendances entre les ensembles Xet Y.

par exemple, on cherche à estimer les liens entre les habitudesalimentaires et le risque d’infarctus :

xi est un patient décrit par p caractéristiques concernant sonrégime,yi est une catégorie (à risque ou pas à risque).

on parle d’apprentissage supervisé car les yi permettent deguider le processus.

Page 38: DM Cours Final

Méthodes d’apprentissage supervisé

−4 −3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3

4

5

−3 −2 −1 0 1 2 3

−4

−3

−2

−1

0

1

2

3

4

−3 −2 −1 0 1 2 3

−4

−3

−2

−1

0

1

2

3

4

Observations X et Y Méthode LDA Nouvelles donées

Page 39: DM Cours Final

Méthodes d’apprentissage supervisé

Exemples de méthodes :méthodes génératives (basée sur un modèle probabiliste) :

QDA,LDA.

méthodes discriminatives :SVM,régression logistique,arbres de décision.

Exemples d’applications :détection de fraude,marketing teléphonique.

Page 40: DM Cours Final

Ce qui va être abordé dans ce cours

Partie 1 - Vue d’ensemble du Data Mining :analyse exploratoire des données,méthodes de clustering (CAH, k-means et EM),méthodes prédictives (AD, régression),évaluation des résultats,sélection d’algorithmes.

Partie 2 - technique spécifique d’Analyse de données :techniques exploratoires (ACP, AC simple et multiple),technique d’analyse discriminante.

Page 41: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 42: DM Cours Final

Analyse exploratoire des données

Résumé statistique :résumé numérique : moyenne, médiane, variance (ouécart-type), fréquence, min, max, ...camembert, histogramme, boîte à moustaches (boxplot),tests de normalité, ...

Visualisation :plot 2D ou 3D,graphique matriciel,plot avec information de classe.

Page 43: DM Cours Final

Les données

La plupart du temps :les données sont formées de n individus représentées sur pvariables numériques,quand n et p sont grands, l’information contenue dans lesdonnées n’est pas accessible directement.

Il faut donc :synthétiser l’information contenue dans les données,grâce à des tableaux, graphiques et résumés numériques,c’est la «statistique descriptive».

Page 44: DM Cours Final

Exemple d’application : les Iris de FisherUn exemple classique :

proposé par Fisher en 1936 (déjà !) pour illustrer lesméthodes de discriminationle jeu de données est constitué de :

150 individus (150 iris)3 familles différentes (Virginia, Versicolor et Setosa),individus décrits par 4 variables continues (longueur et largeurdu sépale et du pétale ).

Page 45: DM Cours Final

Description unidimensionnelle

Les tableaux statistiques :effectif, fréquence ou pourcentage,effectif, fréquence ou pourcentage cumulés.

Les représentations graphiques :le diagramme en bâtons ou un camembert pour les variablesdiscrètes,l’histogramme pour les variables continues,l’estimation de densité par la méthode des noyaux.

Page 46: DM Cours Final

L’histogramme et l’estimation de densité

L’histogramme :il représente une estimation de la fonction de densité,pour le tracer :

1 découper l’intervalle [min,max] en ` tranches disjointes2 dessiner un rectangle d’aire proportionnelle au nombre

d’individus prenant leur valeur dans la tranche.

La détermination du nombre de tranches :c’est un choix délicat :

trop peu de tranches : gomme les variations et n’extrait quepeu d’information,trop de tranches : aboutit à une histogramme incohérent.

il existe des critères empiriques implantés dans les logiciels.

Page 47: DM Cours Final

Exemple d’application : les Iris de Fisher

Histogramme des données Iris

Page 48: DM Cours Final

L’histogramme et l’estimation de densité

L’estimation de densité :peut-être vue comme une amélioration de l’histogramme,la méthode dite du noyau est fréquemment utilisée.

L’estimation par noyau :la fonction de densité f est estimée par :

f(x) = 1nh

n∑i=1

K(x− xih

),

ce qui est un histogramme à fenêtre glissante siK = 1[−1/2,1/2],ce qui est encore une meilleure approximation siK(x) = 1√

2π exp(−x2/2).

Page 49: DM Cours Final

Exemple d’application : les Iris de Fisher

Histogramme et estimation de densité sur les données Iris

Page 50: DM Cours Final

Les résumés numériquesCaractéristique de la tendance centrale :

la médiane :est telle que 50% de l’échantillon est en dessous et les 50autres % sont au dessus,indicateur peu sensible aux valeurs extrêmes,mais qui n’a que peu de propriétés algébriques.

la moyenne arithmétique x = 1n

∑ni=1 xi :

indicateur sensible aux valeurs extrêmes,mais qui a de bonnes propriétés algébriques,et qui est universellement utilisé !

le mode :valeur la plus fréquente pour un échantillon discret,tranche correspondant au pic de l’histogramme pour unevariable continue,permet de détecter la présence de plusieurs groupes dans unéchantillon.

Page 51: DM Cours Final

Les résumés numériques

Exercice :On considère les données suivantes : x = {0, 1, 1, 5, 8, 10, 17}

calculez la moyenne x de cet échantillon, (6)calculez la medianne de cet échantillon, (5)calculez enfin le mode de cet échantillon. (1)

Page 52: DM Cours Final

Les résumés numériques

Caractéristique de la dispersion :la variance et l’écart-type :

la variance s2 est définie par :

s2 = 1n

n∑i=1

(xi − x)2,

l’écart-type s est la racine carrée de la variance,s à l’avantage de s’exprimer dans la même unité que lavariable étudiée.

l’intervale interquartile :Q1 est tel que 25% de l’échantillon est en dessous,Q2 est tel que 50% de l’échantillon est en dessous,Q3 est tel que 75% de l’échantillon est en dessous,|Q3 −Q1| est parfois utilisé pour représenter la dispersion.

Page 53: DM Cours Final

Exemple d’application : les Iris de Fisher

Statistiques élémentaires des données Iris

Page 54: DM Cours Final

Les résumés numériques

Représentation de la dispersion : le box-plotboîte de largeur arbitraire et de longueur égale à |Q3 −Q1|,complétée par des moustaches correspondant aux «valeursadjacentes» :

val. adj. sup. : Q3 + 1.5|Q3 −Q1|,val. adj. inf. : Q3 − 1.5|Q3 −Q1|,

les «valeurs extérieures», représentées par des ?, sont cellesqui sortent des moustaches.

Le box-plot permet :d’observer la distribution des données,de repérer les valeurs extrêmes,de comparer plusieurs distributions.

Page 55: DM Cours Final

Les résumés numériques

Le box-plot

Page 56: DM Cours Final

Exemple d’application : les Iris de Fisher

Diagramme en boîte des données Iris

Page 57: DM Cours Final

Les tests de normalité

La loi normale (ou de Laplace-Gauss) :loi intervenant dans de nombreux phénomènes naturels,loi limite de nombreuses autres lois de probabilité,cadres de nombreuses méthodes d’analyse des données.

Les tests statistiques :Shapiro-Wilk (le meilleur),Kolmogorov-Smirnov (le plus général),et d’autres ...

Le QQ-plot :vient de Quantile-Quantile plot,permet de visualiser la «normalité» de données,en les comparant à la distribution théorique.

Page 58: DM Cours Final

Les tests de normalité

Le QQ-plot

Page 59: DM Cours Final

Description multidimensionnelle

Matrice de covariance :

Σ =

s2

1 s12 · · · s1p... s2

2. . .

sp1 s2p

,

où sk` = 1n

∑ni=1 x

ki x

`i − xki x`i .

Matrice de corrélation :

Σ =

1 r12 · · · r1p... 1

. . .rp1 1

,où rk` = skl

sks`.

Page 60: DM Cours Final

Exemple d’application : les Iris de Fisher

Matrices de variance et de corrélation des données Iris

Page 61: DM Cours Final

Description multidimensionnelle

Au-delà de la dimension 3 :il est évidemment très difficile de visualiser les données,sans perdre d’information → danger de la projection,

Le graphique matriciel :matrice symétrique de plot 2D

Var. 1 P21 P31P12 Var. 2 P32P13 P23 Var. 3

qui permet de visualiser l’ensemble des interactions entredimensions,mais qui reste difficile à interpréter (surtout quand p estgrand).

Page 62: DM Cours Final

Exemple d’application : les Iris de Fisher

Sepal.Length

2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5

4.5

5.5

6.5

7.5

2.0

2.5

3.0

3.5

4.0

Sepal.Width

Petal.Length

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.0

1.5

2.0

2.5

1 2 3 4 5 6 7

Petal.Width

Edgar Anderson’s Iris Data

Graphique matricielle des données Iris

Page 63: DM Cours Final

Introduction à la visualisation

La visualisation est à la fois :

essentielle :permet une première approche des données,met en évidence la difficulté éventuelle du problème,oriente l’étude vers telle ou telle technique d’étude.

périlleuse :les données sont souvent de grande dimension,d’où une perte d’information lors de la projection (ACP),difficulté de conjecturer ce qui se passe dans les espace degrande dimension.

Page 64: DM Cours Final

Introduction à la visualisation

La visualisation est le plus souvent la combinaison :

d’une méthode de réduction de dimension :extraction de caractéristiques,sélection de caractéristiques.

d’une méthode de représentation :histogramme,plot 2D ou 3D,boxplot,représentation multi-dimensionelle (Ggobi).

Page 65: DM Cours Final

Les techniques de réduction de dimension

Méthode d’extraction de caractéristiques :créer d nouvelles variables à partir de p variables originelles,ACP, analyse de correspondances simples et multiples.

Méthode de sélection de caractéristiques :sélectionner d variables parmi les p variables originelles,sur la base d’un critère de pertinence des variables.

Page 66: DM Cours Final

Les techniques de réduction de dimension

Remarques sur l’extraction de caractéristiques :

permet de conserver une plus grande partie de l’informationtotale,du coup, la visualisation et les performances des algorithmessont souvent bonnes,mais, les nouvelles variables n’ont plus de sens économique !

Remarques sur la sélection de caractéristiques :

les variables sélectionnées gardent leur sens économiqueoriginal,ce qui permet une interprétation humaine des résultats,mais, les performances sont souvent un peu moins bonnes.

Page 67: DM Cours Final

Les techniques de réduction de dimension

Les techniques linéaires :analyse en composantes principales (ACP),projection sur les axes discriminants de Fisher,techniques de sélection de variables.

Les techniques non-linéaires :cartes de Kohonen,LLE et Isomap,kernel PCA, principal curves, ...

Page 68: DM Cours Final

Les techniques de réduction de dimension

−12 −10 −8 −6 −4 −2 0 2 4−18

−16

−14

−12

−10

−8

−6

−4

−2

0

1er axe principal

2èm

e ax

e pr

inci

pal

−1.5 −1 −0.5 0 0.5 1−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1er axe discriminant

2èm

e ax

e di

scrim

inan

t

Projection des données USPS sur les axes principaux et discriminants.

Page 69: DM Cours Final

Les techniques de réduction de dimension

Réduction de dimension linéaire vs non linéaire.

Page 70: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 71: DM Cours Final

La classification non supervisée

Qu’est-ce que le clustering ?regrouper des objets en groupes, ou classes, ou clusters, desorte que :2 objets d’un même groupe se ressemblent le + possible2 objets de groupes distincts diffèrent le + possiblele nombre des groupes est parfois fixé

Méthodes descriptives :pas de variable cible privilégiéedécrire de façon simple une réalité complexe en la résumantutilisation en marketing, médecine, sciences humaines

Les objets à classer sont :des individusdes variables

Page 72: DM Cours Final

La classification non supervisée

Page 73: DM Cours Final

La classification non supervisée

Les synonymes de la classification non supervisée :clustering : terme anglo-saxon le plus courantclassification automatique : terme généralement employé parles auteurs françaissegmentation : terme employé en marketing (les « segmentsde clientèle ») et qui est assez explicitetypologie ou analyse typologique : employé en sciencessocialestaxinomie ou taxonomie : utilisé en biologie et zoologie,nosologie : utilisé en médecine (classification des maladies),reconnaissance de forme : utilisé dans le domaine de l’imageet du son.

Page 74: DM Cours Final

La classification non supervisée

Structures des classes :classes disjointes :

nombre de classes à définir a priori,le plus utilisé !

classes hiérarchiques :une classe peut en contenir une autre,lié aux méthodes hiérarchique.

classes empiétantes :analyse probabiliste difficilement interprétable.

Dans le cours, on ne considérera que les classes disjointes ethiérarchiques.

Page 75: DM Cours Final

Complexité du problème

On pourrait penser qu’il suffit :d’explorer toutes les combinaisons possibles de partitionet de choisir la partition optimale au sens d’un critère.

Oui, mais ! Cette tâche est insurmontable :un ordinateur traitant 1 million d’opérations / secmettra 126 000 années pour partitionner un ensemble à 25éléments !

En effet, le nombre de partitions Bn, dit nombre de Bell, vaut :

Bn = 1e

∑k

kn

k! ,

pour n = 30, Bn = 8.47× 1023 !

Page 76: DM Cours Final

Applications du clusteringMarketing :

découper la clientèle en segments dotés chacun d’une offre etd’une communication spécifiquerépartir l’ensemble des magasins d’une enseigne enétablissements homogènes du point de vue :

du type de clientèle,du CA global ou par rayon (selon type d’article),de la taille du magasin

Médical :déterminer des groupes de patients susceptibles d’être soumisà des protocoles thérapeutiques déterminés,chaque groupe regroupant tous les patients réagissantidentiquement

Sociologie :découper la population en groupes homogènes du point devue sociodémographique, style de vie, opinions ou attentes.

Page 77: DM Cours Final

Applications du clustering

Page 78: DM Cours Final

Critères des bons algorithmes

Etre capable de :détecter les structures présentes dans les donnéesdéterminer le nombre optimal de classesfournir des classes bien différenciéesfournir des classes stables vis-à-vis de légères modificationsdes donnéestraiter efficacement les grands volumes de donnéestraiter tous les types de variables (quantitatives etqualitatives)

Mais, de toutes façons :pas de critère universel de qualitécependant, des techniques existent

Page 79: DM Cours Final

Clustering de variables continues

Il faut tout d’abord :choisir une distance entre individus (distance euclidienne, ...),standardiser les variables si elles ne sont pas toutes mesuréesdans la même unité,isoler les « outliers » (individus hors-norme).

Quand on a des variables qualitatives :se ramener à une classification de variables continues,en utilisant une ACM, ...

Page 80: DM Cours Final

Les différents types de méthodes

Nous allons étudier les 3 principales méthodes :

le clustering hiérarchique,

la méthode des k-means,

l’algorithme EM.

Page 81: DM Cours Final

Notion d’inertieInertie (ou variance) d’un nuage d’individus :

inertie totale S :

S = 1n

n∑i=1

(xi − x)2,

inertie intraclasse W :

W = 1n

K∑k=1

∑xi∈Ck

(xi − xk)2,

inertie interclasse B :

B = 1n

K∑k=1

nk(xk − x)2,

Théorème de Huygens :

S = W +B.

Page 82: DM Cours Final

Notion d’inertie

Page 83: DM Cours Final

Inertie et qualité de classification

Qualité d’une classification :une classe est homogène ⇔ son inertie est faible.

Deux critères de bonne classification :grande inertie interclasse B (les groupes sont éloignés),ou petite inertie intraclasse W (les classes sont homogènes).

Remarque :ces deux critères sont équivalents puisque, d’après la formulede Huygens, on a :

S = W +B

Page 84: DM Cours Final

Le clustering hiérarchique

Deux principaux types de méthodes :

clustering ascendant hiérarchique (CAH) :construit un arbre de classification (dendogramme),montrant la succession des regroupements,depuis les n individus jusqu’au groupe total.

clustering descendant hiérarchique (CDH) :procède à l’inverse de la CAH,par subdivisions successives du groupe total.

Remarques :la CAH est une méthode de référence, très utilisée et efficace,la CDH n’est que très peu utilisé en pratique car peu efficace.

Page 85: DM Cours Final

Le clustering ascendant hiérarchique

Schéma de l’algorithme :1 les classes initiales sont les observations,2 on calcule les distances entre les classes,3 les 2 classes les plus proches sont fusionnées et remplacées par

une seule,4 on reprend en (2) jusqu’à n’avoir plus qu’une seule classe qui

contient toutes les observations.

Résultats :sous forme d’un arbre appelé dendrogramme,le niveau où l’on coupe l’arbre détermine le nb de classes,la hauteur d’une branche est proportionnelle à la perted’inertie interclasse (R2 semi-partiel).

Page 86: DM Cours Final

Le clustering ascendant hiérarchique

Page 87: DM Cours Final

Le clustering ascendant hiérarchique

Elément clé de l’algorithme :la distance entre 2 classes,qui peut être définie de différentes manières.

Les différentes stratégies d’agrégation :le lien minimum,le lien maximum,la distance moyenne,la distance entre les barycentres,le critère de Ward.

Page 88: DM Cours Final

Le clustering ascendant hiérarchiqueLe lien minimum :

défini par :

d(A,B) = min{d(a, b), a ∈ A, b ∈ B}

sait détecter les classes allongées voir sinueuses,fréquemment utilisé car bonnes propriétés théoriques,appelé aussi «saut minimum» ou «single linkage».

Le lien maximum :défini par :

d(A,B) = max{d(a, b), a ∈ A, b ∈ B},

produit des classes de même diamètre,peu utilisé car très sensible aux outliers,appelée aussi «saut maximum» ou «complete linkage».

Page 89: DM Cours Final

Le clustering ascendant hiérarchique

La distance moyenne :définie par :

d(A,B) = 1nAnB

∑a∈A

∑b∈B

d(a, b),

produit des classes de variance égale,intermédiaire entre les deux critères précédents,appelée aussi «saut moyen» ou «average linkage».

La distance entre les barycentres :définie par :

d(A,B) = d(xA, xB),

simple à calculer mais moins précis,appelée aussi «méthode des centroïdes».

Page 90: DM Cours Final

Le clustering ascendant hiérarchique

Le critère de Ward :défini par :

d(A,B) = d(xA, xB)1nA

+ 1nB

,

fonction des barycentres,produit des classes de forme sphérique et de mêmes effectifs,peu efficace sur les classes allongées et sensible aux outliers.

Le critère de Ward est la méthode la plus utilisée :basée sur l’augmentation de l’inertie intraclasse (utiliséecomme indice de niveau),fonctionne bien sur les problèmes réels car les classes sontsouvent de forme sphérique.

Page 91: DM Cours Final

Le clustering ascendant hiérarchique

Page 92: DM Cours Final

Le clustering ascendant hiérarchique

Page 93: DM Cours Final

Le clustering ascendant hiérarchique

Comment chosir le nombre de groupes ?utiliser l’indice de niveau:

la distance entre les groupes,le R2 = W/Sou le R2 semi-partiel qui représente la baisse de R2.

Page 94: DM Cours Final

Le clustering ascendant hiérarchique

Page 95: DM Cours Final

Le clustering ascendant hiérarchique

Page 96: DM Cours Final

Le clustering ascendant hiérarchique

Dans tous les cas :visualiser le résultat de la classification,pour déceler d’éventuelles anomalies de classification,ou un nombre de groupes inadapté (trop ou pas assez).

La CAH en résumé :s’adapte à différentes formes de classes (par la distance),possède des indicateurs de qualité de la classification,facilité d’interprétation de la classification (dendrogramme),mais, complexité algorithmique très grande(O(n2), O(n2 log(n), ...))

Page 97: DM Cours Final

Le clustering ascendant hiérarchique

Exercice :On considère 5 points de R, séparés par les distances 2, 5, 4et 3, que l’on souhaite répartir en k = 2 groupes en utilisantcomme distance la distance euclidienne :

x1 x2 x3 x4 x5

Q1 : effectuez la CAH suivant le critère d’agrégation du sautminimum.Q2 : effectuez la CAH suivant le critère d’agrégation du sautmaximum.Q1 : effectuez la CAH suivant le critère d’agrégation du sautmoyen.

Page 98: DM Cours Final

La méthode des k-means

La méthode des k-means :également appelée méthode des centres mobiles,c’est une méthode non hiérarchique.

L’algorithme :1 Initialisation : on choisit aléatoirement k centres gi,2 Boucle :

1 on calcule les distances entre chaque individu et les k centres,2 on affecte chaque individu au centre le plus proche,3 on recalcule les nouveaux centres gi.

3 Arrêt :1 qand les groupes sont stables,2 quand la variance intraclasse cesse de décroître,3 quand le nombe max. d’itérations est atteint.

Page 99: DM Cours Final

La méthode des k-meansExemple : regroupement en k = 2 classes

Etape 1 : initialisation aléatoire

Etape 2 : affectation aux 2 premières classes

Page 100: DM Cours Final

La méthode des k-means

Etape 3 : calcul des nouveaux centres des classes

Etape 4 : affectation aux 2 nouvelles classes

Page 101: DM Cours Final

La méthode des k-means

Etape 5 : calcul des nouveaux centres des classes

Etape 6 : affectation aux 2 nouvelles classes (et fin !)

Page 102: DM Cours Final

La méthode des k-means

Avantage des k-means :rapidité (complexité en n) et simplicité algorithmique,très utilisé et souvent présent dans les logiciels d’analyse desdonnées.

Désavantage des k-means :nécessite de connaître le nombre k de groupes,dépendance aux centres initiaux,ne détecte bien que les formes convexes.

Page 103: DM Cours Final

La méthode des k-means

Exercice :On considère 5 points de R, séparés par les distances 2, 5, 4et 3, que l’on souhaite répartir en k = 2 groupes en utilisantcomme distance la distance euclidienne :

x1 x2 x3 x4 x5

Q1 : effectuez le clustering en utilisant les points x2et x5comme centres initiaux.Q2 : effectuez le clustering en utilisant les points x4et x5comme centres initiaux.Q3 : effectuez le clustering en utilisant les points x1et x2comme centres initiaux.

Page 104: DM Cours Final

Le modèle de mélange et l’algorithme EM

Une approche probabiliste du clustering :on modélise chaque classe par une loi de probabilité,afin d’avoir une estimation du risque de classification,la loi utilisée est généralement la loi normale (ou loi de Gauss),on parle alors de mélange gaussien.

−2 −1 0 1 2 3 40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

f(x)

Densité du mélangeDensité de la 1ère comp.Densité de la 2nde comp.

−10−5

05

10−10

−5

0

5

10

0

0.005

0.01

0.015

0.02

0.025

f(x)

Page 105: DM Cours Final

Le modèle de mélange et l’algorithme EM

Le modèle de mélange :ayant un échantillon de n individus {x1, ..., xn}∈Rp,et supposant que la population est formée de k groupes dedensité f(x; θi) et de proportion πi, i = 1, ..., k,les n individus sont alors considérées comme des réalisationsindépendantes d’un vecteur aléatoire X ∈ Rp de densité :

f(x) =k∑i=1

πif(x; θi).

Page 106: DM Cours Final

Le modèle de mélange et l’algorithme EM

Le modèle de mélange gaussien :f est la densité de la loi normale monodimensionnelle:

f(x;µi, σ2i ) = 1√

2πσiexp{−1

2(x− µi)2

σ2i

},

f est la densité de la loi normale multidimensionnelle:

f(x;µi,Σi) = 1(2π)p/2|Σi|1/2

exp{−12(x− µi)tΣ−1

i (x− µi)}.

Page 107: DM Cours Final

Le modèle de mélange et l’algorithme EM

Avec le modèle de mélange (gaussien ou non) :chaque groupe est représenté par son paramètre θi,dans le cas gaussien, θi = (µi,Σi),ce qui permet de calculer la probabilité pour un pointd’appartenir à un groupe :

P (x ∈ Gi|x, θi) = πif(x; θi)f(x) .

L’estimation des paramètres :par maximisation de la vraisemblance L(θ),en utilisant un algorithme itératif (le calcul direct n’étant paspossible),qui fait croître la vraisemblance à chaque étape.

Page 108: DM Cours Final

Le modèle de mélange et l’algorithme EM

L’algorithme EM :1 Initialisation : choix d’une solution initiale {θ0

1, ..., θ0k}

caractérisant les k groupes,2 Boucle :

1 Etape E : on calcule la probabilité a posteriori des pointsd’appartenir aux groupes

tqij = P (xj ∈ Gi|x, θi) = πif(xj ; θi)f(xj) ,

2 Etape M : on estime les paramètres {θq1, ..., θ

qk} des nouvelles

classes floues.3 Arrêt : quand la vraisemblance cesse de croître.

Page 109: DM Cours Final

Le modèle de mélange et l’algorithme EM

Une variante : l’algorithme CEM1 Initialisation : choix d’une solution initiale {θ0

1, ..., θ0k}

caractérisant les k groupes,2 Boucle :

1 Etape E : on calcule la probabilité a posteriori des pointsd’appartenir aux groupes

tqij = P (xj ∈ Gi|x, θi) = πif(xj ; θi)f(xj) ,

2 Etape C : on affecte chaque point à la classe la plus proche enutilisant les tqi .

3 Etape M : on estime les paramètres {θq1, ..., θ

qk} des nouvelles

classes.3 Arrêt : quand la vraisemblance cesse de croître.

Page 110: DM Cours Final

Le modèle de mélange et l’algorithme EM

Etape 1

Page 111: DM Cours Final

Le modèle de mélange et l’algorithme EM

Etape 6

Page 112: DM Cours Final

Le modèle de mélange et l’algorithme EM

Etape 11

Page 113: DM Cours Final

Le modèle de mélange et l’algorithme EM

Etape 16

Page 114: DM Cours Final

Le modèle de mélange et l’algorithme EM

Etape 21

Page 115: DM Cours Final

Le modèle de mélange et l’algorithme EM

Etape finale

Page 116: DM Cours Final

Le modèle de mélange et l’algorithme EM

0 5 10 15 20 254

6

8

10

12

14

16

18

20

Iteration

L(θ)

Evolution de la vraisemblance

Page 117: DM Cours Final

Le modèle de mélange et l’algorithme EMDétermination du nombre de groupes :

on profite du cadre probabiliste et des outils associés :le critère AIC (Akaike Information Criterion) :

AIC = −2 log(L(θ)) + 2 log(n),le critère BIC (Bayesian Information Criterion) :

BIC = −2 log(L(θ)) + ν log(n),

on appelle cela aussi de la «sélection de modèles».Exemple :

2 3 4 5 6 7 8 9 10−4.2

−4

−3.8

−3.6

−3.4

−3.2

−3x 10

7

Nb of groups

BIC

val

ue

Page 118: DM Cours Final

Le modèle de mélange et l’algorithme EM

Les avantages de l’algorithme EM :s’adapte à de très nombreux types de données,la loi normale régit de nombreux phénomènes naturels,fournit une approche probabiliste du clustering :

estimation du risque de classification → médecine,modélisation probabiliste des groupes,outils adaptés pour choisir le nombre de groupes.

Les limites de l’algorithme EM :pas forcément implanté par défaut dans tous les logiciels,nécessite d’utiliser des variantes pour les données de grandedimension.

Page 119: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 120: DM Cours Final

Les méthodes prédictives

Les objectifs :prédire la valeur ou la classe d’une nouvelle observation,connaissant les valeurs ou les classes d’un ensembled’observations,cet ensemble est appelé «ensemble d’apprentissage».

La discrimination :vise à prédire la classe Y d’un nouvel individu sachant lesvaleurs prises par les p variables explicatives,cas binaire : Y ∈ [0, 1] ou Y ∈ [−1, 1],cas multi-classes : Y ∈ [1, ..., k].

La régression :vise à prédire une valeur Y ∈ R d’une nouvelle observation,sachant les valeurs prises par les p variables explicatives.

Page 121: DM Cours Final

Les applications des méthodes prédictives

?

Page 122: DM Cours Final

Les méthodes prédictives

La procédure générale des méthodes prédictives comporte 3 étapesqui sont :

l’apprentissage,

la validation,

la prédiction.

Les méthodes de discrimination et de régression utilisent cettemême procédure.

Page 123: DM Cours Final

Les qualités des méthodes prédictives

Les qualités attendues des méthodes prédictives :

la précision : le taux d’erreur doit être le plus bas possible,

la robustesse : la méthode ne doit pas être trop sensible à desfluctuations sur l’échantillon et doit bien se généraliser àd’autres données,

la parcimonie : le modèle ne doit pas être plus compliqué qu’ilne faut,

des résultats explicites : les résultats doivent êtreinterprétables par l’utilisateur.

Page 124: DM Cours Final

L’analyse discriminante

L’analyse discriminante (AD) :également appelée «classification supervisée»,est une technique qui vise à prédire une variable cible discrèteou catégorielle.

Le principe :l’AD utilise un jeu d’apprentissage pour apprendre leclassifieur,qui pourra être ensuite utilisé pour classer de nouveauxindividus,un jeu de validation est souvent utilisé pour vérifier la validitédu classifieur.

Page 125: DM Cours Final

L’analyse discriminante

Il existe deux types de méthodes d’analyse discriminante :

les méthodes génératives :la phase d’apprentissage permet d’élaborer un modèle quirésume les caractéristiques des groupes,la règle de décision du classifieur sera ensuite déduite dumodèle avant d’être appliquée à de nouvelles données.

les méthodes discriminatives :la phase d’apprentissage élabore directement la règle dedécision du classifieur,qui sera ensuite appliquée à de nouvelles données.

Page 126: DM Cours Final

Les méthodes d’analyse discriminante

Les méthodes génératives :l’analyse discriminante quadratique (QDA),l’analyse discriminante linéaire (LDA),l’analyse discriminante de Fisher (FDA).

Les méthodes discriminatives :les k plus proches voisins,les arbres de décision,la régression logistique,les Support Vector Machines (SVM).

Page 127: DM Cours Final

Les Support Vector Machines

Les Support Vector Machines :appelés également «machines à vecteurs supports»,ou encore «séparateur à vaste marge»,méthodes récentes (1996) dues à V. Vapnik.

L’idée des SVM :projeter les données dans un espace de très grande dimension,afin de pouvoir les séparer linéairement dans cet espace,alors que cela n’était pas possible dans l’espace initial.

Page 128: DM Cours Final

Les Support Vector Machines

Le processus des SVM comporte 2 étapes :1 la transformation des données :

une transformation non linéaire φ fait passer de l’espaced’origine,à un espace de dimension plus grande mais doté égalementd’un produit scalaire.

2 la recherche du séparateur :dans l’espace d’arrivée, on cherche un séparateur linéaire(hyperplan),qui sépare au mieux les groupes,et qui soit le plus éloigné possible de toutes les observations.

Page 129: DM Cours Final

Les Support Vector Machines

Exercice :

on a les données suivantes dans R :

les observations : x = {−3,−2,−1, 1, 3}les labels associés : y = {1, 1, 2, 2, 1}

Q1 : représentez les données dans R et vérifiez qu’il n’existepas un séparateur linéaire.

Q2 : cherchez une transformation non linéaire φ telle qu’il soitpossible de séparer linéairement les 2 groupes dans l’espaced’arrivée.

Page 130: DM Cours Final

Les Support Vector Machines

−3 −2 −1 0 1 2 3

−1

01

23

4

x[,1]

x[,2

]

0 2 4 6 80

510

15

x^2[,1]

x^2[

,2]

Effet de la transformation non linéaire φ(x) = (x21, x

22).

Page 131: DM Cours Final

Les Support Vector Machines

Distance d’un point à l’hyperplan ‖ax+ b‖/‖a‖.

Page 132: DM Cours Final

L’astuce noyau

Les SVM reposent en partie sur :une astuce de calcul appelée «kernel trick»qui permet de travailler dans l’espace d’arrivée,mais en faisant les calculs dans l’espace de départ !

L’astuce noyau :est de dire que le produit scalaire de deux points de l’espaced’arrivée peut s’exprimer sous la forme :

< φ(x1), φ(x2) >= K(x1, x2), ∀x1, x2 ∈ X .

Page 133: DM Cours Final

Application de l’astuce noyau

Application au calcul de distance :

‖φ(u)− φ(v)‖2 = K(u, u) +K(v, v)− 2K(u, v)

Exercice :Q1 : démontrez la relation ci-dessus.Q2 : déterminez le noyau associé à la transformation φ del’exercice précédent.

Page 134: DM Cours Final

La recherche du séparateur

Le problème :étant donné un jeu de données {(x1, y1), ..., (xn, yn)} où :

les observations xi ∈ Rp,et les labels associés yi ∈ {−1, 1}.

il faut trouver un séparateur f(φ(x)) = aφ(x) + b sous lescontraintes :

∀i, yi(aφ(xi) + b) ≥ 1 (bonne séparation),la norme ‖a‖2 soit minimale (marge maximale).

La solution :écrire ce problème en utilisant l’astuce noyau,utilisé des algorithmes d’optimisation.

Page 135: DM Cours Final

Quelques exemples de noyaux

Quelques noyaux courants :le noyau linéaire :

K(u, v) =< u, v >,

le noyau polynômial :

K(u, v) =< u, v >d,

le noyau gaussien :

K(u, v) = exp(‖u− v‖2

2σ2

).

Exercice :Q1 : déterminer la transformation φ associée au noyaupolynômial de degré d = 2.

Page 136: DM Cours Final

Les Support Vector Machines

Les Support Vector Machines :sont des classifieurs performants,qui sont en particulier robustes (qualité de généralisation)qui apparaissent petit à petit dans les logiciels de DataMining.

Cependant :les règles de décision fournies sont difficilement interprétables,le coût algorithmique des SVM est important,et le choix du «bon» noyau n’est pas trivial.

Page 137: DM Cours Final

La régression linéaire

La régression linéaire :est une technique qui vise à prédire une variable continue Ysur la connaissance de la variable continue X,pour apprendre le «régresseur», on dispose d’un échantillond’apprentissage {(x1, y1), ..., (x2, y2)}.

Exemples :X peut représenter le temps et Y une grandeur mesurée àdifférentes dates,X peut représenter la taille d’un individu et Y sont poids,...

Page 138: DM Cours Final

La régression linéaire simpleL’hypothèse de base :

Xet Y ne sont pas indépendantes,et la connaissance de X permet d’améliorer la connaissancede Y .

D’un point de vue théorique :l’espérance conditionnelle E(Y |X = x) est une fonctionlinéaire de x,ce qui se traduit par la formulation :

E(Y = yi|X = xi) = α+ βxi, ∀i = 1, ..., n,

ce qui peut aussi s’écrire :

yi = α+ βxi + εi, ∀i = 1, ..., n,

avec E(εi).

Page 139: DM Cours Final

La régression linéaire simple

Les autres hypothèses du modèle :la variance des résidus est la même ∀i,les résidus εi ∼ N (0, σ2),les résidus sont indépendants.

Page 140: DM Cours Final

La régression linéaire multiple

La régression linéaire simple :se généralise au cas de plusieurs variables explicatives,on recherche alors l’hyperplan de Rp approchant au mieux lesdonnées,cette méthode s’appelle la régression linéaire multiple.

La régression linéaire multiple :le modèle est alors :

Y = β0 + β1X1 + ...+ βpXp + ε,

en ajoutant une hypothèse importante : l’indépendance desvaraibles Xi.

Page 141: DM Cours Final

La régression linéaire multiple

La régression linéaire multiple

Page 142: DM Cours Final

La régression linéaire

L’existence de la composante stochastique εi :correspond au fait que des individus avec même valeur xipeuvent avoir des réponses Y différentes (variationsynchronique)ou qu’un même individu mesuré à plusieurs reprises avec lamême valeur xi peut avoir des réponses Y différentes(variation diachronique)

Remarques :on a équivalence entre les relations εi ∼ N (0, σ2) etY |X = xi ∼ N(α+ βx, σ2),l’hypothèse de normalité classe la régression linéaire dans lafamille des modèles linéaires générauxdans le modèle linéaire généralisé, la loi de Y |X = xi n’estplus nécessairement normale.

Page 143: DM Cours Final

La régression linéaire

Mise en œuvre de la méthode :Après avoir postulé l’existence d’une relation E(Y ) = α+βX,on recherche des estimateurs α et β de α et β en utilisantl’échantillon d’apprentissage.

Que signifie la variance des estimateurs ?On n’atteint jamais les véritables coefficients α et β car :

le modèle linéaire n’est le plus souvent qu’une approximationde la réalité,on ne travaille que sur des échantillons et non sur lapopulation entière,on commet des erreurs de mesure.

Des modèles sur des échantillons différents donneront desestimateurs a’ et b’ différentsd’où une variance des estimateurs α et β.

Page 144: DM Cours Final

La méthode des moindres carrésLa formulation du problème :

on recherche des estimateurs α et β de α et βqui minimisent les résidus :

εi2 = (yi − yi)2,

où yi est prédit par la droite yi = α+ βxi.La solution :

l’estimateur β de la pente est :

β =∑i(xi − x)(yi − y)∑

i(xi − x)2 ,

et l’estimateur α de la constante vaut :

α = yi − βxi

la droite Y = α+ βX ajuste alors le nuage de points.

Page 145: DM Cours Final

La méthode des moindres carrés

Page 146: DM Cours Final

Propriétés des estimateurs

Remarques :une estimation des paramètres sur un autre échantillon,donnerait des estimateurs légèrement différents

Cependant :on montre que la méthode de moindres carrés est optimale,car elle fournit des estimateurs sans biais :

E(α) = α, E(β) = β

et de variance minimale.

Page 147: DM Cours Final

Les moyens de régularisation

Dans certains cas, la variance des estimateurs est grande :l’échantillon est de petite taille (peu d’observations),l’étendue des valeurs observées X est limitée,l’erreur de mesure est importante.

Les moyens pour diminuer (encore) la variance des estimateurs :augmenter la taille du jeu d’apprentissage,augmenter l’étendue des valeurs observées X,utiliser une méthode de régularisation de type ridge (→biais).

Page 148: DM Cours Final

Vérifier la qualité d’ajustement

Il est bien sûr important de vérifier la qualité d’ajustement dumodèle aux données :

un R2proche de 1 indique un bon ajustement :

R2 = SCR

SCT=∑i(yi − y)2∑i(yi − y)2 ,

mais il est souvent trop optimiste (surtout si n est grand),alors on utilise le R2 ajusté :

R2ajuste = 1− (1−R2)(n− 1)

n− p− 1 .

Page 149: DM Cours Final

Vérifier la qualité d’ajustement

Page 150: DM Cours Final

Vérifier la validité des hypothèses

La régression linéaire :se base sur des hypothèses qui doivent s’avérer «pas tropfausses»si on veut que les résultats de la régression aient du sens.

Les moyens de validation :des outils graphiques :

normalité des résidus → QQ-plot,égalité des variances.

des test statistiques.

Page 151: DM Cours Final

Vérifier la validité des hypothèses

Validité de l’hypothèse de normalité des résidus

Page 152: DM Cours Final

Vérifier la validité des hypothèses

Validité de l’hypothèse d’égalité des variances

Page 153: DM Cours Final

La régression linéaire

Exercice :nous disposons des données suivantes (m2/prix en k€d’appartements):

X = {28, 50, 196, 110, 90, 35, 65, 100, 70, 52},Y = {130, 280, 800, 500, 378, 250, 300, 495, 325, 245}.

Q1 : utilisez la méthode des moindres carrés pour estimer lesparamètres de régression linéaire.Q2 : analysez la qualité d’ajustement.Q3 : vérifier la validité des hyopthèses.Q4 : une personne envisage d’acheter un appartement de35m2 au prix de 235 k€. Est-ce une bonne affaire ?Q5 : auriez-vous des outils pour donner une fourchette de prixacceptables pour cette surface ?

Page 154: DM Cours Final

Régression linéaire et data mining

Les données utilisées en Data Mining :sont le plus souvent de grande dimension,et les variables explicatives peuvent être fortement corrélées,

Cela a pour conséquences :des coefficients de régression très sensibles aux fluctuationsmême faibles des données,des écarts-types élevés pour les coefficients de régression,une dégradation de la précision des prévisions.

Moyen de détection :conditionnement de la matrice de corrélation.

Page 155: DM Cours Final

Régression linéaire et data mining

Effet de la multicolinéarité :X1 et X2 presque colinéaires : coefficients de régression trèssensibles à de petites variations de Y .

Page 156: DM Cours Final

Régression linéaire et data mining

Solutions à la multicolinéarité :suppression des variables concernées → accepter de baisser unpeu R2 pour baisser la multicolinéarité,transformation (logarithme, . . . ) des variables concernées,régression biaisée (ridge) :

l’erreur quadratique de l’estimation de la pente β de larégression = variance de l’estimateur + (biais de l’estimateur)2,d’où une « erreur quadratique avec biais » < « erreur sansbiais » si le biais est compensé par une faible variance.

régression sur composantes principales,régression PLS (Partial Least Squares) :

utilisable même si : nb observations <�< nb variables,De Jong (1993) a montré que la régression PLS sur kcomposantes est toujours plus prédictive que la régression surles k premières composantes principales.

Page 157: DM Cours Final

La régression PLS (Partial Least Square)

La régression Partial Least Squares :méthode qui se juxtapose à d’autres méthodes de régression,utile en présence d’un grand nombre de variables présentantde la colinéarité ou des valeurs manquantes,algorithme simple (suite de régressions simples, sans inversionni diagonalisation de matrices) → efficace sur de grandsvolumes de données.

Utilisation en chimie, industrie pétrolifère, cosmétique, biologie,médecine, agroalimentaire :

en cosmétique : conserver tous les ingrédients d’un produit →très nombreuses variables explicatives,en agroalimentaire (analyse sensorielle) : expliquer leclassement d’un produit par plusieurs dégustateurs (variableY), en fonction de ses propriétés (jusqu’à plusieurs centaines)physico-chimiques et de saveurs.

Page 158: DM Cours Final

Principe de la régression PLS

Régression PLS :inventée par Herman et Svante Wold (1983),on a Y qui est la variable à expliquer,et p variables explicatives Xi.

Le choix des variables transformées résulte d’un compromis entre :maximisation de la variance des Xi (idée de l’ACP),maximisation de la corrélation entre Xi et Y (régression).

La régression PLS cherche donc :les combinaisons linéaires Tj des Xi maximisant :

cov2(Tj , Y ) = r2(Tj , Y )× var(Tj)× var(Y ).

Page 159: DM Cours Final

La régression PLS

Algorithme de la régression PLS :on cherche une combinaison T1 des Xi :

T1 =∑i

λ1iXi,

qui maximise la variance de T1et la corrélation entre T1 et Y ,la solution est :

λ1i = cov(Y,Xi),

on a donc la relation :

T1 =∑i

cov(Y,Xi)Xi.

.

Page 160: DM Cours Final

La régression PLS

Algorithme (suite) :la régression de Y sur T1 donne un résidu Y1 :

Y = c1T1 + Y1,

la régression des Xi sur T1 donne aussi des résidusX1i :

Xi = c1iT1 +X1i,

on réitère en remplaçant Y par Y1 et les Xi par les X1i,et ce jusqu’à l’obtention d’un nombre de composantesdonnant un régresseur satisfaisant.

Page 161: DM Cours Final

La régression PLS

La sélection des composantes :le plus souvent par validation croisée,permet de choisir assez de composantes pour expliquercorrectement Y par rapport aux Xi,tout en évitant le sur-apprentissage.

En pratique :le nombre de composantes dépasse rarement 3 ou 4,la régression PLS sur d composantes est toujours plusprédictives que la régression sur d composantes principales.

Page 162: DM Cours Final

La régression logistique

La régression logistique :est une technique de discrimination basée sur un modèle derégression,qui est n’apparue en pratique que récemment dans le DataMining,dont une extension à value à D. McFadden le prix Nobeld’économie en 2000.

Le principe :une variable cible binaire Y ∈ {0, 1},p variables explicatives continues Xi binaires ou qualitatives :

p = 1→ régression logistique simple,p ≥ 2→régression logistique multiple.

Page 163: DM Cours Final

La régression logistique

Problème de régression :modéliser l’espérance conditionnelle E(Y/X = x) :

E(Y/X = x) = P (Y = 1/X = x),

sous la forme suivante :

E(Y/X = x) = β0 + β1X1 + β1X2 + ...+ βpXp.

Difficulté :les Xi sont continues (termes non bornés),alors que la variable cible Y ∈ {0, 1} !il faut donc la transformer !en régression linéaire, E(Y/X = x) n’est pas bornée.

Page 164: DM Cours Final

La régression logistique

Comparaison entre régression logistique et linéaire.

Page 165: DM Cours Final

Prédiction d’une variable binairePrédiction d’une variable binaire :

visiblement, la régression linéaire ne convient pas (distributiondes résidus),la figure fait pressentir que ce n’est pas une fonction linéairede β0 + β1X1 + β1X2 + ...+ βpXp qu’il faut appliquer, maisune courbe en S.

Page 166: DM Cours Final

La régression logistique

Exemple : Age et Coronary Heart Disease (CHD)

Page 167: DM Cours Final

La régression logistiquePossibilité de transformation :

regrouper en groupes les ages Xi,et calculer pour chaque groupe la fréquence de Y = 1.

Page 168: DM Cours Final

La régression logistiqueLa forme de cette courbe :

appelée courbe logistique,on peut écrire :

P (Y = 1|X = x) = exp (β0 + β1X1 + ...+ βpXp)1 + exp (β0 + β1X1 + ...+ βpXp)

,

et de façon équivalente :

log(

P (Y = 1|X = x)1− P (Y = 1|X = x)

)= β0 + β1X1 + ...+ βpXp,

La fonction logit :est définie par :

f(p) = log(

p

1−)

),

est une fonction de lien.il existe d’autres fonctions de lien : probit, log-log, ...

Page 169: DM Cours Final

La régression logistique

Comparaison des différentes fonctions de lien.

Page 170: DM Cours Final

La régression logistique

Estimation des paramètres :par maximisation de la vraisemblance du modèle,nécessite l’utilisation d’une méthode itérative d’optimisation(Newton-Raphson),

Avantages :traite différents types de variables explicatives (discrètes,qualitatives et continues),hypothèse du modèles peu contraignantes,modélise directement une probabilité.

Désavantages :suppose la non colinéarité des variables,approximation numérique,sensible aux outliers.

Page 171: DM Cours Final

Améliorer les résultats

Deux approches :le rééchantillonage,la combinaison de modèles.

Le rééchantillonage :si le nombre d’individus n est limité ou petit devant lacompléxité du modèle à estimer,permet d’améliorer la robustesse des méthodes de classement.

La combinaison de modèles :l’idée est de combiner les qualités de différentes méthodes,pour obtenir un prédicteur plus performant et plus robuste.

Page 172: DM Cours Final

Améliorer les résultats

Le méthodes de rééchantillonage :le bootstrap (Efron, 1979),le bagging (Breiman, 1996),le boosting (Freund et Shapire, 1996).

Le bootstrap :permet d’approcher la distribution d’une statistique dont onne connait pas la loi,en construisant b échantillons bootstrap par tirage aléatoire den individus avec remiseet en estimant la statistque sur ces b échantillons,un estimateur robuste de cette statistique pourra être lamoyenne des b estimateurs,le jacknife est très proche : n échantillons obtenus en retirantà chaque fois un individu différent.

Page 173: DM Cours Final

Améliorer les résultats

Page 174: DM Cours Final

Améliorer les résultats

Le bagging :des prédicteurs de même type sont construits sur méchantillons bootstrap,et les m prédicteurs sont agrégés par un système de vote oupar moyennage,cela fournit un prédicteur plus robuste.

Le boosting :approche adaptative qui travaille sur l’échantillon entier,à chaque itération, on augmente le poids des individus malclassés,cela fournit un prédicteur plus robuste mais aussi plusperformant.

Page 175: DM Cours Final

Améliorer les résultats

Exercice :on dispose des données suivantes (score d’une population) :

X = {8, 10, 15, 13, 16, 4, 9, 12},

et l’on souhaite estimer le score moyen de la population µ.Q1 : calculez le score moyen de l’échantillon x.Q2 : construisez n échantillons jacknife et calculer lesmoyennes xi associées.Q3 : faites l’analyse statistique des xi ainsi obtenues(moyenne, variance, histogramme, ...).

Page 176: DM Cours Final

Améliorer les résultats

La combinaison de modèles :l’idée est la même que celle du bagging mais :

avec des prédicteurs de types différents,et sur l’échantillon entier.

des prédicteurs de type différents sont appris sur l’échantillonentier,on combine les différents prédicteurs par vote, moyennage oupondération,cela permet généralement de combiner les qalités desdifférentes méthodes.

Page 177: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 178: DM Cours Final

Importance d’évaluer les méthodes

Les méthodes prédictives peuvent :donner de faux résultats (données non fiables),mal se généraliser dans l’espace (autre échantillon) ou letemps (échantillon postérieur),être victime du sur-apprentissage,être peu compréhensibles par les utilisateurs.

Les pricipaux outils de comparaison :le taux d’erreur de classement et la matrice de confusion,les courbes ROC (Receiver Operating Characteristic) et de lift,l’indices associés aux courbes ROC et de lift.

Page 179: DM Cours Final

Les différentes méthodes d’évaluation

Les indicateurs numériques :taux d’erreur,matrice de confusion,aire sous la courbe ROC ou de lift.

Les outils graphiques :dessin des règles de décision,la courbe ROC,la courbe de lift

Page 180: DM Cours Final

Taux d’erreur et matrice de confusion

Le taux d’erreur :calcul simple qui donne une information globale.

La matrice de confusion :donne plus d’indication sur la qualité de la classification que letaux d’erreur,dans le cas binaire, donne le pourcentage de faux positifs etde faux négatifs,dans le cas multi-classes, elle montre quelles classes sontdifficiles à discriminer.

Réel/Pred. Positif NégatifPositif VP FNNégatif FP VN

Réel/Pred. C1 C2 C3

C1 95 3 2C2 1 80 19C3 0 1 99

Page 181: DM Cours Final

Le taux d’erreur en apprentissageLe taux d’erreur sur le jeu d’apprentissage :

se calcule simplement par etrain = #V P+#V N#P+#N ,

cette valeur indique la capacité de précision du prédicteur,mais cette valeur est trop optimiste.

Page 182: DM Cours Final

Le taux d’erreur en validationLe taux d’erreur sur le jeu de test :

se calcule de la même façon par etest = #V P+#V N#P+#N ,

cette valeur indique la robustesse du modèle (i.e. sa capacitéde généralisation, sa capacité réelle de prédiction),cette valeur est celle à retenir !

Page 183: DM Cours Final

Le sur-apprentissage

Le phénomène du sur-apprentissage :est dû au fait d’utiliser un modèle trop complexe,qui modélise parfaitement les données d’apprentissage,mais les données d’apprentissage ne sont qu’un échantillond’une population plus grande,et donc ne représentent pas parfaitement la population.

Il faut donc :trouver un compromis entre la complexité du modèle,et son pouvoir de généralisation.

Page 184: DM Cours Final

Le sur-apprentissage

Le phénomène du sur-apprentissage

Page 185: DM Cours Final

Le dilemme biais-variance

D’un point de vue statistique :le phénomène du sur-apprentissage est lié au «dilemmebiais-variance» puisque,un modèle très simple présente le plus souvent du biais maispeu de variabilité,un modèle très complexe est souvent sans biais mais présentebeaucoup de de variabilité.

Il faut donc choisir entre :peu de biais →modèle complexe,peu de variance → modèle simple.

Page 186: DM Cours Final

Le dilemme biais-variance

Le phénomène du sur-apprentissage

Page 187: DM Cours Final

La taille de l’échantillon d’apprentissage

La taille de l’échantillon d’apprentissage :joue également un rôle important dans l’étape d’apprentissage,puisqu’un petit échantillon (n < 102) représentera beaucoupmoins bien la population,qu’un échantillon de taille plus conséquente (n > 106).

Cela influe évidemment sur :la qualité de prédiction,la qualité de généralisation.

Page 188: DM Cours Final

La taille de l’échantillon d’apprentissage

Influence de la taille de l’échantillon d’apprentissage

Page 189: DM Cours Final

Les solutions

Cas du sur-apprentissage :diviser en jeu d’apprentissage et de validation (simple),utiliser la validation croisée (leave-one leave-out, ...),comparer les modèles / les méthodes.

Cas du petit échantillon d’apprentissage :il faut augmenter artificiellement la taille du jeud’apprentissage,grâce aux techniques de rééchantillonage (bootstrap, jacknife,...).

Page 190: DM Cours Final

La validation croisée

La validation croisée :technique d’estimation du taux d’erreur par rééchantillonage,se base sur les méthodes du bootstrap, du jacknife, ...le «paramètre» à estimer est le taux d’erreur !

Processus général :on crée b échantillons apprentissage / validation,on apprend le prédicteur sur les b échantillons d’apprentissage,et on calcule le taux d’erreur sur les b échantillons devalidation associés,on obtient ainsi une estimation fiable du taux d’erreur.

Page 191: DM Cours Final

La validation croisée

Page 192: DM Cours Final

La technique leave one – leave out

Le leave one – leave out :est la «limite supérieure» de la validation croisée,car l’échantillon de validation est réduit à un seul point !

La méthode :pour i = 1, ..., n

apprendre le prédicteur sur X privé de xi,puis classer xi avec ce prédicteur,calculer l’erreur ei ∈ {0, 1}.

l’estimation de l’erreur e est la moyenne des ei.

Page 193: DM Cours Final

Les outils pour comparer des méthodes

Quand on dispose de plusieurs méthodes de discrimination :il est intéressant de savoir laquelle est la meilleure,mais, certaines ont des qualités spécifiques :

sensibilité,spécificité,

qui peuvent être intéressantes dans certaines applications.Les outils :

les courbes ROCles courbes de lift,les indicateurs associés.

Page 194: DM Cours Final

Sensibilité et spécificité

Considérons le cas de deux classes :la classe des positifs (P),la classe des négatifs (N),un classifieur muni d’un seuil de classification s.

Sensibilité et spécificité :la sensibilité α(s) est la probabilité de bien détecter un positif,la spécificité β(s) est la probabilité de bien détecter unnégatif.

Pour un classifieur :on cherche s qui maximise α(s) et qui minimise 1− β(s),le meilleur modèle est celui qui fait le plus de vrais positifsavec le moins de faux positifs.

Page 195: DM Cours Final

Les courbes ROC

La courbe Receiver Operating Characteristic (ROC) :inventée durant la seconde guerre mondiale pour détecter surles radars les avions amis des avions ennemis,de nos jours, très utilisée dans les secteurs «à risques».

Tracer la courbe ROC :sur l’axe des Y : la sensibilité

α(s) = #V PP

,

il s’agit du taux de vrais positifs,sur l’axe des X : 1 - la spécificité

1− β(s) = #FPN

,

il s’agit du taux de faux positifs.

Page 196: DM Cours Final

Les courbes ROC

Page 197: DM Cours Final

Les courbes ROC

Page 198: DM Cours Final

Les courbes de lift

La courbe de lift :courbe qui a un lien fort avec la courbe ROC,mais qui est plus utilisée dans certains domaines (marketing).

Tracer une courbe de lift :sur l’axe des Y : la sensibilité

α(s) = #V PP

,

il s’agit du taux de vrais positifs,sur l’axe des X : le pourcentage d’individus en dessous duseuil.

Page 199: DM Cours Final

Les courbes ROC et de lift

Une mesure globale : l’aire sous la courbe (AUC)cette mesure présente l’intérêt de résumer l’information,permet de comparer deux méthodes entre elles,possède des propriétés théoriques intéressantes.

Cependant :l’AUC n’est pas aussi indicatrice qu’une étude précise de lacourbe,doit être utilisé avec prudence !

Page 200: DM Cours Final

Les courbes ROC et de lift

Exercice :on les résultats suivants :

Ind. 1 2 3 4 5 6 7 8 9 10Vérité P P N P N P N P N NScore .1 .2 .3 .4 .5 .6 .7 .8 .9 1

Q1 : construisez la courbe ROC associée.Q2 : calculez l’aire sous la courbe ROC ainsi construite.

Page 201: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 202: DM Cours Final

Logiciels de Data Mining

Il existe de nombreux logiciels de Statistique/Data Mining sur PC :faciles à installer et pas très chers,avec des algorithmes de bonne qualité,généralement conviviaux,bons pour des PME car pouvant gérer plusieurs dizaines demilliers voire plusieurs centaines de milliers d’individusS-PLUS™ de Insight, Alice™ de Isoft, Predict™ deNeuralware, R (version libre de S-PLUS) et les freewaresWeka et TANAGRA . . .

Cependant :ils ne permettent pas de traiter exhaustivement de trèsgrandes bases de données,ils ne mettent souvent en œuvre qu’une ou deux techniques,sauf quelques produits tels S-PLUS, R, Tanagra et Weka.

Page 203: DM Cours Final

Les «gros» logiciels de Data Mining

Certains gros logiciels sont conçus :pour exploiter de grands volumes de données,pour couvrir une large palette de techniques,ils existent parfois en version « statistique » ou « data mining» (le 2nd étant parfois une sur-couche du 1er),ils peuvent fonctionner en mode client-serveur

Il s’agit de :SPSS™ et Clementine™ de SPSS,SAS/STAT™ et Enterprise Miner™ de SAS,Statistica Data Miner™ de StatSoft,S-PLUS™ et Insightful Miner™ de Insightful.

Page 204: DM Cours Final

Statistique vs. Data Mining

Page 205: DM Cours Final

Logiciels de Data Mining

Page 206: DM Cours Final

Logiciels de Data Mining

Page 207: DM Cours Final

Logiciels de Data Mining

Page 208: DM Cours Final

Logiciels de Data Mining

Page 209: DM Cours Final

Logiciels de Data Mining

Page 210: DM Cours Final

Logiciels de Data Mining

Page 211: DM Cours Final

Logiciels de Data Mining

Page 212: DM Cours Final

Logiciels de Data Mining

Page 213: DM Cours Final

Les OS du Data Mining

Page 214: DM Cours Final

Les types de données utilisés

Page 215: DM Cours Final

Les logiciels de prétraitement utilisés

Page 216: DM Cours Final

Comment choisir un logiciel de Data Mining ?Variété des algorithmes de data mining, de statistique et depréparation des données :

il est plus simple d’avoir tout dans un seul outil,les outils de visualiation sont un plus non négligeable.

Qualité des algorithmes implémentés :algorithmes efficaces et facilement paramétrables,documentation solide.

Capacité de traitement des données :peut être cruciale à partir de plusieurs centaines de milliersd’individus à traiter,la capacité de traiter des données hétérogènes est appréciable.

Autres points importants :existence d’un langage de programmation évolué,convivialité du logiciel et facilité à produire des rapports,et bien sûr ... le prix !

Page 217: DM Cours Final

Qu’est-ce qu’un bon logiciel de Data Mining ?

Algorithmes de statistique et de data mining :classement : analyse discriminante linéaire, régressionlogistique binaire ou polytomique, modèle linéaire généralisé,régression logistique PLS, arbres de décision, réseaux deneurones, k-plus proches voisins, ...prédiction : régression linéaire, modèle linéaire général,régression robuste, régression non-linéaire, régression PLS,arbres de décision, réseaux de neurones, + proches voisins, . . .clustering : centres mobiles, nuées dynamiques, k-means,classification hiérarchique, méthode mixte, réseaux deKohonen, ...analyse des séries temporelles,analyse de survie,détection des associations.

Page 218: DM Cours Final

Qu’est-ce qu’un bon logiciel de Data Mining ?

Fonctions de préparation des données :manipulation de fichiers (fusion, agrégation, transposition. . . ),visualisation des individus, coloriage selon critère,détection, filtrage et winsorisation des extrêmes,analyse et imputation des valeurs manquantes,transformation de variables (recodage, standardisation,normalisation automatique, discrétisation. . . ),création de nouvelles variables (fonctions logiques, chaînes,statistiques, mathématiques. . . ),sélection des discrétisations, des interactions et des variablesles plus explicatives.

Page 219: DM Cours Final

Qu’est-ce qu’un bon logiciel de Data Mining ?Fonctions statistiques :

détermination des caractéristiques de tendance centrale, dedispersion, de forme, . . .tests statistiques de moyenne, de variance, de distribution,d’indépendance, d’hétéroscédasticité, de multicolinéarité. . .

Fonctions d’échantillonnage et de partition des données :pour créer des échantillons d’apprentissage, de test et devalidation,bootstrap, jackknife (validation croisée).

Fonctions d’analyse exploratoire des données :ACP, ACP avec rotation,AFC, ACM.

Langage avancé de programmation :macros,calcul matriciel.

Page 220: DM Cours Final

Qu’est-ce qu’un bon logiciel de Data Mining ?

Présentation des résultats :1 visualisation des résultats,2 manipulation des tableaux,3 bibliothèque de graphiques (2D, 3D, interactifs. . . ),4 navigation dans les arbres de décision,5 affichage des courbes de performances (ROC, lift, gain. . . ),6 indice de Gini, aire sous la courbe ROC,7 facilité d’incorporation de ces éléments dans un rapport.

Gestion des métadonnées :variables définies identiquement pour tous les fichiers duprojet (identifiant, cible, exclusions. . . ),définition de groupes de variables.

Page 221: DM Cours Final

Qu’est-ce qu’un bon logiciel de Data Mining ?Plates-formes supportées :

Windows, Mac,Linux,Unix, Sun, ...

Formats d’entrée/sortie des données gérés :tables Oracle, Sybase, DB2,SAS, fichiers Excel,à plat, ...

Pour plus de puissance :architecture client-serveur : calculs sur le serveur etvisualisation des résultats sur le client,algorithmes parallélisés,

Autres points :exécution en mode interactif ou différé,portabilité des modèles construits (C, XML, Java, SQL...)

Page 222: DM Cours Final

Comment bien travailler avec un logiciel ?

Travailler sur des fichiers structurés :fichiers SAS, SPSS, DB2, ...plutôt que des fichiers à plat.

Travailler avec un OS qui sache gérer efficacement les processus :Linux, Mac, Unix et Sun,et pas Windows !

Travailler uniquement avec ce qui est utile :limiter le fichier analysé aux variables utiles au traitement encours par des sélections judicieuses,recoder les variables pour diminuer leur taille,bien définir la longueur des variables utilisées en la limitant austrict minimum,pré-allouer la taille mémoire des variables, tables et matrices.

Attention si on accède à un réseau distant pour le fichier analyséou pour l’espace temporaire de travail !

Page 223: DM Cours Final

Plan du cours

1 Introduction

2 Principe et méthodes du Data Mining

3 Méthodes descriptives

4 Méthodes exploratoires

5 Méthodes prédictives

6 Evaluation des résultats et des algorithmes

7 Logiciels de Data Mining

8 Data Mining et libertés

Page 224: DM Cours Final

Data Mining et libertésComme tout traitement informatique de données sur des personnesphysiques, le Data Mining obéit en France à un certain nombre derègles, édictées dans ces textes :

la loi n° 78-17 du 6 janvier 1978 relative à l’informatique, auxfichiers et aux libertés,les délibérations de la Commission Nationale de l’Informatiqueet des Libertés (CNIL),la Convention n° 108 du Conseil de l’Europe du 28/1/1981,la loi n° 2004-801 du 6 août 2004 relative à la protection despersonnes physiques à l’égard des traitements de données àcaractère personnel, transposant en droit français la directiveeuropéenne 95/46/CE, en modifiant la loi n° 78-17.

On trouve ces règles sur le site de la CNIL :

www.cnil.fr

Page 225: DM Cours Final

Champs d’applications des textes

Informations nominatives :dites également «données à caractère personnel»,c’est-à-dire les données concernant les personnes physiquesidentifiées ou identifiables,ne sont pas concernés les fichiers de personnes physiquesrendues anonymes par la suppression de tout identifiant,sont concernés les fichiers d’entreprises unipersonnelles.

Traitements informatiques de ces informations :même ceux qui se bornent à les collecter et les enregistrer,en dehors de toute mise en œuvre ou de toute exploitation(article 5 de la loi 78-17).

Page 226: DM Cours Final

Données illégales ?

Ne doivent être, sauf cas particulier, ni traitées ni même collectées,les informations sur :

les origines raciales,les opinions politiques, philosophiques ou religieuses,les appartenances syndicales,les mœurs,la santé,les condamnations pénales,NIR : n° d’inscription au répertoire national d’identificationdes personnes physiques.

Page 227: DM Cours Final

Droits des personnes

Les personnes physiques ont le droit que les informationsnominatives les concernant soient :

légalement utilisables,loyalement collectées,stockées en sécurité,communiquées aux seuls tiers autorisés,rectifiées si besoin est,enregistrées pour des finalités déterminées et légitimes parrapport auxquelles elles sont pertinentes et non excessives,effacées au bout d’un certain délai (correspondant à la finalitédu traitement déclaré).

Page 228: DM Cours Final

Droits des personnes

De façon générale, les personnes physiques :doivent avoir connaissance des destinataires des informationsnominatives qu’elles fournissent, de leur droit d’accès et derectification, et, le cas échéant, de la possibilité de ne pasrépondre aux questions facultatives (droit d’information),doivent avoir connaissance de la cessibilité d’informationsnominatives les concernant avec une finalité identique à celled’origine,doivent avoir connaissance de la cessibilité d’informationsnominatives les concernant avec une finalité différente de celled’origine (prospection commerciale par exemple) et doivent lesaccepter expressément.

Page 229: DM Cours Final

Droits des personnes

De façon générale, les personnes physiques :peuvent avoir connaissance (à leur demande) des informationsnominatives mémorisées les concernant, de l’existence et de lafinalité d’un traitement informatique les concernant (articles22 et 34) (droit d’accès),peuvent s’opposer, pour des raisons légitimes, à un traitementinformatique d’informations nominatives les concernant(article 26) (droit d’opposition),ne peuvent pas exiger d’avoir connaissance du détail dutraitement, à moins (article 3) que ces traitements fondentune décision qu’elles contestent.

Page 230: DM Cours Final

Déclaration pour une étude de Data Mining

La déclaration à faire à la CNIL préalablement à la mise en œuvred’un nouveau traitement automatisé de données à caractèrepersonnel est :

soit une déclaration simplifiée, qui n’exige qu’un minimumd’informations, mais l’engagement que la déclaration soitstrictement conforme à l’une des normes simplifiées envigueur,soit une déclaration ordinaire, dans les autres cas.

Les déclarations de sites Web peuvent être faites en ligne.

La CNIL :a reçu 69 352 déclarations de traitement en 2003,son « fichier des fichiers » recensait 941 076 traitements fin2003.

Page 231: DM Cours Final

La loi 2004-801Abolit la distinction entre secteurs public et privé :

hormis les traitements publics liés à la sécurité,le secteur public n’est plus le seul à devoir requérirl’autorisation préalable de la CNIL dans certains cas.

Instaure une distinction entre traitements sensibles ou non :traitements sensibles : demande d’autorisation préalable,autres traitements : déclaration simplecertains cas : exonération de déclaration (paie du personnel,...).

Un traitement peut être dit sensible en raison de :la nature des données (NIR, données biométriques,génétiques, sensibles, relatives aux condamnations...),l’ampleur des traitements (totalité de la population française),la finalité des traitements (scoring, exclusion du bénéfice d’undroit, « listes noires », interconnexion de fichiers...).

Page 232: DM Cours Final

La loi 2004-801

Crée les « correspondants à la protection des données » (CPO)dans les entreprises (article 22):

chargés de tenir le registre des traitements mis en œuvre etd’assurer le respect des obligations légales,non obligatoires pour l’entreprise,dispensent l’entreprise des déclarations mais non desautorisations préalables de traitements sensibles,nommés par l’entreprise sans accréditation de la CNIL,pourront être choisis au sein ou à l’extérieur de l’entreprise,devront jouir d’une certaine indépendance dans l’entreprise.

Page 233: DM Cours Final

Pouvoirs de la CNIL

Avec la loi 2004-801, la CNIL dispose des droits suivants :accéder à tout local professionnel servant à l’exploitation d’unfichier,rendre publics ses avertissements,infliger des amendes jusqu’à 150 000 € (300 000 € en cas derécidive),au lieu de se limiter à dénoncer les infractions au Parquet,retirer une autorisation déjà donnée,interdire un traitement pendant une durée max de 3 mois.

Page 234: DM Cours Final

Cas du scoringUn score de risque :

doit faire l’objet d’une déclaration ordinaireet pas seulement d’une déclaration simplifiée.

Cette déclaration doit indiquer :les variables utilisées,les paramètres du score,et les grilles de pondération.

Aucune décision accordant ou refusant un crédit ne peut avoir pourseul fondement un traitement automatisé d’informations donnantune définition du profil ou de la personnalité de l’intéressé.Toute personne à laquelle un refus de crédit est opposé :

bénéficie du droit d’accès aux informations utilisées lors del’examen de sa demande (y compris sa note de score),et peut, le cas échéant, en exiger la rectification.

Page 235: DM Cours Final

Cas de la segmentation de clientèle

La CNIL admet l’affectation des clients en segments de clientèle,sous les réserves suivantes :

informations collectées « adéquates, pertinentes et nonexcessives »,droit d’accès aux informations,mise à jour périodique de l’affectation à un segment,non-automaticité et non-inéluctabilité des décisions endécoulant,non-cession de ces informations à des tiers non autorisés.

Les segments ne doivent pas comporter :de qualificatifs péjoratifs, défavorables ou subjectifs sur lescatégories d’individus,sont en revanche admises les catégories : « vivant à crédit », «clients aisés et âgés », « petits épargnants ».