Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf ·...

64
Fouille des données Introduction Maria Malek Fili ` ere TSI EISTI Fouille des donn ´ ees – p. 1/?

Transcript of Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf ·...

Page 1: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Fouille des donnéesIntroduction

Maria Malek

Filiere TSI

EISTI

Fouille des donnees – p. 1/??

Page 2: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Vous avez dit ?

Data Mining ?

Fouille des donnees – p. 2/??

Page 3: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Vous avez dit ?

Data Mining ?

Découverte de connaissances à partir de données ?un processus itératif par lequel on extrait desconnaissances valides, nouvelles, potentiellementutiles et compréhensibles [Fayyad et al., 1995]

Fouille des donnees – p. 2/??

Page 4: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Vous avez dit ?

Data Mining ?

Découverte de connaissances à partir de données ?un processus itératif par lequel on extrait desconnaissances valides, nouvelles, potentiellementutiles et compréhensibles [Fayyad et al., 1995]

"Comment faire parler les données ? "

Fouille des donnees – p. 2/??

Page 5: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Autour du data mining : les domaines

Apprentissage Automatique (ML)

DM : suppose la pré-existence de très grandsvolumes de données Data mining.

Fouille des donnees – p. 3/??

Page 6: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Autour du data mining : les domaines

Apprentissage Automatique (ML)

DM : suppose la pré-existence de très grandsvolumes de données Data mining.

Statistiques, Analyse des donnéesStat : but = vérification d’hypothèses.DM : but = découverte de nouvelles connaissances.

Fouille des donnees – p. 3/??

Page 7: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Fouille des donnees – p. 4/??

Page 8: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Fouille des donnees – p. 4/??

Page 9: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des données

Fouille des donnees – p. 4/??

Page 10: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,

Fouille des donnees – p. 4/??

Page 11: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,reduction sélection des instances sélection, extraction,

combinaison des variables,

Fouille des donnees – p. 4/??

Page 12: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,reduction sélection des instances sélection, extraction,

combinaison des variables,transformation discrétisation des variables continues,

binarisation des variables nominales, ajout denouvelles variables (induction constructive).

Fouille des donnees – p. 4/??

Page 13: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,reduction sélection des instances sélection, extraction,

combinaison des variables,transformation discrétisation des variables continues,

binarisation des variables nominales, ajout denouvelles variables (induction constructive).

Fouille des donnees – p. 4/??

Page 14: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 4

L’apprentissage «data mining» une méthode d’extractionde connaissances.

Fouille des donnees – p. 5/??

Page 15: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Processus du Data Mining - 4

L’apprentissage «data mining» une méthode d’extractionde connaissances.

Evaluation et interprétation des résultats critèresdifférents suivant la tâche.

Fouille des donnees – p. 5/??

Page 16: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Fouille des donnees – p. 6/??

Page 17: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Fouille des donnees – p. 6/??

Page 18: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Structure de base : un exemple/cas/observation =vecteur de p attributs ou variables chaque attribut prendsa valeur dans un domaine donné.

Fouille des donnees – p. 6/??

Page 19: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Structure de base : un exemple/cas/observation =vecteur de p attributs ou variables chaque attribut prendsa valeur dans un domaine donné.Ensemble d’attribut - valeur : Techniques de logique

d’ordre 0 ou propositionnelle.

Fouille des donnees – p. 6/??

Page 20: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Structure de base : un exemple/cas/observation =vecteur de p attributs ou variables chaque attribut prendsa valeur dans un domaine donné.Ensemble d’attribut - valeur : Techniques de logique

d’ordre 0 ou propositionnelle.Attributs & relations : Apprentissage relationnel &

programmation inductive logique (logique deprédicats).

Fouille des donnees – p. 6/??

Page 21: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données : exemple - 1

NUM CIEL TEMP. HUMI. VENT CLASSE

1 ensoleillé élevé forte non N

2 ensoleillé élevé forte oui N

3 couvert élevé forte non P

4 pluvieux moyenne forte non P

5 pluvieux basse normale non P

6 pluvieux basse normale oui N

7 couvert basse normale oui P

Table 1: Description des conditions météorologiques

Fouille des donnees – p. 7/??

Page 22: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Les données : exemple - 2

NUM CIEL TEMP. HUMI. VENT CLASSE

8 ensoleillé moyenne forte non N

9 ensoleillé basse normale non P

10 pluvieux moyenne normale non P

11 ensoleillé moyenne normale oui P

12 couvert moyenne forte oui P

13 couvert élevé normale non P

14 pluvieux moyenne forte oui N

Table 2: Description des conditions météorologiques

Fouille des donnees – p. 8/??

Page 23: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Nature des variables ..

Indépendante & Dépendante

Fouille des donnees – p. 9/??

Page 24: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observation

Fouille des donnees – p. 9/??

Page 25: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Fouille des donnees – p. 9/??

Page 26: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Apprentissage supervisé & non supervisé

Fouille des donnees – p. 9/??

Page 27: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Apprentissage supervisé & non superviséApprentissage non supervis e : pas de variable cible ex.

regroupement (clustering).

Fouille des donnees – p. 9/??

Page 28: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Apprentissage supervisé & non superviséApprentissage non supervis e : pas de variable cible ex.

regroupement (clustering).Apprentissage supervis e : une variable cible (valeur à

prédire) ex. classification.

Fouille des donnees – p. 9/??

Page 29: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Résultat du processus

Connaissances sont extraites sous forme d’un :

Fouille des donnees – p. 10/??

Page 30: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Résultat du processus

Connaissances sont extraites sous forme d’un :mod ele : un résumé global de l’ensemble de données

applicable sur n’importe quelle instance appartenantà l’espace des données ;

Fouille des donnees – p. 10/??

Page 31: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Résultat du processus

Connaissances sont extraites sous forme d’un :mod ele : un résumé global de l’ensemble de données

applicable sur n’importe quelle instance appartenantà l’espace des données ;

motif (pattern) : résumé local d’une région de l’espacedes données ; exemple : une règle.

Fouille des donnees – p. 10/??

Page 32: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Fouille des donnees – p. 11/??

Page 33: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Fouille des donnees – p. 11/??

Page 34: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Fouille des donnees – p. 11/??

Page 35: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Fouille des donnees – p. 11/??

Page 36: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Domaines non supervisés :

Fouille des donnees – p. 11/??

Page 37: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Domaines non supervisés :Regroupement(clustering) Exemple : detecter le profil

utilisateur,etc.

Fouille des donnees – p. 11/??

Page 38: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Domaines non supervisés :Regroupement(clustering) Exemple : detecter le profil

utilisateur,etc.

Association Exemple analyser les logs utilisateurs d’un serveurweb, etc.

Fouille des donnees – p. 11/??

Page 39: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Tâches du Data Mining

Prédiction :Classification,Régression,Association.

Fouille des donnees – p. 12/??

Page 40: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Tâches du Data Mining

Prédiction :Classification,Régression,Association.

DescriptionVisualisation,Regroupement,Association.

Fouille des donnees – p. 12/??

Page 41: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fouille des donnees – p. 13/??

Page 42: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fonction d’évaluation : permet de mesurer la qualité d’unmodèle ; Exemple : classification: taux d’exemples bien classes.

Fouille des donnees – p. 13/??

Page 43: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fonction d’évaluation : permet de mesurer la qualité d’unmodèle ; Exemple : classification: taux d’exemples bien classes.

Méthode de recherche : stratégie utilisée pour parcourirl’espace d’hypothèses et pour trouver celle qui optimisela fonction d’évaluation.

Fouille des donnees – p. 13/??

Page 44: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fonction d’évaluation : permet de mesurer la qualité d’unmodèle ; Exemple : classification: taux d’exemples bien classes.

Méthode de recherche : stratégie utilisée pour parcourirl’espace d’hypothèses et pour trouver celle qui optimisela fonction d’évaluation.

Stratégie de gestion des données : la façon de stocker,d’indexer et d’accéder aux données.

Fouille des donnees – p. 13/??

Page 45: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Côté Pratique ..

Etude de la problématique de la classification

Fouille des donnees – p. 14/??

Page 46: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Côté Pratique ..

Etude de la problématique de la classification

Comment valider un classifieur.

Fouille des donnees – p. 14/??

Page 47: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Côté Pratique ..

Etude de la problématique de la classification

Comment valider un classifieur.

Etude de l’algorithme k plus proche voisins .

Fouille des donnees – p. 14/??

Page 48: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Côté Pratique ..

Etude de la problématique de la classification

Comment valider un classifieur.

Etude de l’algorithme k plus proche voisins .

Utilisation du logiciel Weka.

Fouille des donnees – p. 14/??

Page 49: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

La classification

Types de classeurs

Construction d’un modèle arborescent permettant deprédire la classe d’une donnée.Estimation directe de la classe d’une donnée enfonction des exemples.Construction d’un modèle réglable par l’humain (lesréseaux de neurones, et les machines à vecteurssupports).

Fouille des donnees – p. 15/??

Page 50: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Fouille des donnees – p. 16/??

Page 51: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Le taux de succès est 1 − Er.

Fouille des donnees – p. 16/??

Page 52: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Le taux de succès est 1 − Er.

L’erreur apparente Erapp est mesurée sur les exemplesutilisés pour la construction du classeur.

Fouille des donnees – p. 16/??

Page 53: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Le taux de succès est 1 − Er.

L’erreur apparente Erapp est mesurée sur les exemplesutilisés pour la construction du classeur.

Estimer la qualité d’un classeur :L’ensemble d’apprentissage Xapp ;L’ensemble de test Xtest qui permet d’estimer l’erreurde classification ; on connaît la classe de chaqueexemple dans cet l’ensemble.

Fouille des donnees – p. 16/??

Page 54: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:

Fouille des donnees – p. 17/??

Page 55: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:VP/VN : Le nombre de vrais positifs/négatifs : les

exemples de classe positive/négative et dont laclasse est prédite comme positive/négative.

Fouille des donnees – p. 17/??

Page 56: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:VP/VN : Le nombre de vrais positifs/négatifs : les

exemples de classe positive/négative et dont laclasse est prédite comme positive/négative.

FP/FN : Les exemples de classe négative/positive et dontla classe est prédite comme positive/négative.

Fouille des donnees – p. 17/??

Page 57: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:VP/VN : Le nombre de vrais positifs/négatifs : les

exemples de classe positive/négative et dont laclasse est prédite comme positive/négative.

FP/FN : Les exemples de classe négative/positive et dontla classe est prédite comme positive/négative.

Construction de la matrice de confusion ..

+ -

+ VP FN- FP VN

Fouille des donnees – p. 17/??

Page 58: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

Fouille des donnees – p. 18/??

Page 59: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

On définit dans la suite quatre mesures :

La précision pour les positifs et les négatifs : V PV P+FP ,

V NV N+FN ; le rappel sur les positifs et les négatifs: V PV P+FN , : V N

V N+FP .

La précision mesure la proportion des exemplesvraiment positifs parmi ceux qui étaient classéspositifs.Le rappel mesure la proportion des exemples positifstrouvés parmi tous les exemples positifs.

Fouille des donnees – p. 18/??

Page 60: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

On définit dans la suite quatre mesures :

La précision pour les positifs et les négatifs : V PV P+FP ,

V NV N+FN ; le rappel sur les positifs et les négatifs: V PV P+FN , : V N

V N+FP .

La précision mesure la proportion des exemplesvraiment positifs parmi ceux qui étaient classéspositifs.Le rappel mesure la proportion des exemples positifstrouvés parmi tous les exemples positifs.

Fouille des donnees – p. 18/??

Page 61: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

On définit dans la suite quatre mesures :

La précision pour les positifs et les négatifs : V PV P+FP ,

V NV N+FN ; le rappel sur les positifs et les négatifs: V PV P+FN , : V N

V N+FP .

La précision mesure la proportion des exemplesvraiment positifs parmi ceux qui étaient classéspositifs.Le rappel mesure la proportion des exemples positifstrouvés parmi tous les exemples positifs.

Fouille des donnees – p. 18/??

Page 62: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 4

Technique : validation croisée :

Découper l’ensemble d’exemples en n sousensembles disjoints.Chaque classe doit apparaître avec les mêmefréquence dans les n ensembles.

Soit A,B,C une division en trois sous ensemble,Le classifieur construit à partir de A ∪ B est appeléADA∪B,L’erreur de généralisation calculée sur C est appeléErc.Le taux d’erreur est alors estimée parEr = ErA+ErB+Erc

3

Fouille des donnees – p. 19/??

Page 63: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 4

Technique : validation croisée :

Découper l’ensemble d’exemples en n sousensembles disjoints.Chaque classe doit apparaître avec les mêmefréquence dans les n ensembles.

Soit A,B,C une division en trois sous ensemble,Le classifieur construit à partir de A ∪ B est appeléADA∪B,L’erreur de généralisation calculée sur C est appeléErc.Le taux d’erreur est alors estimée parEr = ErA+ErB+Erc

3

Fouille des donnees – p. 19/??

Page 64: Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Validation d’un classeur - 5

Méthode Bootstrap :Un ensemble E : nous construisons l’ensembled’apprentissage Xapp.Les exemples qui restent constituent l’ensemble Xtest.on effectue N tirages aléatoires a partir de E avecremise.La probabilité qu’un exemple x ne soit jamais tiré estégal à (1 − 1

N )N , N− > +∞, e−1 = 0.368

|Xapp| = 63.2, |Xgn| = 36.8

E = 0.368 ∗ Eapp + 0.632 ∗ Etest

Fouille des donnees – p. 20/??