Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf ·...

Post on 12-Sep-2018

215 views 0 download

Transcript of Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf ·...

Fouille des donnéesIntroduction

Maria Malek

Filiere TSI

EISTI

Fouille des donnees – p. 1/??

Vous avez dit ?

Data Mining ?

Fouille des donnees – p. 2/??

Vous avez dit ?

Data Mining ?

Découverte de connaissances à partir de données ?un processus itératif par lequel on extrait desconnaissances valides, nouvelles, potentiellementutiles et compréhensibles [Fayyad et al., 1995]

Fouille des donnees – p. 2/??

Vous avez dit ?

Data Mining ?

Découverte de connaissances à partir de données ?un processus itératif par lequel on extrait desconnaissances valides, nouvelles, potentiellementutiles et compréhensibles [Fayyad et al., 1995]

"Comment faire parler les données ? "

Fouille des donnees – p. 2/??

Autour du data mining : les domaines

Apprentissage Automatique (ML)

DM : suppose la pré-existence de très grandsvolumes de données Data mining.

Fouille des donnees – p. 3/??

Autour du data mining : les domaines

Apprentissage Automatique (ML)

DM : suppose la pré-existence de très grandsvolumes de données Data mining.

Statistiques, Analyse des donnéesStat : but = vérification d’hypothèses.DM : but = découverte de nouvelles connaissances.

Fouille des donnees – p. 3/??

Processus du Data Mining - 1

Analyse du problème d’application.

Fouille des donnees – p. 4/??

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Fouille des donnees – p. 4/??

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des données

Fouille des donnees – p. 4/??

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,

Fouille des donnees – p. 4/??

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,reduction sélection des instances sélection, extraction,

combinaison des variables,

Fouille des donnees – p. 4/??

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,reduction sélection des instances sélection, extraction,

combinaison des variables,transformation discrétisation des variables continues,

binarisation des variables nominales, ajout denouvelles variables (induction constructive).

Fouille des donnees – p. 4/??

Processus du Data Mining - 1

Analyse du problème d’application.

Sélection et exploration des donnéesévaluer la qualité des données,visualiser, analyser les distributions et lesregroupements,détecter les insuffisances, pathologies des données.

Pré-traitement des donnéesnettoyage bruit, valeurs manquantes, valeurs aberrantes,reduction sélection des instances sélection, extraction,

combinaison des variables,transformation discrétisation des variables continues,

binarisation des variables nominales, ajout denouvelles variables (induction constructive).

Fouille des donnees – p. 4/??

Processus du Data Mining - 4

L’apprentissage «data mining» une méthode d’extractionde connaissances.

Fouille des donnees – p. 5/??

Processus du Data Mining - 4

L’apprentissage «data mining» une méthode d’extractionde connaissances.

Evaluation et interprétation des résultats critèresdifférents suivant la tâche.

Fouille des donnees – p. 5/??

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Fouille des donnees – p. 6/??

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Fouille des donnees – p. 6/??

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Structure de base : un exemple/cas/observation =vecteur de p attributs ou variables chaque attribut prendsa valeur dans un domaine donné.

Fouille des donnees – p. 6/??

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Structure de base : un exemple/cas/observation =vecteur de p attributs ou variables chaque attribut prendsa valeur dans un domaine donné.Ensemble d’attribut - valeur : Techniques de logique

d’ordre 0 ou propositionnelle.

Fouille des donnees – p. 6/??

Les données ??

Une donn ee est un enregistrement,un individu(statistique), une instance (orienté objet), un point, unvecteur.

Un attribut peut être de nature qualitative ou quantitative,ou même un enregistrement (comme la date).

Structure de base : un exemple/cas/observation =vecteur de p attributs ou variables chaque attribut prendsa valeur dans un domaine donné.Ensemble d’attribut - valeur : Techniques de logique

d’ordre 0 ou propositionnelle.Attributs & relations : Apprentissage relationnel &

programmation inductive logique (logique deprédicats).

Fouille des donnees – p. 6/??

Les données : exemple - 1

NUM CIEL TEMP. HUMI. VENT CLASSE

1 ensoleillé élevé forte non N

2 ensoleillé élevé forte oui N

3 couvert élevé forte non P

4 pluvieux moyenne forte non P

5 pluvieux basse normale non P

6 pluvieux basse normale oui N

7 couvert basse normale oui P

Table 1: Description des conditions météorologiques

Fouille des donnees – p. 7/??

Les données : exemple - 2

NUM CIEL TEMP. HUMI. VENT CLASSE

8 ensoleillé moyenne forte non N

9 ensoleillé basse normale non P

10 pluvieux moyenne normale non P

11 ensoleillé moyenne normale oui P

12 couvert moyenne forte oui P

13 couvert élevé normale non P

14 pluvieux moyenne forte oui N

Table 2: Description des conditions météorologiques

Fouille des donnees – p. 8/??

Nature des variables ..

Indépendante & Dépendante

Fouille des donnees – p. 9/??

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observation

Fouille des donnees – p. 9/??

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Fouille des donnees – p. 9/??

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Apprentissage supervisé & non supervisé

Fouille des donnees – p. 9/??

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Apprentissage supervisé & non superviséApprentissage non supervis e : pas de variable cible ex.

regroupement (clustering).

Fouille des donnees – p. 9/??

Nature des variables ..

Indépendante & DépendanteVariable ind ependante/explicative/pr edictive : variable dont la

valeur est obtenue par observationVariable d ependante/r eponse/cible : variable dont la valeur

dépend d’autres variables

Apprentissage supervisé & non superviséApprentissage non supervis e : pas de variable cible ex.

regroupement (clustering).Apprentissage supervis e : une variable cible (valeur à

prédire) ex. classification.

Fouille des donnees – p. 9/??

Résultat du processus

Connaissances sont extraites sous forme d’un :

Fouille des donnees – p. 10/??

Résultat du processus

Connaissances sont extraites sous forme d’un :mod ele : un résumé global de l’ensemble de données

applicable sur n’importe quelle instance appartenantà l’espace des données ;

Fouille des donnees – p. 10/??

Résultat du processus

Connaissances sont extraites sous forme d’un :mod ele : un résumé global de l’ensemble de données

applicable sur n’importe quelle instance appartenantà l’espace des données ;

motif (pattern) : résumé local d’une région de l’espacedes données ; exemple : une règle.

Fouille des donnees – p. 10/??

Applications du Data Mining

Domaines supervisés :

Fouille des donnees – p. 11/??

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Fouille des donnees – p. 11/??

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Fouille des donnees – p. 11/??

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Fouille des donnees – p. 11/??

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Domaines non supervisés :

Fouille des donnees – p. 11/??

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Domaines non supervisés :Regroupement(clustering) Exemple : detecter le profil

utilisateur,etc.

Fouille des donnees – p. 11/??

Applications du Data Mining

Domaines supervisés :

Chaque instance = p variables predictives + 1 variable cible (apredire)

Classification : variable cible discrète Exemple : diagnostiquerune maladie, etc.

Regression : variable cible continue Exemple : estimer lavaleur d’un bien, etc.

Domaines non supervisés :Regroupement(clustering) Exemple : detecter le profil

utilisateur,etc.

Association Exemple analyser les logs utilisateurs d’un serveurweb, etc.

Fouille des donnees – p. 11/??

Tâches du Data Mining

Prédiction :Classification,Régression,Association.

Fouille des donnees – p. 12/??

Tâches du Data Mining

Prédiction :Classification,Régression,Association.

DescriptionVisualisation,Regroupement,Association.

Fouille des donnees – p. 12/??

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fouille des donnees – p. 13/??

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fonction d’évaluation : permet de mesurer la qualité d’unmodèle ; Exemple : classification: taux d’exemples bien classes.

Fouille des donnees – p. 13/??

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fonction d’évaluation : permet de mesurer la qualité d’unmodèle ; Exemple : classification: taux d’exemples bien classes.

Méthode de recherche : stratégie utilisée pour parcourirl’espace d’hypothèses et pour trouver celle qui optimisela fonction d’évaluation.

Fouille des donnees – p. 13/??

Conception d’un algorithme DM

Structure de modèle/motif : la forme des connaissancesà extraire des données : arbre de décision, réseau deneurones.

Fonction d’évaluation : permet de mesurer la qualité d’unmodèle ; Exemple : classification: taux d’exemples bien classes.

Méthode de recherche : stratégie utilisée pour parcourirl’espace d’hypothèses et pour trouver celle qui optimisela fonction d’évaluation.

Stratégie de gestion des données : la façon de stocker,d’indexer et d’accéder aux données.

Fouille des donnees – p. 13/??

Côté Pratique ..

Etude de la problématique de la classification

Fouille des donnees – p. 14/??

Côté Pratique ..

Etude de la problématique de la classification

Comment valider un classifieur.

Fouille des donnees – p. 14/??

Côté Pratique ..

Etude de la problématique de la classification

Comment valider un classifieur.

Etude de l’algorithme k plus proche voisins .

Fouille des donnees – p. 14/??

Côté Pratique ..

Etude de la problématique de la classification

Comment valider un classifieur.

Etude de l’algorithme k plus proche voisins .

Utilisation du logiciel Weka.

Fouille des donnees – p. 14/??

La classification

Types de classeurs

Construction d’un modèle arborescent permettant deprédire la classe d’une donnée.Estimation directe de la classe d’une donnée enfonction des exemples.Construction d’un modèle réglable par l’humain (lesréseaux de neurones, et les machines à vecteurssupports).

Fouille des donnees – p. 15/??

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Fouille des donnees – p. 16/??

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Le taux de succès est 1 − Er.

Fouille des donnees – p. 16/??

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Le taux de succès est 1 − Er.

L’erreur apparente Erapp est mesurée sur les exemplesutilisés pour la construction du classeur.

Fouille des donnees – p. 16/??

Validation d’un classeur - 1

L’erreur d’un classeur Er est la probabilité que ceclasseur ne prédise pas correctement la classe d’unedonnée.

Le taux de succès est 1 − Er.

L’erreur apparente Erapp est mesurée sur les exemplesutilisés pour la construction du classeur.

Estimer la qualité d’un classeur :L’ensemble d’apprentissage Xapp ;L’ensemble de test Xtest qui permet d’estimer l’erreurde classification ; on connaît la classe de chaqueexemple dans cet l’ensemble.

Fouille des donnees – p. 16/??

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:

Fouille des donnees – p. 17/??

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:VP/VN : Le nombre de vrais positifs/négatifs : les

exemples de classe positive/négative et dont laclasse est prédite comme positive/négative.

Fouille des donnees – p. 17/??

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:VP/VN : Le nombre de vrais positifs/négatifs : les

exemples de classe positive/négative et dont laclasse est prédite comme positive/négative.

FP/FN : Les exemples de classe négative/positive et dontla classe est prédite comme positive/négative.

Fouille des donnees – p. 17/??

Validation d’un classeur - 2

Mesure de qualité d’un classeur : cas de classification binaire:VP/VN : Le nombre de vrais positifs/négatifs : les

exemples de classe positive/négative et dont laclasse est prédite comme positive/négative.

FP/FN : Les exemples de classe négative/positive et dontla classe est prédite comme positive/négative.

Construction de la matrice de confusion ..

+ -

+ VP FN- FP VN

Fouille des donnees – p. 17/??

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

Fouille des donnees – p. 18/??

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

On définit dans la suite quatre mesures :

La précision pour les positifs et les négatifs : V PV P+FP ,

V NV N+FN ; le rappel sur les positifs et les négatifs: V PV P+FN , : V N

V N+FP .

La précision mesure la proportion des exemplesvraiment positifs parmi ceux qui étaient classéspositifs.Le rappel mesure la proportion des exemples positifstrouvés parmi tous les exemples positifs.

Fouille des donnees – p. 18/??

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

On définit dans la suite quatre mesures :

La précision pour les positifs et les négatifs : V PV P+FP ,

V NV N+FN ; le rappel sur les positifs et les négatifs: V PV P+FN , : V N

V N+FP .

La précision mesure la proportion des exemplesvraiment positifs parmi ceux qui étaient classéspositifs.Le rappel mesure la proportion des exemples positifstrouvés parmi tous les exemples positifs.

Fouille des donnees – p. 18/??

Validation d’un classeur - 3

Mesure de qualité d’un classeur : cas de classification binaire:

On définit dans la suite quatre mesures :

La précision pour les positifs et les négatifs : V PV P+FP ,

V NV N+FN ; le rappel sur les positifs et les négatifs: V PV P+FN , : V N

V N+FP .

La précision mesure la proportion des exemplesvraiment positifs parmi ceux qui étaient classéspositifs.Le rappel mesure la proportion des exemples positifstrouvés parmi tous les exemples positifs.

Fouille des donnees – p. 18/??

Validation d’un classeur - 4

Technique : validation croisée :

Découper l’ensemble d’exemples en n sousensembles disjoints.Chaque classe doit apparaître avec les mêmefréquence dans les n ensembles.

Soit A,B,C une division en trois sous ensemble,Le classifieur construit à partir de A ∪ B est appeléADA∪B,L’erreur de généralisation calculée sur C est appeléErc.Le taux d’erreur est alors estimée parEr = ErA+ErB+Erc

3

Fouille des donnees – p. 19/??

Validation d’un classeur - 4

Technique : validation croisée :

Découper l’ensemble d’exemples en n sousensembles disjoints.Chaque classe doit apparaître avec les mêmefréquence dans les n ensembles.

Soit A,B,C une division en trois sous ensemble,Le classifieur construit à partir de A ∪ B est appeléADA∪B,L’erreur de généralisation calculée sur C est appeléErc.Le taux d’erreur est alors estimée parEr = ErA+ErB+Erc

3

Fouille des donnees – p. 19/??

Validation d’un classeur - 5

Méthode Bootstrap :Un ensemble E : nous construisons l’ensembled’apprentissage Xapp.Les exemples qui restent constituent l’ensemble Xtest.on effectue N tirages aléatoires a partir de E avecremise.La probabilité qu’un exemple x ne soit jamais tiré estégal à (1 − 1

N )N , N− > +∞, e−1 = 0.368

|Xapp| = 63.2, |Xgn| = 36.8

E = 0.368 ∗ Eapp + 0.632 ∗ Etest

Fouille des donnees – p. 20/??