TP de Data Mining 00-Utilisation de Clementine-EPF
-
Upload
bacary-sene -
Category
Documents
-
view
31 -
download
3
Transcript of TP de Data Mining 00-Utilisation de Clementine-EPF
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 1/7- Bertrand LIAUDET
TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE EPF – 4/ 5ème année - Option Ingénierie d’Affaires et de Projets - Finance
Bertrand LIAUDET
Utilisation de SPSS - Clementine 1
Aide et didacticiel ............................................................................................................1
Vocabulaire de base : nœud, flux, résultats et projet .....................................................2
L’espace de travail Clémentine.......................................................................................2
L’espace de travail des flux.............................................................................................2
La palette des nœuds de Clémentine...............................................................................3
Le gestionnaire des flux...................................................................................................7
Le gestionnaire des projets..............................................................................................7
UTILISATION DE SPSS - CLEMENTINE
Clementine est un logiciel de data mining. Il comporte deux parties :
• Une partie d’analyse et de manipulation des données « classiques »
• Une partie de modélisation propre au data mining
La partie d’analyse et de manipulation des données reprend les notions de base de l’algèbre relationnelle (SQL).
La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining.
Aide et didacticiel
Aide / Rubriques d’aide -> Accès à l’aide :
• Aide contextuelle : Cliquez sur le bouton Aide ou sur l'icône correspondante dans la plupart des boîtes de dialogue pour accéder à la rubrique d'aide propre aux commandes de cette boîte de dialogue.
• Aide Qu'est-ce que c'est ? : Pour accéder à l'aide générale sur les noeuds et les éléments de la barre d'outils, sélectionnez « Qu'est-ce que c'est ? » dans le menu Aide de Clementine. Le curseur se transforme en point d'interrogation : vous pouvez l'utiliser pour cliquer sur n'importe quel élément de l'espace de travail de flux ou des palettes. Une fenêtre d'aide apparaît : elle contient des informations sur l'élément sélectionné.
Aide / Didacticiel
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 2/7- Bertrand LIAUDET
Suivre les étapes du didacticiel
Vocabulaire de base : nœud, flux, résultats et proj et
Nœud : un nœud est un élément d’un flux. C’est une étape d’un traitement complet qu’on appelle « flux ». Un nœud isolé ne produit pas de résultats. C’est la connexion de plusieurs nœuds qui peut produire des résultats. La version de Clementine qu’on utilise propose 60 nœuds répartis dans 6 catégories (Sources, Opérations sur les lignes, Opérations sur les champs, Graphiques, Modélisation, Sortie).
Flux : un flux est un ensemble de nœuds produisant des résultats. Il faut au moins deux nœuds pour fabriquer un flux : un nœud d’entrée (choix du fichier de données) et un nœud de sortie (choix d’une méthode d’affichage ou d’un modèle).
Un flux contient un et un seul nœud de sortie. Il peut contenir plusieurs nœuds d’entrée. Il peut se diviser en plusieurs branches, mais se termine toujours par un seul nœud de sortie.
Résulats : sorties et modèle : les flux produisent quatre types de résultats : des tableaux, des graphiques, des statistiques et des modèles. Tableaux, graphiques et statistiques sont appelées : « sorties ».
Projet (processus) : un projet est un ensemble de flux répartis dans les étapes du processus CRISP-DM.
L’espace de travail Clémentine
L’espace de travail Clémentine se divise en 4 parties :
• L’espace de travail des flux : pour fabriquer les flux.
• La palette des nœuds : pour choisir les nœuds.
• Le gestionnaire des flux : pour gérer les flux en tant que fichiers.
• Le gestionnaire des projets : pour gérer les projets en tant que fichiers.
L’espace de travail des flux
Dans l’espace de travail des flux, on peut :
• Déposer les nœuds de la palette des nœuds.
• Paramétrer les nœuds.
• Connecter les nœuds.
• Exécuter un nœud de sortie.
L’espace de travail des flux contient un ou plusieurs flux (autant que de nœuds de sortie).
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 3/7- Bertrand LIAUDET
La palette des nœuds de Clémentine
Dans la « palette de nœuds », zone horizontale en bas de la fenêtre de Clémentine, le logiciel propose toutes les opérations possibles regroupées logiquement :
• Sources
• Opérations sur les lignes
• Opérations sur les champs
• Graphiques
• Modélisation
• Sortie
Dans ces opérations, on va retrouver la logique de l’algèbre relationnelle :
• Select : choix des attributs, attributs calculés, élimination des doublons, fonctions de groupe
• From : choix des tables, produit cartésien
• Where : choix des lignes et jointure
• Order by : tris
• Group by : regroupements
• Union, Minus, Intersection : opérations ensemblistes
Sources
Les outils SGBD, Délimité, Fixe, SPSS, SAS permettent de choisir un fichier de données sur lequel se feront les opérations de data mining.
Le fichier de données ne sera pas modifié par les opérations du data mining.
Pour travailler à partir d’un fichier enregistré en format texte, on utilise l’outil « Délimité ».
8 opérations sur les lignes
6 opérations sur les lignes Clémentine et leurs équivalents SQL :
Clémentine SQL
Sélectionner Where
Agréger Group by
Trier Order by
Distinguer Distinct
Fusionner Jointure
Ajouter Union
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 4/7- Bertrand LIAUDET
2 opérations sur les lignes spécifiques au data mining :
Opération Explications
Échantillonner Permet de produire un échantillon à partir d’un ensemble de départ.
Équilibrer Permet de modifier la répartition des valeurs d’une variable.
10 opérations sur les champs (sur les colonnes)
3 opérations sur les champs Clémentine et leurs équivalents SQL :
Clémentine SQL Explications
Re-trier Select Permet de définir l’ordre d’affichage des colonnes.
Filtrer Select Permet de choisir les colonnes et de les renommer.
Calculer Select Permet de générer de nouveaux champs et des champs calculés.
7 opérations sur les champs spécifiques au data mining
Opération Explications
Typer Permet de modifier le type des champs. Double-clique du champ possible.
Remplacer / Recoder Permet de modifier les valeurs des variables d’un champ selon certains critères.
Discrétiser Permet de générer une variable catégorielle à partir d’une autre variable. Plusieurs types de catégories sont possibles : par effectifs (quantiles), par intervalles, etc.).
Partitionner Permet de définir l’organisation du jeu de données en jeux d’apprentissage, de test et éventuellement de validation. Cette organisation est utile pour la modélisation.
Binariser Permet de générer une variable booléenne à partir d’une valeur d’une autre variable (par exemple : origine = ‘Europe’ devient une variable booléenne).
Historiser
7 graphiques
7 opérations graphiques proposées par Clémentine :
Clémentine Explications
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 5/7- Bertrand LIAUDET
Nuage 2 ou 3 variables, plus une superposition.
Proportion 1 var. non numérique + superposition.
Histogramme 1 var. numérique + superposition.
Résumé Statistique d’une variable pour les valeurs d’une autre variable (par exemple : moyenne des puissances par années).
Courbe Idem nuage, en tirant un trait entre les points.
Relation Effectif des co-occurrences entre valeurs catégorielles.
Évaluation Comparaison graphique des modèles prédictifs.
5 modélisations
5 opérations de modélisation proposées par Clémentine en version d’évaluation :
Clémentine
Arbre C & RT
K-means
GRI (règles d’asso)
ACP / Facteur
Régression
14 sorties
14 opérations de sortie proposées par Clémentine qu’on peut regrouper en 4 genres :
• 4 opérations d’observation des données :
Table Affichage du tableau de départ.
Matrice Pour deux variables catégorielles, matrice des occurrences ou calcul statistique pour une troisième variable (exemple : poids moyen par année et par cm3).
Audit données Synthèse statistique et graphique.
Statistiques Statistiques et corrélations.
Qualité Analyse la qualité initiale des données
• 2 opérations de rapport :
Analyse Crée un rapport comparant l’exactitude des modèles prédictifs
Rapport Edition d’un rapport écrit.
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 6/7- Bertrand LIAUDET
• 1 opération « technique interne» :
V. Globales Permet de définir des calculs statistiques (moyenne, minimum, etc.) en variables globales qui pourront ensuite être utilisées dans des formules de filtre.
• 6 outils d’exportation des données :
Excel
Fichier plat
SGBD
Export SPSS
Export SAS
Commande SPSS
EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 7/7- Bertrand LIAUDET
Le gestionnaire des flux
Flux
L’espace de travail des flux correspond à un flux du gestionnaire des flux. On peut le sauvegarder. Les flux peuvent être rangés dans un projet.
Sorties
Tous les résultats de type « Sorties » (résultats de type tableaux, statistiques ou graphiques) se retrouvent dans l’onglet « Sorties ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.
Modèles
Tous les résultats de type « modèle » se retrouvent dans l’onglet « Modèles ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.
Le gestionnaire des projets
CRISP – DM
Chaque étape du CRISP – DM est un dossier dans lequel on peut ranger les éléments du projet : les flux, les super-nœuds, les sorties et les modèles.
On peut enregistrer le projet avec tous ses fichiers.
Classes
L’onglet « Classes » organise les éléments du projet par catégorie (et non plus par étapes comme dans le CRISP – DM) : flux, super-nœuds, modèles, sorties (tableaux, graphiques, etc.).