TP de Data Mining 00-Utilisation de Clementine-EPF

7
EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 1/7- Bertrand LIAUDET TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE EPF – 4/ 5 ème année - Option Ingénierie d’Affaires et de Projets - Finance Bertrand LIAUDET Utilisation de SPSS - Clementine 1 Aide et didacticiel ............................................................................................................ 1 Vocabulaire de base : noeud, flux, résultats et projet ..................................................... 2 L’espace de travail Clémentine ....................................................................................... 2 L’espace de travail des flux ............................................................................................. 2 La palette des noeuds de Clémentine............................................................................... 3 Le gestionnaire des flux ................................................................................................... 7 Le gestionnaire des projets.............................................................................................. 7 UTILISATION DE SPSS - CLEMENTINE Clementine est un logiciel de data mining. Il comporte deux parties : Une partie d’analyse et de manipulation des données « classiques » Une partie de modélisation propre au data mining La partie d’analyse et de manipulation des données reprend les notions de base de l’algèbre relationnelle (SQL). La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining. Aide et didacticiel Aide / Rubriques d’aide -> Accès à l’aide : Cliquez sur le bouton Aide ou sur l'icône correspondante dans la plupart des boîtes de dialogue pour accéder à la rubrique d'aide propre aux commandes de cette boîte de dialogue. Pour accéder à l'aide générale sur les noeuds et les éléments de la barre d'outils, sélectionnez « Qu'est-ce que c'est ? » dans le menu Aide de Clementine. Le curseur se transforme en point d'interrogation : vous pouvez l'utiliser pour cliquer sur n'importe quel élément de l'espace de travail de flux ou des palettes. Une fenêtre d'aide apparaît : elle contient des informations sur l'élément sélectionné. Aide / Didacticiel

Transcript of TP de Data Mining 00-Utilisation de Clementine-EPF

Page 1: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 1/7- Bertrand LIAUDET

TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE EPF – 4/ 5ème année - Option Ingénierie d’Affaires et de Projets - Finance

Bertrand LIAUDET

Utilisation de SPSS - Clementine 1

Aide et didacticiel ............................................................................................................1

Vocabulaire de base : nœud, flux, résultats et projet .....................................................2

L’espace de travail Clémentine.......................................................................................2

L’espace de travail des flux.............................................................................................2

La palette des nœuds de Clémentine...............................................................................3

Le gestionnaire des flux...................................................................................................7

Le gestionnaire des projets..............................................................................................7

UTILISATION DE SPSS - CLEMENTINE

Clementine est un logiciel de data mining. Il comporte deux parties :

• Une partie d’analyse et de manipulation des données « classiques »

• Une partie de modélisation propre au data mining

La partie d’analyse et de manipulation des données reprend les notions de base de l’algèbre relationnelle (SQL).

La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining.

Aide et didacticiel

Aide / Rubriques d’aide -> Accès à l’aide :

• Aide contextuelle : Cliquez sur le bouton Aide ou sur l'icône correspondante dans la plupart des boîtes de dialogue pour accéder à la rubrique d'aide propre aux commandes de cette boîte de dialogue.

• Aide Qu'est-ce que c'est ? : Pour accéder à l'aide générale sur les noeuds et les éléments de la barre d'outils, sélectionnez « Qu'est-ce que c'est ? » dans le menu Aide de Clementine. Le curseur se transforme en point d'interrogation : vous pouvez l'utiliser pour cliquer sur n'importe quel élément de l'espace de travail de flux ou des palettes. Une fenêtre d'aide apparaît : elle contient des informations sur l'élément sélectionné.

Aide / Didacticiel

Page 2: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 2/7- Bertrand LIAUDET

Suivre les étapes du didacticiel

Vocabulaire de base : nœud, flux, résultats et proj et

Nœud : un nœud est un élément d’un flux. C’est une étape d’un traitement complet qu’on appelle « flux ». Un nœud isolé ne produit pas de résultats. C’est la connexion de plusieurs nœuds qui peut produire des résultats. La version de Clementine qu’on utilise propose 60 nœuds répartis dans 6 catégories (Sources, Opérations sur les lignes, Opérations sur les champs, Graphiques, Modélisation, Sortie).

Flux : un flux est un ensemble de nœuds produisant des résultats. Il faut au moins deux nœuds pour fabriquer un flux : un nœud d’entrée (choix du fichier de données) et un nœud de sortie (choix d’une méthode d’affichage ou d’un modèle).

Un flux contient un et un seul nœud de sortie. Il peut contenir plusieurs nœuds d’entrée. Il peut se diviser en plusieurs branches, mais se termine toujours par un seul nœud de sortie.

Résulats : sorties et modèle : les flux produisent quatre types de résultats : des tableaux, des graphiques, des statistiques et des modèles. Tableaux, graphiques et statistiques sont appelées : « sorties ».

Projet (processus) : un projet est un ensemble de flux répartis dans les étapes du processus CRISP-DM.

L’espace de travail Clémentine

L’espace de travail Clémentine se divise en 4 parties :

• L’espace de travail des flux : pour fabriquer les flux.

• La palette des nœuds : pour choisir les nœuds.

• Le gestionnaire des flux : pour gérer les flux en tant que fichiers.

• Le gestionnaire des projets : pour gérer les projets en tant que fichiers.

L’espace de travail des flux

Dans l’espace de travail des flux, on peut :

• Déposer les nœuds de la palette des nœuds.

• Paramétrer les nœuds.

• Connecter les nœuds.

• Exécuter un nœud de sortie.

L’espace de travail des flux contient un ou plusieurs flux (autant que de nœuds de sortie).

Page 3: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 3/7- Bertrand LIAUDET

La palette des nœuds de Clémentine

Dans la « palette de nœuds », zone horizontale en bas de la fenêtre de Clémentine, le logiciel propose toutes les opérations possibles regroupées logiquement :

• Sources

• Opérations sur les lignes

• Opérations sur les champs

• Graphiques

• Modélisation

• Sortie

Dans ces opérations, on va retrouver la logique de l’algèbre relationnelle :

• Select : choix des attributs, attributs calculés, élimination des doublons, fonctions de groupe

• From : choix des tables, produit cartésien

• Where : choix des lignes et jointure

• Order by : tris

• Group by : regroupements

• Union, Minus, Intersection : opérations ensemblistes

Sources

Les outils SGBD, Délimité, Fixe, SPSS, SAS permettent de choisir un fichier de données sur lequel se feront les opérations de data mining.

Le fichier de données ne sera pas modifié par les opérations du data mining.

Pour travailler à partir d’un fichier enregistré en format texte, on utilise l’outil « Délimité ».

8 opérations sur les lignes

6 opérations sur les lignes Clémentine et leurs équivalents SQL :

Clémentine SQL

Sélectionner Where

Agréger Group by

Trier Order by

Distinguer Distinct

Fusionner Jointure

Ajouter Union

Page 4: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 4/7- Bertrand LIAUDET

2 opérations sur les lignes spécifiques au data mining :

Opération Explications

Échantillonner Permet de produire un échantillon à partir d’un ensemble de départ.

Équilibrer Permet de modifier la répartition des valeurs d’une variable.

10 opérations sur les champs (sur les colonnes)

3 opérations sur les champs Clémentine et leurs équivalents SQL :

Clémentine SQL Explications

Re-trier Select Permet de définir l’ordre d’affichage des colonnes.

Filtrer Select Permet de choisir les colonnes et de les renommer.

Calculer Select Permet de générer de nouveaux champs et des champs calculés.

7 opérations sur les champs spécifiques au data mining

Opération Explications

Typer Permet de modifier le type des champs. Double-clique du champ possible.

Remplacer / Recoder Permet de modifier les valeurs des variables d’un champ selon certains critères.

Discrétiser Permet de générer une variable catégorielle à partir d’une autre variable. Plusieurs types de catégories sont possibles : par effectifs (quantiles), par intervalles, etc.).

Partitionner Permet de définir l’organisation du jeu de données en jeux d’apprentissage, de test et éventuellement de validation. Cette organisation est utile pour la modélisation.

Binariser Permet de générer une variable booléenne à partir d’une valeur d’une autre variable (par exemple : origine = ‘Europe’ devient une variable booléenne).

Historiser

7 graphiques

7 opérations graphiques proposées par Clémentine :

Clémentine Explications

Page 5: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 5/7- Bertrand LIAUDET

Nuage 2 ou 3 variables, plus une superposition.

Proportion 1 var. non numérique + superposition.

Histogramme 1 var. numérique + superposition.

Résumé Statistique d’une variable pour les valeurs d’une autre variable (par exemple : moyenne des puissances par années).

Courbe Idem nuage, en tirant un trait entre les points.

Relation Effectif des co-occurrences entre valeurs catégorielles.

Évaluation Comparaison graphique des modèles prédictifs.

5 modélisations

5 opérations de modélisation proposées par Clémentine en version d’évaluation :

Clémentine

Arbre C & RT

K-means

GRI (règles d’asso)

ACP / Facteur

Régression

14 sorties

14 opérations de sortie proposées par Clémentine qu’on peut regrouper en 4 genres :

• 4 opérations d’observation des données :

Table Affichage du tableau de départ.

Matrice Pour deux variables catégorielles, matrice des occurrences ou calcul statistique pour une troisième variable (exemple : poids moyen par année et par cm3).

Audit données Synthèse statistique et graphique.

Statistiques Statistiques et corrélations.

Qualité Analyse la qualité initiale des données

• 2 opérations de rapport :

Analyse Crée un rapport comparant l’exactitude des modèles prédictifs

Rapport Edition d’un rapport écrit.

Page 6: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 6/7- Bertrand LIAUDET

• 1 opération « technique interne» :

V. Globales Permet de définir des calculs statistiques (moyenne, minimum, etc.) en variables globales qui pourront ensuite être utilisées dans des formules de filtre.

• 6 outils d’exportation des données :

Excel

Fichier plat

SGBD

Export SPSS

Export SAS

Commande SPSS

Page 7: TP de Data Mining 00-Utilisation de Clementine-EPF

EPF - 4ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 7/7- Bertrand LIAUDET

Le gestionnaire des flux

Flux

L’espace de travail des flux correspond à un flux du gestionnaire des flux. On peut le sauvegarder. Les flux peuvent être rangés dans un projet.

Sorties

Tous les résultats de type « Sorties » (résultats de type tableaux, statistiques ou graphiques) se retrouvent dans l’onglet « Sorties ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.

Modèles

Tous les résultats de type « modèle » se retrouvent dans l’onglet « Modèles ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.

Le gestionnaire des projets

CRISP – DM

Chaque étape du CRISP – DM est un dossier dans lequel on peut ranger les éléments du projet : les flux, les super-nœuds, les sorties et les modèles.

On peut enregistrer le projet avec tous ses fichiers.

Classes

L’onglet « Classes » organise les éléments du projet par catégorie (et non plus par étapes comme dans le CRISP – DM) : flux, super-nœuds, modèles, sorties (tableaux, graphiques, etc.).