RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page...

57
RAPPORT DE PROJET de Data Mining Thème : L’alphabétisme dans le monde Estelle GUESSAN DESS TIO - 2004/2005 Enseignant : Mr Edwin DIDAY

Transcript of RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page...

Page 1: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 1 sur 57 DESS TIO – 2004/2005

RAPPORT DE PROJET

de Data Mining

Thème : L’alphabétisme dans le

monde

Estelle GUESSAN DESS TIO - 2004/2005

Enseignant : Mr Edwin DIDAY

Page 2: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 2 sur 57 DESS TIO – 2004/2005

Introduction .............................................................................................................................................. 4 1) Etat de l’art sur le Data mining ........................................................................................................ 4

1.1) Définition du Data mining ............................................................................................................. 4 1.2) Origine du data mining ................................................................................................................. 4 1.3) Rôle du data mining ..................................................................................................................... 5 1.4) Qui utilise le datamining ? ............................................................................................................ 5 1.4.1) Groupe CASINO ................................................................................................................ 6 1.4.2) BANK OF AMERICA .......................................................................................................... 6 1.4.3) NOUVELLES FRONTIERES ............................................................................................. 7 1.4.4) UBS AG ............................................................................................................................. 7 1.5) Les outils de data mining ............................................................................................................. 7

2) Etude du logiciel SODAS ................................................................................................................ 8 2.1) SODAS versus les autres logiciels de data mining...................................................................... 8 2.2) Présentation générale de SODAS ............................................................................................... 9 2.3) Fonctionnement de SODAS ........................................................................................................ 9 2.4) Interface et utilisation de SODAS .............................................................................................. 10 2.4.1) Interface ........................................................................................................................... 11 2.4.2) Exemple d’utilisation ........................................................................................................ 12 2.4.2.1) Généralités ........................................................................................................................... 12 2.4.2.2) Sélection d’une base d’étude (fichier .sds) .......................................................................... 12 2.4.2.3) Choix d’une méthode à appliquer ........................................................................................ 13 2.4.2.4) Paramétrage d’une méthode à appliquer ............................................................................ 15 2.4.2.5) Exécution d’une méthode .................................................................................................... 15

3) Sujet d’analyse .............................................................................................................................. 17 3.1) Présentation ............................................................................................................................... 17 3.2) Problématique ............................................................................................................................ 17

4) La base de données relationnelle ................................................................................................. 18 4.1) Description sommaire ................................................................................................................ 18 4.1.1) La table Pays ................................................................................................................... 18 4.1.2) La table Localisation ........................................................................................................ 18 4.1.3) La table Continent ............................................................................................................ 19 4.1.4) La table NiveauDvt........................................................................................................... 19 4.1.5) La table Richesse ............................................................................................................ 19 4.2) Schéma relationnel .................................................................................................................... 19

5) Définition des individus et des concepts ....................................................................................... 20 6) De la base de données au tableau symbolique ............................................................................ 20

6.1) Importation des données sous SODAS à l’aide de DB2SO ...................................................... 20 6.2) Modifications des variables importées ....................................................................................... 23 6.2.1) Adjonction de « add single variables » ............................................................................ 23 6.2.2) Adjonction de « taxonomies » .......................................................................................... 25

7) Application des méthodes ............................................................................................................. 29 7.1) Méthode SOE............................................................................................................................. 30 7.1.1) Application de la méthode SOE ....................................................................................... 30 7.1.2) Résultats de la méthode SOE ......................................................................................... 30 7.1.2.1) Taxonomie ........................................................................................................................... 30 7.1.2.2) Sous forme de tableau ......................................................................................................... 31 7.1.2.3) sous forme de graphique 3D................................................................................................ 31 7.1.3) Interprétation des résultats de la méthode SOE .............................................................. 36 7.2) Méthode DSTAT ........................................................................................................................ 37 7.2.1) Application de la méthode DSTAT ................................................................................... 37

Sommaire

Page 3: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 3 sur 57 DESS TIO – 2004/2005

7.2.2) Résultats de la méthode DSTAT ..................................................................................... 38 7.2.2.1) Statistiques par rapport au taux d’alphabétisme des hommes ........................................... 38 7.2.2.2) Statistiques par rapport au taux d’alphabétisme des femmes ............................................. 38 7.2.2.3) Statistiques par rapport au taux d’alphabétisme des jeunes ............................................... 39 7.2.2.4) Statistiques par rapport au taux d’alphabétisme des garçons ............................................. 39 7.2.2.5) Statistiques par rapport au taux d’alphabétisme des filles .................................................. 40 7.2.3) Interprétation des résultats de la méthode DSTAT ......................................................... 40 7.3) Méthode TREE .......................................................................................................................... 41 7.3.1) Application de la méthode TREE ..................................................................................... 41 7.3.2) Résultats de la méthode TREE ....................................................................................... 42 7.3.2.1) Matrice de confusion ............................................................................................................ 42 7.3.2.2) Tableau des mal classés ..................................................................................................... 42 7.3.2.3) Arbre de décision ................................................................................................................. 42 7.3.3) Interprétation des résultats de la méthode TREE ............................................................ 43 7.4) Méthode DIV .............................................................................................................................. 43 7.4.1) Application de la méthode DIV ........................................................................................ 44 7.4.2) Résultats de la méthode DIV ........................................................................................... 45 7.4.2.1) Les 5 classes ....................................................................................................................... 45 7.4.2.2) Descriptions de classes ....................................................................................................... 46 7.4.2.3) Arbre des classes ................................................................................................................ 47 7.4.3) Interprétation des résultats de la méthode DIV ............................................................... 47 7.5) Méthode PYR ............................................................................................................................. 48 7.5.1) Application de la méthode PYR ....................................................................................... 48 Résultats de la méthode PYR ........................................................................................................... 50 7.5.2) Interprétation des résultats de la méthode PYR .............................................................. 50 7.6) Méthode SCLUST ...................................................................................................................... 51 7.6.1) Application de la méthode SCLUST ................................................................................ 51 7.6.2) Résultats de la méthode SCLUST ................................................................................... 52 7.6.3) Interprétation des résultats de la méthode SCLUST ....................................................... 52 7.7) Méthode SPCA .......................................................................................................................... 53 7.7.1) Application de la méthode SPCA ..................................................................................... 53 7.7.2) Résultats de la méthode SPCA ....................................................................................... 53 7.7.2.1) Détermination des axes = 3 ................................................................................................. 53 7.7.2.2) Contribution des individus aux 3 axes ................................................................................. 54 7.7.2.3) Qualité des individus sur les 3 axes (dans l’espace) ........................................................... 54 7.7.2.4) Corrélation............................................................................................................................ 55

Conclusion ............................................................................................................................................. 56 Sources .................................................................................................................................................. 57

Page 4: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005

Introduction

Le présent rapport décrit la réalisation de notre projet dans le cadre du cours de data mining.

Dans ce document, nous ferons dans un premier temps un état de l’art sur le data mining en

vue de mettre en exergue les aspects inhérents à cette terminologie.

Dans un second temps, nous présenterons le logiciel utilisé pour la réalisation de l’étude liée

à notre projet : SODAS.

Ensuite, nous définirons d’une part, le sujet de notre étude ainsi que la problématique

associée, et d’autre part, la base de données relationnelle y étant rattachée.

A partir de cette base de données, nous dégagerons les éléments de base qui nous serviront

pour notre étude : les individus et les concepts. Ce qui nous permettra de déterminer les

différentes requêtes visant à fournir les fichiers .SDS (données symboliques) nécessaires à

notre analyse.

Enfin, nous appliquerons aux données symboliques obtenues différentes méthodes

proposées par le logiciel SODAS en vue d’obtenir quelques réponses à la problématique de

notre étude.

1) Etat de l’art sur le Data mining

Cette section a pour but, dans le contexte de l’entreprise, de définir le data mining, de

présenter son origine, d’expliciter son rôle et ses avantages à travers quelques exemple

d’entreprises l’ayant mie en œuvre et enfin ses outils.

1.1) Définition du Data mining

Le data mining, quelque fois appelé analyse intelligente de données, est un ensemble de

méthodes et techniques d'analyse de données (corrélation, croisements, typologies,

classification...) permettant l’extraction de la connaissance à partir de bases de données de

taille importantes (typiquement des Data Warehouse).

Ayant fait ses preuves, il en existe aujourd’hui d’autres variantes comme le web mining ou

encore le text mining (extraction de connaissances à partir de textes). Le text mining est

utilisé pour l’ontologie.

1.2) Origine du data mining

Le contexte économique national et international actuel pousse les entreprises à accroître au

mieux leur compétitivité tout en assurant une satisfaction maximale de leurs clients. Atteindre

ces objectifs nécessite de disposer d’informations exactes en vue de prendre des décisions

stratégiques adéquates. Malheureusement, les systèmes transactionnels (bases de

données) restent peu performants pour couvrir les objectifs stratégiques. C’est donc dans ce

Page 5: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 5 sur 57 DESS TIO – 2004/2005

contexte que la plus part des entreprises, afin d’améliorer la gestion de leurs données se

sont dotées de systèmes décisionnels multidimensionnels tels que les data warehouse (ou

entrepôt de données). Les data warehouse possèdent une quantité importante

d’informations dans la mesure où ils réunissent et stockent des données de sources

diverses. Et c'est à ce stade qu'entre en scène le data mining. En effet, comme nous l’avons

vu dans le paragraphe précédent, le data mining est particulièrement adapté au traitement

de grands volumes de données. La mise en place de data warehouse a donc favorisé

l’émergence du data mining dans le monde de l’entreprise.

1.3) Rôle du data mining

L’émergence du datamining trouve aussi son explication dans le fait qu’il joue un rôle

inestimable dans l’entreprise quelque soit son domaine d’activité.

Dans les compagnies d’assurance, le datamining peut aider à déterminer les caractéristiques

de clients à haut risque afin de déterminer si un crédit peut être ou non accordé à une

personne.

Dans le domaine du marketing direct, il peut offrir des moyens de déterminer les

caractéristiques (âge, profession, région,….) de la population à cibler pour un publipostage.

Le courrier pourra ainsi être envoyé à la population offrant la plus haute probabilité de

réponse.

Dans le domaine de la distribution, il peut permettre de déterminer des profils

consommateur, l’effet des périodes de promotion ou le contenu du panier de la ménagère.

Dans tout secteur à forte concurrence, il peut aider l’entreprise à identifier les clients

susceptibles de partir chez un concurrent.

Les applications du data mining sont également nombreuses dans le domaine du contrôle

de qualité, dans le domaine médical, dans celui de la gestion des stocks.

Ces exemples d’applications ne couvrent ne recouvrent qu’une petite partie de celles où le

data mining peut jouer un rôle important. En effet, au-delà d’analyser des éléments que l’on

veut observer, il permet en plus de pouvoir anticiper des phénomènes et de détecter dans le

passé les données inusuelles et exceptionnelles.

1.4) Qui utilise le datamining ?

Nous présenterons dans ce paragraphe quelques exemples de sociétés utilisant un outil de

datamining, notamment Groupe Casino, Bank ok America, Nouvelles Frontières et UBS AG.

Il s’agira pour la plupart de retours d’expérience.

Page 6: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 6 sur 57 DESS TIO – 2004/2005

1.4.1) Groupe CASINO

Casino est le 3ème groupe de distribution français avec 115 hypermarchés, 400

supermarchés, plus de 4000 magasins de proximité et 260 cafétérias. Il détient également

les enseignes Leaderprice, Franprix et Monoprix à 50% et intervient par ailleurs également

sur le plan international.

Le marché de la distribution étant très concurrentiel, la fidélisation est un enjeu stratégique

pour Casino. Dans le cadre d’une politique ambitieuse de marketing relationnel, le groupe

s’est doté des outils de Data Mining proposé par SAS pour optimiser la rentabilité de ses

opérations commerciales et mieux connaître ses clients.

Dès 1998, sa direction marketing décide de construire un Data Warehouse recensant de

nombreuses informations liées à ses clients comportements, produits achetés, cartes de

fidélité,...

Elle crée ensuite, en 1999, un service Etudes Clients pour exploiter ces informations et

mettre en place des études Data Mining basé sur la démarche suivante :

1. définition d'une problématique,

2. identification des leviers marketing,

3. connexion des variables applicatives à la problématique étudiée,

4. recommandations et plans d'actions.

Ces études Data Mining ont ainsi permis au groupe Casino d’optimiser ses programmes de

fidélité et gagner des points de part de marché grâce à une meilleure connaissance du client.

« Aujourd'hui, Casino a mesuré un retour sur investissement de 8 euros de chiffre d'affaires

additionnel pour 1 euro investi dans une campagne marketing direct. »

Marie-Christine Jacob - Responsable Data Mining.

1.4.2) BANK OF AMERICA

Bank of America utilise les techniques de Data Mining pour accéder aux informations, les

analyser, mais également pour générer des rapports détaillés.

« Nous avons pu réduire notre ײtime to marketײ de 6 semaines à 6 jours tout en réalisant

l’extraction des informations, la création du scoring et la diffusion des informations à nos

partenaires. Le programme de rétention que nous avons lancé en Californie a généré un

retour sur investissement d’un ratio de 1 à 10, et les profits de cette opération sur la première

année ont atteint environ 10 millions de dollars. »

Chris Kelly – Vice-President marketing

Page 7: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 7 sur 57 DESS TIO – 2004/2005

1.4.3) NOUVELLES FRONTIERES

«Grâce aux outils de Data Mining, nous pouvons produire nos études trois à quatre fois plus

vite qu’avant. Le temps ainsi gagné est utilisé pour effectuer des analyses plus approfondies

et ainsi créer plus de valeur pour l’entreprise.»

Patrice Janssens – Responsable de projet Data Mining

«Nous sommes extrêmement satisfaits de l’utilisation des outils de Data Mining chez

Nouvelles Frontières. Ils accélèrent considérablement la création de nos modèles et nous

permettent d’optimiser la mise en œuvre de nos campagnes de marketing direct. Nous

pouvons également gérer au mieux l’évolution de la situation de nos clients. Nous pouvons

alors orienter nos actions de communication majeures vers des cibles stratégiques

identifiées pour les fidéliser davantage et les faire progresser sur l’échelle de consommation

de nos produits.»

André Lafran – Directeur Informatique

1.4.4) UBS AG

«Notre centre de Data Mining fonctionne parfaitement. Nous générons de l'intelligence

marketing centrée sur le client et la diffusons sur les différents canaux de distribution. En

analysant certaines applications, comme l'optimisation des mailings ou le développement

des ventes croisées par nos chargés de clientèle, nous constatons une amélioration de nos

résultats de 50%, liée à l'utilisation de modèles Data Mining pour effectuer nos sélections. En

termes de retour sur investissement, nous constatons que les tous premiers gains réalisés

ont rentabilisé l'ensemble du projet.»

Adrian WEISS - Directeur Général de la clientèle privée

1.5) Les outils de data mining

Le fait que plusieurs entreprises soient séduites par les techniques du datamining a

développé le marché des outils de datamining. Les principaux logiciels utilisés sont résumés

dans le tableau ci-dessous.

Editeur Produits

Angoss Software KnowledgeSEEKER

eKnowledgeSTUDIO

Business Objects Business Miner

Grimmer Soft SmartMiner

IBM Intelligent Miner

Page 8: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 8 sur 57 DESS TIO – 2004/2005

Insightful INSIGHTFULMINER, VISIMINE

Isoft Alice

Oracle Oracle 9i Data Mining, Darwin

SAS Institute Enterprise Miner

SPSS GOLDMineR

SPSS Clementine, Answer Tree

DECISIA SPAD

SODAS

Statsoft STATISTICA

2) Etude du logiciel SODAS

2.1) SODAS versus les autres logiciels de data mining

SODAS est aussi un outil de Data Mining. Comparé aux logiciels actuellement proposés sur

le marché, il se distingue de par ses techniques d’analyses basées sur des données dites

symboliques. Les données sont en effet organisées autour de concepts sous-jacents (une

catégorie de produits, un département, une catégorie socio professionnelle,…). Elles sont

dites " symboliques", car elles expriment la variation interne inéluctable des concepts et sont

structurées.

L’intérêt de disposer d’objets (ou données) symboliques s’expliquent pour diverses raisons.

Ils fournissent un résumé de la base plus riche que les données agrégées habituelles

(car tenant compte de la variation interne et des règles sous-jacentes aux classes

décrites, ainsi que des taxonomies fournies, on est loin des simples centres de

gravités).

Ils sont explicatifs dans la mesure où ils s'expriment sous forme de propriétés des

variables initiales ou de variables significatives obtenues (axes factoriels), donc en

termes proches de l'utilisateur.

En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de

données de plus haut niveau sur lequel une analyse de données symbolique de

second niveau peut s'appliquer.

Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés

joignant des variables provenant de plusieurs tableaux associés à différentes

populations. Par exemple, pour construire un objet symbolique associé à une ville, on

Page 9: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 9 sur 57 DESS TIO – 2004/2005

peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque

ville et une autre relation décrivant les foyers de chaque ville.

Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique

obtenue, il peut être plus avantageux d'extraire d'abord des objets symboliques de

chaque base puis d'étudier l'ensemble des objets symboliques ainsi obtenus.

Alors qu'habituellement on pose des questions sous forme de requête à la base de

données pour fournir des informations intéressant l'utilisateur, les objets symboliques

formés à partir de la base par les outils de l'Analyse des Données Symbolique

permettent à l'inverse de définir des requêtes et donc de fournir des questions qui

peuvent être pertinentes à l'utilisateur.

2.2) Présentation générale de SODAS

Comme on l’a vu dans le paragraphe précédent, SODAS est un logiciel prototype public

(accessible à www.cisia.com) permettant de réaliser des analyses symboliques. L’analyse de

données symboliques présente les caractéristiques et ouvertures ci-dessous.

Elle s'applique à des données plus complexes. En entrée, elle part de données

symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de

probabilité…) munies de règles et de taxonomies et peut fournir en sortie des

connaissances nouvelles sous forme d'objets symboliques.

Elle utilise des outils adaptés à la manipulation d'objets symboliques de

généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention

et de mesures de ressemblance tenant compte des connaissances sous-jacentes

basées sur les règles et taxonomies.

Elle fournit des représentations graphiques exprimant entre autres la variation interne

des descriptions symboliques. Par exemple, en analyse factorielle, un objet

symbolique sera représenté par une zone, elle-même exprimable sous forme d'objet

symbolique, et pas seulement par un point.

Cette analyse de données symboliques se traduit par diverses méthodes dont quelques

unes seront présentées dans le cadre de notre étude.

2.3) Fonctionnement de SODAS

Le principe est le suivant :

1. Partir d'une base de données relationnelle (ORACLE, ACCESS...).

2. Définir ensuite un contexte par des unités statistiques de premier niveau (habitants,

familles, entreprises, accidents...), les variables qui les décrivent, des concepts

(villes, groupes socio-économiques, scénario d'accident...).

Page 10: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 10 sur 57 DESS TIO – 2004/2005

3. Chaque unité statistique de premier niveau est associée à un concept (par exemple,

chaque habitant est associé à sa ville).

4. Ce contexte est défini par une requête de la base.

5. On construit alors un tableau de données symboliques dont les nouvelles unités

statistiques sont les concepts décrits par généralisation des propriétés des unités

statistiques de premier niveau qui leur sont associées.

6. Le logiciel SODAS permet alors d’analyser les données symboliques sous forme

d’histogrammes, d’étoiles..., de les comparer par des calculs de dissimilarité, de les

classifier, de donner une représentation graphique et une description symbolique des

classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de

concepts), d'en donner une représentation graphique plane (analyse en composantes

principales), de les discriminer (analyse factorielle discriminante, arbres de

décision)...

2.4) Interface et utilisation de SODAS

Dans le présent document, nous présenterons la version 2.5 de SODAS dans la mesure où

celle-ci que nous avons utilisée pour réaliser notre étude.

Page 11: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 11 sur 57 DESS TIO – 2004/2005

2.4.1) Interface

.

- Il s’agit de la fenêtre permettant de choisir les méthodes d’analyse de SODAS. - Ces méthodes sont organisées par catégorie. Les différentes catégories

apparaissant dans une listbox.

- Une méthode est représentée par un carré rouge. Lorsque l’on clique sur une

méthode, son nom et une brève description s’affiche.

2

Il s’agit de la barre de menu

Il s’agit de la fenêtre Chaining. Elle gère et affiche l’enchaînement des méthodes appliquées.

1

3

1

3

2

Méthode sélectionnée

Nom de la méthode

sélectionnée

Description de la méthode

sélectionnée

Liste des catégories de méthodes

Page 12: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 12 sur 57 DESS TIO – 2004/2005

2.4.2) Exemple d’utilisation

2.4.2.1) Généralités

Il est tout d’abord important de définir ce qu’est une filière dans le logiciel SODAS. Il s’agit

d’une représentation numérique et graphique de chacune des méthodes appliquées aux

données symboliques et qu’il est possible de visionner dans la fenêtre Chaining.

En tête d’une filière, figure l’icône Base représentant le fichier contenant les données

symboliques (fichiers .sds).

A la suite de cette icône BASE, viendront se placer les icônes des méthodes choisies pour

notre étude.

Après le paramétrage des méthodes et l’enregistrement de la filière, les résultats figureront

sous forme d’icônes, à droite de chacune des méthodes.

2.4.2.2) Sélection d’une base d’étude (fichier .sds)

Pour sélectionner une base, il faut dans un premier temps cliquer sur l’icône Base

On obtient la fenêtre ci-dessous.

Il faut alors sélection la source de données symboliques puis cliquer sur Ouvrir.

Icône BASE

Page 13: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 13 sur 57 DESS TIO – 2004/2005

Une fois, la base (source de données symboliques) est choisie, la filière est modifiée. On voit

apparaître le nom de la base associée ainsi que son chemin d’accès sur le disque dur.

2.4.2.3) Choix d’une méthode à appliquer

Pour sélectionner une méthode à appliquer, il faut dans la fenêtre Chaining choisir le menu

Method puis cliquer sur Insert method.

Un emplacement vide apparaît alors sous l’icône Base

Nom de la base

Emplacement vide

Page 14: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 14 sur 57 DESS TIO – 2004/2005

Il faut ensuite sélectionner la méthode à appliquer dans la fenêtre Methods et faire un

« glisser-déposer » jusqu’à l’emplacement vide. La filière est à nouveau modifiée. En effet, la

méthode choisie apparaît désormais dans l’emplacement vide à la suite de l’icône Base.

Selon l’ordre dans lequel les méthodes vont s’enchaîner (défini par l’utilisateur), l’icône de

chaque méthode est précédée par un numéro.

La couleur de l’icône de la méthode nous renseigne sur son état :

grise : la méthode n’est pas encore paramétrée (état par défaut de l’icône quand on

vient de sélectionner la méthode)

rouge : la méthode est paramétrée et exécutable (dans ce cas, le numéro de la

méthode apparaît sur fond vert).

Nom de la méthode insérée

Numéro de la méthode

Page 15: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 15 sur 57 DESS TIO – 2004/2005

2.4.2.4) Paramétrage d’une méthode à appliquer

Pour paramétrer la méthode il faut double-cliquer sur l’icône de la méthode de la filière (ou

clic droit sur l’icône de la méthode puis clic sur Parameters).

On obtient alors le résultat ci-dessous.

On remarque bien que l’icône de la méthode paramétrée est devenue rouge et que le

numéro apparaît sur fond vert.

2.4.2.5) Exécution d’une méthode

Une fois la méthode paramétrée, on peut l’exécuter. Avant d’exécuter une méthode, il faut

obligatoirement enregistrer la filière à laquelle elle est rattachée. Pour ce faire, il faut cliquer

sur Chaining puis Save chaining .

Méthode paramétrée et

exécutable (couleur rouge)

Page 16: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 16 sur 57 DESS TIO – 2004/2005

Lorsque l’on clique sur Save Chaining, on obtient une fenêtre qui permet de donner un nom

à la filière. Il faut alors cliquer sur le bouton Enregistrer pour sauvegarder la filière.

Une fois la filière sauvegardée, on peut exécuter la méthode préalablement paramétrée en

faisant un clic droit sur la méthode puis sur puis sur Run method (ou sur Chaining puis sur

Run chaining).

Choix du nom de la filière

Page 17: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 17 sur 57 DESS TIO – 2004/2005

Au final on a la filière suivante avec les résultats retournés par la méthode choisie (ici Dstat).

Pour visualiser le résultat, il faut cliquer sur l’icône correspondante.

3) Sujet d’analyse

3.1) Présentation

Ces dernières années, beaucoup d’organismes tels que l’UNICEF ou des ONG ont réalisé

des actions pour encourager l’alphabétisation de plusieurs régions dans le monde. Ce qui

nous a conduit à choisir l’alphabétisme comme thème d’étude.

Le constat actuel implique une action concertée de tous les partenaires, et non seulement,

comme on l'a longtemps cru, des seuls intervenants en éducation ou alphabétisation. En

effet, l'alphabétisme touche presque tous les aspects de la vie des individus et des

collectivités et il couvre toute la vie, de la prime enfance au troisième âge. En conséquence,

l'alphabétisme c'est l'affaire de tous!

Cependant, pour agir, il faut disposer d’un certains nombre d’informations afin de prendre les

décisions adéquates et adaptées. Comment obtenir ces informations? C’est ce à quoi

répond la problématique de notre sujet.

3.2) Problématique

Au cours de notre étude, il s’agira d’analyser différents aspects relatifs à un ensemble de

pays issus des 5 continents et de déterminer ceux qui pourraient justifier le faible taux

d’alphabétisme dans un pays.

Résultat numérique

Résultat graphique

Page 18: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 18 sur 57 DESS TIO – 2004/2005

4) La base de données relationnelle

Nous avons conçu nous même la base de données en nous basant sur le modèle entité

association. Elle a été réalisée sous Microsoft Access 2002.

La base a été renseignée à l’aide des statistiques effectuées par l’UNESCO, l’UNICEF et la

Banque Mondiale sur les années 2003 et 2004.

4.1) Description sommaire

La base est constituée de cinq tables :

4.1.1) La table Pays

Elle stocke les informations relatives à un pays.

4.1.2) La table Localisation

Elle détermine la zone géographique dans laquelle se situe un pays. A titre d’exemple, la

Côte d’Ivoire est situé en Afrique occidentale. "Afrique occidentale" est donc une localisation.

Page 19: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 19 sur 57 DESS TIO – 2004/2005

4.1.3) La table Continent

Elle précise le continent d’un pays.

4.1.4) La table NiveauDvt

Elle définit le niveau de développement économique d’un pays

4.1.5) La table Richesse

Elle précise la richesse économique d’un pays

4.2) Schéma relationnel

Page 20: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 20 sur 57 DESS TIO – 2004/2005

5) Définition des individus et des concepts

Dans le cadre de notre étude, nous avons retenus comme individus les pays et comme

concepts les localisations.

Il y a 155 individus (pays) et 17 concepts (localisations) car le croisement entre pays et

localisations donne le nombre 17.

Les variables décrivant les individus sont de deux types :

4 variables qualitatives à savoir le niveau de richesse, le niveau de

développement économique, la localisation, le type de la population.

5 variables quantitatives à savoir la durée de scolarité obligatoire, l’age de

début de scolarité obligatoire, le taux de mortalité infantile, l’espérance de vie et la

population totale.

6) De la base de données au tableau symbolique

Afin d’effectuer une étude symbolique à partir des informations stockées dans notre base de

données, il faut préparer ces informations de sorte qu’elles soient exploitables par SODAS.

Par conséquent, nous allons créer une requête principale en SQL qui permettra d’obtenir les

différents individus, les concepts auxquels ils sont rattachés et la description de ces

individus.

Ensuite, grâce à l’outil DB2SO de SODAS, nous transformerons notre base de données en

tableau symbolique.

6.1) Importation des données sous SODAS à l’aide de DB2SO

Il faut dans un premier temps cliquer sur Sodas file puis sur Import et enfin sur Import with

DB2SO.

Page 21: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 21 sur 57 DESS TIO – 2004/2005

On obtient une fenêtre DBSO. Il faut alors cliquer sur New…, une nouvelle fenêtre apparaît

et dans laquelle on choisit le type de notre source de données; en l’occurrence Microsoft

Access.

Une fois le type de base spécifié, il faut cliquer sur OK afin de pouvoir sélectionner par la

suite le chemin de notre base de données relationnelle. C’est à partir de cette base qu’on va

construire les données symboliques. Le choix doit être validé en cliquant sur OK.

Page 22: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 22 sur 57 DESS TIO – 2004/2005

On obtient alors un fenêtre pour l’extraction des individus.

Pour ce faire, on clique sur SdsAlphabetisme qui représente la requête ci-dessous, puis sur

OK.

Cette requête renvoie une table du type : individus / concepts / description des individus,

c’est-à-dire qu’on obtient pour :

SELECT Pays.nom_pays, Localisation.libelle_localisation, Continent.nom_continent,

Pays.pop_totale, Pays.type_pop, NiveauDvt.libelle_niv_dvt,

Richesse.niv_richesse, Pays.dur_scol_obgl, Pays.age_deb_scol,

Pays.tx_mortalite_inf, Pays.esp_vie

FROM Richesse INNER JOIN (NiveauDvt INNER JOIN ((Continent INNER JOIN

Localisation ON Continent.id_continent = Localisation.id_continent) INNER

JOIN Pays ON Localisation.id_localisation = Pays.id_localisation) ON

NiveauDvt.id_niv_dvt = Pays.id_niv_dvt) ON Richesse.id_richesse =

Pays.id_richesse

ORDER BY Pays.nom_pays;

Page 23: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 23 sur 57 DESS TIO – 2004/2005

o la 1ère colonne correspond aux individus ;

o la 2ième colonne correspond aux concepts ;

o les 3ième colonne et suivantes correspond à la description des individus.

L’exécution de la requête renvoie le résultat suivant.

A ce stade, le résultat obtenu peut être sauvegardé en cliquant sur File puis sur Save

as; le fichier est alors enregistré avec l’extension .gaj.

6.2) Modifications des variables importées

Il est possible de modifier les concepts à l’aide de plusieurs opérations d’adjonction

de différents types de variables.

6.2.1) Adjonction de « add single variables »

L’objectif est d’ajouter des variables (qualitatives) aux concepts. L’opération consiste à partir

de l’écran précédent à cliquer sur Modify puis sur Add single valued variable.

Page 24: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 24 sur 57 DESS TIO – 2004/2005

On obtient la fenêtre permettant d’ajouter une varaible au concept.

Pour ce faire, on clique sur AddSingleAlpha qui représente la requête ci-dessous, puis sur

OK.

Cette requête renvoie une table du type : concepts / description des concepts.

SELECT Localisation.libelle_localisation, Localisation.tx_alpha_adultes, Localisation.tx_alpha_hom, Localisation.tx_alpha_fem, Localisation.tx_alpha_jeunes, Localisation.tx_alpha_gar, Localisation.tx_alpha_fil

FROM Localisation;

Page 25: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 25 sur 57 DESS TIO – 2004/2005

L’exécution de la requête renvoie le résultat suivant.

6.2.2) Adjonction de « taxonomies »

L’objectif est de créer des relations de type mère/fille entre les variables. L’opération

consiste à partir de l’écran précédent à cliquer sur Modify puis sur Create a taxonomy.

Résultat AddSingleAlpha

Page 26: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 26 sur 57 DESS TIO – 2004/2005

On obtient la fenêtre permettant de créer la taxonomie.

Dans la mesure où on veut créer une taxonomie avec pour racine (mère) les continents, on

sélectionne la variable nom_continent, puis on clique sur TaxoAlphabetisme qui représente

la requête ci-dessous, puis sur OK.

Cette requête renvoie une table du type : variables enfants/variable parent.

SELECT Localisation.libelle_localisation, Continent.nom_continent

FROM Continent INNER JOIN Localisation ON Continent.id_continent =

Localisation.id_continent;

Page 27: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 27 sur 57 DESS TIO – 2004/2005

L’exécution de la requête renvoie le résultat suivant.

On peut à cette étape faire une nouvelle sauvegarde (fichier .gaj) et extraire le fichier .SDS

correspondant à tout ce qui a été réalisé jusque là ; c’est-à-dire à nos données symboliques.

Pour cela, à partir de la fenêtre précédente, on clique sur File puis sur Export.

Il faut donner un titre/ sous-titre pour le fichier .sds à créer.

Résultat TaxoAlphabetisme

Page 28: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 28 sur 57 DESS TIO – 2004/2005

A partir de la fenêtre précédente, il faut spécifier l’endroit où on souhaite sauvegarder notre

fichier en cliquant sur Select. On nomme alors puis enregistre le fichier en cliquant sur

Enregistrer.

On vient ainsi d’obtenir le fichier qui nous servira de base pour appliquer différentes

méthodes de SODAS dans le cadre de notre étude sur l’analphabétisme.

Page 29: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 29 sur 57 DESS TIO – 2004/2005

7) Application des méthodes

Nous avons vu dans la section précédente comment appliquer et exécuter une méthode.

Dans la présente section, on ne détaillera donc pas à nouveau cette démarche. Nous

présenterons les résultas obtenus et ferons une analyse pour tenter de tirer des conclusions

(pépites).

Toutefois, avant d’appliquer des méthodes nous allons sélectionner la source de données

symboliques que nous avons créée à ‘étape précédente.

Page 30: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 30 sur 57 DESS TIO – 2004/2005

7.1) Méthode SOE

Encore appelée Symbolic Object Editor, la méthode SOE permet à un

utilisateur de visionner dans un tableau, sous forme de graphique en étoile en 2D et

3D ou d’histogrammes horizontaux, tous les objets symboliques présents dans un

fichier SODAS ainsi que d’opérer quelques changements sur ces données. Ces

changements sont par exemple la modification des libellés des objets.

7.1.1) Application de la méthode SOE

La méthode SOE correspond à l’icône View de la catégorie Descriptive Statistics (confère

section précédente).

L’application de cette méthode donne des résultats numériques et graphiques.

7.1.2) Résultats de la méthode SOE

7.1.2.1) Taxonomie

Page 31: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 31 sur 57 DESS TIO – 2004/2005

7.1.2.2) Sous forme de tableau

7.1.2.3) sous forme de graphique 3D

Dans la mesure où nous avons 17 concepts, nous allons présenter uniquement que 2

concepts représentant chacun un niveau très élevé et moyen d’alphabétisation.

Ceci, dans l’objectif d’avoir une vue d’ensemble.

Par ailleurs, pour une meilleure lisibilité des résultats, nous allons les organiser par groupe

de variables.

Page 32: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 32 sur 57 DESS TIO – 2004/2005

Graphiques 3D : variables = population totale + type de la population

Page 33: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 33 sur 57 DESS TIO – 2004/2005

Graphiques 3D : variables = niveau de développement + niveau de richesse

Page 34: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 34 sur 57 DESS TIO – 2004/2005

Graphiques 3D : variables = âge début scolarité + durée scolarité obligatoire

Page 35: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 35 sur 57 DESS TIO – 2004/2005

Graphiques 3D : variables = âge début scolarité + durée scolarité obligatoire

Page 36: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 36 sur 57 DESS TIO – 2004/2005

7.1.3) Interprétation des résultats de la méthode SOE

Au terme de notre étude en utilisant la méthode SOE, l’on distingue nettement les

différences entre les pays situés dans une localisation où le taux d’alphabétisme est élevé et

ceux situés dans une zone où ce taux est relativement faible.

En effet, en se basant sur les différents graphiques de la section précédente, on remarque

que les pays ayant un taux d’alphabétisme faible ont les caractéristiques suivantes :

- la population est majoritairement de type rural,

- ce sont des pays pauvres et qui ont pour la plupart un niveau de développement

économique moins avancé

- le taux de mortalité infantile est très élevé (avoisine les 100% ou plus)

- la scolarité des enfants débute entre 6 et 7 ans

- la durée minimale des études est de 5 ans

- l’espérance de vie est très variable et est d’au moins 40 ans

- il s’agit en général des pays d’Afrique et quelques et du Moyen-Orient.

Par contre, les pays qui ont un taux d’alphabétisme élevé se caractérisent par :

- une population très urbanisée

- un taux de mortalité très faible (moins de 15%)

- ce sont des pays développés pour la plupart ou alors dits émergents.

- ces pays ont un niveau de richesse en général qui est élevé

- la scolarité des enfants débute entre 5 et 6 ans

- la durée minimale des études est de 10 ans

- l’espérance de vie est de l’ordre de 70 ans au moins

- il s’agit en général des pays d’Amérique, d’Europe, du Proche et Extrême Orient.

Il ressort donc comme pépite de notre étude SOE que le faible niveau d’alphabétisme dans

un pays peut être dû au fait qu’il est économiquement faible et possède une population

majoritairement rurale. Ces pays manquent souvent d’infrastructures sanitaires viables (d’où

le taux de mortalité infantile très élevé) et l’éducation n’est pas à portée de tous en raison du

niveau de pauvreté important. Par conséquent, si certains enfants ont la chance d’entamer

des études, celles-ci ne durent malheureusement pas longtemps.

Par ailleurs, dans les pays moins alphabétisés, on remarque que l’espérance de vie

minimale à quasiment deux fois moins élevée que dans les pays ayant un taux

d’alphabétisme important.

Page 37: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 37 sur 57 DESS TIO – 2004/2005

Par ailleurs, on constate que dans les pays les moins alphabétisés, le taux d’alphabétisme

des jeunes est relativement élevé par rapport à celui de la population entière.

Enfin, en général quel que soit le taux d’alphabétisme de la population, les femmes sont en

général moins alphabétisées.

Nous n’avons par contre, avec notre méthode d’analyse, pas pu réellement voir si la taille de

la population influait sur le niveau d’alphabétisme.

7.2) Méthode DSTAT

Elle permet de réaliser des statistiques sur des concepts. L’application de la méthode

dépend de la nature des variables étudiées.

- Pour les variables multi nominales, on étudie la fréquence relative des différentes

modalités de la variable multi nominale.

- Pour les variables de type intervalles, il y a deux possibilités.

o Soit on définit deux paramètres : une variable intervalle notée i et un nombre de

classes notée k. Ce qui permet de construire un histogramme pour la variable i

sur un intervalle [a,b] découpé en k classes et où a représente la borne inférieure

de i et b sa borne supérieure.

o Soit on construit des biplot (boites à moustache). C’est la représentation d’un

objet symbolique par un rectangle dans le plan de deux variables. La dimension

de chaque côté du rectangle correspond à l’étendue de la variation de l’objet

symbolique relativement à la variable de l’axe considéré.

- Pour les variables multi nominales probabilistes, on construit un histogramme des

capacités des différentes modalités de la variable considérée. La capacité d’une

modalité est représentée par l’union des différentes capacités

Le format de sortie est, selon le choix de l’utilisateur, un listing ou bien un graphique.

7.2.1) Application de la méthode DSTAT

Nous appliquerons la méthode de constructions d’histogramme des capacités dans la

mesure où nous disposons de données multi nominales probabilistes. Les variables étudiées

sont les différents types de taux d’alphabétisme.

La méthode DSTAT (Descriptive Statistics) correspond à l’icône DSTAT de la catégorie

Descriptive Statistics.

L’application de cette méthode donne des résultats numériques et graphiques.

Page 38: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 38 sur 57 DESS TIO – 2004/2005

7.2.2) Résultats de la méthode DSTAT

7.2.2.1) Statistiques par rapport au taux d’alphabétisme des

hommes

Constat : on remarque que sur les concepts étudiés, la modalité du taux d’alphabétisme

chez les hommes qui a la plus grande moyenne est TRÈS ÉLEVÉ. Par ailleurs, la modalité

FAIBLE n’est pas représentée.

7.2.2.2) Statistiques par rapport au taux d’alphabétisme des

femmes

Constat : on remarque que sur les concepts étudiés, la modalité du taux d’alphabétisme

chez les femmes qui a la plus grande moyenne est FAIBLE.

Page 39: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 39 sur 57 DESS TIO – 2004/2005

7.2.2.3) Statistiques par rapport au taux d’alphabétisme des

jeunes

Constat : on remarque que sur les concepts étudiés, la modalité du taux d’alphabétisme

chez les jeunes qui a la plus grande moyenne est PEU ÉLEVÉ. Par ailleurs, les modalités

MOYEN et FAIBLE ne sont pas représentées.

7.2.2.4) Statistiques par rapport au taux d’alphabétisme des

garçons

Constat : on remarque que sur les concepts étudiés, la modalité du taux d’alphabétisme

chez les garçons qui a la plus grande moyenne est PEU ÉLEVÉ. Par ailleurs, les modalités

MOYEN et FAIBLE ne sont pas représentées.

Page 40: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 40 sur 57 DESS TIO – 2004/2005

7.2.2.5) Statistiques par rapport au taux d’alphabétisme des

filles

Constat : on remarque que sur les concepts étudiés, la modalité du taux d’alphabétisme

chez les filles qui a la plus grande moyenne est TRES ÉLEVÉ. Par ailleurs, la modalité

FAIBLE n’est pas représentée.

7.2.3) Interprétation des résultats de la méthode DSTAT

Au terme de notre étude en utilisant la méthode la méthode DSTAT, il ressort les pépites

suivantes.

On remarque que chez les adultes, le taux d’alphabétisme est largement supérieur à celui

des femmes. Ce qui peut se justifier par le contexte culturel, même s’il évolue aujourd’hui,

selon lequel les femmes sont moins destinées à la connaissance que les hommes.

Au niveau des jeunes, il apparaît d’une part que le taux d’alphabétisme est relativement plus

élevé que celui des adultes.

D’autre part, on a constaté que d’un point de vue des modalités, le taux d’alphabétisme chez

les jeunes filles est supérieur à celui des jeunes garçons.

Toutefois, en s’en tenant aux chiffres (moyenne), on a le schéma contraire. En effet, même

si la modalité TRÈS ÉLEVÉ est prédominante chez les filles, la moyenne de cette modalité

est inférieure à celle des garçons pour la même modalité.

Ainsi, comme chez les adultes, le taux d’alphabétisme est plus important chez les garçons

que chez les filles.

Page 41: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 41 sur 57 DESS TIO – 2004/2005

7.3) Méthode TREE

Elle propose un algorithme par agrandissement d’arbre qui vise à construire des règles de

décision suivant un modèle arborescent. Il s’agit d’une procédure récursive de

partitionnement qui peut être vue comme une recherche itérative d’un ensemble organisé

d’objets symboliques qui correspond le mieux aux données initiales.

A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure donnée en

paramètre. On peut donc être capable d’assigner de nouveaux objets à une classe.

7.3.1) Application de la méthode TREE

La méthode TREE correspond à l’icône TREE de la catégorie Discrimination & Regression.

Pour appliquer la méthode, il faut choisir une variable de classe, en l’occurrence nous

choisirons le taux d’alphabétisme des adultes qui nous parait plus intéressant dans la

mesure où il prend en compte une bonne partie de la population (15 ans et plus).

Pour les variables explicatives nous nous sommes limités aux variables qualitatives qui sont

le type de la population, le niveau de développement et le niveau de richesse.

Il faut également définir d’autres paramètres comme le montre l’image ci-dessous.

L’application de cette méthode donne des résultats numériques.

Page 42: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 42 sur 57 DESS TIO – 2004/2005

7.3.2) Résultats de la méthode TREE

7.3.2.1) Matrice de confusion

7.3.2.2) Tableau des mal classés

7.3.2.3) Arbre de décision

Page 43: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 43 sur 57 DESS TIO – 2004/2005

7.3.3) Interprétation des résultats de la méthode TREE

Au terme de notre étude en utilisant la méthode la méthode TREE, il ressort que le premier

critère de décision pour définir le niveau d’alphabétisation est le niveau de richesse puisque

que c’est la racine de l’arbre.

Lorsque le niveau de richesse dépasse, le concept (localisation géographique) peut être

considéré comme ayant un taux d’alphabétisme très élevé.

Par contre, en dessous de ce seuil, il faut tenir compte du niveau de développement pour

prendre une décision.

On remarque dans notre arbre que le type de la population (rurale ou urbaine) est sans effet

sur la prise de décision.

Ce qui peut quand même se discuter car, comme le montre la matrice de confusion, on voit

qu’il y a des objets symboliques mal classés. D’ailleurs le taux de mal classés est de

23,53%; ce qui n’est pas négligeable.

Il serait donc intéressant, par exemple, d’intégrer de nouvelles variables explicatives ou de

fixer un nombre de feuilles plus important, de sorte à avoir une meilleure découpe de l’arbre

et obtenir des règles de décision plus fiables.

7.4) Méthode DIV

La méthode DIV correspond à l’icône DIV de la catégorie Clustering.

DIV est une méthode de classification hiérarchique qui part de tous les objets

symboliques réunis dans une seule classe et procède ensuite par divisions

successives de chaque classe.

A chaque étape, une classe est divisée en deux classes suivant une question

binaire, ceci permet d’obtenir le meilleur partitionnement en deux classes,

conformément à l’extension du critère d’inertie.

L’algorithme s’arrête après avoir effectuer k-1 divisions, k étant le nombre de

classes donné en entrée à la méthode.

.

Page 44: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 44 sur 57 DESS TIO – 2004/2005

7.4.1) Application de la méthode DIV

Pour appliquer notre méthode, nous allons utiliser les variables ci-dessous.

NB : ces mêmes variables seront utilisées pour les deux autres méthodes de types clustering

(SCLUSTE et PYR).

Pour cette étude, nous allons définir 5 classes.

L’application de cette méthode donne des résultats numériques.

Page 45: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 45 sur 57 DESS TIO – 2004/2005

7.4.2) Résultats de la méthode DIV

7.4.2.1) Les 5 classes

Page 46: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 46 sur 57 DESS TIO – 2004/2005

7.4.2.2) Descriptions de classes

Cluster 4 :

IF

3- [libelle_niv_dvt =

Pays les Moins Avancés

OR Pays Développés

OR Pays Emergeants

]

AND

1- [niv_richesse =

Faible

]

Cluster 5 :

IF

4- [niv_richesse =

Elevé - Non membres de l'OCDE

OR Moyennement élevée

OR Très faible

OR Elevé - Membres de l'OCDE

OR Faible

]

AND

3- [libelle_niv_dvt =

Pays en Voie de Développement

]

AND

1- [niv_richesse =

Faible

]

DESCRIPTION OF THE CLUSTERS :

--------------------------

Cluster 1 :

IF

4- [niv_richesse =

Moyennement faible

]

AND

3- [libelle_niv_dvt =

Pays en Voie de Développement

]

AND

1- [niv_richesse =

Faible

]

Cluster 2 :

IF

2- [libelle_niv_dvt =

Pays en Voie de Développement

]

AND

1- [niv_richesse =

Elevé - Non membres de l'OCDE

OR Moyennement élevée

OR Très faible

OR Elevé - Membres de l'OCDE

OR Moyennement faible

]

Cluster 3 :

IF

2- [libelle_niv_dvt =

Pays les Moins Avancés

OR Pays Développés

OR Pays Emergeants

]

AND

1- [niv_richesse =

Elevé - Non membres de l'OCDE

OR Moyennement élevée

OR Très faible

OR Elevé - Membres de l'OCDE

OR Moyennement faible

]

Page 47: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 47 sur 57 DESS TIO – 2004/2005

7.4.2.3) Arbre des classes

7.4.3) Interprétation des résultats de la méthode DIV

La méthode DIV permet de mettre en évidence un constat non évident. En effet, si les autres

classes confirment plus ou moins nos données initiales concernant l’alphabétisme, ce n’est

pas le cas de la classe 5.

On remarque qu’elle contient entre autres l’Afrique Australe et l’Océanie ou encore

l’Extrême-Orient. Pourtant les niveaux d’alphabétisme sont très disparates. Ce qui prouve

que au-delà de ces aspects, ces zones géographiques révèlent des caractéristiques

similaires du point de vue du type de leur population, du niveau de développement et de

richesse.

Page 48: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 48 sur 57 DESS TIO – 2004/2005

7.5) Méthode PYR

La méthode PYR est une classification pyramidale qui généralise la

hiérarchisation en autorisant les classes non disjointes à un niveau donné.

La pyramide constitue un modèle intermédiaire entre les arbres et les

structures en treillis. Dans une classification pyramidale, chaque classe formée est

définie non seulement par une extension (l’ensemble de ses éléments) mais aussi

par un objet symbolique qui décrit ses propriétés (l’intention de la classe). L’intention

est héritée d’un prédécesseur vers son successeur et nous obtenons ainsi une

structure d’héritage.

7.5.1) Application de la méthode PYR

Pour appliquer la méthode PYR, faut utiliser l’icône HIPYR de la catégorie Clustering, puis

choisir Pyramid dans les paramètres. Pour cette étude, nous choisirons l’algorithme de saut

minimum.

Page 49: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 49 sur 57 DESS TIO – 2004/2005

Pour appliquer la méthode, nous allons choisir les variables ci-dessous.

L’application de cette méthode donne des résultats numériques et graphiques

Page 50: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 50 sur 57 DESS TIO – 2004/2005

Résultats de la méthode PYR

La méthode renvoie 80 classes.

7.5.2) Interprétation des résultats de la méthode PYR

Ayant beaucoup de classes (80), notre schéma apparaît un peu difficile à déchiffrer. On note

toutes fois des informations étonnantes. En effet, on remarque par exemple que la classe 73

permet un rapprochement entre le Moyen-Orient et l’Extrême-Orient alors que l’un a un taux

d’alphabétisme moyen et l’autre très élevé. Toutefois, ce la se comprend tout de même car

plus on avance dans la hiérarchie, plus on d’éléments ayant la même intention.

Cette étude à l’aide de la méthode PYR semble confirmer nos données initiales sur

l’alphabétisme car on remarque que sans aller trop haut dans la hiérarchie, les individus

d’une même classe ont sensiblement le même taux d’alphabétisme.

Page 51: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 51 sur 57 DESS TIO – 2004/2005

7.6) Méthode SCLUST

La méthode SCLUST correspond à la classification automatique. Elle permet de créer une

hiérarchie entre des classes.

7.6.1) Application de la méthode SCLUST

La méthode SCLUST correspond à l’icône SCLUST de la catégorie Clustering.

Pour appliquer la méthode, nous allons choisir les variables ci-dessous.

Par ailleurs, nous allons appliquer les paramètres suivants.

L’application de cette méthode donne des résultats numériques.

Page 52: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 52 sur 57 DESS TIO – 2004/2005

7.6.2) Résultats de la méthode SCLUST

Nous rappelons que nous avons choisi de créer 5 classes représentées ci-dessous.

7.6.3) Interprétation des résultats de la méthode SCLUST

Selon les résultats obtenus par la méthode SCLUST, on peut organiser nos concepts par

groupes. En se basant sur les données de l’alphabétisme, on remarque que cette

classification est plus ou moins fiable. En effet, les concepts d’un même groupe ont tous à

peu près le même niveau d’alphabétisation. Ce qui montre bien que ces concepts partagent

les mêmes caractéristiques (niveau de développement et de richesse, type de population).

Page 53: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 53 sur 57 DESS TIO – 2004/2005

7.7) Méthode SPCA

La méthode SPCA correspond à l’analyse en composantes principales

classique. Mais au lieu d’obtenir une représentation par points sur un plan factoriel, la

méthode SPCA propose une visualisation de chaque concept par des rectangles.

L’objectif est d’étudier l’intensité des liaisons entre les variables et de repérer les

concepts présentant des caractéristiques voisines.

La méthode SPCA est donc une méthode factorielle de réduction du nombre

de caractères permettant des représentations géométriques des individus et des

variables. La réduction se fait par la construction de nouveaux caractères

synthétiques obtenus en combinant les variables initiales au moyen des « facteurs ».

Les éléments de la matrice de données sont des intervalles et chacun décrit la

variation de la variable observée (minimum et maximum).

7.7.1) Application de la méthode SPCA

La méthode SPCA correspond à l’icône SPCA de la catégorie Factorial. La

méthode n’accepte que les variables continues pour lesquelles on choisira la valeur

maximum et la valeur minimum.

L’application de cette méthode donne des résultats numériques et graphiques.

7.7.2) Résultats de la méthode SPCA

7.7.2.1) Détermination des axes = 3

Page 54: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 54 sur 57 DESS TIO – 2004/2005

7.7.2.2) Contribution des individus aux 3 axes

7.7.2.3) Qualité des individus sur les 3 axes (dans l’espace)

Page 55: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 55 sur 57 DESS TIO – 2004/2005

7.7.2.4) Corrélation

Page 56: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 56 sur 57 DESS TIO – 2004/2005

Conclusion

Au terme de notre analyse, nous avons relevé un point important : pour répondre à notre

problématique, il faut tenir compte de plusieurs méthodes d’études.

En effet, selon les méthodes utilisées, nous avons vue qu’au niveau des interprétations,

nous n’obtenions pas nécessairement les mêmes informations.

Il est donc crucial de réaliser plusieurs types d’études afin de collecter le maximum

d’informations possibles et pouvoir prendre une décision adéquate.

C’est donc ce que nous préconisons aux différents acteurs concernés par le problème de

l’alphabétisme dans le monde afin de trouver les solutions qui permettront à chaque être

humain de la planète d’avoir la connaissance minimum : lire et écrire.

Page 57: RAPPORT DE PROJET de Data Mining - CEREMADEtouati/SODAS/... · L’alphabétisme dans le monde Page 4 sur 57 DESS TIO – 2004/2005 Introduction Le présent rapport décrit la réalisation

Rapport de Datamining Estelle GUESSAN

L’alphabétisme dans le monde Page 57 sur 57 DESS TIO – 2004/2005

Sources

Cours de datamining

Livres

o Introduction au Data Mining de Michel Jambu, Eyrolles

o Le Data Warehouse / Le Data Minig de Jean-Michel Franco, Eyrolles

Internet

o http://www.ceremade.dauphine.fr/%7Etouati/exemples.htm

o http://www.nodesway.com/business-intelligence/datamining.htm

o http://departements.enst-bretagne.fr/