Post on 21-Nov-2015
description
Fouille de donnes (Data mining)
Rpublique Algrienne Dmocratique et Populaire
Universit Dr. Tahar Moulay - Saida
Facult de Technologie
Dpartement dInformatique
3eme anne informatique
2013 - 2014
Prpar par :
Awad Samir
Akkal Brahim
Belhachemi Abdelhak
Table des matires
1. Introduction .................................................................... 2
2. Dfinition ........................................................................ 2
3. Les tches du data mining .............................................. 2
3.1. Classification .............................................................. 2
3.2. Clustering (Segmentation) ......................................... 5
3.3. Les rgles dassociation .............................................. 8
4. Conclusion ...................................................................... 9
2
1. Introduction : La fouille de donnes, ou data mining en anglais, est une jeune discipline
apparue au dbut des annes 90. Son mergence est principalement due au
dveloppement des moyens informatiques de stockage et de calcul. Le data
mining nest quune tape dun processus plus globale appel Extraction de
Connaissance partir de Donnes (ECD), ou Knowledge Discovery from
Databases (KDD). En effet, lECD se rfre une dmarche complte
dexploitation des donnes intgrant leur pr-traitement pour permettre
lapplication des algorithmes de fouille de donne suivie de la validation des
modles obtenus. La fouille de donnes se situe, donc, au cur de ce
processus. Une tude data mining repose sur des donnes stockes dans un
entrept de donnes appel data warehouse et qui est une collection de
donnes thmatiques intgres, non volatiles et historises. Plusieurs
dfinitions ont t proposes pour dfinir le data mining, nous en retenons
deux.
2. Dfinition : Le data mining est lensemble du processus permettant lextraction de
connaissances partir de grosses bases de donnes dans un but daide
la dcision.
Le data mining est le processus de slection, exploration et modlisation
de grandes bases de donnes afin de dcouvrir des relations entre les
donnes.
3. Les tches du data mining :
3.1. Classification : La classification se fait naturellement depuis dj bien longtemps pour
comprendre et communiquer notre vision du monde (par exemple les
espces animales, minrales ou vgtales).
3
La classification consiste examiner des caractristiques dun lment
nouvellement prsent afin de laffecter une classe dun ensemble
prdfini.
Dans le cadre informatique, les lments sont reprsents par un
enregistrement et le rsultat de la classification viendra alimenter un
champ supplmentaire.
La classification permet de crer des classes dindividus (terme prendre
dans son acception statistique). Celles-ci sont discrtes : homme / femme,
oui / non, rouge / vert / bleu, ...
Les techniques les plus appropries la classification sont :
Les arbres de dcision.
Lalgorithme K-NN.
SVM...
3.1.1. Les arbres de dcision :
Un arbre de dcision est, comme son nom lindique, un outil daide
la dcision qui permet de classifier une population dindividus selon les
valeurs de leurs attributs. Cest une reprsentation graphique de la
procdure de classification o :
Chaque nud correspond un test sur la valeur d'un ou
plusieurs attributs.
Chaque branche partant d'un nud correspond une ou
plusieurs valeurs de ce test.
Une feuille = une classe.
4
Figure 1. Un exemple d'arbre de dcision sur le jeu de donnes
Jouer au tennis ?
La dmarche gnrale de construction de larbre de dcision consiste
en deux tapes :
- Construction de larbre partir des donnes.
- Elagage de larbre dans le but dallger larbre rsultant souvent
volumineux.
3.1.2. Lalgorithme K-NN :
k-NN (k Nearest Neighbours) est un algorithme de raisonnement
partir de cas cest--dire prendre des dcisions en recherchant un ou
plusieurs cas similaires dj rsolus. La dcision consiste chercher les k
chantillons les plus voisins de l'objet et de laffecter la classe qui est la
plus reprsentative dans ces k chantillons.
Lapproche la plus simple est de rechercher le cas le plus similaire et
de prendre la mme dcision, on parle de 1-NN. Si cette approche peut
fournir des rsultats acceptables sur des problmes simples pour
lesquels les objets sont bien rpartis en groupes denses de mme classe,
en rgle gnrale, il faut considrer un nombre de voisin plus important
pour obtenir de bons rsultats.
5
Illustration :
3.2. Clustering (Segmentation) : Pour rsoudre certains problmes complexes, il peut s'avrer utile de
commencer par segmenter la population (la diviser en groupes) en esprant
que le problme soit alors plus simple rsoudre sur les groupes ainsi
constitus. La segmentation est une tche d'apprentissage non
supervise car on ne dispose d'aucune autre information pralable que la
description des exemples.
3.2.1. Mthodes de Clustering :
Il existe deux grandes classes de mthodes :
- Non hirarchique.
- Hirarchique.
a. Segmentation non hirarchique :
On dcompose l'ensemble d'individus en k groupes. Nous
prsentons ici la mthode des k-means car elle est trs simple
mettre en uvre et trs utilise. Elle comporte de nombreuses
6
variantes et est souvent utilise en combinaison avec d'autres
algorithmes.
Lalgorithme k-means (k-moyennes):
La mthode est base sur une notion de similarit entre
enregistrements. Nous allons pour introduire l'algorithme considrer
un espace gomtrique muni d'une distance, deux points sont
similaires si ils sont proches pour la distance considre. Nous nous
plaons donc dans l'espace euclidien de dimension 2 et considrons
la distance euclidienne classique. L'algorithme suppose choisi a priori
un nombre k de groupes constituer. On constitue alors
les k groupes initiaux en affectant chacun des enregistrements dans
le groupe correspondant au centre le plus proche. Pour chaque
groupe ainsi constitu, on calcule son nouveau centre en effectuant
la moyenne des points du groupe et on ritre le procd. Le critre
d'arrt est : d'une itration la suivante, aucun point n'a chang de
groupe, i.e. les groupes sont stables.
Considrons l'exemple prsent en Tableau 1, les donnes d'entre
sont constitues de 8 points A, ..., H de l'espace euclidien de
dimension 2. On choisit k=2, c'est--dire on cherche constituer deux
groupes dans cet ensemble de 8 points. On tire alatoirement les 2
centres initiaux, B et D sont choisis. On rpartit les points dans les
deux groupes (nomms B et D) en fonction de leur proximit aux
centres B et D. Gomtriquement, il suffit de tracer la mdiatrice du
segment [BD]. Seul D est affect au groupe D. On calcule les
nouveaux centres pour l'tape 2, on obtient D et I (27/7;17/7) o les
coordonnes de I sont les moyennes des coordonnes des 7 points
autres que D. On recre les groupes en fonction de leur proximit aux
centres D et I, on remarque que A et C changent de groupe. Le
procd est ritr, la stabilit est obtenue l'tape 4 car on
constate que les groupes ne sont plus modifis. Les deux groupes
obtenus sont {A, B, C, D} et {E, F, G, H}.
7
Tableau 1. Exemple pour l'algorithme des k-moyennes
b. Segmentation hirarchique :
On dcompose l'ensemble d'individus en une arborescence de
groupes. Les algorithmes hirarchiques construisent les classes
graduellement sous une forme hirarchique, autrement dit, un
arbre des classes appel dendrogramme .
En principe, il existe deux classes de mthodes de segmentation
hirarchique :
Segmentation hirarchique ascendante : on commence par
considrer chaque objet comme une classe et on essaye de
fusionner deux ou plusieurs classes appropries (selon une
similarit) pour former une nouvelle classe. Le processus est rpt
jusqu atteindre un critre darrt.
8
Segmentation hirarchique descendante : tous les objets sont au
dbut considrs comme une seule classe, on divise successivement
les classes en classes plus raffines selon une similarit. Le
processus est rpt jusqu atteindre un critre darrt.
Le critre darrt peut tre le nombre de classes dsir, le
nombre minimum (ou maximum) dobjets dans chaque classe, le
nombre ditrations...etc.
Figure 3. Exemple dun dendrogramme
3.3. Les rgles dassociation : Cest une tche qui permet de dcouvrir les rapports de lien qui peuvent
exister dans une base de donnes. Ces liens sont gnralement exprims
sous la forme A B qui signifie que la prsence de A implique la
prsence de B (avec une certaine probabilit).
Exemple : Un tudiant qui russi en mathmatiques russira en
algorithmique dans 80% des cas.
Ascendant
Descendant
9
4. Conclusion : Nous venons de prsenter les tches principales du data mining ainsi que les
principaux outils utiliss pour les effectuer. Il faut noter qu' l'heure actuelle le
choix de l'outil par rapport a une tche donne dpend fortement du domaine
considr.