Fouille de Données

Fouille de donnes (Data mining)

Rpublique Algrienne Dmocratique et Populaire

Universit Dr. Tahar Moulay - Saida

Facult de Technologie

Dpartement dInformatique

3eme anne informatique

2013 - 2014

Prpar par :

Awad Samir

Akkal Brahim

Belhachemi Abdelhak

Table des matires

1. Introduction .................................................................... 2

2. Dfinition ........................................................................ 2

3. Les tches du data mining .............................................. 2

3.1. Classification .............................................................. 2

3.2. Clustering (Segmentation) ......................................... 5

3.3. Les rgles dassociation .............................................. 8

4. Conclusion ...................................................................... 9

2

1. Introduction : La fouille de donnes, ou data mining en anglais, est une jeune discipline

apparue au dbut des annes 90. Son mergence est principalement due au

dveloppement des moyens informatiques de stockage et de calcul. Le data

mining nest quune tape dun processus plus globale appel Extraction de

Connaissance partir de Donnes (ECD), ou Knowledge Discovery from

Databases (KDD). En effet, lECD se rfre une dmarche complte

dexploitation des donnes intgrant leur pr-traitement pour permettre

lapplication des algorithmes de fouille de donne suivie de la validation des

modles obtenus. La fouille de donnes se situe, donc, au cur de ce

processus. Une tude data mining repose sur des donnes stockes dans un

entrept de donnes appel data warehouse et qui est une collection de

donnes thmatiques intgres, non volatiles et historises. Plusieurs

dfinitions ont t proposes pour dfinir le data mining, nous en retenons

deux.

2. Dfinition : Le data mining est lensemble du processus permettant lextraction de

connaissances partir de grosses bases de donnes dans un but daide

la dcision.

Le data mining est le processus de slection, exploration et modlisation

de grandes bases de donnes afin de dcouvrir des relations entre les

donnes.

3. Les tches du data mining :

3.1. Classification : La classification se fait naturellement depuis dj bien longtemps pour

comprendre et communiquer notre vision du monde (par exemple les

espces animales, minrales ou vgtales).

3

La classification consiste examiner des caractristiques dun lment

nouvellement prsent afin de laffecter une classe dun ensemble

prdfini.

Dans le cadre informatique, les lments sont reprsents par un

enregistrement et le rsultat de la classification viendra alimenter un

champ supplmentaire.

La classification permet de crer des classes dindividus (terme prendre

dans son acception statistique). Celles-ci sont discrtes : homme / femme,

oui / non, rouge / vert / bleu, ...

Les techniques les plus appropries la classification sont :

Les arbres de dcision.

Lalgorithme K-NN.

SVM...

3.1.1. Les arbres de dcision :

Un arbre de dcision est, comme son nom lindique, un outil daide

la dcision qui permet de classifier une population dindividus selon les

valeurs de leurs attributs. Cest une reprsentation graphique de la

procdure de classification o :

Chaque nud correspond un test sur la valeur d'un ou

plusieurs attributs.

Chaque branche partant d'un nud correspond une ou

plusieurs valeurs de ce test.

Une feuille = une classe.

4

Figure 1. Un exemple d'arbre de dcision sur le jeu de donnes

Jouer au tennis ?

La dmarche gnrale de construction de larbre de dcision consiste

en deux tapes :

- Construction de larbre partir des donnes.

- Elagage de larbre dans le but dallger larbre rsultant souvent

volumineux.

3.1.2. Lalgorithme K-NN :

k-NN (k Nearest Neighbours) est un algorithme de raisonnement

partir de cas cest--dire prendre des dcisions en recherchant un ou

plusieurs cas similaires dj rsolus. La dcision consiste chercher les k

chantillons les plus voisins de l'objet et de laffecter la classe qui est la

plus reprsentative dans ces k chantillons.

Lapproche la plus simple est de rechercher le cas le plus similaire et

de prendre la mme dcision, on parle de 1-NN. Si cette approche peut

fournir des rsultats acceptables sur des problmes simples pour

lesquels les objets sont bien rpartis en groupes denses de mme classe,

en rgle gnrale, il faut considrer un nombre de voisin plus important

pour obtenir de bons rsultats.

5

Illustration :

3.2. Clustering (Segmentation) : Pour rsoudre certains problmes complexes, il peut s'avrer utile de

commencer par segmenter la population (la diviser en groupes) en esprant

que le problme soit alors plus simple rsoudre sur les groupes ainsi

constitus. La segmentation est une tche d'apprentissage non

supervise car on ne dispose d'aucune autre information pralable que la

description des exemples.

3.2.1. Mthodes de Clustering :

Il existe deux grandes classes de mthodes :

- Non hirarchique.

- Hirarchique.

a. Segmentation non hirarchique :

On dcompose l'ensemble d'individus en k groupes. Nous

prsentons ici la mthode des k-means car elle est trs simple

mettre en uvre et trs utilise. Elle comporte de nombreuses

6

variantes et est souvent utilise en combinaison avec d'autres

algorithmes.

Lalgorithme k-means (k-moyennes):

La mthode est base sur une notion de similarit entre

enregistrements. Nous allons pour introduire l'algorithme considrer

un espace gomtrique muni d'une distance, deux points sont

similaires si ils sont proches pour la distance considre. Nous nous

plaons donc dans l'espace euclidien de dimension 2 et considrons

la distance euclidienne classique. L'algorithme suppose choisi a priori

un nombre k de groupes constituer. On constitue alors

les k groupes initiaux en affectant chacun des enregistrements dans

le groupe correspondant au centre le plus proche. Pour chaque

groupe ainsi constitu, on calcule son nouveau centre en effectuant

la moyenne des points du groupe et on ritre le procd. Le critre

d'arrt est : d'une itration la suivante, aucun point n'a chang de

groupe, i.e. les groupes sont stables.

Considrons l'exemple prsent en Tableau 1, les donnes d'entre

sont constitues de 8 points A, ..., H de l'espace euclidien de

dimension 2. On choisit k=2, c'est--dire on cherche constituer deux

groupes dans cet ensemble de 8 points. On tire alatoirement les 2

centres initiaux, B et D sont choisis. On rpartit les points dans les

deux groupes (nomms B et D) en fonction de leur proximit aux

centres B et D. Gomtriquement, il suffit de tracer la mdiatrice du

segment [BD]. Seul D est affect au groupe D. On calcule les

nouveaux centres pour l'tape 2, on obtient D et I (27/7;17/7) o les

coordonnes de I sont les moyennes des coordonnes des 7 points

autres que D. On recre les groupes en fonction de leur proximit aux

centres D et I, on remarque que A et C changent de groupe. Le

procd est ritr, la stabilit est obtenue l'tape 4 car on

constate que les groupes ne sont plus modifis. Les deux groupes

obtenus sont {A, B, C, D} et {E, F, G, H}.

7

Tableau 1. Exemple pour l'algorithme des k-moyennes

b. Segmentation hirarchique :

On dcompose l'ensemble d'individus en une arborescence de

groupes. Les algorithmes hirarchiques construisent les classes

graduellement sous une forme hirarchique, autrement dit, un

arbre des classes appel dendrogramme .

En principe, il existe deux classes de mthodes de segmentation

hirarchique :

Segmentation hirarchique ascendante : on commence par

considrer chaque objet comme une classe et on essaye de

fusionner deux ou plusieurs classes appropries (selon une

similarit) pour former une nouvelle classe. Le processus est rpt

jusqu atteindre un critre darrt.

8

Segmentation hirarchique descendante : tous les objets sont au

dbut considrs comme une seule classe, on divise successivement

les classes en classes plus raffines selon une similarit. Le

processus est rpt jusqu atteindre un critre darrt.

Le critre darrt peut tre le nombre de classes dsir, le

nombre minimum (ou maximum) dobjets dans chaque classe, le

nombre ditrations...etc.

Figure 3. Exemple dun dendrogramme

3.3. Les rgles dassociation : Cest une tche qui permet de dcouvrir les rapports de lien qui peuvent

exister dans une base de donnes. Ces liens sont gnralement exprims

sous la forme A B qui signifie que la prsence de A implique la

prsence de B (avec une certaine probabilit).

Exemple : Un tudiant qui russi en mathmatiques russira en

algorithmique dans 80% des cas.

Ascendant

Descendant

9

4. Conclusion : Nous venons de prsenter les tches principales du data mining ainsi que les

principaux outils utiliss pour les effectuer. Il faut noter qu' l'heure actuelle le

choix de l'outil par rapport a une tche donne dpend fortement du domaine

considr.

Fouille de Données

Documents

Transcript of Fouille de Données

Mégadonnées, données liées et fouille de données pour les ...Mégadonnées, données liées et fouille de données pour les réseaux d’assainissement Thierry Bonnabaud La Bruyère1,

Fouille de données pour des grands graphes

Fouilles de Données Introduction à la fouille de donn é es

Fouille de données complexes : des relevés terrain aux données satellitaires pour ... · 2015. 5. 29. · Fouille de données complexes : des relevés terrain aux données satellitaires

Apprentissage non supervisé : Fouille de Données...Contexte : Fouille de données (1) Data Mining Processus de découverte de connaissances dans des collections de données Correctes,

Analyse et fouille de données

Filière Fouille de Données et Décisionnel FDD (Data Mining)pmorizet/dokuwiki/_media/fr/fd2010.pdf · Motivations de la filière fouille de données • Une demande des entreprises

Fouille de données Extraction de connaissances Knowledge ... · Fouille de données Extraction de connaissances Knowledge Discovery in Databases (KDD) Data/Pattern Analysis 1

Analyse et Fouille de Données - LAMSADE - CNRS …atif/lib/exe/fetch.php?media=... · 2014-11-19 · L’analyse et la fouille de données est un des traitements. Analyse et fouille

Architecture et services pour la fouille de données ... · Architecture et services pour la fouille de données hétérogènes en écologie, dans le cadre du consortium IndexMeed

Notes de cours sur la fouille de données

DE LA FOUILLE DE DONNÉES À LA FABRIQUE DE L’OPINION

Fouille de données · Fouille de données • Déroulement Supports cours/TP sur le site silico.biotoul.fr • Objectifs Aperçu de la discipline, regard critique Utilisation de

Fouille de données: Analyse de clusters

Filière Data Mining (Fouille de données) - hds.utc.frpmorizet/filiereFD.pdf · (Fouille de données) Pierre Morizet-Mahoudeaux. Plan •Objectifs •Débouchés ... • Les entreprises

Fouille de données massives avec Hadoop

Master Informatique - Université Paris 13 · • Fouille de données vocales (4 ECTS) • Fouille de données textuelles (4 ECTS) STAGE • Stage Entreprise / Laboratoire (18 ECTS)

fouille des données

SINT: Apprentissage Automatique et Fouille de Données ...

Fouille de données complexes dans un processus d ... · – Processus et méthodes de fouille de ... données qui sont créées pour des fins d’analyse stratégique ... des données