Fouille de Données

10
Fouille de données (Data mining) République Algérienne Démocratique et Populaire Université Dr. Tahar Moulay - Saida Faculté de Technologie Département d’Informatique 3 eme année informatique 2013 - 2014 Préparé par : Awad Samir Akkal Brahim Belhachemi Abdelhak

description

Le data mining est l’ensemble du processus permettant l’extraction de connaissances à partir de grosses bases de données dans un but d’aide à la décision.

Transcript of Fouille de Données

  • Fouille de donnes (Data mining)

    Rpublique Algrienne Dmocratique et Populaire

    Universit Dr. Tahar Moulay - Saida

    Facult de Technologie

    Dpartement dInformatique

    3eme anne informatique

    2013 - 2014

    Prpar par :

    Awad Samir

    Akkal Brahim

    Belhachemi Abdelhak

  • Table des matires

    1. Introduction .................................................................... 2

    2. Dfinition ........................................................................ 2

    3. Les tches du data mining .............................................. 2

    3.1. Classification .............................................................. 2

    3.2. Clustering (Segmentation) ......................................... 5

    3.3. Les rgles dassociation .............................................. 8

    4. Conclusion ...................................................................... 9

  • 2

    1. Introduction : La fouille de donnes, ou data mining en anglais, est une jeune discipline

    apparue au dbut des annes 90. Son mergence est principalement due au

    dveloppement des moyens informatiques de stockage et de calcul. Le data

    mining nest quune tape dun processus plus globale appel Extraction de

    Connaissance partir de Donnes (ECD), ou Knowledge Discovery from

    Databases (KDD). En effet, lECD se rfre une dmarche complte

    dexploitation des donnes intgrant leur pr-traitement pour permettre

    lapplication des algorithmes de fouille de donne suivie de la validation des

    modles obtenus. La fouille de donnes se situe, donc, au cur de ce

    processus. Une tude data mining repose sur des donnes stockes dans un

    entrept de donnes appel data warehouse et qui est une collection de

    donnes thmatiques intgres, non volatiles et historises. Plusieurs

    dfinitions ont t proposes pour dfinir le data mining, nous en retenons

    deux.

    2. Dfinition : Le data mining est lensemble du processus permettant lextraction de

    connaissances partir de grosses bases de donnes dans un but daide

    la dcision.

    Le data mining est le processus de slection, exploration et modlisation

    de grandes bases de donnes afin de dcouvrir des relations entre les

    donnes.

    3. Les tches du data mining :

    3.1. Classification : La classification se fait naturellement depuis dj bien longtemps pour

    comprendre et communiquer notre vision du monde (par exemple les

    espces animales, minrales ou vgtales).

  • 3

    La classification consiste examiner des caractristiques dun lment

    nouvellement prsent afin de laffecter une classe dun ensemble

    prdfini.

    Dans le cadre informatique, les lments sont reprsents par un

    enregistrement et le rsultat de la classification viendra alimenter un

    champ supplmentaire.

    La classification permet de crer des classes dindividus (terme prendre

    dans son acception statistique). Celles-ci sont discrtes : homme / femme,

    oui / non, rouge / vert / bleu, ...

    Les techniques les plus appropries la classification sont :

    Les arbres de dcision.

    Lalgorithme K-NN.

    SVM...

    3.1.1. Les arbres de dcision :

    Un arbre de dcision est, comme son nom lindique, un outil daide

    la dcision qui permet de classifier une population dindividus selon les

    valeurs de leurs attributs. Cest une reprsentation graphique de la

    procdure de classification o :

    Chaque nud correspond un test sur la valeur d'un ou

    plusieurs attributs.

    Chaque branche partant d'un nud correspond une ou

    plusieurs valeurs de ce test.

    Une feuille = une classe.

  • 4

    Figure 1. Un exemple d'arbre de dcision sur le jeu de donnes

    Jouer au tennis ?

    La dmarche gnrale de construction de larbre de dcision consiste

    en deux tapes :

    - Construction de larbre partir des donnes.

    - Elagage de larbre dans le but dallger larbre rsultant souvent

    volumineux.

    3.1.2. Lalgorithme K-NN :

    k-NN (k Nearest Neighbours) est un algorithme de raisonnement

    partir de cas cest--dire prendre des dcisions en recherchant un ou

    plusieurs cas similaires dj rsolus. La dcision consiste chercher les k

    chantillons les plus voisins de l'objet et de laffecter la classe qui est la

    plus reprsentative dans ces k chantillons.

    Lapproche la plus simple est de rechercher le cas le plus similaire et

    de prendre la mme dcision, on parle de 1-NN. Si cette approche peut

    fournir des rsultats acceptables sur des problmes simples pour

    lesquels les objets sont bien rpartis en groupes denses de mme classe,

    en rgle gnrale, il faut considrer un nombre de voisin plus important

    pour obtenir de bons rsultats.

  • 5

    Illustration :

    3.2. Clustering (Segmentation) : Pour rsoudre certains problmes complexes, il peut s'avrer utile de

    commencer par segmenter la population (la diviser en groupes) en esprant

    que le problme soit alors plus simple rsoudre sur les groupes ainsi

    constitus. La segmentation est une tche d'apprentissage non

    supervise car on ne dispose d'aucune autre information pralable que la

    description des exemples.

    3.2.1. Mthodes de Clustering :

    Il existe deux grandes classes de mthodes :

    - Non hirarchique.

    - Hirarchique.

    a. Segmentation non hirarchique :

    On dcompose l'ensemble d'individus en k groupes. Nous

    prsentons ici la mthode des k-means car elle est trs simple

    mettre en uvre et trs utilise. Elle comporte de nombreuses

  • 6

    variantes et est souvent utilise en combinaison avec d'autres

    algorithmes.

    Lalgorithme k-means (k-moyennes):

    La mthode est base sur une notion de similarit entre

    enregistrements. Nous allons pour introduire l'algorithme considrer

    un espace gomtrique muni d'une distance, deux points sont

    similaires si ils sont proches pour la distance considre. Nous nous

    plaons donc dans l'espace euclidien de dimension 2 et considrons

    la distance euclidienne classique. L'algorithme suppose choisi a priori

    un nombre k de groupes constituer. On constitue alors

    les k groupes initiaux en affectant chacun des enregistrements dans

    le groupe correspondant au centre le plus proche. Pour chaque

    groupe ainsi constitu, on calcule son nouveau centre en effectuant

    la moyenne des points du groupe et on ritre le procd. Le critre

    d'arrt est : d'une itration la suivante, aucun point n'a chang de

    groupe, i.e. les groupes sont stables.

    Considrons l'exemple prsent en Tableau 1, les donnes d'entre

    sont constitues de 8 points A, ..., H de l'espace euclidien de

    dimension 2. On choisit k=2, c'est--dire on cherche constituer deux

    groupes dans cet ensemble de 8 points. On tire alatoirement les 2

    centres initiaux, B et D sont choisis. On rpartit les points dans les

    deux groupes (nomms B et D) en fonction de leur proximit aux

    centres B et D. Gomtriquement, il suffit de tracer la mdiatrice du

    segment [BD]. Seul D est affect au groupe D. On calcule les

    nouveaux centres pour l'tape 2, on obtient D et I (27/7;17/7) o les

    coordonnes de I sont les moyennes des coordonnes des 7 points

    autres que D. On recre les groupes en fonction de leur proximit aux

    centres D et I, on remarque que A et C changent de groupe. Le

    procd est ritr, la stabilit est obtenue l'tape 4 car on

    constate que les groupes ne sont plus modifis. Les deux groupes

    obtenus sont {A, B, C, D} et {E, F, G, H}.

  • 7

    Tableau 1. Exemple pour l'algorithme des k-moyennes

    b. Segmentation hirarchique :

    On dcompose l'ensemble d'individus en une arborescence de

    groupes. Les algorithmes hirarchiques construisent les classes

    graduellement sous une forme hirarchique, autrement dit, un

    arbre des classes appel dendrogramme .

    En principe, il existe deux classes de mthodes de segmentation

    hirarchique :

    Segmentation hirarchique ascendante : on commence par

    considrer chaque objet comme une classe et on essaye de

    fusionner deux ou plusieurs classes appropries (selon une

    similarit) pour former une nouvelle classe. Le processus est rpt

    jusqu atteindre un critre darrt.

  • 8

    Segmentation hirarchique descendante : tous les objets sont au

    dbut considrs comme une seule classe, on divise successivement

    les classes en classes plus raffines selon une similarit. Le

    processus est rpt jusqu atteindre un critre darrt.

    Le critre darrt peut tre le nombre de classes dsir, le

    nombre minimum (ou maximum) dobjets dans chaque classe, le

    nombre ditrations...etc.

    Figure 3. Exemple dun dendrogramme

    3.3. Les rgles dassociation : Cest une tche qui permet de dcouvrir les rapports de lien qui peuvent

    exister dans une base de donnes. Ces liens sont gnralement exprims

    sous la forme A B qui signifie que la prsence de A implique la

    prsence de B (avec une certaine probabilit).

    Exemple : Un tudiant qui russi en mathmatiques russira en

    algorithmique dans 80% des cas.

    Ascendant

    Descendant

  • 9

    4. Conclusion : Nous venons de prsenter les tches principales du data mining ainsi que les

    principaux outils utiliss pour les effectuer. Il faut noter qu' l'heure actuelle le

    choix de l'outil par rapport a une tche donne dpend fortement du domaine

    considr.