Fouille de données Extraction de connaissances .2017-04-27 · Fouille de données ... croisement

download Fouille de données Extraction de connaissances .2017-04-27 · Fouille de données ... croisement

of 21

  • date post

    10-Sep-2018
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Fouille de données Extraction de connaissances .2017-04-27 · Fouille de données ... croisement

  • Fouille de donnesExtraction de connaissances

    Knowledge Discovery in Databases (KDD)Data/Pattern Analysis

    1

  • Fouille de donnes : Introduction

    2

  • 3

  • } Le Data Mining est un nouveau champ situ au croisement de la statistique et des technologies de linformation (bases de donnes, intelligence artificielle, apprentissage etc.) dont le but est de dcouvrir des structures dans de vastes ensembles de donnes.

    } ECD (Extraction de Connaissances partir de Donnes/Knowledge extraction) : ensemble du processus de dcouvertes et dinterprtation de rgularits dans des donnes.

    } Autres appellations : Knowledge Discovery in Databases (KDD) Data/pattern analysis

    4

  • } Ncessit conomique pour la prise de dcision: E-commerce Gestion de la concurrence Fidlisation de la clientle, marketing cibl.

    } Disponibilit croissante de quantit norme de donnes : La technologie est disponible : pour aider collecter les donnes. pour aider stocker : base de donnes, data

    warehouses.

    5

  • 6

  • } U.M.Fayyad: Data Mining is the nontrivial process of identifying valid, novel, potentially useful, and ultimatelyunderstandable patterns in data

    } D.J.Hand:I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets

    } Extraction dinformations originales (non triviales) implicites, inconnues auparavant et potentiellement utiles partir de grandes bases de donnes (big data) : Non triviale : sinon la connaissance nest pas utile Implicite : la connaissance cache est difficile observer Inconnue jusqualors : vident ! Potentiellement utile : utilisable, comprhensible

    7

  • } Recherches en Intelligence artificielle, apprentissage, extraction de connaissances;

    } Lvolution des SGBD vers linformatique dcisionnelle avec les entrepts de donnes (Data Warehouse);

    } La constitution de giga bases de donnes : transactions de cartes de crdit, appels tlphoniques, factures de supermarchs: terabytes;

    } Dveloppement de la Gestion de la Relation Client (CRM) : Marketing client au lieu de marketing produit; Attrition, satisfaction, etc.

    8

  • } Le Data Mining cherche des structures de deux types: Identification de patterns, Construction de modles,

    9

  • } Patterns : une structure caractristique possde par un petit nombre dobservations: niche de clients forte valeur, ou au contraire des clients haut risque.

    } Outils: classification, visualisation par rduction de dimension (ACP, AFC etc.), rgles dassociation,

    10

  • } Modles : Un modle est un rsum global des relations entre variables, permettant de comprendre des phnomnes, et dmettre des prvisions. Construire des modles a toujours t une activit des statisticiens.

    } Outils : la dcouverte de modles se fait laide dun processus de recherche algorithmique dexploration de modles: rseaux de neurones, arbres de dcision,

    rgression logistique, rseaux bayesiens.

    11

  • 12

  • } Diffrentes approches : Estimation : crer un modle qui dcrit au mieux une

    variable de prvision lie des donnes relles Classification : crer une fonction qui classifie une

    lmentaire parmi plusieurs classes prdfinies existantes, Regroupement (clustering) : rechercher identifier un

    ensemble fini de catgories ou groupes en vue de dcrire les donnes, Modlisation des dpendances : trouver un modle qui

    dcrit des dpendances significatives entre les variables} Autre distinction: prdictif (supervis) ou

    exploratoire(non supervis)

    13

  • 14

  • 15

  • } Une mthode non supervise: Rgles dassociation

    } Une mthodes supervises Arbres de dcision

    16

  • } Le Data Mining est une tape dans le processus dextraction des connaissances, qui consiste appliquer des algorithmes danalyse des donnes:

    1. Poser le problme2. Recherche des donnes3. Nettoyage des donnes4. Codage des donnes, actions sur les variables5. Recherche dun modle, de connaissances, 6. Validation et interprtation du rsultat, avec

    retour possible sur les tapes prcdentes7. Intgration des connaissances apprises

    17

  • 18

    } Mthode CRISP : la cl de la russite en Data Science La mthode CRISP (initialement connue comme CRISP-

    DM Cross Industry Standard Process for Data Mining) a t au dpart dveloppe par IBM dans les annes 60 pour raliser les projets Datamining. Elle reste aujourdhui la seule mthode utilisable

    efficacement pour tous les projets Data Science. La mthode CRISP se dcompose en 6 tapes allant de la

    comprhension du problme mtier au dploiement et la mise en production. Cette mthode est agile et itrative, cest--dire que

    chaque itration apporte de la connaissance mtier supplmentaire qui permet de mieux aborder litration suivante.

  • 19

  • } 1. La comprhension du problme mtier} La premire tape consiste bien comprendre les lments mtiers et

    problmatiques que la Data Science vise rsoudre ou amliorer.} 2. La comprhension des donnes} Cette phase vise dterminer prcisment les donnes analyser,

    identifier la qualit des donnes disponibles et faire le lien entre les donnes et leur signification dun point de vue mtier. La Data Science tant base sur les donnes seules, les problmes mtiers relatifs des donnes existantes, quelles soient internes ou externes, peuvent ainsi tre rsolus par la Data Science.

    } 3. La construction du Data Hub} Cette phase de prparation des donnes regroupe les activits lies la

    construction de lensemble prcis des donnes analyser, faite partir des donnes brutes. Elle inclut ainsi le classement des donnes en fonction de critres choisis, le nettoyage des donnes, et surtout leur recodage pour les rendre compatibles avec les algorithmes qui seront utiliss

    20

  • } 4. La modlisation} Cest la phase de Data Science proprement dite.

    La modlisation comprend le choix, le paramtrage et le test de diffrents algorithmes ainsi que leur enchanement, qui constitue un modle. Ce processus est dabord descriptif pour gnrer de la connaissance, en expliquant pourquoi les choses se sont passes. Il devient ensuite prdictif en expliquant ce quil va se passer, puis prescriptif en permettant doptimiser une situation future.

    } 5. Lvaluation} Lvaluation vise vrifier le(s) modle(s) ou les connaissances obtenues

    afin de sassurer quils rpondent aux objectifs formuls au dbut du processus. Elle contribue aussi la dcision de dploiement du modle ou, si besoin est, son amlioration. A ce stade, on teste notamment la robustesse et la prcision des modles obtenus.

    } 6. Le dploiement} Il sagit de ltape finale du processus. Elle consiste en une mise en

    production pour les utilisateurs finaux des modles obtenus. Son objectif : mettre la connaissance obtenue par la modlisation, dans une forme adapte, et lintgrer au processus de prise de dcision.

    21