Dm Hassan Badir

download Dm Hassan Badir

of 126

Transcript of Dm Hassan Badir

  • 7/29/2019 Dm Hassan Badir

    1/126

    www.itech4you.com

    ENSA

    DataminingDes donnes la

    connaissanceExtraction de connaissances

    partir de donnes (ECD)

    Un tour dhorizon

  • 7/29/2019 Dm Hassan Badir

    2/126

    ALLO

    Extrait dune conversation tlphonique (relle) :

    All, monsieur Kamel? Je travaille pour X et nousdsirons rencontrer tous les habitants de votrerue (sic). Quand pouvons-nous vous rencontrerpour vous parler de nos offres en matire

    dassurances ?

    All

    Le but de notre propos est de brosser par touches successives leportrait dune discipline nouvelle. Il sagit ainsi les avis courammentexprims par des utilisateurs et des fouilleurs de donnes , ainsique les avis de la littrature.

  • 7/29/2019 Dm Hassan Badir

    3/126

    AvantproposSleon une tduede luvinersit de Cmabrigde, lodrre des

    ltteresdans un mot na pas dipmrotncae, la suelecoshe ipmrotnate est que la pmeire et la dreniresoenit la bnone palce.

    Le rsete puet rte dans un dsordre ttoal et vuos puoevztujoruors lrie snas porlbme.

    Cestprace que le creaveu hmauin ne lit pas chuaqelterre elle mme, mais le mot cmome un tuot.

    Cestdniuge, non?

  • 7/29/2019 Dm Hassan Badir

    4/126

    Avantpropos

    Ne restez pas indfiniment sur la route qui nemne qu des endroits connus, abandonnezparfois les sentiers battus et entrez dans la fort,vous dcouvrirez certainement quelque chose que

    vous n'avez jamais vu, bien sur ce ne sera qu'unepetite chose, mais prtez y attention, suivez la,explorez la, une dcouverte en amnera une autre,et avant mme de vous rendre compte, vous aurez

    mis a jour une ide intressante.

    Alexander Graham Bell

  • 7/29/2019 Dm Hassan Badir

    5/126

    Agenda

    Prhistoire et Histoire

    Dfinitions, concepts et enjeux

    Apprentissage Supervis et non Supervis

    CRM

    Conclusion

    Atelier 1

  • 7/29/2019 Dm Hassan Badir

    6/126

    Dfinition

    InformationDonnes Connaissance

    Qu'est ce que le sens pour des donnesinformatiques?

    Diffrence

  • 7/29/2019 Dm Hassan Badir

    7/126

    Donnes Versus Information

    La donne est del'information dshabille

    de sa valeur potentiellepour un agent. La donne

    est un fait alatoire.

    L'information estl'habilit agir partirde ces faits alatoires.

    I

    formation

    D

    onnes

  • 7/29/2019 Dm Hassan Badir

    8/126

    Quest ce que le Datamining ?

    Dans Datamining il y a Data = Donnes

    1. Ce qui est donn, connu, dtermin lavancedans lnonc dun problme, et qui sert dcouvrir ce qui est inconnu

    2. Ce qui est admis, connu ou reconnu et qui sertde base un raisonnement de point de dpartpour une recherche ou une tude

    Source: Le Petit Robert

    Donnes Client: Tout ce quon est en mesure desavoir sur chaque client priori

  • 7/29/2019 Dm Hassan Badir

    9/126

    Quest-ce que le Data Mining

    La richesse des entreprises rside dans leurs clients(entreprises valorises sur la base de leur fichierclientle). client = ??? Euros

    anticiper leurs besoins devient un objectif majeur (tt en

    maitrisant les risques et en utilisant les bons canaux au bonmoment)

    Pour y parvenir, la matrise de linformation, fournie par lesclients ou dtenue sur eux, est un lment primordial desuccs (CRM).

    CRM (oprationnel, analytique et collaboratif).

  • 7/29/2019 Dm Hassan Badir

    10/126

    Datamining :Concept

    It is a process of discovering meaningful newcorrelations, patterns, trends by sifting throughlarge amounts of data stored in repositories, usingpattern recognition technologies, statistical andmathematical techniques

    Gartner Group, 1995

    Le datamining nest pas une technologie

    Le datamining nest pas un outil informatique

  • 7/29/2019 Dm Hassan Badir

    11/126

    Datamining

    AU CUR DE LINTELLIGENCE ECONOMIQUE

    (Business intelligence)

    INDISPENSABLE AUX SYSTEMES DEVEILLE

    Veillecommerciale

    VeillestratgiqueVeille

    technologiqueVeille

    concurrentielle

  • 7/29/2019 Dm Hassan Badir

    12/126

    Enjeu Entreprise du Datamining

    La matrise de linformation et de la connaissance

    permet de :

    Tirer parti dun avantage concurrentiel (dcideravant le concurrent)

    Raliser des conomies dchelles grce larutilisation des mthodes

    Dployer les mthodes sur tous les domainesapplicatifs

    Dvelopper les comptences, la capacit etlautonomie de rflexion et daction de lentreprise( dcider en temps rel)

  • 7/29/2019 Dm Hassan Badir

    13/126

    Processus de datamining

    Processus (ISO 9000-1) : Transformation ajoutantde la valeur et impliquant des personnes etdautres ressources

    Lquation fondamentale :

    Donnes + Processus = Information

    Donnes Processus Information

  • 7/29/2019 Dm Hassan Badir

    14/126

    Positionnement du datamining

    Collecte

    Datawarehouse

    Interface S.I.

    Datamining

    Interface mtier

    Managementdactivit

    Actions

  • 7/29/2019 Dm Hassan Badir

    15/126

    Objet du datamining

    Un Processus permettant de : Dcrire une situation partir de donnes

    connues

    Comprendre la situation , cest dire identifierles faits et relations de causes effets en relation

    avec la situation Modliser la situation , cest dire abstraire la

    situation en ne retenant que les faits et relationspertinents pour une reprsentation de la situation

    Prdire la situation partir des donnesnouvelles en utilisant le modle

    Exploiter la connaissance acquise pour agir

  • 7/29/2019 Dm Hassan Badir

    16/126

    Les composants du processus DataminingMthodes-Techniques

    Slection par chantillonnage Arbres de dcision

    Modlisation de donnes Prvision - Prdiction Rseaux neuronaux

    Analyse linguistique Exploitation linguistique

    Analyse exploratoire desdonnes, visualisation

    Dtection dassociations

    ou de dviations Analyses factorielles Classifications Etc.

    Codification qualitative,puis datamining surdonnes qualitatives

    Donnes en language naturel

    Donnes quantitatives et qualitatives

  • 7/29/2019 Dm Hassan Badir

    17/126

    Enjeu Entreprise du Datamining

    J. Welsh

    Knowledge is the only competitiveadvantage CEO General Electric

  • 7/29/2019 Dm Hassan Badir

    18/126

    Datamining

    2. Solution Dataminingpour le management de laConnaissance ClientPoints Cls

  • 7/29/2019 Dm Hassan Badir

    19/126

    Enjeux conomiques de la ConnaissanceClient (C.K.M. )

    LEnjeu de la Connaissance fine et dtaille des

    clients est de crer, dvelopper, maintenir desrelations profitables pour lentreprise et pour sesclients au moyen de techniques de management delinformation client permettant de :

    dtecter des niches marketing dterminer des profils de clients modliser le comportement des clients dtecter des besoins et services nouveaux dtecter des potentiels conomiques de clients dtecter et expliquer les risques dinfidlit

  • 7/29/2019 Dm Hassan Badir

    20/126

    Enjeux conomiques de la ConnaissanceClient (C.K.M. ) suite

    dtecter et expliquer les risques dimpays

    dtecter et expliquer la QS perue par les clients dtecter les tendances des concurrents et des

    marchs damliorer la QS fournie aux clients

    damliorer la satisfaction des clients dtecter et expliquer la fraude ...

  • 7/29/2019 Dm Hassan Badir

    21/126

    Le Datamining Client est un Processus deManagement de lInformation Client

    Le datamining client est un processus demanagement des donnes client qui opre partirdes donnes lmentaires pour produire delinformation, de la connaissance en vue duneaction bien dtermine vis vis des clients

    Le datamining nest pas un outil informatique

  • 7/29/2019 Dm Hassan Badir

    22/126

    Exemples de Processus de Management delinformation Client

    donnes marketing

    datamining client

    score de fidlit

    connatre pour fidliser les clientsAction

    Information

    Processus

    Donnes

    lettres de rclamations

    textmining client

    thmes dinsatisfaction notoire

    connatre pour amliorer la QS clientAction

    Information

    Processus

    Donnes

  • 7/29/2019 Dm Hassan Badir

    23/126

    Exemples de Processus de Management delInformation Client

    donnes marketing

    datamining client

    score de risque client

    connatre pour se prvenir desmauvais payeursAction

    Information

    Processus

    Donnes

    donnes de facturation

    datamining client

    score de risque de fraude

    connatre pour se prvenir desfraudeursAction

    Information

    Processus

    Donnes

  • 7/29/2019 Dm Hassan Badir

    24/126

    Processus de Management de lInformation

    Client/Action Client

    Processus de Management de linformation

    Client

    ObjectifAction

    Client

    Analyser

    linformationclient

    Processus Marketing ou Support Client

  • 7/29/2019 Dm Hassan Badir

    25/126

    La Matire Premire de lEntreprise : Les

    Donnes ClientLInformation client est un Produit labor par un processus de

    transformation itratif, interactif partir de donnes clientslmentaires mise en lumire au cours dvnements :

  • 7/29/2019 Dm Hassan Badir

    26/126

    Exemple : Etude de la Fidlit des Clients

    Objectif: Identifier les clientspotentiellement infidles selon leurpotentiel conomique et de mettre enplace des actions marketing adaptes

  • 7/29/2019 Dm Hassan Badir

    27/126

    Objectif du Datamining associ

    Modliser le comportement dinfidlit des clients

    Estimer pour chaque client son risque dinfidlit

    Re-segmenter les clients au regard des risquesencourus

  • 7/29/2019 Dm Hassan Badir

    28/126

    Les donnes Client :Les donnes de la connaissance client - Les donnes de la concurrence

    Donnes provenant de diffrentes sources Donnes Marketing Donnes du service client Donnes de facturation Donnes de sondages, panels, enqutes

    Donnes de rclamations Donnes sur les concurrents

    Toutes donnes permettant de connatre lesclients un un ainsi que leur

    environnement

  • 7/29/2019 Dm Hassan Badir

    29/126

    Ide Directrice de la Connaissance

    Rsumer linformation client en deux

    composantes: Un indicateur de risque dinfidlit par client

    Un indicateur de potentiel conomique par client

    Ind

    icateur

    de

    valeur

    co

    nomique

    Indice de fidlit

    t

    f

  • 7/29/2019 Dm Hassan Badir

    30/126

    Processus de management de linformation

    Client

    Situation t

    Slectionner lesdonnes

    pertinenteset corrlatives

    de lafidlisation

    Situation t

    Modlisationdes indices defidlit et de

    valeurconomique

    Situation t

    valuationdes modles,

    choixd un modle

    Situation t

    Calculerun indice

    de fidlisationet indice de

    valeurconomique

    par client(scoring)

    Situation t

    Dterminer

    les actions enfonction desindices defidlisationet de valeurdes clients

    Situation t

    Implmenterles actions

    valuerles rsultatsPassage de la situation

    linstant t la situation linstant (t+1)

    P d t

  • 7/29/2019 Dm Hassan Badir

    31/126

    Processus de managementde linformation Client

    Six tapes cls:Etape 1Dtecter les variables dterminantesEtape 2Construire les modlesEtape 3valuer les modlesEtape 4Prdire les clients infidles selon leurvaleur conomiqueEtape 5Exploiter les modlesEtape 4valuer les rsultats des actions marketing

  • 7/29/2019 Dm Hassan Badir

    32/126

    Exemple 2 : tude de Cas Telecom

    1499 clients ayant rsili leur

    contrat

    4804 clients en cours de contrat

    Echantillon d apprentissage 1000

    clients (786 fidles; 214 infidles)

    Echantillon de contrle : 2000

    clients avec 3% d infidles

    Les donnes

  • 7/29/2019 Dm Hassan Badir

    33/126

    Exemple2

    Objectif : Etude de la Q.S client au moyen des

    lettres de rclamations

    Text mining=Datamining appliqu des donnes textuelles

  • 7/29/2019 Dm Hassan Badir

    34/126

    QS Client et Text mining

    La QS Client est un processus de management des

    clients, itratif, interactif sappuyant sur unprocessus de management des lettres derclamations des clients mettant en uvre destechniques de text mining client

    Obj tif d T t i i i

  • 7/29/2019 Dm Hassan Badir

    35/126

    Objectif du Text mining associ lAmlioration de la Q.S

    Modliser le comportement de rclamation des

    clients Dtecter les facteurs significatifs des rclamations

    Estimer pour chaque client son risque de rclamant

    Agir auprs des clients au regard des risquesencourus

    Id Di t i d lA li ti d l Q S

  • 7/29/2019 Dm Hassan Badir

    36/126

    Ide Directrice de lAmlioration de la Q.S.

    Client

    Modliser linformation rclamation client en deux

    ensembles significatifs : Un ensemble de thmes significatifs par client

    Un ensemble de mots cls significatifs par client

    thmes

    significatifs

    Mots cls significatifs

    t

  • 7/29/2019 Dm Hassan Badir

    37/126

    Les Donnes Client de la QS

    Donnes provenant de diffrentes sources Donnes Marketing Donnes du service client Donnes de facturation Donnes de sondages, panels, enqutes

    Donnes de rclamations Etc.

    Toutes donnes permettant de connatre les

    clients un un ainsi que leur environnement

    Process s de management de linformation

  • 7/29/2019 Dm Hassan Badir

    38/126

    Processus de management de linformation

    de la QS client

    Situation t

    Slectionner lesThmes

    pertinentset corrlatifs

    de laQS Client

    Situation t

    Modlisationdes Thmes etdes Mots cls

    significatifsdes

    rclamations

    Situation t

    valuationdu modle

    Situation t

    Prdire lesthmes en

    fonction desMots cls

    Situation t

    Dterminer

    les actions enfonction des

    Thmesdinsatifaction

    des clients

    Situation t

    Implmenterles actions

    valuerles rsultatsPassage de la situation

    linstant t la situation

    linstant (t+1)

    Processus de management

  • 7/29/2019 Dm Hassan Badir

    39/126

    Processus de managementde linformation de la QS Client

    Six tapes cls:Etape 1Dtecter les Thmes et les mots cls significatifs de la QSEtape 2Construire le modle de relation entre Thmes et Mots clspour la QS ClientEtape 3valuer le modle de relationEtape 4Prdire les Thmes clients selon leurs Mots cls significatifsEtape 5Exploiter le modle de QS ClientEtape 6valuer les rsultats des actions de QS

    Processus de Management de linformation

  • 7/29/2019 Dm Hassan Badir

    40/126

    Processus de Management de linformation

    Oriente Dcision

    EnjeuxDcisioninitiale

    Donnesexistantes

    Objectifs

    Conception desdonnes

    Conception destraitements

    Universde la planificationDATA PLANING

    PLAN

    Collecte desdonnes

    Contrledes donnes

    ImportSaisie desdonnes

    Gestiondes donnes Univers de la Gestion

    DATAWAREHOUSING

    DO

    Tableaux de bordRapports

    Analyse diffredes donnes

    Analyse immdiatedes donnes

    Accs auxdonnesUnivers de la Connaissance

    CHECK

    DATAMINING

    Dcision

    Plans dactions

    Actions

    ACTION

    Univers de la dcision et de laction

    DECISION - MAKING

  • 7/29/2019 Dm Hassan Badir

    41/126

    Objectif du Datamining Client: Rappel

    Customer Knowledge is theonly competitive advantage

  • 7/29/2019 Dm Hassan Badir

    42/126

    Proposition dune dfinition

    Dans le cadre dune mission donne, analyser les donnes dtaillespertinentesdont on dispose pour en dduire les actions les plusrationnelles, cest--dire dont la rentabilit sera probablement lameilleure.

    Le data mining est un processus li un

    objectif prcis de lentreprise

    Dans la pratique, les donnes rellementdisponibles seront souvent le vrai facteur limitant

    Partir du niveau de dtail le plus fin dont on disposemme si des agrgations seront ncessaires

    La critre conomique permet en dfinitive demesurer la qualit des actions. Sil nest pas

    accessible directement, des critres dgrads

    seront utilises (ex: pages vues)

    Lutilisation faite des connaissances permet

    dvaluer les risques

    La connaissance qui aura t extraite de lanalyse

    des donnes conduit des actions concrtes

  • 7/29/2019 Dm Hassan Badir

    43/126

    Pr-histoire

    1875 : rgression linaire de Francis Galton

    1896 : formule du coefficient de corrlation de Karl Pearson 1900: distribution du de Karl Pearson

    1936 : analyse discriminante de Fisher et Mahalanobis

    1941 : analyse factorielle des correspondances de Guttman

    1943 : rseaux de neurones de Mc Culloch et Pitts 1944 : rgression logistique de Joseph Berkson

    1958 : perceptron de Rosenblatt

    1962 : analyse des correspondances de J.-P. Benzcri

    1964 : arbre de dcision AID de J.P.Sonquist et J.-A.Morgan

    1965 : mthode des centres mobiles de E. W. Forgy 1967 : mthode des k-means de Mac Queen

    1972 : modle linaire gnralis de Nelder et Wedderburn

  • 7/29/2019 Dm Hassan Badir

    44/126

    Histoire

    1975 : algorithmes gntiques de Holland

    1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS

    1983 : rgression PLS de Herman et Svante Wold

    1984 : arbre CART de Breiman, Friedman, Olshen, Stone

    1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives)

    vers1990 : apparition du concept de data mining

    1993 : arbre C4.5 de J. Ross Quinlan

    1996 : bagging (Breiman) et boosting (Freund-Shapire)

    1998 : support vector machines de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus

    2001 : forts alatoires de L. Breiman

  • 7/29/2019 Dm Hassan Badir

    45/126

    Quest-ce que le data mining

    Processus inductif, itratif et interactif de

    dcouverte dans les BD larges de modles dedonnes valides, nouveaux, utiles etcomprhensibles. Itratif: ncessite plusieurs passes

    Interactif: lutilisateur est dans la boucle du processus Valides : valables dans le futur

    Nouveaux : non prvisibles

    Utiles: permettent lutilisateur de prendre des

    dcisions Comprhensibles : prsentation simple

    Schma dinfrence:

  • 7/29/2019 Dm Hassan Badir

    46/126

    Abduction Dduction

    Induction

    La clio a 4 roues, La Peugeot106 a 4 roues, La BMW M3 a 4roues, La Mercedes 190 a 4 roues==> Toutes les voitures ont 4 roues

    Toutes les voitures ont 4 roues

    La Peugeot 206 a 4 roues==> La Peugeot 206 est une voiture

    Toutes les voitures ont 4 roues

    La Peugeot 206 est une voiture==> La Peugeot 206 a 4 roues

    Schmasdinfrence

    Schma d infrence:Notion dAbduction, Dduction et Induction

    Cest le type de raisonnement le plus utilis et le

    plus familier. Son atout majeur est quil ne laisse

    pas de place au doute

    Il faut cependant tre trs vigilant avec ce type de

    raisonnement car il peut produire des rsultats aberrants ou

    triviaux :

    Toutes les voitures ont un moteur, lAirbus 320 a un

    moteurlAirbus 320 est une voiture.

    Raisonnement qui conclut partir de prmisses et

    dhypothses la vrit dune proposition en usant des

    rgles dinfrence

    Cette technique est notamment utilise dans

    les outils daide au diagnostic mdical pour

    dcouvrir la maladie la plus probable depuisune liste de symptmes

    Gnralisation dune

    observation ou dunraisonnement tablis partir

    de cas singuliers.

    Utilise en Data mining (tirer

    une conclusion partir d une

    srie de faits, pas sre

    100%)

  • 7/29/2019 Dm Hassan Badir

    47/126

    Motivations (1)

    Explosion des donnes Masse importante de donnes (millions de milliards

    dinstances) : elle double tous les 20 mois.

    BD trs larges - Very Large Databases (VLDB)

    Donnes multi-dimensionnelles (milliers dattributs)

    BD denses Inexploitables par les mthodes danalyse classiques

    Collecte de masses importantes de donnes(Gbytes/heure)

    Donnes satellitaires, gnomiques (micro-arrays, ),simulations scientifiques, etc.

    Besoin de traitement en temps rel de ces donnes

  • 7/29/2019 Dm Hassan Badir

    48/126

    Motivations (2)

    Amliorer la productivit Forte pression due la concurrence du march

    Brivet du cycle de vie des produits

    Besoin de prendre des dcisions stratgiques efficaces

    Exploiter le vcu (donnes historiques) pour prdire le

    futur et anticiper le march individualisation des consommateurs (d-massification).

    Croissance en puissance/cot des machinescapables

    de supporter de gros volumes de donnes dexcuter le processus intensif dexploration

    htrognit des supports de stockage

  • 7/29/2019 Dm Hassan Badir

    49/126

    Motivations (3)

    Masse importante de donnes supports htrognes

    Le processus de dcouverte de

  • 7/29/2019 Dm Hassan Badir

    50/126

    Le processus de dcouverte deconnaissances

    Data mining : coeur de KDD (Knowledge Data Discovery).

    Prparationdes donnes

    Sourcede

    donnes

    Data

    WarehouseCollecte

    Nettoyage

    Intgration

    Donnesapprentissage

    Datamining

    Modles,Patterns

    Vrification etEvaluation

  • 7/29/2019 Dm Hassan Badir

    51/126

    Dmarche mthodologique (1)

    Comprendre lapplication Connaissances a priori, objectifs, etc.

    Slectionner un chantillon de donnes Choisir une mthode dchantillonnage

    Nettoyage et transformation des donnes Supprimer le bruit : donnes superflues, marginales,

    donnes manquantes, etc.

    Effectuer une slection dattributs, rduire la dimension duproblme, etc.

    Appliquer les techniques de fouille de donnes Choisir le bon algorithme

  • 7/29/2019 Dm Hassan Badir

    52/126

    Dmarche mthodologique (2)

    Visualiser, valuer et interprter les modles

    dcouverts Analyser la connaissance (intrt)

    Vrifier sa validit (sur le reste de la base de donnes)

    Ritrer le processus si ncessaire

    Grer la connaissance dcouverte La mettre la disposition des dcideurs

    Lchanger avec dautres applications (systme expert,)

    etc.

  • 7/29/2019 Dm Hassan Badir

    53/126

    Data Mining et aide la dcision

    Dcideur(s)

    Analyste(s) de donnes

    Administrateur deBases de donnes

    Prsentation desconnaissancesTechniques de visualisation

    DataMiningDcouverte deconnaissances

    Exploration de donnes(Statistique, Requtes, )

    Data Warehouses (OLAP, )

    Sources de donnes(Papier, Fichiers, Fournisseurs dinformation, SGBD,

    )

    Potentiel de support

    de dcision

    Prisede dcisions

    Utilisateur(s)

  • 7/29/2019 Dm Hassan Badir

    54/126

    Objectifs

    Dvelopper des techniques et systmes efficaces etextensibles pour lexploration de : BD larges et multi-dimensionnelles

    Donnes distribues

    Faciliter lutilisation des systmes de DM Limiter lintervention de lutilisateur

    Reprsentation simple de la connaissance

    Visualisation sous forme exploitable

    C i li

  • 7/29/2019 Dm Hassan Badir

    55/126

    Communauts impliques

    Intelligence artificielle et apprentissage

    Bases de donnes

    Analyse de donnes (statistiques)

    Visualisation

    Recherche oprationnelle et optimisation Informatique parallle et distribue

    Etc.

    D i d li ti

  • 7/29/2019 Dm Hassan Badir

    56/126

    Domaines dapplication

    Prise de dcision

    base sur denouvellesconnaissances

    Ex., impact sur le

    marketing Le rle et

    limportance du KDDet DM est de plus en

    plus important Mais le DM nest pas

    seulement dans lemarketing...

    D i d li ti

  • 7/29/2019 Dm Hassan Badir

    57/126

    Domaines dapplication

    Marketing direct : population cibler (ge, sexe,

    profession, habitation, rgion, ) pour unpublipostage.

    Gestion et analyse des marchs : Ex. Grandedistribution : profils des consommateurs, modle d

    achat, effet des priodes de solde ou de publicit, panier de la mnagre

    Dtection de fraudes : Tlcommunications, ...

    Gestion de stocks : quand commander un produit,

    quelle quantit demander, Analyse financire : maximiser l investissement de

    portefeuilles d actions.

    D i d li ti

  • 7/29/2019 Dm Hassan Badir

    58/126

    Domaines dapplication

    Gestion et analyse de risque : Assurances, Banques

    (crdit accord ou non) Compagnies ariennes

    Bioinformatique et Gnome : ADN mining,

    Mdecine et pharmacie : Diagnostic : dcouvrir daprs les symptmes du

    patient sa maladie

    Choix du mdicament le plus appropri pour gurir unemaladie donn

    Web mining, text mining: pour analyser les lettresde rclamation.

    D i d li ti t %

  • 7/29/2019 Dm Hassan Badir

    59/126

    Domaines dapplication et %

    13% : La banque

    9% : Les tlcommunications

    9% : Le e-commerce

    8% : La dtection des fraudes

    8% : Les tudes scientifiques

    7% : Le marketing direct

    6% : Lassurance

    6% : La distribution5% : La biologie

    5% : Lindustrie pharmaceutique

    E l 1 M k ti

  • 7/29/2019 Dm Hassan Badir

    60/126

    Exemple 1 - Marketing

    Vous tes gestionnaire marketing dun

    oprateur de de tlcommunicationsmobiles : Les clients reoivent un tlphone gratuit

    (valeur 150) avec un contrat dun an ; vous

    payer une commission de vente de 250 parcontrat

    Problme : Taux de renouvellement ( la findu contrat) est de 25%

    Donner un nouveau tlphone toutepersonne ayant expirer son contrat cotecher.

    Faire revenir un client aprs avoir quitterest difficile et coteux.

    E l 1 M k ti

  • 7/29/2019 Dm Hassan Badir

    61/126

    Exemple 1 - Marketing

    Trois mois avant contrat

    lexpiration du contrat, prdire lesles clients qui vont quitter:

    Si vous voulez les garder, offrir unnouveau tlphone.

    Yippee!Je reste !

    E l 2 A

  • 7/29/2019 Dm Hassan Badir

    62/126

    Exemple 2 - Assurances

    Vous tes un agent dassurance

    et vous devez dfinir unpaiement mensuel adapt unjeune de 18 ans qui a achetune Ferrari.

    Quest ce quil faut faire ?

    Oh,oui!Jaime maFerrari!

    Exemple 2 Assurances

  • 7/29/2019 Dm Hassan Badir

    63/126

    Exemple 2 - Assurances

    Analyser les donnes de tous les

    clients de la compagnie. La probabilit davoir un accident est

    base sur ? Sexe du client (M/F) et lge

    Modle de la voiture, ge, adresse, .... etc.

    Si la probabilit davoir un accidentest suprieure la moyenne,

    initialiser la mensualit suivant lesrisques.

    Exemple 3: Bancaire

  • 7/29/2019 Dm Hassan Badir

    64/126

    Exemple 3: Bancaire

    compagnies bancaires

    le scoring, pour mieux cibler les propositions de prts etviter les surendettements (et donc les mauvais payeurs).

    Vous tes ltranger et quelquun a vol votre carte decrdit ou votre mobile :

    Utiliser les donnes historiques pour construire un modlede comportement frauduleux et utiliser le data miningpour identifier des instances similaires.

    Exemple4 Tlcom

  • 7/29/2019 Dm Hassan Badir

    65/126

    Exemple4 Tlcom

    compagnies tlphoniques

    prdiction de lattrition (usure, churnen anglais), cest--dire le changement doprateur.

    Analyser les patterns qui drivent du comportementattendu (destinataire, dure, etc.)

    Exemple 5 Web mining et e commerce

  • 7/29/2019 Dm Hassan Badir

    66/126

    Exemple 5 - Web mining et e-commerce

    50% des clients dun constructeur de machine achtent ses

    machines travers le web. Mais seulement 0,5% des visiteursdu site deviennent clients. Lide est de stocker lessquences de click des visiteurs et danalyser lescaractristiques des acheteurs pour adapter le contenu dusite.

    Les logs des accs Web sont analyss pour Dcouvrir les prfrences des utilisateurs

    Amliorer lorganisation du site Web

    De manire similaire Lanalyse de tous les types dinformations sur les logs

    Adaptation de linterface utilisateur/service

    bonneexprience de surfing!

    Paramtres dun processus KDD

  • 7/29/2019 Dm Hassan Badir

    67/126

    Paramtres d un processus KDD

    Format, Type ?

    Donnes

    dapprentissageData

    Mining

    Technique?

    ModlesPaterns

    Tche?

    Type de reprsentation ?

    Les donnes

  • 7/29/2019 Dm Hassan Badir

    68/126

    Les donnes

    Valeurs des champs des enregistrements des tables

    de lentrept (base de donnes) Types :

    Donnes discrtes : donnes binaires (sexe, ), donnesnumratives (couleur, ), numratives ordonnes

    (rponses 1:trs satisfait, 2:satisfait, ). Donnes continues : donnes entires ou relles (ge,salaire, )

    Dates

    Donnes textuelles

    Pages/liens web, Multimdia,

    Les mthodes

  • 7/29/2019 Dm Hassan Badir

    69/126

    Les mthodes

    Nous ne prsentons que certaines mthodes qui

    viennent complter les outils classiques que sont :les requtes SQL, les requtes analyse croise, lesoutils de visualisation, la statistique descriptive etl'analyse des donnes. Les mthodes choisies qui

    seront dtailles dans les sections suivantes sont : un algorithme pour la segmentation, les rgles d'association, (Knime, Clementine, Tanagra)

    les plus proches voisins (raisonnement partir de cas),

    les arbres de dcision, (Knime, Tanagra, Weka)

    les rseaux de neurones,

    les algorithmes gntiques.

    Il n'existe pas de mthode suprieure toutes les autres

    ( )

  • 7/29/2019 Dm Hassan Badir

    70/126

    f(Donnes, Mthodes) Par consquent, tout jeu de donnes et tout

    problme correspond une ou plusieurs mthodes.Le choix se fera en fonction de la tche rsoudre,

    de la nature et de la disponibilit des donnes,

    des connaissances et des comptences disponibles, de la finalit du modle construit. Pour cela, les critres

    suivants sont importants : complexit de la construction dumodle, complexit de son utilisation, ses performances, saprennit, et, plus gnralement,

    de l'environnement de l'entreprise.

    Tches du Data Mining

  • 7/29/2019 Dm Hassan Badir

    71/126

    Tches du Data Mining

    Classification

    Clustering (Segmentation)

    Recherche dassociations

    Recherche de squences

    Dtection de dviation

    La classification (clustering)

    Lestimation

    La prdiction

    Le groupement par similitudes

    Analyse des clusters

    Les tches du DM

    La description

    Classification

  • 7/29/2019 Dm Hassan Badir

    72/126

    Classification

    Elle permet de prdire si une instance de donne

    est membre dun groupe ou dune classeprdfinie.

    Classes Groupes dinstances avec des profils particuliers

    Apprentissage supervis : classes connues lavance Applications : marketing direct (profils des consommateurs),

    grande distribution (classement des clients), mdecine(malades/non malades), etc.

    Exemple : les acheteurs de voitures de sport sont de jeunes

    citadins ayant un revenu important

    Encore Classification

  • 7/29/2019 Dm Hassan Badir

    73/126

    Encore Classification

    Consiste examiner les caractristiques d'un objet

    et lui attribuer une classe, la classe est un champparticulier valeurs discrtes. Des exemples detche de classification sont : attribuer ou non un prt un client,

    tablir un diagnostic, accepter ou refuser un retrait dans un distributeur,

    attribuer un sujet principal un article de presse, ...

    Estimation

  • 7/29/2019 Dm Hassan Badir

    74/126

    Estimation

    consiste estimer la valeur d'un champ partir des

    caractristiques d'un objet. Le champ estimer estun champ valeurs continues. L'estimation peuttre utilise dans un but de classification. Il suffitd'attribuer une classe particulire pour un

    intervalle de valeurs du champ estim. Desexemples de tche d'estimation sont : noter un candidat un prt ; cette estimation peut tre

    utilise pour attribuer un prt (classification), par exemple,en fixant un seuil d'attribution,

    estimer les revenus d'un client.

    Prdiction

  • 7/29/2019 Dm Hassan Badir

    75/126

    Prdiction

    consiste estimer une valeur future. En gnral,

    les valeurs connues sont historises. On cherche prdire la valeur future d'un champ. Cette tcheest proche des prcdentes. Les mthodes declassification et d'estimation peuvent tre utilises

    en prdiction. Des exemples de tche de prdictionsont : prdire les valeurs futures d'actions,

    prdire au vu de leurs actions passes les dparts de clients.

    Clustering (Segmentation)

  • 7/29/2019 Dm Hassan Badir

    76/126

    Clustering (Segmentation)

    Partitionnement logique de la base de donnes en

    clusters Clusters : groupes dinstances ayant les mmes

    caractristiques

    Apprentissage non supervis (classes inconnues)

    Pb : interprtation des clusters identifis Applications : Economie (segmentation de marchs),

    mdecine (localisation de tumeurs dans le cerveau),etc.

    Rgles dassociation

  • 7/29/2019 Dm Hassan Badir

    77/126

    Rgles d association

    Corrlations (ou relations) entre attributs (mthode

    non supervise) Applications : grande distribution, gestion des

    stocks, web (pages visites), etc.

    Exemple

    BD commerciale : panier de la mnagre Articles figurant dans le mme ticket de caisse

    Ex : achat de riz + boisson==> achat de poisson

    Le client qui achte de la peinture achte un pinceau

    Le client qui achte un tlviseur achte un magntoscopesous 5 ans.

    Les tches du DM: LEstimation

  • 7/29/2019 Dm Hassan Badir

    78/126

    Les tches du DM: L Estimation

    La classification se rfre des vnements

    discrets Lestimation se rfre des valeurs continues.

    Estimer une valeur continue qui dcrit un objetrevient classer cet objet dans un ensemble

    partitionn en un nombre infini de classes. Exemple :

    la dure de vie d un client

    la probabilit de rponse un mailing

    Les tches du DM: La prdiction

  • 7/29/2019 Dm Hassan Badir

    79/126

    Les tches du DM: La prdiction

    La prdiction est assimilable au classement ou

    lestimation mais les objets sont classs en fonctiond un comportement futur prdit

    On ne peut vrifier la prcision de la classificationou de lestimation quaprs coup

    Exemple Prdiction des clients qui vont disparatre dans les six mois.

    Prdiction dun volume de vente dun produit dans les moisqui suivent.

    Les tches du DM :L t i ilit d

  • 7/29/2019 Dm Hassan Badir

    80/126

    Le groupement par similitudes

    Il sagit de regrouper des objets qui vont

    naturellement ensemble pour dfinir des rglesd association

    Exemples : Dans un supermarch, dterminer les choses qui se

    retrouvent dans un mme caddie Dans une base de donnes de cinphiles, trouver les

    associations entre les films

    Les tches du DM :L l d l t

  • 7/29/2019 Dm Hassan Badir

    81/126

    Lanalyse de clusters

    Lanalyse de clusters permet de dcouper

    postriori un population htrogne en classeshomognes

    La signification des clusters forms par la mthodeest dcouvrir par ailleurs.

    Exemples : En fonction de critres d achats dune voiture, faire une

    segmentation des acheteurs

    En fonction des notes obtenues dans les diffrentes matires,faire une segmentation des tudiants

    Les tches du DM :L d i ti

  • 7/29/2019 Dm Hassan Badir

    82/126

    La description

    Il sagit de dcrire les donnes pour essayer de

    dcouvrir et de comprendre le processus qui est lorigine de ces donnes

    Il sagit souvent du dmarrage dune tude o on apeu de connaissances sur le phnomne tudi.

    Cette description permet denchaner sur une ouplusieurs des tches prcdentes.

  • 7/29/2019 Dm Hassan Badir

    83/126

    Data mininget CRM

    Rappel : Gestion de la relation client

  • 7/29/2019 Dm Hassan Badir

    84/126

    appe Gest o de a e at o c e t

    La richesse des entreprises : leurs clients

    Objectifs des entreprises : augmenter la rentabilit et la fidlit de leurs clients

    en matrisant les risques

    en utilisant les bons canaux au bon moment pour vendre le

    bon produit Un des moyens dy parvenir :

    la Gestion de la Relation Client (GRC)

    synonyme : Customer Relationship Management (CRM)

    2 lments : CRM analytique, CRM oprationnel

    Une matire 1re prcieuse : les donnes sur lesclients

    CRM analytique et oprationnel

  • 7/29/2019 Dm Hassan Badir

    85/126

    y q p

    gestion des canauxcollecte desinformations

    clients

    gestion descampagnes

    analyse desinformations

    clients

    CRM ANALYTIQUERM OPERATIONNEL

    Le CRM oprationnel

  • 7/29/2019 Dm Hassan Badir

    86/126

    p

    Objectif

    mise en uvre optimale des stratgies identifiesgrce au CRM analytique

    Moyens gestion des diffrents canaux

    forces commerciales, centres dappels tlphoniques,serveurs vocaux, Minitel, centres dappel web, bornesinteractives, tlphonie mobile, TV interactive

    gestion des campagnes marketing

    Composants outils interfacs avec les applications de back-office,

    les progiciels de gestion intgre (ERP), les outils deworkflow, de gestion des agendas et des alertescommerciales

    Le CRM analytique

  • 7/29/2019 Dm Hassan Badir

    87/126

    y q

    Objectif

    fournir une vision complte et unifie du client danslentreprise et mieux comprendre son profil et ses besoins

    Moyens extraction, stockage, analyse et restitution des informations

    pertinentes

    Composants data warehouse

    data mart

    analyse multidimensionnelle (OLAP)

    data mining

    outils de reporting

    Ce que lon veut savoir

  • 7/29/2019 Dm Hassan Badir

    88/126

    q

    On ne veut plus seulement savoir :

    Combien de clients ont achet tel produit pendant tellepriode ?

    Mais :

    Quel est leur profil ? Quels autres produits les intresseront ?

    Quand seront-ils intresss ?

    Data mining statistiques descriptives

  • 7/29/2019 Dm Hassan Badir

    89/126

    g q p

    Les profils de clientle dcouvrir sont en gnral des

    profils complexes : pas seulement des oppositions jeunes/seniors , citadins/ruraux que lon pourraitdeviner en ttonnant par des statistiques descriptives,mais des combinaisons plus complexes qui ne pourraientpas tre dcouvertes par hasard.

    Le data mining fait passer danalyses confirmatoires

    des analyses exploratoires.

    Utilit du data mining

  • 7/29/2019 Dm Hassan Badir

    90/126

    g

    Mieux connatre le client

    pour mieux le servir

    pour augmenter sa satisfaction

    pour augmenter sa fidlit

    (+ coteux dacqurir un client que le conserver)

    La connaissance du client est encore plus utile dansle secteur tertiaire : les produits se ressemblent entre tablissements

    le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font

    la diffrence

    Applications du data mining au CRM

  • 7/29/2019 Dm Hassan Badir

    91/126

    pp g

    tudes dapptence dans les socits commerciales

    pour concentrer les mailings et le phoning sur les clients lesplus susceptibles de rpondre favorablement

    Prdiction de lattrition dans la tlphonie mobile attrition = dpart dun client pour un concurrent

    Analyse du ticket de caisse dans les grandessurfaces pour dterminer les produits souvent achets

    simultanment, et agencer les rayons et organiser lespromotions en consquence

    Lapptence exprime le dsir dusage ou dachat ressenti par lindividu pour un produit ou une

    marque. Elle peut tre notamment mesure par des questions relatives aux intentions dachats. Il

    est galement possible de dfinir un score dapptence en appliquant une mthode de scoring

    un fichier qualifi. Ce score dapptence traduit une probabilit dachat plus ou moins forte.

    Marketing one-to-one

  • 7/29/2019 Dm Hassan Badir

    92/126

    g

    Marketing traditionnel Marketing 1:1

    Client anonyme Client individualis

    Produit standard Produit et service personnaliss

    Production en srie Production sur mesure

    Publicit large diffusion Message individuel

    Communication unilatrale Communication interactive

    Ralisation dune vente, fort taux de

    souscription

    Fidlisation du client, faible taux dattrition

    Part de march Part de client

    Large cible Niche rentable

    Segmentation mtier Segmentation statistique

    Canaux de distribution traditionnels,

    dconnects

    Nouveaux canaux (plates-formes tlphoniques,

    Internet, mobiles), interconnects

    Marketing orient produit Marketing orient client

    Conclusion

  • 7/29/2019 Dm Hassan Badir

    93/126

    12.4%Je nai pas tropcompris 10.6%

    Jtais absent

    55%Jattends la suitepour comprendre

    22%Jai compris etjattends la suitepour confirmer

  • 7/29/2019 Dm Hassan Badir

    94/126

    www.itech4you.com

    ENSA

    Lanalyse des paniers dela mnagre ou(market basket analysis)Dcouverte de rglesdassociation

    Agenda

  • 7/29/2019 Dm Hassan Badir

    95/126

    g

    Dfinitions et Concepts

    Motifs Frquents et Algorithme Apriori

    Illustration

    Exercice

    Atelier 2 Generation des rgles dassociation

    Analyse du panier de la mnagre APM

  • 7/29/2019 Dm Hassan Badir

    96/126

    Appele galement recherche d'associations, l'analyse du panier de lamnagre (APM) est un processus de dcouverte de connaissances non

    dirige. Cette technique permet, comme l'indique son nom, d'tudier quelsarticles ont tendance tre achets ensembles et lesquels seront le mieuxadapts pour mettre en uvre des techniques commerciales. Bien qu'ellesoit issue du secteur de la distribution, on peut nanmoins appliquer cettetechnique ds lors que plusieurs actions sont effectues par un mmeindividu. Le systme gnre des rgles d'association de forme "Si action1 ou

    condition alors action2". Elles peuvent se situer dans le temps : "Si action1ou condition l'instant t1 alors action2 l'instant t2". Enfin elles sontassorties d'une mtrique de confiance. Exemples de rgles:

    Si achat de riz et de coca, alors achat de poisson (84%)

    Si maladie X et traitement Y alors gurison (97%)

    Si maladie X et traitement Y alors gurison dans Z annes (97%)

    Si achat de tlviseur alors achat de magntoscope dans les 5 ans (45%) Si condition1 et condition2 alors fraudeur (62%)

    Si prsence et travail alors russite l'examen (99,9%)

    Illustration

  • 7/29/2019 Dm Hassan Badir

    97/126

    Exemple

    Un complexe cinmatographique a dcid de fidliser sonpublic en lanant la carte d'abonnement au cinma dit 'illimit'.

    Les films vus par chaque cinphile sont enregistrs dans une

    base de donnes a chaque fois que le client se prsente au

    guichet. Elle est exploite par la suite pour comprendre les

    attitudes de consommation du cinma, les types de filmsles plus prises par le public, les heures auxquelles les gens

    prfrent venir voir un film, etc.

    Illustration

  • 7/29/2019 Dm Hassan Badir

    98/126

    La table D est un extrait (fictif) et donne pour chaque

    cinphile identifi par un numro tid, l'ensemble des filmsqu'il a vus durant le mois courant. Les films concerns sontdonns dans la table T. Par exemple la ligne d'identificateurtid=1 de D concerne un client ayant vu dans le mois les deuxfilms suivants : Harry Potter et Star Wars II .

    Reprsentation d'une base transactionnelle

  • 7/29/2019 Dm Hassan Badir

    99/126

    Une base de donnes transactionnelle peut tre

    reprsente sous forme horizontale, verticale ouboolenne.

    Dfinitions

  • 7/29/2019 Dm Hassan Badir

    100/126

    Frquence:

    La frquence d'un itemsetX, note freq(X), est le nombre detransactions de D contenant X :

    Exemple Dans l'exemple prcdent, on afreq(ab)= 2, vu que l'itemset ab

    apparat dans les transactions 1 et 5 deD.

    Support: Le support d'un itemsetX, note supp(X) est la proportion de

    transactions de D contenant X :

    Le support prend sa valeur dans l'intervalle [0,1].

    Exemple On a supp(ab)= 0.4(= 40%) vu que l'itemsetab apparat dans deux

    transactions parmi 5 de D.

    Dfinitions

  • 7/29/2019 Dm Hassan Badir

    101/126

    Itemset frequent

    Etant donne un seuil , appel support minimum, un itemsetX est dit frquent (relativement a ) dans une base detransactions D, si son support dpasse un seuil fix a prioriappel support minimum et note .

    X est frquent ssi supp(X)

    Exemple Dans l'exemple prcdent, pour un support de = 40%,

    l'itemsetcdde support gal a 3/5 = 60% est frquent.

    ItemSet On appelle itemset tout sous-ensemble d'items de I.

    Un itemset constitue de k items sera appel un k-itemset. Poursimplfier, on crira un itemset sans les accolades et sans lesvirgules sparant les lments de l'ensemble.

    Litemset {a, b, c} est un 3-itemset not abc.

    Proprit

  • 7/29/2019 Dm Hassan Badir

    102/126

    Proprit d'antimonotonicit:

    Tout sous-ensemble d'un itemset frquent est un itemsetfrquent.

    Treillis

  • 7/29/2019 Dm Hassan Badir

    103/126

    Un ensemble ordonne(T, ) est un treillis sitoute paire dlmentsde T possde uneborne inferieure et uneborne suprieure. Ondsignera par la suitela borne inferieure dela paire (x,y) par (x ^ y)et la borne suprieurepar (x V y).

    suite

  • 7/29/2019 Dm Hassan Badir

    104/126

    1 2 3 4 5

    12 13 14 15 23 24 25 34 35 45

    123 124 125 134 135 145 234 235 245 345

    1234 1235 1245 1345 2345

    12345Espace de recherche

    Algorithme Apriori

  • 7/29/2019 Dm Hassan Badir

    105/126

    Le premier algorithme dextraction de rgles dassociation

    dans les bases de donnes transactionnelles. Le problme consiste gnrer toutes les rgles

    dassociation solides liant les itemsets frquents entre eux.

    Apriori se base essentiellement sur la proprit

    d'antimonotonicit existant entre les itemsets. En effet, cetteproprit est utilise a chaque itration de l'algorithmeApriori afin de diminuer le nombre d'itemsets candidats considrer. Afin d'optimiser la gnration d'itemsetscandidats et le calcul de leurs supports, on suppose dans

    Apriori que les itemsets sont ordonns par ordrelexicographiqueAgrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules . In : Proc.

    20th Int. Conf. Very Large Data Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) etZaniolo (Carlo). pp. 487-499. Morgan Kaufmann, 1994.

    Extraction de motifs frquents

  • 7/29/2019 Dm Hassan Badir

    106/126

    Lalgorithme utilise une approche itrative par niveaux pour

    gnrer les itemsets frquents.

    Pour cela, le treillis des itemsets est explore en largeurd'abord. Apriori effectue chaque itration k, un passagedans la base de transactions afin de calculer le support dechaque k-itemset.

    l'ensemble des k-itemsets candidats (i.e. dont on ne connatpas encore le support dans D) sera dnot parCk etlensemble des k-itemsets frquents de taille k parFk.

    Extraction de motifs frquentsAlgorithme Apriori

  • 7/29/2019 Dm Hassan Badir

    107/126

    Algorithme Apriori

    Agrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules. In : Proc. 20th Int. Conf. Very LargeData Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) et Zaniolo (Carlo). pp. 487{499. { Morgan Kaufmann,

    1994.

    Algorithme Apriori

  • 7/29/2019 Dm Hassan Badir

    108/126

    Illustrations de Apriori

  • 7/29/2019 Dm Hassan Badir

    109/126

    L'exemple ci-dessous montre le processus d'extraction des itemsetsfrquents sur la base de transactions D pour un support = 0.4correspondant 2 transactions. A la premire itration de l'algorithme,chaque item de T est un 1-itemset de C1. Un premier parcours de Dpermet de trouver le support de chaque 1-itemset. Tous les 1-itemsetsfrquents, i.e. de support suprieur ou gal 0.4 seront gards dans F1.Afin de dcouvrir les 2-itemsets frquents, Apriori effectue dans laseconde itration une jointure de F1 et F1 pour trouver l'ensemble C2des candidats de taille 2. Seuls les 2-candidats n'ayant pas de sous-ensembles peu frquents sont gards. Un second parcours de D est alorseffectu pour dterminer le support de chacun des 2-itemsets candidats,seuls les 2-itemsets frquents sont gards dans F2. Ainsi l'itemset adn'ayant pas de support suffisant est supprim. Les 3-itemsets sontobtenus en combinant les itemsets de F2 deux deux, i.e. par jointureF2 et F2. Seuls les 2-itemsets ayant le mme prfixe de taille 1 sontgnrs.

    Par exemple les 2-itemsets ab et ac forment le candidat abc. On s'assuregalement que les candidats gnrs n'ont pas de sous-ensembles peufrquents. Un troisime parcours de D est alors effectue pourdterminer les 3-itemsets frquents. De nouveau, on effectue la

    jointure de F3 et F3 pour trouver l'ensemble C4 des candidats de taille' ' Illustrations de Apriori

  • 7/29/2019 Dm Hassan Badir

    110/126

    K = 1

    Illustrations de Apriori

  • 7/29/2019 Dm Hassan Badir

    111/126

    K = 2

    K = 3

    < 0,4

    < 0,4

    Exercice

  • 7/29/2019 Dm Hassan Badir

    112/126

    D

    tid Transaction

    1 BM LO MO ND

    2 BM LO MO ND

    3 BM LO MO ND TE

    4 BM ND TE

    5 BM LO MO ND TE

    6 CP LO ND

    7 ND

    8 LO ND

    9 LO ND

    10 BM CP LO MO ND

    La figure reprsente le rsultat dunsondage fictif ralis auprs detouristes trangers en visite Paris.Les objets correspondent destouristes anonymes (Ti) et lesattributs reprsentent les lieuxvisits : les bateaux mouches (BM),

    le centre Pompidou (CP), le musedu Louvre (LO), le muse dOrsay(MO), la cathdrale Notre Dame(ND) et la tour Eiffel (TE).

    1- Reprsenter les donnes sous forme horizontale, verticale etboolenne.

    2- Donner les motifs frquents avec un support de = 40%.

  • 7/29/2019 Dm Hassan Badir

    113/126

    Rgles dassociation

    Encore les motifs frquents

  • 7/29/2019 Dm Hassan Badir

    114/126

    les motifs frquents apportent une information simple, mais

    trs incomplte. En particulier, si AB est un items frquent,l'expert n'a aucune informationsur d'ventuels lienslogiques entre A et B. Les occurrences de A sont-ellessouvent associes aux occurrences de B ? L'inverse ?

    Imaginons que AB et B soient vrais dans 60%des cas, maisque A le soitdans 80%. De toute vidence, B semble avoirune influence sur A dans la mesureou ds que B est vrai, Al'est aussi. Par contre l'inverse est plutt incertain. En

    outre, on ne sait rien de ce qu'il se passe lorsque A et B sont

    faux...

    Rgles dassociation

  • 7/29/2019 Dm Hassan Badir

    115/126

    Des exemples de rgles d'association dans le

    monde des affaires ou de la recherche sont: tudier la proportion d'abonns d'une compagnie de

    tlphonie mobile qui rpondent positivement une offred'upgrade de leur abonnement;

    examiner la proportion d'enfants qui sont bons lecteurs etdont les parents lisent beaucoup;

    prdire la dgradation de la qualit de rception d'un rseaude tlcommunication ;

    trouver les articles dans un supermarch qui sont achets

    ensemble, et ceux qui ne sont l'inverse jamais achetsensemble;

    dterminer la proportion de cas pour lesquels un mdicamentpeut avoir un effet indsirable.

    Rgles dassociation

  • 7/29/2019 Dm Hassan Badir

    116/126

    Les rgles d'association prennent la forme si

    antcdent, alors consquence associes avec unemesure du supportet du seuil de confiancede largle

    Par exemple, un supermarch peut constater quesur mille clients qui font les courses le vendredisoir, deux cents ont achet des PC et parmi ceux-ci, cinquante ont achet des imprimantes. La rgle

    d'association serait si on achte des PC, alors onachte des imprimantes avec un support de50/1000 = 5 % et un seuil de confiance de 50/200= 25 %.

    Dfinitions

  • 7/29/2019 Dm Hassan Badir

    117/126

    Rgle d'association

    Soit X, un itemset et A un sous-ensemble de X. Une rgled'association est une rgle de la forme AX-A, exprimant le faitque les items de A tendent apparatre avec ceux de X-A.

    A s'appelle l'antcdent de la rgle et X-A not C le consquent dela rgle.

    Exemple La rgle d'association a b exprime le fait que les cinphiles ayant

    vu tendent aussi voir .

    Dfinitions

  • 7/29/2019 Dm Hassan Badir

    118/126

    Confiance

    La confiance d'une rgle d'association A C, note conf(A C)reprsente la proportion de transactions couvrant A qui couvrentaussi C.

    On peut crire aussi :

    Conf(AC) = |t(A C)|/|t(A)|

    Remarque : 0 conf(AC) 1.

    Dfinitions

  • 7/29/2019 Dm Hassan Badir

    119/126

    Rgle d'association solide

    Une rgle d'association A C est dite solidesi tant donn unsupport minimum, l'itemsetA C estfrquentet si sa confiancedpasse un seuil donn, fix a priori, appel le seuil de confianceminimumnot .

    A C est solide ssi supp(A C) et conf(AC)

    Exemple Si on prend = 60% et = 40%, la rgle d'association c d est

    considre comme une rgle solide car sa confiance, gale 75%,

    dpasse le seuil de confiance minimum

    = 60% et son support de60% dpasse le support minimum de 40%.

    Gnration des rgles dassociation

  • 7/29/2019 Dm Hassan Badir

    120/126

    Pour gnrer les rgles d'association, on considre

    l'ensemble F des itemsets frquents trouvs en phaseprcdente. Pour chaque itemset frquent l, onconsidre tous ses sous ensembles (tous frquentsd'aprs la proprit d'antimonotonicit). A partir deces sous ensembles frquents, on gnre toutes les

    rgles solides de la forme gnrale suivante : (l - C) C

    Remarque:

    La gnration de rgles d'association est beaucoup moinscoteuse que la gnration des itemsets frquents, car il n'estplus ncessaire de faire des parcours coteux de la base detransactions.

    Rgles dassociation

  • 7/29/2019 Dm Hassan Badir

    121/126

    LARECHERCHEDESREGLESDASSOCIATIONSLa recherche de rgles d'association dans un grandensemble de donnes est un processus en deux tapes :

    1. Trouver tous les ensembles d'articles frquents : en fait tousles ensembles avec une frquence d'articles suprieure lamoyenne.

    2. partir des ensembles d'articles frquents, gnrer des rglesd'association qui satisfassent les conditions de support et deseuil de confiance minimum

    Algorithme Apriori : Gnration des RA

  • 7/29/2019 Dm Hassan Badir

    122/126

    Algorithme Apriori : Gnration des RA

  • 7/29/2019 Dm Hassan Badir

    123/126

    Illustration

  • 7/29/2019 Dm Hassan Badir

    124/126

    Reprenons l'exemple prcdent, les tableaux suivants

    montrent les rgles d'association gnres pour uneconfiance minimum = 60%.

    Les rgles d'association sont gnres en considrantd'abord les itemsetsfrquents de taille 2, puis ceux de

    taille 3, etc. Les itemsetsfrquents de taille 2, F2 ontpermis de gnrer les rgles d'association du tableau1.Dans ce cas la procdure Gen-Regle n'est pas appelevu qu'on ne peut avoir plus d'un item en consquencedes rgles d'association.

    Les itemsets frquents de taille 3, F3, a savoir l'uniqueitemsetbcd a permis de gnrer les rglesd'association, d'abord avec un consquent a un itemfigurant dans le tableau 2. Les consquences de taille

    d'un item trouves ayant constitue des rgles solides

    Illustration

  • 7/29/2019 Dm Hassan Badir

    125/126

    tableau 1

    Supp(ab)/supp(a)

    Rgles d'association 2 itemset 1 itemcomme consquence

    Illustration

  • 7/29/2019 Dm Hassan Badir

    126/126

    Rgles d'association 3 itemset 1 itemcomme

    consquence

    Rgles d'association 3 itemset 2 itemscommeconsquence

    tableau 2