classification des images

Click here to load reader

  • date post

    20-Jun-2015
  • Category

    Documents

  • view

    841
  • download

    2

Embed Size (px)

Transcript of classification des images

  • 1. Florent Masseglia INRIA Sophia Antipolis-Mditerrane Equipe-Projet AXIS Fouille de donnesPrincipes gnraux du data miningScuritFouille de flotsRseaux de capteurshttp://www.inria.fr/sophia/teams/axisJuin 2008 DGA1

2. Lquipe-projet AxIS Analyse et Amlioration des SystmesdInformation Diriges par lUsage Bi-localise Sophia Rocquencourt Objectifs 2008-2012 : Analyse dun SI et ECD Aides pour analyser les rseaux sociaux et amliorer larecherche dinformation Elaboration dune plateforme dexprimentation FOCUSJuin 2008DGA2 3. Lquipe-projet AxIS Analyse dun SI et ECD : Fouille dans les flots de donnes (ANR Midas, ARC Ssur) Fouille de donnes dun SI (usage, contenu et structure) Semantic Web Mining Gestion des connaissances en IS mining (domaine delanalyste)Juin 2008DGA 3 4. Lquipe-projet AxIS Aides pour analyser les rseaux sociaux etamliorer la recherche dinformation : ANR Eiffel Projet Quaero - France-Allemagne ANR Intermed Dmarrage dune thse en septembreJuin 2008 DGA4 5. Lquipe-projet AxIS Elaboration dune plateforme dexprimentation FOCUS Classes dapplications : Dmocratie participative, Dveloppement durable (ANR Intermed) Transport et tourisme (Color INRIA CusCov, ANR Eiffel) Support : une des plateformes du CPER (PACA), dans le cadredu Living Lab ICT (ENoLL) de Sophia Antipolis, soumissionFP7 infrastructures de rechercheJuin 2008 DGA5 6. Types dextraction de connaissance Classification cr une fonction qui classifie une donne lmentaire parmi plusieursclasses prdfinies existantes Rgression cr une fonction qui donne une donne lmentaire une variable deprvision avec des donnes relles Segmentation (clustering, classement) rechercher identifier un ensemble fini de catgories ou groupe en vuesde dcrire les donnesJuin 2008 DGA 6 7. Types dextraction de connaissance (2) Rsum affiner une description compacte dun sous-ensemble de donnes Modelage des dpendances trouver un modle qui dcrit des dpendances significatives entre lesvariables Dtection de changement et dviation dcouvrir les changements les plus significatifs dans les donnesJuin 2008 DGA7 8. Types dextraction de connaissance (2) Extraction de frquents : Itemsets frquents (et rgles dassociation) comportements de clients dun supermarch Motifs squentiels frquents comportements dutilisateurs dun site Web comportements de touristes (vhicule + GPS)Juin 2008DGA8 9. Extraction ditemsets frquentsJuin 2008DGA9 10. Extraction de rgles dassociation 20 % des clients qui achtent du beurre et dupain achtent aussi du lait. 15 % des clients qui achtent de la bire et desgteaux achtent aussi des couches. 64 % des tudiants qui suivent le cours Introduction Unix , suivent galement lecours de Programmation C et 34 % de tousles tudiants ont en fait suivis les deux cours.Juin 2008DGA 10 11. Extraction de rgles dassociation TransactionItemsMotifs Support10 A, B, C frquents20 A, C {A}75%30 A, D {B}50%40B, E, F {C}50% {A, C}50% support({A } {C})2 support ( A C ) = = = 50%D 4 support({A } {C }) 2 confiance ( A C ) = = = 66 .7%support ({ A})3Juin 2008DGA11 12. Extraction de rgles dassociationSchma algorithmique de base Gnration de tous les ensembles frquents support minimum Gnration partir des ensembles frquents de toutes les rgles d associations confiance dans la rgleJuin 2008DGA 12 13. Extraction de rgles dassociationGnration de tous les ensembles frquents Semble facile ... problme principal des algorithmes de rgles d association 1000 items => 21000 ensembles testerJuin 2008DGA13 14. Extraction de rgles dassociationPremiers pas : le principe dApriori La rfrence dans le domaine Equipe d IBM Almaden (R. Agrawal et R. Srikant, VLDB94) Proposition dune gnration de candidats conome : Tout motif ayant un sous-motif non frquent nest pasfrquent Proposition dune structure efficaceJuin 2008DGA14 15. Motifs squentiels frquents Exploite des donnes squentielles Squence de donnes : liste ordonne ditemsets de la forme < itemset(T1) itemset(T2) itemset(Tn) > ex: < (jour1 / camscope, K7) (jour 3 / batterie) > Extrait des motifs frquents en conservant linformationdordonnancement des donnes en entre grce sanotion dinclusion pour le support : S1= et S2= on a S1 S2 si i1 < i2 < < in / a1 bi1, , an binJuin 2008DGA 15 16. Extraction de motifs squentielsExempleDate 1Date 2Date 3Date 4C110 30 140 20 70 110 40 50 20 60 80C250 120 15010 30 20 80 140 20 60 70C340 60 705070 80 130 70 90C410 30 7020 30 150 20 60 110 20 90 130 Support minimum = 60% (3 clients suffisent), 3 motifs frquents : < ( 70 ) > < ( 50 ) ( 80 ) > < ( 10 30 ) ( 20 ) ( 20 60 ) >Juin 2008 DGA 16 17. Applications des motifs squentiels Fouille de textes : extraire des sous-phrasescommunes un ensemble de textes. Appliqu sur les discours du prsident delassemble nationale. Est-ce que ses discours utilisent les mmesmots cls, dans le mme ordre ?Juin 2008 DGA 17 18. Applications des motifs squentiels Cest un plaisir que () je partage cet avis je partage () car aujourdhui () plaisir que je Ce sera avec un plaisir je partagesincre que je () Juin 2008 DGA 18 19. Applications des motifs squentiels Fouille de graphes : extraire des sous-graphes communs un ensemble degraphes. Appliqu sur les enregistrements de lIMDB Est-ce que fiches des films/acteurs peuventtre restructures autour dun formatminimum ?Juin 2008 DGA 19 20. Applications des motifs squentielsTitre Titre Sortie Equipe Sortie Score EquipeDate Acteurs Effets spciaux Date ActeursRalisateurSocitAutres films Titre SortieEquipeActeursJuin 2008 DGA 20 21. Applications des motifs squentiels Un Id par nud Associ la profondeur dans larbreTitre A1 Sortie EquipeB2 C2 DateActeurs Effets spciauxD3E3F3 ParSocitcouG3rs prfi x Squence correspondant au schma : < (A1) (B2) (D3) (C2) (E3) (F3) (G3) >Juin 2008DGA 21 22. Fouille des usages du Web? (rapidement) Les serveurs Web enregistrent les squences daccs au site. A lorigine le but tait de dtecter les erreurs (type 404) La communaut fouille de donnes est ne au dbut des annes90 (les logs daccs Web sont rapidement devenus apptissants ). Objectif : extraire tout ce qui se produit avec une frquence leve (problme classique en fouille de donnes). Exemple (Yahoo News?): 7% des utilisateurs naviguent de la manire suivante :URL1 = Chiffres_Pouvoir_d_Achat.html ;URL2 = Tarifs_Baril_Petrole.html ;URL3 = People_Nouvelle_Star.htmlJuin 2008DGA 22 23. Fouille & scuritLe cas des IDS 1. Bass sur les signatures : Hyper robuste aux attaques connues Hyper inefficace pour les nouvelles attaques 2. Bass sur les anomalies : Trs efficace pour dtecter les nouvellesattaques Trs efficaces pour saturer lexpert avec unmaximum de fausses alertes ! !Juin 2008 DGA23 24. Fouille & scurit Trois thmes principaux : Clustering & dtection danomalies. Extraction de motifs off-line pour gnrer des rgles de dtection (signatures). Construction dun modle du systme et comparaison des nouvelles entres avec le modleJuin 2008 DGA 24 25. Fouille & scurit Clustering et dtection doutliersJuin 2008 DGA25 26. Fouille & scurit Clustering et dtection doutliers Nombre lev de faux positifs Temps de calcul du clustering Dcouverte en temps rel = capacit travailler sur les flots de donnesJuin 2008DGA 26 27. Fouille & scurit Fouille de donnes off-line pour enrichir la base designatures : Trouve des navigations sur un thme dune quipe :http://www-sop.inria.fr/epidaure/foie3d/ : Trouve aussi des tentatives dintrusion :http://www.inria.fr/ : Juin 2008 DGA 27 28. Fouille & scurit Comparaison on-line au modle : Thme de lARC SSur (AxIS, Dream, Tatoo, KDD). Travaux de Wei Wang (Post-doc). Test sur des donnes de log HTTP de lINRIA Sophia Taille des donnes: 561M Nbre de requtes : 1,449,379 Dure : 3 jours, 2 heures et 10 minJuin 2008 DGA28 29. Fouille & scurit Donnes de log : salmacis.inria.fr - - [10/May/2007:18:27:32 +0200] "GET /cgi-bin/db4web_c/dbdirname//etc/passwd HTTP/1.0" 404 4856 "-""Mozilla/4.75 (Nikto/1.36 ) Calculer la distribution des caractres dans lURL de larequte : Uniquement sur la plage ASCII 33-127 Chaque requte est reprsente sur un vecteur de taille 95 Vecteur aprs la transformation : 0 0 0 0 0 0 0 0 0 0 0 0 1 0 6 0 0 0010000000000000000000000000000000 0000000000010243430103000120101210 0200000000 La classification en ligne est base sur ces vecteursJuin 2008 DGA 29 30. Fouille & scurit Dtection danomalies Slectionner les 400 premires requtes (normales) comme base de rfrence. Calculer la distance entre les nouvelles entres et les 400 enregistrements de rfrence. Slectionner une distance minimale comme indice danomalie.Juin 2008 DGA30 31. Fouille & scuritJuin 2008DGA 31 32. Fouille & scuritDtection danomalies en fonction de la distance Indice=0.14 Dtection des changements de 282/457=61.7% (Taux de dtection) modle (concept drift) 8727/39456=22.1% (Faux positifs) En fonction du taux danomalies Indicateurs de type Page-HinkleyWork in progress Amliorer le taux de dtection Amliorer le taux de faux positifs Grer les changements de modle (historique des concepts drifts, aspects flots) Juin 2008DGA 32 33. Flots de donnes Fouille deflots dedonnesJuin 2008DGA33 34. Flots de donnes 30 milliards demails par jour - 1 milliard de SMS. Chinas cellular operators estimate Chinese customers will sendaround 14 billion Lunar New Year text messages on their mobilephones during the week-long holiday . IP Network Traffic: Jusqu 1 milliard de paquet par heure et parrouteur. Chaque FAI a des centaines de routeurs ! 75000 tuples parseconde ! AT&T collecte 100 Gb de donnes rseau par jour. NASA EOS (Earth Observation System) : Donnes dobservationsatellites, jusqu 350 Gb par jour. eBay : en moyenne 1 million de pages consultes par jour. Yahoo: 166 millions de visiteurs par jour; 48 Gb de clickstream parheure !Juin 2008DGA34 35. Flots de donnes Caractristiques des flots de do