classification des images
-
Author
asma-assoum -
Category
Documents
-
view
846 -
download
2
Embed Size (px)
Transcript of classification des images
- 1. Florent Masseglia INRIA Sophia Antipolis-Mditerrane Equipe-Projet AXIS Fouille de donnesPrincipes gnraux du data miningScuritFouille de flotsRseaux de capteurshttp://www.inria.fr/sophia/teams/axisJuin 2008 DGA1
2. Lquipe-projet AxIS Analyse et Amlioration des SystmesdInformation Diriges par lUsage Bi-localise Sophia Rocquencourt Objectifs 2008-2012 : Analyse dun SI et ECD Aides pour analyser les rseaux sociaux et amliorer larecherche dinformation Elaboration dune plateforme dexprimentation FOCUSJuin 2008DGA2 3. Lquipe-projet AxIS Analyse dun SI et ECD : Fouille dans les flots de donnes (ANR Midas, ARC Ssur) Fouille de donnes dun SI (usage, contenu et structure) Semantic Web Mining Gestion des connaissances en IS mining (domaine delanalyste)Juin 2008DGA 3 4. Lquipe-projet AxIS Aides pour analyser les rseaux sociaux etamliorer la recherche dinformation : ANR Eiffel Projet Quaero - France-Allemagne ANR Intermed Dmarrage dune thse en septembreJuin 2008 DGA4 5. Lquipe-projet AxIS Elaboration dune plateforme dexprimentation FOCUS Classes dapplications : Dmocratie participative, Dveloppement durable (ANR Intermed) Transport et tourisme (Color INRIA CusCov, ANR Eiffel) Support : une des plateformes du CPER (PACA), dans le cadredu Living Lab ICT (ENoLL) de Sophia Antipolis, soumissionFP7 infrastructures de rechercheJuin 2008 DGA5 6. Types dextraction de connaissance Classification cr une fonction qui classifie une donne lmentaire parmi plusieursclasses prdfinies existantes Rgression cr une fonction qui donne une donne lmentaire une variable deprvision avec des donnes relles Segmentation (clustering, classement) rechercher identifier un ensemble fini de catgories ou groupe en vuesde dcrire les donnesJuin 2008 DGA 6 7. Types dextraction de connaissance (2) Rsum affiner une description compacte dun sous-ensemble de donnes Modelage des dpendances trouver un modle qui dcrit des dpendances significatives entre lesvariables Dtection de changement et dviation dcouvrir les changements les plus significatifs dans les donnesJuin 2008 DGA7 8. Types dextraction de connaissance (2) Extraction de frquents : Itemsets frquents (et rgles dassociation) comportements de clients dun supermarch Motifs squentiels frquents comportements dutilisateurs dun site Web comportements de touristes (vhicule + GPS)Juin 2008DGA8 9. Extraction ditemsets frquentsJuin 2008DGA9 10. Extraction de rgles dassociation 20 % des clients qui achtent du beurre et dupain achtent aussi du lait. 15 % des clients qui achtent de la bire et desgteaux achtent aussi des couches. 64 % des tudiants qui suivent le cours Introduction Unix , suivent galement lecours de Programmation C et 34 % de tousles tudiants ont en fait suivis les deux cours.Juin 2008DGA 10 11. Extraction de rgles dassociation TransactionItemsMotifs Support10 A, B, C frquents20 A, C {A}75%30 A, D {B}50%40B, E, F {C}50% {A, C}50% support({A } {C})2 support ( A C ) = = = 50%D 4 support({A } {C }) 2 confiance ( A C ) = = = 66 .7%support ({ A})3Juin 2008DGA11 12. Extraction de rgles dassociationSchma algorithmique de base Gnration de tous les ensembles frquents support minimum Gnration partir des ensembles frquents de toutes les rgles d associations confiance dans la rgleJuin 2008DGA 12 13. Extraction de rgles dassociationGnration de tous les ensembles frquents Semble facile ... problme principal des algorithmes de rgles d association 1000 items => 21000 ensembles testerJuin 2008DGA13 14. Extraction de rgles dassociationPremiers pas : le principe dApriori La rfrence dans le domaine Equipe d IBM Almaden (R. Agrawal et R. Srikant, VLDB94) Proposition dune gnration de candidats conome : Tout motif ayant un sous-motif non frquent nest pasfrquent Proposition dune structure efficaceJuin 2008DGA14 15. Motifs squentiels frquents Exploite des donnes squentielles Squence de donnes : liste ordonne ditemsets de la forme < itemset(T1) itemset(T2) itemset(Tn) > ex: < (jour1 / camscope, K7) (jour 3 / batterie) > Extrait des motifs frquents en conservant linformationdordonnancement des donnes en entre grce sanotion dinclusion pour le support : S1= et S2= on a S1 S2 si i1 < i2 < < in / a1 bi1, , an binJuin 2008DGA 15 16. Extraction de motifs squentielsExempleDate 1Date 2Date 3Date 4C110 30 140 20 70 110 40 50 20 60 80C250 120 15010 30 20 80 140 20 60 70C340 60 705070 80 130 70 90C410 30 7020 30 150 20 60 110 20 90 130 Support minimum = 60% (3 clients suffisent), 3 motifs frquents : < ( 70 ) > < ( 50 ) ( 80 ) > < ( 10 30 ) ( 20 ) ( 20 60 ) >Juin 2008 DGA 16 17. Applications des motifs squentiels Fouille de textes : extraire des sous-phrasescommunes un ensemble de textes. Appliqu sur les discours du prsident delassemble nationale. Est-ce que ses discours utilisent les mmesmots cls, dans le mme ordre ?Juin 2008 DGA 17 18. Applications des motifs squentiels Cest un plaisir que () je partage cet avis je partage () car aujourdhui () plaisir que je Ce sera avec un plaisir je partagesincre que je () Juin 2008 DGA 18 19. Applications des motifs squentiels Fouille de graphes : extraire des sous-graphes communs un ensemble degraphes. Appliqu sur les enregistrements de lIMDB Est-ce que fiches des films/acteurs peuventtre restructures autour dun formatminimum ?Juin 2008 DGA 19 20. Applications des motifs squentielsTitre Titre Sortie Equipe Sortie Score EquipeDate Acteurs Effets spciaux Date ActeursRalisateurSocitAutres films Titre SortieEquipeActeursJuin 2008 DGA 20 21. Applications des motifs squentiels Un Id par nud Associ la profondeur dans larbreTitre A1 Sortie EquipeB2 C2 DateActeurs Effets spciauxD3E3F3 ParSocitcouG3rs prfi x Squence correspondant au schma : < (A1) (B2) (D3) (C2) (E3) (F3) (G3) >Juin 2008DGA 21 22. Fouille des usages du Web? (rapidement) Les serveurs Web enregistrent les squences daccs au site. A lorigine le but tait de dtecter les erreurs (type 404) La communaut fouille de donnes est ne au dbut des annes90 (les logs daccs Web sont rapidement devenus apptissants ). Objectif : extraire tout ce qui se produit avec une frquence leve (problme classique en fouille de donnes). Exemple (Yahoo News?): 7% des utilisateurs naviguent de la manire suivante :URL1 = Chiffres_Pouvoir_d_Achat.html ;URL2 = Tarifs_Baril_Petrole.html ;URL3 = People_Nouvelle_Star.htmlJuin 2008DGA 22 23. Fouille & scuritLe cas des IDS 1. Bass sur les signatures : Hyper robuste aux attaques connues Hyper inefficace pour les nouvelles attaques 2. Bass sur les anomalies : Trs efficace pour dtecter les nouvellesattaques Trs efficaces pour saturer lexpert avec unmaximum de fausses alertes ! !Juin 2008 DGA23 24. Fouille & scurit Trois thmes principaux : Clustering & dtection danomalies. Extraction de motifs off-line pour gnrer des rgles de dtection (signatures). Construction dun modle du systme et comparaison des nouvelles entres avec le modleJuin 2008 DGA 24 25. Fouille & scurit Clustering et dtection doutliersJuin 2008 DGA25 26. Fouille & scurit Clustering et dtection doutliers Nombre lev de faux positifs Temps de calcul du clustering Dcouverte en temps rel = capacit travailler sur les flots de donnesJuin 2008DGA 26 27. Fouille & scurit Fouille de donnes off-line pour enrichir la base designatures : Trouve des navigations sur un thme dune quipe :http://www-sop.inria.fr/epidaure/foie3d/ : Trouve aussi des tentatives dintrusion :http://www.inria.fr/ : Juin 2008 DGA 27 28. Fouille & scurit Comparaison on-line au modle : Thme de lARC SSur (AxIS, Dream, Tatoo, KDD). Travaux de Wei Wang (Post-doc). Test sur des donnes de log HTTP de lINRIA Sophia Taille des donnes: 561M Nbre de requtes : 1,449,379 Dure : 3 jours, 2 heures et 10 minJuin 2008 DGA28 29. Fouille & scurit Donnes de log : salmacis.inria.fr - - [10/May/2007:18:27:32 +0200] "GET /cgi-bin/db4web_c/dbdirname//etc/passwd HTTP/1.0" 404 4856 "-""Mozilla/4.75 (Nikto/1.36 ) Calculer la distribution des caractres dans lURL de larequte : Uniquement sur la plage ASCII 33-127 Chaque requte est reprsente sur un vecteur de taille 95 Vecteur aprs la transformation : 0 0 0 0 0 0 0 0 0 0 0 0 1 0 6 0 0 0010000000000000000000000000000000 0000000000010243430103000120101210 0200000000 La classification en ligne est base sur ces vecteursJuin 2008 DGA 29 30. Fouille & scurit Dtection danomalies Slectionner les 400 premires requtes (normales) comme base de rfrence. Calculer la distance entre les nouvelles entres et les 400 enregistrements de rfrence. Slectionner une distance minimale comme indice danomalie.Juin 2008 DGA30 31. Fouille & scuritJuin 2008DGA 31 32. Fouille & scuritDtection danomalies en fonction de la distance Indice=0.14 Dtection des changements de 282/457=61.7% (Taux de dtection) modle (concept drift) 8727/39456=22.1% (Faux positifs) En fonction du taux danomalies Indicateurs de type Page-HinkleyWork in progress Amliorer le taux de dtection Amliorer le taux de faux positifs Grer les changements de modle (historique des concepts drifts, aspects flots) Juin 2008DGA 32 33. Flots de donnes Fouille deflots dedonnesJuin 2008DGA33 34. Flots de donnes 30 milliards demails par jour - 1 milliard de SMS. Chinas cellular operators estimate Chinese customers will sendaround 14 billion Lunar New Year text messages on their mobilephones during the week-long holiday . IP Network Traffic: Jusqu 1 milliard de paquet par heure et parrouteur. Chaque FAI a des centaines de routeurs ! 75000 tuples parseconde ! AT&T collecte 100 Gb de donnes rseau par jour. NASA EOS (Earth Observation System) : Donnes dobservationsatellites, jusqu 350 Gb par jour. eBay : en moyenne 1 million de pages consultes par jour. Yahoo: 166 millions de visiteurs par jour; 48 Gb de clickstream parheure !Juin 2008DGA34 35. Flots de donnes Caractristiques des flots de donnes : De nouveaux lments gnrs en permanence (flux potentiellement infini). Les donnes doivent tre traites aussi vite que possible. Interdiction de bloquer le flux. Un seul coup doeil. Restreint par la mmoire disponible.Juin 2008DGA35 36. Application type : le trafic rseaux Securit, Fraude, Analyse, Estimation Combien doctets changs entre deux IP ? Liste des 100 IP qui consomment le plus. Dure moyenne dune session IP ? Identifier les sessions qui durent deux fois plus longtemps quela moyenne. Identifier les IP impliques dans plus de 100 sessions. Quels sont les k lments les plus demands ?(par exemple les 50 URLs les plus accdes) Dtecter une forte augmentation des connexions entrantes enprovenance dun pays sur une courte dure. Juin 2008DGA 36 37. Fouille de flots de donnes Irraliste dessayer dextraire prcisment les motifsfrquents dans un flot! Dfi principal : comment extraire les motifs avec uneapproximation acceptable ? Dfis associs : Une seule passe: on ne peut pas revenir en arrire ! Les frquents peuvent devenir rares et vice-versa. Besoin de grer lhistorique des connaissances extraites. Besoin de voir les changements importants (ex. intrusions). Juin 2008 DGA37 38. Fouille de flux de donnes En raison des caractristiques/contraintes dunflux, il est gnralement admis quune mthodede fouille doit : Sacrifier de son exactitude au profit de sa vitessedextraction. Grer lhistorique des schmas extraits.Juin 2008 DGA 38 39. Modle dextraction par batch FluxBatch Bn Batch Bn-1 Batch Bn-2 FouilleRsultat Rsultat RsultatBn Bn-1 Bn-2Juin 2008 DGA 39 40. Gestion de lhistorique des connaissancesApproche par tilted time windows Itemset frquent (a b c)15 min15 min 30 min 1 heure 2 heures 256 jours0.170.18 0.25 0.120.05 0Juin 2008DGA 40 41. Fouille de flux de donnes Aligner les squences dun cluster< (a) (b) (d) >< (a) (b) (d) > < (a) (c) (d) >< (a) (c) (d) > < (a:2) (b:1, c:1) (d:2) >Filtre k =1: < (a:2) (b:1, c:1) (d:2) >Filtre k =2: < (a:2) (d:2) >Juin 2008DGA41 42. Fouille de donnes et rseaux de capteurs (petit tour dhorizon biais ) Fouille de donnes afin damliorer le rseau. Clustering Rgles de communication conomies de transmissions conomies de batterie Challenge du data mining sur un environnementsur-contraint Distribution du processus de fouille Faibles ressources disponibles Applications ? Juin 2008 DGA 42 43. Fouille de donnes afin damliorer le rseau ? Clustering des capteurs : Grouper sous un leader afin dconomiser les changes. En particulier pour les nuds mobiles. Juin 2008 DGA 43 44. Fouille de donnes afin damliorer le rseau ? Clustering des capteurs : mining sensor energy data Exploiter les donnes dnergie afin de grouper les nuds. Ne repose pas sur des donnes de localisation des nuds. Juin 2008DGA44 45. Fouille de donnes afin damliorer le rseau ? Clustering des capteurs : mining sensor energy data Exploite lhistorique de laconsommation dnergie descapteurs Groupe les capteurs enfonction des similitudes deconsommations (suppose queles leaders consomment defaon similaire) Juin 2008 DGA45 46. Fouille de donnes afin damliorer le rseau ? Rgles dassociation pour optimiser les communications(Boukerche and Samarah, Ottawa, IEEE T Parallel and Distrib. Syst.) Extraire des rgles bases sur des activits communes Exemple : (s1s2 s3, 90%, t) aprs des transmissions des1 et s2 il y a 90% de chances dobserver une transmissionde s3 dans un dlai de t units de temps . Implique de dcouvrir le motif (itemset) frquent (s1s2 s3 ) etde calculer support, confiance et dlais. Juin 2008 DGA46 47. Fouille de donnes afin damliorer le rseau ? (s1s2s3, 90%, t) Objectifs applicatifs : Surveiller les comportements des nuds (on attend unvnement de s3 90% et il ne se produit pas dans ledlai t). Participer aux efforts de gestion de ressources (on peutmettre un nud en stand by car il ne communiqueracertainement pas dans les n prochaines units detemps). Prdire les comportements des nuds (source duprochain vnement) Juin 2008DGA 47 48. Fouille de donnes afin damliorer le rseau ? Rgles dassociation pour optimiser les communications (Gaber et al., ACM SAC08)Approche prcdente base sur les mta donnes ( un vnement sest produit ).Cette approche se base sur le contenu des vnements ( le nud s1 a envoy les information xy ).Un ensemble de capteurs S1, S2, . Sn et un ensemble de valeurs de son s, de temprature t et de lumire l.Les valeurs de lumire pour S1 et S2 peuvent tre similaires (placs dans la mme zone).Discrtisation des valeurs : [0,299] =L, [300,699]=M et [700,1000]=HTransactions de type {Sn; tn, sn, ln, time}Juin 2008 DGA48 49. Fouille de donnes afin damliorer le rseau ? Rgles dassociation pour optimiser les communications Transactions de type {Sn; tn, sn, ln, time} Exemples de rgles extraites : S0L[H] S1L[H], 100% S0L[L] S0T[M], 85.7% Objectif : viter des communications si on peut prvoir lesvaleurs transmettre. Juin 2008 DGA49 50. Exploitation des donnes du rseau Prvision de charge dans un rseau lectrique : (Rodriguez & Gama, Porto) Capteurs distribus dans le rseau lectrique. Apprentissage en ligne et dtection de changement. Objectif : maintenir en temps rel un modle de clusteringdu rseau et un modle prdictif capable de dtecter leschangement. Juin 2008 DGA 50 51. Exploitation des donnes du rseau Capteurs autour dun volcan : (Werner-Allen, Johnson, Ruiz, Lees and Welsh, Harvard) Capteurs (distribus gographiquement autour du volcan Tungurahua, quateur). 1,57 Gb de signaux gnrs en 54 heures.Juin 2008 DGA 51 52. Exploitation des donnes du rseau 20 minutes aprs un vnement druption, des chocs sismiques frquents seproduisent. Autour dun vnement dmission de gaz, des vnements sismiques sont probables. Juin 2008 DGA 52 53. Exploitation des donnes du rseau Monitoring dun rseau de tlcommunications Capteur mesurant lutilisation de la bande passante sur des liens. Dtection de congestion et de comportements anormaux. 30% des liens sur un switch sont souvent fortement sollicits au mmemoment et un ralentissement est observ ce moment . Le trafic sortant dun sous-rseau est nettement plus lev que letrafic entrant . Juin 2008 DGA 53 54. Exploitation des donnes du rseau Surveiller des Pandas en Chine (Ma et al., Beijing) Capteurs mto autour de lhabitat du panda. Capteurs sur le panda (Huanhuan). Est-ce que Huanhuan a des symptmes anormaux par rapport aupass ? Est-ce que dautres pandas ont des symptmes similaires ? Y a-t-il des corrlations entre les attributs des pandas et ceux de leurhabitat ? . Juin 2008DGA54 55. Bilan sur les capteurs Techniques de fouille sur les rseaux de capteurs Pour amliorer le rseau ou pour exploiter ses donnes Centralises : Ne passent pas lchelle Consomment de lnergie et de la bande passante (fouille des donnestransmises un sink) Distribues : Limites par les capacits embarques du capteur Challenges rassurants (en data mining) : Aspects flots (ressources limites) Distribuer les calculs Concept drift Juin 2008DGA55