Appel projet Horizon/Anticrime

4
Proposition de projet R&D « bootstrap »sur budget TeraLab 2015 __________________________________________________________________________________ _______________________________________________________________________________ Institut Mines-Télécom – Projets Bootstrap Teralab Octobre 2014 1 Résumé TITRE DU PROJET : HORIZON ou ANTICRIME (exemples) RESPONSABLE DU PROJET Stéphan Clémençon (Professeur Télécom ParisTech) DESCRIPTION DU PROJET (4 lignes) : Dans le cadre de son activité de renseignement, le SCRC (Service Central de Renseignement Criminel - Gendarmerie Nationale) envisage de développer un projet d’analyse et de prédiction de la criminalité. Il conviendra à partir de données endogènes et exogènes au champ criminel de réaliser une analyse spatio- temporelle dynamique intégrant les niveaux communal, départemental, régional et national. Ce projet a vocation à délivrer sous forme de démonstrateur un outil d’aide à la décision sur un plan stratégique et tactique. DESCRIPTION DE LA CONTRIBUTION DU LABO R&D(4lignes) Le labo développera les techniques d’analyse de données et d’apprentissage statistique permettant d’expliquer/prédire le niveau de criminalité aux différentes échelles spatiales et temporelles à partir des données jugées pertinentes par le SCRC. Au delà de l’élaboration des méthodes adéquates (et de routines informatiques afférentes) permettant de résoudre les problèmes liés à l’hétérogénéité des données, leur structure de dépendance spatiale et temporelle, leur caractère « incomplet », à l’aspect multi-tâche du problème de prédiction, le laboratoire fournira un rapport précis quant à la performance prédicitve des règles construites par apprentissage et s’attachera à fournir des indicateurs permettant d’interpréter l’impact de chaque variable sur la criminalité à un niveau spatio-temporel donné. Les aspects méthodologiques développés au cours de ce projet devront pouvoir donner lieu à des publications scientifiques, tout en respectant la confidentialité de certaines données. DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INSTITUTIONNEL (4lignes) Outre la définition du besoin, le SCRC accompagnera l’ensemble des étapes du projet en validant les différents délivrables. Il se chargera également de transmettre sous couvert d’une clause de confidentialité des données d’intérêt criminel. Enfin, il réalisera la validation de l’outil en l’évaluant sur des données opérationnelles. DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INDUSTRIEL (4 lignes) La contribution de Morpho couvrira plusieurs axes : La mise au point d’algorithmes de prédiction traitant des données hétérogènes comportant une dimension spatiale. L’étude de solutions concrètes permettant la manipulation de large volume de données. La mise au point de solutions répondant aux problématiques de prédiction de la criminalité à l’échelle d’un pays à partir de données publiques. Morpho participera aux travaux de recherche algorithmiques en coopération avec les partenaires académiques, puis après une première phase permettant de comprendre la nature et la valeur des résultats pouvant être obtenus, intégrera les solutions proposées sous forme d’un prototype. Celui-ci permettra à minima d’importer les données des années à venir et de visualiser les résultats.

description

Appel projet Horizon/Anticrime

Transcript of Appel projet Horizon/Anticrime

  • Proposition de projet R&D bootstrap sur budget TeraLab 2015 __________________________________________________________________________________

    _______________________________________________________________________________ Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

    1

    Rsum

    TITRE DU PROJET : HORIZON ou ANTICRIME (exemples) RESPONSABLE DU PROJET Stphan Clmenon (Professeur Tlcom ParisTech) DESCRIPTION DU PROJET (4 lignes) : Dans le cadre de son activit de renseignement, le SCRC (Service Central de Renseignement Criminel - Gendarmerie Nationale) envisage de dvelopper un projet danalyse et de prdiction de la criminalit. Il conviendra partir de donnes endognes et exognes au champ criminel de raliser une analyse spatio-temporelle dynamique intgrant les niveaux communal, dpartemental, rgional et national. Ce projet a vocation dlivrer sous forme de dmonstrateur un outil daide la dcision sur un plan stratgique et tactique. DESCRIPTION DE LA CONTRIBUTION DU LABO R&D(4lignes) Le labo dveloppera les techniques danalyse de donnes et dapprentissage statistique permettant dexpliquer/prdire le niveau de criminalit aux diffrentes chelles spatiales et temporelles partir des donnes juges pertinentes par le SCRC. Au del de llaboration des mthodes adquates (et de routines informatiques affrentes) permettant de rsoudre les problmes lis lhtrognit des donnes, leur structure de dpendance spatiale et temporelle, leur caractre incomplet , laspect multi-tche du problme de prdiction, le laboratoire fournira un rapport prcis quant la performance prdicitve des rgles construites par apprentissage et sattachera fournir des indicateurs permettant dinterprter limpact de chaque variable sur la criminalit un niveau spatio-temporel donn. Les aspects mthodologiques dvelopps au cours de ce projet devront pouvoir donner lieu des publications scientifiques, tout en respectant la confidentialit de certaines donnes. DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INSTITUTIONNEL (4lignes) Outre la dfinition du besoin, le SCRC accompagnera lensemble des tapes du projet en validant les diffrents dlivrables. Il se chargera galement de transmettre sous couvert dune clause de confidentialit des donnes dintrt criminel. Enfin, il ralisera la validation de loutil en lvaluant sur des donnes oprationnelles. DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INDUSTRIEL (4 lignes) La contribution de Morpho couvrira plusieurs axes : La mise au point dalgorithmes de prdiction traitant des donnes htrognes comportant une

    dimension spatiale. Ltude de solutions concrtes permettant la manipulation de large volume de donnes. La mise au point de solutions rpondant aux problmatiques de prdiction de la criminalit lchelle

    dun pays partir de donnes publiques. Morpho participera aux travaux de recherche algorithmiques en coopration avec les partenaires acadmiques, puis aprs une premire phase permettant de comprendre la nature et la valeur des rsultats pouvant tre obtenus, intgrera les solutions proposes sous forme dun prototype. Celui-ci permettra minima dimporter les donnes des annes venir et de visualiser les rsultats.

  • Proposition de projet R&D bootstrap sur budget TeraLab 2015 __________________________________________________________________________________

    _______________________________________________________________________________ Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

    2

    MARCHES ET APPLICATIONS CIBLES (4 lignes) Indiquer dans quelles types dapplications la technologie dveloppe peut servir, les marchs affrents et le business model favorable pour lindustriel Morpho cherche dvelopper une offre pertinente danalyse criminalistique sur le march international, auprs des forces de police et de scurit qui sont dj ses clients. RESSOURCES TERALAB QUIL EST PREVU DE METTRE EN OEUVRE (4 lignes) Les ressources Teralab devront permettre dhberger les donnes ncessaires la construction des modles prdicitfs par apprentissage statistique. Les donnes endognes, dentre (e.g. rpartition des effectifs sur le territoire) et de sortie (niveau de criminalit), sont peu volumineuse. Par contre, les donnes exognes (open data) pourraient ltre, une partie du projet consistant prcisment recenser les donnes de ce type pouvant permettre daccrotre la performance des modles, sans toutefois dpasser quelques 100aines de Go. La structure choisie pour lentrept des donnes sera fonction de la nature des donnes slectionnes. Le niveau dhtrognit/incompltude pourra justifier de conserver une structure lgre type HDFS. Le langage utilis pour le dveloppement des routines sera le Python. Seront installs sur TeraLab Python 2.7+, Numpy, Scipy, Matplotlib, Ipython ainsi que les packages ncessaires de machine-learning et danalyse de donnes ncessaire (e.g. Scikit-learn, Pandas). BUDGET TOTAL DU PROJET K: 18 mois de post-doc (18*5387,30=96 971,4) Dimensionnement des ressources mobilises par le partenaire Industriel sur ce projet : Morpho mobilisera deux personnes mi-temps sur la dure du projet. Lune sur les aspects recherche et lautre sur les aspects mtier (dfinition et dveloppement dun prototype) Cout additionnels R&D Labo Institut Mines Telecom :

  • _______________________________________________________________________________ Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

    3

    DESCRIPTIF DETAILLE (2 pages )

    - Points aborder -

    Vision : Dcrire les facteurs motivants qui ont contribu la cration du projet et qui reprsente

    son caractre innovant. A ce jour la lutte contre la criminalit est en gnral ractive et non proactive. Lobjectif du projet sinscrit dans une dmarche de renseignement criminel qui consiste partir dune comprhension de la criminalit anticiper les phnomnes en vue dune meilleure stratgie de lutte en terme de prvention notamment. En effet, la criminalit ne pouvant tre considre comme un signal dterministe ou alatoire, elle rpond des critres explicatifs quil convient didentifier afin de pouvoir anticiper de nouvelles occurrences. Ds lors, il convient dintgrer un ensemble de variables le plus divers afin de dterminer celles qui diffrents chelons administratifs (villes, dpartements, rgions) sont les plus significatifs. Le projet rpondra une analyse la fois stratgique et oprationnelle. Sur un plan stratgique, il prendra en compte des donnes disponibles en sources ouvertes (INSEE, mto, gographie) tandis que sur un plan oprationnel ncessitant une rapidit daction, des donnes non structures pourront tre intgres, savoir des extractions de blog ou de rseaux sociaux (Facebook, Twitter). Une tape de validation clturera le projet en valuant notamment le rsultat des diffrents chelons envisags par rapport la prdiction. Il nexiste pas ce jour de projet de ce type dans le domaine de la lutte contre la criminalit qui englobe laspect descriptif et prdictif des chelles de temps et despace diffrents et intgrant une telle varit de donnes. En outre, un tel projet doit apparaitre comme un vritable outil daide la dcision en matire de dploiement de ressources comme de mode daction envisager. Du point de vue mthodologique, les challenges sont de plusieurs ordres. Ils relvent tout dabord de la nature des donnes (niveaux de criminalit selon une nomenclature prdfinie et facteurs explicatifs) :

    Temporalit Spatialisation Htrognit (e.g. certaines variables peuvent navoir de sens qu certaines priodes, que

    dans certaines zones gographiques, cf open data) Incompltude (e.g. certaines donnes peuvent ntre recenses qu certaines priodes, que

    dans certaines zones gographiques, cf open data) Ils dcoulent aussi des objectifs poursuivis, savoir une prdiction multi-chelle (spatiale et temporelle) et multi-tche (dpendance/corrlation entre les niveaux observs pour diffrents types de crime).

    Contexte Scientifique : Indiquer les rsultats de recherche que lon cherche valoriser. La vaste majorit des mthodes dapprentissage statistique (pour la rgression, la classification) a t conue dans un cadre o les exemples servant apprendre un modle optimisant un critre de

  • _______________________________________________________________________________ Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

    4

    performance donn sont supposes tre des donnes indpendantes et identiquement distribues. Le cadre du projet dcrit ci-dessus est significativement diffrent et requiert de dvelopper des techniques nouvelles, pour la reprsentation des donnes (e.g. au moyen doprateurs) ou leur prtraitement (rsidus) et pour lapprentissage proprement dit (algorithmes multi-tches, pour donnes structures en entre et en sortie). La recherche labore travers ce projet pourra faire lobjet de publications mthodologiques (algorithmes, cadre de validit thorique et expriences numriques) respectant le niveau de confidentialit de certaines donnes requis par le SCRC. Du point de vue de lutilisateur final et de lindustriel partenaire, le niveau de performance prdictive atteint par les modles et le format (interface graphique, outils de visualisation) des rsultats produits par les outils danalyse pourront permettre dlaborer un cahier des charges pour un ventuel produit commercialisable. Cible application et march : Prciser la cible applicative et le march viss et le business modle

    favorable pour lindustriel La cible est concentre autour des forces de scurit mme si les mthodes et outils dvelopps devraient tre transposables dans diffrentes applications qui ncessitent une vision prdictive et spatiale des donnes. Apport du partenaire : Cas dusage, Donnes, expertise mtier, expert donnes .

    Le SCRC apporte sa connaissance criminologique des phnomnes criminels ainsi que des donnes lies aux infractions. Ses donnes intgrent sur un plan quantitatif une vision spatio-temporelle de lvolution des faits constats/lucids pour chaque infraction et par agrgat lchelle dune commune, dun dpartement, dune rgion et du pays. En outre, des informations non nominatives ayant trait la typologie des auteurs comme des victimes seront galement transmises. Morpho apporte son exprience en apprentissage machine sur des donnes de grande dimension, sa connaissance des besoins des acteurs de la scurit publique et sa capacit dvelopper des outils danalyse et dinterface utilisateur de manire agile et rapide. Plan dactions, capacit finaliser : Prciser les actions que vous souhaitez mener dans le projet

    et justifier lintrt de ces actions pour assurer une valorisation des rsultats de recherche et pour rpondre au besoin identifi par lindustriel. En particulier, il est utile dexpliquer pourquoi ces actions sont prioritaires pour assurer une valorisation

    Budget demand : Fournir un budget rparti entre les labos et partenaires (le partenaire

    industriel ne sera pas financ dans le cadre de cet AO) .