Data Sciencetech Institute - plaquette d'information

7
CAMPUS PARIS & NICE SOPHIA-ANTIPOLIS "You have to learn the rules of the game. And then you have to play better than anyone else." Albert Einstein www.dstI.institute

description

Retrouvez nous sur https://www.datasciencetech.institute

Transcript of Data Sciencetech Institute - plaquette d'information

CAMPUS PARIS & NICE SOPHIA-ANTIPOLIS

"You have to learn the rules of the game. And then you have to play better than anyone else."Albert Einstein

www.dstI.institute

Les enjeux pour la France2 000 offres dʼemplois sur les réseaux sociaux professionnelsOctobre 2014 - LinkedIn, APEC & Viadeo

2 000 postes de Data Scientists à pourvoir d'ici 2018Étude SYNTEC 2014

5 premières Écoles dʼIngénieurs proposant un cursus « Data Science »Un métier « sexy » ? Datascientifique ! Dans Le Monde, par Maryline Baumard, Avril 2014

Quels usages et quelle formation ?

Qu’est-ce que la « Data Science » ?Dans son plus simple résumé, la « Science des Données » consiste en lʼanalyse et la synthèse dʼinformations. Ceci posé, une question émerge :

« mais de nombreuses organisations possèdent (ou externalisent) déjà des compétences dédiées à la statistique et à lʼinformatique décisionnelle ? »

Oui, mais un(e) « Data Scientist » diffère sur trois axes essentiels :1. Il/elle doit être formé(e) au management, aux sciences dures / ingénierie, à lʼinformatique et aux systèmes dʼinformation, en réponse aux 4V de Big Data (Volume, Variété, Vélocité et Véracité).2. Il/elle doit être tout autant à lʼaise avec le message que les données transmettent à lʼorganisation que familier avec les méthodes et techniques mises en œuvre pour lʼobtenir.3. Il/elle doit être capable de traiter d'énormes quantités de données, provenant de sources hétérogènes allant de coordonnées spatiales GPS à des écritures comptables.

Le Data Scientist Concepteur L’Analyste Expert Big DataLe Concepteur Data Science est un profil ayant reçu une formation initiale proche de lʼinformatique et/ou de la lʼanalyse statistique et qui vient compléter sa formation auprès de DSTI pour devenir un futur concepteur des outils Big Data, de la structuration dʼune infrastructure IT de recueil de données jusquʼà la conception et lʼajustement dʼalgorithmes de data mining permettant lʼanalyse de celles-ci.Ces profils existent sous deux formes. Dʼune part, le Data Scientist « in-house », qui travaille pour les besoins internes à son organisation. Dʼautre part, le « consultant » des sociétés de services mis à disposition chez leurs clients.

LʼAnalyste Expert Big Data est un profil très large, qui sʼadresse à toute personne ayant reçu une formation sur des bases scientifiques : des différentes typologies dʼingénierie aux diplômés des grandes écoles de commerce, en passant par les biologistes ou les médecins. Tous les métiers à haute valeur ajoutée sont impactés par la croissance exponentielle des volumes de données. Lʼanalyste expert devient donc une fonction essentielle des organisations : il est formé pour savoir rassembler des données, quel outil de data mining utiliser pour un objectif ou intégrer les modèles résultats dans ses systèmes corporate.

Banque & AssuranceEn Bulgarie, le « Guarantee Fund » mutualise les services administratifs des companies d'assurance dans le cadre du risque automobile, pour 26 companies, 50 000 agents et 3,3 millions d'automobilistes.

Par le passé, une étude montra que 25% des polices d'assurance enregistrées étaient des enregistrements dupliqués, voire des faux. L'absence d'outils d'analyse numérique systématique permettait notamment à certains automobilistes et agents peu scrupuleux d'anti-dater une police pour s’assurer de la couverture d’un sinistre.

En Europe occidentale, un taux de 3 à 5% de fraude à l’assurance est généralement constaté et traité par les grands groupes (Axa, Allianz, Generali), avec des techniques d’analyse de données appelées « détection des événements rares ». À l’inverse des approches utilisées par le commerce et la grande distribution, ces outils se focalisent sur l’identification de groupes d’individus ou d’évènements qui dévient fortement du comportement général.

L'implémentation d'un système d'information globalisé en Bulgarie, équipé d'outils de modélisation prédictive à la fraude potentielle, a permis une réduction à zéro des duplicats, entraînant une baisse globale des déclarations frauduleuses, mais aussi une réduction de 12% des automobilistes roulant sans assurance et un yield-management plus fin des primes.

Enfin, la centralisation du système d’information a aussi amélioré la disponibilité générale du service « Garantee Fund », en atteignant un taux de 99.99% à la période de Noël, où 30% des automobilistes bulgares renouvellent leurs polices d’assurance.

SANTEMcKinley Children’s Center, association en charge du placement des enfants orphelins ou en difficultés familiales depuis 1900, doit pouvoir déterminer l'environnement idéal pour chacun. Quelle famille est la plus adaptée à l'enfant ? Quels sont les programmes d'accompagnement qui lui permettront de se développer le plus sainement possible ? La prise de cette décision se fait grâce aux informations collectées au fil des années d’observations par leurs travailleurs sociaux. Pour autant, la tâche est traditionnellement difficile, car cette masse collectée est tout aussi éparse que variée : notes manuscrites, rapports d’entretiens, examens médicaux.

En 2014, la mise en place d'un système centralisé de collecte et d'analyse des données a permis de réduire de deux mois à deux minutes le temps nécessaire entre le rassemblement des pièces et la génération d’un modèle prédictif pour la meilleure combinaison de services à offrir à l’enfant.

L'outil d'analyse est capable de déterminer quels sont les facteurs clés pour le développement d'un enfant et de proposer une solution, qui ne remplace bien sûr pas l’analyse humaine, mais permet de la guider en accélérant l’analyse de nombreux facteurs.

Le système permet à McKinley Children’s Center de libérer de la ressource humaine sur des tâches qui n’étaient jusqu’alors pas automatisable, afin que chaque enfant bénéficie d'un encadrement et d'un programme adapté à ses propres besoins, améliorant de fait les chances de son intégration dans une nouvelle famille.

TELECOMConsolidated Communications Holdings, Inc. (Consolidated) est un opérateur télécom leader sur le marché Californien, de l’Illinois, du Kansas, du Missouri, de la Pennsylvanie et du Texas.Dans les télécommunications, la détection immédiate d’anomalies dites « mineures » sur le réseau est un challenge important : les outils habituels de contrôle ne remontent que les pannes majeures en temps réel.

Pour autant, un problème mineur sur un switch, un routeur ou une fibre, peut déclencher une cascade d’interruptions de service à une échelle bien plus importante, amenant bien sûr à de l’insatisfaction clientèle, et au risque de « churning » (clients changeant d’opérateur).

Afin de pouvoir contrôler l’ensemble du réseau de Consolidated, une analyse montra qu’il fallait prendre en compte un ensemble de plus de 80 000 indicateurs statistiques en quasi-temps réel, avec leur modélisation idoine de fonctionnement « normal » du réseau.

Avec une analyse de corrélations, associée à des techniques de séries temporelles, les erreurs « silencieuses » de configuration ou de congestions liées à des segments réseau spécifiques peuvent être détectées et corrigées. Cette solution permet désormais à l’opérateur de détecter 100% des incidents, d’éliminer la mise en place du traitement des seuils d’erreurs manuellement et d’économiser environ $300 000 par an.

DISTRIBUTIO NLa prédiction des conditions météorologiques est une branche historique de l'analyse de données qui a hautement contribuée à la recherche sur les techniques de la Data Science. Si l’utilisation managériale de la prédiction météorologique a été premièrement l’appanage du secteur financier, notamment dans le cadre de la couverture de risques sur stocks alimentaires via les contrats « future », elle se développe dans les domaines de la logistique et son corrolaire : la prédiction des ventes.

Cette dernière doit prendre en compte un nombre considérable de facteurs, incluant bien sûr les différents indicateurs météorologiques, mais aussi des indicateurs macro et micro économiques comme la saisonnalité des produits et services, la localisation géographique, ou les historiques de ventes.

meteolytix GmbH fourni ce service, basé sur une approche statistique de régression logistique en apprentissage permanent, et équipe une grande chaine de boulangeries dans la zone européenne germanophone, lui permettant d'optimiser l'approvisionnement de ses différents points de vente.

La chaîne constate un gain de temps compris entre deux à trois heures journalières par magasin dans la gestion et préparation des commandes ainsi qu’une réduction de 33% de ses invendus globaux. D’autre part, l’empreinte carbone diminue dans des proportions similaires, par conséquence de l’optimisation de la chaîne d’approvisionnement.

Quelques domaines d'application Source : IBM Big Data & Analytics

SYSTEMES D'INFORMATION400hBases de l’informatique (C1) Histoire de l’informatique, algorithmique, algèbre relationnelle Bases de données avancées (C2) Oracle, MS SQL, DB/2, ETL (intégrés SGDBR et Pentaho)Infrastructure cloud (C3) Suite Amazon AWS (EC2, S3, WorkSpace, IAM), Hadoop Web Sémantique (C4) OpenGraph, RDF-aOutils primaires (C5) MS Excel & Access (avec Visual Basic for Applications), Langage RSecurité (C6) Gestion d’annuaire d’entreprise (LDAP), Modèle RSA, Single Sign-onThéorie de l’Analyse et Conception des SI (C7) LAPAGE, E/R, UML

OUTILS BIG DATA400hOutils d’assistance à la conception des SI (B1) MS Visio, IBM Rational Rose, SAP PowerDesigner (C6, C2, C7)Reporting & Business Intelligence (B2) Microsoft Reporting, Crystal Report (C2, C4, C5) IBM Cognos, Business Object (C1, C2)Outils de l’analyse statistique (B3) IBM SPSS, Mathematica, Mathlab, Octave (C1, C4)Principes du Data Mining (B4) Méthodologies CRISP-DM, SAS SEMMA (C1, C3) Techniques (clustering, classification, text-mining etc.) (C2, C4) Principes, choix et utilisation des métriques (C1, C5, C6)Outils du Data Mining (B5) Built-in : Oracle Data Miner, MS SQL BI SAS Enterprise Miner Standalone : R, Weka, IBM SPSS Modeler (C1-C7)

Applications METIERS200HTronc Commun (150h, L1-L3)Business EnglishGestion de projet SI : Méthode PERT, Agile & Scrumm, PRINCE2 et/ou PMI (B1, B2, L3)Gestion des risques : Maintenance et migration des SI Financiers, Humains, Immatériels (B1, B3)Stockage et traitement distribué des grands volumes de données non structurées : Hadoop Distributed File System, Hadoop YARN, Apache Hive (B1, B4)Section « Scientifique » (50h, L4-5)Méthodes numériques spécifiques aux données scientifiques Feature Selection, Feature Extraction (B3, B4) Multifactor dimensionality reduction, Self Organising Map (B3, B5)Section « Business et Management » (50h, L4-5)Intégration de données et de modèles data mining dans les SI corporate Échange de données : Excel, ETL (Pentaho) (B1, B2) Échange de modèles: PMML, Microsoft DMX (B2, B5)

Parcours « Analyste Expert »(1 600h sur an ou 800h/an alternance)

DROIT100HÉthique des affaires (L1) Utilisations des données personnelles - Profiling clientDroit commercial (L2) Français Union Européenne InternationalPropriété et protection des données (L3) Personnelles CorporateOpen-Data (L4) Enjeux et possibilitéseReputation (L5) Périmètre juridique Défense

PROJETS450h Les candidats amènent leurs projets Big Data d’entreprise afin d’accélérer leur réalisation par l’apprentissage soutenu par DSTI. D’autres projets sont proposés par les entreprises partenaires I. Enfin, les candidats doivent s’inscrire sur des plateformes de concours Big Data, telles que datascience.net ou Kaggle.com90h d’encadrement par des enseignants de l’Institut, dans le respect des contraintes de confidentialité des projets.

JUNIOR CONSULTING50hDSTI prospecte des entreprises pour proposer des services de consulting sur des missions ponctuelles. Les candidats recevant la formation devront participer à ces missions, sur le modèle des « Juniors Entreprises », en respect des règles de non-concurrence et de confidentialité de leurs employeurs.

DOCTORATE IN BUSINESS ADMINISTRATION IAE DE NICE - UNIVERSITE NICE SOPHIA ANTIPOLISDSTI propose une opportunité unique, alliant la valeur ajoutée de la formation professionnelle à celle dʼun des plus prestigieux diplômes universitaires à caractère professionnel : le Doctorate in Business Administration.

L’Institut offrira à trois de ses ingénieurs et leurs employeurs, la possibilité d’opter, en substitution de l’activité Projet & Consulting, pour la préparation d’une thèse de DBA, dans le cadre du programme DBA de l’IAE NICE - Université Nice Sophia Antipolis.

Ce programme est labélisé par l’Executive DBA Council de l’Academy of Management.

La thèse de DBA porte traditionnellement sur une problématique d’entreprise, et se voit souvent réalisée par des ingénieurs s’élevant vers les hautes responsabilités managériales.

OU

SYSTEMES D'INFORMATION400hArchitecture (C1) Composants hot-swappable, RAID, fonctionnement dégradéBases de données avancées (C2) Oracle, MS SQL, DB/2, ETL (intégrés SGDBR et Pentaho)Approches No-SQL (C3) MapReduce/Hadoop, IBM Notes & DominoWeb Sémantique (C4) SPARQL, OpenGraph, RDF-aSystèmes d'exploitation (C5) Virtualisation, systèmes de fichiers distribuésSecurité (C6) Modèle RSA, architecture PKI, pénétration de systèmesAnalyse et Conception des SI (C7) LAPAGE, E/R, UMLSI Géographique (SIG) (C8) Google Maps API, MapServer, MapInfo, ArcView, ArcGIS

INFORMATIQUE SCIENTIFIQUE400hReporting & Business Intelligence (S1) Statistiques, probabilités, algèbre linéaire (C2, C3, C4, C7)Text Mining (analyse de données en langage naturel) (S2) Graphes & Arbres, inférence bayésienne, logique floue (C3, C4)Optimisation algorithmique (S3) Théorie des nombres, calcul différentiel, mécanique classique (C5, C6, C8)Traitement du signal (S4) Trigonométrie, théorie des transformations (C1, C5, C6)Data Mining : classification (S5) Géométries euclidienne et complexe, suites et séries (C4, C8)Data Mining : prédiction (S6) Thermodynamique, mécanique des fluides, (C2, C3, C8)Modélisation multi-agents (S7) Chaînes de Markov, approches Monte-Carlo, topologie électromagnétisme, relativité, théorie des jeux (C2, C3, C4, C6)

BUSINESS & MANAGEMENT300hMarketing CRM, inboud marketing, geo-marketing (S1, S5, S6, S7, L3, L4, L5)Stratégie eReputation, Sentiment Analysis, Linkedin Business Suite (S2, S3, S4, S6, L1-5)Communication Google Adwords, Facebook Advertising, Linkedin Advertising Théorie des couleurs, Business English (S2, S5, S6, L2, L3, L5)Gestion de projet Méthode PERT, Agile & Scrumm, PRINCE2 et/ou PMI (S5, S6, L2, L3)Gestion des risques Maintenance et migration des SI (S1, S3, S7, L1, L2, L3) Financiers, Humains, Immatériels I (S1, S2, S3, S5, S6, S7, L2)Finance Trading haute fréquence (S1, S3, S4, S5, S6, S7, L1, L2, L3) Titrisation & Corporate Finance (S1, S3, S4, S5, S6, S7, L2)

Parcours « Data Scientist Concepteur »(1 600h sur an ou 800h/an alternance)

DROIT100HÉthique des affaires (L1) Utilisations des données personnelles - Profiling clientDroit commercial (L2) Français Union Européenne InternationalPropriété et protection des données (L3) Personnelles CorporateOpen-Data (L4) Enjeux et possibilitéseReputation (L5) Périmètre juridique Défense

PROJETS350h Les projets sont proposés par les entreprises partenaires pour accélérer la pratique des Data Scientists formés par DSTI.70h d’encadrement par des enseignants de l’Institut, dans le respect des contraintes de confidentialité des projets.

JUNIOR CONSULTING50hDSTI prospecte des entreprises pour proposer des services de consulting sur des missions ponctuelles. Les candidats recevant la formation devront participer à ces missions, sur le modèle des « Juniors Entreprises », en respect des règles de non-concurrence et de confidentialité de leurs employeurs.

DOCTORATE IN BUSINESS ADMINISTRATION IAE DE NICE - UNIVERSITE NICE SOPHIA ANTIPOLISDSTI propose une opportunité unique, alliant la valeur ajoutée de la formation professionnelle à celle dʼun des plus prestigieux diplômes universitaires à caractère professionnel : le Doctorate in Business Administration.

L’Institut offrira à trois de ses ingénieurs et leurs employeurs, la possibilité d’opter, en substitution de l’activité Projet & Consulting, pour la préparation d’une thèse de DBA, dans le cadre du programme DBA de l’IAE NICE - Université Nice Sophia Antipolis.

Ce programme est labélisé par l’Executive DBA Council de l’Academy of Management.

La thèse de DBA porte traditionnellement sur une problématique d’entreprise, et se voit souvent réalisée par des ingénieurs s’élevant vers les hautes responsabilités managériales.

OU

Strategie pedagogiqueUn modèle de formation systémiqueDans les programmes présentés, chaque module est identifié par une lettre représentant le pilier du cursus, et par son numéro de séquence :

C: Computing - Informatique et Systèmes d’InformationS : Science - Informatique scientifiqueB : Business & ManagementL : Law - Droit

Les modules se complètent, en partant d’une base informatique, pour se pratiquer sur une approche spécialisée (scientifique ou opérationnelle), puis dans le cadre applicatif, orienté gestion ou métier. Le pilier juridique vient enrichir la mise en opération des compétences informatiques et scientifiques dans un cadre managérial.Data Science and Technology Institute propose ainsi un cursus particulièrement cohérent.

Approche des enseignementsLes candidats venant se spécialiser auprès de DSTI doivent avant tout se comporter comme des cadres ! Les enseignants-formateurs ont pour tâche d’animer les séances de cours et de travaux pratiques, en « ouvrant des clés » de connaissances, soulevant des questions, apportant des problématiques traitées par la recherche, mais pas forcément mises en application, puis de lancer des mini-projets par équipes sur ces sujets.Au-delà de leurs compétences dans leurs domaines, les enseignants sont recrutés sur leur expérience dans la liaison enseignement-industrie. Pour les intervenants venant du monde de l’enseignement et de la recherche, ils doivent justifier de dépôts de brevets et/ou de participation active à des partenariats industriels dans leurs laboratoires. Les intervenants professionnels devront eux posséder d’une expérience dans l’éducation et/ou formation professionnelle de leurs collaborateurs. Les enseignements seront délivrés en Français ou en Anglais, au choix de l’enseignant.

ÉvaluationLes enquêtes PISA et de l’OCDE soulignent régulièrement le manque d’adaptation du modèle de notation traditionnel Français à la société de la connaissance et du numérique. Nous proposons un système plus proche de l’évaluation d’entreprise, avec une double approche :

1. Chaque module de formation est doté d’une checklist de compétences critiques et subsidiaires à acquérir. Les enseignants-formateurs évaluent les acquis au fur et à mesure de l’avancée du programme. Ces checklists permettent de donner un feu vert pour le démarrage des projets et des missions de consulting.2. L’évaluation de ces projets et missions, mesurée par la satisfaction des donneurs d’ordres, sera le pilier de la délivrance du Certificat de Formation.

Dans le cadre de l’option «Doctorate in Business Administration», l’évaluation par checklist permet d’autoriser le démarrage et l’inscription en thèse. Le candidat est alors suivi par un directeur de thèse qui donne son accord à la soutenance une fois le mémoire de thèse rédigé.Enfin, le candidat soutient son travail devant un jury de thèse, à l’IAE NICE - Université Nice Sophia Antipolis.À noter: l’IAE NICE propose une période de trois ans pour achever sa thèse et la soutenir. Ce délai n’est en rien obligatoire.

PILOTAGE ET GOUVERNANCELe Conseil d’Administration (CA)La stratégie de DSTI et son exécution sont pilotées et contrôlées par un Conseil d’Administration, où siègent des représentants internes (PDG, DG) à l’entreprise ainsi que des administrateurs externes, nommés sur proposition des cadres dirigeants.

Le Conseil Scientifique et Pédagogique (CSP)Le contenu du programme DSTI est piloté par un conseil d’experts, venant à la fois du monde professionnel et académique.Le CSP est présidé par une personnalité avec elle-même un double actif académique et industriel, et comprendra :

• des professeurs / directeurs de recherche(enseignement supérieur et recherche)

• des experts nommés par les partenaires industriels de l’Institut (cf. § suivant)

• des experts représentants les acteurs locaux• les deux Directeurs Généraux

Les missions du CSP sont précises :1. La validation du programme dʼenseignement2. La stratégie dʼévolution du programme3. Lʼapprobation de recrutement des enseignants4. La stratégie de partenariat avec les acteurs de lʼenseignement et la recherche

Les partenariats industrielsData Science and Technology Institute répond à un nouveau métier. Tout comme Supélec fut portée par des industriels du XIX° pour soutenir la naissance d’une activité en pleine croissance, nous voulons construire DSTI autour de grands partenaires du XXI°.

Ces industriels pourront soutenir l’Institut par des engagements d’apport de candidats, de professeurs et de capitaux, notamment pour être représentés au Conseil Scientifique et Professionnel et bénéficier en priorité de la structure de bourses (cf. prospectus ci-joint)

Stratégie de développementAprès un démarrage d’exploitation sur les sites de Paris & de Nice Sophia-Antipolis, une première étape de développement de l’Institut passera par une stratégie d’implantation locale Française, sur les grands pôles d’activités numériques du territoire.

Viendra ensuite une phase exploratoire dans les différents pays de l’Union Européenne, afin de pouvoir y identifier les pays les plus NTIC-intensifs ainsi que sensibilisés à la problématique de la formation professionnelle supérieure.

Enfin, le développement international hors Europe sera envisagé, avec une priorité sur l’Amérique du Nord (Canada), le Moyen-Orient (Dubaï) et l’Asie (Singapour).

Un acteur de référence La France, tout comme l’Europe, commence à poser des bases de définition du métier de Data Scientist.

En France, via son système paritariste de branche, le SYNTEC structure et finance la formation des professions du numérique, de l’ingénierie et du conseil. Il fera à ne pas douter évoluer son référentiel métier en y incluant le profil du Data Scientist.

Ce dernier sera sûrement une évolution de l’Urbaniste des Systèmes d’Information, qui est actuellement la définition la plus proche du métier, sur laquelle DSTI s’est préoccupé de positionner son programme actuel.

En tant qu’organisme de formation, DSTI souhaite pouvoir activement contribuer à la construction du référentiel métier, afin de pouvoir toujours adapter son programme aux besoins de l’industrie.

Stratégie de notoriété : les MOOCAfin d’asseoir rapidement la notoriété internationale de Data Science and Technology Institute, une stratégie de mise en place de Massive Online Open Courses (MOOC) sera instituée dès le démarrage de la première année.

Il s’agira de construire une base multimédia pour structurer les modules clés de la Data Science et de les diffuser sur les plateformes MOOC les plus utilisées, telles que Coursera et/ou FUN (Ministère de l’Enseignement Supérieur et de la Recherche).

Pour autant, DSTI souhaite développer des MOOC « assistés », avec une présence locale, où les participants du MOOC viendraient ponctuellement recevoir des séances de travaux dirigés, avec des enseignants recrutés localement.

En complément du développement d’Instituts, cette stratégie permettra d’essaimer rapidement le concept de l’Institut dans des zones économiques clés, telles que l’Asie, l’Amérique du Sud, et l’Afrique, tout en limitant les coûts.