Panorama des problématiques de traitement de...
Transcript of Panorama des problématiques de traitement de...
Panorama des problématiques de traitement de l’information
Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle
Conduite d’une étude statistique
Larbi Aït Hennani, maître de conférences en mathématiques
appliquées, IUT de Roubaix, Université Lille 2
Qu’est-ce que la Statistique ?
Petit Robert : Etude méthodique des faits sociaux par des procédés
numériques (classements, dénombrements, inventaires chiffrés, recensements) destinée à renseigner et à aider les gouvernements.
Ensemble de techniques d’interprétation mathématique appliquées à des phénomènes pour lesquels une étude exhaustive de tous les facteurs est impossible, à cause de leur grand nombre et de leur complexité.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 3
Qu’est-ce que la Statistique ?
« Statistique » : du latin statisticum (ce qui se rapporte à l’Etat)
Gottfried Achenwall (1746) : premier enseignement de la statistique (Allemagne)
En fait, origine plus ancienne : mot déjà utilisé dans un texte administratif de Colbert(vers 1666)
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 4
Qu’est-ce que la Statistique ?
XIVe siècle :
– Au début, la statistique a consisté à observer des faits : statistique descriptive
– Début des enregistrements des actes civils (naissances, mariages, décès)
XVIIe siècle :
– Probabilités estimations, prévisions
– Extrapolation à partir d’une partie de la population
– W. Petty: estimation de la population londonienne, 1686
• Juger d’après un échantillon:(problème de la représentativité)
• Statistique inférentielle
XXe siècle : développement des sondages (U.S.A.)
– 1885 : création de l’Institut International de la Statistique
– 1895 – 1925 : débat sur la représentativité
• A. Kiaer (Norvège) : « une partie pour le tout »
• Réactions violentes
– Après 1925 : « Comment tirer l’échantillon ? »
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 5
Qu’est-ce que la Statistique ?
La statistique fait partie de la culture anglo-saxonne
Culture probabiliste indispensable
Enorme retard en France
Causes :
Statistique: parent pauvre des probabilités et des mathématiques
L’«incertain» est antipédagogique (déstabilisant …)
Nette préférence pour l’enseignement de certitudes
Association obligatoire avec une autre discipline (biologie, gestion,...), cette approche pluridisciplinaire est encore mal acceptée
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 6
Qu’est-ce que la Statistique ?
La statistique est une discipline :
– Dans son sens actuel, elle est considérée comme un ensemble d’outils et de méthodes qu’on utilise pour étudier des phénomènes.
– A ne pas confondre avec les statistiques qui sont les données sur lesquelles on travaille ou les résultats qu’on obtient quand on applique les méthodes statistiques.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 7
Comment conduit-on une étude statistique ?
Une étude statistique peut être décomposée en 10 étapes :
Réception de la demande ou du cahier des charges
Réalisation d’une étude de faisabilité
Réalisation d’une étude exploratrice (documentaire, quantitative)
Définition des objectifs de l’étude
Détermination des informations à rechercher
Détermination de la population
Collecte de l’information
Traitement de l’information
Analyse des résultats
Synthèse et rédaction du rapport
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 8
Comment conduit-on une étude statistique ?
Le rassemblement des données se fait soit par expérimentation soit par observation.
L’analyse statistique se subdivise en deux parties : – l’une descriptive – l’autre inductive
L’analyse descriptive a pour but de résumer et de présenter les données sous forme telle que l’on puisse en prendre connaissance aisément (sous forme de tableau ou de graphique) et d’en dégager les caractéristiques essentielles.
La statistique inférentielle (inductive) permet de généraliser sous certaines conditions les résultats ainsi obtenus.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 9
Qu’est ce que la statistique descriptive ?
Elle peut être définie comme l’instrument qui permet de données un sens à l’information recueillie.
Elle rassemble et condense les informations pour dégager les caractéristiques essentielles qui se dissimulent dans une foule de données.
Les différentes méthodes qui permettent d’atteindre cet objectif peuvent être définies en fonction du nombre de variables qui vont être considérées simultanément.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 10
La statistique descriptive Son but est de synthétiser, résumer, structurer l’information contenue
dans les données. Elle utilise pour cela des représentations de données sous forme de
tableaux, de graphiques, d’indicateurs numériques. Elle s’est enrichie de techniques de visualisation de données
multidimensionnelles. Son rôle est de mettre en évidence les propriétés de l’échantillon et de
suggérer des hypothèses.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 11
Analyse des données
~ Régression linéaire simple et multiple ;
~ Analyse de la variance à un facteur ;
~ Analyse de la variance à deux facteurs ;
~ Segmentation ;
ACP (Analyse en Composantes Principales) ~ Analyse discriminante ;
AFC (Analyse Factorielle des Composantes) ~ Analyse des mesures conjointes ;
ACM (Analyse factorielle des Composantes Multiples) Analyse typologique : ~ Analyse canoniques.
~ Classification hiérarchique,
~ Classification non hiérarchique.
Analyse factorielle Classification
Analyse des données
Méthodes explicativesMéthodes descriptives
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 12
Statistique inférentielle
Son but est d’étendre les propriétés constatées sur l’échantillon à la population tout entière et de valider ou d’infirmer des hypothèses a priori ou formulées après une phase exploratoire.
Le calcul des probabilités y joue souvent un rôle fondamental.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 13
« Connaître, c’est mesurer » (Brunschvicg)
La statistique nous dit:
Comment effectuer les mesures
Comment extraire l’information des mesures
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 14
Information
Principale matière première du XXIe siècle
Sa production et son exploitation
statisticiens
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 15
Statisticiens
Statisticiens : interlocuteurs privilégiés des décideurs dans
tous les secteurs d’activité :
– politique économique
– sciences
– industrie
– …
et à tous les niveaux :
– collecte de données
– conception des systèmes d’information
– contrôle de la production
– analyse et restitution des données
– …
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 16
Domaines d’utilisation de la statistique
Statistiques officielles (I.N.S.E.E.) Presse – medias Banques – assurances Sciences de la vie Environnement ( foresterie, pêche …) Santé Sciences humaines Entreprises – industrie (contrôle de qualité, études de
marché, management, …) Finance Recherche fondamentale et appliquée …
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 17
L’informatique décisionnelle (Business Intelligence) et nouveaux
enjeux : le Big Data
Fatma Bouali, maître de conférences en informatique, IUT de Roubaix,
Université Lille 2
Plan L’informatique décisionnelle (Business
Intelligence)
Le «Big data»
Exemples d’usage des « Big Data »
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 19
Informatique Décisionnelle
L’informatique décisionnelle (en anglais : BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent :
collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision
de permettre à un décideur d’avoir une vue d’ensemble (transversale) de l’activité traitée.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 20
Informatique Décisionnelle
Exemple d’une application « simple » en informatique décisionnelle : Homengo
Plusieurs sources de données :
Annonces immobilières
Données issues de l’open data ( Lycées, Parcs, Service Publics)
Données d’INSEE (Recensement, ..)
…
• Fournir à un individu des informations pour l’aider dans la décision du choix de son logement
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 21
Architecture Décisionnelle
Base de données
Fichiers
Transform
Load
Data Warehouse
Portail
Dashboard
Datamining
OLAP
Reporting
Collecter Exploiter Stocker Distribuer
Extract
Extract
Extract
Sources de données internes
Sources de données externes
Informatique Décisionnelle
Une enquête (Gartner Group) – menée dans le monde entier
– quatrième trimestre de 2012
– dans 41 pays
– 2053 entreprises
– 36 secteurs d’activités
a révélé que la première priorité des entreprises est : « Analystics and Business Intelligence »
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 23
Informatique Décisionnelle
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 24
Big Data
(Données massives)
Ensembles de données qui deviennent tellement gros qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données.
Volume
Vélocité Variété
• Une autre définition communément admise : celle des 3V volume, variété, vélocité [Gartner Group]
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 25
Big Data
2005 2006 2007 2008 2009 2010 2011
0
400
800
1200
1600
2000Exabytes
[source: The Diverse and Exploding Digital Universe, IDC 2011]
Volume : volumes traités sont dans l’ordre du péta-octet
Plus de données ont été créé ces 3 dernières années que pendant les 40.000 années précédentes
Tous les deux jours : masse de donnée produite = masse de données numérisée jusqu'en 2003
2011 dans le monde : 1,8 zéta-octets
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 26
Big Data
Variété
Données interpersonnelles communications électroniques, e-mails, réseaux sociaux…
Données d’interaction homme-machine : transactions comme les archives des cartes bancaires, des historiques de navigation web…
Données inter-machine : GPS, caméras de surveillance, géolocalisation, « compteurs intelligents » ….
4.6 milliards de téléphones-caméra
100 millions de GPS vendus
annuellement 76 millions de compteurs intelligents en 2009
200 millions prévus en 2014
30 milliards de RFID
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 27
Big Data
Vélocité : rythme de renouvellement et de défilement des données
45 milliards d’e-mails envoyés par jour
50 millions de tweets postés dans le monde.
165 millions de transactions bancaires quotiennes dans la zone euro
…
12 téra_octets de tweets chaque jour
25 téra_octets de données log générées tous les jours
? téra_octets de données générées
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 28
Nouvelles technologies, nouveaux
métiers, nouveaux enjeux… Nouveaux enjeux
Comment exploiter ces nouveaux volumes de données? Comment les stocker? Comment les traiter? Comment les visualiser? Nouvelles technologies Bases de données distribuées Traitement de données distribué Analyse d'événements en temps réel Cloud Computing
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 29
Source [MarkessInternational 2012]
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 30
Exemples d’outils utilisés dans le big data
apprentissage automatique apprentissage supervisé apprentissage non supervisé apprentissage de règles
d’association classification réseaux de Neurones analyse typologique algorithmes génétiques intégration de données Traitement du langage naturel reconnaissance des formes
statistique exploration de données séries chronologiques analyse de réseaux modélisation prédictive régression analyse des sentiments traitement de signal analyse spatiale simulation visualisation Le test A / B ..
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 31
Exemples d’applications du big data
Projet « Artemis » University of Ontario Institute of Technology : service de néonatalogie.
Recherche de solutions permettant l’analyse « à la volée » de grands volumes de données
– Anticiper les défaillances de nourrissons prématurés.
Mise en place d’une solution big data
Résultats & bénéfices :
– diminution significative du taux de mortalité
– détection avec 24 heures d’avance des défaillances des nourrissons prématurés
– augmentation du temps de réflexion et de réaction disponible pour les médecins face aux problèmes.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 32
Exemples d’applications du big data
Une marque d'équipements sportifs analyse le sentiment des consommateurs au travers des messages déposés sur 2 600 blogs pour comprendre si le bon message est véhiculé.
la ville d'Ottawa analyse des données météo pour placer en temps réel ses équipes urgentistes.
les opérateurs télécoms analysent les données de smartphones (géolocalisation, numéros appelés, sites visités) afin de pouvoir retrouver tout événement en moins de 30 minutes afin d'optimiser leurs réseaux.
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 33
Big Data : des milliers d’emplois en perspective
Etats-Unis : 190 000 postes d’« analystes BI » et de « data scientists » à pourvoir annoncés Source : [rapport McKinsey 2012]
France 20 000 à 30 000 postes
Aussi recherchés que les « traders »
« … Que ce soit dans la grande distribution, chez les opérateurs télécom ou dans le secteur public, on voit poindre un intérêt pour ces profils d’analystes BI ou big data à triple culture, informatique, modélisation mathématique et culture économique au sens large, qui n’auront pas forcément la même image que les traders, mais sont promis à un bel avenir »
Source : [http://www.lemagit.fr/economie/carriere] 2012
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 34
Analyse de données sur la réussite à la session 2010 du baccalauréat
par lycée Vincent Vandewalle, maître de conférences en mathématiques
appliquées, IUT de Roubaix, Université Lille 2
Tableau de données
Etablissement Ville
Code Etablissement Commune
Secteur Public=1 Privé=2
Effectif Présents série L
Effectif Présents série ES
Effectif Présents série S
Effectif Présents série STG
LYCEE HONORE DE BALZAC PARIS 0750705J 75117 PU 46 65 80 43
LYCEE SIMONE WEIL PARIS 03 0750651A 75103 PU 26 80
LYCEE TURGOT PARIS 03 0750647W 75103 PU 20 58 56 85
LYCEE VICTOR HUGO PARIS 03 0750648X 75103 PU 46 82
LYCEE CHARLEMAGNE PARIS 04 0750652B 75104 PU 34 203
LYCEE DES FRANCS BOURGEOIS PARIS 04 0753820V 75104 PR 16 76 93 21
LYCEE MASSILLON PARIS 04 0753824Z 75104 PR 47 37 52
LYCEE SOPHIE GERMAIN PARIS 04 0750653C 75104 PU 41 82 66 34
http://www.data.gouv.fr/DataSet/30377766
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 36
Détails du tableau de données
Indicateurs sur les résultats de lycées généraux et technologiques pour la session 2010 du baccalauréat : – Effectif des baccalauréats généraux et technologiques
par lycée
– Taux de réussite au baccalauréat
– Taux de réussite attendu au baccalauréat
– Taux d’accès baccalauréat
– Proportion de bachelier parmi les sortants
– …
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 37
Le nettoyage des données : une étape nécessaire mais délicate
ND signifie que la donnée est manquante
Les blancs peuvent signifier soit 0 soit une valeur manquante
Certains pourcentages suivis de la lettre a, b, (1) ou *
Certaines cellules avec uniquement une virgule
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 38
Exemples de questions
Comment se distribue le taux de réussite au baccalauréat ?
Y-a-t ’il une relation entre le taux de réussite au baccalauréat et l’académie ? et la filière ? et le secteur ?
Comment visualiser l’ensemble des lycées sur un plan en prenant en compte simultanément tous ces indicateurs ?
Peut-on construire des groupes de lycées homogènes vis-à-vis de ces indicateurs ?
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 39
Distribution du taux de réussite au baccalauréat
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 40
Lycées avec un pourcentage de réussite entre 99,5% et 100%
71 lycées avec un taux de réussite de 100%
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 41
Academie PARIS VERSAILLES CRETEIL AIX-MARSEILLE GRENOBLE LILLE NANTES LYON MONTPELLIER
Nombre de lycées avec 100% de réussite
17 15 10 5 5 4 4 3 3
Academie STRASBOURG NANCY-METZ TOULOUSE CAEN CLERMONT-FERRAND LA REUNION NICE
ORLEANS-TOURS RENNES
Nombre de lycées avec 100% de réussite
3 2 2 1 1 1 1 1 1
Lien entre le taux de réussite au baccalauréat et l ’académie
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 42
Taux de réussite au baccalauréat et l ’académie
Y-a-t’il une différence statistiquement significative entre les taux de réussite moyens des différentes académies ?
Modèle : 𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 +𝜀𝑖𝑗
– 𝑌𝑖𝑗 : taux de réussite pour le lycée 𝑗 de l’académie 𝑖
– 𝜇 : taux de réussite moyen
– 𝛼𝑖 : l’effet de l’académie 𝑖
– 𝜀𝑖𝑗 : terme de bruit
Test d’hypothèse : les 𝛼𝑖 sont-ils tous identiques ?
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 43
Visualisation de l’ensemble des lycées
5 variables :
– taux d’accès au bac après une seconde
– taux d’accès au bac après une première
– taux de réussite obtenu
– pourcentage de bachelier parmi les sortants de première, seconde, terminale
– pourcentage de bachelier parmi les sortants de terminale
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 44
Visualisation de l’ensemble des lycées
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 45
Visualisation de l’ensemble des lycées
Analyse en composantes principales (ACP) : recherche des axes de plus grande variance
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 46
Visualisation de l’ensemble des lycées
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 47
Corrélations entre les anciennes et le nouvelles variables
Construction de groupes de lycées homogènes
21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 48