1
La Data science au service des entreprises
Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle »
Présenté par: Aymen ZAAFOURI
Année universitaire : 2014-2015
2
Origines et principes de la data science
Outils techniques
Méthodes théoriques
Conclusion
Exemples de projets data science
Plan de la présentation
3
Origines et principes de la Data science
4
Origines de la data science• Une chute exponentielle des coûts de stockage• Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies
pour des besoins qui se créaient.
• les méthodes statistiques sophistiqués ont pris un essor considérable
Révolution majeure relative aux données, que ce soit en termes d’usage ou de quantité
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
5
Le Data scientist• Professionnel de la gestion et de l’analyse du Big data pour la stratégie et
l’opérationnel de l’entreprise.
• Maîtrise des concepts statistiques avancés • Excellente culture technique • Compréhension solide des enjeux métiers de son entreprise.
• « Une personne meilleure en statistique que n’importe quel développeur et meilleure en développement que n’importe quel statisticien » - Josh wills (Slack)
Mathématique TechnologieData
Science
Métier
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
6
BI vs Data ScienceBI Data Science
Répond aux questions :- Que s'est-il passé ? - Quand ? - Qui ? - Combien ?
- Pourquoi est-ce arrivé ? - Cela se reproduira-t-il ? - Que se passe-t-il si nous modifions x ?
Comprend :
- Rapports (KPI, éléments de mesure) - OLAP (cubes, permutation d'axes, exploration)- Tableaux de bord - Surveillance/alertes automatisées
-Analyse statistique/quantitative-Exploration de données-Modélisation/analytique prédictifs-Analyse textuelle
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
7
BI vs Data Science• Limites de la BI
oVolumétrie: Un datawarehouse de quelques téraoctets est très compliqué à maintenir.
oLes données non-structurées n’ont jamais été abordées par la Business Intelligence.
oLa BI temps réel: Architectures complexes, coûteuses et dont le retour sur investissement a toujours été contesté.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
8
Compréhension du besoin
Définir l’approche analytique
Exigence des Données
Collecte des données
Compréhension des données
Préparation des donnéesModélisation
Evaluation
Déploiement
Suivi
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
9
Outils techniques
10
Outils techniquesTechnologies
11
• Hadoop est un framework 100% open source, écrit en Java.• Scalabilité horizontale. • Ses performances évoluent en fonction du nombre de machines constituant le cluster. Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court!
• Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance.
Hadoop = MapReduce + HDFS
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
12
HDFSSe décompose en Namenode et plusieurs Datanodes:
o Les Datanodes regroupent les blocs de données en les répliquant.
o Le Namenode orchestre les données
MapReduceo Etape Map : La création d’une association pour
chaque observation des fichiers partitionnés, et la redistribution des clés sur les clusters.
o Etape Reduce : La réalisation d’une opération mathématique d’agrégation de valeurs par clés.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
13
• Projets liés à Hadoop: • Limites de Hadoop:
o Plusieurs fichiers de petites tailles car l’accès aux données est un peu lent.
o Calcul intensif utilisant des données de tailles réduites.
o Traitement séquentiel des données.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
14
• Créé en 2009 dans le laboratoire AMPLab • Ecrit en Scala.• Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque. • Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement
automatique moins coûteuses• Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque• Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque• Il est capable de travailler avec une partie des données en mémoire, une autre sur disque.
• L’un des concurrent de Spark : Apache Flink
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
15
NoSQL• Scalabilité horizontale• Haute disponibilité• Absence de shéma
Une technologie alternative et non pas concurrente
• 4 grandes familles: o Clé-Valeur : o Orientée colonnes :o Orientée graphes :o Orientée documents :
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
Clé Valeur
BDD Clé-Valeur
Clé
Colonne 1 : valeur
Colonne 2 : valeur
Colonne 3 : valeur
BDD Orientée colonnes
Clé
Champs 1 : valeur
Champs 2 : valeur
Champs 3 : valeur
Champs 3 : valeur
BDD Orientée document
Nœud 3
Nœud 4
Nœud 2Nœud 1
BDD Orientée graphes
16
• Moteur de recherche Open Source. • Les données sont indexées sous forme de documents. • Avantages:
o Simplicité : Sa mise en place est très simple.o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements.o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité.o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées.
• Le projet est mature et est déjà utilisé • En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
17
Outils techniquesLangages
18
• Langage de programmation interprété dérivé de S
• un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité
• Logiciel libre de traitement des données et d'analyse statistiques
• Packages: e1071, ggplot2, tree, CORElearn, FactomineR, …
• Développé par des chercheurs à l’EPFL
• Basé sur le langage JAVA
• Avantages:o Scalabilité
o Multi-paradigmes
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
• Langage interprété, gratuit et facile à apprendre
• code facile à lire grâce aux indentations
• Scikit-learn: bibliothèque dédiée à l’apprentissage automatique
19
Méthodes théoriques
20
Méthodes théoriques
Techniques descriptives
21
Méthodes de réduction des dimensions• Appelés aussi « Les méthodes de Statistique exploratoire
multidimensionnelle »
• Plusieurs méthodes selon la nature des variables: • ACP: Analyse en Composantes Principales• AFC: Analyse Factorielle des Correspondances• ACM: Analyse des correspondances multiples
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
22
Classification• Consiste à définir des classes: Individus statistiques homogènes• Découper l'ensemble des données étudiées en un ou plusieurs sous
ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible• Plusieurs méthodes de classification:
oHiérarchique ascendanteoK-means
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
23
Méthodes théoriques
Techniques prédictives
24
Arbre de décision• représente un ensemble de choix sous la forme graphique d'un arbre.• Les différentes décisions possibles sont situés aux extrémités des
branches (les « feuilles » de l'arbre).• Les résultats sont atteints en fonction des décisions prises à chaque
étape.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
Maitrise du sujet
Présentation à améliorer
NonOui
Temps dépassé
Présentation à améliorer
OuiNon
Bonne présentation
25
Régression• La régression est un ensemble de méthodes utilisées pour analyser la
relation d'une variable par rapport à une ou plusieurs autres.• Plusieurs méthodes: • Régression linéaire simple• Régression linéaire multiple• Régression logistique dichotomique• Régression logistique multinomiale
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
26
Exemples de projets
27
• 1er site E-commerce en France selon le CA• Croissance du volume d'affaires de 3,7 %• 78 millions de voyages vendus en un an• Une architecture basée sur Hadoop et
ElasticSearch• Des requêtes temps réel pour permettre
l’analyse de 25 millions de lignes de log (1To de données par jour.)
• Personnalisation des offres en fonction des profils grâce à un système de recommandation.
• Plus de 140 millions de recherches par mois.• Détection des requêtes où PagesJaunes.fr ne
fournit par le résultat attendu par l'utilisateur. • Analyse des requêtes pour améliorer les
résultats• Architecture basée sur ElasticSearch, Spark et
ZoomData.• Rendre l'in terface utilisateur plus personnelle
début 2016.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
28
Conclusion
29
Conclusion• La BI et la Data science sont complémentaires.
• Les enjeux de la data sciences sont nombreux: • Objets connectés.• Achat et vente des données.
Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets
data science Conclusion
30
Merci pour votre attention
Top Related