La "Data science" au service des entreprises

30
La Data science au service des entreprises Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle » 1 Présenté par: Aymen ZAAFOURI Année universitaire : 2014-2015

Transcript of La "Data science" au service des entreprises

Page 1: La "Data science" au service des entreprises

1

La Data science au service des entreprises

Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle »

Présenté par: Aymen ZAAFOURI

Année universitaire : 2014-2015

Page 2: La "Data science" au service des entreprises

2

Origines et principes de la data science

Outils techniques

Méthodes théoriques

Conclusion

Exemples de projets data science

Plan de la présentation

Page 3: La "Data science" au service des entreprises

3

Origines et principes de la Data science

Page 4: La "Data science" au service des entreprises

4

Origines de la data science• Une chute exponentielle des coûts de stockage• Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies

pour des besoins qui se créaient.

• les méthodes statistiques sophistiqués ont pris un essor considérable

Révolution majeure relative aux données, que ce soit en termes d’usage ou de quantité

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 5: La "Data science" au service des entreprises

5

Le Data scientist• Professionnel de la gestion et de l’analyse du Big data pour la stratégie et

l’opérationnel de l’entreprise.

• Maîtrise des concepts statistiques avancés • Excellente culture technique • Compréhension solide des enjeux métiers de son entreprise.

• « Une personne meilleure en statistique que n’importe quel développeur et meilleure en développement que n’importe quel statisticien » - Josh wills (Slack)

Mathématique TechnologieData

Science

Métier

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 6: La "Data science" au service des entreprises

6

BI vs Data ScienceBI Data Science

Répond aux questions :- Que s'est-il passé ? - Quand ? - Qui ? - Combien ?

- Pourquoi est-ce arrivé ? - Cela se reproduira-t-il ? - Que se passe-t-il si nous modifions x ?

Comprend :

- Rapports (KPI, éléments de mesure) - OLAP (cubes, permutation d'axes, exploration)- Tableaux de bord - Surveillance/alertes automatisées

-Analyse statistique/quantitative-Exploration de données-Modélisation/analytique prédictifs-Analyse textuelle

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 7: La "Data science" au service des entreprises

7

BI vs Data Science• Limites de la BI

oVolumétrie: Un datawarehouse de quelques téraoctets est très compliqué à maintenir.

oLes données non-structurées n’ont jamais été abordées par la Business Intelligence.

oLa BI temps réel: Architectures complexes, coûteuses et dont le retour sur investissement a toujours été contesté.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 8: La "Data science" au service des entreprises

8

Compréhension du besoin

Définir l’approche analytique

Exigence des Données

Collecte des données

Compréhension des données

Préparation des donnéesModélisation

Evaluation

Déploiement

Suivi

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 9: La "Data science" au service des entreprises

9

Outils techniques

Page 10: La "Data science" au service des entreprises

10

Outils techniquesTechnologies

Page 11: La "Data science" au service des entreprises

11

• Hadoop est un framework 100% open source, écrit en Java.• Scalabilité horizontale. • Ses performances évoluent en fonction du nombre de machines constituant le cluster. Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court!

• Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance.

Hadoop = MapReduce + HDFS

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 12: La "Data science" au service des entreprises

12

HDFSSe décompose en Namenode et plusieurs Datanodes:

o Les Datanodes regroupent les blocs de données en les répliquant.

o Le Namenode orchestre les données

MapReduceo Etape Map : La création d’une association pour

chaque observation des fichiers partitionnés, et la redistribution des clés sur les clusters.

o Etape Reduce : La réalisation d’une opération mathématique d’agrégation de valeurs par clés.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 13: La "Data science" au service des entreprises

13

• Projets liés à Hadoop: • Limites de Hadoop:

o Plusieurs fichiers de petites tailles car l’accès aux données est un peu lent.

o Calcul intensif utilisant des données de tailles réduites.

o Traitement séquentiel des données.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 14: La "Data science" au service des entreprises

14

• Créé en 2009 dans le laboratoire AMPLab • Ecrit en Scala.• Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque. • Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement

automatique moins coûteuses• Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque• Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque• Il est capable de travailler avec une partie des données en mémoire, une autre sur disque.

• L’un des concurrent de Spark : Apache Flink

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 15: La "Data science" au service des entreprises

15

NoSQL• Scalabilité horizontale• Haute disponibilité• Absence de shéma

Une technologie alternative et non pas concurrente

• 4 grandes familles: o Clé-Valeur : o Orientée colonnes :o Orientée graphes :o Orientée documents :

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Clé Valeur

BDD Clé-Valeur

Clé

Colonne 1 : valeur

Colonne 2 : valeur

Colonne 3 : valeur

BDD Orientée colonnes

Clé

Champs 1 : valeur

Champs 2 : valeur

Champs 3 : valeur

Champs 3 : valeur

BDD Orientée document

Nœud 3

Nœud 4

Nœud 2Nœud 1

BDD Orientée graphes

Page 16: La "Data science" au service des entreprises

16

• Moteur de recherche Open Source. • Les données sont indexées sous forme de documents. • Avantages:

o Simplicité : Sa mise en place est très simple.o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements.o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité.o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées.

• Le projet est mature et est déjà utilisé • En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 17: La "Data science" au service des entreprises

17

Outils techniquesLangages

Page 18: La "Data science" au service des entreprises

18

• Langage de programmation interprété dérivé de S

• un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité

• Logiciel libre de traitement des données et d'analyse statistiques

• Packages: e1071, ggplot2, tree, CORElearn, FactomineR, …

• Développé par des chercheurs à l’EPFL

• Basé sur le langage JAVA

• Avantages:o Scalabilité

o Multi-paradigmes

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

• Langage interprété, gratuit et facile à apprendre

• code facile à lire grâce aux indentations

• Scikit-learn: bibliothèque dédiée à l’apprentissage automatique

Page 19: La "Data science" au service des entreprises

19

Méthodes théoriques

Page 20: La "Data science" au service des entreprises

20

Méthodes théoriques

Techniques descriptives

Page 21: La "Data science" au service des entreprises

21

Méthodes de réduction des dimensions• Appelés aussi « Les méthodes de Statistique exploratoire

multidimensionnelle »

• Plusieurs méthodes selon la nature des variables: • ACP: Analyse en Composantes Principales• AFC: Analyse Factorielle des Correspondances• ACM: Analyse des correspondances multiples

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 22: La "Data science" au service des entreprises

22

Classification• Consiste à définir des classes: Individus statistiques homogènes• Découper l'ensemble des données étudiées en un ou plusieurs sous

ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible• Plusieurs méthodes de classification:

oHiérarchique ascendanteoK-means

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 23: La "Data science" au service des entreprises

23

Méthodes théoriques

Techniques prédictives

Page 24: La "Data science" au service des entreprises

24

Arbre de décision• représente un ensemble de choix sous la forme graphique d'un arbre.• Les différentes décisions possibles sont situés aux extrémités des

branches (les « feuilles » de l'arbre).• Les résultats sont atteints en fonction des décisions prises à chaque

étape.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Maitrise du sujet

Présentation à améliorer

NonOui

Temps dépassé

Présentation à améliorer

OuiNon

Bonne présentation

Page 25: La "Data science" au service des entreprises

25

Régression• La régression est un ensemble de méthodes utilisées pour analyser la

relation d'une variable par rapport à une ou plusieurs autres.• Plusieurs méthodes: • Régression linéaire simple• Régression linéaire multiple• Régression logistique dichotomique• Régression logistique multinomiale

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 26: La "Data science" au service des entreprises

26

Exemples de projets

Page 27: La "Data science" au service des entreprises

27

• 1er site E-commerce en France selon le CA• Croissance du volume d'affaires de 3,7 %• 78 millions de voyages vendus en un an• Une architecture basée sur Hadoop et

ElasticSearch• Des requêtes temps réel pour permettre

l’analyse de 25 millions de lignes de log (1To de données par jour.)

• Personnalisation des offres en fonction des profils grâce à un système de recommandation.

• Plus de 140 millions de recherches par mois.• Détection des requêtes où PagesJaunes.fr ne

fournit par le résultat attendu par l'utilisateur. • Analyse des requêtes pour améliorer les

résultats• Architecture basée sur ElasticSearch, Spark et

ZoomData.• Rendre l'in terface utilisateur plus personnelle

début 2016.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 28: La "Data science" au service des entreprises

28

Conclusion

Page 29: La "Data science" au service des entreprises

29

Conclusion• La BI et la Data science sont complémentaires.

• Les enjeux de la data sciences sont nombreux: • Objets connectés.• Achat et vente des données.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Page 30: La "Data science" au service des entreprises

30

Merci pour votre attention