La "Data science" au service des entreprises

Post on 08-Jan-2017

1.060 views 0 download

Transcript of La "Data science" au service des entreprises

1

La Data science au service des entreprises

Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle »

Présenté par: Aymen ZAAFOURI

Année universitaire : 2014-2015

2

Origines et principes de la data science

Outils techniques

Méthodes théoriques

Conclusion

Exemples de projets data science

Plan de la présentation

3

Origines et principes de la Data science

4

Origines de la data science• Une chute exponentielle des coûts de stockage• Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies

pour des besoins qui se créaient.

• les méthodes statistiques sophistiqués ont pris un essor considérable

Révolution majeure relative aux données, que ce soit en termes d’usage ou de quantité

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

5

Le Data scientist• Professionnel de la gestion et de l’analyse du Big data pour la stratégie et

l’opérationnel de l’entreprise.

• Maîtrise des concepts statistiques avancés • Excellente culture technique • Compréhension solide des enjeux métiers de son entreprise.

• « Une personne meilleure en statistique que n’importe quel développeur et meilleure en développement que n’importe quel statisticien » - Josh wills (Slack)

Mathématique TechnologieData

Science

Métier

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

6

BI vs Data ScienceBI Data Science

Répond aux questions :- Que s'est-il passé ? - Quand ? - Qui ? - Combien ?

- Pourquoi est-ce arrivé ? - Cela se reproduira-t-il ? - Que se passe-t-il si nous modifions x ?

Comprend :

- Rapports (KPI, éléments de mesure) - OLAP (cubes, permutation d'axes, exploration)- Tableaux de bord - Surveillance/alertes automatisées

-Analyse statistique/quantitative-Exploration de données-Modélisation/analytique prédictifs-Analyse textuelle

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

7

BI vs Data Science• Limites de la BI

oVolumétrie: Un datawarehouse de quelques téraoctets est très compliqué à maintenir.

oLes données non-structurées n’ont jamais été abordées par la Business Intelligence.

oLa BI temps réel: Architectures complexes, coûteuses et dont le retour sur investissement a toujours été contesté.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

8

Compréhension du besoin

Définir l’approche analytique

Exigence des Données

Collecte des données

Compréhension des données

Préparation des donnéesModélisation

Evaluation

Déploiement

Suivi

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

9

Outils techniques

10

Outils techniquesTechnologies

11

• Hadoop est un framework 100% open source, écrit en Java.• Scalabilité horizontale. • Ses performances évoluent en fonction du nombre de machines constituant le cluster. Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court!

• Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance.

Hadoop = MapReduce + HDFS

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

12

HDFSSe décompose en Namenode et plusieurs Datanodes:

o Les Datanodes regroupent les blocs de données en les répliquant.

o Le Namenode orchestre les données

MapReduceo Etape Map : La création d’une association pour

chaque observation des fichiers partitionnés, et la redistribution des clés sur les clusters.

o Etape Reduce : La réalisation d’une opération mathématique d’agrégation de valeurs par clés.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

13

• Projets liés à Hadoop: • Limites de Hadoop:

o Plusieurs fichiers de petites tailles car l’accès aux données est un peu lent.

o Calcul intensif utilisant des données de tailles réduites.

o Traitement séquentiel des données.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

14

• Créé en 2009 dans le laboratoire AMPLab • Ecrit en Scala.• Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque. • Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement

automatique moins coûteuses• Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque• Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque• Il est capable de travailler avec une partie des données en mémoire, une autre sur disque.

• L’un des concurrent de Spark : Apache Flink

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

15

NoSQL• Scalabilité horizontale• Haute disponibilité• Absence de shéma

Une technologie alternative et non pas concurrente

• 4 grandes familles: o Clé-Valeur : o Orientée colonnes :o Orientée graphes :o Orientée documents :

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Clé Valeur

BDD Clé-Valeur

Clé

Colonne 1 : valeur

Colonne 2 : valeur

Colonne 3 : valeur

BDD Orientée colonnes

Clé

Champs 1 : valeur

Champs 2 : valeur

Champs 3 : valeur

Champs 3 : valeur

BDD Orientée document

Nœud 3

Nœud 4

Nœud 2Nœud 1

BDD Orientée graphes

16

• Moteur de recherche Open Source. • Les données sont indexées sous forme de documents. • Avantages:

o Simplicité : Sa mise en place est très simple.o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements.o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité.o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées.

• Le projet est mature et est déjà utilisé • En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

17

Outils techniquesLangages

18

• Langage de programmation interprété dérivé de S

• un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité

• Logiciel libre de traitement des données et d'analyse statistiques

• Packages: e1071, ggplot2, tree, CORElearn, FactomineR, …

• Développé par des chercheurs à l’EPFL

• Basé sur le langage JAVA

• Avantages:o Scalabilité

o Multi-paradigmes

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

• Langage interprété, gratuit et facile à apprendre

• code facile à lire grâce aux indentations

• Scikit-learn: bibliothèque dédiée à l’apprentissage automatique

19

Méthodes théoriques

20

Méthodes théoriques

Techniques descriptives

21

Méthodes de réduction des dimensions• Appelés aussi « Les méthodes de Statistique exploratoire

multidimensionnelle »

• Plusieurs méthodes selon la nature des variables: • ACP: Analyse en Composantes Principales• AFC: Analyse Factorielle des Correspondances• ACM: Analyse des correspondances multiples

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

22

Classification• Consiste à définir des classes: Individus statistiques homogènes• Découper l'ensemble des données étudiées en un ou plusieurs sous

ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible• Plusieurs méthodes de classification:

oHiérarchique ascendanteoK-means

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

23

Méthodes théoriques

Techniques prédictives

24

Arbre de décision• représente un ensemble de choix sous la forme graphique d'un arbre.• Les différentes décisions possibles sont situés aux extrémités des

branches (les « feuilles » de l'arbre).• Les résultats sont atteints en fonction des décisions prises à chaque

étape.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

Maitrise du sujet

Présentation à améliorer

NonOui

Temps dépassé

Présentation à améliorer

OuiNon

Bonne présentation

25

Régression• La régression est un ensemble de méthodes utilisées pour analyser la

relation d'une variable par rapport à une ou plusieurs autres.• Plusieurs méthodes: • Régression linéaire simple• Régression linéaire multiple• Régression logistique dichotomique• Régression logistique multinomiale

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

26

Exemples de projets

27

• 1er site E-commerce en France selon le CA• Croissance du volume d'affaires de 3,7 %• 78 millions de voyages vendus en un an• Une architecture basée sur Hadoop et

ElasticSearch• Des requêtes temps réel pour permettre

l’analyse de 25 millions de lignes de log (1To de données par jour.)

• Personnalisation des offres en fonction des profils grâce à un système de recommandation.

• Plus de 140 millions de recherches par mois.• Détection des requêtes où PagesJaunes.fr ne

fournit par le résultat attendu par l'utilisateur. • Analyse des requêtes pour améliorer les

résultats• Architecture basée sur ElasticSearch, Spark et

ZoomData.• Rendre l'in terface utilisateur plus personnelle

début 2016.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

28

Conclusion

29

Conclusion• La BI et la Data science sont complémentaires.

• Les enjeux de la data sciences sont nombreux: • Objets connectés.• Achat et vente des données.

Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets

data science Conclusion

30

Merci pour votre attention