Introduction au BIG DATA

26
INTRODUCTION DU SUJET AIT EL MOUDEN Zakariyaa

Transcript of Introduction au BIG DATA

Page 1: Introduction au BIG DATA

INTRODUCTION DU SUJET

AIT EL MOUDEN Zakariyaa

Page 2: Introduction au BIG DATA

Définition Les big data, littéralement les « grosses données »,

ou mégadonnées, désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion

de base de données ou de gestion de l'information.-wikipédia-

2

Page 3: Introduction au BIG DATA

D’où vient les données ?

Les applications et les services professionnels:

- ERP ’Entreprise Resource planning’

en français « progiciel de gestion intégré » (PGI) : Ce type de logiciel correspond, pour une organisation, au support de base capable d'assurer une « gestion intégrée», définie comme étant l'interconnexion et l'intégration de l'ensemble des fonctions de l'entreprise dans un système informatique centralisé (et généralement configuré selon le mode client-serveur).

Les sources de production des données :

3

Page 4: Introduction au BIG DATA

- CRM ’Customer Relationship Management’

en français « La gestion de la relation client » (GRC) : est l'ensemble des outils et techniques destinés à capter, traiter, analyser les informations relatives aux clients et aux prospects, dans le but de les fidéliser en leur offrant le meilleur service

- SCM ‘supply chain management’

en français «gestion de la chaîne logistique» (GCL)

vise à garantir l'organisation et la qualité du service logistique en conformité avec les dispositions figurant au cahier des charges logistique.

- les outils de production de contenu et de bureautique (série office) ou les intranets, etc.

Les sources de production des données : (suite)

4

Page 5: Introduction au BIG DATA

Le Web

En utilisant le Web, Les entreprises et les organisations créent

un volume considérable de données (sites d’actualités, e-commerce, publicités … )

Avec l’utilisation des moteurs de recherche et les annuaires

dans le web, le nombre des données crées est de plus en plus

innombrables.

"Nous créons actuellement en deux jours autant d'information que nous en avions créée depuis la naissance de la civilisation jusqu'en 2003".

rappelait récemment Eric Schmidt, Chairman de Google.

Les sources de production des données : (suite)

5

Page 6: Introduction au BIG DATA

Les Media sociaux

Avec le développement des outils d’expression (le Web 2.0) ces

dix dernières années, le volume des données produites à eu une croissance phénoménale.

exemples :

Réseaux sociaux : facebook, twitter, youtube, etc

Plateformes de partage : SlideShare, Flickr, Instagram, etc

Statistique :

Chaque minute, plus de 30 heures de vidéo sont uploadées sur YouTube, 2 millions de posts sont publiés sur Facebook et

100.000 tweets diffusés sur Twitter.

Les sources de production des données : (suite)

6

Page 7: Introduction au BIG DATA

Le Mobile

Avec l’évolution du mobile, et l’apparition du ‘smartphone’, Le

téléphone mobile est devenu une source respectable de production des données.

Les statistiques prouvent qu’ il y a actuellement 4 fois plus de téléphone mobiles en usage que des ordinateurs et tablettes.

Statistique :

A la fin 2013, l'App Store de Apple et Google Play auront

dépassé les 50 milliards d'applications téléchargées.

Les sources de production des données : (suite)

7

Page 8: Introduction au BIG DATA

Internet des objets (IdO)

en anglais « Internet Of Things » (IoT)

un réseau qui permet, via des systèmes d’identification électronique normalisés et sans fil, d’identifier et de communiquer numériquement avec des objets physiques afin de pouvoir mesurer et échanger des données entre les mondes physiques et virtuels.

L'internet des objets est considéré comme la troisième évolution de l'Internet, baptisée Web 3.0

Les sources de production des données : (suite)

8

Page 9: Introduction au BIG DATA

Les catégories des données Données Structurées

les informations structurées sont disposées de façon à être traitées automatiquement et efficacement par un logiciel, mais non nécessairement par un humain.

La ligne de code Java : int salaire = 6000; String nom=« Ali";

est un exemple simple d’informations structurées ,nous connaissons les valeurs, dont le nom est associé à la fonction. Nous pouvons ici supposer que le nom de l’individu est Jean et que son salaire est de 6 000 Dh.

Par opposition, la chaîne de caractères « Ali gagne un salaire de 60 000 dirhams » n’est pas structurée, car nous ne pouvons nous attendre à ce qu’un logiciel puisse lire et comprendre une phrase écrite en français.

9

Page 10: Introduction au BIG DATA

Les catégories des données (suite) Le plus souvent, nous disposons les informations structurées

dans des tableaux, comme dans une base de données

relationnelle

Nom Salaire

Ali 6000

Mohammed 7000

10

Page 11: Introduction au BIG DATA

Les catégories des données (suite) Les données non structurées

Il est impossible de tout stocker sous la forme d’informations

structurées (p. ex. lettres, courriels, livres, rapports, collections d’images ou de vidéos, brevets, images satellites, offres de service et CV, appels d’offre). Il s’agit pourtant d’informations que les organisations doivent traiter.

Les big data sont généralement des données semi structurées.

11

Page 12: Introduction au BIG DATA

Les dimensions du BIG DATA

Les dimensions du big data

Volume

Vitesse

Variété

Véracité

Visibilité

Valeur

12

Page 13: Introduction au BIG DATA

Le Volume : Le premier concept qui intervient dans la notion

du big data, données en petabyte( 1015 bytes )

La Vitesse : Analyse et exploitation des données en temps réel.

La Variété : Les données sont non structurées, et de plus sont de

formats différents (images, texte, sons, vidéos , etc.)

La Valeur : Les données concernées sont de valeur importante

dans l’entreprise.

Les 4v principaux

13

Page 14: Introduction au BIG DATA

Pourquoi la notion du big data est récente ? L’expression « Big data » fait finalement son apparition en

octobre 1997 dans la bibliothèque numérique de l’ACM*, au sein d’articles scientifiques qui pointent du doigt les défis technologiques à visualiser les « grands ensembles de données ». Le Big data est né, et avec lui ses nombreux défis..

*Association For Computing Machinery, association américaine à but non lucratif fondée en 1947 et vouée à l’informatique. Sa bibliothèque numérique est particulièrement riche quand il s’agit de retracer l’histoire

de la discipline.

14

Page 15: Introduction au BIG DATA

Facteurs de naissance du Big data

Le cout du stockage : Ce concept n’est plus un problème majeur pour les entreprises avec l’apparition du Cloud Computing.

Réseaux à très haut débit (THD) : Le stockage des données dans des serveurs distants n’est pas une vrai solution sans un réseau hait débit pour atteindre ces données avec une transparence à la localisation.

Evolution des technologie de gestion et d’analyse des données :Analyse et gestion en temps réel

15

Page 16: Introduction au BIG DATA

Usages des Big Data Optimisation

Optimisation du temps de calcul, recherche, traitement des données, etc.

exemple:

Une société de de fabrication d’éoliennes nommée Vestas , utilise les ‘ big data analytics ’ d’IBM pour décider la localisation d’éoliennes en optimisant le temps de traitement des données variées et non structurées (données météorologiques et géo spatiales, des images satellites, etc. )

>> résultat fournit en quelques heures, au lieu des études qui prennent des semaines sur terrain.

16

Page 17: Introduction au BIG DATA

Tracer et cibler

Les big data permettent d’analyser la situation et le contexte de millier de personnes en temps réel.

Application : (big data dans l’aéroport)

les passagers doivent obligatoirement passer un certain nombre de tests de sécurité (ce qui génère du stress, des temps d’attente).

Une application de géolocalisation dans l’aéroport pourrait offrir aux passagers, en retour de leurs données émises, un guide interactif du lieu, des informations sur les temps d’attente aux différents postes de sécurité, sur les horaires des vols et portes d’embarquement, alors ils peuvent exploiter leurs temps d’attente dans des boutiques ou des restaurants, etc.

17

Usages des Big Data (suite)

Page 18: Introduction au BIG DATA

Usages des Big Data (suite) Prévoir et prédire

L’analyse prédictive permet de faire des projections ultra réalistes pour identifier des nouvelles sources d’opportunités (ou des menaces) et ainsi anticiper les réponses adaptées à la situation réelle.

Exemple :

‘Flu Trends’ est un modèle de Google qui permet d’estimer la propagation des cas réels de grippe en fonction des recherches sur Internet, prenant en compte le fait que tous les internautes qui tapent « grippe » sur leur clavier ne sont pas nécessairement malades.

Automobile et Autres usages …

18

Page 19: Introduction au BIG DATA

Visualisation des données Pourquoi on visualise les données ?

‘’ Une image (data visualisation) vaut mieux qu'un long (big)

discours (data) ‘’

Une visualisation intelligente et utilisable des analytics sont un facteur clé dans le déploiement du Big Data dans les entreprises. Le développement des infographies va d'ailleurs de pair avec le développement des techniques d'exploitation des données.

19

Page 20: Introduction au BIG DATA

Visualisation des données (suite)La visualisation des big data permet :

La prise de décision

Une Data Visualisation de qualité donnera aux managers le moyen de manipuler de larges volumes de données pour faire émerger des tendances, ou encore répondre à des questions spécifiques.Grâce à des outils de comparaison et de croisement dynamiques, les managers peuvent faire apparaître des informations perdues sous le flot de données, qui ne peuvent se révéler qu’après avoir été visualisées.

20

Page 21: Introduction au BIG DATA

Visualisation des données (suite) se concentrer sur l’essentiel, plus rapidement

La principale raison pour laquelle la Data Visualisation est demandée par les entreprises est la confusion qui accompagne la surcharge de données : celles-ci sont éparpillées dans des feuilles de calculs, des bases de données, des espaces de stockages… Leur interprétation devient difficile. A l’inverse, le but de la Data Visualisation va à l’essentiel en regroupant toutes ces données sur un seul écran, et en les traitant intelligemment grâce à des filtres, des groupes et des classements pertinents.

21

Page 22: Introduction au BIG DATA

Visualisation des données (suite)

22

Exemple :

Fichier visualisé :

Les misérables de Victor Hugo

Nombre de nœuds : 77

Nombre des liens : 254

Algorithme de spatialisation :

Force Atlas

Outil de visualisation :

Gephi 0.8.1

Page 23: Introduction au BIG DATA

Visualisation des données (suite) Même fichier avec d’autres algorithmes de spatialisation :

23Fruchterman-Reingold Force Atlas 2

Page 24: Introduction au BIG DATA

Conclusion

Avec la notion du big data, les problèmes volume des données, variance, hétérogénéité, le temps d’analyse des données et plein d’autres problèmes ne sont plus de la même complexité qu’avant. C’est la nouvelle génération des données.

24

Page 25: Introduction au BIG DATA

Références www.wiki.gephi.org

www.awt.be

http://physicsbjj.perso.sfr.fr/

www.wikipedia.org

le big data, Christophe de Maistre

25

Page 26: Introduction au BIG DATA

Chapitre suivant :

Algorithmes de spatialisation