présentation du Big data
-
Upload
zeggarinabil -
Category
Documents
-
view
237 -
download
15
Transcript of présentation du Big data
Encadré par:Réalisé par:
Mme. F. Nader Kouicem Amine Zeggari Nabil
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Ecole Nationale Supérieure D’informatique
Master de Recherche
Thème : Les technologies Big dataOption: SI
20/03/2013
2 Table de matière:
1. Introduction ……………………………………………………………….……….03
2. Le concept Big data………………………………………………………………06
3. La technologie NoSQL/ NewSQL………………………………..…………13
4. La technologie Hadoop ……… ………..........................................22
5. Architecture du Big data…………………………………………….…………27
6. Les approches du Big Data……………………………………………………28
7. Perspective de recherche……..…………………………………….………..34
8. Références bibliographiques…………………………………………………35
3 1. Introduction
La masse des données dans le monde augmente de jour en jour:
– 1800 exaoctets en 2011. (Gartner, 2011)
– 35 000 exaoctets en 2020 (Prévision par IBM)
– 250 Milliards d’e-mails envoyés/jour. (Radicati Group, 2009)
– 80% de l’information est «non-structurée » (Forrester, 2011)
– 95% de l’information est « non-exploitée » (Forrester, 2011)
4
Dans les réseaux sociaux:Facebook:
‒ 900 millions d’utilisateurs.‒ 250 millions de photos uploadées/jour.‒ 2,7 milliards de « Like » /jour.
Twitter:– Plus de 465 millions de comptes.– 175 millions de tweets/jour.
Youtube:– 2 milliards de vues/jour.– 72h de vidéos déposées/ minute.
1. Introduction
http://tepbigdata.blogspot.fr/ 2012 consulté le 17/02/2013
5 1. Introduction
L’évolution des données et la capacité de stockage dans le monde (Source: IDC, 2011)
éxaoctets
Années
2005 2006 2007 2008 2009 2010 20110
200
400
600
800
1000
1200
1400
1600
1800
2000
Volume des données
6 2. Le concept Big data 2.1 Définition du Big data (partie 1)
« le concept Big Data fait référence aux ensembles de données dont la
taille dépasse celle des ensembles de données que les outils de bases de
données traditionnels peuvent collecter, gérer et traiter dans un délai
acceptable ».
http://www.mckinsey.com/ consulté le 17/01/2013
7 2. Le concept Big data 2.1 Définition du Big data (partie 2)
« Les technologies Big data décrivent une nouvelle génération de technologies
et d'architectures dans la gestion de données, conçu pour extraire de la valeur
économique à partir de très grands volumes et variétés de données, en
capturant, en traitant et en analysant à grande vitesse ».
http://www.idc.com/ consulté le 20/01/2013
8
1995-2000 2000-2005 2005-2010 2010-2015 2015-2020
Phénomène Big data (internet)
Genèse Développement Dissémination Démocratisation
Innovation
technique
Phase
Google PageRank
(1996)
Google Adwords (2000)
Google MapReduce
(2004)
Criteo 2005 launch 2008
Couch Base (2011) ?
Stockage et traitement distribué et dissémination de recherche effectuées
par Google et consorts
Les grands acteurs de la toile développent des outils de traitement et l’analyse des données
massives non structurées
Développement d’un système de solution dédiéesApplication dans d’autres secteurs
Algorithme d’apprentissage
statistique et modèles de prédiction tirant
parti des architectures distribué
2. Le concept Big data 2.2. un peu d’historique.
Chronologie du Phénomène Big data. [E. Bellity, 2012]
Apache Hadoop (2007)
9 2. Le concept Big data 2.3. Caractéristiques du Big data
Évoluent des téraoctets aux zettaoctets.
Rapidité de traitement de flux continus de données,
et transfert de données àgrand volume.
Types des données multiples et hétérogènes (image, vidéo, texte, etc.), provenant d’une variété de sources sans cesse
d’accroitre.
La visualisation doit être claire et touche toutes les données.
https://blogs.oracle.com consulté le 15/01/2013
10
Les avancements technologiques L’automatisation des systèmes Les exigences réglementaires La multiplication des machines Les solutions de Business Intelligence Les centres de recherche
2. Le concept Big data 2.4. l’origine des données du Big data (partie 1)
http://www.journaldunet.com consulté le 14/02/2013.
11 2. Le concept Big data 2.4. l’origine des données du Big data (partie 2)
BDDExploiter
& Analyser
Résu
ltats
d’a
naly
se p
ou
r le
décis
ion
nel
DW
Les données et les résultats attendue du Big data
12 2. Le concept Big data 2.5. Conclusion
Le contexte du Big data (Opérationnel et BI)
Big data
De nouvelles solutions de stockage de masse
Innovations technologiques dans les outils de restitution
Arrivée de nouvelles sources de données (Open Data, Web, etc.)
Capture de l’information en temps réel
Des nouvelles approches dans la visualisation des donnéesDes outils à fonctionnalités
toujours plus nombreuses
13 3. La technologie NoSQL/ NewSQL3.1. Le théorème CAP (Éric Brewer en 2000 )
Consistency
Ce théorème est démontré par Seth Gilbert et Nancy Lych en 2002., montre qu'il est impossible pour un système de données distribué de garantir les trois propriétés suivantes simultanément:
Cohérence: tous les clients du système voient les mêmes données au même instant.
Disponibilité: désigne qu’un système est dit disponible si toute requête reçue par un nœud retourne un résultat.
Tolérance à la partition: les données peuvent être partitionnées.
A
PC
Cassandra,CoucheDB,etc.
BigTable,Neo4J,MongoDB,Redis, etc.
SGBDR: Oracle, MS SQL Server, MySQL, etc.
Availibility
Partition tolerance [M. Dimaglie, 2012]
14 3. La technologie NoSQL/ NewSQL3.2. Définition du NoSQL
Le NoSQL (Not Only SQL) est un terme utilisé pour décrire une classe de systèmes de
gestion de base de données qui se distinguent aux SGBD relationnelles :
Elle n’utilise pas SQL comme moyen d’interroger les données.
La base de données repose sur une architecture distribuée.
Elle permet le traitement d’un gros volume de données.
Elle a une meilleure résistance aux pannes.
[J. Hamelin, 2012]
15 3. La technologie NoSQL/NewSQL3.3. Définition du NewSQL
Les bases de données NewSQL ont vu le jour en 2012 et se caractérisent par:
Respecter le modèle de bases de données relationnelles.
Les bases NewSQL respectent le modèle ACID et utilisent SQL.
La plupart sont optimisées pour effectuer de grands nombres de
transactions et pour effectuer des requêtes répétitives et proposent
souvent un système d’indexation optimisé.
[M. Bérard.,al , 2012] [S. Fermigier, 2012]
16 3. La technologie NoSQL/ NewSQL3.4. Les types de bases de données NoSQL (partie 1)
Dans le sphère du NoSQL, il existe une
diversité d’approches classées en quatre
catégories: les bases de données clé-valeur,
orientées colonne, orientées document, et
les bases de données orientées graphes.
Clé-Valeur
Colonne
Document
Graphe
Les différents types de bases NoSQL. [M. Bérard., al, 2012]
Complexités des données
Volu
me
des
donn
ées
17 3. La technologie NoSQL/ NewSQL3.4. Les types de bases de données NoSQL (partie 2)
3.4.1. Base des données Clé-Valeur: C’est le
modèle le plus simple qui associe une clé a une seule valeur
de type BLOB, La clé peut être aussi une adresse, un lien vers
une ressource. Il est particulièrement adapté au système de
cache et offre un accès très rapide aux données.
Exemple: Redis (REmote DIctionary Server).
Valeur 2
Valeur 1Clé 1
Clé 2
.
.
.
Clé n BDD Clé-Valeur[M. Bérard., al, 2012]
18 3. La technologie NoSQL/ NewSQL3.4. Les types de bases de données NoSQL (partie 3)
3.4.2. Base des données orienté
colonne: La valeur est décomposée en colonne et
s’apparente d’avantage à une liste. les colonnes
peuvent être différentes d’une ligne à l’autre.
Exemple: Cassandra développée par Facebook pour
la messagerie des utilisateurs, depuis 2008 elle est
devenue open-source.
Colonne 1: valeur
Colonne 1: valeur
Clé
Colonne 1: valeur
BDD orientée colonne[M. Bérard., al, 2012]
19 3. La technologie NoSQL/ NewSQL3.4. Les types de bases de données NoSQL (partie 4)3.4.3. Base des données orienté
document: Est une Évolution des bases de
données clé-valeur mais La valeur stockée est un
document (XML, Html, texte, etc.). Ce modèle est tout
à fait adapté à l’indexation Web comme le fait Google
ou à la gestion documentaire.
Exemple: CouchDB est une solution développée par
Damien Katz en 2005. Depuis 2008, ce dernier l'a
transformée en projet Apache.
1
Comment 2
Titre1 Comment 1
2 Titre 2 Image Clé 2
Clé 1
BDD orientée document[M. Bérard., al, 2012]
20 3. La technologie NoSQL/ NewSQL3.4. Les types de bases de données NoSQL (partie 5)
3.4.4. Base des données graphe: Les bases orientés graph sont
conçues pour manipuler des données liées par des relations plus ou moins
complexes. Elles trouvent leur application en général dans les réseaux sociaux.
BDD orientée graphe[M. Bérard., al, 2012]
Exemple: Neo4J est développée par NeoTechnology.
La première version est sortie en 2010.
21 3. La technologie NoSQL/ NewSQL3.5. Conclusion
Redis CouchDB Cassandra Neo4JType Clé-Valeur Document Colonne Graphe
Licence BSD Apache Apache GPL
Architecture Maître / Esclave Nœuds indépendants
Nœuds indépendants
Maître / Esclave
Développé en C/C++ Erlang Java Java
Avantage Base de données en Mémoire
Visualisation des documents
Evolutivité facile Permet d'avoir des données avec beaucoup de relationsRespect des propriétés ACID
Inconvénient Taille de la mémoire
Se complexifie avec son évolution
Intégrité gérée depuis le client
Impossible de partager les données entre plusieurs serveurs.
Exemple d’utilisation
Collecte de données en temps réel
CRM / CMS Collecte de données en temps réel
Réseau social
Repense au CAP
CP AP AP CPTableau comparatif entre les quatre types de base NoSQL [L. Heinrich, 2012]
Hadoop est un projet de Apache incluant des implémentations open source
d’un système de fichiers distribués et du modèle MapReduce. Il a été inspiré
des projets de Google: GFS et MapReduce. L’écosystème Hadoop inclut aussi
des projets comme Apache Pig, Hbase et ZooKeeper.
4.La Technologie Hadoop4.2. Définition
22
[D. Borthakur.,al, 2011]
C’est un système spécialisé dans la sauvegarde de grosse masses de données à
travers des systèmes d’ordinateurs distribués avec un grand débit et de multiples
réplications dans un cluster. Il tolère beaucoup d’erreurs et bâtie pour être
déployé dans des machines à cout réduit.
4.La Technologie Hadoop4.3. HDFS -Hadoop Distributed File System-(Partie 1)
[D. Borthakur.,al, 2011] [J. Nilsson, 2011] [A.S. Talwalkar, 2011]
23
Sauvegarder l’état du Name node
illustrant le système de fichiers d'Hadoop : HDFS [M. Bérard., al, 2012]
Data node 1
1 1
22
1
2
1
2
Primary Name node
Secondary Name node
Data node 2 Data node 3
4.La Technologie Hadoop4.3. HDFS -Hadoop Distributed File System-(Partie 2)
24
C’est un langage de programmation pour l'analyse des ensembles de masses
de données extrêmement importantes d'une manière rapide, évolutive et
distribuée. il a été adapté d'une manière à pouvoir fonctionner sur un cluster
de machines à faible coût.
4.La Technologie Hadoop4.4. MapReduce (partie 1)
[J. Nilsson, 2011] [A.S. Talwalkar, 2011]
25
Exemple du modèle MapReduce [M.V. Groningen, 2009]
Clou Canne cageCage mare mareClou mare cage
Cage mare mare
Clou mare cage
Clou Canne cage
Cage, 1Mare, 1Mare,1
Clou, 1Mare, 1Cage, 1
Clou, 1Canne, 1Cage, 1
Clou, 2Canne, 1Cage, 3Mare, 3
Cage, 1Cage, 1Cage, 1
Clou, 1Clou, 1
Canne, 1
Cage, 3
Clou, 2
Mare, 3
Canne, 1
Mare, 1Mare, 1Mare, 1
Input
Split
MapShuffl
e Reduce
Output
4.La Technologie Hadoop4.3. MapReduce (partie 2)
26
Couche MapReduc
eCoucheHDFS
Couche MapReduc
eCoucheHDFS
JobTracker
NameNode
TaskTracker
DataNodeDataNode
MapReduce
TaskTracker
MapReduce
Hadoop Namenode
Hadoop Datanode Hadoop Datanode
4.La Technologie Hadoop4.4. Conclusion
Le principe de fonctionnement de Hadoop [A. Jain, 2011]
27
5. L’architecture du Big data
Hadoop(MapReduce
& HDFS)
ETL et outils d’intégration
Gestion des flux
Outils système
Applications
BI et outils de visualisation
NoSQLBasé sur Hadoop
NoSQL(Non Hadoop)
SGBDR DW
Sauv
egar
de e
t ges
tion
Trai
tem
ent e
t Ana
lyse28
Architecture d’un système du Big data http://www.karmasphere.com/ consulté le 13/02/2013
Données non structurées
Données structurées
Base de données NoSQL
Hadoop, MapReduce, HDFS
6. Les approches du Big data6.1. Approches NoSQL
29
Architecture d’une solution basé sur Hadoop et NoSQL [A. Brust, 2012]
Chukwa
Flume
Sqoop
Données non structurées
Données structurées
Intégration de données
Source de données
30
Données Massives
6. Les approches du Big data6.2. Approche Hybride
ETL et outils d’intégration
Big data
Hadoopet NoSQL
Base dedonnées MPP
Accélération matériel
Architecture d’une solution Hybride du Big data
Données non structurées
Données structurées
http://www.precodata.com consulté le 12/02/2013
6. Les approches du Big data6.3. Approche Cloud
31
ETL et outils d’intégration
Outils d’analyse
MapReduce
NoSQL
SGBDR
DW
NoSQL
SGBDR
Utilisateur
Interface Web
Architecture du Big data dans le Cloud
http://www.intelen.com/ consulté 20/02/2013
Données non structurées
Données structurées
7. Perspectives de recherche 32
Comment exploiter des données externes (semi-
structurées et non-structurées) présentes dans le web
notamment dans les réseaux sociaux pour enrichir les
données internes afin d’augmenter la performance de la
gestion de relation client.
33 8. Références (partie 1)
[E. Bellity, 2006] Emmanuel Bellity., al. Big Data, la matière première du Data Scientist. 2006. 47page. Rapport de recherche disponible sur le site (http://www.ENSAE.fr ) consulté le 14/01/2013.[J. Hamelin, 2012] JEAN-FRANÇOIS HAMELIN. Base de données distribuée appliquée à la génétique dans le cadre de l’analyse du séquençage génomique. Rapport Technique. Université de Montréal. Département de génie logiciel. 2012. 70pages. [L. Heinrich, 2012] Lionel HEINRICH. Not only SQL. Travail de Bachelor réalisé en vue de l’obtention du Bachelor HES en Informatique de Gestion. École supérieure de Gestion de Genève (HEG-GE). 2012. 61p.[M. Dimaglie, 2012] Matteo DI MAGLIE. Adoption d’une solution NoSQL dans l’entreprise. Mémoire réalisé en vue de l’obtention du Bachelor HES en Informatique de Gestion. École supérieure de Gestion de Genève (HEG-GE). 2012. 68p.[M. Bérard., al, 2012] Maxime Bérard., al . Big Data et NoSQL : de l’explosion des volumes de données liée à l’essor du Web à l’émergence de nouvelles architectures de stockage et d’interrogation de données. Support de cours .université de Nice.2012. 25p.[S. Fermigier, 2012] Stefane Fermigier. Big data et open source : une convergence inévitable?. Livre blanc. 2012. 21p. Disponible sur le site (http://www.fermigier.com) consulté le 23/1/2013.
[J. Stuhler, 2011] Julian Stuhler. Data in Memory. Disponible sur le site (http://www.databasejournal.com) publié le 28/01/2011 consulté le 02/ 03/2013.
[A. Jain, 2011] Ankit Jain. Installation of hadoop in the cluster - A complete step by step tutorial. Tutoriel disponible sur: (http://ankitasblogger.blogspot.com) publié le 04/01/2011 consulté le 04/03/2013.
[M.V. Groningen, 2009] Martijn van Groningen. Introduction to Hadoop. Article disponible sur : (http://blog.jteam.nl ) publié le 04/08/2009 consulté le 04/03/2013.
[D. Borthakur.,al, 2011] Dhruba Borthakur et al. Apache Hadoop Goes Realtime at Facebook. SIGMOD ’11. 2011, pp. 1071-1080. ISSN: 978-1-4503-0661-4 Disponible sur le site: http://oss.csie.fju.edu.tw.
[T. White, 2012] Tom White. Hadoop the Denitive Guide. Edition O'Reilly Media, 3ième edition, 2012. 647pages. ISBN: 9781449311520.
[Gartner, 2012] Gartner. Concevoir sa plateforme Big data. Article disponible sur le site (http://www.precodata.com ) Publié en 2012 consulté le 11/02/2013.
[A. Brust, 2012] Andrew Brust. MapReduce and MPP: Two sides of the Big Data coin?. Disponible sur le site (www.znet.com) publié le 02/03/2102 consulté le 18/02/2012.
8. Références (partie 2)34