Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big...
Transcript of Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big...
Les humanités numériques à l’ère du big data
D. A. ZIGHED [email protected]
Journées Big data & visualisation
Focus sur les humanités numériques ISH Lyon 18-19 juin 2015
Co-organisées par
EGC – AFIHM - SFdS
Accueil - Remerciements
! Les GT de l’association « extraction et gestion des connaissances » (EGC) ! Fouille de Données Complexes (FDC) ! Fouille de Grands Graphes (FDG) ! Gestion et Analyse de données Spatiales et Temporelles (GAST)
! Le GT de « l’association française des interfaces homme-machine » (AFIHM) ! Visualisation d’informations, interaction et fouille de données
(VIF) ! Le GT de la société française de statistique (SFdS)
! Data mining et apprentissage (DMA)
Bienvenue à l’ISH pour cet échange STIC-SHS
Plan de présentation
! Présentation de l’ISH
! Les humanités et les sciences sociales
! Le big data
! Les humanités et le big data
! Conclusion
L’institut des sciences de l’homme de Lyon
Les humanités et les sciences sociales
Les humanités et les sciences sociales
• Recherche : individuelle • Matériel : Monographie • Méthodologie : Interprétation – exégèse – érudition, critique - raisonnement déductif – discours discursif
• Publication : auteur unique - ouvrage
Les humanités et les sciences sociales
• Recherche : Collective • Matériel : Observations sur terrain • Méthodologie : Hypothèse - mesure – observation statistique – induction – expérimentation - simulation
• Publication : collective - articles
Les humanités et les sciences sociales
Littérature (Analyse de style) Economie (Eco Politique)
• Recherche : individuelle • Matériel : Monographie • Méthodologie : Interprétation – exégèse – érudition, critique - raisonnement déductif – discours discursif
• Publication : auteur unique - livre
• Recherche : Collective • Matériel : Observations de terrain • Méthodologie : Hypothèse - mesure – observation statistique – induction – expérimentation – simulation
• Publication : collective - articles
Les humanités et les sciences sociales
l’humain son existence et ses activités – sociales, économiques et culturelles
= Sciences de l’Humain et de la Société - SHS
Les humanités et les sciences sociales à L’ISH • 8000 références biblio – 2010-2014 • 23 laboratoires • 3000 personnes • Extraction de topics • AFC
Les humanités et les sciences sociales à L’ISH
Humanités Numériques
~ 1940 : Computational humanities ; Digital Humanities eHumanities
Roberto Busa (1913 – 2011) Thomas John Watson, Sr. (1874 – 1956)
Lexique des 118 textes de Thomas d'Aquin
Humanités Numériques
Texte1 Texte2
: Textei
: : : : : :
Texte118
Lex1 Lex2 Lex3 …… Lexj………Lexn
nij
praesentis
mag
iste
r
Ti
Tn
T2 T3
T1
(Occurences de Lexj dans Ti)
Comment visualiser Les textes dans les n dimensions lexicales ?
Humanités numériques
! ~ 1990 : PC, Scanners, Internet,
! Objectif initial : Mise en lignes du patrimoine culturel et scientifique;
! Les projets (~2000) : ! bibliothèque du congrès américain; ! Gutenberg (1971); ! Million books project; ! Google books (2013) ~ 30 Millions d’ouvrages.
Humanités numériques Chaine de numérisation et d’édition critique;
Acquisition Numérisation (Text – image – vidéo…)
Préparation Nettoyage Mise en forme
ROC Encodage (TEI) Indexation
Enrichissement Méta-données Dublin Core
Mise en ligne DVD, Web
Enrichissement Collaboratif
Archivage
Humanités numériques intégratives
Acquisition, enquête numérisation, open data, obets connectés… (Text – image – vidéo…)
Préparation Nettoyage Mise en forme
ROC Encodage (TEI) Indexation
Enrichissement Méta-données Dublin Core
Mise en ligne DVD, Web
Enrichissement Collaboratif
Archivage
Exploitation Analytique Fouille
Création de nouveaux services / outils
Enregistrer, stocker, traiter et diffuser les traces et empreintes des activités humaines
Big data en image
• 200 Mds mails/j
• 35 Mds de pages Facebook
• 5,6 Mds téléphones
• Internet = 10 000 Mds de Go / mois
• …
Océan – Déluge – Tsunami… des données
Big data : montée en flèche et chutes libres
Nb
noeu
ds
1969 2015
1 Mds
$ / T
o
1970 2015
14 000 000 $
70 $
$ / G
FLO
PS
1960 2015
1,1 Mds $
0,08 $
1998 2015
$ / M
bps 1200 $
0,63 $
Big data : caractéristiques
Volume
• Walmart : 1 million de transactions/heure • Google : 25 pétaoctets traités par jour • Facebook traite, analyse +30 pétaoctets
Vitesse
• Facebook : enregistre 100 téraoctets / jour • Twitter enregistre ~ 200 millions de tweets par jour
Variété
• Youtube enregistre 48 heures de vidéo / minute • 30 milliards de documents partagés sur Facebook • Médias sociaux – Internet des objets… Open data
Big data : objet Gérer et traiter des « grands » volumes de données hétérogènes et évolutives dans un cadre contraint;
BDR optimisées
Taille de la BD
Tem
ps d
e ré
pons
e
Internet : > 10 Po
10 jours 2 h 45
Disque dur ~1To
Data center > 100 To
Temps de lecture à 100 Mo/s
! Vers un nouveau modèle de données
! Vers de nouveaux concepts de programmation
Big data : diviser pour régner
Big data : Nouveau modèle de données
NoSQL
Dénormaliser
Relâcher les contraintes Cohérence
De nouveaux compromis - Efficacité
+ Disponibilité
Distribuer Données et traitements Viser
Performance et
disponibilité
Couplage données et traitements
Montée en charge linéaire
Développement ad hoc $$$$$$$$$$$$$$
Big data : Bases de données orientées agrégats
BDOA
Entrepôts Clé-valeur
BD orientées colonnes
BD orientées
documents
Clé – 0FR63K (identifie serveur et enregistrement) Valeur : blob (video/text/XML doc/…)
facteur de réplication (N) quorum d’écriture (W) quorum de lecture (R)
Clé – 0FR63K Valeur : Doc (XML, JSON) Clé – 0FR63K
table : colonnes (statique/dynamiques)
Fondation Apache
BD orientées graphes
Big data : Concept de programmation
! Calcul parallèle : un concept né avec l’informatique ! Le paradigme MapReduce
Clients
Chaque machine calcule par produit : Volume - CA
Tri par produit du map
Volume Total CA global par produit
MAP REDUCE Shuffle
Clusters de calcul
Factures
1 2 3 4
Big data : Hadoop, l’éléphanto dans un magasin de porcelaine ?
• Fondation Apache • Java
Framework
• Ramener un calcul à des taches de type : Map – Reduce. Est-ce toujours possible ?
• Ecriture-test ≠≠≠≠ • Paramétrage ≠≠≠ • ...
Humanités numériques et big data
! Commencement @ Google (2000)
Création d’un annuaire inversé des pages web pour le moteur de recherche Google;
Combien
Digital humanities @ google
Des centaines de partenariats avec des musées pour rendre accessible en ligne les œuvres d’arts et les préserver en numérique pour le futur.
Humanités numériques @ Google
30 millions de livres scannés (2013) ~ 130 millions de titres ont été publiés depuis Xve siècle
Humanités numériques intégratives ! Economie et Big data
Roberto Rigobon
Dépôt de bilan en juillet 2008
Relevé des prix de 500 000 prix USA Aucun nettoyage ni consolidation Analyse (big data) Détecte un épisode inflationniste en septembre 2008
Le CPI (INSEE US) ne détecte le phénomène que 2 mois plus tard, novembre 2008; Coût de production 250 millions $
! Psycho-socio
Humanités numériques intégratives
! Sociologie
Humanités numériques intégratives
- Analyse d’opinion - Analyse des sentiments - Recommandations - …
! Nous sommes qu’au début : il faut un Codd pour les big data ;
! Il faut un Gauss pour le traitement; ! Est ce que tout est dans les données ? (frappe clavier) ! Peut-on tout optimiser ? (smart-phone/assurances) ! Faut-il tout traiter tout ? ! Faut-il cesser de chercher des théories ? (2008, Chris
Anderson)
Conclusion : Humanités numériques big data