Table ronde avec les acteurs de la fouille de données · TABLE RONDE AVEC LES ACTEURS DE LA...

17
TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES Innover ensemble pour et avec les chercheurs et les enseignants

Transcript of Table ronde avec les acteurs de la fouille de données · TABLE RONDE AVEC LES ACTEURS DE LA...

TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES Innover ensemble pour et avec les chercheurs et les enseignants

TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

Intervenants : Julien Roche, ADBU Didier Alexandre, Labex OBVIL Valérie Beaudouin, Télécom ParisTech Valérie Tesnière, BDIC Jean-Philippe Moreux, département de la Conservation (BnF)

Animateurs : Emmanuelle Bermès et Thierry Pardé, BnF

Source Gallica.bnf.fr 6-8-23, plage de Deauville [avec enfants creusant dans le

sable] : [photographie de presse] / [Agence Rol]

1E PARTIE : LA FOUILLE DE DONNÉES, QU’EST-CE QUE C’EST ?

Source Gallica.bnf.fr On creuse hâtivement des tranchées [crète de Vimy, Pas-de-Calais, avril

1917, soldats britanniques] : [photographie de presse] / [Agence Rol]

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

2E PARTIE : LA FOUILLE DE DONNÉES, QUELS RÉSULTATS ?

Source mandragore.bnf.fr Français 12322, fol. 121v, Extraction de l'or

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

Extraction des métadonnées

Identification des nœuds et des liens

Chaine de

traitement

Agrégation Filtrage

Délimiter Interpréter et représenter

Traiter

Webmining

identification des sites + archivage

Le point de vue des acteurs sur la carte (entretiens qualitatifs)

Analyse du contenu des sites

Archives du Web (BnF-DLWeb) Collecte dédiée

Data et Textmining : Forum Pages 14-18 - janv 2015

Corpus Analyser et interpréter

Traiter

10 années d’échanges 400 000 messages 15 000 inscrits 60 rubriques Quelles activités ? Quelle place pour les documents ?

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

Citation demessages

Citations texte

Lien

Image

Extraction : - Métadonnées des messages (locuteur, date, rubrique, sujet…) - Citations (document, image…)

Terrain qualitatif

- Entretiens avec des participants - Analyse manuelle de fils de discussion

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES

FOUILLER LA PRESSE NUMÉRISÉE

Pourquoi ? Premier média de masse (abondant, universel) Central pour l’étude des XIXe et XXe siècles En écho à notre ère d’abondance

informationnelle

Des singularités « Flot » documentaire multicentenaire (certains titres) Forme homogène (parfois complexe : 7 colonnes à la une) Contenu composite (genres, discours, thèmes…)

Premier média de masse (abondant, universel)

En Europe : 150 M pages déjà numérisées, 1% - 10% des collections ?

Jean-Philippe Moreux, département de la Conservation (BnF)

LE DÉFI DU VOLUME : LE PARADOXE DE L’ABONDANCE Gérer le chaos : peu de métadonnées, beaucoup de texte (bruité) Sélectionner le périmètre : extraire une rubrique/genre/thème

de documents non structurés est un challenge technique

« La rubrique boursière, 1801-1870 » « Les feuilletons littéraires du XIXe »

La rubrique boursière, 1801

Collection numérique

?

RÉVOLUTIONS EN SÉRIE De l’image au document restructuré, du feuilletage

d’un numéro à la fouille de données

De l’œil au plein texte puis aux algorithmes (analyse d’images et de documents, analyse statistique, TAL, modélisation des textes, visualisation de données…)

feuilleter, dépouiller

chercher par mot-clé analyser, inférer,

synthétiser, réduire, visualiser…

EXEMPLE 1 : FOUILLER LES TEXTES ET LES DONNÉES Analyse des discours et des auteurs, circulation de

l’information, sociologie financière, histoire du journalisme…

avec outils de TAL, analyse statistique, visualisation de données

Thèse en sciences de l’information et de la communication, Pierre-Carl Langlais, 2015

La formation de la chronique boursière dans la presse quotidienne française

EXEMPLE 2 : FOUILLER LES TEXTES Viralité et mobilité des contenus journalistiques :

reprise, reprint, « plagiat », dépêches d’agence…

Identification des passages communs

Réseaux de viralité (entre titres de presse, géographiques)

Motifs temporels

Ryan Cordell, Northeastern University (Boston), 2015. https://viraltexts.org

Viral Texts Project, Mapping Networks of Reprinting in 19th-Century Newspapers and Magazines

EXEMPLE 3 : FOUILLER LES MÉTADONNÉES QUANTITATIVES Naviguer autrement dans la collection numérique :

visualisation de données pour les chercheurs (et les autres)

Naviguer dans un titre grâce à sa densité en mots

changements de format de papier et de mise en page

suppléments illustrés illustrés

censure de la presse (14-18)

Lecture distante : du macro au micro J-P Moreux, projet Europeana Newspapers/BnF

http://altomator.github.io/EN-data_mining

Fouiller les métadonnées de la presse

papier et de mise

3E PARTIE : QUELLE PLACE DANS LA RELATION ENTRE BIBLIOTHÈQUES ET CHERCHEURS, ET PLUS LARGEMENT DANS LA RELATION AUX PUBLICS ?

Source Gallica.bnf.fr / Rosalis, Bibliothèque numérique de Toulouse Vue du Hourat au chemin creusé dans les Rochers , chemin des Eaux-chaudes (Basses Pyrénées) - 1827

#JPAC16 - TABLE RONDE AVEC LES ACTEURS DE LA FOUILLE DE DONNÉES