Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une...

25
Ouverture des données : spécificités dans le domaine des Sciences Humaines et Sociales Arnaud DA COSTA - Cyrinus ELEGBEDE

Transcript of Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une...

Page 1: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Ouverture des données : spécificités dans le domaine des Sciences Humaines et Sociales

Arnaud DA COSTA - Cyrinus ELEGBEDE

Page 2: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Plan de la présentation

Présentation de la MSH

AMI Grand débat organisé par l'ANRQuelques enjeux autour des données (contexte national)

Expérience en matière d'ouverture des données de la PUDD

Conclusion

Page 3: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516o inscrite dans le Réseau National des MSH (RNMSH)o fédère 16 laboratoires en SHS, soutien a visée de large diffusiono Comporte 3 plateformes :

• ADN• GeoBFC• PUDD

o Interactions très fortes avec les TGIR HumaNum et Progedo, le CCuBo (toutes) données chaudes de la MSH : CCuB, souplesse, fiabilitéo données froides de la Recherche : Huma-Num Box

Maison des Sciences de l'Homme de Dijon

Page 4: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Grand Débat : Appel à Manifestation d'Intérêt de l'ANRParticipation à cette journée pour présenter la proposition de Laurent Gautier (Directeur de TIL, directeur adjoint de la MSH et responsable scientifique de la Plateforme ADN)

Le Grand débat en chiffres :

• 10 134 Réunions d’initiatives locales organisées• retranscription nécessaire

• 1 932 884 Contributions en ligne

• 27 374 Courriers et courriels reçus

• 16 337 Communes ayant ouvert des cahiers citoyens• OCR ou retranscription manuelle nécessaire

Méthodologie des résultats présentés en avril 2019 par OpinionWay et al. (entreprises privés sollicitées pour raison de temps)

• utilise le logiciel Qwam "Spécialiste des données textuelles et de l'Intelligence Artificielle"

• nuages de mots, quelques co-occurences (associations de mots)

• provenance des contributions (localisation, zone urbaine/rurale)

• ...

Page 5: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Grand Débat : Appel à Manifestation d'Intérêt de l'ANR

Traitement par OpinionWay :

• "résultats" disponibles rapidement pour les politiques

• constitution partielle du corpus (métadonnées, paramétrage OCR, coût des transcriptions)

• la volumétrie semble avoir impacté le traitement

• traçabilité (algorithme non open source) et explicabilité du logiciel Qwam et des aspects Deep Learning

source : granddebat.fr

Page 6: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Proposition de Laurent Gautier : développer un outil de fouille textuelle à même de détecter, décrire, et catégoriser dans l’ensemble des contributions les phénomènes de • circulation de discours (reprise des paroles d'autrui)

• de fossilisation d’argument (topoï)• figements discursifs (stéréotypes langagiers, prêt-à-parler)susceptibles de donner lieu à des éclairages disciplinaires multiples : sociologie, histoire, science politique, aménagement, info-com, etc.

Parallèle avec le rôle qu’a joué le traitement textométrique des Cahiers de doléances de la Révolution Française dans une connaissance fine de cette période

(travaux des linguistes J. Guilhaumou, D. Maldidier, B. Schlieben-Lange, D. Slatka ou encore de l’historien P. Grateau)

Grand Débat : Appel à Manifestation d'Intérêt de l'ANR

Page 7: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Grand Débat : Appel à Manifestation d'Intérêt de l'ANR

28 mars, siège du CNRS, 52 présents répartis en 3 sous-groupes. L’ANR ne souhaitait pas que du bottom-up mais être une caisse de résonance sur les besoins des chercheurs (par ex : l’anonymisation)

Quelques remarques des chercheurs :

• age manquant dans une partie du corpus => pas de concertation avant établissement des questionnaires

• Anonymisation / Pseudonymisation : « je suis boulanger de tel village de 50 habitants » , « mon enfant a telle maladie orpheline » + région

Se sont dégagées deux phases :

1. agrégation des documents numériques et non numériques pour constitution de corpus "brut" pré-requis indispensable

2. analyse / interprétation des résultats => intervenants avec forte visibilité

Page 8: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Grand Débat : Appel à Manifestation d'Intérêt de l'ANR

Recherche de logique de collaboration (vs compétition) : ceux qui ont un mode opératoire efficace en 1ère phase sont tentés de ne pas partager pour conserver leur avance

Pistes envisagées par l'assemblée :

• nouveau type d’appel à projet avec des temporalités différentes :• aspects méthodologiques TAL en premier• ensuite les aspects plus spécifiques bénéficiant des données « raffinées »

• Data Challenge : la mise à disposition des « concurrents » en 1ère phase est imposée sur une plateforme, avec une plus-value pour celui dont les données auront été le plus réutilisées

• quel stockage avec quelle pérennité ?• quel niveau de description des données ?

Page 9: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Grand Débat : récapitulatif des problématiques et apports

La nécessité du temps long en SHS• Se donner le temps de bien faire les choses

• dans le cas du GD : notamment les transcriptions, classification• traiter (épurer) le corpus en fonction d'un projet scientifique (les données de Bretagne sont elles pertinentes pour une recherche sur la

qualité de vie en Bourgogne ?)

• Remises en question plus fréquentes que dans les sciences dures (vision de "la" resistance / "les" resistances)

• se permettre une interrogation sur le temps long ou une re-visite ultérieure/étude longitudinale

• Dépassionner les débats (personnes, pensée dominante, ...)

Page 10: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Partager "SES" données : problématiquesA quel moment ouvrir ses données ? Et a quelle population ?o Protection de l'Anonymisation, évolution la législation (enquêtes 70s VS RGPD )

o De la concurrence à la coopération

A qui appartiennent les données produites avec de l'argent public ? Dont les données dérivées ?

Comment documenter ses données ?

Ou stocker ses données pour quelle pérennité ? Quelles possibilités de traitement ?

Comment accéder (au catalogue des) aux données des autres

Enjeux du partage : validation scientifique par des pairs, constitution de corpus "référence", etc.

Page 11: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

LA PLATEFORME UNIVERSITAIRE DE DONNEES DE DIJON

OUVERTURE DES DONNEES : EXPERIENCE DE

Page 12: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

La PUDD : labellisation nationale de la TGIR PROGEDO

Un appui aux équipes dans leurs projets et collaborations de recherche reposant sur la collecte, le traitement et l'analyse de données ou la production de nouvelles bases de données

Des formations et de l'animation sur ce thème

Des outils mutualisés dédiés à la collecte, à l'analyse et à l'archivage des données

Objectifs

Hébergement et responsabilités

Plateforme portée et hébergée par la MSH de Dijon, USR UB CNRS 3516

Responsable scientifique : Jimmy Lopez , MCF en sciences économiques au LEDi

Page 13: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

La Très grande infrastructure de recherche PROGEDO

source : ADISP

Graphique 1 : Structure de PROGEDO

Page 14: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Précision sur les données

Graphique 2 : les données disponibles

Source : Progedo-diffusion

Page 15: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Les structures partenaires : ADISP

NESSTAR = outil de diffusion de données etmétadonnées sur le web (export de fiches XML), selonle standard DDI

DDI= Data Documentation Initiative : standard dedocumentation technique pour décrire et conserver lesinformations et données d'enquêtes en sciences humaineset sociales

le Site de l'ADISP est : http://www.progedo-adisp.fr/

le Nesstar de l'ADISP est : http://nesstar.progedo-adisp.fr/webview/

Source : Progedo-Quetelet diffusion

Page 16: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Les structures partenaires : services de l'INED

le Site de l'INED est : https://www.ined.fr/fr/

le Nesstar de l'INED est : http://nesstar.ined.fr/webview/

Source : Progedo-Quetelet diffusion

Page 17: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Les structures partenaires : le CDSP

Source : Progedo-Quetelet diffusion

Le site du CDSP : https://cdsp.sciences-po.fr/fr/

Le NESSTAR du CDSPhttp://nesstar.sciences-po.fr/webview/

Page 18: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Les structures partenaires : le CASD

Source : Progedo-Quetelet diffusion

Page 19: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Procédure d'accès aux données : hors CASD

Source : PROGEDO - Quetelet Diffusion

Page 20: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Procédure d'accès aux données : via le CASD

Source : PROGEDO - Quetelet Diffusion

Page 21: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Données internationales

PROGEDO participe financièrement à l'accès à deux grandes archives internationales .

ICPSR : Inter-university Consortium for Political and Social Research

Très grande archive de données en SHS :

Plus de 10 000 études

Internationales et sur une longue période

LIS Cross National Data Center (Luxembourg Income Study)

Deux sources internationales, issues d'enquêtes nationales :

Luxembourg Income Study (revenus et consommation, 40 pays, 5 continents, dès 1970)

Lux. Wealth Study (patrimoine, 12 pays occidentaux)

Page 22: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Quelques statistiques sur l'utilisation des données : ADISP

Source : PROGEDO - Quetelet Diffusion

http://www.progedo.fr//app/uploads/2019/07/EnqueteQueteletProgedoDiffusion2019.pdf

Page 23: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

Le stockage des données

Source : PROGEDO - Quetelet Diffusion

Page 24: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National

ConclusionAMI Grand Débat et problématique de partage des données de la phase 1

Solution de stockage existantes à divers niveaux de maturité des données

Mécanismes de partage de données ouverts à des populations ciblées (si besoin)

Téléchargement et/ou Infrastructure d'exploitation des données ?

Statistiques de consultation (utile dans secteur concurrentiel) reconnaissance des différents acteurs au cours du cycle de vie d'un corpus

Quelques verrous juridiques si diffusion à tout le mondeprotection de la vie privéelicence (contaminante?) de repartage (à finalité limitée ?)

Page 25: Ouverture des données : spécificités dans le domaine des ...€¦ · La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516. o inscrite dans le Réseau National