Formation Open Science et Données de la recherche. 2e...

40
Formation Open Science et Données de la recherche. 2e partie : Enjeux et pratiques de la gestion des données ED DESPEG 28 avril Version simplifiée Plan: 1. Gérer les données durant tout leur cycle de vie 2. Créer ou collecter des données 3. Stocker pendant le projet 4. Organiser ses données et sa documentation 5. Documenter ses données 6. Enjeux juridiques et éthiques 7. Stocker et archiver après le projet 8. Diffuser et partager ses données Interlocuteurs locaux Quelques sites et documents pour aller plus loin:

Transcript of Formation Open Science et Données de la recherche. 2e...

Page 1: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Formation Open Science et Données de la recherche. 2e partie : Enjeux et pratiques de la gestion des données ED DESPEG 28 avril Version simplifiée Plan: 1. Gérer les données durant tout leur cycle de vie 2. Créer ou collecter des données 3. Stocker pendant le projet 4. Organiser ses données et sa documentation 5. Documenter ses données 6. Enjeux juridiques et éthiques 7. Stocker et archiver après le projet 8. Diffuser et partager ses données Interlocuteurs locaux Quelques sites et documents pour aller plus loin:

Page 2: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

1. Gérer les données durant tout leur cycle de vie

Pourquoi peut­on parler d'un "cycle de vie des données"?

Les enjeux de la gestion des données

Pour l'exploitation des données dans le cadre du projet Pour l'exploitation après le projet (reproductibilité de la recherche, réutilisation des données dans de nouveaux contextes)

Les plans de gestion de données

Document formel précisant la manière dont seront produites, traitées, décrites, diffusées et conservées les données au cours et à l’issue du projet.

Pas exigé lors d’un doctorat, mais démarche qui peut être inspirante

Page 3: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Un exemple britannique : Checklist for a Data Management Plan. Version 4.0. Edinburgh : Digital Curation Centre, 2013.

2. Créer ou collecter des données

Réutiliser des données existantes

Ex1 : données d’institutions culturelles (musées, archives, bibliothèques…) Ex2 : données publiques en opendata: https://www.data.gouv.fr/fr/ Ex3 : données de la statistique publique: http://www.reseau­quetelet.cnrs.fr/spip/ Ex4 : données produites ou diffusées par d'autres chercheurs

Collecter ou créer de nouvelles données

Ex1 : projet Navigocorpus, des archives aux données analysées et cartographiées

Page 4: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

(sources : http://actoz.db.huma­num.fr/fmi/webd#Navigocorpus_pointcall ;

http://www.huma­num.fr/sites/default/files/lettre_infoinshs_21_partage­experience.pdf ; https://books.google.fr/books?id=0u2oCgAAQBAJ&lpg=PA92&ots=Pa­SilAAHr&dq=Navigocorpus%20database%20and%20eighteenth­century%20French%20world%20maritime%20networks&hl=fr&pg=PA101#v=onepage&q&f=false )

Questions clés Utilité et limites de ces données? Nature (données de recherche, données publiques, données privées…) ? Mode de création?

Page 5: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Modalité d’accès ? Support ? Étapes et niveaux d’élaboration des données au cours du projet ? Types "techniques" (texte, tableaux, images, bases de données…)? Formats de fichiers (privilégier formats ouverts et bien documentés)? Logiciels nécessaires pour les créer, les traiter ou les lire?

Page 6: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

3. Stocker pendant le projet

Distinguer stockage, archivage, diffusion

Maîtriser les risques pesant à court terme sur les données : Perte de données Corruption de données Accès non autorisé aux données

Choisir le(s) support(s) approprié(s) :

Support Usage idéal

Réseau local de l'université (avec sauvegarde et redondance)

Version de référence

Page 7: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Réseau local de l'université Version de référence

Ordinateur du laboratoire Copies de sauvegarde ou version de référence

Ordinateur personnel Copies de sauvegarde ou version de référence

Cloud commercial (Dropbox…) ou proposé par l'université (OneDrive)

Copies de sauvegarde, sauf données sensibles

Supports externes (clés USB, disque externe, cédérom, DVD ROM)

Copies de sauvegarde, sauf données sensibles

Sauvegarder méthodiquement Sauvegardes régulières et fréquentes Idéalement 2 sauvegardes, sur supports différents, dont une stockée physiquement à distance (ex: cloud + clé usb)

Sécuriser Utiliser des mots de passe fiables. À ne jamais partager Éviter les ordinateurs inconnus Pour les données sensibles, éviter les supports amovibles, le cloud, les transferts par courriel

Crypter les données au besoin

4. Organiser ses données et sa documentation

Organiser sa documentation Utiliser un gestionnaire de références: Zotero (https://www.zotero.org), Mendeley, etc. Ex: http://www.boiteaoutils.info/2012/11/gerer­la­documentation­ii­une­approcha/

Page 8: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Organiser ses dossiers hiérarchiquement

Bien nommer ses fichiers Lecture sur différentes machines Noms uniques, cohérents et informatifs

Ex:

Page 9: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Quelques outils pratiques pour… Renommer en masse des fichiers : Bulk Rename Utility (Windows), Advanced Renamer (Windows)… Ex: http://data.blogspot.fr/2016/02/using­bulk­rename­utility­in­digital.html

Comparer des fichiers: WinMerge. Ex: http://data.blogspot.fr/2016/02/using­winmerge­to­manage­files­and.html

Bien organiser ses données au sein d’un fichier o Ex : quels sont les problèmes dans ce fichier ? comment pourrait­on les corriger ? https://docs.google.com/spreadsheets/d/1QTQVYtufIfooIm8Q0cOeTcGLS8vg7ubfsT12CNLusmc/edit#gid=0

o Conseils détaillés : http://data.research.cornell.edu/content/tabular­data

5. Documenter ses données Indispensable pour garder trace de leur signification, de leur contexte de création, des traitements et analyses effectuées, et faciliter la diffusion et l'archivage

Documentation créée lors de différentes phases : en amont, lors du recueil des données, lors du traitement et de l’analyse

Pratiques variables selon les disciplines. Ex: documents exigés pour déposer une enquête qualitative dans BeQuali

Parfois nécessaire de « redocumenter » les données a posteriori. Ex: « Enquêtes sur l’enquête » réalisés par BeQuali

Créer un fichier README.txt donnant quelques informations clés en quelques lignes (Modèles détaillés : http://data.research.cornell.edu/content/readme ; http://d7.library.gatech.edu/research­data/readme )

Page 10: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

6. Enjeux juridiques et éthiques

Enjeux internes au monde scientifiques : comment concilier le principe d’ouverture avec

La concurrence entre scientifiques ? Le risque de mauvaise interprétation des résultats ? Les mécanismes d’évaluation centrés sur le nombre de publications ?

Enjeux à l’interface du monde scientifiques et de la société: comment concilier le principe d’ouverture avec

La valorisation économique des résultats ? La relation de confiance entre chercheur et participant à la recherche (sciences sociales, médecine) ?

La protection des personnes (données personnelles/sensibles) La protection des entreprises (données économiques) La protection du patrimoine (données archéologiques...) La complexité du droit et les écarts entre pays?

Le statut des données et documents

Un principe récent (2013) : la recherche a pour mission « L'organisation de l'accès libre aux données scientifiques » (Code de la recherche : article L112‐1).

Mais pas de règle juridique unique applicable aux données en général. Différents cas de figure à prendre en compte en fonction de leur nature et du contexte. Plusieurs couches de droits peuvent s'additionner.

Questions à poser avant de réutiliser, traiter, créer, diffuser tout document, donnée ou information : protection par la propriété intellectuelle ? protection particulières pour certains types de données ?

Page 11: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Les principaux à droits à prendre en compte

Diffusion ou réutilisation libre

Protection par la propriété intellectuelle Protection particulières pour des données concernant

Idées, faits, données brutes, sauf informations bénéficiant d'une protection particulière Oeuvres entrées dans le domaine public Information issue de documents produits ou reçus par l'administration, sauf documents soumis à la PI ou informations bénéficiant d'une protection particulière

Oeuvres non entrée dans le domaine public (textes, images, vidéos, logiciels, etc.)

"Bases de données" (recueil d'oeuvres et/ou de données, de forme varié) droit sui generis des bases de données + droit d'auteur sur la base elle­même + droit d'auteur sur ses éléments

la vie privée de personnes physiques le secret statistique les secrets commerciaux ou industriels les intérêts de l'Etat

Respecter: le droit moral pour les oeuvres entrées dans le domaine public l'équivalent du droit moral pour les informations publiques

Autorisation requise (et éventuellement rémunération): des détenteurs des les droits d'auteurs et éventuels "droits voisins"

Autorisation requise (et éventuellement rémunération): des détenteurs des les droits d'auteurs et éventuels "droits voisins" sur les oeuvres incluses de la base des détenteurs des droits d'auteurs sur la structure de la base du "producteur" de la base (s'il fait jouer son droit), sauf pour une extraction non substantielle

Procédures spécifiques Déclaration à la CNIL ou au CIL Demande d'autorisation à la CNIL Organismes spécifiques

Références : Code de la propriété intellectuelle

https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000006069414 ; Code des relations entre le public et l'administration (livre III) ; https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000031366350 ; Loi 1978­17 Informatique et liberté https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000000886460

Page 12: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Droit des agents publics, des chercheurs et doctorants

Données soumises à des règles particulières Voir http://www.cil.cnrs.fr/CIL/ et https://www.cnil.fr Principes clés de protection des données personnelles https://www.cnil.fr/fr/comprendre­vos­obligations/les­principes­cles définir la finalité du fichier vérifier la pertinence des données au regard de cette finalité limité la conservation des données respecter les droits des personnes sécuriser les données

Un acteur à connaître: le Correspondant informatique et libertés

Evolutions en cours o vers un droit de réutilisation des données « non protégeables » produites par les chercheurs ? Projet de loi République numérique, art. 17 : http://www.senat.fr/dossier­legislatif/pjl15­325.html

o vers une autorisation du Text & Data Mining ? Débats houleux : http://scoms.hypotheses.org/640

Choisir une licence pour sécuriser l'usage des données A choisir en fonction des données et au degré de réutilisation souhait Degré de réutilisation maximum : « renonciation » CC­0. Idéale pour les données brutes https://creativecommons.org/publicdomain/zero/1.0/deed.fr

Créditer l'auteur : Licence Attribution CC­BY version 4 https://creativecommons.org/licenses/by/4.0/

Les autres licences peuvent avoir des effets difficilement prévisibles. Pour les logiciels : GPLv3, MIT, BSD, CeCILL... (http://www.cecill.info/licences.fr.html) . http://choosealicense.com/

Page 13: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Ex : parcourir http://www.limc­france.fr/presentation , http://siprojuris.symogih.org/ et https://criminocorpus.org/fr/ , http://dx.doi.org/10.7910/DVN/28674

Quel est le droit invoqué par les auteurs pour protéger ou libérer leurs données? Quels sont les usages autorisés?

7. Stocker et archiver après le projet

Quelles données conserver? A minima les données sur lesquelles se fondent les analyses présentées dans les publications ou la thèse

Outils proposés par Humanum Pour des projets importants en SHS (actuellement pas pour un doctorant isolé) Nakala https://www.nakala.fr/ (stockage sécurisé, identifiant pérenne, métadonnées, mais pas d’interface publique ni moteur de recherche). Ex : http://www.cfeetk.cnrs.fr/archives/

Nakalona https://www.nakalona.fr/ (Nakala+ interface)

L'archivage pérenne (>=30 ans) Complexe et coûteux. Pour l’ESR, mission du CINES https://www.cines.fr/ Actuellement pas pour un doctorant isolé ou un petit projet

8. Diffuser et partager ses données

Quelles données diffuser ? à qui ? quand ?

Où diffuser ses données? À la demande

Page 14: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Site d'une revue (matériel supplémentaire joint à un article). Ex : http://sociologie.revues.org/811

Site du laboratoire ou du chercheur. Ex: http://piketty.pse.ens.fr/fr/capital21c Site du projet. Ex: Criminocorpus Entrepôt de données (préférable pour des données "statiques")

Les entrepôts de données (data repository) Plus de 1500! cf. Re3data http://www.re3data.org Plusieurs types : spécialisés, disciplinaires, institutionnels, généralistes Deux grands entrepôts généralistes offrent des services proches: Figshare (privé, lié à un groupe de presse) https://figshare.com/ , Zenodo (public, lié au CERN) https://zenodo.org/

Voir aussi MediHAL (images, sons, vidéos) https://medihal.archives­ouvertes.fr/

Critères de choix essentiels d'un entrepôt Reconnaissance par une communauté disciplinaire Type et taille des fichiers acceptés correspondant aux besoins Attribution d’identifiants pérennes (DOI, Handle, ARK) Possibilité d’accès restreint ou d’embargo Fiabilité du stockage et certification (Data Seal of Approval, norme OAIS…)

Rendre ses données citables et citer celles des autres : Bonnes pratiques:

Citer les données comme tout autre document (dans le corps du texte et en note)

Citer également les publications associées aux données Donner les informations nécessaires pour permettre la citation de ses données

Une citation doit permettre : L’identification des données (titre, date, version, éditeur, identifiant pérenne)

L’attribution à leurs auteurs (nom) Une lecture par des hommes et des machines (identifiant pérenne)

Page 15: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Structuration et éléments importants Le format précis (ordre des éléments, ponctuation) peut varier selon les exigences des revues et des disciplines.

Ex. : Auteur (Année), Titre, Entrepôt de données, Version (facultatif), Type de ressource (facultatif). Identifiant

Un outil utile pour formater les citations (de données et de publications): http://crosscite.org/citeproc/

Publier une description de ses données dans un « data journal » : Journaux publiant des articles scientifiques (revus par les pairs) décrivant des jeux de données

Ex. généraliste : Scientific Data http://www.nature.com/sdata/ Ex. displinaires : Journal of open archeology data http://openarchaeologydata.metajnl.com/about/ ; Journal of Open Psychology Data http://openpsychologydata.metajnl.com/

Interlocuteurs locaux Besoins de formation: URFIST de Nice Accompagnement et conseil: Bibliothèque universitaire http://bibliotheque.unice.fr/services­et­formations/publication­theses/manipulation­et­gestion­de­donnees

Traitement de données personnelles et sensibles: Correspondant informatique et liberté de l'université http://unice.fr/fil/service­communication/actualites/protection­des­donnees­personnelles­quels­dispositifs­mis­en­place­a­luns

Page 16: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Quelques sites et documents pour aller plus loin:

Guides, supports de formations, tutoriels et fiches pratiques généraux

Fiches pratiques (très synthétiques)

Guides du CIRAD : DEBOIN, Marie­Claude, DEDIEU, Laurence, FILY, Marie­Françoise. Gestion des données de la recherche. Dans : CoopIST. CIRAD. 2015­2016.http://coop­ist.cirad.fr/gestion­de­l­information/gestion­des­donnees­de­la­recherche

Guide Formadoct (Université Bretagne Loire): Alexandre SERRES. Guide « Les données de la recherche ». FORMADOCT. Mis à jour le 22/02/2016. Disponible à l'adresse : http://guides­formadoct.ueb.eu/donnees_recherche

Site d'information : INIST­CNRS. Site d’information sur les données de la recherche. 2011­2016. Disponible à l'adresse : http://www.donneesdelarecherche.fr/

Formation INIST (très détaillée) : JACQUEMOT, Marie­Christine et COSSERAT, Françoise. Gestion et diffusion des données de la recherche [en ligne]. Rennes, 16 juin 2015. 140 diapos. Disponible à l’adresse : http://www.inist.fr/IMG/pdf/urfistrennes_20150616.pdf

INIST­CNRS. 7 Tutoriels multimédia « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 ». Mis à jour le 15 avril 2016. http://www.inist.fr/?­Tutoriels­multimedias­H2020­

­ Tutoriel 1 : Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 ­ Principes généraux

­ Tutoriel 2 : DMP ­ Présentation générale

Page 17: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

­ Tutoriel 3 : DMP ­ Description des données

­ Tutoriel 4 : DMP ­ Standards et métadonnées

­ Tutoriel 5 : DMP ­ Partage des données

­ Tutoriel 6 : DMP ­ Archivage des données

­ Tutoriel 7 : Déposer ses données dans un entrepôt

Les données en SHS

Infrastructures numériques:

Humanum: très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Services de stockage, traitement, diffusion, archivage, signalement, exposition de données, pour des projets collaboratifs importants. Anime 10 consortiums thématiques. Impliquée dans plusieurs projets et infrastructures européennes (Dariah https://www.dariah.eu ,Clarin http://www.clarin.eu/ , Humanities at scale http://has.dariah.eu/ , Parthenos http://www.parthenos­project.eu/). http://www.huma­num.fr/

Progedo (Production et gestion de données en sciences sociales): très grande infrastructure de recherche Diffusion (réseau Quételet), production et promotion de données en sciences sociales. Impliquée dans plusieurs infrastructures européennes (CESSDA http://cessda.net/ ,SHARE http://www.share­project.org/ , ESS http://www.europeansocialsurvey.org/ )

Réseau Quételet : dépend de Progedo. Portail français d’accès aux données pour les sciences humaines et sociales (grandes enquêtes, recensement et bases issues de la statistique publiques et marginalement de la recherche académique, enquêtes étrangères). http://www.reseau­quetelet.cnrs.fr/spip/

Journées d'études et séminaire: Série de séminaires organisés à Lille depuis 2014. Synthèses et vidéos en ligne : http://geriico.recherche.univ­lille3.fr/index.php?page=seminaire­drtd

Page 18: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Journée d'étude "Données en partage : enjeux et acteurs des données de la recherche aujourd’hui". Toulouse, 15 juin 2015. Vidéos en ligne : https://www.canal­u.tv/producteurs/universite_de_toulouse/journee_d_etude_donnees_en_partage_enjeux_et_acteurs_des_donnees_de_la_recherche_aujourd_hui_toulouse_15_juin_2015

Travaux universitaires et enquêtes: CABRERA, Francisca. Les données de la recherche en Sciences humaines et sociales : enjeux et pratiques. Enquête exploratoire. [en ligne]. Mémoire INTD Titre professionnel de niveau 1. Paris : INTD­CNAM, 17 février 2015. 238 p. Disponible à l’adresse : http://memsic.ccsd.cnrs.fr/mem_01117375/document

DELAY­ARTOUS, Cécile. Open, or not Open, Research Data ? Jeux d’acteurs et questions d’accès à l’IFSTTAR [en ligne]. Mémoire INTD Titre professionnel de niveau 1. Paris : INTD­CNAM, 10 décembre 2014. 150 p. Disponible à l’adresse : http://memsic.ccsd.cnrs.fr/mem_01128833/document

MONTAGNE, Camille Fayet. Les enjeux de la patrimonialisation et de la réutilisation des données qualitatives de la recherche en Sciences humaines et sociales [en ligne]. Master 2 Archives numériques. Villeurbanne : ENSSIB, 2015. 107 p. Disponible à l’adresse : http://www.enssib.fr/bibliotheque­numerique/notices/66007­les­enjeux­de­la­patrimonialisation­et­de­la­reutilisation­des­donnees­qualitatives­de­la­recherche­en­sciences­humaines­et­sociales

PARISOT, Thomas et CABRERA, Francisca. Les « Données de la recherche »: définitions, enjeux et perspectives pour les sciences humaines et sociales [en ligne]. Paris, 10 février 2015. [Consulté le 10 avril 2016]. 15 diapos. Disponible à l’adresse : http://fr.slideshare.net/ThomasParisot/cairn­donnees10022015

Page 19: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Contexte stratégique et exigences des financeurs

COMMISSION EUROPÉENNE. DIRECTION GÉNÉRALE DE LA RECHERCHE ET DE L’INNOVATION. Lignes directrices pour la gestion des données dans Horizon 2020. Version 2.1. Nancy : INIST­CNRS, 15 février 2016. Disponible à l’adresse : http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_gestion_des_donnees_horizon_2020_version2._1_tr_fr.pdf

GAILLARD, Rémi. De l’Open data à l’Open research data: quelle (s) politique (s) pour les données de recherche? [en ligne]. Mémoire d’étude DCB. Villeurbanne : ENSSIB, 2014. 104 p. Disponible à l’adresse : http://www.enssib.fr/bibliotheque­numerique/notices/64131­de­l­open­data­a­l­open­research­data­quelles­politiques­pour­les­donnees­de­recherche

Plans de gestion de données

CARTIER, Aurore, MOYSAN, Magalie et REYMONET, Nathalie. Réaliser un plan de gestion de données. Paris : Université Paris Diderot, Université Paris Descartes, 9 janvier 2015. Disponible à l’adresse : http://www.univ­paris­diderot.fr/DocumentsFCK/recherche/Realiser_un_DMP_V1.pdf

Checklist for a Data Management Plan. Version 4.0. Edinburgh : Digital Curation Centre, 2013. Disponible à l’adresse : http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf

Page 20: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Aspects techniques

HUMANUM. Le guide des bonnes pratiques numériques. 13/01/2015. 45 p. Disponible à l’adresse : http://www.huma­num.fr/sites/default/files/guide_des_bonnes_pratiques.pdf

Enjeux éthiques et juridiques

Consortium CAHIER. La publication des éditions de textes: informations et recommandations. avril 2015. Disponible à l'adresse : http://cahier.hypotheses.org/groupe­questions­juridiques

Journées d'études "L’éditeur de textes est­il un auteur ? Réflexions juridiques et scientifiques à propos de l’édition critique". 2­3/02/2015. IRHT. [Compte­rendu : 4 billets sur le site du Consortium Cosme http://cosme.hypotheses.org/ ]

Groupe de travail Ethique et droit. Ethique et droit. 2012­2016. Disponible à l’adresse : http://ethiquedroit.hypotheses.org/

COMITÉ D’ÉTHIQUE DU CNRS. Les enjeux éthiques du partage de données scientifiques. Paris: CNRS, 2 mai 2015. Disponible à l’adresse : http://www.cnrs.fr/comets/IMG/pdf/2015­05_avis­comets­partage­donnees­scientifiques­2.pdf

COMITÉ CONSULTATIF COMMUN D’ÉTHIQUE POUR LA RECHERCHE AGRONOMIQUE INRA­CIRAD. Avis 8 sur les enjeux éthiques et déontologiques du partage et de la gestion des données issues de la recherche. [S. l.] : CIRAD ; INRA, février 2016. Disponible à l’adresse : http://www.cirad.fr/content/download/10859/126461/version/2/file/Avis­8­Comite­Ethique­web­A4.pdf

MAUREL, Lionel. Le statut des données de la recherche : entre droit des bases de donn… [en ligne]. Lille, 10 juillet 2015. Disponible à l’adresse : http://fr.slideshare.net/calimaq/le­statut­des­donnes­de­la­recherche­entre­droit­

Page 21: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

des­bases­de­donnes­et­donnes­publiques?ref=http://scinfolex.com/2015/07/13/le­statut­juridique­des­donnees­de­la­recherche­entre­droit­des­bases­de­donnees­et­donnees­publiques/

MORCRETTE, Nathalie et GANDON, Nathalie. Existe­t­il un cadre juridique pour les données de la recherche [en ligne]. 22 janvier 2016. Disponible à l’adresse : http://wiki­urfist.unice.fr/wiki_urfist/images/3/3d/Formation_URFIST_janv2016.pdf

∙ Les enjeux o Pour une exploitation des données dans le cadre du projet

§ Bonne conservation § Sécurisation § Fiabilisation

o Pour une exploitation après le projet (reproductibilité de la recherche, réutilisation des données dans de nouveaux contextes) § Localisation § Accessibilité § Citabilité § Compréhensibilité § Pérennité

o De manière générale : respect du droit et des règles éthiques ∙ Les plans de gestion de données

o Document formel précisant la manière dont seront produites, traitées, décrites, diffusées et conservées les données au cours et à l’issue du projet § Pratique § Synthétique § Prospectif § Évolutif

Page 22: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Pas exigé lors d’un doctorat, mais démarche qui peut être inspirante o Utilité :

§ Bonne conduite du projet : expliciter pour éviter les écueils § Réponse aux exigences de certains financeurs

o Pas de modèle unique, mais des éléments et rubriques qui se recoupent souvent

o Un modèle britannique : Checklist for a Data Management Plan. Version 4.0. Edinburgh : Digital Curation Centre, 2013. Disponible à l’adresse : http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf

2. Créer ou collecter des données

∙ Réutiliser des données existantes o Utilité et limites ? o Nature (données de recherche, données publiques, données privées…) ? o Modalité d’accès ? o Support ? o Ex1 : données d’institutions culturelles (musées, archives, bibliothèques…)

o Ex2 : données publiques en opendata : https://www.data.gouv.fr/fr/ o Ex3 : données de la statistique publique et à de grandes enquêtes académiques via le réseau Quételet http://www.reseau­quetelet.cnrs.fr/spip/

∙ Collecter ou créer de nouvelles données o Utilité et limites ? o Nature, mode de création ? o Support ? o Étapes et niveaux d’élaboration des données au cours du projet ? o Ex1 : projet Navigocorpus, des archives aux données cartographiées

(sources : http://actoz.db.huma­num.fr/fmi/webd#Navigocorpus_pointcall ; http://www.huma­num.fr/sites/default/files/lettre_infoinshs_21_partage­experience.pdf ; https://books.google.fr/books?id=0u2oCgAAQBAJ&lpg=PA92&ots=Pa­SilAAHr&dq=Navigocorpus%20database%20and%20eighteenth­century%20French%

Page 23: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

20world%20maritime%20networks&hl=fr&pg=PA101#v=onepage&q&f=false )

∙ Types de données ∙ Formats de fichiers ∙ Privilégier les formats

o « Ouverts » : non propriétaires (ou utilisables librement), bien documentés o Faisant l’objet de normes ou de standards o Reconnus dans une communauté disciplinaire o Non compressés o Archivables pour une longue durée (si les données doivent être archivées)

3. Stocker pendant le projet

∙ Distinguer stockage, archivage, diffusion ∙ Maîtriser les risques pesant à court terme sur les données :

o Perte de données o Corruption de données o Accès non autorisé aux données

Réponses : Stocker les données de manière adaptée Sauvegarder régulièrement Protéger ses données

∙ Choisir le(s) support(s) approprié(s) : ∙ Sauvegarder méthodiquement

o Avoir 3 copies des données importantes (la version de référence + 2 sauvegardes)

o Sur 2 supports différents (ex: disques dur + clé usb) o Dont 1 sauvegarde sur un site distant (ex: cloud) o Sauvegardes régulières et fréquentes

∙ Utiliser des mots de passe fiables. À ne jamais partager ∙ Éviter les ordinateurs inconnus ∙ Pour les données sensibles, éviter les supports amovibles, le cloud, les

transferts par courriel ∙ Crypter les données au besoin

Page 24: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

4. Organiser ses données et sa documentation ∙ Pour la documentation, utiliser Zotero ou un autre gestionnaire de références

(Mendeley…), en faisant des sauvegardes. https://www.zotero.org . Ex : http://www.boiteaoutils.info/2012/11/gerer­la­documentation­ii­une­approcha/

∙ Organiser ses dossiers hiérarchiquement. Plusieurs options: o Type de matériel (données, publications, documents administratifs…) o Type d’activité de recherche (état de l’art, enquête, questionnaire…) o Différents jeux de données o Étapes de traitement des données o Étape du projet o Chronologie o Géographie

∙ Ex fictif :

∙ Bien nommer ses fichiers o Ex. fictif : Permettre leur lecture sur différentes machines :

Noms relativement brefs Caractères à utiliser: lettres (az, A­Z), chiffres (0­9), tirets (_­) Pas de caractères spéciaux ni accentués, d’espaces ni de ponctuation

Noms uniques, cohérents, informatifs : faciliter les tris et la compréhension en intégrant des informations essentielles au nom. Par exemple : Sujet Type de données (questionnaire, test…) Variable mesurée Date et/ou heure: AAAA­MM­JJ (norme ISO 8601) Numérotation (saisir des 0 initiaux pour les tris) Versions (v01.2, v03.4… et « FINAL » pour le document validé pour diffusion)

Numéro ou nom d’instrument ∙ Quelques outils pratiques pour…

Page 25: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Renommer en masse des fichiers : Bulk Rename Utility (Windows), Advanced Renamer (Windows)… Ex: http://data.blogspot.fr/2016/02/using­bulk­rename­utility­in­digital.html

o Comparer des fichiers: WinMerge. Ex: http://data.blogspot.fr/2016/02/using­winmerge­to­manage­files­and.html

∙ Bien organiser ses données au sein d’un fichier o Ex : quels sont les problèmes dans ce fichier ? comment pourrait­on les corriger ?

o Conseils détaillés : http://data.research.cornell.edu/content/tabular­data 5. Documenter ses données

∙ Indispensable pour garder trace de leur signification, de leur contexte de création, des traitements et analyses effectuées

∙ Documentation créée lors de différentes phases : en amont, lors du recueil des données, lors du traitement et de l’analyse.

∙ Pratiques variables selon les disciplines o Protocoles, méthodes o Questionnaire, grille d’entretien o Consentement des participants o Carnets de laboratoire o Carnets de terrain o Dictionnaires de données o Grilles et instructions de codage (codebook)

∙ Ex: documents exigés pour déposer une enquête qualitative dans BeQuali https://cdsp.sciences­po.fr/page.php?&idRubrique=depot&lang=FR

∙ Parfois nécessaire de « redocumenter » les données a posteriori. Ex: « Enquêtes sur l’enquête » réalisés par BeQuali http://bequali.fr/media/ckeditor/uploads/2015/10/16/cdsp_bequali_sp3_ese.pdf

∙ Créer un fichier README.txt donnant quelques informations clés en quelques lignes (Modèles détaillés : http://data.research.cornell.edu/content/readme ; http://d7.library.gatech.edu/research­data/readme ) o Qui : responsables du projet, créateur des données, contributeurs o Quoi : nature des données. Liste des différents jeux de données.

Page 26: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Quand : date de collecte et des principales étapes de traitement o Où : lieu de collecte (si applicable) o Pourquoi ? utilisation dans le projet o Comment ? Traitement et analyses mises en œuvre. Règles de nommage et d’organisation. Unités de mesure, signification des codes. Outils utilisés pour créer et traiter les données. Outils nécessaires pour les réutiliser

o Informations juridiques ∙ Préparer la création de métadonnées par des outils dédiés ou des

spécialistes o Métadonnée : information structurée et lisible informatiquement, portant sur une ressource quelconque (numérique ou physique)

o Pour les créer il faut avoir noté les informations essentielles o Ex : pour les humains https://zenodo.org/record/48148 ; et pour les machines… https://zenodo.org/record/48148/export/xd

6. Enjeux juridiques et éthiques ∙ Enjeux internes au monde scientifiques : comment concilier le principe

d’ouverture avec o La concurrence entre scientifiques ? o Le risque de mauvaise interprétation des résultats ? o Les mécanismes d’évaluations centrés sur le nombre de publications ? o La complexité du droit et les écarts entre pays?

∙ Enjeux à l’interface du monde scientifiques et de la société: comment concilier le principe d’ouverture avec o La valorisation économique des résultats ? o La relation de confiance entre chercheur et participant à la recherche (sciences sociales, médecine) ?

o La protection des personnes (données personnelles/sensibles) o La protection des entreprises (données économiques) o La protection du patrimoine (données archéologiques)

∙ Quelques pistes : o Mettre en place des mécanismes de citation et d’attribution des données o Clarifier le droit applicable

Page 27: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Prendre en compte la création et la diffusion de données dans l’évaluation des carrières

o Avoir une approche différenciée selon les disciplines et les types de données

o Permettre une période d’embargo avant de partager certaines données o Anonymiser les données diffusées (mais cela peut réduire leur intérêt) o Prévoir plusieurs états des données o Permettre des accès différenciés selon le public (chercheur accrédité, communauté scientifique, grand public)

o Voir l’avis du COMITÉ D’ÉTHIQUE DU CNRS. Les enjeux éthiques du partage de données scientifiques. Paris: CNRS, 2 mai 2015. Disponible à l’adresse : http://www.cnrs.fr/comets/IMG/pdf/2015­05_avis­comets­partage­donnees­scientifiques­2.pdf

∙ Un principe récent (2013) : la recherche a pour mission « e) L'organisation de

l'accès libre aux données scientifiques » (Code de la recherche : article L112‐1) ∙ Mais pas de règle juridique unique applicable aux données en général. Différents

cas de figure à prendre en compte en fonction de leur nature et du contexte. Voir le CPI https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000006069414

∙ Qu’elles soient produites par un chercheur ou par des tiers, les informations peuvent être: o Protégeables par des droits de propriété intellectuelle

§ Propriété littéraire et artistique (protection automatique et sans formalité, condition de début de réalisation et d’originalité): textes, images, sons, bases de données, logiciels…

§ Propriété industrielle (dépôt formel) : brevets, modèles et dessins, droits des marques. ∙ Si un dépôt de brevet est envisagé, les informations dont la divulgation pourraient nuire à la protection (données, publications) doivent rester confidentielles jusqu’au dépôt.

Page 28: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Non protégeables par des droits de propriété intellectuelle § Idées et données factuelles isolées, sans mise en forme : projet, théorème, méthode, algorithme, chiffre brut…

§ Peuvent être publiques, secrètes, ou partagées de manière confidentielle

§ Œuvres entrées dans le domaine public ∙ Dans certains cas, il faut prendre en compte les droits voisins

(artistes­interprètes, producteurs de phonogrammes et vidéogrammes…) ∙ Cas particulier : le droit des bases de données

o Sens juridique distinct du sens informatique : CPI, art. L112­3 « recueil d'œuvres, de données ou d'autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen ». Un fichier Excel peut être considéré comme une base de donnée

o Protection de la structure (modélisation, nom des colonnes…) : si originale

o Protection des éléments : au cas par cas (oui pour des photographies, non pour des mesures brutes). Auteurs qui peuvent être différents de celui de la base elle­même

o Protection des éléments accordée au « producteur » de la base (droit sui generis CPI, art. L341­343) § accordé à l’investisseur (employeur), pas à l’auteur § si investissement financier, matériel ou humain substantiel § a le droit d’interdire l’extractions et la réutilisation d’une partie substantielle, l’extractions et la réutilisation répétées d’une partie non substantielles

§ des exceptions possibles, dont une pour la recherche, mais inapplicable

∙ Droit des documents et informations publics et statut des chercheurs et

doctorants

Page 29: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Code des relations entre le public et l'administration (livre III) : https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000031366350

o reprend la loi n° 78­753 du 17 juillet 1978, l'Ordonnance n° 2005­650 du 6 juin 2005, la Valter 2015­1779 (transposition des directives européennes 2003/98/CE et 2013/37/UE)

o Liberté d'accès aux documents administratifs ("documents produits ou reçus, dans le cadre de leur mission de service public" par l'Etat, une collectivité, un établissement public) § sous réserve des droits de propriété littéraire et artistique (accès possible mais encadré)

§ sauf s'ils font déjà objet d'une diffusion publique, y compris commerciale (cartes IGN...)

§ sauf en cas d'atteinte possible à la vie privée, au secret commercial et industriel, et à d'autres secrets protégés par la loi. Dans ce cas la communication peut être possible après occultation ou disjonction des mentions sensibles.

o Depuis 2005, liberté de réutilisation des informations figurant dans les documents administratifs accessibles sans restriction § sauf si des tiers possèdent des droits de propriété intellectuelle § principe de gratuité, mais possibilité de redevance pour les administrations "tenues de couvrir par des recettes propres une part substantielle des coûts liés à l’accomplissement de leurs missions de service public" (IGN, INSEE..)

§ possibilité d'accords d'exclusivité de 10 ans (15 ans pour la numérisation de ressources culturelles)

o Régime particulier notamment pour les données géographiques et environnementales : impose aux autorités publiques (y c les universités), de publier sur Internet leurs données géographiques concernant la France, et de les partager entre elles. Code de l'environnement, art. 127 (transposition en 2010 de la Directive 2007/2/CE INSPIRE) : https://www.legifrance.gouv.fr/affichCode.do?idArticle=LEGIARTI00002

Page 30: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

2964012&idSectionTA=LEGISCTA000022964018&cidTexte=LEGITEXT000006074220&dateTexte=20101130

∙ Qui détient les droits sur les œuvres créées par les agents publics dans

l’exercice de leur fonction ou d’après les instruction reçues ? o Logiciels : transfert automatique des droits patrimoniaux aux employeurs (art.L.113­9 du CPI)

o Autres œuvres (textes, photos, bases de données…) § créées par des chercheurs et enseignants­chercheurs (CPI art. L111­1) : droits patrimoniaux et moraux (divulgation…) entiers

§ créées par d’autres agents : droit moral réduit et exploitation concédée automatiquement à l’Etat « dans la mesure strictement nécessaire à l'accomplissement d'une mission de service public »

o Les œuvres des agents publics (chercheurs ou non) ne sont pas des informations publiques réutilisables librement, car la réutilisation des informations publique dépasse le périmètre de cession automatique des droits d’exploitation (CADA Conseil 20092706).

∙ Et les doctorants ? o Sans contrat : gardent tous droits sur leurs œuvres o Contrat de travail ou contrat spécifique : analyser les termes du contrat.

∙ Données soumises à des règles particulières. Notamment :

o Données à caractères personnelles ou sensibles : Loi n°78­17 informatique et libertés modifiée notamment par la loi 2004­801

o Données soumises au secret statistique (loi de 1951 modifiée en 1984 et 2008).

o Données médicales o Défense nationale, sécurité de l’état ou des personnes o Secret commercial et industriel

∙ Evolution en cours :

Page 31: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o vers un droit de réutilisation des données « non protégeables » produites par les chercheurs ? Projet de loi République numérique, art. 17 : http://www.senat.fr/dossier­legislatif/pjl15­325.html

o vers une autorisation du Text & Data Mining ? Débats houleux : http://scoms.hypotheses.org/640

o renforcement du secret des affaires, pourrait avoir des effets dans le monde universitaire (directive du 14/4/2016) http://eur­lex.europa.eu/legal­content/FR/TXT/?uri=CELEX%3A52013PC0813

∙ En pratique (Morcrette & Gandon, diapo 16 et 17) : « auditer » les données

avant de les organiser en base de données : o 1. Sur l’origine des données :

§ Suis‐je producteur des données ? § Si je ne suis pas producteur è ai‐je l’autorisation du fournisseur ? § Si j’ai l’autorisation è la licence d’utilisation correspond‐elle à mes besoins?

§ Si je n’ai pas l’autorisation ou si la licence ne convient pas è contacter le fournisseur

o 2. Réexaminer chaque type de données (personnelle, etc.) et m’assurer que j’ai bien le droit de les diffuser

o 3. Si je créée une base de données : § Anonymiser les données personnelles § Séparer les données par type pour pouvoir en diffuser certaines et pas d’autres (gestion des droits d’accès)

o 4. Si la base est réalisée en partenariat : m’entendre avec les partenaires sur les conditions de diffusion des données et de la base

o 5. Je peux diffuser è choix d’une licence de réutilisation. Attention à la loi République Numérique qui pourrait imposer une licence

∙ Important d’accompagner la diffusion des données d’une licence, adaptée

aux données et au degré de réutilisation souhaité

Page 32: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Degré de réutilisation maximum : « renonciation » CC­0. Idéale pour les données brutes https://creativecommons.org/publicdomain/zero/1.0/deed.fr

o Licence Attribution CC­BY version 4 https://creativecommons.org/licenses/by/4.0/

o Les autres licences Creative Commons peuvent avoir des effets difficilement prévisibles.

o Attention aux bases de données comprenant des objets de statut juridiquement varié. Seuls les auteurs des éléments constitutifs peuvent adopter une licence pour leurs œuvres.

o Pour les logiciels : GPLv3, MIT, BSD, CeCILL (http://www.cecill.info/licences.fr.html) . http://choosealicense.com/

o Autres licences possibles au besoin 7. Stocker et archiver après le projet

∙ Quelles données conserver? o A minima les données sur lesquelles se fondent les analyses présentées dans les publications ou la thèse

o Pour quel usage ? o Pour quel public ? o Données brutes, nettoyées, traitées? o Pour combien de temps ? o Dans quel format ? o Avec quelles informations de « documentation » ?

∙ Outils proposés par Humanum o Pour des projets importants en SHS (actuellement pas pour un doctorant isolé):

o Nakala https://www.nakala.fr/ (stockage sécurisé, identifiant pérenne, métadonnées, mais pas d’interface publique ni moteur de recherche). Ex : http://www.cfeetk.cnrs.fr/archives/

o Nakalona https://www.nakalona.fr/ (Nakala+ interface) ∙ Pour préserver des données à très long terme (30 ans), recourir à un

archivage pérenne o Plusieurs risques à maîtriser :

Page 33: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

§ Matériel de lecture disparu § Format de fichier inconnu § Logiciel disparu § Données incompréhensibles

o Complexe et coûteux. Pour l’ESR, mission du CINES https://www.cines.fr/

o Actuellement pas pour un doctorant isolé ou un petit projet o Fichiers acceptés: http://facile.cines.fr/

8. Diffuser et partager ses données ∙ Mêmes questions que pour l’archivage… mais pas forcément les mêmes

réponses ∙ À quel moment diffuser ? ∙ Où ?

o À la demande o Matériel supplémentaire joint à un article. Ex : http://sociologie.revues.org/index.html

o Site du laboratoire ou du chercheur. Ex: http://piketty.pse.ens.fr/fr/capital21c

o Site du projet o Entrepôt de données (préférable)

∙ Plus de 1500 entrepôts de données ! cf. Re3data http://www.re3data.org o Spécialisé (un type de données) : génétique, protéines, cristallographie… o Disciplinaire ou interdisciplinaire : Pangaea (sciences de la terre), Dryad (santé et biologie)…

o Lié à un projet : Survey of Health, Ageing and Retirement in Europe o Institutionnel : Selanoe (IFREMER) o Gouvernemental o Généraliste : Figshare https://figshare.com/ , Zenodo https://zenodo.org/ , MediHAL (images et multimédia) https://medihal.archives­ouvertes.fr/

∙ Critères de choix : o Reconnaissance par une communauté disciplinaire o Type et taille des fichiers acceptés o Nature des métadonnées

Page 34: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

o Attribution d’identifiants pérennes (DOI, Handle, ARK) o Possibilité d’accès restreint ou d’embargo o Fiabilité et certification (Data Seal of Approval, norme OAIS…) o Prix o Statut (public, privé)

∙ Les deux grands entrepôts généralistes Zenodo et Figshare offrent des services proches. Mais Zenodo est public (lié au CERN) et Figshare privé.

∙ Rendre ses données citables et citer celles des autres :

Citer les données comme tout autre document (dans le corps du texte et en note)

Citer également les publications associées aux données Une citation doit permettre :

L’identification des données (titre, date, version, éditeur, identifiant pérenne)

L’attribution à leurs auteurs (nom) Une lecture par des hommes et des machines (identifiant pérenne)

Donner les informations nécessaires pour permettre la citation Ex de structure : Auteur (Année), Titre, Entrepôt de données, Version (facultatif), Type de ressource (facultatif). Identifiant

Le format précis (ordre des éléments, ponctuation) peut varier selon les exigences des revues et des disciplines.

Un outil utile pour formater les citations (de données et de publications): http://crosscite.org/citeproc/

∙ Publier une description de ses donnéesdans un « data journal » :

o Ex : Journal of open archeology data http://openarchaeologydata.metajnl.com/about/

Interlocuteurs locaux Besoins de formation: URFIST de Nice

Page 35: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Accompagnement et conseil: Bibliothèque universitaire http://bibliotheque.unice.fr/services­et­formations/publication­theses/manipulation­et­gestion­de­donnees

Traitement de données personnelles: Correspondant informatique et liberté de l'université http://unice.fr/fil/service­communication/actualites/protection­des­donnees­personnelles­quels­dispositifs­mis­en­place­a­luns

Quelques sites et documents pour aller plus loin: Guides, supports de formations, tutoriels et fiches pratiques généraux Fiches pratiques (très synthétiques)

Guides du CIRAD : DEBOIN, Marie­Claude, DEDIEU, Laurence, FILY, Marie­Françoise. Gestion des données de la recherche. Dans : CoopIST. CIRAD. 2015­2016.http://coop­ist.cirad.fr/gestion­de­l­information/gestion­des­donnees­de­la­recherche

Guide Formadoct (Université Bretagne Loire): Alexandre SERRES. Guide « Les données de la recherche ». FORMADOCT. Mis à jour le 22/02/2016. Disponible à l'adresse : http://guides­formadoct.ueb.eu/donnees_recherche

Site d'information : INIST­CNRS. Site d’information sur les données de la recherche. 2011­2016. Disponible à l'adresse : http://www.donneesdelarecherche.fr/

Formation INIST (très détaillée) : JACQUEMOT, Marie­Christine et COSSERAT, Françoise. Gestion et diffusion des données de la recherche [en ligne]. Rennes, 16 juin 2015. 140 diapos. Disponible à l’adresse : http://www.inist.fr/IMG/pdf/urfistrennes_20150616.pdf

Page 36: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

INIST­CNRS. 7 Tutoriels multimédia « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 ». Mis à jour le 15 avril 2016. http://www.inist.fr/?­Tutoriels­multimedias­H2020­

­ Tutoriel 1 : Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 ­ Principes généraux

­ Tutoriel 2 : DMP ­ Présentation générale

­ Tutoriel 3 : DMP ­ Description des données

­ Tutoriel 4 : DMP ­ Standards et métadonnées

­ Tutoriel 5 : DMP ­ Partage des données

­ Tutoriel 6 : DMP ­ Archivage des données

­ Tutoriel 7 : Déposer ses données dans un entrepôt

Les données en SHS Infrastructures numériques:

Humanum: très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Services de stockage, traitement, diffusion, archivage, signalement, exposition de données, pour des projets collaboratifs importants. Anime 10 consortiums thématiques. Impliquée dans plusieurs projets et infrastructures européennes (Dariah https://www.dariah.eu ,Clarin http://www.clarin.eu/ , Humanities at scale http://has.dariah.eu/ , Parthenos http://www.parthenos­project.eu/). http://www.huma­num.fr/

Progedo (Production et gestion de données en sciences sociales): très grande infrastructure de recherche Diffusion (réseau Quételet), production et promotion de données en sciences sociales. Impliquée dans plusieurs infrastructures européennes (CESSDA http://cessda.net/ ,SHARE http://www.share­project.org/ , ESS http://www.europeansocialsurvey.org/ )

Page 37: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Réseau Quételet : dépend de Progedo. Portail français d’accès aux données pour les sciences humaines et sociales (grandes enquêtes, recensement et bases issues de la statistique publiques et marginalement de la recherche académique, enquêtes étrangères). http://www.reseau­quetelet.cnrs.fr/spip/

Journées d'études et séminaire: Série de séminaires organisés à Lille depuis 2014. Synthèses et vidéos en ligne : http://geriico.recherche.univ­lille3.fr/index.php?page=seminaire­drtd

Journée d'étude "Données en partage : enjeux et acteurs des données de la recherche aujourd’hui". Toulouse, 15 juin 2015. Vidéos en ligne : https://www.canal­u.tv/producteurs/universite_de_toulouse/journee_d_etude_donnees_en_partage_enjeux_et_acteurs_des_donnees_de_la_recherche_aujourd_hui_toulouse_15_juin_2015

Travaux universitaires et enquêtes: CABRERA, Francisca. Les données de la recherche en Sciences humaines et sociales : enjeux et pratiques. Enquête exploratoire. [en ligne]. Mémoire INTD Titre professionnel de niveau 1. Paris : INTD­CNAM, 17 février 2015. 238 p. Disponible à l’adresse : http://memsic.ccsd.cnrs.fr/mem_01117375/document

DELAY­ARTOUS, Cécile. Open, or not Open, Research Data ? Jeux d’acteurs et questions d’accès à l’IFSTTAR [en ligne]. Mémoire INTD Titre professionnel de niveau 1. Paris : INTD­CNAM, 10 décembre 2014. 150 p. Disponible à l’adresse : http://memsic.ccsd.cnrs.fr/mem_01128833/document

MONTAGNE, Camille Fayet. Les enjeux de la patrimonialisation et de la réutilisation des données qualitatives de la recherche en Sciences humaines et sociales [en ligne]. Master 2 Archives numériques. Villeurbanne : ENSSIB, 2015. 107 p. Disponible à l’adresse : http://www.enssib.fr/bibliotheque­numerique/notices/66007­les­enjeux­de­la­patrimonialisation­et­de­la­reutilisation­des­donnees­qualitatives­de­la­recherche­en­sciences­humaines­et­sociales

Page 38: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

PARISOT, Thomas et CABRERA, Francisca. Les « Données de la recherche »: définitions, enjeux et perspectives pour les sciences humaines et sociales [en ligne]. Paris, 10 février 2015. [Consulté le 10 avril 2016]. 15 diapos. Disponible à l’adresse : http://fr.slideshare.net/ThomasParisot/cairn­donnees10022015

Contexte stratégique et exigences des financeurs COMMISSION EUROPÉENNE. DIRECTION GÉNÉRALE DE LA RECHERCHE ET DE L’INNOVATION. Lignes directrices pour la gestion des données dans Horizon 2020. Version 2.1. Nancy : INIST­CNRS, 15 février 2016. Disponible à l’adresse : http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_gestion_des_donnees_horizon_2020_version2._1_tr_fr.pdf

GAILLARD, Rémi. De l’Open data à l’Open research data: quelle (s) politique (s) pour les données de recherche? [en ligne]. Mémoire d’étude DCB. Villeurbanne : ENSSIB, 2014. 104 p. Disponible à l’adresse : http://www.enssib.fr/bibliotheque­numerique/notices/64131­de­l­open­data­a­l­open­research­data­quelles­politiques­pour­les­donnees­de­recherche

Plans de gestion de données CARTIER, Aurore, MOYSAN, Magalie et REYMONET, Nathalie. Réaliser un plan de gestion de données. Paris : Université Paris Diderot, Université Paris Descartes, 9 janvier 2015. Disponible à l’adresse : http://www.univ­paris­diderot.fr/DocumentsFCK/recherche/Realiser_un_DMP_V1.pdf

Checklist for a Data Management Plan. Version 4.0. Edinburgh : Digital Curation Centre, 2013. Disponible à l’adresse : http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf

Aspects techniques

Page 39: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la

Le guide des bonnes pratiques numériques. 13/01/2015. 45 p. Disponible à l’adresse : http://www.huma­num.fr/sites/default/files/guide_des_bonnes_pratiques.pdf

Enjeux éthiques et juridiques Groupe de travail Ethique et droit. Ethique et droit. 2012­2016. Disponible à l’adresse : http://ethiquedroit.hypotheses.org/

COMITÉ D’ÉTHIQUE DU CNRS. Les enjeux éthiques du partage de données scientifiques. Paris: CNRS, 2 mai 2015. Disponible à l’adresse : http://www.cnrs.fr/comets/IMG/pdf/2015­05_avis­comets­partage­donnees­scientifiques­2.pdf

COMITÉ CONSULTATIF COMMUN D’ÉTHIQUE POUR LA RECHERCHE AGRONOMIQUE INRA­CIRAD. Avis 8 sur les enjeux éthiques et déontologiques du partage et de la gestion des données issues de la recherche. [S. l.] : CIRAD ; INRA, février 2016. Disponible à l’adresse : http://www.cirad.fr/content/download/10859/126461/version/2/file/Avis­8­Comite­Ethique­web­A4.pdf

MAUREL, Lionel. Le statut des données de la recherche : entre droit des bases de donn… [en ligne]. Lille, 10 juillet 2015. Disponible à l’adresse : http://fr.slideshare.net/calimaq/le­statut­des­donnes­de­la­recherche­entre­droit­des­bases­de­donnes­et­donnes­publiques?ref=http://scinfolex.com/2015/07/13/le­statut­juridique­des­donnees­de­la­recherche­entre­droit­des­bases­de­donnees­et­donnees­publiques/

MORCRETTE, Nathalie et GANDON, Nathalie. Existe­t­il un cadre juridique pour les données de la recherche [en ligne]. 22 janvier 2016. Disponible à l’adresse : http://wiki­urfist.unice.fr/wiki_urfist/images/3/3d/Formation_URFIST_janv2016.pdf

Page 40: Formation Open Science et Données de la recherche. 2e ...wiki-urfist.unice.fr/wiki_urfist/images/2/23/Formation_Open_Science_et_Données...Formation Open Science et Données de la