Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019...

25
Colloque jeudi 21 novembre 2019 Retraitement de données, construction d’un SGBDR puis d’une application de gestion de Collections paléontologiques Brigitte Barchasz (Laboratoire de Géologie de Lyon - Terre, Planètes, Environnement – UMR 5276) Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 1 Les données de la Recherche et la Science Ouverte

Transcript of Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019...

Page 1: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Colloque

jeudi 21 novembre 2019

Retraitement de données, construction d’un SGBDR

puis d’une application de gestion de Collections paléontologiques

Brigitte Barchasz (Laboratoire de Géologie de Lyon - Terre, Planètes, Environnement – UMR 5276)

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 1

Les données de la Recherche et la Science Ouverte

Page 2: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Plan

• 1 - Contexte des Collections géologiques de Lyon

• 2 - Que fait l’application ?

• 3 - La démarche d’ingéniérie aboutissant par hasard à une application de gestion des collections géologiques

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 2

Page 3: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Laboratoire de Géologie de Lyon, Terre-Planètes-Environnement (LGL-TPE) – UMR 5276

INSU

Colloque Dijon - Données Ouvertes - 21nov2019 - Brigitte Barchasz 3

Service des Collections Géologiques de Lyon

1 Ing. Recherche CNRS : Emmanuel Robert

+ des bénévoles géologues

+ des stagiaires Master et Licence

BAP F

1 Ing. d’Etudes CNRS : Brigitte Barchasz

- nées en 1808 avec la création de la ’Faculté des Sciences de Lyon’- 9 millions de fossiles stockés dans 14 salles, avec compactus- parmi les 20 premières collections universitaires mondiales- Aussi dépositaires des Collections de l’Ecole des Mines

- plateforme scientifique au service des chercheurs paléontologues

Ammonite

Page 4: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Fossile doit être :

« dégagé »,

nettoyé,

étudié,

caractérisé,

publié,

étiqueté,

mis en boîte,

stocké,

conservé,...

catalogué dans une BDD.

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 4

Long PROCESSUS DE TRAVAIL (semaines, mois, années, décennies…) :

informatisation

(depuis 60 ans)

- avant projet = env. 350 fichiers fossiles, dits « bases de données » ; données et structures hétérogènes ;

- projet actuel = 1 BDD.

Arrivée du matériel (fossiles) à l’état BRUT :

Depuis +200 ans :

étiquettes

à l’encre de Chine

Page 5: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Exemple d’un OURSIN ramené de Patagonie par DARWIN en 1836, puis traité scientifiquement par Desor en 1847 (Monophoraster darwinii)

•Localisation géographique ? Gisement ?•Stratigraphie (âge) ?•Taxonomie (classification des espèces) ?•Bibliographie ?

1836

20185Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz

Page 6: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Comment gérer 9 millions de fossiles ?

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 6

Devise du service (Emmanuel Robert) :

L’inachevé permanent

Seule une partie est informatisée

Page 7: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

l’informatique pour gérer des centaines de milliers de specimens : 3 étapes historiques

• Années 1960… : Louis David1965 : met au point l’utilisation de cartes perforées pour les Bryozoaires, avec des « zones à codification numérique » - codes toujours existants dans nos données :

• 1990-2010 : Abel Prieur, anc. Resp. des Collections géologiques de Lyon Acquisition de Filemaker Pro ; 30 ans de travail de catalogage 330.000 références dont les fossiles et vertébrés => 350 fichiers Filemaker

• 2015-16 : Brigitte Barchasz, expertise ces 350 fichiers descriptifs de fossiles, Conception, Réalisation BDD unique et relationnelle (SGBDR) ; dévt des fonctionnalités sous Filemaker ; invente l’application de gestion des Collections :

7Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz

Page 8: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Ici retraitement de données et fonctionnement logiciel incidences architecturales

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 8

(Rappel) SGBDR = Système de Gestion de Bases de Données Relationnelles

TABLES de données RELIEES Suppression de la redondance, des

doublons ou occurrences inutiles Optimisation de la cohérence Sécurité, (clés), unicité, robustesse Pertinence des résultats

3 PRINCIPALES FONCTIONS :• Saisie, Catalogage• Requêtes (booléennes, Filemaker+++) • Edition de Rapports croisés de données. Statistiques, calculs.

Formatages personnalisés des données = « modèles »

Page 9: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 9

Sécurité ? Droits des utilisateurs ?Gestion de Filemaker Server

1er onglet = Gestion fiche

Gestion de 2 interfaces : Administrateur (anc. Bac à sable) // Utilisateur sécurisée (ConsultationSaisie)

Page 10: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 10

L’interface à onglets

personnes physiques ET personnes morales

Page 11: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 11

Bibliographie

développement 2019

lien 1 => N (1 specimen => N publis)

Structure 5 tables

Page 12: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

- LOT DE FICHES Specimens, puis SOUS-LOT à caractéristiques communes

- saisie de données thématiques communes :

= Programme complexe impliquant de nombreuses fonctionnalités

Objectif : optimiser la saisie + cohérence des données

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 12

Saisie par Lot : invention 2019

Fruit de l’observation des pratiques des chercheurs= Evolution sur le catalogage de specimen à l’unité

Page 13: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Dévt de nombreux outils et fonctionnalités

Colloque Dijon Donnees Ouvertes – 21nov2019 - Brigitte Barchasz 13

• Panier historique des dernières saisies à réutiliser Dans la même session : alléger les recherches répétitives et dans de lourdes tables de données (ici index de 60.700 VILLES !)

• Espaces personnalisés pour les utilisateurs, dans leur contexte de travail et sur des

sujets de recherche en cours de chantier (Oiseaux, Ammonites, Montagne Noire, Codes géographiques…)

•Assistance à la saisie par exploitation des tables de données, ou par création

• Editions de rapports croisés avec calculs statistiques

Page 14: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Avant // Après 2015-2016 : FILEMAKER PRO V11 // V18 2019350 fichiers de données // 1 seule BDDMonotable façon excel // multitables SGBDRMonoposte // multipostes grâce à Filemaker Server + AdvancedForte hétérogénéité // harmonisation des donnéessans développement // avec développement : programmes, scripts => application

grande modernisation et outil professionnel Base 410 MO (sans photos).

+ amélioration de la sécurité : les clés, les N sauvegardes quotidiennes

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 14

Base de Données et application

Filemaker vs Données ouvertes ?Filemaker Pro = Outil de dévt de BDD permettant de développer des projets personnalisées ; Langage de programmation propriétaire, mais a développé une API permettant l’interopérabilité.

Page 15: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

1. « Diagnostic » (novembre 2015) 3 préconisations : (a) FUSION (b) SGBDR (c) SERVEUR multipostes

2. Chantier FUSION = 350 fichiers Filemaker hétérogènes BASE DE DONNEES UNIQUE, MONOTABLE

3. « AUDIT détaillé » (2016, 260 pages) Fouille de données-calculs-statistiques ; simulations ….

4. Structure SGBDR. Résolution de problèmes. Nettoyages. 1ères normes et procédures.

5. Fouille de données + Recherches de référentiels pour alimenter les TABLES de données

6. Maîtrise d’œuvre : Prestations informatiques* certifié Filemaker

7. Fonctionnalités Utilisateur … peu à peu SGBDR devenu progiciel, baptisé 2019

8. DOCUMENTATION PROJET et documenter les scripts / programmes !

9. SPECIFICATIONS FONCTIONNELLES, PLANS DE TESTS, TESTS…. en conditions critiques

Ingéniérie projet pour la Base de Données et l’application

* Prestations informatiques transfert de compétences(scripts et outils)

Page 16: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Volumes en 2019

• 260.000 enregistrements table principale Specimens (hors autres tables)

• 410 MO (hors images)

• 17 millions de données

• Architecture : 30 tables + des dizaines d’occurrences de tables

• 550 rubriques ou champs de données (renseignés ou non)

• 300 scripts

• 1800 DOCUMENTS DE PROJET : excel, word, pdf, tests Excel et Filemaker

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 16

Base de Données et application

Page 17: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Référentiel actualisé pour la stratigraphie + modélisation SGBDR

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz17

Charte stratigraphique BRGM 1966

Recherche de référentiels pluridisciplinairesEn parallèle à la Fouille de données dans la BDD (vs. Absence de règles de saisie et données de références)

+ Recherches cartographiques et bibliographiques en français-anglais-espagnol

Page 18: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Bibliographie SGBDR : Revue, Issue, Document, Auteur publi, Détails publicationsimports et restructuration des données Recolnat

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz18

39,000 lignes Excelde données RecolnatRestructurées => SGBDR 5 tables

e-ReColNat = programme

national regroupant les données et images des collections naturalistesfrançaises

Page 19: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

NETTOYAGES des TERMES doublons ou répétition d’occurrences, faute de tables de données

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 19

Test :seulement 11 valeurs stockées dans des tables ! au lieu de 414.000 occurrences

6 descripteurs géographiques

+ 5 index stratigraphiques

NETTOYAGES des NOMS de PERSONNES, N versions orthographiques,Eclatement des dates-années. Gestion des homonymes.

Page 20: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Données géographiques codées, issues de cartes perforées codification perdue => solution lourde : manutention et relecture-saisie d’étiquettes

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 20

table d’équivalence intermédiaire

encore 23.700 codes géographiques à traiter !moyens RH ?!

nvx descripteurs géographiques :

Pbl Géolocalisation – territorialité - cartographie de qualité inégale Algérie, période de la colonisation française Translittération de l’alphabet arabe

cas de double orthographe

Page 21: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 21

• coelenterata, scyphozoa, conulata, conulariina, conulariidae, conulariinae [d'après treatise on invertebrate paleontology, R. C. Moore ed. (1956), part F]

• Mollusca, Cephalopoda, Ammonoidea, Ammonitina, Perisphinctaceae, Perisphinctidae, Leptosphinctinae

• MOLLUSCA, CEPHALOPODA, AMMONOIDEA, PERISPHINCTIDAE, VIRGATOSPHINCTINAE• MOLLUSCA, CEPHALOPODA, AMMONOIDEA, OPPELIIDAE, HECTICOCERATINAE• Cephalopoda, Ammonoidea, Ammonitina, Haplocerataceae, Oppeliidae, Streblitinae• Mollusca, Bivalvia, Heterodonta, Veneroida, Mactracea, Mactridae, Lutrariinae• Bivalvia, Anomalodesmata, Pholadomyoida, Pholadomyacea, Pholadomyidae

CHAMPS MULTIVALUES (taxonomie) non modélisables

• mesozoïque, jurassique, tithonien, schistes de spiti, calcaires a malagasites

• SECONDAIRE, JURASSIQUE MOYEN, DOGGER, CALLOVIEN, CALLOVIEN INFERIEUR

• Secondaire, jurassique supérieur, kimméridgien inférieur, zone à Hypselocyclum, sous-zone à Lothari

• Paléozoïque, Cambrien moyen, Série 3, Etage 5, Languedocien inférieur, Formation de Coulouma(niveau E), Zone à Solenopleuropsis (S.)

éclatement dans 12 champs de données

CHAMPS MULTIVALUES (stratigraphie + lithostratig. + biostratig.) qui ont pu être retraités par calculs

Codes de cartes perforées pour la TAXONOMIE

Page 22: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Nous rencontrons un pbl majeur sur une partie des NUMEROS D’INVENTAIRE doublons : 1 BLOC ROCHEUX ou 1 BOITE = N FOSSILES

solutions techniques 3 sous-champs + discrimination par les suffixes + programme de création automatique des suffixes alphabétiques solution humaine (moyens RH géologue) pour vérifier fiches / specimens et les discriminer scientifiquement

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 22

Base de Données et application

Page 23: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Zoom résumé sur ce travail structurel, logiciel, données :

restructuration des contenus,requalification et harmonisation des données,

résolution d’innombrables problèmes, modernisation du catalogage,

cohérence,sécurité,

pertinence des résultats de requêtes

qualité des données

Le système d’information (SGBDR)

+ la COUCHE LOGICIELLE = fonctionnalités personnalisées

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 23

Page 24: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Laboratoire de Géologie de Lyon, UMR 5276

Collections Géologiques de Lyon

Communauté scientifique nationale, internationale :

• chercheurs

• MNHN Museum National d’Histoire Naturelle

• Universités / Collections : réseau en Europe et dans le Monde (ex : Espagne, Maroc…)

• Musées en Europe et dans le Monde (ex : Confluence, British Museum…)

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 24

Voir et être vus ? Objectif OPEN DATA

• intégrer cette culture nouvelle ; faire des choix face au manque de moyens ; N chantiers en cours

• Métadonnées + Directive Inspire pour la Géolocalisation : Expertise externe ? Améliorations ?

• STANDARDS : suivons le Darwin Core

• Recolnat visibilité d’une partie de nos données (specimens avec biblio)

• Principes FAIR (Findable, Accessible : en interne 75%, en bonne voie vers le 100%, Interoperable, Reusable : 0%)

• Objectif INTEROPERABILITE (API FILEMAKER) : Importer des données du réseau + ouvrir nos données et les rendre interrogeables par des bases distantes

• Objectif de rédiger un Data Management Plan ou Plan de Gestion des Données (DMP ou PGD)

Page 25: Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019 Retraitement de données, onstution d’un SGDR puis d’une appliation de gestion de Collections

Merci pour votre écoute !

Et pour votre indulgence à cette grande première communication à un colloque ;

Merci aux collègues qui m’ont aidée à mieux la synthétiser ;

Merci aux stagiaires-cobayes des dernières fonctionnalités développées, qui ont testé l’outil avec enthousiasme.

25Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz