Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019...

Post on 06-Aug-2020

2 views 0 download

Transcript of Retraitement de données, onstution d’un SGDR puis …...Colloque jeudi 21 novembre 2019...

Colloque

jeudi 21 novembre 2019

Retraitement de données, construction d’un SGBDR

puis d’une application de gestion de Collections paléontologiques

Brigitte Barchasz (Laboratoire de Géologie de Lyon - Terre, Planètes, Environnement – UMR 5276)

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 1

Les données de la Recherche et la Science Ouverte

Plan

• 1 - Contexte des Collections géologiques de Lyon

• 2 - Que fait l’application ?

• 3 - La démarche d’ingéniérie aboutissant par hasard à une application de gestion des collections géologiques

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 2

Laboratoire de Géologie de Lyon, Terre-Planètes-Environnement (LGL-TPE) – UMR 5276

INSU

Colloque Dijon - Données Ouvertes - 21nov2019 - Brigitte Barchasz 3

Service des Collections Géologiques de Lyon

1 Ing. Recherche CNRS : Emmanuel Robert

+ des bénévoles géologues

+ des stagiaires Master et Licence

BAP F

1 Ing. d’Etudes CNRS : Brigitte Barchasz

- nées en 1808 avec la création de la ’Faculté des Sciences de Lyon’- 9 millions de fossiles stockés dans 14 salles, avec compactus- parmi les 20 premières collections universitaires mondiales- Aussi dépositaires des Collections de l’Ecole des Mines

- plateforme scientifique au service des chercheurs paléontologues

Ammonite

Fossile doit être :

« dégagé »,

nettoyé,

étudié,

caractérisé,

publié,

étiqueté,

mis en boîte,

stocké,

conservé,...

catalogué dans une BDD.

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 4

Long PROCESSUS DE TRAVAIL (semaines, mois, années, décennies…) :

informatisation

(depuis 60 ans)

- avant projet = env. 350 fichiers fossiles, dits « bases de données » ; données et structures hétérogènes ;

- projet actuel = 1 BDD.

Arrivée du matériel (fossiles) à l’état BRUT :

Depuis +200 ans :

étiquettes

à l’encre de Chine

Exemple d’un OURSIN ramené de Patagonie par DARWIN en 1836, puis traité scientifiquement par Desor en 1847 (Monophoraster darwinii)

•Localisation géographique ? Gisement ?•Stratigraphie (âge) ?•Taxonomie (classification des espèces) ?•Bibliographie ?

1836

20185Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz

Comment gérer 9 millions de fossiles ?

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 6

Devise du service (Emmanuel Robert) :

L’inachevé permanent

Seule une partie est informatisée

l’informatique pour gérer des centaines de milliers de specimens : 3 étapes historiques

• Années 1960… : Louis David1965 : met au point l’utilisation de cartes perforées pour les Bryozoaires, avec des « zones à codification numérique » - codes toujours existants dans nos données :

• 1990-2010 : Abel Prieur, anc. Resp. des Collections géologiques de Lyon Acquisition de Filemaker Pro ; 30 ans de travail de catalogage 330.000 références dont les fossiles et vertébrés => 350 fichiers Filemaker

• 2015-16 : Brigitte Barchasz, expertise ces 350 fichiers descriptifs de fossiles, Conception, Réalisation BDD unique et relationnelle (SGBDR) ; dévt des fonctionnalités sous Filemaker ; invente l’application de gestion des Collections :

7Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz

Ici retraitement de données et fonctionnement logiciel incidences architecturales

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 8

(Rappel) SGBDR = Système de Gestion de Bases de Données Relationnelles

TABLES de données RELIEES Suppression de la redondance, des

doublons ou occurrences inutiles Optimisation de la cohérence Sécurité, (clés), unicité, robustesse Pertinence des résultats

3 PRINCIPALES FONCTIONS :• Saisie, Catalogage• Requêtes (booléennes, Filemaker+++) • Edition de Rapports croisés de données. Statistiques, calculs.

Formatages personnalisés des données = « modèles »

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 9

Sécurité ? Droits des utilisateurs ?Gestion de Filemaker Server

1er onglet = Gestion fiche

Gestion de 2 interfaces : Administrateur (anc. Bac à sable) // Utilisateur sécurisée (ConsultationSaisie)

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 10

L’interface à onglets

personnes physiques ET personnes morales

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 11

Bibliographie

développement 2019

lien 1 => N (1 specimen => N publis)

Structure 5 tables

- LOT DE FICHES Specimens, puis SOUS-LOT à caractéristiques communes

- saisie de données thématiques communes :

= Programme complexe impliquant de nombreuses fonctionnalités

Objectif : optimiser la saisie + cohérence des données

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 12

Saisie par Lot : invention 2019

Fruit de l’observation des pratiques des chercheurs= Evolution sur le catalogage de specimen à l’unité

Dévt de nombreux outils et fonctionnalités

Colloque Dijon Donnees Ouvertes – 21nov2019 - Brigitte Barchasz 13

• Panier historique des dernières saisies à réutiliser Dans la même session : alléger les recherches répétitives et dans de lourdes tables de données (ici index de 60.700 VILLES !)

• Espaces personnalisés pour les utilisateurs, dans leur contexte de travail et sur des

sujets de recherche en cours de chantier (Oiseaux, Ammonites, Montagne Noire, Codes géographiques…)

•Assistance à la saisie par exploitation des tables de données, ou par création

• Editions de rapports croisés avec calculs statistiques

Avant // Après 2015-2016 : FILEMAKER PRO V11 // V18 2019350 fichiers de données // 1 seule BDDMonotable façon excel // multitables SGBDRMonoposte // multipostes grâce à Filemaker Server + AdvancedForte hétérogénéité // harmonisation des donnéessans développement // avec développement : programmes, scripts => application

grande modernisation et outil professionnel Base 410 MO (sans photos).

+ amélioration de la sécurité : les clés, les N sauvegardes quotidiennes

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 14

Base de Données et application

Filemaker vs Données ouvertes ?Filemaker Pro = Outil de dévt de BDD permettant de développer des projets personnalisées ; Langage de programmation propriétaire, mais a développé une API permettant l’interopérabilité.

1. « Diagnostic » (novembre 2015) 3 préconisations : (a) FUSION (b) SGBDR (c) SERVEUR multipostes

2. Chantier FUSION = 350 fichiers Filemaker hétérogènes BASE DE DONNEES UNIQUE, MONOTABLE

3. « AUDIT détaillé » (2016, 260 pages) Fouille de données-calculs-statistiques ; simulations ….

4. Structure SGBDR. Résolution de problèmes. Nettoyages. 1ères normes et procédures.

5. Fouille de données + Recherches de référentiels pour alimenter les TABLES de données

6. Maîtrise d’œuvre : Prestations informatiques* certifié Filemaker

7. Fonctionnalités Utilisateur … peu à peu SGBDR devenu progiciel, baptisé 2019

8. DOCUMENTATION PROJET et documenter les scripts / programmes !

9. SPECIFICATIONS FONCTIONNELLES, PLANS DE TESTS, TESTS…. en conditions critiques

Ingéniérie projet pour la Base de Données et l’application

* Prestations informatiques transfert de compétences(scripts et outils)

Volumes en 2019

• 260.000 enregistrements table principale Specimens (hors autres tables)

• 410 MO (hors images)

• 17 millions de données

• Architecture : 30 tables + des dizaines d’occurrences de tables

• 550 rubriques ou champs de données (renseignés ou non)

• 300 scripts

• 1800 DOCUMENTS DE PROJET : excel, word, pdf, tests Excel et Filemaker

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 16

Base de Données et application

Référentiel actualisé pour la stratigraphie + modélisation SGBDR

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz17

Charte stratigraphique BRGM 1966

Recherche de référentiels pluridisciplinairesEn parallèle à la Fouille de données dans la BDD (vs. Absence de règles de saisie et données de références)

+ Recherches cartographiques et bibliographiques en français-anglais-espagnol

Bibliographie SGBDR : Revue, Issue, Document, Auteur publi, Détails publicationsimports et restructuration des données Recolnat

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz18

39,000 lignes Excelde données RecolnatRestructurées => SGBDR 5 tables

e-ReColNat = programme

national regroupant les données et images des collections naturalistesfrançaises

NETTOYAGES des TERMES doublons ou répétition d’occurrences, faute de tables de données

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 19

Test :seulement 11 valeurs stockées dans des tables ! au lieu de 414.000 occurrences

6 descripteurs géographiques

+ 5 index stratigraphiques

NETTOYAGES des NOMS de PERSONNES, N versions orthographiques,Eclatement des dates-années. Gestion des homonymes.

Données géographiques codées, issues de cartes perforées codification perdue => solution lourde : manutention et relecture-saisie d’étiquettes

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 20

table d’équivalence intermédiaire

encore 23.700 codes géographiques à traiter !moyens RH ?!

nvx descripteurs géographiques :

Pbl Géolocalisation – territorialité - cartographie de qualité inégale Algérie, période de la colonisation française Translittération de l’alphabet arabe

cas de double orthographe

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 21

• coelenterata, scyphozoa, conulata, conulariina, conulariidae, conulariinae [d'après treatise on invertebrate paleontology, R. C. Moore ed. (1956), part F]

• Mollusca, Cephalopoda, Ammonoidea, Ammonitina, Perisphinctaceae, Perisphinctidae, Leptosphinctinae

• MOLLUSCA, CEPHALOPODA, AMMONOIDEA, PERISPHINCTIDAE, VIRGATOSPHINCTINAE• MOLLUSCA, CEPHALOPODA, AMMONOIDEA, OPPELIIDAE, HECTICOCERATINAE• Cephalopoda, Ammonoidea, Ammonitina, Haplocerataceae, Oppeliidae, Streblitinae• Mollusca, Bivalvia, Heterodonta, Veneroida, Mactracea, Mactridae, Lutrariinae• Bivalvia, Anomalodesmata, Pholadomyoida, Pholadomyacea, Pholadomyidae

CHAMPS MULTIVALUES (taxonomie) non modélisables

• mesozoïque, jurassique, tithonien, schistes de spiti, calcaires a malagasites

• SECONDAIRE, JURASSIQUE MOYEN, DOGGER, CALLOVIEN, CALLOVIEN INFERIEUR

• Secondaire, jurassique supérieur, kimméridgien inférieur, zone à Hypselocyclum, sous-zone à Lothari

• Paléozoïque, Cambrien moyen, Série 3, Etage 5, Languedocien inférieur, Formation de Coulouma(niveau E), Zone à Solenopleuropsis (S.)

éclatement dans 12 champs de données

CHAMPS MULTIVALUES (stratigraphie + lithostratig. + biostratig.) qui ont pu être retraités par calculs

Codes de cartes perforées pour la TAXONOMIE

Nous rencontrons un pbl majeur sur une partie des NUMEROS D’INVENTAIRE doublons : 1 BLOC ROCHEUX ou 1 BOITE = N FOSSILES

solutions techniques 3 sous-champs + discrimination par les suffixes + programme de création automatique des suffixes alphabétiques solution humaine (moyens RH géologue) pour vérifier fiches / specimens et les discriminer scientifiquement

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 22

Base de Données et application

Zoom résumé sur ce travail structurel, logiciel, données :

restructuration des contenus,requalification et harmonisation des données,

résolution d’innombrables problèmes, modernisation du catalogage,

cohérence,sécurité,

pertinence des résultats de requêtes

qualité des données

Le système d’information (SGBDR)

+ la COUCHE LOGICIELLE = fonctionnalités personnalisées

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 23

Laboratoire de Géologie de Lyon, UMR 5276

Collections Géologiques de Lyon

Communauté scientifique nationale, internationale :

• chercheurs

• MNHN Museum National d’Histoire Naturelle

• Universités / Collections : réseau en Europe et dans le Monde (ex : Espagne, Maroc…)

• Musées en Europe et dans le Monde (ex : Confluence, British Museum…)

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 24

Voir et être vus ? Objectif OPEN DATA

• intégrer cette culture nouvelle ; faire des choix face au manque de moyens ; N chantiers en cours

• Métadonnées + Directive Inspire pour la Géolocalisation : Expertise externe ? Améliorations ?

• STANDARDS : suivons le Darwin Core

• Recolnat visibilité d’une partie de nos données (specimens avec biblio)

• Principes FAIR (Findable, Accessible : en interne 75%, en bonne voie vers le 100%, Interoperable, Reusable : 0%)

• Objectif INTEROPERABILITE (API FILEMAKER) : Importer des données du réseau + ouvrir nos données et les rendre interrogeables par des bases distantes

• Objectif de rédiger un Data Management Plan ou Plan de Gestion des Données (DMP ou PGD)

Merci pour votre écoute !

Et pour votre indulgence à cette grande première communication à un colloque ;

Merci aux collègues qui m’ont aidée à mieux la synthétiser ;

Merci aux stagiaires-cobayes des dernières fonctionnalités développées, qui ont testé l’outil avec enthousiasme.

25Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz