GBIF France - Comment le DwC-A a changé la manière de ......2011/09/28 · • GBIF Darwin Core...
Transcript of GBIF France - Comment le DwC-A a changé la manière de ......2011/09/28 · • GBIF Darwin Core...
-
Formation sur la publication des données de biodiversité dans le réseau
GBIF et leur aptitude à être utilisées
Comment le DwC-A a changé la manière de
publier les données de biodiversité
Michael Akbaraly([email protected]) IT Engineer
GBIF France
Paris
Octobre 2012
-
Rappel : Standards d'échange
ABCD (TDWG Standard) • > 1200 concepts • XML • Utilisé par BioCase, Tapir
Darwin Core (pre-standard v. 1.2, 47 versions)
• 48 concepts, specimens • XML • Utilisé par DiGIR
Darwin Core (pre-standard v. 1.4) • 46 concepts (plus extensions), specimens • XML • Utilisé par Tapir
Darwin Core (TDWG Standard) • 172 concepts (156 dans Simple Darwin Core), données de
biodiversité • CSV, XML, RDF, JSON, … • Utilisé par Tapir, Darwin Core Archive ou fichier texte
-
Darwin Core Archive
Données Primaires Données Taxonomiques Métadonnées
http://www.quelquepart.org/data.zip
-
Darwin Core Archive Contenu de l'archive
• Une archive correspond à un jeu de données
• Fichiers formatés par le standard Darwin Core
• Données d’occurrences ou taxonomiques
• Métadonnées sous format EML
-
• Format simple (fichiers texte) • Processus de récolte efficace (fichier unique) • Stockage efficace (archive compressée) • Facilité d'accès (ne nécessite pas de logiciel
spécifique) • Extensible (fichiers liées dans une archive unique)
Darwin Core Archive: Avantages
Format d'échange préferé pour la publication
des données sur le réseau GBIF
-
Darwin Core Archive: Anatomie
Les archives ont toujours un fichier de métadonnées EML
-
Ecological Metadata Language (EML)
• Titre et Description
• Citation and Attribution
• Contacts et Auteurs
• Couverture Géographique
• Méthode d'échantillonage
• Bibliographie
• Et plus...
Décrit les jeux de données
– même ceux qui ne sont pas publiés
-
Darwin Core Archive: Anatomie
Les archives ont toujours un fichier de données principal (Core Data File)
-
Types de fichier de données principal (Core data file)
Données taxonomiques – une espèce par ligne
Données d'occurrences – une occurrence par ligne
OU
-
Darwin Core Archive: Anatomie
Les archives ont toujours un fichier de données principal (Core Data File)
-
Le fichier principal a une colonne “ID_Principal”
unique pour chaque enregistrement du fichier
Darwin Core Archive: Anatomie
-
Les colonnes sont mises en correspondance avec
les concepts DarwinCore
Darwin Core Archive: Anatomie
-
Les colonnes ne correspondant pas à un concept
DarwinCore peuvent être rajoutées, mais seront
ignorées
“Wingspan” n'est pas un concept
Darwin Core
Darwin Core Archive: Anatomie
-
1) Renommer les colonnes dans le fichier
Il y a deux manières de mettre en correspondance les
colonnes avec les concepts DarwinCore
Darwin Core Archive: Anatomie
-
2) Faire la correspondance des champs dans le fichier meta.xml
Il y a deux manières de mettre en correspondance les
colonnes avec les concepts DarwinCore
Darwin Core Archive: Anatomie
-
meta.xml décrit les colonnes du fichier de
données principal (species.txt)
Plus d'informations sur le meta.xml plus tard...
Darwin Core Archive: Anatomie
-
Les archives peuvent inclure des extensions
Species.txt
Common_names.txt
Les extensions permettent de relier plusieurs enregistrements
à un enregistrement principal
Les extensions sont reliées au fichier principal par l'ID_Principal
Darwin Core Archive: Anatomie
-
GBIF héberge les définitions des
extensions
http://rs.gbif.org/extension/
-
Plusieurs extensions peuvent être reliées au
fichier principal
Darwin Core Archive: Anatomie
-
Tous les fichiers sont stockées
dans un seul dossier
Darwin Core Archive: Anatomie
-
Le dossier est zippé
Ceci est une archive DarwinCore • Fichiers de données
• Fichier de correspondance des colonnes (meta.xml)
• Fichier de métadonnées (eml.xml)
Darwin Core Archive: Anatomie
-
http://www.organisation.org /my_data.zip
Les archives sur un serveur web peuvent être accessible par
une URL.
Partagez cette URL pour publier vos données!
Darwin Core Archive: Publication
-
Darwin Core Archive: Options de Publication
-
GBIF Spreadsheet Templates
-
Integrated Publishing Toolkit
-
Data Hosting Centers
-
Darwin Core Mapping Assistant
Metafile
http://tools.gbif.org/dwca-assistant/
-
Darwin Core Mapping Assistant
-
• GBIF Darwin Core Archive Spreadsheet Templates: • Les données sont déja sous forme de tableur • Création d'une simple archive
• IPT:
• Créer/gérer plusieurs archives venant de plusieurs jeux de données
• Gérer les archives provenant de plusieurs organisations • Édition des métadonnées sous le GBIF Metadata Profile
• Création manuelle:
• Automatisation de la creation des archives • Customisation
• Centre d'hébergement: • Économie d'échelle • Infrastructure et assistance
• Un peu de tout ça...
Darwin Core Archive: Options de publication
-
GB18 Training Session - Jour 1
Comment le DwC-A a changé la manière de
publier les données de biodiversité
Michael Akbaraly / Anne-Sophie Archambeau / Nicolas Noé
GBIF France - BeBIF
Global Biodiversity Information Facility (GBIF)
28/09/11