GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy....

51
GROBID: Un outil d’extraction pour les publications scientifiques [email protected] en 20 slides ! 25.11.2014 Nancy

Transcript of GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy....

Page 1: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

GROBID: Un outil d’extractionpour les publications

scientifiques

[email protected]

en 20 slides !

25.11.2014

Nancy

Page 2: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

GROBID• GeneRation Of BIbliographic Data• Un outil d’analyse et d’extraction d’informations

bibliographiques et de contenu, début en 2008• Entrée:

– ciblée sur les domaines scientifiques et techniques– publications académiques, manuels et brevets– PDF ou texte (XML, brut)

• Approche par apprentissage automatique: cascade de modèles CRF (Conditional Random Fields)

• Normalisation des métadonnées• Ensemble des données en TEI (Text Encoding Initiative)

Page 3: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

GROBID• 3 principaux modèles à différents niveaux de maturité

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré

Page 4: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

• Extraction des informations bibliographiques disponibles dans l’en-tête d’article

Extraction de l’en-tête

Page 5: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction de l’en-tête

Page 6: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction de l’en-tête

Page 7: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction de l’en-tête

(XY-Cut algorithm)

Page 8: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction de l’en-tête

title

authors

affiliation

abstract

Page 9: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction de l’en-tête : résultat structuré et normalisé en TEI

Page 10: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction de l’en-tête : résultat structuré et normalisé en TEI

Page 11: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

• Extraction des informations bibliographiques disponibles dans l’en-tête d’article

• Différentes caractéristiques (features) sont exploitées :– positionnement (ligne, document, etc.)– information lexicale (gazetteers, préfixes, etc.)– information de présentation (taille/style de fonte, etc.)

• Conditional Random Fields (CRF) (Peng & McCallum 04)• Données d’entrainement: 4000 exemples globaux + 600 blocs affiliations/adresses + 2000

séquences d’auteurs + 4150 références• Exploitation de bases bibliographiques externes pour corriger/compléter les

résultats d’extraction: CrossRef

Extraction de l’en-tête

Page 12: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Évaluation en-tête:

from (Lipinski et al., 2013)

Page 13: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Usage - extraction de l’en tête

• En production (service web) à ResearchGate, Mendeley, HAL, OEB, ...

Page 14: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

GROBID• 3 principaux modèles à différents niveaux de maturité

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques

Page 15: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction des références bibliographiques

• Extraction des références bibliographiques d’un article en PDF (avec les contextes de citations)

• Extraction des références bibliographiques dans les brevets– références dans le flux de texte– références aux brevets

• Analyse de référence: analyse d’une référence en isolation

Page 16: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 17: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Évaluation sur références en isolationFeatures Accuracy Precision Recall F1

Token 99.72 97.62 97.62 97.62

Field 99.77 96.56 96.39 96.49

Instance - - - 77.60

Article title 99.44 96.02 96.91 96.47

Author 99.42 96.31 96.86 96.58

Date 99.88 98.98 99.74 99.36

Journal title 99.54 95.66 97.95 96.79

Volume 99.68 98.31 97.32 97.81

(4150 références)

Page 18: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Usage - référence bibliographiques

• Grobid a été utilisé “en batch” dans plusieurs projects de recherche: PEER (EU), Cosmat (ANR), SLING (EU), ZNF digitalization (with the MPDL), ...

• En cours: OMPI (CJK, brevets), ResearchGate et ISTEX

Page 19: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

GROBID• 3 principaux modèles à différents niveaux de maturité

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré

Page 20: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction du contenu structuré

• Extraction et restructuration du plein texte :– titres et sous-titres de section– marqueurs de référence (biblio., figures, tables)– paragraphes, enumérations, notes, etc.– figure, tables, etc.

Page 21: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction du contenu structuré

Page 22: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Extraction du contenu structuré

• Extraction et restructuration du plein texte :– titres et sous-titres de section– références (biblio, figures, tables)– paragraphes, énumérations, notes, etc.– figure, tables, etc.

• Expérimental, mais meilleur pour la littérature scientifique que les extracteurs PDF “de base”

• Utile pour l’indexation en vue de recherche structurée

Page 23: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Détails techniques...• Grobid est Open Source depuis 02/2011:

–https://github.com/kermitt2/grobid• License: Apache 2.0 • Java et C++ (CRF++, Wapiti) via JNI/JNATI• xpdf pour l’import. du PDF• Batch, API Java & interface RESTful • Thread-safe• 3 documents PDF par second (en-tête), 3000

références en moins de 10 seconds

Version 0.3 est en pre-release.

23

Page 24: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Cas d’usage 1 : workflow acquisition Exploitation des références biblio.

• Problème: metadonnées de qualité en phase d’acquisition• ResearchGate

– Workflow “acquisition” : plusieurs milliers de PDF chargés par jour• Grobid extrait les citations bibliographiques pour chaque PDF• matching de la citation avec la base biblio. interne• Services :

– notification de citation aux chercheurs– pertinence du ranking pour la recherche

Page 25: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

25

Page 26: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Cas d’usage 2 : service “temps réel” Orchestration de services web

• Il est possible de tirer un grand profit d’outils comme un link resolver ou un central index (Primo, Summom) sous forme de web services

• Les services web de Grobid viennent alors compléter les outils d’aide à l’utilisateur

Page 27: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Cas d’usage 2 : service “temps réel” Orchestration de services web

• Office Européen des brevets : 150.000 citations de littérature non-brevet par an dans les rapports de recherche d’antériorité – citation bibliographique à produire– chargement (metadonnées+fulltext) dans base interne

• Souscription à 24 000 journaux en ligne• Link resolver Web API (SFX) :

– accès transparent aux fulltexts via plug-in pour le navigateur web– récupération des info. biblio. via OpenURL pour la citation

(“metadata push”)• Consolidation avec CrossRef + Summon web services• Grobid vient compléter la récupération des info. biblio (20%)

Page 28: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 29: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 30: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 31: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 32: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 33: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 34: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 35: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Évaluation en-tête: Corpus CORAFields Accuracy Precision Recall F1

Token 99.71 97.56 97.56 97.56

Field 98.97 90.72 90.18 90.45

Instance - - - 74.91

Instance after consolidation - - - 82.20

Title 99.70 98.24 95.48 96.84

Author 99.38 90.27 96.36 93.21

Date 99.86 97.53 81.07 87.29

Affiliation 99.52 98.25 93.26 95.69

Abstract 98.95 99.64 98.81 99.22

(+9.7%)

(Grobid produit de telles métriques pour tous les modèles)

Page 36: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Exemple: référence bibliographique

CRF Segmentation

PDF file

PDF extraction

Segmentationmodel

Segmenteddocument

Bibliographysegmentation

model

References

xml: content & layout

cover header

CRF Reference Segmentation

body foot-notes

head-notes

biblio Annexes

referencelabel referencelabel referencelabel ...

Page 37: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Graff, Expert. Opin. Ther. Targets (2002) 6(1): 103-113

CRF Citation model

Graff, Expert. Opin. Ther. Targets (2002) 6 (1): 103-113

CRF Author sequence CRF Date

Reference

Global citation model

First-level citation parsing

Second level models

Full parsing

Consolidation

Final formatting

author journal date pages

volu

me

issu

e

OpenURL

Graff Expert. Opin. Ther. Targets 2002 6 1 103 113

authorjournal

date pages

volu

me

issu

e

lastname year first last

DOI: 10.1517/14728222.6.1.103

Jeremy R Graff etc.ISSN: 1472-8222

Exemple: référence bibliographique

Page 38: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Assisted generation of training datacurrent

CRF models

Affiliations

Authors

Header

new document

intermediarytraining data

human correction

newtraining data

etc.

newCRF models

Affiliations

Authors

Header

etc.re-training

next new document

enough!

Page 39: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

EPO project: Augmentation of training data for headers (2013-14)

0.10

0.15

0.20

0.25

0.30

oct. Nov. Dec. Jan. Feb. Mar. Apr. May

Instance level accuracy of header extraction against the October set

1530 39712505 2855

~+50%

Annotatedheaders 1849 2154 3078 3513

Page 40: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console

Page 41: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 42: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...
Page 43: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console• Automatic web application deployment• Linux (32,64), Mac OS X (64) and Windows (32,64) supported (0.3)• Performance: 3 pdf/s (server), 3000 references in 18s (CRF++)

Page 44: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Ongoing works• CJK support (work with WIPO)• Improvement of references (articles & patent)• Document type classification• Citation type classification• Full text model: full conversion of a PDF into a TEI compliant document

(ANR Project TermITH)• Central repository of training data: sharing of training data and

automatic update of CRF models

Page 45: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Consolidation des métadonnées

• Exploitation de bases bibliographiques externes pour corriger/compléter les résultats d’extraction

• Crossref: La notice bibliographique complète peut être obtenue soit via :– DOI– Journal title, volume, first page– Title + author first name ➞ fréquent

• Également utilisé à l’EPO : Summon. Autres bases expérimentales: xISSN, xISBN, Amazon Web Service

• Contrainte : accès en ligne difficile pour du temps réel• Idéalement exploitation de bases biblio. “maison”

Page 46: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

But wait... why are you doing that? • Cataloguing: e.g. mass digitalization• User needs:

– self-archiving of scholar papers by authors, e.g. in open archives– help when metadata are not easily available

• Extraction of additional metadata: references, keywords, etc. for enriching/correcting existing ones– improvement in search & retrieval

• Ease document access from citation strings (OpenURL)• Playground for experimenting with CRF models for text mining

Page 47: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Pourquoi des métadonnées de bonne qualité sont considérées importantes?

• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage– Accès : exploitable par un link resolver (OpenURL) – Recherche : représentation des informations clefs d’un objet

bibliographique – Interopérabilité : application de différents services aux informations

bibliographiques

Page 48: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Pourquoi des métadonnées de bonne qualité sont importantes

• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage Extraction +

consolidation via DB externes/mass digitalisation

– Accès : exploitable par un link resolver (OpenURL) Grobid produit des résultats en OpenURL

– Recherche : représentation des informations clefs d’un objet bibliographique Extraction + structure

– Interopérabilité : application de différents services aux informations bibliographiques Grobid produit des résultats en TEI, BibTex avec DOI/ISSN/ISBN si disponibles après consolidation

Page 49: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

+ catalog

Extraction de l’en-têteCollection Pre-

processing

Documentsegmentation

Token + features CRF models

- text segmentation- feature generation train

Affiliations

Authors

Header

+ catalog + expected result etc.

Page 50: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

+ catalog

Collection Pre-processing

Documentsegmentation

Token + features

- text segmentation- feature generation

+ catalog + expected result

terms +labels

Final biblio.record Document Segmented

documentTerm candidates

+ features

post-processingconsolidation

train /classify

CRF models

Affiliations

Authors

Header

etc.

Extraction de l’en-tête

Page 51: GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison ...

Grobid “Extensions”• Grobid offers a generic CRF-based text mining environment• Existing CRF-based tools:

– Biotech entities: reimplementation of BANNER– NERD: NER (26 classes + sense) and Disambiguation/resolution against FreeBase &

Wikipedia (EU Cendari)– Chemical formula in patents

• In development: scientific & technical quantities/measures focusing on patents

• Also existing: – exension for calling a Grobid model directly in XSLT– Key-phrases extraction (SemEval 2010)

• Not included so far in the open source distribution

51