GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy....

GROBID: Un outil d’extractionpour les publications

scientifiques

Patrice.Lopez@inria.fr

en 20 slides !

25.11.2014

GROBID• GeneRation Of BIbliographic Data• Un outil d’analyse et d’extraction d’informations

bibliographiques et de contenu, début en 2008• Entrée:

– ciblée sur les domaines scientifiques et techniques– publications académiques, manuels et brevets– PDF ou texte (XML, brut)

• Approche par apprentissage automatique: cascade de modèles CRF (Conditional Random Fields)

• Normalisation des métadonnées• Ensemble des données en TEI (Text Encoding Initiative)

GROBID• 3 principaux modèles à différents niveaux de maturité

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré

• Extraction des informations bibliographiques disponibles dans l’en-tête d’article

Extraction de l’en-tête

(XY-Cut algorithm)

authors

affiliation

abstract

Extraction de l’en-tête : résultat structuré et normalisé en TEI

• Extraction des informations bibliographiques disponibles dans l’en-tête d’article

• Différentes caractéristiques (features) sont exploitées :– positionnement (ligne, document, etc.)– information lexicale (gazetteers, préfixes, etc.)– information de présentation (taille/style de fonte, etc.)

• Conditional Random Fields (CRF) (Peng & McCallum 04)• Données d’entrainement: 4000 exemples globaux + 600 blocs affiliations/adresses + 2000

séquences d’auteurs + 4150 références• Exploitation de bases bibliographiques externes pour corriger/compléter les

résultats d’extraction: CrossRef

Évaluation en-tête:

from (Lipinski et al., 2013)

Usage - extraction de l’en tête

• En production (service web) à ResearchGate, Mendeley, HAL, OEB, ...

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques

Extraction des références bibliographiques

• Extraction des références bibliographiques d’un article en PDF (avec les contextes de citations)

• Extraction des références bibliographiques dans les brevets– références dans le flux de texte– références aux brevets

• Analyse de référence: analyse d’une référence en isolation

Évaluation sur références en isolationFeatures Accuracy Precision Recall F1

Token 99.72 97.62 97.62 97.62

Field 99.77 96.56 96.39 96.49

Instance - - - 77.60

Article title 99.44 96.02 96.91 96.47

Author 99.42 96.31 96.86 96.58

Date 99.88 98.98 99.74 99.36

Journal title 99.54 95.66 97.95 96.79

Volume 99.68 98.31 97.32 97.81

(4150 références)

Usage - référence bibliographiques

• Grobid a été utilisé “en batch” dans plusieurs projects de recherche: PEER (EU), Cosmat (ANR), SLING (EU), ZNF digitalization (with the MPDL), ...

• En cours: OMPI (CJK, brevets), ResearchGate et ISTEX

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré

Extraction du contenu structuré

• Extraction et restructuration du plein texte :– titres et sous-titres de section– marqueurs de référence (biblio., figures, tables)– paragraphes, enumérations, notes, etc.– figure, tables, etc.

Extraction du contenu structuré

• Extraction et restructuration du plein texte :– titres et sous-titres de section– références (biblio, figures, tables)– paragraphes, énumérations, notes, etc.– figure, tables, etc.

• Expérimental, mais meilleur pour la littérature scientifique que les extracteurs PDF “de base”

• Utile pour l’indexation en vue de recherche structurée

Détails techniques...• Grobid est Open Source depuis 02/2011:

–https://github.com/kermitt2/grobid• License: Apache 2.0 • Java et C++ (CRF++, Wapiti) via JNI/JNATI• xpdf pour l’import. du PDF• Batch, API Java & interface RESTful • Thread-safe• 3 documents PDF par second (en-tête), 3000

références en moins de 10 seconds

Version 0.3 est en pre-release.

Cas d’usage 1 : workflow acquisition Exploitation des références biblio.

• Problème: metadonnées de qualité en phase d’acquisition• ResearchGate

– Workflow “acquisition” : plusieurs milliers de PDF chargés par jour• Grobid extrait les citations bibliographiques pour chaque PDF• matching de la citation avec la base biblio. interne• Services :

– notification de citation aux chercheurs– pertinence du ranking pour la recherche

Cas d’usage 2 : service “temps réel” Orchestration de services web

• Il est possible de tirer un grand profit d’outils comme un link resolver ou un central index (Primo, Summom) sous forme de web services

• Les services web de Grobid viennent alors compléter les outils d’aide à l’utilisateur

Cas d’usage 2 : service “temps réel” Orchestration de services web

• Office Européen des brevets : 150.000 citations de littérature non-brevet par an dans les rapports de recherche d’antériorité – citation bibliographique à produire– chargement (metadonnées+fulltext) dans base interne

• Souscription à 24 000 journaux en ligne• Link resolver Web API (SFX) :

– accès transparent aux fulltexts via plug-in pour le navigateur web– récupération des info. biblio. via OpenURL pour la citation

(“metadata push”)• Consolidation avec CrossRef + Summon web services• Grobid vient compléter la récupération des info. biblio (20%)

Évaluation en-tête: Corpus CORAFields Accuracy Precision Recall F1

Token 99.71 97.56 97.56 97.56

Field 98.97 90.72 90.18 90.45

Instance - - - 74.91

Instance after consolidation - - - 82.20

Title 99.70 98.24 95.48 96.84

Author 99.38 90.27 96.36 93.21

Date 99.86 97.53 81.07 87.29

Affiliation 99.52 98.25 93.26 95.69

Abstract 98.95 99.64 98.81 99.22

(+9.7%)

(Grobid produit de telles métriques pour tous les modèles)

Exemple: référence bibliographique

CRF Segmentation

PDF file

PDF extraction

Segmentationmodel

Segmenteddocument

Bibliographysegmentation

References

xml: content & layout

cover header

CRF Reference Segmentation

body foot-notes

head-notes

biblio Annexes

referencelabel referencelabel referencelabel ...

Graff, Expert. Opin. Ther. Targets (2002) 6(1): 103-113

CRF Citation model

Graff, Expert. Opin. Ther. Targets (2002) 6 (1): 103-113

CRF Author sequence CRF Date

Reference

Global citation model

First-level citation parsing

Second level models

Full parsing

Consolidation

Final formatting

author journal date pages

OpenURL

Graff Expert. Opin. Ther. Targets 2002 6 1 103 113

authorjournal

date pages

lastname year first last

DOI: 10.1517/14728222.6.1.103

Jeremy R Graff etc.ISSN: 1472-8222

Exemple: référence bibliographique

Assisted generation of training datacurrent

CRF models

Affiliations

Authors

Header

new document

intermediarytraining data

human correction

newtraining data

newCRF models

Affiliations

Authors

Header

etc.re-training

next new document

enough!

EPO project: Augmentation of training data for headers (2013-14)

oct. Nov. Dec. Jan. Feb. Mar. Apr. May

Instance level accuracy of header extraction against the October set

1530 39712505 2855

Annotatedheaders 1849 2154 3078 3513

Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console

Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console• Automatic web application deployment• Linux (32,64), Mac OS X (64) and Windows (32,64) supported (0.3)• Performance: 3 pdf/s (server), 3000 references in 18s (CRF++)

Ongoing works• CJK support (work with WIPO)• Improvement of references (articles & patent)• Document type classification• Citation type classification• Full text model: full conversion of a PDF into a TEI compliant document

(ANR Project TermITH)• Central repository of training data: sharing of training data and

automatic update of CRF models

Consolidation des métadonnées

• Exploitation de bases bibliographiques externes pour corriger/compléter les résultats d’extraction

• Crossref: La notice bibliographique complète peut être obtenue soit via :– DOI– Journal title, volume, first page– Title + author first name ➞ fréquent

• Également utilisé à l’EPO : Summon. Autres bases expérimentales: xISSN, xISBN, Amazon Web Service

• Contrainte : accès en ligne difficile pour du temps réel• Idéalement exploitation de bases biblio. “maison”

But wait... why are you doing that? • Cataloguing: e.g. mass digitalization• User needs:

– self-archiving of scholar papers by authors, e.g. in open archives– help when metadata are not easily available

• Extraction of additional metadata: references, keywords, etc. for enriching/correcting existing ones– improvement in search & retrieval

• Ease document access from citation strings (OpenURL)• Playground for experimenting with CRF models for text mining

Pourquoi des métadonnées de bonne qualité sont considérées importantes?

• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage– Accès : exploitable par un link resolver (OpenURL) – Recherche : représentation des informations clefs d’un objet

bibliographique – Interopérabilité : application de différents services aux informations

bibliographiques

Pourquoi des métadonnées de bonne qualité sont importantes

• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage Extraction +

consolidation via DB externes/mass digitalisation

– Accès : exploitable par un link resolver (OpenURL) Grobid produit des résultats en OpenURL

– Recherche : représentation des informations clefs d’un objet bibliographique Extraction + structure

– Interopérabilité : application de différents services aux informations bibliographiques Grobid produit des résultats en TEI, BibTex avec DOI/ISSN/ISBN si disponibles après consolidation

+ catalog

Extraction de l’en-têteCollection Pre-

processing

Documentsegmentation

Token + features CRF models

- text segmentation- feature generation train

Affiliations

Authors

Header

+ catalog + expected result etc.

+ catalog

Collection Pre-processing

Documentsegmentation

Token + features

- text segmentation- feature generation

+ catalog + expected result

terms +labels

Final biblio.record Document Segmented

documentTerm candidates

+ features

post-processingconsolidation

train /classify

CRF models

Affiliations

Authors

Header

Grobid “Extensions”• Grobid offers a generic CRF-based text mining environment• Existing CRF-based tools:

– Biotech entities: reimplementation of BANNER– NERD: NER (26 classes + sense) and Disambiguation/resolution against FreeBase &

Wikipedia (EU Cendari)– Chemical formula in patents

• In development: scientific & technical quantities/measures focusing on patents

• Also existing: – exension for calling a Grobid model directly in XSLT– Key-phrases extraction (SemEval 2010)

• Not included so far in the open source distribution

GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy....

Documents

Transcript of GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy....

Solutions d’Extraction Solutions dédiées pour un …static1.buchi.com/.../files/Extraction_Solutions_brochure_fr_A_0.pdf · Nous couvrons toute la gamme de méthodes d’extraction

Slides delta-2

Slides ecritech

Value slides

Poss0502 slides

Algorithmes d’extraction de modèles géométriques discrets ...

Slides 10.23

Slides Cours GRHRP

Slides engender

Slides Aboueljinane

Transformations d’Extraction Et Les Contraintes de Chomsky

ICI Slides

Cours Techniques d’extraction des S.N Enseignante :Dr ...

Slides Gmcao

Slides Simecol

GWT V 1.0 / 2008 - May. Plan Informations – Slides 3 - 7 Widgets GWT – Slides 8 – 11 RPC / JNSI - Slides 12 - 16 Plugins – Slides 17 - 19 Bibliothèques.

Slides 2040-4

OLED - Slides

Copacabana slides

Idéalement situé au cœur de l’Europe, la Principauté est ...€¦ · Idéalement situé au cœur de l’Europe, la Principauté est réputée pour son climat méditerranéen