Presentation of Ioannis Anagnostopoulos at BnF Information Day

download Presentation of Ioannis Anagnostopoulos at BnF Information Day

of 23

  • date post

    10-Jul-2015
  • Category

    Education

  • view

    141
  • download

    0

Embed Size (px)

Transcript of Presentation of Ioannis Anagnostopoulos at BnF Information Day

  • Lapport de la BnF dans le projetPourquoi Europeana Newspapers ?

  • Car Europeana Newspapers nous permetLagrgation de journaux europens libres de droits issus des grands titres de la presse europenne.

    La visibilit et laccessibilit sur le portail Europeana et sur le portail des bibliothques partenaires.

    Lamlioration des fonctionnalits de recherche pour ce contenu grce lenrichissement smantique des donnes et des mtadonnes relatives aux corpus traits.Journe dinformation27 novembre 2014

  • Car Europeana nous propose un point centralis pour explorer la diversit europenneGarantir un meilleur accs aux collections numrises de presse existantes.

    Donner accs en ligne 18 millions de pages via Europeana et TEL.

    Optimiser les processus de numrisation, dont lOCR, ainsi que les dispositifs de reconnaissance des articles de presse (OLR).Journe dinformation27 novembre 2014

  • PartenairesJourne dinformation27 novembre 2014

  • La Bibliothque nationale de France participe avec environ 3 millions de pages (environ 2,4 M traites en OCR/OLR)Contenus de la BnFJourne dinformation27 novembre 2014

  • Traitements et fonctionnalits avances ddies lamlioration de la consultation Reconnaissance optique de caractres (OCR) Universit dInnsbruck, AutricheRecherche plein-texte sur corpus BnF sans OCR ou avec OCR non HQ (1,4 M pages)

  • Reconnaissance optique de la structuration et de la segmentation des articles (OLR) CCS, Allemagne.Traitements et fonctionnalits avances ddies lamlioration de la consultation Consultation en mode Articles (1 M pages)

  • Identification/reconnaissance des colonnes

    Segmentation au niveau darticle (titres, sous-titres...)

    Reconnaissance de classes de page/contenu (publicits, petites annonces, tableaux, illustrations, lgendes)

    Outils dassurance qualit et de correction des rsultats

    OLR :Traitements et fonctionnalits avances ddies lamlioration de la consultation

  • OLR

  • OLR

  • OLR

  • OLR

  • OLR

  • Reconnaissance des entits nommes (REN)Sous-tche de lactivit dextraction dinformation dans des corpus documentaires :Rechercher et identifier un certain nombre dobjets textuels (un mot ou un groupe de mots) prsents dans des corpus documentaires.Catgorisables dans des classes telles que noms de personnes, noms d'organisations (institutions, entreprises, socits) et noms de lieux (pays, ville, site).Eventuellement aligns sur des rfrentiels dautorits.

    Traitements et fonctionnalits avances ddies lamlioration de la consultation Partenaires scientifiques et techniques :KB (GE, NE) UPMC/LIP6 pour le franais

  • REN et Europeana NewspapersConcevoir, dvelopper et appliquer un modle pour la REN en franais.Rflchir aux cas dusage pour lamlioration des fonctionnalits de consultation et de prsentation lintention des usagers dEuropeana et des bibliothques nationales :Moteur de recherche smantiqueWeb smantiqueAlignement avec des rfrentiels internationaux pour la recherche dinformation multilingueREN applique sur 100-500 K pages)

  • *Entits nommes : comment les dcrire ?Format externe (BIO, bases de donnes)TEIMETSALTO Europeana Newspapers a choisi dutiliser le mcanisme dtiquetage disponible dans ALTO v2.1.

  • Le format METS/ALTO nous offreDonnes descriptives et techniques.Informations sur le contenu et la disposition physique de la page (segmentation).

    Description de la publication globale : MD bibliographiques, techniques, administratives.Informations/description de la structure logique du fascicule (TDM).Liens logiques entre TDM et blocs ALTO de texte/articlesALTOMETS

  • Europeana Newspapers : un profil METS/ALTO ddi la numrisation de la presse (ENMAP)Articulation autour de trois concepts : section, lment de contenu ( article ), lment de structure.Modle adapt aux contenus presse.Classification des types de contenu (information, opinion, divertissement, publicit, mtadonne).

    Alimenter la rflexion sur la problmatique structuration minimale (article = titre + texte) vs. structuration riche

  • Europeana Newspapers : un profil METS/ALTO ddi la numrisation de la presse (ENMAP)Outill par :la documentation du modle,une application de structuration (UIBK) :test et validation dun modle de structuration (lancement de projets de numrisation), visualisation de contenus (QA)conversion entre formatsproduction pour projets de petite taille

    Publication finale du format en fin de projet (janvier 2015)

  • Europeana Newspapers : valorisationAmliorer la recherche et laccs au contenuProfiter de la structuration en articles individuels, avec table de navigationUtiliser le typage des contenus pour affiner la recherche (filtres)Valoriser les entits nommes via des outils smantiques (data.bnf.fr, Exalead) ou dautres services spcialiss

    Enjeux autour du format et valorisation des contenusLe profil METS/ALTO ENMAP fournit un modle viable pour le partage et lchange de contenus de presse.La structuration avance quil autorise facilite la rexploitation des contenus pour dautres usages ou vers dautres formats.

  • Europeana Newspapers : valorisationwww.theeuropeanlibrary.org/tel4/newspapers

  • Les bnfices pour la BnFAmliorer lOCR et utiliser des outils dvaluation/correction : dfinition de nouvelles recommandations (futurs marchs).

    Contribuer aux travaux de convergence vers lutilisation du profil ENMAP METS/ALTO.

    Enrichir les fonctionnalits de recherche et de consultation en mode texte/article pour les journaux sur Gallica.

    Attirer plus de visiteurs sur Gallica avec des contenus enrichis et lis dautres corpus.

    Alimenter dautres vecteurs de diffusion avec ces contenus enrichis : data.bnf.fr

  • merci de votre attention!