Web sémantique et référentiels : l'avenir de l'image sur le Web

Post on 14-Nov-2014

1.956 views 3 download

description

Diaporama de la présentation de Gautier Poupeau (Antidot) faite à l'occasion de la journée d'études : indexation, Web sémantique, Web de données organisée à l'Ecole nationale de la photographie d'Arles

Transcript of Web sémantique et référentiels : l'avenir de l'image sur le Web

1

Web sémantique et référentiels :l’avenir de l’image sur le Web

Journée d'études : Indexation, web sémantique et web des données

12 novembre 2013, ENSP, ArlesGautier Poupeau

gpoupeau@antidot.net@lespetitescases

http://www.lespetitescases.net

2

DE L’IMAGE AUX MÉTADONNÉES

3

De l’image aux métadonnées

Voici une image

4

De l’image aux métadonnées

Nous, autres humains, y reconnaissons Eugène Delacroix

5

De l’image aux métadonnées

Mais voici ce que voit une machine…

6

De l’image aux métadonnées

Pourtant, je la trouve dans Google…

7

De l’image aux métadonnées

Car des informations sont associées à l’image

Son contexte d’utilisation

Titre de la page Web, mots autour de l’image…

8

De l’image aux métadonnées

Car des informations sont associées à l’image

Des informations embarquées dans l’image

IPTC/XMP/EXIF…

9

De l’image aux métadonnées

Car des informations sont associées à l’image

Des métadonnées liées à l’image

Titre du fichier, titre de l’image, texte alternatif…

<img alt="File:Eugene delacroix.jpg" src="451px-Eugene_delacroix.jpg" width="451" height="599" title="Autoportrait au gilet vert d'Eugène Delacroix (1837)"/>

10

De l’image aux métadonnées

Car des informations sont associées à l’image

Des métadonnées générées automatiquement

Détection automatique des couleurs

11

De l’image aux métadonnées

Car des informations sont associées à l’image

Des métadonnées générées automatiquement

Détection automatique des formes (ici un visage)

12

De l’image aux métadonnées

Car des informations sont associées à l’image

Des métadonnées générées automatiquement

Mise en relation avec des images similaires

13

De l’image aux métadonnées

Les métadonnées = l’interface entre les humains et la machine pour accéder à l’image

14

QUELLES MÉTADONNÉES ?

15

Quelles métadonnées ?

L’image n’est pas uniforme, elle possède plusieurs dimensions

De quel objet physique du monde réel cette image est-elle la reproduction ?

Comment est fait cet objet physique ?Quelle est l’histoire de cet objet physique (événements…) ?

Objet physique

16

Quelles métadonnées ?

L’image n’est pas uniforme, elle possède plusieurs dimensions

Objet informationnel

Quelles informations sont véhiculées par l’image ? Que voit-on ?

17

Quelles métadonnées ?

L’image n’est pas uniforme, elle possède plusieurs dimensions

Quelle est le format du fichier ? Quel est son identifiant, son nom… ?Comment le fichier peut-il être exploité ? Comment a-t-il été obtenu ?

Objet numérique

18

Quelles métadonnées ?

L’image n’est pas uniforme, elle possède plusieurs dimensions

Objet dans une collection

Comment l’image est entrée dans la collection ?L’image appartient-elle à un ensemble ?

Qui l’a décrite ? Quand ?

19

LES PROBLÈMES DU PARTAGE ET DE LA MISE EN RELATION

20

Trouver une structure commune

Utilisateur A

Titre : La liberté guidant le peupleArtiste : Eugène DelacroixNom du fichier : liberte-guidant.jpg

21

Trouver une structure commune

Utilisateur A

Titre : La liberté guidant le peupleArtiste : Eugène DelacroixNom du fichier : liberte-guidant.jpg

Utilisateur B

Title : Autoportrait au gilet VertCreator : Eugène DelacroixFilename : Autoportrait-1837.jpg

22

Trouver une structure commune

Utilisateur A

Titre : La liberté guidant le peupleArtiste : Eugène DelacroixNom du fichier : liberte-guidant.jpg

Utilisateur B

Title : Autoportrait au gilet VertCreator : Eugène DelacroixFilename : Autoportrait-1837.jpg

Il faut trouver une structure de métadonnées communes

23

Utiliser des références communes

Delacroix, Eugène

creator

Utilisateur A

24

Utiliser des références communes

Delacroix, Eugène

creator

Utilisateur A Utilisateur B

25

Utiliser des références communes

Delacroix, Eugène E. Delacroix

creator creator

Utilisateur A Utilisateur B

26

Utiliser des références communes

Delacroix, Eugène E. Delacroix

creator creator?

Utilisateur A Utilisateur B

?

Il faut utiliser des références communes

27

Utiliser des références communes

Delacroix, Eugène E. Delacroix

creator creator?

Utilisateur A Utilisateur B

?

28

Utiliser des références communes

Delacroix, Eugène E. Delacroix

creator creator?

Utilisateur A Utilisateur B

?

Il faut utiliser des références communes

29

Désambiguïser les chaînes de caractères

Utilisateur A

Mots-clés : peinture, romantique, revolution, drapeau, gavroche

30

Désambiguïser les chaînes de caractères

Utilisateur A Utilisateur B

Mots-clés : peinture, romantique, revolution, drapeau, gavroche

Mots-clés : tableau, romantisme, Révolution de 1830, flag, Gavroche

31

Désambiguïser les chaînes de caractères

Utilisateur A Utilisateur B

Mots-clés : peinture, romantique, revolution, drapeau, gavroche

Mots-clés : tableau, romantisme, Révolution de 1830, flag, Gavroche

Il faut utiliser un vocabulaire commun dont les chaînes de caractère ne constituent pas l’identifiant

32

Relier des données hétérogènes

Quel est le point commun entre cette image et ce livre ?

33

Relier des données hétérogènes

Quel est le point commun entre cette image et ce livre ?

34

Relier des données hétérogènes

Il ne faut pas se limiter à relier des objets de même nature

Quel est le point commun entre cette image et ce livre ?

35

Relier des vocabulaires

Archives nationales

Révolution de 1789

Archives de Robespierre

36

Relier des vocabulaires

Archives nationales Bibliothèque nationale de France

Révolution de 1789 France -- 1789-1799 (Révolution)

Archives de Robespierre

37

Relier des vocabulaires

Archives nationales Bibliothèque nationale de France

Révolution de 1789 France -- 1789-1799 (Révolution)

Archives de Robespierre

38

Relier des vocabulaires

Archives nationales Bibliothèque nationale de France

Révolution de 1789 France -- 1789-1799 (Révolution)

Archives de Robespierre

Il faut relier des vocabulaires existants

39

Structurer les vocabulaires

Bleu Rouge

Marine

Pastel

Azur

Vermillon

Tomate

Ponceau

Couleurs

Il faut organiser les vocabulaires

40

Mettre en commun la richesse de l’information

Conversion et copie Plus petit dénominateur commun

Il faut partager et relier les données sans perte d’informations

41

Bref, que faut-il ?

Disposer d’une Tour de Babel numérique !

42

LE WEB SÉMANTIQUE À LA RESCOUSSE

43

Le Web de documents

Un mécanismede communication

Un mécanismed'identification

HTTP URI

Encoder le message

HTML

Relier les documents

Le lien hypertexteLe navigateur Web

Interpréter le code

Un dispositif technologique pour mettre à disposition, lier et partager des documents sur un réseau de machines connectées.

44

Le Web de données

Créer une langue pour les machines

Une grammaire Des vocabulairesDes règlesd’écriture Des moyens

de communication

RDF RDFS/OWL RDF/XML, N3Turtle, RDFa

SPARQL

HTTP URI

45

Des identifiants

http://www.mied.org/personne/Eugene_Delacroix

http://www.mied.org/oeuvre/Liberte_guidant_le_peuple

http://www.mied.org/lieu/Paris http://www.mied.org/institution/Louvre

http://www.mied.org/concept/Romantisme

http://www.mied.org/concept/Tableau

Attribuer des URIs aux choses

46

Une grammaire

Exprimer des faits sur les choses sous la forme d’une phrase simple ou triplets

http://www.mied.org/personne/Eugene_Delacroix

http://www.mied.org/oeuvre/Liberte_guidant_le_peuple

http://www.mied.org/ontologie/auteur

sujet

prédicat

objet

47

Dépasser la chaîne de caractères

est mort à“Paris”

?

Disposer d’une URI permet de désambigüiser une chaîne de caractères

48

Dépasser la chaîne de caractères

est mort àhttp://www.mied.org/lieu/Paris

label

fait partie de

“Paris”@fr “Parigi”@it

label

est un

Et de produire de nouvelles assertionssur cette chose

49

Le graphe

est conservé au

est l'auteur de

est contemporain de

se trouve à

est mort à

est mort à

est conservé au

est un

est un

L'ensemble des triplets, reliés les uns aux autres par les URI qu’ils ont en commun, constitue un graphe.

est un

50

Les principes du Web de données

Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29

http://dbpedia.org/resource/Smoking_pipe_%28tobacco%29

Utiliser des URIs Utiliser des URIsaccessibles via HTTP

Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF

Exprimer l’URI des objets liés

51

Et le Web de données grandit

2011

2007

20082009

52

LE PROTOTYPE HADOC

53

Présentation du projet HADOC

HArmonisation de la production des DOnnées Culturelles

Mise au point d’un modèle de données unique pour décrire les biens culturels de tous types

Mise au point d’un prototype pour : valider le travail de modélisation  ; évaluer les difficultés pour convertir

automatiquement les données actuelles vers ce modèle ;

montrer les points de recoupement entre les différents référentiels du Ministère de la culture et de la Communication ;

montrer l'apport du modèle et des technologies du Web sémantique pour valoriser les données du MCC.

54

Conversion des notices Mistral

Repérage des différentes entités de la noticeet la nature de leurs relations

Bien culturel

Objet informationnel

EvénementLocalisation du bien

Ressource

Agent

Lieu

55

Mise en relation directe des notices

Image issue de MémoireIVR11_02771047

Document d’archive issue d’ArcadeAR504446

Bien culturel issue de PalissyIM77000138

Est le support de Est associé à

56

Mise en relation des notices par les référentiels

SculptureRéférentiel Palissy

SculptureRéférentiel Mérimée

IA78000988Mérimée

IM78001418Palissy

IM78002464Palissy

YvelinesINSEE

57

Consolidation du graphe

Evénementde création

BOUVEAULT Théophile François Adolphe

4e quart 19e siècle

Dompierre-sur-NièvreMusée municipalFrédéric Blandin

Joconde

Décor maçonnique

58

Exploitation du graphe : la hiérarchie

Epoque contemporaine

XIXe

1ère moitié du XIXe

Période de création

2ème moitié du XIXe IM34001703

59

Exploitation du graphe : la hiérarchie

Epoque contemporaine

XIXe

1ère moitié du XIXe

Période de création

2ème moitié du XIXe IM34001703

60

Exploitation du graphe : enrichissement

Coordonnées géographiques

48.856930 2.341200

LongitudeLatitude

M5037010481

Musée du Louvre

61

Exploitation du graphe : enrichissement

Coordonnées géographiques

48.856930 2.341200

LongitudeLatitude

M5037010481

Musée du Louvre

62

Exploitation du graphe : enrichissement

Coordonnées géographiques

48.856930 2.341200

LongitudeLatitude

M5037010481

Musée du Louvre

Paris

Ile-de-France

63

Exploitation du graphe : enrichissement

Coordonnées géographiques

48.856930 2.341200

LongitudeLatitude

M5037010481

Musée du Louvre

Paris

Ile-de-France

64

Exploitation du graphe : le parcours

Evénementde création

BOUVEAULT Théophile François Adolphe

4e quart 19e siècle

Dompierre-sur-NièvreMusée municipalFrédéric Blandin

Joconde

Décor maçonnique

65

Exploitation du graphe : le parcours

Evénementde création

BOUVEAULT Théophile François Adolphe

4e quart 19e siècle

Dompierre-sur-NièvreMusée municipalFrédéric Blandin

Joconde

Décor maçonnique

66

La carte d’identité du bien culturel

67

Exemples de facettes

Hiérarchie administrative rétablie à partir du référentiel de l’INSEE

Hiérarchie administrative rétablie à partir de la structure du référentiel Palissy

Facette à plat à partir de l’annotation avec le référentiel Palissy

68

Recherche plein texte

69

Recherche exacte

70

Recherche structurée

71

Recherche géographique