Slow Luxury 1.618 Paris OpinionWay Entre l'image projetée et l'image attendue 5 avril 2014
Web sémantique et référentiels : l'avenir de l'image sur le Web
-
Upload
antidot -
Category
Technology
-
view
1.955 -
download
3
description
Transcript of Web sémantique et référentiels : l'avenir de l'image sur le Web
1
Web sémantique et référentiels :l’avenir de l’image sur le Web
Journée d'études : Indexation, web sémantique et web des données
12 novembre 2013, ENSP, ArlesGautier Poupeau
[email protected]@lespetitescases
http://www.lespetitescases.net
2
DE L’IMAGE AUX MÉTADONNÉES
3
De l’image aux métadonnées
Voici une image
4
De l’image aux métadonnées
Nous, autres humains, y reconnaissons Eugène Delacroix
5
De l’image aux métadonnées
Mais voici ce que voit une machine…
6
De l’image aux métadonnées
Pourtant, je la trouve dans Google…
7
De l’image aux métadonnées
Car des informations sont associées à l’image
Son contexte d’utilisation
Titre de la page Web, mots autour de l’image…
8
De l’image aux métadonnées
Car des informations sont associées à l’image
Des informations embarquées dans l’image
IPTC/XMP/EXIF…
9
De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées liées à l’image
Titre du fichier, titre de l’image, texte alternatif…
<img alt="File:Eugene delacroix.jpg" src="451px-Eugene_delacroix.jpg" width="451" height="599" title="Autoportrait au gilet vert d'Eugène Delacroix (1837)"/>
10
De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées générées automatiquement
Détection automatique des couleurs
11
De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées générées automatiquement
Détection automatique des formes (ici un visage)
12
De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées générées automatiquement
Mise en relation avec des images similaires
13
De l’image aux métadonnées
Les métadonnées = l’interface entre les humains et la machine pour accéder à l’image
14
QUELLES MÉTADONNÉES ?
15
Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
De quel objet physique du monde réel cette image est-elle la reproduction ?
Comment est fait cet objet physique ?Quelle est l’histoire de cet objet physique (événements…) ?
Objet physique
16
Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Objet informationnel
Quelles informations sont véhiculées par l’image ? Que voit-on ?
17
Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Quelle est le format du fichier ? Quel est son identifiant, son nom… ?Comment le fichier peut-il être exploité ? Comment a-t-il été obtenu ?
Objet numérique
18
Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Objet dans une collection
Comment l’image est entrée dans la collection ?L’image appartient-elle à un ensemble ?
Qui l’a décrite ? Quand ?
19
LES PROBLÈMES DU PARTAGE ET DE LA MISE EN RELATION
20
Trouver une structure commune
Utilisateur A
Titre : La liberté guidant le peupleArtiste : Eugène DelacroixNom du fichier : liberte-guidant.jpg
21
Trouver une structure commune
Utilisateur A
Titre : La liberté guidant le peupleArtiste : Eugène DelacroixNom du fichier : liberte-guidant.jpg
Utilisateur B
Title : Autoportrait au gilet VertCreator : Eugène DelacroixFilename : Autoportrait-1837.jpg
22
Trouver une structure commune
Utilisateur A
Titre : La liberté guidant le peupleArtiste : Eugène DelacroixNom du fichier : liberte-guidant.jpg
Utilisateur B
Title : Autoportrait au gilet VertCreator : Eugène DelacroixFilename : Autoportrait-1837.jpg
Il faut trouver une structure de métadonnées communes
23
Utiliser des références communes
Delacroix, Eugène
creator
Utilisateur A
24
Utiliser des références communes
Delacroix, Eugène
creator
Utilisateur A Utilisateur B
25
Utiliser des références communes
Delacroix, Eugène E. Delacroix
creator creator
Utilisateur A Utilisateur B
26
Utiliser des références communes
Delacroix, Eugène E. Delacroix
creator creator?
Utilisateur A Utilisateur B
?
Il faut utiliser des références communes
27
Utiliser des références communes
Delacroix, Eugène E. Delacroix
creator creator?
Utilisateur A Utilisateur B
?
28
Utiliser des références communes
Delacroix, Eugène E. Delacroix
creator creator?
Utilisateur A Utilisateur B
?
Il faut utiliser des références communes
29
Désambiguïser les chaînes de caractères
Utilisateur A
Mots-clés : peinture, romantique, revolution, drapeau, gavroche
30
Désambiguïser les chaînes de caractères
Utilisateur A Utilisateur B
Mots-clés : peinture, romantique, revolution, drapeau, gavroche
Mots-clés : tableau, romantisme, Révolution de 1830, flag, Gavroche
31
Désambiguïser les chaînes de caractères
Utilisateur A Utilisateur B
Mots-clés : peinture, romantique, revolution, drapeau, gavroche
Mots-clés : tableau, romantisme, Révolution de 1830, flag, Gavroche
Il faut utiliser un vocabulaire commun dont les chaînes de caractère ne constituent pas l’identifiant
32
Relier des données hétérogènes
Quel est le point commun entre cette image et ce livre ?
33
Relier des données hétérogènes
Quel est le point commun entre cette image et ce livre ?
34
Relier des données hétérogènes
Il ne faut pas se limiter à relier des objets de même nature
Quel est le point commun entre cette image et ce livre ?
35
Relier des vocabulaires
Archives nationales
Révolution de 1789
Archives de Robespierre
36
Relier des vocabulaires
Archives nationales Bibliothèque nationale de France
Révolution de 1789 France -- 1789-1799 (Révolution)
Archives de Robespierre
37
Relier des vocabulaires
Archives nationales Bibliothèque nationale de France
Révolution de 1789 France -- 1789-1799 (Révolution)
Archives de Robespierre
38
Relier des vocabulaires
Archives nationales Bibliothèque nationale de France
Révolution de 1789 France -- 1789-1799 (Révolution)
Archives de Robespierre
Il faut relier des vocabulaires existants
39
Structurer les vocabulaires
Bleu Rouge
Marine
Pastel
Azur
Vermillon
Tomate
Ponceau
Couleurs
Il faut organiser les vocabulaires
40
Mettre en commun la richesse de l’information
Conversion et copie Plus petit dénominateur commun
Il faut partager et relier les données sans perte d’informations
41
Bref, que faut-il ?
Disposer d’une Tour de Babel numérique !
42
LE WEB SÉMANTIQUE À LA RESCOUSSE
43
Le Web de documents
Un mécanismede communication
Un mécanismed'identification
HTTP URI
Encoder le message
HTML
Relier les documents
Le lien hypertexteLe navigateur Web
Interpréter le code
Un dispositif technologique pour mettre à disposition, lier et partager des documents sur un réseau de machines connectées.
44
Le Web de données
Créer une langue pour les machines
Une grammaire Des vocabulairesDes règlesd’écriture Des moyens
de communication
RDF RDFS/OWL RDF/XML, N3Turtle, RDFa
SPARQL
HTTP URI
45
Des identifiants
http://www.mied.org/personne/Eugene_Delacroix
http://www.mied.org/oeuvre/Liberte_guidant_le_peuple
http://www.mied.org/lieu/Paris http://www.mied.org/institution/Louvre
http://www.mied.org/concept/Romantisme
http://www.mied.org/concept/Tableau
Attribuer des URIs aux choses
46
Une grammaire
Exprimer des faits sur les choses sous la forme d’une phrase simple ou triplets
http://www.mied.org/personne/Eugene_Delacroix
http://www.mied.org/oeuvre/Liberte_guidant_le_peuple
http://www.mied.org/ontologie/auteur
sujet
prédicat
objet
47
Dépasser la chaîne de caractères
est mort à“Paris”
?
Disposer d’une URI permet de désambigüiser une chaîne de caractères
48
Dépasser la chaîne de caractères
est mort àhttp://www.mied.org/lieu/Paris
label
fait partie de
“Paris”@fr “Parigi”@it
label
est un
Et de produire de nouvelles assertionssur cette chose
49
Le graphe
est conservé au
est l'auteur de
est contemporain de
se trouve à
est mort à
est mort à
est conservé au
est un
est un
L'ensemble des triplets, reliés les uns aux autres par les URI qu’ils ont en commun, constitue un graphe.
est un
50
Les principes du Web de données
Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29
http://dbpedia.org/resource/Smoking_pipe_%28tobacco%29
Utiliser des URIs Utiliser des URIsaccessibles via HTTP
Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF
Exprimer l’URI des objets liés
51
Et le Web de données grandit
2011
2007
20082009
52
LE PROTOTYPE HADOC
53
Présentation du projet HADOC
HArmonisation de la production des DOnnées Culturelles
Mise au point d’un modèle de données unique pour décrire les biens culturels de tous types
Mise au point d’un prototype pour : valider le travail de modélisation ; évaluer les difficultés pour convertir
automatiquement les données actuelles vers ce modèle ;
montrer les points de recoupement entre les différents référentiels du Ministère de la culture et de la Communication ;
montrer l'apport du modèle et des technologies du Web sémantique pour valoriser les données du MCC.
54
Conversion des notices Mistral
Repérage des différentes entités de la noticeet la nature de leurs relations
Bien culturel
Objet informationnel
EvénementLocalisation du bien
Ressource
Agent
Lieu
55
Mise en relation directe des notices
Image issue de MémoireIVR11_02771047
Document d’archive issue d’ArcadeAR504446
Bien culturel issue de PalissyIM77000138
Est le support de Est associé à
56
Mise en relation des notices par les référentiels
SculptureRéférentiel Palissy
SculptureRéférentiel Mérimée
IA78000988Mérimée
IM78001418Palissy
IM78002464Palissy
YvelinesINSEE
57
Consolidation du graphe
Evénementde création
BOUVEAULT Théophile François Adolphe
4e quart 19e siècle
Dompierre-sur-NièvreMusée municipalFrédéric Blandin
Joconde
Décor maçonnique
58
Exploitation du graphe : la hiérarchie
Epoque contemporaine
XIXe
1ère moitié du XIXe
Période de création
2ème moitié du XIXe IM34001703
59
Exploitation du graphe : la hiérarchie
Epoque contemporaine
XIXe
1ère moitié du XIXe
Période de création
2ème moitié du XIXe IM34001703
60
Exploitation du graphe : enrichissement
Coordonnées géographiques
48.856930 2.341200
LongitudeLatitude
M5037010481
Musée du Louvre
61
Exploitation du graphe : enrichissement
Coordonnées géographiques
48.856930 2.341200
LongitudeLatitude
M5037010481
Musée du Louvre
62
Exploitation du graphe : enrichissement
Coordonnées géographiques
48.856930 2.341200
LongitudeLatitude
M5037010481
Musée du Louvre
Paris
Ile-de-France
63
Exploitation du graphe : enrichissement
Coordonnées géographiques
48.856930 2.341200
LongitudeLatitude
M5037010481
Musée du Louvre
Paris
Ile-de-France
64
Exploitation du graphe : le parcours
Evénementde création
BOUVEAULT Théophile François Adolphe
4e quart 19e siècle
Dompierre-sur-NièvreMusée municipalFrédéric Blandin
Joconde
Décor maçonnique
65
Exploitation du graphe : le parcours
Evénementde création
BOUVEAULT Théophile François Adolphe
4e quart 19e siècle
Dompierre-sur-NièvreMusée municipalFrédéric Blandin
Joconde
Décor maçonnique
66
La carte d’identité du bien culturel
67
Exemples de facettes
Hiérarchie administrative rétablie à partir du référentiel de l’INSEE
Hiérarchie administrative rétablie à partir de la structure du référentiel Palissy
Facette à plat à partir de l’annotation avec le référentiel Palissy
68
Recherche plein texte
69
Recherche exacte
70
Recherche structurée
71
Recherche géographique