Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures...
Transcript of Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures...
Un modèle de données et des outils pour les collections de l’Ina 21 juin 2019 – Autour de nouvelles pratiques professionnelles et de leurs impacts , ADBS
Contexte du projet
2Un modèle de données et des outils pour les collections de l’Ina
Les principales missions de l’Ina
3
Conserver
Valoriser
Former
160 chaînes de télé/radio captées 24h/24 7j/750 millions de notices
1,8 millions d’heures numérisées dont 49 000 heures accessibles librement
451 offres de formation continue pour 3500 professionnels/an
14 diplômes universitaires du BTS au Master
Un modèle de données et des outils pour les collections de l’Ina
Les collections de l’Ina
4
17,8 millions d’heures de programmes télé et radio
2 millions d’heuresd‘archives profesionnelles
15,8 millions d’heures
Dépôt légal
1,2 millions de photos
3.29 Po d’archives du Web
Un modèle de données et des outils pour les collections de l’Ina
Construire le système d’information de gestion des collections
Totem
Mastock Sumocco
Gestion document
MediaIndex
OGP
InaMediaPro
PCMHyperbase
Dépôt LégalArchives
pro
Notilus
Neva
Outils deconsultation
Lac de données
DL
5Un modèle de données et des outils pour les collections de l’Ina
Quelques constats
6Un modèle de données et des outils pour les collections de l'Ina
Quelques constats
Des bases de données éparpillées
7
• hétérogénéité des technologies de stockage
• difficile à maintenir• nombreux traitements de
synchronisation• pas de maîtrise des données
Un modèle de données et des outils pour les collections de l'Ina
Quelques constats
Des données « silotées »
8
• données très liées à l’applicatif et à son usage
• réutilisation complexe• redondance des métadonnées• problème de responsabilité des
traitements de synchronisation• Difficulté à maintenir une cohérence
transverse des structures de données sur le SI
Un modèle de données et des outils pour les collections de l'Ina
LES OBJECTIFS DU PROJET
9Un modèle de données et des outils pour les collections de l'Ina
Les objectifs poursuivis par le projet
• Maitriser la cohérence des différents ensembles de données
• Simplifier l’exploitation des données• Éviter la redondance des données• Stocker toutes les données quelles que
soient leur nature et leur structure• Assurer la mise en relation des
différents ensembles de données
10
Au niveau des données
Un modèle de données et des outils pour les collections de l'Ina
Les objectifs poursuivis par le projet
• S’inscrire dans la logique de la création de la Direction des Collections
• Répondre aux usages actuels et anticiper les usages futurs
• Développer une expertise sur la donnée• Déployer une gouvernance de données
Partager la responsabilité sur la connaissance de la donnée
11
Au niveau métier et organisationnel
Un modèle de données et des outils pour les collections de l'Ina
Les objectifs poursuivis par le projet
• Simplifier l’exploitation, la supervision, la maintenance et l’évolution des systèmes de traitement et de stockage de données
• Assurer la haute disponibilité• Intégrer le système au plan de secours
informatique (PSI)• Assurer la montée en charge• Accélérer l’intégration de nouvelles technologies
12
Au niveau technique
Un modèle de données et des outils pour les collections de l'Ina
Les lignes directrices
13Un modèle de données et des outils pour les collections de l'Ina
Les lignes directrices
14
Séparer fonctionnellement les données des usages
• Repenser les modèles de données par rapport à leur logique et non à leur usage
• Assumer de disposer d’un modèle de données pour la production et le stockage et d’un ou plusieurs modèles de données pour l’exploitation
Un modèle de données et des outils pour les collections de l'Ina
Les lignes directrices
15
Intégrer la fouille de textes et de données
• Penser la place et l’usage de ces outils vis-à-vis des professionnels et des usagers
• Penser le lien entre les données générées et les données « traditionnelles »
• Disposer des moyens techniques pour stocker les données générées
Un modèle de données et des outils pour les collections de l'Ina
Les lignes directrices
16
Disposer des différentes familles de bases de données
Base de données relationnelles
Base de données document
Base de données graphes
Moteur derecherche
• Beaucoup de lecture/écriture• Données très structurées• Garantie de la transaction
• Peu ou pas de mise à jour• Données semi structurées• Montée en charge sécurisée en
volume de données
• Données très structurées• Inférences sur les données• Respect de la logique des données
• Requête plein texte• Rapidité des réponses• Montée en charge pour le
nombre d’utilisateurs
Un modèle de données et des outils pour les collections de l'Ina
Les données
17Un modèle de données et des outils pour les collections de l'Ina
Les différents ensembles de données
18
Donnéeséditoriales
Donnéesde référence
Donnéesd’usage
Donnéesgénérées
automatiquement
Donnéescommerciales
Donnéesjuridiques
Donnéesd’actualités
Donnéesde la recherche
Donnéesdocumentaires et matérielles
Un modèle de données et des outils pour les collections de l'Ina
Des données documentaires et matérielles hétérogènes
Images animées ou sons de natures (très) hétérogènes : journaux télévisés, jeux, retransmissions, magazines, séries, films, publicité, documentaires…
Images fixes : photos, capture d’écran
Documentation écrite : livres sur la télévision, programmes télés (Télérama, Télé 7 jours…), documentations produites par les chaînes (dossier de presse, conducteur…), archives d’émissions ou de personnes physiques issus de dons
Web : Sites Web (pages, images, feuilles de style…), compte twitter, hashtags twitter, compte DailyMotion, YouTube ou Facebook
Matériels : supports physiques : Films, Betacam, VHS, LTO et support numérique natif ou issu de la numérisation : MPEG1, JPEG200…
19Un modèle de données et des outils pour les collections de l'Ina
Des données avec des visions différentes et qui ont évolué en parallèle
20
Le dépôt légalConstituer le reflet du flux diffusé depuis 1995
Les archives professionnellesConstituer une banque de programmes
depuis l’ORTF
Un modèle de données et des outils pour les collections de l'Ina
Des données issues de différentes sources de données
21
France 3 régionsOutremer
Câble/Satellite
Hertzienne « historique »
Radio
Pour mener à bien sa mission, l’Ina est amené à récupérer ou acheter de la donnée à l’extérieur.
Données post-diffusionachetées
Données prévisionnelles
de diffusion
Un modèle de données et des outils pour les collections de l'Ina
Comment mettre au point un nouveau modèle de données ?
22
InteropérabilitéSouplesse Cohérence Provenance
Les enjeux et les points de vigilance
Un modèle de données et des outils pour les collections de l'Ina
Comment mettre au point un nouveau modèle de données ?
23
La méthodologie
Un groupe de 4 personnes du métier et 1 personne de la DSI réuni une à deux fois par semaine depuis quatre ans
Un modèle de données et des outils pour les collections de l'Ina
Comment mettre au point un nouveau modèle de données ?
24
Les modèles d’inspiration et les problèmes qu’ils posent
• Le CIDOC-CRM est un modèle conceptuel et non un modèle d’implémentation
• A-t-on besoin d’autant de complexité ?
CIDOC-CRM
Un modèle de données et des outils pour les collections de l'Ina
Comment mettre au point un nouveau modèle de données ?
25
Les modèles d’inspiration et les problèmes qu’ils posent
FRBR/LRM
EN 15907 Bibframe
• Qu’est-ce-qu’une expression et une manifestation pour un programme diffusé ? Une rediffusion ?
• Quel est le coût humain (et donc économique) de l’œuvre vs son intérêt en termes d’usage ?
Un modèle de données et des outils pour les collections de l'Ina
Le modèle de données
26
Séparer le contenu, de son histoire et de son support
Le contenu correspond au programme en lui-même mais cela peut aussi être une émission de radio, un livre ou une photographie
Le contenu
L’événementL’événement reflète une étape dans la vie du contenu : création, production, diffusion, publication, archivage, numérisation…
Le support
Le support physique ou numérique sur lequel est inscrit le contenu est le produit d’un événement
Un modèle de données et des outils pour les collections de l'Ina
Le modèle de données
27
Faire de la description des entités en tant que telles
Du texte libre Des données contrôlées
• Texte court : identifiant, titre propre, titre de la collection…
• Texte long : résumé, dispositif, notes…• Chiffres : données d’audience, numéro
d’émission, de saison…
• Description du contenu lui-même : genre, thématique, descripteurs, génériques
• Description des particularités du contenu : langue, couleur, origine des images…
• Description des particularités des événements : nature de production, chaîne, nom du producteur
Un modèle de données et des outils pour les collections de l'Ina
Le modèle des contenus/événements/matériels
28Un modèle de données et des outils pour les collections de l'Ina
Concepts gérés par référentiels
Concepts gérés par référentiels
Concepts gérés par référentielsSupports
(analogiques et numériques)
Objets documentaires (émissions de TV/radio, publication, photographie, …)
Evénements (diffusion, production, …) Agents
Le modèle des concepts (inspiré d’ISO 25 964)
29Un modèle de données et des outils pour les collections de l'Ina
Le modèle des textes
30
Lorem ipsum dolor sit amet,
Un modèle de données et des outils pour les collections de l'Ina
Le modèle de données
Un modèle de données unique pour les collections de l'Ina 31
Text
Instance objet
documentaire géré : émission
de TV/radio, publication,
photographie, …
EventItem
Annotation(descripteurs)
Concept
Credit (générique :
agents + rôles)
Label
Title
IdentifierTextual
Annotation
ConceptScheme
Relation
AgentFiliation
Set
Activity
Activity Agent
Segment
Aggregation
Number
31Un modèle de données et des outils pour les collections de l'Ina
Principe de la migration des données
32
Exploration des données
Mise au point des règlesCorrection données
Développement
Validation du dév
Mise au propre des règles
Validation par le métier
Un modèle de données et des outils pour les collections de l'Ina
Evénements de diffusion
Un modèle de données et des outils pour les collections de l'Ina
Le résultat de la migration
Evénement de diffusion
Contenu 1
Titre propre :Brouillard au pont de
Bry
Titre de collection :Les enquêtes du
commissaire Maigret
Résumé : Un crime a été commis dans un petit logement de la
banlieue parisienne…
Générique :REA, Barma, Claude
Date de diffusion : 14/10/1967
Contenu 2
Titre propre : Brouillard au pont
de Bry
Titre de collection : Maigret
Générique :REA, La Patellière,
Denys de
Résumé : Le commissaire Maigret
enquête sur un meurtre
mystérieux…
Titre propre :Brouillard au pont
de Bry
Titre de collection : Maigret
Générique :REA, La
Patellière, Denys de
Résumé : Une jeune fille est
retrouvée morte près du pont de
Bry…
Titre propre :Brouillard au pont
de Bry
Titre de collection : Maigret
Résumé : [vide]
Générique : [vide]
Date de diffusion : 28/10/2003
Date de diffusion : 28/04/1994
Date de diffusion : 10/08/2013
La trajectoire vers le nouveau SI
34Un modèle de données et des outils pour les collections de l'Ina
TrajectoireEtape 1 : alimentation du lac de données
Bases Oracle DA[Données documentaires
et matérielles]
Bases de données ou« Lac de données »
JuridiqueCommercial Externe
Bases Oracle DL[Données documentaires
et matérielles]
Outils et bases de Gestion Clients
(InaMédiapro, Ina.fr)
35Un modèle de données et des outils pour les collections de l'Ina
TrajectoireEtape 2 : Préparer la bascule vers les nouveaux outils
Bases Oracle DA[Données documentaires
et matérielles]
Bases Oracle DL[Données documentaires
et matérielles]
Bases de données ou« Lac de données »
Outils de consultation et de traitement des métadonnées documentaires et
matérielles : Notilus
Outils et bases de Gestion Clients
(InaMédiapro, Ina.fr)
Bases de consultation
(PCM, Inathèque)
Outils et bases de Gestion Clients
(Workflow Radio & TV, Gescom, InaMédiapro,
Ina.fr)
Outils et bases
Juridiques
(Adaje, Aida)JuridiqueCommercial Externe Automatique
36
Acquisition des données et des matériels
NEVA
Un modèle de données et des outils pour les collections de l'Ina
TrajectoireEtape 3 : Bascule vers les nouveaux outils et finalisation
Bases de données ou« Lac de données »
Outils de consultation et de traitement des métadonnées documentaires et
matérielles : Notilus
Acquisition des données et des matériels
Outils et bases de Gestion Clients
(InaMédiapro, Ina.fr)
Bases de consultation
(PCM, Inathèque)
Outils et bases de Gestion Clients
(Workflow Radio & TV, Gescom, InaMédiapro,
Ina.fr)
Outils et bases
Juridiques
(Adaje, Aida)JuridiqueCommercial Externe Automatique
37
Acquisition des données et des matériels
NEVA
Un modèle de données et des outils pour les collections de l'Ina
Trajectoire DDCOL
38Médias Métadonnées
Un nouvel outil de traitement des Collections : Notilus
39Un modèle de données et des outils pour les collections de l'Ina
40Un modèle de données et des outils pour les collections de l'Ina
11
22
33
Recherche simple
Liste de résultats
Détails du document
44 Player
55 Recherche avancée
66 Dernières recherches, recherches sauvegardées
Présentation de Notilus
Ecran d’accueil de Notilus
Bandeau supérieur : modules/sous-modules, fil d’Ariane
Onglets Recherches et HistoriquesRecherche de Documents ou Matériels
Pé
rim
ètr
e d
e r
ec
he
rch
e :
me
dia
s,
usa
ge
s
Recherche simple
Recherche avancée : type de document, critères, requêtes
Accès messagerieBouton « Retour en haut de page »
Merci pour votre écoute !!
Des questions ??