Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures...

42
Un modèle de données et des outils pour les collections de l’Ina 21 juin 2019 – Autour de nouvelles pratiques professionnelles et de leurs impacts , ADBS

Transcript of Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures...

Page 1: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Un modèle de données et des outils pour les collections de l’Ina 21 juin 2019 – Autour de nouvelles pratiques professionnelles et de leurs impacts , ADBS

Page 2: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Contexte du projet

2Un modèle de données et des outils pour les collections de l’Ina

Page 3: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les principales missions de l’Ina

3

Conserver

Valoriser

Former

160 chaînes de télé/radio captées 24h/24 7j/750 millions de notices

1,8 millions d’heures numérisées dont 49 000 heures accessibles librement

451 offres de formation continue pour 3500 professionnels/an

14 diplômes universitaires du BTS au Master

Un modèle de données et des outils pour les collections de l’Ina

Page 4: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les collections de l’Ina

4

17,8 millions d’heures de programmes télé et radio

2 millions d’heuresd‘archives profesionnelles

15,8 millions d’heures

Dépôt légal

1,2 millions de photos

3.29 Po d’archives du Web

Un modèle de données et des outils pour les collections de l’Ina

Page 5: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Construire le système d’information de gestion des collections

Totem

Mastock Sumocco

Gestion document

MediaIndex

OGP

InaMediaPro

PCMHyperbase

Dépôt LégalArchives

pro

Notilus

Neva

Outils deconsultation

Lac de données

DL

5Un modèle de données et des outils pour les collections de l’Ina

Page 6: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Quelques constats

6Un modèle de données et des outils pour les collections de l'Ina

Page 7: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Quelques constats

Des bases de données éparpillées

7

• hétérogénéité des technologies de stockage

• difficile à maintenir• nombreux traitements de

synchronisation• pas de maîtrise des données

Un modèle de données et des outils pour les collections de l'Ina

Page 8: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Quelques constats

Des données « silotées »

8

• données très liées à l’applicatif et à son usage

• réutilisation complexe• redondance des métadonnées• problème de responsabilité des

traitements de synchronisation• Difficulté à maintenir une cohérence

transverse des structures de données sur le SI

Un modèle de données et des outils pour les collections de l'Ina

Page 9: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

LES OBJECTIFS DU PROJET

9Un modèle de données et des outils pour les collections de l'Ina

Page 10: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les objectifs poursuivis par le projet

• Maitriser la cohérence des différents ensembles de données

• Simplifier l’exploitation des données• Éviter la redondance des données• Stocker toutes les données quelles que

soient leur nature et leur structure• Assurer la mise en relation des

différents ensembles de données

10

Au niveau des données

Un modèle de données et des outils pour les collections de l'Ina

Page 11: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les objectifs poursuivis par le projet

• S’inscrire dans la logique de la création de la Direction des Collections

• Répondre aux usages actuels et anticiper les usages futurs

• Développer une expertise sur la donnée• Déployer une gouvernance de données

Partager la responsabilité sur la connaissance de la donnée

11

Au niveau métier et organisationnel

Un modèle de données et des outils pour les collections de l'Ina

Page 12: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les objectifs poursuivis par le projet

• Simplifier l’exploitation, la supervision, la maintenance et l’évolution des systèmes de traitement et de stockage de données

• Assurer la haute disponibilité• Intégrer le système au plan de secours

informatique (PSI)• Assurer la montée en charge• Accélérer l’intégration de nouvelles technologies

12

Au niveau technique

Un modèle de données et des outils pour les collections de l'Ina

Page 13: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les lignes directrices

13Un modèle de données et des outils pour les collections de l'Ina

Page 14: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les lignes directrices

14

Séparer fonctionnellement les données des usages

• Repenser les modèles de données par rapport à leur logique et non à leur usage

• Assumer de disposer d’un modèle de données pour la production et le stockage et d’un ou plusieurs modèles de données pour l’exploitation

Un modèle de données et des outils pour les collections de l'Ina

Page 15: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les lignes directrices

15

Intégrer la fouille de textes et de données

• Penser la place et l’usage de ces outils vis-à-vis des professionnels et des usagers

• Penser le lien entre les données générées et les données « traditionnelles »

• Disposer des moyens techniques pour stocker les données générées

Un modèle de données et des outils pour les collections de l'Ina

Page 16: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les lignes directrices

16

Disposer des différentes familles de bases de données

Base de données relationnelles

Base de données document

Base de données graphes

Moteur derecherche

• Beaucoup de lecture/écriture• Données très structurées• Garantie de la transaction

• Peu ou pas de mise à jour• Données semi structurées• Montée en charge sécurisée en

volume de données

• Données très structurées• Inférences sur les données• Respect de la logique des données

• Requête plein texte• Rapidité des réponses• Montée en charge pour le

nombre d’utilisateurs

Un modèle de données et des outils pour les collections de l'Ina

Page 17: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les données

17Un modèle de données et des outils pour les collections de l'Ina

Page 18: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Les différents ensembles de données

18

Donnéeséditoriales

Donnéesde référence

Donnéesd’usage

Donnéesgénérées

automatiquement

Donnéescommerciales

Donnéesjuridiques

Donnéesd’actualités

Donnéesde la recherche

Donnéesdocumentaires et matérielles

Un modèle de données et des outils pour les collections de l'Ina

Page 19: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Des données documentaires et matérielles hétérogènes

Images animées ou sons de natures (très) hétérogènes : journaux télévisés, jeux, retransmissions, magazines, séries, films, publicité, documentaires…

Images fixes : photos, capture d’écran

Documentation écrite : livres sur la télévision, programmes télés (Télérama, Télé 7 jours…), documentations produites par les chaînes (dossier de presse, conducteur…), archives d’émissions ou de personnes physiques issus de dons

Web : Sites Web (pages, images, feuilles de style…), compte twitter, hashtags twitter, compte DailyMotion, YouTube ou Facebook

Matériels : supports physiques : Films, Betacam, VHS, LTO et support numérique natif ou issu de la numérisation : MPEG1, JPEG200…

19Un modèle de données et des outils pour les collections de l'Ina

Page 20: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Des données avec des visions différentes et qui ont évolué en parallèle

20

Le dépôt légalConstituer le reflet du flux diffusé depuis 1995

Les archives professionnellesConstituer une banque de programmes

depuis l’ORTF

Un modèle de données et des outils pour les collections de l'Ina

Page 21: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Des données issues de différentes sources de données

21

France 3 régionsOutremer

Câble/Satellite

Hertzienne « historique »

Radio

Pour mener à bien sa mission, l’Ina est amené à récupérer ou acheter de la donnée à l’extérieur.

Données post-diffusionachetées

Données prévisionnelles

de diffusion

Un modèle de données et des outils pour les collections de l'Ina

Page 22: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Comment mettre au point un nouveau modèle de données ?

22

InteropérabilitéSouplesse Cohérence Provenance

Les enjeux et les points de vigilance

Un modèle de données et des outils pour les collections de l'Ina

Page 23: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Comment mettre au point un nouveau modèle de données ?

23

La méthodologie

Un groupe de 4 personnes du métier et 1 personne de la DSI réuni une à deux fois par semaine depuis quatre ans

Un modèle de données et des outils pour les collections de l'Ina

Page 24: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Comment mettre au point un nouveau modèle de données ?

24

Les modèles d’inspiration et les problèmes qu’ils posent

• Le CIDOC-CRM est un modèle conceptuel et non un modèle d’implémentation

• A-t-on besoin d’autant de complexité ?

CIDOC-CRM

Un modèle de données et des outils pour les collections de l'Ina

Page 25: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Comment mettre au point un nouveau modèle de données ?

25

Les modèles d’inspiration et les problèmes qu’ils posent

FRBR/LRM

EN 15907 Bibframe

• Qu’est-ce-qu’une expression et une manifestation pour un programme diffusé ? Une rediffusion ?

• Quel est le coût humain (et donc économique) de l’œuvre vs son intérêt en termes d’usage ?

Un modèle de données et des outils pour les collections de l'Ina

Page 26: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Le modèle de données

26

Séparer le contenu, de son histoire et de son support

Le contenu correspond au programme en lui-même mais cela peut aussi être une émission de radio, un livre ou une photographie

Le contenu

L’événementL’événement reflète une étape dans la vie du contenu : création, production, diffusion, publication, archivage, numérisation…

Le support

Le support physique ou numérique sur lequel est inscrit le contenu est le produit d’un événement

Un modèle de données et des outils pour les collections de l'Ina

Page 27: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Le modèle de données

27

Faire de la description des entités en tant que telles

Du texte libre Des données contrôlées

• Texte court : identifiant, titre propre, titre de la collection…

• Texte long : résumé, dispositif, notes…• Chiffres : données d’audience, numéro

d’émission, de saison…

• Description du contenu lui-même : genre, thématique, descripteurs, génériques

• Description des particularités du contenu : langue, couleur, origine des images…

• Description des particularités des événements : nature de production, chaîne, nom du producteur

Un modèle de données et des outils pour les collections de l'Ina

Page 28: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Le modèle des contenus/événements/matériels

28Un modèle de données et des outils pour les collections de l'Ina

Concepts gérés par référentiels

Concepts gérés par référentiels

Concepts gérés par référentielsSupports

(analogiques et numériques)

Objets documentaires (émissions de TV/radio, publication, photographie, …)

Evénements (diffusion, production, …) Agents

Page 29: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Le modèle des concepts (inspiré d’ISO 25 964)

29Un modèle de données et des outils pour les collections de l'Ina

Page 30: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Le modèle des textes

30

Lorem ipsum dolor sit amet,

Un modèle de données et des outils pour les collections de l'Ina

Page 31: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Le modèle de données

Un modèle de données unique pour les collections de l'Ina 31

Text

Instance objet

documentaire géré : émission

de TV/radio, publication,

photographie, …

EventItem

Annotation(descripteurs)

Concept

Credit (générique :

agents + rôles)

Label

Title

IdentifierTextual

Annotation

ConceptScheme

Relation

AgentFiliation

Set

Activity

Activity Agent

Segment

Aggregation

Number

31Un modèle de données et des outils pour les collections de l'Ina

Page 32: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Principe de la migration des données

32

Exploration des données

Mise au point des règlesCorrection données

Développement

Validation du dév

Mise au propre des règles

Validation par le métier

Un modèle de données et des outils pour les collections de l'Ina

Page 33: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Evénements de diffusion

Un modèle de données et des outils pour les collections de l'Ina

Le résultat de la migration

Evénement de diffusion

Contenu 1

Titre propre :Brouillard au pont de

Bry

Titre de collection :Les enquêtes du

commissaire Maigret

Résumé : Un crime a été commis dans un petit logement de la

banlieue parisienne…

Générique :REA, Barma, Claude

Date de diffusion : 14/10/1967

Contenu 2

Titre propre : Brouillard au pont

de Bry

Titre de collection : Maigret

Générique :REA, La Patellière,

Denys de

Résumé : Le commissaire Maigret

enquête sur un meurtre

mystérieux…

Titre propre :Brouillard au pont

de Bry

Titre de collection : Maigret

Générique :REA, La

Patellière, Denys de

Résumé : Une jeune fille est

retrouvée morte près du pont de

Bry…

Titre propre :Brouillard au pont

de Bry

Titre de collection : Maigret

Résumé : [vide]

Générique : [vide]

Date de diffusion : 28/10/2003

Date de diffusion : 28/04/1994

Date de diffusion : 10/08/2013

Page 34: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

La trajectoire vers le nouveau SI

34Un modèle de données et des outils pour les collections de l'Ina

Page 35: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

TrajectoireEtape 1 : alimentation du lac de données

Bases Oracle DA[Données documentaires

et matérielles]

Bases de données ou« Lac de données »

JuridiqueCommercial Externe

Bases Oracle DL[Données documentaires

et matérielles]

Outils et bases de Gestion Clients

(InaMédiapro, Ina.fr)

35Un modèle de données et des outils pour les collections de l'Ina

Page 36: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

TrajectoireEtape 2 : Préparer la bascule vers les nouveaux outils

Bases Oracle DA[Données documentaires

et matérielles]

Bases Oracle DL[Données documentaires

et matérielles]

Bases de données ou« Lac de données »

Outils de consultation et de traitement des métadonnées documentaires et

matérielles : Notilus

Outils et bases de Gestion Clients

(InaMédiapro, Ina.fr)

Bases de consultation

(PCM, Inathèque)

Outils et bases de Gestion Clients

(Workflow Radio & TV, Gescom, InaMédiapro,

Ina.fr)

Outils et bases

Juridiques

(Adaje, Aida)JuridiqueCommercial Externe Automatique

36

Acquisition des données et des matériels

NEVA

Un modèle de données et des outils pour les collections de l'Ina

Page 37: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

TrajectoireEtape 3 : Bascule vers les nouveaux outils et finalisation

Bases de données ou« Lac de données »

Outils de consultation et de traitement des métadonnées documentaires et

matérielles : Notilus

Acquisition des données et des matériels

Outils et bases de Gestion Clients

(InaMédiapro, Ina.fr)

Bases de consultation

(PCM, Inathèque)

Outils et bases de Gestion Clients

(Workflow Radio & TV, Gescom, InaMédiapro,

Ina.fr)

Outils et bases

Juridiques

(Adaje, Aida)JuridiqueCommercial Externe Automatique

37

Acquisition des données et des matériels

NEVA

Un modèle de données et des outils pour les collections de l'Ina

Page 38: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Trajectoire DDCOL

38Médias Métadonnées

Page 39: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Un nouvel outil de traitement des Collections : Notilus

39Un modèle de données et des outils pour les collections de l'Ina

Page 40: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

40Un modèle de données et des outils pour les collections de l'Ina

11

22

33

Recherche simple

Liste de résultats

Détails du document

44 Player

55 Recherche avancée

66 Dernières recherches, recherches sauvegardées

Présentation de Notilus

Page 41: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Ecran d’accueil de Notilus

Bandeau supérieur : modules/sous-modules, fil d’Ariane

Onglets Recherches et HistoriquesRecherche de Documents ou Matériels

rim

ètr

e d

e r

ec

he

rch

e :

me

dia

s,

usa

ge

s

Recherche simple

Recherche avancée : type de document, critères, requêtes

Accès messagerieBouton « Retour en haut de page »

Page 42: Un modèle de données et des outils pour les collections de ... · 1,8 millions d’heures numérisées dont 49 000 heures accessibles librement 451 offres de formation continue

Merci pour votre écoute !!

Des questions ??