IRCOM : Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS

35
IRCOM : Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS

description

IRCOM : Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS. 1. Présentation Générale. Présentation. L’Infrastructure de Recherche CORPUS http://www.corpus-ir.fr/ Créée en 2011, elle vient compléter les 3 autres infrastructures SHS déjà mises en place : - PowerPoint PPT Presentation

Transcript of IRCOM : Consortium Corpus Oraux et Multimodaux de l’IR-CORPUS

Page 1: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

IRCOM :Consortium Corpus Oraux et Multimodaux

de l’IR-CORPUS

Page 2: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

1. Présentation Générale

2

Page 3: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Présentation

Objectifs généraux de l’IR CORPUS: Création de consortiums disciplinaires ou thématiques qui s’accordent sur les méthodologies de sauvegarde et de partage des données numériques autour d’objets numériques identifiés. Création de réservoirs de données numériques des consortiums

L’Infrastructure de Recherche CORPUS http://www.corpus-ir.fr/

Créée en 2011, elle vient compléter les 3 autres infrastructures SHS déjà mises en place : Adonis : accès unifié aux données (moteur de recherche généralisé) + services divers Progedo : gestion et réservoirs des données sociales « quantitatives » BSN : bibliothèque scientifique numérique

3

Page 4: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Contexte 1/2

Les données dites « qualitatives » produites par les Sciences Humaines et Sociales se trouvent confrontées à trois problèmes majeurs :

1)   Leur exploitation est limitée et insuffisante car leur accès est difficile, sinon impossible.

2)   Les départs massifs à la retraite dans les années qui viennent risquent de faire disparaître un patrimoine scientifique et humain considérable. Il est urgent de prendre des mesures afin que les nouvelles générations de chercheurs développent une conscience et des pratiques solides à l'égard de ces problèmes.

3)   De manière générale, les données françaises ont une présence insuffisante et un trop faible degré d'interopérabilité avec nos partenaires internationaux.

Lorsque nous parlons de données dites « qualitatives », nous entendons par cela tout type d'information qui ne peut s'exprimer directement en termes mesurables ou quantifiables. Les supports des données « qualitatives » sont les carnets de terrain, les manuscrits, les photographies, les croquis et dessins, les cartes, les enregistrements sonores, les rush de films, etc. Ils peuvent être classés selon trois types : les textes, les images et les sons.

4

Page 5: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Contexte 2/2

Trois mesures générales sont nécessaires afin de répondre à ces problèmes

1) La sensibilisation de la communauté scientifique aux risques de perte d'un patrimoine scientifique et humain inestimable et à la nécessité de procéder à des sauvegardes coordonnées de ces données.

2) La définition, l'application et le suivi de procédés d'enregistrement, de stockage et d'archivage numériques qui assurent l'accessibilité aux données et leur pérennisation. Sans déposséder les chercheurs, Ces pratiques permettent le partage et la mise en réseau de l'information et engendrent de réelles plus-values scientifiques.

3) L'application concrète de ces procédés par le biais de la coordination de communautés scientifiques.

L'infrastructure CORPUS (IR Corpus) a comme objectif de répondre à ces trois mesures, avec un accent particulier sur la troisième. La première et la seconde mesure sont prises en charge en coopération avec l'infrastructure du TGE ADONIS.

5

Page 6: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Missions de l'IR-CORPUS

CORPUS assure des missions de labellisation, de suivi et de soutien financier à des consortiums qui sont constitués d'unités et d'équipes de recherche de tous types d'établissements publics. Ces derniers répondent à un cahier des charges validé par un conseil scientifique et par le comité de pilotage. Ces consortiums ont vocation à identifier, acquérir, diffuser, promouvoir et préserver les données produites par les chercheurs. Ainsi, CORPUS intervient :

- En lien étroit avec les communautés scientifiques pour fédérer les initiatives, aider à la mise en commun des sources, encourager leur diffusion par une présentation et l'utilisation de normes adaptées et ainsi leur réutilisation et enrichissement.

- Pour soutenir la mise en relation des projets français avec les projets internationaux.

Les Consortiums peuvent être labellisés pour 4 ans. Le financement apporté par CORPUS est réservé au volet numérisation et documentation des corpus, ainsi qu'à la coordination des consortiums ; il vient en complément des financements des laboratoires et en appui aux projets de recherche concernés.

6

Page 7: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Les consortiums

Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM)Labellisé en Juillet 2011 Consortium anthropologique « Consortium Archive des ethnologues »Labellisé en Juillet 2011Consortium linguistique « Corpus Écrits »Labellisé en Septembre 2011Consortium littérature et philosophie « CAHIER »Labellisé en Septembre 2011

Planning de la création des consortiums (indicatif seulement)

7

Page 8: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le comité de pilotage de l'IR-CORPUS

8

Page 9: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le comité de pilotage de l'IR-CORPUS

9

Participants statutaires :Représentant MESRReprésentant MCC

Représentant INSHSReprésentant UPReprésentant CS de Corpus

 Participants invités :Représentant MSHReprésentant CRNReprésentant TGE AdonisReprésentant ESFRI SHSReprésentant ANRReprésentant BNFReprésentant DGLFLFReprésentant CORPUS IR

Page 10: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le conseil scientifique de l'IR-CORPUSConstitution et fonctionnement

Le conseil scientifique (en cours de constitution) sera composé de 10 à 12 personnalités nationales et internationales reconnues dans les domaines des digital humanities, de la patrimonialisation ou dans celui des sciences humaines et sociales.

Le conseil scientifique propose des priorités scientifiques et des schémas d’évolution des actions de l’IR Corpus et des Consortiums.

Il constitue une liste d’experts scientifiques chargés d’évaluer les projets des Consortiums de Corpus.

Le conseil scientifique élit un président parmi ses pairs qui le représentera dans le comité de pilotage.

Le conseil scientifique se réunit au moins 2 fois par an, en amont à la réunion du comité de pilotage. Le président du conseil scientifique rapporte les délibérations du conseil scientifique au comité de pilotage.

10

Page 11: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Création du Consortium (bref historique)

Une initiative du Ministère de la Recherche Sollicitation de Laurent Dousset à partir des manifestations d’intérêt sur la

liste IR-Corpus Répartition en 2 consortiums pour la linguistique :

(1) oral & multimodal (2) écrit Constitution d’un pré-comité de pilotage La fédération TUL est désignée pour porter le consortium Soumission dans l’urgence d’un projet proposant un comité de pilotage, un

programme scientifique et un budget prévisionnel pour validation par l’IR-Corpus

Labellisation

11

Page 12: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le Consortium : présentation

Une structure ouverte :Le consortium n’a pas de contours prédéfinis (pas de numerus clausus)Pas d’exclusivité : un même individu peut appartenir aux 2 consortiumsPas d’adhésion formelle requise

12

Page 13: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le budget

Une dotation de 50 000 €

13

Page 14: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le Comité de Pilotage Martine Adda-Decker (LPP – UMR 7018 – Université Paris III) Gabriel Bergounioux (LLL - EA 3850 - Université d'Orléans - Université de Tours) Philippe Blache (LPL - UMR 6057 - Université Aix Marseille) Carole Etienne (ICAR - UMR 5191 - Université Lumière Lyon 2) Maya Hickmann (SFL - UMR 7023 - Université Paris VIII) Harriet Jisa (DDL - UMR 5596 - Université de Lyon II) Amina Mettouchi (LLACAN - UMR8135 - EPHE) Boyd Michailovsky (LACITO – UMR 7107 – Université de Paris II et IV)

Christophe Parisse (Modyco - UMR7114 - Université Paris Ouest Nanterre La Défense)

Stéphane Robert (Fédération TUL - FR 2559) – porteur du consortium

14

Page 15: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le Conseil Scientifique Missions du Conseil Scientifique : conseiller et orienter le CP,

concevoir des actions à long terme Fonctionnement : une réunion annuelle du CS, limitée aux

thèmes de réflexion traités dans l’année en cours Principes d’éligibilité: jusqu’à env. 40 personnes assurant une

représentativité à deux niveaux – les institutions et laboratoires, ainsi que les types de corpus et connaissances des problèmes spécifiques à envisager

modalités de candidature: formulaireAdresse: http://www.typologie.cnrs.fr/spip.php?rubrique5

15

Page 16: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

2. Actions envisagées en 2011

16

Page 17: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Actions de mutualisation de l’information

Le recensement des corpus existants et des besoins en vue d’un soutien technique/financier dès 2012 aux producteurs de corpus

La mise en ligne d’un site internet et la mise en place d’une veille scientifique

L’organisation d’une journée de concertation avec la communauté

17

Page 18: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le recensement des corpus existants (1/2)

Prise en compte des précédents inventaires Inventaire des corpus oraux - Projet DGLFLF - Paul

CAPPEAU (et Magali SEIJIDO)

Nom du corpus, Nom du Laboratoire, Responsable, Média , L'accès aux données, Enregistrements, Transcriptions, Publications, Contacts

Rapport sur les corpus oraux sonores en SHS par ADONIS Séverine Guillaume et Mathilde Schmitt (Lacito)

enquête et liste des unités contactées, projets en cours, banque de données existantes

18

Page 19: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Le recensement des corpus existants (2/2)

Inventaire plus précis des corpus oraux

• volume de données par thématique, par langue, par projet au sein du laboratoire

• nombre de personnes impliquées dans l'activité "corpus oraux"

• volume de données décrites, numérisées, transcrites (logiciel, vérifiées), annotées (nature), traduites, informatisées, en ligne, archivées

• nature des supports , format, compression, qualité

• droits d'accès, anonymisation19

Page 20: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Veille scientifique

Identifier les principales ressources déjà disponibles Les ressources Adonis Les ressources européennes comme ELDP ou DoBes Les ressources produites par les projets (ANR, …) Les standards (Dublin Core, Olac, Tei, Isle, Clarin, …) Les guides des bonnes pratiques

Lister les appels à projets

20

Page 21: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Veille scientifique

A partir des ressources déjà disponibles, proposer de nouvelles ressources

un glossaire Pour chaque standard, expliciter les catégories avec

plusieurs exemples choisis dans différentes thématiques construire des guides de bonnes pratiques en ligne pour

• enregistrer des données, numériser, compresser• décrire un corpus• transcrire, annoter, traduire, anonymiser• sauvegarder, archiver

donc partager ...

21

Page 22: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Groupes de travail

corpus linguistiques et finalités scientifiques interopérabilité corpus multilingues et corpus plurilingues multimodalité, codage des gestes questions juridiques, droits des personnes et des

producteurs de corpus (y compris le cas des langues peu décrites, des corpus recueillis sur d’autres continents, dans d’autres cultures)

22

Page 23: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Formations

Le soutien à l'école thématique sur l'annotation de données langagières.

L’intégralité des interventions a été filmée et celles-ci seront consultables en ligne

Organisation de formation(s)Première manifestation :

« Les outils d’annotations de corpus : CLAN, ELAN, ELAN-CorpA » (novembre-décembre 2011)

Christophe Parisse & Amina Mettouchi

…/…

23

Page 24: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Formation 1 : « Les outils d’annotations de corpus » Formation à CLAN

le 30 novembre 2011 – formation débutants description segmentation alignement formats utilisables

le14 décembre 2011 – formation avancée fouille importation – exportation commandes outils son – lien avec Praat conversion et alignement d’anciens corpus

24

Page 25: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Formation 1 : « Les outils d’annotations de corpus »

Formation à ELAN le 1 décembre 2011 – formation débutants

description de Elan les bases de la transcription manipuler Elan structurer des transcriptions

le 15 décembre 2011 – formation avancées outils automatiques fouille de corpus conversion exportations – interface avec d’autres outils

25

Page 26: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Formation 1 : « Les outils d’annotations de corpus »

Formation à Elan-CorpA (session organisée par Amina Mettouchi le 6 décembre 2011- date à confirmer)

Elan-CorpA est un module développé à partir du logiciel ELAN du Max Planck Institut de Nijmegen. Ce module est adapté à l’annotation de langues peu décrites.

Il est disponible au téléchargement à cette adresse :

http://corpafroas.tge-adonis.fr

26

Page 27: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Formation 1 : « Les outils d’annotations de corpus »

Formation à Elan-CorpA (session organisée par Amina Mettouchi le 6 décembre 2011- date à confirmer)

Matinée : présentation et prise en main de ELAN-CorpA

Segmentation d'un fichier sonore (apporté par chaque participant),

Paramétrage de ELAN Annotation par le lexique (lexique vierge ou importé de Toolbox) Requêtes

27

Page 28: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Formation 1 : « Les outils d’annotations de corpus »

Formation à Elan-CorpA (session organisée par Amina Mettouchi le 6 décembre 2011- date à confirmer)

Après-midi : segmentation et transcription de l'extrait sonore sous Praat son importation dans ELAN-CorpA

et pour ceux qui ont des annotations Toolbox correspondant à un fichier : importation dans ELAN synchronisation temporelle

28

Page 29: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

3. Actions 2012-2014

29

Page 30: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Aide à des actions ciblées sur corpus

Mise à niveau Aide technique Fonctionnement par appels d’offre Faible dotation, soutien financier nécessairement

modeste

30

Page 31: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Poursuite des Formations

Formations des utilisateurs, éditeurs et créateurs de corpus. Diffusion des standards, des informations sur le bon usage des corpus. Veille technologique.

formations collectives ou formations dans les labos demandeurs ?

Informer les chercheurs sur : les standards d’archivage (par ex : quelles qualités audio ou video sont requises) Les standards de collecte de données (quels matériels utiliser etc) …

Quels formateurs ? Quelles modalités de formation (journées, écoles thématiques, …) ?

31

Page 32: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Thématiques abordées

Numérisation, stockage affichage clair des standards, des techniques et des moyens existants.

Métadonnées généraliser leur usage et les étendre de manière à pouvoir faire des recherches sur la teneur scientifique des données.

Transcriptions  les transcriptions représentent un investissement considérable (bien supérieur à la numérisation), et il faut donc absolument améliorer leur partage, leur diffusion, leur utilisation. Ceci implique notamment un meilleur accord sur les formats utilisés (oral, gestes, multimodal), un accès clair et aisé en téléchargement, en interrogation et en manipulation pour des usages post-transcription initiale.

32

Page 33: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Collaborations européennes

CLARIN ELDP DoBeS …

Quelles collaborations internationales ?

33

Page 34: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Thématiques abordées

Accès aux corpus  les sites permettant d'accéder aux corpus ont pour la plupart des formes et des présentations variées rendant parfois difficile et peu clair l'accès aux corpus, aux transcriptions, aux droits et contraintes des utilisateurs. Une série de propositions de type bon usage et éventuellement un site exemplaire serait nécessaire.

Droits  les types de droits d'accès, clairement définis (licences libres, publiques, privées, limitées, etc.), devraient être mieux présentés et affichés. Ce point est une des questions qui revient le plus souvent chez les producteurs isolés de corpus.

Outils, formats    un travail de formation et de diffusion des outils et des formats auprès de la communauté est nécessaire (écoles, sites de formation, diffusion de matériel pédagogique). Ce travail doit avoir une certaine récurrence et une collaboration avec des universités qui pourraient inscrire ces acquis de connaissance dans leurs cursus (ou qui l’ont déjà fait) serait intéressante.

34

Page 35: IRCOM : Consortium Corpus Oraux et Multimodaux  de l’IR-CORPUS

Thématiques abordées

Utilisation des corpus   les corpus sont nécessaires aujourd'hui en linguistique et pour l'industrie, il faut diffuser et définir les outils qui permettent de s'en servir et d'en tirer parti.

Innovation   dans quel sens doivent évoluer la nature des corpus de langage. Comment prendre en compte de nouvelles données (imagerie cérébrale, résultats d’expérimentation psycholinguistique ou neurolinguistique) ?

Traitements      quels traitements automatiques (ou semi-automatiques) peut-on réaliser sur les corpus pour les enrichir (annotation phonologique, prosodique, syntaxique, analyse d’image fixes ou mobiles) ?

35