Le crowdsourcing à la BnF, est-ce correct ?

26
1 Le crowdsourcing à la BnF, est-ce ? Bilan d’une plate-forme de correction collaborative Jean-Baptiste Vaisman Service Numérisation Bibliothèque nationale de France

Transcript of Le crowdsourcing à la BnF, est-ce correct ?

Page 1: Le crowdsourcing à la BnF, est-ce correct ?

1

Le crowdsourcing à la BnF,

est-ce ?

Bilan d’une plate-forme de correction collaborative

Jean-Baptiste Vaisman

Service Numérisation

Bibliothèque nationale de France

Page 2: Le crowdsourcing à la BnF, est-ce correct ?

Une qualité OCR disparate pour un grand volume d’ouvrages numérisés

2

Premier objectif Obtenir la conformité à

l’original en évaluant la

qualité de la

numérisation et en y

apportant les corrections

nécessaires

OCR

2 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 3: Le crowdsourcing à la BnF, est-ce correct ?

De nouveaux territoires d’usage du document

Recherche d’information en plein texte

Emergence de nouveaux supports

Exigence d’accessibilité étendue

Deuxième objectif

Corriger et enrichir les

documents pour répondre

à ces nouveaux besoins

et ainsi améliorer leur

accès et leur diffusion

3 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 4: Le crowdsourcing à la BnF, est-ce correct ?

Enjeux scientifiques et techniques

Correction

Structure

Enrichissement

Accessibilité

Diffusion

Indexation

-----------------------------------------------------------------------------------

4 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 5: Le crowdsourcing à la BnF, est-ce correct ?

Le projet de recherche FUI 12 Ozalid

Conception de la plateforme collaborative de correction et d’enrichissement de documents numérisés

Crowdsourcing et réseau social

• Le réseau social comme support de la collaboration

Approche par expérimentation

• Gallica : un cadre d’usage opérationnel

Coopération homme-machine enrichie

• Outils d’apprentissage incrémental ou de propagation des actions

5 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 6: Le crowdsourcing à la BnF, est-ce correct ?

Un consortium pluridisciplinaire

– Orange Labs : Coordinateur, architecture, écrit numérique

– BnF : Expérimentation, corpus, animation de réseaux sociaux

– Jamespot : Réseaux Sociaux, crowdsourcing

– Urbilog : Webservices, composants d'interface

– I2S : chaînes de numérisation, études d’industrialisation

– ISEP : Traitement d'image

– INSA Lyon : Traitement d'image

– Université Claude Bernard : apprentissage, analyse d'activité

– Université Paris 8 : Ergonomie, sociologie et accessibilité

6 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 7: Le crowdsourcing à la BnF, est-ce correct ?

Trois modules interconnectés Moteur autocontrôle

Editeur de

correction

Réseau social 7 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 8: Le crowdsourcing à la BnF, est-ce correct ?

Principe de fusion des corrections

Nouvelle référence

du document

• 2 rôles (correcteur et animateur) mais pas de hiérarchie entre les utilisateurs

• Chaque utilisateur travaille sur une version qui lui est propre (épreuve utilisateur). Elle sera fusionnée avec les corrections des autres utilisateurs lors de la génération d’une nouvelle référence.

• La génération d’une nouvelle référence peut entrainer des conflits d’interprétation (ou alternatives) qui sont gérés par des mécanismes de levée de doute.

Gr A Gr B

p8

p23

p37 p8

p56

p12

Fusion

approuve

approuva

Levée de doute

x

Document de référence

8 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 9: Le crowdsourcing à la BnF, est-ce correct ?

Comment motiver les usagers à contribuer à un projet de crowdsourcing ?

• Un état de l’art des projets de crowdsourcing a mis en lumière trois enjeux pour leur réussite :

– Recrutement : comment faire connaître le projet, comment faire venir des contributeurs potentiels ?

– Motivation / adhésion : comment convaincre l’usager de contribuer ?

– Animation / cohésion : comment maintenir l’implication des usagers, les convaincre de devenir des contributeurs réguliers ?

Pauline Moirez, Jean-Philippe Moreux et Isabelle Josse, Etat de l’art en matière de crowdsourcing dans les bibliothèques numériques, 02/2013, disponible en ligne : http://www.bnf.fr/documents/crowdsourcing_rapport.pdf

9 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 10: Le crowdsourcing à la BnF, est-ce correct ?

Une plateforme au croisement du participatif et du collaboratif

• Accueillir tous les types de contributeurs – Des interfaces intuitives pour une prise en main facile – Permettre de participer en mode anonyme

• Le réseau social comme levier du crowdsourcing

– Susciter l’émulation par la collaboration – Créer du lien entre les contributeurs en développant la socialisation

par affinités

• Permettre aux utilisateurs de s’emparer de la plateforme

– Offrir des fonctionnalités de discussion pour faciliter les échanges entre contributeurs

– Permettre à tout correcteur de devenir animateur d’un groupe de correction

10 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 11: Le crowdsourcing à la BnF, est-ce correct ?

Identifier les leviers de motivation

les statistiques d'usages de Gallica

les usages de documents de Gallica constatés sur le web

les usages possibles

Documents les plus consultés ou téléchargés Sciences occultes

Collection "Patrie"

Cuisine & gastronomie

Témoins de la Grande Guerre

Romans d’anticipation

Collection "Crimes et châtiments"

Contes d’ici et d’ailleurs

Voyage à Paris

Les jeux

11 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 12: Le crowdsourcing à la BnF, est-ce correct ?

Une communication ciblée et récurrente

Lancement par les réseaux sociaux Gallica

Billet général de présentation de Correct sur le blog Gallica sur la page Facebook

Tweet général et tweets ciblés auprès des comptes de communautés identifiées

Communication thématique et évènementielle

Communication thématique sur un corpus ou un sujet d’actualité

En prévision : Atelier de correction événementiel (on-line ou en présentiel) autour d’un document ou d’un corpus

Témoins de la Grande Guerre

12 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 13: Le crowdsourcing à la BnF, est-ce correct ?

2012-2013 2013-2014 2014-2015

RECHERCHE / PROTOTYPE

Mener en parallèle recherche et expérimentation

13

EXPERIMENTATION

Expérimentation 3 Observation continue

des activités de la

plateforme

Réalisation d’une

étude d’usage

Expérimentation 1 En avril 2013 ,

expérimentation du

1er prototype de

l’éditeur de correction

Expérimentation 2 Le 19 juin à La BnF,

expérimentation en

réseau, réalisée

simultanément à

distance et à la BnF

Editeur de correction Module réseau social Ouverture de Correct

13 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 14: Le crowdsourcing à la BnF, est-ce correct ?

1ère expérimentation : 17-19 avril 2013 Observation des comportements en situation de correction

14

Les 17, 18, 19 avril 2013, à la BU de Paris 8 24 personnes (dont 2 personnes en difficulté de lire) ont testé notre application sur PC en entretien filmé d’1heure.

14 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 15: Le crowdsourcing à la BnF, est-ce correct ?

2ème expérimentation : le 19 juin 2013 Observation des activités en réseau

Jeu de rôle pour simuler la collaboration en réseau • Des testeurs :

o En présentiel : 10 personnes réunies dans une salle de formation

o A distance : 22 personnes inscrites préalablement

• Des compères : 1 administrateur, 3 animateurs, 3 correcteurs complices

• Des observateurs : 4 expérimentateurs pour suivre l’activité de l’administrateur et des animateurs, 2 maraudeurs pour observer les correcteurs en présentiel

15 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 16: Le crowdsourcing à la BnF, est-ce correct ?

24 novembre 2014 : ouverture de la plateforme correct Expérimentation en conditions réelles

16

www.reseau-correct.fr

16 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 17: Le crowdsourcing à la BnF, est-ce correct ?

Premiers résultats (03/2015)

• Trois semaines après le lancement de Correct, un peu plus de 500 correcteurs inscrits et plus de 200 connexions en anonyme

• A la fin de l’expérimentation, sur 64 documents, 1 322 674 mots corrigés pour 5 746 pages corrigées (1/3 du nombre total de pages mises à disposition)

• Très bonnes audiences sur certains documents (74 correcteurs pour un même document)

• 6 à 10 personnes revenaient chaque jour

• Réseau social :

– plus de 300 articles et plus de 200 commentaires

– 22 groupes formés dont 18 pour la correction et 4 groupes d’information pratique

17 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 18: Le crowdsourcing à la BnF, est-ce correct ?

Réalisation d’une étude d’usage

• Analyse des indicateurs quantitatifs relatifs à l’usage de la plateforme (11/2014-01/2015)

• Une enquête en ligne auprès des utilisateurs de Correct (01/2015) : 159 réponses dont 59 sans avoir testé la plateforme

• 4 focus group : entretiens collectifs organisés à la BnF (02/2015, 31 participants)

• Recueil de carnets d’activité des correcteurs les plus actifs

18

Etude d’usage réalisée par le Bureau Van Dijk et disponible en ligne : http://www.bnf.fr/documents/correct_etude_usages.pdf

18 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 19: Le crowdsourcing à la BnF, est-ce correct ?

Quelques chiffres sur les corrections

• Les 3 documents avec le plus grand nombre de correcteurs :

19 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Document Collection Nombre de correcteurs inscrits

Contes populaires du Cambodge, du Laos et du Siam, d’Auguste Pavie, édition de 1903

Contes d’ici et d’ailleurs

49

Impressions de guerre : extraits du Journal de route d’un caporal du 153e régiment d’infanterie, édition de 1917

Témoins de la Grande Guerre

36

Le viandier, de Guillaume Tirel dit Taillevent, édition de 1892

Cuisine & gastronomie

20

Page 20: Le crowdsourcing à la BnF, est-ce correct ?

Quelques chiffres sur les corrections

• Les 2 collections les plus corrigées :

20

Collection Part des visites Taux moyen de correction des documents de la

collection

Romans d’anticipation

22 % 68 %

Témoins de la Grande Guerre

19 % 54 %

En comparaison

Contes d’ici et d’ailleurs

19 % 31 %

20 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 21: Le crowdsourcing à la BnF, est-ce correct ?

Quelques chiffres sur les corrections

• Les 4 collections avec le taux de correction le plus élevé (> 60 %, sur la base de leurs 4 documents les plus corrigés) :

Collection Taux moyen de correction des documents de la collection

Commentaire

Crimes et châtiments 69 % Plus grand nombre de corrections/correcteurs

Romans d’anticipation 68 % Plus grand nombre de corrections

Sciences occultes 63 % Plus grand nombre de pages corrigées

Contes d’ici et d’ailleurs 62 % Plus grand nombre de correcteurs inscrits sur un document (49)

21 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 22: Le crowdsourcing à la BnF, est-ce correct ?

Portrait-robot d’un Correcteur

• Une personne active (78 % des utilisateurs)

• Travaillant dans la culture mais pas seulement (30 % dans autres métiers)

• Qui peut avoir – entre 18 et 35 ans (37%),

– 36 et 50 ans (32 %)

– entre 51 et 70 ans (26 %)

22 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 23: Le crowdsourcing à la BnF, est-ce correct ?

Portrait-robot d’un Correcteur

• Un utilisateur de Gallica + Aimant la lecture et les services en

ligne + Curieux de découvrir ou d’enrichir

ses connaissances sur un thème qui l’intéresse (principal facteur de choix du document corrigé)

+ Peut être actif jusqu’au 24/12 à 16h

• Les 10 utilisateurs les plus actifs ont réalisé près de 50 % des corrections (minimum de 10 000 chacun)

23 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 24: Le crowdsourcing à la BnF, est-ce correct ?

Principaux résultats de l’étude d’usage

• Des attentes d’amélioration d’interface des outils ou du réseau social mais un potentiel reconnu

• Une attente des utilisateurs pour participer à l’amélioration du contenu

• Une activité plutôt solitaire même si le réseau social est vu comme un atout pour l’animation

• De nouveaux documents entraîne la participation des utilisateurs

• Souhait d’enrichir les documents

24 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 25: Le crowdsourcing à la BnF, est-ce correct ?

« Le projet Correct doit être maintenu. Si je peux faire quelque chose pour qu’il perdure je le ferai.

Le projet est formidable. C’est important ! »

Conclusion

25 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016

Page 26: Le crowdsourcing à la BnF, est-ce correct ?

Merci de votre attention

[email protected]

26 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016