Le crowdsourcing à la BnF, est-ce correct ?
-
Upload
associationaf -
Category
Technology
-
view
2.272 -
download
1
Transcript of Le crowdsourcing à la BnF, est-ce correct ?
1
Le crowdsourcing à la BnF,
est-ce ?
Bilan d’une plate-forme de correction collaborative
Jean-Baptiste Vaisman
Service Numérisation
Bibliothèque nationale de France
Une qualité OCR disparate pour un grand volume d’ouvrages numérisés
2
Premier objectif Obtenir la conformité à
l’original en évaluant la
qualité de la
numérisation et en y
apportant les corrections
nécessaires
OCR
2 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
De nouveaux territoires d’usage du document
Recherche d’information en plein texte
Emergence de nouveaux supports
Exigence d’accessibilité étendue
Deuxième objectif
Corriger et enrichir les
documents pour répondre
à ces nouveaux besoins
et ainsi améliorer leur
accès et leur diffusion
3 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Enjeux scientifiques et techniques
Correction
Structure
Enrichissement
Accessibilité
Diffusion
Indexation
-----------------------------------------------------------------------------------
4 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Le projet de recherche FUI 12 Ozalid
Conception de la plateforme collaborative de correction et d’enrichissement de documents numérisés
Crowdsourcing et réseau social
• Le réseau social comme support de la collaboration
Approche par expérimentation
• Gallica : un cadre d’usage opérationnel
Coopération homme-machine enrichie
• Outils d’apprentissage incrémental ou de propagation des actions
5 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Un consortium pluridisciplinaire
– Orange Labs : Coordinateur, architecture, écrit numérique
– BnF : Expérimentation, corpus, animation de réseaux sociaux
– Jamespot : Réseaux Sociaux, crowdsourcing
– Urbilog : Webservices, composants d'interface
– I2S : chaînes de numérisation, études d’industrialisation
– ISEP : Traitement d'image
– INSA Lyon : Traitement d'image
– Université Claude Bernard : apprentissage, analyse d'activité
– Université Paris 8 : Ergonomie, sociologie et accessibilité
6 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Trois modules interconnectés Moteur autocontrôle
Editeur de
correction
Réseau social 7 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Principe de fusion des corrections
Nouvelle référence
du document
• 2 rôles (correcteur et animateur) mais pas de hiérarchie entre les utilisateurs
• Chaque utilisateur travaille sur une version qui lui est propre (épreuve utilisateur). Elle sera fusionnée avec les corrections des autres utilisateurs lors de la génération d’une nouvelle référence.
• La génération d’une nouvelle référence peut entrainer des conflits d’interprétation (ou alternatives) qui sont gérés par des mécanismes de levée de doute.
Gr A Gr B
p8
p23
p37 p8
p56
p12
Fusion
approuve
approuva
Levée de doute
x
Document de référence
8 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Comment motiver les usagers à contribuer à un projet de crowdsourcing ?
• Un état de l’art des projets de crowdsourcing a mis en lumière trois enjeux pour leur réussite :
– Recrutement : comment faire connaître le projet, comment faire venir des contributeurs potentiels ?
– Motivation / adhésion : comment convaincre l’usager de contribuer ?
– Animation / cohésion : comment maintenir l’implication des usagers, les convaincre de devenir des contributeurs réguliers ?
Pauline Moirez, Jean-Philippe Moreux et Isabelle Josse, Etat de l’art en matière de crowdsourcing dans les bibliothèques numériques, 02/2013, disponible en ligne : http://www.bnf.fr/documents/crowdsourcing_rapport.pdf
9 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Une plateforme au croisement du participatif et du collaboratif
• Accueillir tous les types de contributeurs – Des interfaces intuitives pour une prise en main facile – Permettre de participer en mode anonyme
• Le réseau social comme levier du crowdsourcing
– Susciter l’émulation par la collaboration – Créer du lien entre les contributeurs en développant la socialisation
par affinités
• Permettre aux utilisateurs de s’emparer de la plateforme
– Offrir des fonctionnalités de discussion pour faciliter les échanges entre contributeurs
– Permettre à tout correcteur de devenir animateur d’un groupe de correction
10 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Identifier les leviers de motivation
les statistiques d'usages de Gallica
les usages de documents de Gallica constatés sur le web
les usages possibles
Documents les plus consultés ou téléchargés Sciences occultes
Collection "Patrie"
Cuisine & gastronomie
Témoins de la Grande Guerre
Romans d’anticipation
Collection "Crimes et châtiments"
Contes d’ici et d’ailleurs
Voyage à Paris
Les jeux
11 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Une communication ciblée et récurrente
Lancement par les réseaux sociaux Gallica
Billet général de présentation de Correct sur le blog Gallica sur la page Facebook
Tweet général et tweets ciblés auprès des comptes de communautés identifiées
Communication thématique et évènementielle
Communication thématique sur un corpus ou un sujet d’actualité
En prévision : Atelier de correction événementiel (on-line ou en présentiel) autour d’un document ou d’un corpus
Témoins de la Grande Guerre
12 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
2012-2013 2013-2014 2014-2015
RECHERCHE / PROTOTYPE
Mener en parallèle recherche et expérimentation
13
EXPERIMENTATION
Expérimentation 3 Observation continue
des activités de la
plateforme
Réalisation d’une
étude d’usage
Expérimentation 1 En avril 2013 ,
expérimentation du
1er prototype de
l’éditeur de correction
Expérimentation 2 Le 19 juin à La BnF,
expérimentation en
réseau, réalisée
simultanément à
distance et à la BnF
Editeur de correction Module réseau social Ouverture de Correct
13 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
1ère expérimentation : 17-19 avril 2013 Observation des comportements en situation de correction
14
Les 17, 18, 19 avril 2013, à la BU de Paris 8 24 personnes (dont 2 personnes en difficulté de lire) ont testé notre application sur PC en entretien filmé d’1heure.
14 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
2ème expérimentation : le 19 juin 2013 Observation des activités en réseau
Jeu de rôle pour simuler la collaboration en réseau • Des testeurs :
o En présentiel : 10 personnes réunies dans une salle de formation
o A distance : 22 personnes inscrites préalablement
• Des compères : 1 administrateur, 3 animateurs, 3 correcteurs complices
• Des observateurs : 4 expérimentateurs pour suivre l’activité de l’administrateur et des animateurs, 2 maraudeurs pour observer les correcteurs en présentiel
15 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
24 novembre 2014 : ouverture de la plateforme correct Expérimentation en conditions réelles
16
www.reseau-correct.fr
16 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Premiers résultats (03/2015)
• Trois semaines après le lancement de Correct, un peu plus de 500 correcteurs inscrits et plus de 200 connexions en anonyme
• A la fin de l’expérimentation, sur 64 documents, 1 322 674 mots corrigés pour 5 746 pages corrigées (1/3 du nombre total de pages mises à disposition)
• Très bonnes audiences sur certains documents (74 correcteurs pour un même document)
• 6 à 10 personnes revenaient chaque jour
• Réseau social :
– plus de 300 articles et plus de 200 commentaires
– 22 groupes formés dont 18 pour la correction et 4 groupes d’information pratique
17 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Réalisation d’une étude d’usage
• Analyse des indicateurs quantitatifs relatifs à l’usage de la plateforme (11/2014-01/2015)
• Une enquête en ligne auprès des utilisateurs de Correct (01/2015) : 159 réponses dont 59 sans avoir testé la plateforme
• 4 focus group : entretiens collectifs organisés à la BnF (02/2015, 31 participants)
• Recueil de carnets d’activité des correcteurs les plus actifs
18
Etude d’usage réalisée par le Bureau Van Dijk et disponible en ligne : http://www.bnf.fr/documents/correct_etude_usages.pdf
18 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Quelques chiffres sur les corrections
• Les 3 documents avec le plus grand nombre de correcteurs :
19 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Document Collection Nombre de correcteurs inscrits
Contes populaires du Cambodge, du Laos et du Siam, d’Auguste Pavie, édition de 1903
Contes d’ici et d’ailleurs
49
Impressions de guerre : extraits du Journal de route d’un caporal du 153e régiment d’infanterie, édition de 1917
Témoins de la Grande Guerre
36
Le viandier, de Guillaume Tirel dit Taillevent, édition de 1892
Cuisine & gastronomie
20
Quelques chiffres sur les corrections
• Les 2 collections les plus corrigées :
20
Collection Part des visites Taux moyen de correction des documents de la
collection
Romans d’anticipation
22 % 68 %
Témoins de la Grande Guerre
19 % 54 %
En comparaison
Contes d’ici et d’ailleurs
19 % 31 %
20 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Quelques chiffres sur les corrections
• Les 4 collections avec le taux de correction le plus élevé (> 60 %, sur la base de leurs 4 documents les plus corrigés) :
Collection Taux moyen de correction des documents de la collection
Commentaire
Crimes et châtiments 69 % Plus grand nombre de corrections/correcteurs
Romans d’anticipation 68 % Plus grand nombre de corrections
Sciences occultes 63 % Plus grand nombre de pages corrigées
Contes d’ici et d’ailleurs 62 % Plus grand nombre de correcteurs inscrits sur un document (49)
21 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Portrait-robot d’un Correcteur
• Une personne active (78 % des utilisateurs)
• Travaillant dans la culture mais pas seulement (30 % dans autres métiers)
• Qui peut avoir – entre 18 et 35 ans (37%),
– 36 et 50 ans (32 %)
– entre 51 et 70 ans (26 %)
22 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Portrait-robot d’un Correcteur
• Un utilisateur de Gallica + Aimant la lecture et les services en
ligne + Curieux de découvrir ou d’enrichir
ses connaissances sur un thème qui l’intéresse (principal facteur de choix du document corrigé)
+ Peut être actif jusqu’au 24/12 à 16h
• Les 10 utilisateurs les plus actifs ont réalisé près de 50 % des corrections (minimum de 10 000 chacun)
23 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Principaux résultats de l’étude d’usage
• Des attentes d’amélioration d’interface des outils ou du réseau social mais un potentiel reconnu
• Une attente des utilisateurs pour participer à l’amélioration du contenu
• Une activité plutôt solitaire même si le réseau social est vu comme un atout pour l’animation
• De nouveaux documents entraîne la participation des utilisateurs
• Souhait d’enrichir les documents
24 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
« Le projet Correct doit être maintenu. Si je peux faire quelque chose pour qu’il perdure je le ferai.
Le projet est formidable. C’est important ! »
Conclusion
25 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016
Merci de votre attention
26 30 mars 2016 Le crowdsourcing à la BnF, est-ce Correct ? – Forum des archivistes 2016