Post on 03-Apr-2015
Anonymisation semi-automatique de corpus d’interactions
Éléments pour une méthode interactive
C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3
1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada
3 GREYC, Université Caen Basse-Normandie, CNRS
Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 2
Le fil conducteur
• Introduction– Contexte, problématique– Les 2 Corpus traités – Anonymiser : définitions, exemples
• Le processus d’anonymisation– Marquage– Fouille– Substitution
• Bilan de l’application aux 2 corpus• Perspective
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 3
Introduction
• Partage de données en recherche– Mulce : "Repository" de Corpus multimodaux
d’enseignement et d’apprentissage– Calico : "Repository" + Outils d’analyse de
Forums, Blogs, etc.
• Données personnelles non partageables Anonymisation nécessaire• Corpus d’interaction = Gros volumes Besoin de méthode et d’outils
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 4
Anonymiser : pourquoi ?
• Obligation légale (selon les pays) : – En France : CNIL, – Directives de la Commission Européenne– Canada : comités éthiques
• Déontologie de la recherche– Protéger les données perso. des participants– Gagner leur confiance – Mieux garantir l’indépendance
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 5
Anonymiser : le « quoi »
• Cacher les données personnelles– Noms (prénoms, patronymes, noms utilisateurs, …)– Identifiants (N°Passeport, N°Etudiant, N°INSEE, …)– Lieux (villes, rues, adresse, coordonnées)– Institution (école, club, entreprise, …)– Références de contacts (e-mail, mobile, MSN, skype,
twitter, téléphone/fax, …)– Références explicites (URL page perso, blogs)– Noms d’utilisateurs de média sociaux (facebook,
MySpace, Hi5, Soundcloud, Badoo, Friendster, …)
• Et maintenir cohérence et consistance du texte
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 6
2 corpus
Nomades (1) Pgm Court (2)
Durée 3,5 mois 5 mois
Outils Galanet Knowledge F.
Niveau Format°Langues
1ère (Lycée) fr, it, es, br
Masterfr (qc)
Participants2 tuteurs,101 élèves
1 tuteur7 étudiants
Taille : 915 messages46 825 graphiesLexique : 9 652
203 messages41 317 graphies
Lexique : 4 900
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 7
Ex: Données personnelles• {2011-11-30T19:24 Gabibr Re: Quelques informations ...}
“Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS.”
• {2011-12-27T09:25 Miche Re: Les stéréotypes culinaires answers} “inviate i vostri documenti alla mia mail mikinessi@yahoo.it grazie!!!;)”
• {2011-10-22T19:52 PBS Re: Por que me chamo assim?! } “Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia”
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 8
En cherchant sur la toile…
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 9
Peimikà Bibiana… suite
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 10
Anonymisation
Contraintes:1. Toute référence (ex: nom, lieu, etc.) doit être
suffisamment imprécise pour englober plusieurs centaines de personnes.
2. Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée.
3. Conserver le maximum de dépendances sémantiques et culturelle.
Dans un corpus anonymisé, aucun participant ne doit être identifiable
par une personne externe
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 11
Comment rendre anonyme ?
• Une info (isolée) => 100+ personnes
• Faisceau d’infos combinées => 7+ pers.
• Penser aux sources externes…
« Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans
le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. »
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 12
Anonymisation• Avant :
{2011-10-17T08:22 KellyM Re: Qui sommes- nous? }Bonjour, je m'appelle Kellly. J'ai 16 ans, je suis une élève
en 1ère S dans le lycée Rosa Luxemburg à Canet, non loin de Perpignan…
• Après:{2011-10-17T08:22 FLG01 Re: Qui sommes- nous? }
Bonjour, je m'appelle Kittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Margherita Duras* à Aigues-Vives*, non loin de Perpignan…
Avant Après
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 13
Quelques difficultés
• Synonymie ou altérations lexicalesExemple : Venise– Erreurs de typo: Verise, Venize…– Multilinguisme : Venizia, Venice, …
• Homonymie :
«Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels
Urbains). Elle fréquente assidument l’hippodrome de Longchamp à côté de Paris. »
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 14
Processus d’Anonymisation
Corpus àanonymiser
Corpus avec entités
marquées
Table de transformation des entités nomméesListe initiale
participants,login,institution…
Détection de nouvellesgraphies
Marquage
Corpus Anonymisé
Substitution
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 15
Table de transformation : exemple
Synonymes : 2 graphies différentes représentent la même entité nommée
=≠
Homonymes: La même graphie représente différentes entités
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 16
Marquage : Exemple (Kelly)A - Le concordanceur donne le contexte de chaque occurrence
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 17
Marquage: Exemple (Kelly)
+
B – Ajouter “Gene Kelly” comme personne publique dans la table
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 18
Marquage : Exemple (Kelly)
C- Associer chaque graphie à l’entité correspondante
Patronyme, forme normale, inchangéereprésente la célébrité Gene Kelly
Prénom, forme normale, à changer :représente le participant KellyM
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 19
Processus d’Anonymisation
Corpus àanonymiser
Corpus avec entités
marquées
Table de transformation des entités nomméesListe initiale
participants,login,institution…
Détection de nouvellesgraphies
Marquage
Corpus Anonymisé
Substitution
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 20
Détection de nouvelle graphies : 2 stratégies
• Règles lexicales : syntaxe proche – Eli -> Elô Ely ELY Seli– Gabriela -> GABRIELA– José -> Jose
• Règles contextuelles : même contexte– First names: “mi chiamo …”, “accord avec …”– Cities: “Soy de …”, “vivo en …”, “j’habite à …”
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 21
1ère Stratégie : Règles Lexicales
adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer
Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer
103graphiesconnues
31nouvellesgraphies
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 22
2ème Stratégie : Règles contextuelles
103 prénoms connus (Adrià, …, Veronica)
145 contextes : Gauches/DroitsTotal: + 250 règles testées
15 nouvelles graphies retenuesAntonhy Belle Bet Christine Fede Federiac Kellly Leo Line Maria May Peimikà Regina fran jean léo
47 règles retenues
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 23
Processus d’Anonymisation
Corpus àanonymiser
Corpus avec entités
marquées
Table de transformation des entités nomméesListe initiale
participants,login,institution…
Détection de nouvellesgraphies
Marquage
Corpus Anonymisé
Substitution
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 24
Substitution : principes & précautions
• Vérifications avant exécution:– Homonymie (entre participants) maintenue– Pas d’introduction de nouveaux homonymes– Cohérence des graphies de substitution– Codage des acteurs (intra/inter corpus)
• Exécution en une seule passe pour éviter les remplacements en cascade
• Vérification par le chercheur par lecture (au moins sur un échantillon)
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 25
Evaluation de l’anonymisationSur le corpus 1 (Nomades)
• Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences
Méthode : Relecture exhaustive par l’animatrice• 7 graphies oubliées // 117 trouvées • 6 sur 7 dues à une application manuelle
=>1 seule vraie oubliée par la méthode : Excellent résultat pour l’anonymisation
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 26
Evaluation de l’anonymisationSur le corpus 2 (Prog. court)
• Annuaire des données personnelles : prénoms, patronymes :
• 9 données / 11 trouvées / 115 occ. marquées
Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes
• 8 graphies : 2 institutions, 1 village, 5 pers.• Soit 31 occurrences oubliées
Peu d’information au départ => moins efficace.
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 27
Discussion
• Expressions régulières (majuscules) :– Corpus 1 (Nomades) : 6 287 occ. (1509 g)– Corpus 2 (Pgrm court) : 792 occ. (328 g)– Règles inutilisable en Allemand, autres ?
• Dictionnaires externes– Corpus 1 (Nomades) : 5 langues (avec
recouvrements)– Corpus 2 (Pgrm court) : Français du Québec
• Réutilisation des règles : (1) -> 2 ?
JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 28
Conclusion
1. Une méthode (sans dictionnaire) pour anonymiser
2. Retour aux hypothèses– Automatisation 100% impossible– 2 techniques de fouille complémentaires prometteuses– Selon contexte : ajouter expressions régulières
3. Le paradoxe de l’anonymisation– Ex: Google facilite la ré-identification => utilisons-le
pour déterminer ce qu’il faut anonymiser !
4. Perspectives– Développement (au dessus de Calico)
MerciC. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3
1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada
3 GREYC, Université Caen Basse-Normandie, CNRS
Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.