IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit...

34
IA & droit - Données d’apprentissage

Transcript of IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit...

Page 1: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

IA & droit - Données d’apprentissage

Page 2: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Le programme Open Law

Page 3: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Au départ…

● Outils de justice “prédictive”

procèdent par extraction : extraction

de montants, de concepts…

● Ambiguités dans les documents

● Pas de solution par des systèmes

de règles

Conséquence : manque de fiabilité de

ces outils

Page 4: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Au départ…

Page 5: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Au départ…

Page 6: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Au départ…

Difficulté de désambiguisation : outils de ML fonctionnent à la phrase ou

au paragraphe -> ici, le contexte est exactement le même si on se

cantonne à la phrase ou au paragraphe – besoin de “zoner” les

documents

Page 7: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Le zonage des décisions de justice

Identification des zones d’une

décision de justice :

• référence de la décision attaquée

• présentation des parties, avocats

ou magistrats

• exposé des faits et de la

procédure

• exposé des prétentions des

parties

• argumentation du juge

• exposé de la règle de droit

applicable

• solution..

Page 8: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Le programme Open Law

Page 9: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Le programme IA & droit - données d’apprentissage

Objectif : au travers de ce cas

d’usage, mener un cycle exploratoire

sur la consitution de données

d’apprentissage :

documenter une méthodologie

identifier les points d’accroche

identifier les outils et

compétences nécessaires

-> Apprendre par l’expérimentation –

le motto d’Open Law*, être un do tank

plutôt qu’un think tank !

Page 10: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Les participants

Page 11: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Planning du projet

Définition du besoin - avril 2017

Plan d’annotation - mai-juin 2017

Mise en place : de l’outil - premiers tests -

rédaction des guidelines - mai-juin 2017

Annotation - juin à novembre 2017

Évaluation - septembre à novembre 2017

Exploitation du dataset - novembre 2017 et +

Restitution et livraison des données -

décembre 2017

Page 12: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Evaluation du dataset

Page 13: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Quelques chiffres

62 lots attribués

35 annotateurs

1 lots = 10 docs uniques + 2 docs communs avec un autre lot

407 documents annotés et exploitables

• suppression des annotations trop divergentes ou documents partiellement annotés

• suppression des documents non pertinents (ordonnances de procédure -> suppression

des documents courts)

• [suppression (random) des doublons de l’interagreement]

37 244 paragraphes annotés

24 761 paragraphes annotés et de qualité

• en ne prenant que les sous-catégories (sans les catégories macro)

• en supprimant les types n/a

• en supprimant les lignes ne contenant que de la ponctuation

• en supprimant les lignes avec forte présomption d’erreur d’annotation (divergence type

macro / type)

Page 14: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Evaluation des annotations - Interagreement

• 60 docs comparés

• 7 337 lignes annotations identiques

• 1 124 annotations différentes

Taux acceptable sur un dataset plus gros – ici

nécessité de pouvoir faire des corrections

Contraintes du projet empêchaient de faire se

rencontrer et discuter les annotateurs entre eux

Solution : supervision centralisée de la qualité du

dataset et évaluation manuelle

Page 15: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Evaluation des annotations – Evaluation manuelle

Retrait des documents « mal » annotés : +/- 50

documents

• Documents annotés seulement en partie

• Absence d’utilisation des sous-catégories du plan :

partie Motifs notamment

• Erreurs de compréhension du plan d’annotation

Correction d’une partie des annotations : erreurs

fréquentes et faciles à corriger

Remarque :

• Annotation toujours incorrecte sans supervision au

départ (crowdsourcing impossible – plan d’annotation

trop complexe, annotateurs bénévoles, absence de

lecture des guidelines)

• Mais avec seulement 1 échange de mails (envoi d’un

document annoté et discussion sur ce document), très

bons résultats

Page 16: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Evaluation du dataset - Représentativité

Géographique : très forte présence des décisions corses (mais vrai aussi dans

Légifrance)

Matérielle : tous contentieux présents, même du pénal (qui ne devrait pas être

présent sur Légifrance)

Types de décisions

Surprise : énorme présence d’ordonnances de procédure dans Légifrance (>20%

des décisions)

Or ces décisions :

• Ne sont pas harmonisées en rédaction

• Ne rentrent donc pas dans les catégories du plan d’annotation

• Et n’ont aucun intérêt sur le fond

Donc essentiellement du bruit pour notre dataset : suppression de ces décisions

Page 17: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Le dataset – 500+ décisions

Page 18: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Premiers tests de classification – analyse par catégorie

Remarque : pour un descriptif métier du contenu de chaque catégorie, se

reporter au guide de prise en main disponible ici :

https://github.com/pommedeterresautee/iaetdroit

Catégories macro :

• Entête

• Exposé du litige

• Motifs

• Dispositif

Page 19: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Analyse par catégorie – sous-catégories

Catégories à utiliser en l’état :

• References_decision_attaquee

• Entete_composition_de_la_cour

• Moyens_et_pretentions_appelant

• Moyens_et_pretentions_intime

• Motif-demandes_accessoires

• Dispositif-demandes_accessoires

• Entete_avocat

• Entete_appelant

• Entete_intimé

Remarque : il pourra être éventuellement intéressant de regrouper ces trois

dernières catégories pour un meilleur résultats (problèmes d’absence de sauts de

lignes dans les données qui rendent souvent difficile la distinction)

Page 20: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Analyse par catégorie – sous-catégories

Catégories à regrouper pour un meilleur résultat ou pour des visions transverses

des fichiers (déjà proposé dans le csv fourni) :

• Faits_et_procedure / Faits / Procedure -> une catégorie unique Faits_et_procedure

• Motif-1 / Motif-1_faits / Motif-1_texte / Motif-1_pretentions_appelant / Motif-

1_pretentions_intime -> une catégorie unique Motif-1

• Motif-2 / Motif-2_faits / Motif-2_texte / Motif-2_pretentions_appelant / Motif-

2_pretentions_intime -> une catégorie unique Motif-2

• Motif-3 / Motif-3_faits / Motif-3_texte / Motif-3_pretentions_appelant / Motif-

3_pretentions_intime -> une catégorie unique Motif-3

Page 21: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Analyse par catégorie – sous-catégories

Catégories à regrouper pour un meilleur résultat ou pour des visions transverses

des fichiers (déjà proposé dans le csv fourni) – suite :

• Motif-1 / Motif-2 / Motif-3 -> une catégorie unique Motif-juge

• Motif-1_faits / Motif-2_faits / Motif-3_faits -> une catégorie unique Motif-faits

• Motif-1_texte / Motif-2_texte / Motif-3_texte -> une catégorie unique Motif-

regle_de_droit

• Motif-1_pretentions_appelant / Motif-2_pretentions_appelant / Motif-

3_pretentions_appelant -> une catégorie unique Motif-pretentions_appelant

• Motif-1_pretentions_intime / Motif-2_pretentions_intime / Motif-3_pretentions_intime

-> une catégorie unique Motif-pretentions_intime

Page 22: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Analyse par catégorie – sous-catégories

Catégories à ignorer (pas assez d’annotations / résultats incohérents) :

• Moyens_et_pretentions_des_parties (déjà supprimé dans le csv fourni)

• Dispositif 1

• Dispositif 2

• Dispositif 3

Page 23: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Exploitation du dataset

Page 24: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Usages attendus… en attendant plus !

- Affichage du plan des décisions

- Moteur de faits

- Chaînage des décisions

- Extraction de montants

- Rapprochement de décisions sur la

base de la règle de droit

- Tri des pourvois pour attribution aux

chambres de la Cour de cassation

- Evaluation de la rédaction des

décisions…

Autres données juridiques : contrats,

conventions collectives, appels d’offres...

Page 25: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Hackathon Village de la legaltech

Regrouper les décisions ayant le

même fondement juridique

Améliorer la lisibilité des décisions

de justice

Créer des études d’impact pour le

législateur

Intégrer un processus de zonage

en amont – lors de la rédaction de

la décision

Page 26: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Les enseignements méthodologiques et éthique sur la constitution de jeux de données d’apprentissage

Page 27: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Restitutions

Page 28: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Enjeux méthodologiques

Maître-mot : adaptation du dataset au projet et de la méthodologie aux

contraintes imposées

un projet prévoyant une tâche longue et pénible et nécessitant un haut

niveau d’expertise sur un outil difficile à manipuler sera voué à l’échec,

car il sera impossible de trouver les utilisateurs ultra-experts,

disponibles et motivés pour la tâche (même en les payant)

En fonction du projet envisagé et de ses contraintes, il faudra donc

trouver le meilleur équilibre entre :

- le niveau de complexité du plan d’annotation ;

- le niveau d’expertise et la disponibilité des annotateurs ;

- la qualité de l’outil d’annotation ;

- la possibilité d’automatiser une partie des annotations.

A noter : on pourra subdiviser le projet en plusieurs sous-tâches de

complexités différentes.

Page 29: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Enjeux éthiques – les erreurs à ne pas commettre

Evaluation des annotations :

• en droit français, pas de volumes suffisant pour lisser les

biais induits par les erreurs d’annotation

Mécanisme de contrôle : générer un dialogue entre les

annotateurs est la meilleure méthode

Page 30: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Enjeux éthiques – les erreurs à ne pas commettre

Evaluation du dataset : s’assurer de la représentativité

du dataset

• Temporelle (éviter les erreurs liées à des

modifications de comportement des données dans le

temps)

• Géographique

• Matérielle

Mécanismes de contrôle : s’assurer au début du

projet de notre bonne connaissance des données à

enrichir pour pouvoir effectuer un contrôle statistique

Page 31: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Enjeux éthiques – les erreurs à ne pas commettre

Evaluation des données brutes : s’assurer de l’existence de

données brutes pertinentes pour mener le projet souhaité :

• Absence de trous dans les données

• Capacité d’alignement des données (si plusieurs jeux)

• Stabilité des données (notamment dans le temps)

Mécanismes de contrôle : métier

Page 32: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Table ronde – échanges croisés avec le domaine de la recherche et celui de la santé

Page 33: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Claude Kirchner

Président du Comité opérationnel d'évaluation des risques légaux et

éthiques, INRIA

Depuis 2008, Inria dispose d’une instance dédiée à l’accompagnement des acteurs

de la recherche dans l’évaluation des enjeux légaux et éthiques auxquels ils ont

confrontés. Au cas par cas, le Coerle oriente la direction d’Inria et les équipes de

recherche grâce à un comité de 9 experts, chargés de résoudre les problématiques

éthiques de l’institut.

Page 34: IA & droit Données d’apprentissage - Open Law, Le …...• exposé de la règle de droit applicable • solution.. Le programme Open Law Le programme IA & droit - données d’apprentissage

Olivier de Fresnoye

Co-coordinateur du Programme Epidemium

Epidemium est un programme de recherche scientifique participatif et ouvert dédié

à la compréhension du cancer grâce aux Big data qui se concrétisera sous la forme

d’un Challenge4Cancer (C4C). Il s'agit d'identifier les grands enjeux et les

opportunités des big data appliqués à l’onco-épidémiologie et de rassembler un

volume inédit de jeux de données ouverts – open data - et hétérogènes. Un appel à

projets innovants est maintenant lancé sur la base des données, des méthodologies

et des outils mis à la disposition des participants, tout en garantissant le respect des

règles éthiques et juridiques, sensibles et complexes dans ce contexte.