Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de...

40

Transcript of Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de...

Page 1: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Modèles de Linguistique Computationnelle

CM 1 : Introduction

M1 Langue et Informatique

Crédits: Gaël Lejeune, Karën Fort, Iana Atanassova, Djame Seddah, Eleni Kogkitsidou, Olga Seminck

Alice Millour [email protected]

Yoann Dupont [email protected]

2020-2021

Sorbonne-Université

1

Page 2: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Plan

Introduction à la lingusitique computationnelle

Notions de bash

Rappels de python

2

Page 3: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Déroulé du cours

• Globalement :

• 13 séances, dont 1 de révision

• 6 cours / enseignant

• base de 1h CM / 1h30 TD

• identi�ant cours sur Moodle : M1SOL030

• Évaluation :

• contrôle continu

• contrôle terminal

3

Page 4: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Notions vues dans le cours

• aujourd'hui : introduction à bash et rappels de python

• expressions régulières (recherche de motifs)

• formats de corpus et transformation

• normalisation de corpus textuels

• classi�cation (de textes, de mots)

• reconnaissance d'entités nommées

• évaluation d'outils

• éventail des tâches de TAL

4

Page 5: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle

permet de résoudre une tâche grâce à une méthode

Pendant ce cours : on va explorer plusieurs tâches et plusieurs méthodes

5

Page 6: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

Vos idées ?

6

Page 7: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � visibles �

• moteurs de recherche

• traduction automatique (par exemple : Google translate)

• correction orthographique

• suggestion automatique

• transcription automatique de la parole

• systèmes de dialogue (écrit / oral)

• etc.

7

Page 8: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 9: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 10: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 11: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 12: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 13: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 14: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc.

8

Page 15: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : tâches

tâches � invisibles � (ou sous-jacentes)

• segmentation ( Si les ascensions et les )

• lemmatisation (le lemme de descentes est � descente �, de � font � est faire)

• analyse grammaticale ( � Si � = conjonction, � les � = déterminant)

• analyse syntaxique

(� les ascensions et les arrivées au sommet � est sujet de � sont �)

• reconnaissance d'entités nommées (� Tour de France 2020 � est une entité

qu'on peut catégoriser comme � compétition sportive �)

• identi�cation d'anaphores (� elles � réfère à � les descentes �)

• désambiguïsation lexicale (� Tour � correspond au sens 3/B./1./a.) de la page

tour du CNRTL : � Mouvement, déplacement (à peu près) circulaire où l'on revient

au point de départ. �.)

• etc. 8

Page 16: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Exemple de chaîne de traitement

Source : https:

//medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e

9

Page 18: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle

permet de résoudre une tâche grâce à une méthode

11

Page 19: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : méthodes

Vos idées ?

12

Page 20: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : méthodes

• approches par règles

⇒ règles écrites par des linguistes

• approches par apprentissage : Machine learning

• apprentissage � traditionnel � statistique

⇒ ressources d'apprentissage

• approches neuronales (Deep learning)

⇒ ressources d'apprentissage de très

grande taille

le big data

di�èrent (notamment) par les ressources qu'elles requièrent

13

Page 21: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle : méthodes

• approches par règles ⇒ règles écrites par des linguistes

• approches par apprentissage : Machine learning

• apprentissage � traditionnel � statistique ⇒ ressources d'apprentissage

• approches neuronales (Deep learning) ⇒ ressources d'apprentissage de très

grande taille

le big data di�èrent (notamment) par les ressources qu'elles requièrent

13

Page 22: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle

permet de résoudre une tâche grâce à une méthode

en exploitant des ressources linguistiques

14

Page 23: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Linguistique computationnelle

permet de résoudre une tâche grâce à une méthode

en exploitant des ressources linguistiques

14

Page 24: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Plan

Introduction à la lingusitique computationnelle

Notions de bash

Rappels de python

15

Page 25: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Pourquoi utiliser bash ?

Bash = un langage intégré à linux qui permet (entre autres) :

• de naviguer dans le système de �chiers

• de visualiser / modi�er les �chiers

⇒ utile pour manipuler les �chiers / ressources linguistiques utilisées enmodélisation linguistique

16

Page 26: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Commande bash

$ commande -option1 -option2 -option3 argument1 argument2

17

Page 27: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

ligne de commande vs. script

deux modes d'utilisation :

• ligne de commande :

• script :

18

Page 28: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Quelques commandes usuelles....

• se repérer dans la hiérarchie de �chiers avec pwd, se déplacer avec cd

• manipuler des répertoires et �chiers : créer un répertoire avec mkdir, un �chieravec touch, supprimer avec rm, déplacer avec mv

• lister les �chiers d'un répertoire avec ls

• a�cher le contenu d'un �chier, avec cat, less, head, tail

• faire des modi�cations dans un �chier avec tr

• lire sur l'entrée standard avec read

remarque : ".." désigne le dossier � parent � du dossier courant.Si vous êtes dans /home/utilisateurs/Documents le dossier .. correspond à/home/utilisateurs/

19

Page 29: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

arguments, options, entrées, sorties

une commande peut avoir 0, 1 ou plus arguments, lire sur l'entrée standard, a�cher(ou non) un résultat sur la sortie standard, changer de comportement en fonction

des options...

• ls vs ls .. (ajout d'un argument)

• ls vs ls -l (ajout d'une option)

• ls vs ls -l .. (ajout d'une option et d'un argument)

20

Page 30: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Redirection : >, >> et |

On peut rediriger la sortie standard vers :

• un �chier en l'écrasant avec >

• un �chier en concaténant la sortie au contenu existant avec >>

essayez :

$ touch fichier.txt

$ echo "première phrase"

$ echo "première phrase" > fichier.txt

$ cat fichier.txt

$ echo "première phrase" >> fichier.txt

$ cat fichier.txt

$ echo "deuxième phrase" >> fichier.txt

$ cat fichier.txt

$ echo "troisième phrase" > fichier.txt

$ cat fichier.txt

21

Page 31: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Redirection : >, >> et |

On peut rediriger la sortie standard vers :

• une nouvelle commande avec | (voir TD1)

22

Page 32: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Comment on s'en sort ? : la commande man

� Read The Fine Manual �

23

Page 33: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Exemple : apprendre à utiliser la commande cp

$ man cp

24

Page 34: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Apprendre à lire le manuel

$ man man

25

Page 35: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Apprendre à lire le manuel

À quoi servent les commandes :

• wc

• grep

• sort

• uniq

Combien d'arguments prennent les commandes :

• pwd

• cp

• grep

26

Page 36: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Apprendre à lire le manuel

Quelles options utiliser :

• pour a�cher sur la sortie standard un texte dont les lignes ont été classées parordre décroissant (sort)

• pour a�cher sur la sortie standard un texte dont les lignes ont été classéesaléatoirement (sort)

• pour lister les �chiers du dossier courant en a�chant leurs tailles (ls)

• pour lister les �chiers du dossier courant en a�chant leurs tailles de manière� lisible par un humain � (ls)

27

Page 37: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Options et arguments

à quoi sert la commande cut ?

28

Page 38: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Options et arguments

que renvoie :

$ cut -d';' -f2 file.txt

si le �chier file.txt contient :

Prenom;Nom;Email;Age;Ville

Judith;Dreyfus;[email protected];31;Marseille

Ariane;Delaubier;[email protected];28;Dieppe

Laura;Capitaine;[email protected];27;Paris

29

Page 39: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Plan

Introduction à la lingusitique computationnelle

Notions de bash

Rappels de python

30

Page 40: Modèles de Linguistique Computationnelle CM 1 : Introduction · 2021. 2. 3. · Modèles de Linguistique Computationnelle CM 1 : Introduction M1 Langue et Informatique Crédits:

Options et arguments

Vos questions la semaine prochaine :

• ouverture / fermeture de �chiers

• formattage des chaînes de caractères

• boucles

• fonctions (di�érence entre print et return ?)

• listes, dictionnaires et fonctions associées

31