Introduction à lutilisation des corpus 2. Comment constituer un corpus?

28
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?

Transcript of Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Page 1: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Introduction à l’utilisation des corpus

2. Comment constituer un corpus?

Page 2: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Questions abordées 2. Comment constituer un corpus ?

Comment trouver des textes ? Ou et comment

trouver des ressources (glossaires, dictionnaires,

corpus parallèles) ?

Comment exploiter au mieux les fonctionnalités des

moteurs de recherche?

Comment choisir quel texte inclure ou pas dans le

corpus ?

Sous quelle forme faut-il le stocker pour qu’il soit

facilement utilisable ? (rappel : formats de fichiers)

Page 3: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Rappel : quel type de corpus ?

On va constituer un mini corpus Électronique

Bilingue comparable (quelles langues? )

D’originaux (éviter les auteurs locuteurs non-natifs)

Synchronique

Annoté? Ou bien forme de textes bruts?

Ouvert : constamment enrichi

De spécialité. Domaines/sous-domaines couverts ? Exemples :

Le volcans de boue

Le circuit de l’eau dans les sols

Les montagnes

Page 4: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Où trouver des textes? 1/ Science Direct (www.sciencedirect.com)

• ¼ de la littérature scientifique, médicale et technique en ligne

• plus de 2.000 journaux, centaines de livres, manuels

• accès uniquement sur le campus

• droits d’auteur ;-)

2/ PLOS (Public Library of Science) : http://www.plos.org/

3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet.

E.x. http://docinsa.insa-lyon.fr/sapristi/trouver-20.php

http://www.inria.fr/rrrt/index.fr.html

Page 5: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Où trouver des textes?

4/ www.sudoc.abes.fr (recherche de thèses)

5/ ENT de l’université Paris Diderot :

- HAL

- GEOBASE

6/ Recherche sur Internet

Page 6: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Recherche documentaire sur InternetComment choisir ? Internet n’est pas une grande bibliothèque. Tout n’est pas crédible.

Avant d’inclure un texte récupéré sur Internet vérifier :

• la date de mise ajour du site

• qui est l’auteur de la page ?

• le texte a été écrit par un locuteur natif?

• quelle institution cautionne le contenu?

Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!

Page 7: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

GGooooggllee : comment l’utiliser au mieux ?

Comment cibler au mieux les résultats formuler résultats plus pertinents

• http://www.googleguide.com/

• GGooooggllee Hacks - 100 Industrial-Strength Tips & Tricks Tara Calishain, Rael Dornfest, O’Reilly

Page 8: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

GGoooogglle e : syntaxe de base

pomme de terre (AND implicite)

« pomme de terre »

Paris OR London

hôtel (Paris OR London)

Bush -George –president

Bush

BUSH

bush

écri* ?????

«  trois * raisons   » caractère joker

glossary OR vocabulary OR lexicon ~glossary

Page 9: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

GGooooggllee : syntaxes spéciales Opérateurs google

intitle:

inurl:

intext:

inanchor:

site:

link:

filetype:

related:

define:

Et plein d’autres!!!

L’ordre des termes de la requête et la répétition peuvent affecter les résultats.

Page 10: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Autres questions

• Que faire si une page n’existe plus?

• vérifier si elle existe encore en cache (retrouve une page que GGooooggllee a indexée)

• www.webarchive.org

• Où trouver des glossaires et corpus parallèles?

• http://www.multilingual.ch

Page 11: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Un dernier GGooooggllee hackhack

Chercher sur GGooooggllee le terme hydracefallus et limiter les résultats aux fichiers de type .pdf.

Page 12: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Comment stocker les textes ?

Page 13: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Parenthèse : formats des fichiers Moyen d’encoder de l’information afin de la stocker sur l’ordinateur.

IMAGES uniquement : .jpg, .png, etc

Formats de fichiers ‘documents’

sans aucun formatage : .txt : uniquement des caractères textuels ordinaires

formatés :

.doc : formats propriétaires Microsoft

.rtf : formats propriétaires Microsoft : Lisible, inter-opérable

.odt (OpenOffice Text Doc) : logiciel libre sources disponibles

.html, .xml : langages à balises

.pdf : format propriétaire de Adobe Systems, même si ouvert

préserve polices, images, graphiques et la mise en forme

EXTENSIONS

Page 14: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Démonstration : comparaison entre les documents de type

.txt, .doc, .html, .rtf, .odt

(Observer la taille des documents)

Page 15: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

A lire :

Formats de fichiers (documentation de l’équipe système de l’UFR EILA) :

www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats

Page 16: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Fichiers texte /vs/ binaires• Fichiers texte : contenu pouvant être interprété comme

du texte. Suite de caractères d’un ensemble donné. – en codage ASCII ou une extension de ASCII (UTF-8, UTF-16

ou extension régionale). Exemples : fichiers .XML ; .txt

• Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. – fichier exécutable ; – fichier de base de données structuré en enregistrements de

taille fixe ou variable ; – document de traitement de texte ; – fichiers multimédias : images, sons, vidéos.

Page 17: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Encodage des caractères

• associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

• Exemples d’encodage : – Le code Morse

• Le code ASCII

• ISO-8859-1

• UNICODE

Page 18: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Encodage des caractères

• associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

• Exemples d’encodage : – Le code Morse

Page 19: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Encodage de caractères I

– US-ASCII (1967): American Standard Code of Information Interchange

– Lettres (alphabète anglais), numéraux, ponct– 7 bits (128 codes) 98 signes définis– Ex :

• A : 065, B : 066, C : 067• a : 097, b : 098, c : 099, etc.

– Très limité extensions.

Page 20: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Encodage des caractères II

• ISO 8859 (1987) : International Standards Organization

• étend US-ASCII en ajoutant les caractères accentués– 8 bits (256 codes) 191 signes définis

• ISO 8859-1 : Europe le l’Ouest– 8859-2 : Latin 2, Europe de l’Est– 8859-3 : Latin 3, Europe du Sud Est– 8859-4 : Latin 4, Scandinavie, Baltique– 8859-5 : cyrillique– 8859-6 : arabe, 8859-7 : grec, etc

Page 21: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Encodage des caractères III

– Approche systématique : UNICODEUNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères) permet le mélange de langues

– Permet l’encodage de toutes les langues vivantes et mortes

• UTF-8UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODEUNICODE

• UTF-16UTF-16

Page 22: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Formats des fichiers : comment stocker le corpus ?

CORPUS_PRENOM_NOM

ANGLAIS FRANCAIS ALLEMAND

SOURCES TEXTES Référence biblio dans la BD Termino !!!!!

BAUM_1996.pdf BAUM_1996.txt

Page 23: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Comment citer la source ?

• Quels champs indiquer pour chaque type de document ? (JabRef) :

• Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages

• Site web : Titre, (Auteur|institution), Url (localisation), date de consultation.

• Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)

Page 24: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Comment citer la source ?

• Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche)

• Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.

Page 25: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Parenthèse : formats des fichiers

• Démonstration : comment stocker les fichiers constituant son corpus ?

Page 26: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Que faire avec les fichiers PDF ?• Portable Document Format • créé par Adobe Systems• préserve la mise en forme (polices, images, objets

graphiques…) quelles que soient l'application et la plate-forme

• PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.

• les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

Page 27: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Que faire avec les fichiers PDF ?

• Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!):

• Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration.

• Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo.

• Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).

Page 28: Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Quel format pour le stockage ?

Créer un répertoire CORPUS_NOM_PRENOM Créer les sous-répertoires ANGLAIS & FRANCAIS (non

pas FRANÇAIS) Stocker dans les deux des articles convertis en

format .txt, avec l’encodage UFT-8 Nom du fichier :

le nom de l’auteur + - + année de publication + a,b,c (optionnel, si plusieurs articles de la même année) + .txt Ex : DUPONT_2006.txt

UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD

POURQUOI ???