Documents Structurés Multilingues (XML) Maria · PDF file• version 1.1,...

4
Documents Structurés Multilingues (XML) 2010 Maria Georgescul ETI, Université de Genève 1 Maria Georgescul Maître Assistante, TIM, ETI, Université de Genève http://www.issco.unige.ch/staff/mariag/index.html [email protected] Bureau 6336 Qu’est-ce que XML et pourquoi cela peut vous intéresser? Cours n°1 http://moodle.unige.ch 2 Plan du cours n°1 Qu’est-ce que XML ? Eléments d'un document XML Bref historique d’XML Objectifs du cours d’XML Pourquoi XML peut vous intéresser ? Organisation du cours; Evaluation des connaissances 3 Qu’est-ce que XML ? (1/2) eXtended Markup Language (XML) conçu pour permettre la structuration, le stockage et la gestion de différentes sortes de données format qui vise à être expressif et indépendant des plates-formes et des logiciels 4 Un premier exemple en XML balise = élément = unité sémantique utilisée pour l'enrichissement de l’'information textuelle balise avec un attribut 5 Qu’est-ce que XML ? (2/2) « eXtended Markup Language » (“langage de balisage extensible”) Langage de balisage balises = unités sémantiques placés dans le corps d’un document afin d’en délimiter et d’en étiqueter les différentes parties ainsi que les liens qui existe entre elles Ex: HTML (« HyperText Markup Language ») XML = méta -langage = langage extensible ensemble de règles permettant la création de langages de balisage personnalisés pour une certaine application Documents structurés utiliser des balises descriptives pour coder la structure d’un document (multilingue) 6 Exemple

Transcript of Documents Structurés Multilingues (XML) Maria · PDF file• version 1.1,...

Page 1: Documents Structurés Multilingues (XML) Maria · PDF file• version 1.1, deuxième édition : Août 2006 ... CSS ou XSLT Outil Y non-compatible TMX Traducteur Traducteur XSLT 20

Documents Structurés Multilingues (XML) 2010

Maria GeorgesculETI, Université de Genève

1

Maria GeorgesculMaître Assistante, TIM, ETI,

Université de Genèvehttp://www.issco.unige.ch/staff/mariag/index.html

[email protected] 6336

Qu’est-ce que XML et pourquoi cela peut vous intére sser?Cours n°1

http://moodle.unige.ch

2

Plan du cours n°1

• Qu’est-ce que XML ?

• Eléments d'un document XML

• Bref historique d’XML

• Objectifs du cours d’XML

• Pourquoi XML peut vous intéresser ?

• Organisation du cours; Evaluation des connaissances

3

Qu’est-ce que XML ? (1/2)

• eXtended Markup Language (XML)– conçu pour permettre la structuration, le stockage et

la gestion de différentes sortes de données

– format qui vise à être expressif et indépendant desplates-formes et des logiciels

4

Un premier exemple en XML

balise = élément = unité sémantique utilisée pourl'enrichissement de l’'information textuelle

balise avec un attribut

5

Qu’est-ce que XML ? (2/2)

• « eXtended Markup Language » (“langage debalisage extensible”)

� Langage de balisage– balises = unités sémantiques placés dans le corps d’un

document afin d’en délimiter et d’en étiqueter les différentesparties ainsi que les liens qui existe entre elles

– Ex: HTML (« HyperText Markup Language »)

• XML = méta-langage = langage extensible– ensemble de règles permettant la création de langages de

balisage personnalisés pour une certaine application

� Documents structurés� utiliser des balises descriptives pour coder la

structure d’un document (multilingue)

6

Exemple

Page 2: Documents Structurés Multilingues (XML) Maria · PDF file• version 1.1, deuxième édition : Août 2006 ... CSS ou XSLT Outil Y non-compatible TMX Traducteur Traducteur XSLT 20

Documents Structurés Multilingues (XML) 2010

Maria GeorgesculETI, Université de Genève

2

7

• En-tête: la déclaration XML débute par les cinq caractères <?xml , suivis d’un certain nombre de définitions de propriétés et se termine par le deux caractères ?>

Ex: <?xml version="1.0"?>

– la propriété version définit le numéro de la version XML• Une suite d’éléments : balises + texte

– Des balises qui définissent le début et la fin d’un ensemble de texte et de balises :

<question > et </ question >

– Des balises sans attributs :<niveau > Débutant </ niveau >

– Une balise avec un attribut :<qr id =" 1">

– Liens : • Le contenu de l’attribut fait le lien avec un fichier:<graphique file_ref =" smiley.pict "/>

Eléments d'un document XML

8

XML - bref historique (1/2)1960

1986

1997

1979 GML

SGML

XML

1992 HTML

2000

application

sous-ensemble

GenCode

XML facilite l’interconnexion des

applications

9

Bref historique (2/2)

• SGML (Standard Generalized Markup Language) – successeur de GML (Generalized Markup Language)

• GML - langage mis au point par IBM en 1979– développé par le comité de traitement de l’information de l’ANSI

(American National Standards Institute)– publié en 1986 comme norme ISO 8879

• HTML (HyperText Markup Language)– application de SGML– début des années 1990 : le langage des pages web– seulement intéressé par l’aspect graphique des documents

hypertexte• XML

– 1996: initiative visant à alléger SGML– mêmes principes que SGML (structuration sémantique des fichiers)– organisme fédérateur: W3C (World Wide Web Consortium):

www.w3.org• Plus de 400 membres: http://www.w3.org/Consortium/Member/List

10

XML aujourd’hui

• Standard universel et évolutif (recommandé par W3C):– Spécifications ouvertes, format transparent

• version 1.0: Février 1998http://www.w3.org/TR/xml/

• version 1.1, deuxième édition : Août 2006http://www.w3.org/TR/xml11/

� Différence principale de la version 1.1 vs. version 1.0: exigences des caractères permis pour les noms des éléments et d’attributs

� Nombreux technologies associés: DTD, XSLT, CSS

� Nombreuses applications, c.-à-d. particularisations des balises à un problème précis

– Exemples:http://xml.coverpages.org/xmlApplications.html

11

XML vs. HTML

• XML :

� Noms de balises à définir selon les besoins

� XML peut accommoder des besoins spécifiques (e.g. linguistiques, mathématiques)

• HTML

� Noms de balises fixés en vue de l’affichage (spécifiques au vendeur) et pas pour la structure ou la sémantique du contenu

• XML:

• Syntaxe des balises: stricte

• HTML :

• Syntaxe des balises: assez tolérante, dépend du navigateur

12

XHTML – successeur de HTML

1960

1986

1997

1979 GML

SGML

XML

1992 HTML

XHTML

syntaxe

balises

2000

application

sous-ensemble

GenCode

XHTML 1.0 est une reformulation de

HTML 4 en appliquant la syntaxe

de XML 1.0

eXtensible HyperText Markup Languagehttp://www.w3.org/TR/xhtml1/

Page 3: Documents Structurés Multilingues (XML) Maria · PDF file• version 1.1, deuxième édition : Août 2006 ... CSS ou XSLT Outil Y non-compatible TMX Traducteur Traducteur XSLT 20

Documents Structurés Multilingues (XML) 2010

Maria GeorgesculETI, Université de Genève

3

13

« Le couteau suisse du structuration XML »

XML

DTD

CSS�Syntaxe

�Support des caractères spéciaux

14

Objectifs du cours d’XML (1/2)

• Comprendre le métalangage XML– la bonne formation des documents XML – l'encodage des caractères

• Comprendre et utiliser les technologies souvent associés à XML afin de: – faire comprendre votre document XML à des tiers : DTD

(Document Type Definition)– décrire la présentation des documents XML: CSS (Cascading

Style Sheets)– transformer des documents XML: XSLT (XML Stylesheet

Transformation Language)– trouver des données à l’intérieur de documents XML: XPath– éviter les conflits entre noms de balises pour différentes

applications: espaces de noms

15

Objectifs du cours d’XML (2/2)

• Connaître les standards basés sur XML pour le traitement multilingue, c.-à-d. :

– la gestion de pages web multilingues: • XHTML (eXtensible HyperText Markup Language)

– l’annotation de textes:

• XCES (XML Corpus Encoding Standard)– la localisation:

• XLIFF (XML Localization Interchange File Format)– la terminologie:

• XLT (XML representation of Lexicons and Terminologies)

– les lexiques électroniques: • OLIF (Open Lexicon Interchange Format)

– les mémoires de traduction: • TMX (Translation Memory eXchange)

16

Traducteur • Dans quelles situations utilisons-nous XML?

• Quels types d'applications utilisent XML?

• Structurer l’information de manière non-ambiguë• Rendre explicite le contenu des documents

• Traiter l’information structurée en XML grâce aux nombreux outils existants• Echanger de l’information entre humains et/ou entre programmes

informatiques

Pourquoi XML peut vous intéresser ?

• Gestion de sites web multilingues• Gestion de fiches terminologiques• Échange des mémoires de traduction• Divers logiciels pour le traducteur utilisent XML

17

Gestion de sites web multilingues

Fichiers XML ou XHTML

Traducteurs

18

Gestion de fiches terminologiques• Seppälä , Selja, “Composition et formalisation conceptuelles

de la définition terminographique”, ETIDEA 16 (ETI : mémoires trad.), Ecole de traduction et d'interprétation, Université de Genève.

Gestion de l’information fournie par un programme informatique (pour faciliter une analyse ultérieure):

• Bircher, Beatrice, “Systran versus Google translate (GT) – the performance of two MT Systems in Query Translation”, ETIMA 30 (ETI : mémoires), Ecole de traduction et d'interprétation, Université de Genève

Page 4: Documents Structurés Multilingues (XML) Maria · PDF file• version 1.1, deuxième édition : Août 2006 ... CSS ou XSLT Outil Y non-compatible TMX Traducteur Traducteur XSLT 20

Documents Structurés Multilingues (XML) 2010

Maria GeorgesculETI, Université de Genève

4

19

Échange des mémoires de traduction

Traducteur

Déjà Vu XFichiers XML (TMX)

(X)HTML

Traducteur

SDL Trados

SDLX

Traducteur

Outil Xnon-compatible TMX

CSS ou XSLT

Outil Ynon-compatible TMX

Traducteur

Traducteur

XSLT

20

Exemples d’outils compatible TMX

� Trados

� Déjà Vu X

� Across

� Catalyst

� Heartsome

� Lingotek

� MemoQ

� Wordfast

� MultiTrans

� Olifant

� OmegaT

� Rainbow

� SDLX

� Similis

� Star Transit

21

Prérequis

• Connaissances informatiques de base: – gestion de fichiers et édition de textes

• Atout: – connaissances de base de HTML

22

Postrequis

• Au terme du cours, vous serez capables de : – créer votre propre langage de marquage, en

respectant les règles qui régissent la syntaxe des documents XML

– écrire des documents XML et les valider– appliquer une mise en page et des techniques

typographiques à des documents XML en utilisant les feuilles de style en cascade

– transformer des documents XML en documents dans d'autres formats grâce à XSLT

– créer, utiliser et transformer des documents XML en utilisant des vocabulaires XML standard dans le monde de la traduction (tels que XCES, XLIFF, XLT)

23

Quelques références

• Quelques livres disponibles à la bibliothèque (réseau des bibliothèques genevoises):– « Introduction à XML », Erik T. Ray; Traduction de Alain

Ketterlin.– « XML Internationalization and Localization », Yves Savourel.

– « XML précis et concis », Simon St. Laurent et Michael Fitzgerald; Traduction de Philippe Ensarguet et Jean-Noël Gadreau.

• Introduction au XML:– http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html

• Foires aux questions XML:– http://www.w3.org/XML/1999/XML-in-10-points– http://www.textuality.com/xml/faq.html

24

Outils d’édition XML

• Exchanger XML Lite 3.2– gratuit: http://www.freexmleditor.com/

– installé en salle 6289– plusieurs possibilités d’affichage et d’autres fonctionnalités

• seules les fonctions de base seront utilisées pendent les TP

• Altova XMLSpy– version de test gratuite pour 30 jours disponible à:

• http://www.altova.com/products/xmlspy/xml_editor.html

• Autre éditeurs / parseurs XML gratuits– AltovaXML: http://www.altova.com/altovaxml.html

– XML Marker: http://symbolclick.com/

• Cherchez vous-même d’autres éditeurs XML gratuits:– http://www.google.com/search?q=XML+free+editor