Download - Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

Transcript
Page 1: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

Tous droits reacuteserveacutes copy Association pour lavancement des sciences et destechniques de la documentation (ASTED) 2005

Ce document est proteacutegeacute par la loi sur le droit drsquoauteur Lrsquoutilisation desservices drsquoEacuterudit (y compris la reproduction) est assujettie agrave sa politiquedrsquoutilisation que vous pouvez consulter en lignehttpsaproposeruditorgfrusagerspolitique-dutilisation

Cet article est diffuseacute et preacuteserveacute par EacuteruditEacuterudit est un consortium interuniversitaire sans but lucratif composeacute delrsquoUniversiteacute de Montreacuteal lrsquoUniversiteacute Laval et lrsquoUniversiteacute du Queacutebec agraveMontreacuteal Il a pour mission la promotion et la valorisation de la recherchehttpswwweruditorgfr

Document geacuteneacutereacute le 25 mars 2021 2134

Documentation et bibliothegraveques

Problegravemes de repeacuterage des ressources bibliographiques enlangue chinoise une perspective occidentaleOn the Retrieval of Bibliographic Resources in Chinese AWestern PerspectiveProblemas de localizacioacuten de fuentes bibliograacuteficas en chinoCleacutement Arsenault

Volume 51 numeacutero 3 juilletndashseptembre 2005

URI httpsideruditorgiderudit1029496arDOI httpsdoiorg1072021029496ar

Aller au sommaire du numeacutero

Eacutediteur(s)Association pour lavancement des sciences et des techniques de ladocumentation (ASTED)

ISSN0315-2340 (imprimeacute)2291-8949 (numeacuterique)

Deacutecouvrir la revue

Citer cet articleArsenault C (2005) Problegravemes de repeacuterage des ressources bibliographiques enlangue chinoise une perspective occidentale Documentation et bibliothegraveques51(3) 175ndash184 httpsdoiorg1072021029496ar

Reacutesumeacute de larticleCe travail a pour objet de preacutesenter plusieurs avenues de recherche pour ledeacuteveloppement de modules de repeacuterage de notices bibliographiques en languechinoise Des eacutetudes anteacuterieures ont montreacute les succegraves et les limites durepeacuterage se fondant sur des donneacutees chinoises romaniseacutees (pinyin) Il sembleqursquoune proportion non neacutegligeable des utilisateurs nrsquoobtient pas des reacutesultatstregraves satisfaisants lors du repeacuterage en pinyin Pour fournir agrave ces utilisateurs desmoyens de repeacuterage mieux adapteacutes il est essentiel drsquoexplorer drsquoautres avenuesmeacutethodologiques susceptibles drsquoecirctre inteacutegreacutees aux bases bibliographiques dansle contexte nord-ameacutericain ougrave les ressources en langue chinoise repreacutesententhabituellement seulement une proportion minime des collections

DOCUMENTATION B I B L I O l H Egrave Q U E S

Problegravemes de repeacuterage des ressources bibliographiques en langue chinoise une perspective occidentale

CLEacuteMENT AcircRSENAULT Clernentarsenaultumontrealxa

CONTEXTE DE LA RECHERCHE

KESUME | ABSTKACI5 | K t S U M E N

Ce travail a pour objet de preacutesenter plusieurs avenues de recherche pour le deacuteveloppement de modules de repeacuterage de notices bibliographiques en langue chinoise Des eacutetudes anteacuterieures ont montreacute les succegraves et les limites du repeacuterage se fondant sur des donneacutees chinoises romaniseacutees (pinyin) Il semble quune proportion non neacutegligeable des utilisateurs nobtient pas des reacutesultats tregraves satisfaisants lors du repeacuterage en pinyin Pour fournir agrave ces utilisateurs des moyens de repeacuterage mieux adapteacutes il est essentiel dexplorer dautres avenues meacutethodologiques susceptibles decirctre inteacutegreacutees aux bases bibliographiques dans le contexte nord-ameacutericain ougrave les ressources en langue chinoise repreacutesentent habituellement seulement une proportion minime des collections

On the Retrieval of Bibliographie Resources in Chinese A Western Perspective

This article outlines several research possibilities regarding the development of retrieval methods for bibliographic records in Chinese Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin) It would appear that a significant proportion of users do not obtain satisshyfactory results when searching in Pinyin In order to provide these users with better retrieval methods it is essential to explore other options that can be integrated to the bibliographic data bases in a North American context where the documents in Chinese usually make up a small portion of the collections

Problemas de localizaciocircn defuentes bibliogracircficas en chino

El objetivo de este trabajo es presentar varias alternativas de investigaciocircn para el desarrollo de mocircdulos de localizaciocircn de resenas bibliogracircficas en chino Estudios anteriores mostraron los aciertos y desaciertos de la localizaciocircn basados en datos chinos transliterados en alfabeto latino (sistema pinyin) Al parecer un numeacutero considerable de usuarios no obtiene resultados muy satisfactorios cuando busca informaciocircn bibliogracircfica con este sistema Por este motivo y con el fin de facilitarles medios de localizaciocircn mejor adaptados es indispensable explorar otras posibilidades metodolocircgicas capaces de integrarse a las bases bibliogracircficas del contexto norteamericano en las que lasfuentes en chino representan normalmente una proporciocircn de las colec-ciones

Cette recherche a eacuteteacute rendue possible gracircce agrave une subvention du Conseil de recherches en sciences humaines du Canada Ce texte a eacuteteacute publieacute originalement en anglais dans International Information and Library Review This research was made possible with a grant from the Social Sciences and Humanities Research Council of Canada This article was originally published in English in the International Information and Library Review Esta investigaciocircn se realize gracias a la subvenciocircn del Consejo de Investigaciocircn en Ciencias Humanas de Canada La publicaciocircn original del texto fue en ingleacutes en la revista Intenational Information and Library Review

DANS UN ENVIRONNEMENT ougrave linformation est enregistreacutee principalement en caractegraveres romains le repeacuterage dinformation textuelle en

langue chinoise preacutesente des deacutefis particuliers et speacutecishyfiques que les systegravemes conventionnels ne relegravevent pas avec une efficaciteacute souhaitable Dans le monde occidental les systegravemes de repeacuterage informatiseacutes sont habituellement conccedilus en fonction des besoins de repeacuterage de ressources enregistreacutees dans les langues occidentales et sont par conseacutequent mal adapteacutes au repeacuterage de ressources en langue chinoise

Dans les systegravemes en ligne le repeacuterage de donneacutees en langue chinoise se fait ordinairement soit en lanccedilant des requecirctes eacutecrites en vernaculaire agrave la recherche de correspondances en vernaculaire parmi les entreacutees indexeacutees soit en lanccedilant des requecirctes romaniseacutees agrave la recherche de correspondances parmi les entreacutees romaniseacutees des index

Du point de vue de lutilisateur les deux meacutethodes soulegravevent des problegravemes et des obstacles speacutecifiques Dans le premier cas geacuteneacuterer des caractegraveres chinois pour la formulation de sa requecircte peut preacutesenter un deacutefi agrave lutilisateur Lutilisation des systegravemes dentreacutee de donneacutees conventionnels tels que le clavier dordishynateur est loin decirctre une faccedilon ideacuteale de geacuteneacuterer des caractegraveres chinois mecircme si dans les anneacutees reacutecentes des laquo eacutediteurs de meacutethodes dentreacutee raquo input method editors ou IME) ont eacuteteacute deacuteveloppeacutes et inteacutegreacutes aux systegravemes dexploitation tels que Microsoft Windows et ont faciliteacute cette tacircche Dans le second cas lorsque le repeacuterage se fait sur des entreacutees romaniseacutees le problegraveme rencontreacute est celui dun niveau eacuteleveacute dhomonymie qui dilue la preacutecision des reacutesultats du repeacuterage Cet obstacle est ducirc au fait que les marqueurs de ton ne sont geacuteneacuteralement pas enregistreacutes ou pris en compte dans le processus de lindexation il est ducirc aussi au fait que le texte est converti en uniteacutes lexicales monosyllabiques au lieu de polysyllabiques comme cest le cas par exemple des champs romaniseacutes des notices bibliographiques MARC Agrave lheure actuelle le systegraveme de romanisation le plus utiliseacute pour la transshycription des caractegraveres chinois dans les notices biblioshygraphiques est le systegraveme pinyin qui a eacuteteacute deacuteveloppeacute

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2 0 0 5 | 1 7 5

en Chine au milieu des anneacutees 1950 Les grandes bases de donneacutees bibliographiques telles que FOCLC (Online Computer Library Center) et le RLG (Research Libraries Group) contiennent des notices en caracshytegraveres pinyin En avril 2005 on comptait plus de 132 million de notices en langue chinoise dans la base WorldCat de FOCLC (OCLC 2005) Il est cependant important de noter que linformation tonale nest pas enregistreacutee Il y a quatre tons distincts dans le chinois standard moderne ainsi quun ton neutre

Une reacutecente recherche effectueacutee par lull (2002) a montreacute quun bon nombre de systegravemes automatiseacutes de bibliothegraveque ont deacutejagrave implanteacute la norme Unicode agrave des degreacutes divers mais que pour diverses raisons peu de bibliothegraveques nord-ameacutericaines offrent pour linstant un systegraveme de repeacuterage ougrave il soit possible de faire une recherche sur les donneacutees vernaculaires Tradishytionnellement les bibliothegraveques sappuient sur des textes romaniseacutes pour la recherche le tri et laffichage des notices bibliographiques de mateacuteriaux en langue chinoise Il est donc encourageant de constater leacutemershygence reacutecente dun nombre grandissant de catalogues agrave accegraves public en ligne (online public access catalogs ou OPACs) munis de fonctionnaliteacutes multiscript Certains systegravemes offrent la possibiliteacute dafficher des caractegraveres vernaculaires chinois et de soumettre des requecirctes en chinois vernaculaire1 tandis que dautres permettent laffichage de caractegraveres non romains mais nont pas encore la capaciteacute de traiter des requecirctes formuleacutees en caractegraveres non romains2

Des eacutetudes reacutecentes ont montreacute quen ce qui concerne le chinois la romanisation permet des recherches assez efficaces dans les titres de monograshyphies (Arsenault 2000 Mair 2001) Leacutetude effectueacutee par Huang sur le catalogue de lUniversiteacute de Peacutekin reacutevegravele que le repeacuterage en pinyin peut ecirctre ameacutelioreacute et faciliteacute si le systegraveme impose les conditions de seacutequence et de contiguiumlteacute tout en ignorant automatiquement les espaces entre les termes (Huang 2004) Mais il est fort improbable que ces choix puissent ecirctre programmeacutes comme paramegravetres par deacutefaut dans des systegravemes de repeacuterage ougrave les notices en pinyin sont minoritaires Une eacutetude reacutecente a montreacute que lutilisation de la romanisation (pinyin dans ce cas) pour le repeacuterage donne de bons reacutesultats de lavis dune large portion des utilisateurs Mais il est inteacuteressant dobserver quune proportion non neacutegligeable des participants qui tous avaient affirmeacute leur familiariteacute avec le pinyin ont eu des difficulteacutes agrave compleacuteter une tacircche de repeacuterage simple en pinyin En reacutealiteacute plusieurs facteurs dont

1 Parmi ceux qui valent la peine decirctre mentionneacutes citons lOPAC de la University of California (MELVYL) lthttpmelvylcdliborggt celui de Harvard University (Hollis) lthttpholliscatalogharvardedugt ainsi que celui de la University of Massachusetts lthttpfclihrlibraryumassedugt

2 Cest le cas du catalogue WorldCat de lOCLC sur linterface FirstSearch lthttp firstsearchoclcorggt du catalogue de la University of British Columbia lthttp webcatlibraryubccagt et de celui de Yale University (Orbis) lthttporbislibrary yaleedugt pour ne nommer que ceux-lagrave

le niveau deacuteducation et linterfeacuterence dialectale affectent profondeacutement le niveau de familiariteacute des utilisateurs avec le pinyin et leur eacutevaluation du pinyin dans la recherche deacuteleacutements en langue chinoise dans un catalogue public en ligne Pour fournir agrave cette clientegravele des services de repeacuterage plus adeacutequats et plus efficaces il est donc essentiel dexaminer les options meacutethodologiques en tenant compte des dispariteacutes dans la familiariteacute avec le pinyin au sein des sous-groupes dutilisateurs Il apparaicirct essentiel dadapter un certain nombre de techniques de repeacuterage selon les besoins speacutecifiques de chaque requecircte et de chaque utilisateur Il est eacutegalement neacutecessaire de sinterroger sur lapplishycabiliteacute et ladaptabiliteacute de ces techniques de repeacuterage dans un environnement nord-ameacutericain

La preacutesente eacutetude a pour but dexaminer les faccedilons possibles dinteacutegrer une varieacuteteacute de modules de repeacuterage dans les grands OPACs multilingues accesshysibles via Internet afin de repeacuterer les objets en langue chinoise qui y sont catalogueacutes Les problegravemes relieacutes au repeacuterage des notices bibliographiques en langue chinoise en contexte nord-ameacutericain sont abordeacutes Dans le but de faciliter le repeacuterage de documents en langue chinoise dans les catalogues agrave accegraves public en ligne notre eacutetude suggegravere et preacutesente plusieurs avenues de recherche sur ce thegraveme

RECHERCHES ANTEacuteRIEURES

Dans une recherche anteacuterieure nous avons rassembleacute des donneacutees en vue de mesurer leffishycaciteacute et le rendement du pinyin dans le repeacuterage des titres chinois dans les OPACs Lanalyse des donneacutees a montreacute que le taux de succegraves est assez eacuteleveacute dans le cas des recherches sur des objets speacutecifiques Vingt-quatre participants ayant tous le chinois pour langue maternelle ont eu agrave reacutealiser des recherches sur des objets speacutecifiques (cest-agrave-dire sur des titres speacutecishyfiques plutocirct que sur des thegravemes donneacutes) sur 40 titres chinois en utilisant le pinyin dans un gros catalogue public en ligne Le taux de succegraves constateacute au cours de cette expeacuterience se situe entre 80 et 90 selon le modegravele dagreacutegation et le mode de recherche utiliseacutes par les participants (Arsenault 2000154) Les entreacutees en pinyin pouvaient ecirctre enregistreacutees selon un modegravele monosyllabique (non agreacutegeacute) ou selon un modegravele polysyllabique (agreacutegeacute) suivant les politiques de deacuteveloppement locales En raison de la petite taille de leacutechantillonnage les variations entre les groupes nont pas eacuteteacute jugeacutees significatives du point de vue statistique Notons en passant que le succegraves dans les recherches sur des objets speacutecifiques se deacutefinit comme le fait de trouver cest-agrave-dire dafficher la notice biblioshygraphique de lobjet rechercheacute

En deacutepit de ce taux de succegraves plutocirct eacuteleveacute il est inteacuteressant de noter quapproximativement la moitieacute des requecirctes formuleacutees par les participants ont eacutechoueacute

1 7 6 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

TABLEAU 1

Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC

Titre exact

Mots-cleacutes dans le titre Keywords-in-titlecirc)

PINYIN (MONOSYLLABES)

59 (n=i2)

47 (n=i2)

PINYIN (POLYSYLLABES)

57 (n=i2)

48 (n=n)

ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)

Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs

En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il

TABLEAU 2

Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute

Erreurs dagreacuteshygation

Erreurs de romanisation

Autres erreurs

Total

PINYIN (MONOSYLLABES)

308 (437)

348 (494)

49 (69)

705 (lOO)

PINYIN (POLYSYLLABES)

494 (569)

319(368)

55 (63)

868 (100) j

apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne

Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)

Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise

0 Lidentification des requecirctes par traitement linguistique informatiseacute

0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques

0 Le repeacuterage trans-scripts

L E TRAITEMENT L INGUISTIQUE INFORMATISEacute

On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7

TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois

DEacuteVELOPPEUR

Xerox

Lextex

Alfa-informatica U de Groningen

RALI U de Montreacuteal

Alis Technologies

PentaMem Technology

MorphoLogic

PRODUIT

CA

Lextex Intl

Textcat

SILC

iQueacute4

PentaMem

LangWitch

URL

ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt

ltwwwlextekcomgt

ltodurletrugnl~vannoordTextCatDemo textcathtmlgt

ltwww-raliiroumontrealcaSILCSILCfrcgigt

ltquebecaliscomcastilessai_silccgigt

ltnlppetamemeomlangreccgigt

ltwwwmorphologichuorderlangwitchaspgt

VERNACU-LAIREa

Chinois

Abkhaz

Chinois

Chinois

Chinois

Albanais

Pas disp

PINYIN NON

AGREacuteGEacuteb

Catalan

Javanais

Inconnu

Allemand

Allemand

Turc

Espagnol

PINYIN

AGREacuteGEacute0

Catalan

Javanais

Inconnu

Italien

Italien

Turc

Espagnol

h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang

c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang

formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections

Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse

3 Notre traduction

1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee

La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-

duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise

LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES

Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-

4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues

ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)

Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques

L E REPEacuteRAGE TRANS-SCRIPTS

Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation

Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il

5 Notre traduction 6 Notre traduction

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 2: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

DOCUMENTATION B I B L I O l H Egrave Q U E S

Problegravemes de repeacuterage des ressources bibliographiques en langue chinoise une perspective occidentale

CLEacuteMENT AcircRSENAULT Clernentarsenaultumontrealxa

CONTEXTE DE LA RECHERCHE

KESUME | ABSTKACI5 | K t S U M E N

Ce travail a pour objet de preacutesenter plusieurs avenues de recherche pour le deacuteveloppement de modules de repeacuterage de notices bibliographiques en langue chinoise Des eacutetudes anteacuterieures ont montreacute les succegraves et les limites du repeacuterage se fondant sur des donneacutees chinoises romaniseacutees (pinyin) Il semble quune proportion non neacutegligeable des utilisateurs nobtient pas des reacutesultats tregraves satisfaisants lors du repeacuterage en pinyin Pour fournir agrave ces utilisateurs des moyens de repeacuterage mieux adapteacutes il est essentiel dexplorer dautres avenues meacutethodologiques susceptibles decirctre inteacutegreacutees aux bases bibliographiques dans le contexte nord-ameacutericain ougrave les ressources en langue chinoise repreacutesentent habituellement seulement une proportion minime des collections

On the Retrieval of Bibliographie Resources in Chinese A Western Perspective

This article outlines several research possibilities regarding the development of retrieval methods for bibliographic records in Chinese Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin) It would appear that a significant proportion of users do not obtain satisshyfactory results when searching in Pinyin In order to provide these users with better retrieval methods it is essential to explore other options that can be integrated to the bibliographic data bases in a North American context where the documents in Chinese usually make up a small portion of the collections

Problemas de localizaciocircn defuentes bibliogracircficas en chino

El objetivo de este trabajo es presentar varias alternativas de investigaciocircn para el desarrollo de mocircdulos de localizaciocircn de resenas bibliogracircficas en chino Estudios anteriores mostraron los aciertos y desaciertos de la localizaciocircn basados en datos chinos transliterados en alfabeto latino (sistema pinyin) Al parecer un numeacutero considerable de usuarios no obtiene resultados muy satisfactorios cuando busca informaciocircn bibliogracircfica con este sistema Por este motivo y con el fin de facilitarles medios de localizaciocircn mejor adaptados es indispensable explorar otras posibilidades metodolocircgicas capaces de integrarse a las bases bibliogracircficas del contexto norteamericano en las que lasfuentes en chino representan normalmente una proporciocircn de las colec-ciones

Cette recherche a eacuteteacute rendue possible gracircce agrave une subvention du Conseil de recherches en sciences humaines du Canada Ce texte a eacuteteacute publieacute originalement en anglais dans International Information and Library Review This research was made possible with a grant from the Social Sciences and Humanities Research Council of Canada This article was originally published in English in the International Information and Library Review Esta investigaciocircn se realize gracias a la subvenciocircn del Consejo de Investigaciocircn en Ciencias Humanas de Canada La publicaciocircn original del texto fue en ingleacutes en la revista Intenational Information and Library Review

DANS UN ENVIRONNEMENT ougrave linformation est enregistreacutee principalement en caractegraveres romains le repeacuterage dinformation textuelle en

langue chinoise preacutesente des deacutefis particuliers et speacutecishyfiques que les systegravemes conventionnels ne relegravevent pas avec une efficaciteacute souhaitable Dans le monde occidental les systegravemes de repeacuterage informatiseacutes sont habituellement conccedilus en fonction des besoins de repeacuterage de ressources enregistreacutees dans les langues occidentales et sont par conseacutequent mal adapteacutes au repeacuterage de ressources en langue chinoise

Dans les systegravemes en ligne le repeacuterage de donneacutees en langue chinoise se fait ordinairement soit en lanccedilant des requecirctes eacutecrites en vernaculaire agrave la recherche de correspondances en vernaculaire parmi les entreacutees indexeacutees soit en lanccedilant des requecirctes romaniseacutees agrave la recherche de correspondances parmi les entreacutees romaniseacutees des index

Du point de vue de lutilisateur les deux meacutethodes soulegravevent des problegravemes et des obstacles speacutecifiques Dans le premier cas geacuteneacuterer des caractegraveres chinois pour la formulation de sa requecircte peut preacutesenter un deacutefi agrave lutilisateur Lutilisation des systegravemes dentreacutee de donneacutees conventionnels tels que le clavier dordishynateur est loin decirctre une faccedilon ideacuteale de geacuteneacuterer des caractegraveres chinois mecircme si dans les anneacutees reacutecentes des laquo eacutediteurs de meacutethodes dentreacutee raquo input method editors ou IME) ont eacuteteacute deacuteveloppeacutes et inteacutegreacutes aux systegravemes dexploitation tels que Microsoft Windows et ont faciliteacute cette tacircche Dans le second cas lorsque le repeacuterage se fait sur des entreacutees romaniseacutees le problegraveme rencontreacute est celui dun niveau eacuteleveacute dhomonymie qui dilue la preacutecision des reacutesultats du repeacuterage Cet obstacle est ducirc au fait que les marqueurs de ton ne sont geacuteneacuteralement pas enregistreacutes ou pris en compte dans le processus de lindexation il est ducirc aussi au fait que le texte est converti en uniteacutes lexicales monosyllabiques au lieu de polysyllabiques comme cest le cas par exemple des champs romaniseacutes des notices bibliographiques MARC Agrave lheure actuelle le systegraveme de romanisation le plus utiliseacute pour la transshycription des caractegraveres chinois dans les notices biblioshygraphiques est le systegraveme pinyin qui a eacuteteacute deacuteveloppeacute

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2 0 0 5 | 1 7 5

en Chine au milieu des anneacutees 1950 Les grandes bases de donneacutees bibliographiques telles que FOCLC (Online Computer Library Center) et le RLG (Research Libraries Group) contiennent des notices en caracshytegraveres pinyin En avril 2005 on comptait plus de 132 million de notices en langue chinoise dans la base WorldCat de FOCLC (OCLC 2005) Il est cependant important de noter que linformation tonale nest pas enregistreacutee Il y a quatre tons distincts dans le chinois standard moderne ainsi quun ton neutre

Une reacutecente recherche effectueacutee par lull (2002) a montreacute quun bon nombre de systegravemes automatiseacutes de bibliothegraveque ont deacutejagrave implanteacute la norme Unicode agrave des degreacutes divers mais que pour diverses raisons peu de bibliothegraveques nord-ameacutericaines offrent pour linstant un systegraveme de repeacuterage ougrave il soit possible de faire une recherche sur les donneacutees vernaculaires Tradishytionnellement les bibliothegraveques sappuient sur des textes romaniseacutes pour la recherche le tri et laffichage des notices bibliographiques de mateacuteriaux en langue chinoise Il est donc encourageant de constater leacutemershygence reacutecente dun nombre grandissant de catalogues agrave accegraves public en ligne (online public access catalogs ou OPACs) munis de fonctionnaliteacutes multiscript Certains systegravemes offrent la possibiliteacute dafficher des caractegraveres vernaculaires chinois et de soumettre des requecirctes en chinois vernaculaire1 tandis que dautres permettent laffichage de caractegraveres non romains mais nont pas encore la capaciteacute de traiter des requecirctes formuleacutees en caractegraveres non romains2

Des eacutetudes reacutecentes ont montreacute quen ce qui concerne le chinois la romanisation permet des recherches assez efficaces dans les titres de monograshyphies (Arsenault 2000 Mair 2001) Leacutetude effectueacutee par Huang sur le catalogue de lUniversiteacute de Peacutekin reacutevegravele que le repeacuterage en pinyin peut ecirctre ameacutelioreacute et faciliteacute si le systegraveme impose les conditions de seacutequence et de contiguiumlteacute tout en ignorant automatiquement les espaces entre les termes (Huang 2004) Mais il est fort improbable que ces choix puissent ecirctre programmeacutes comme paramegravetres par deacutefaut dans des systegravemes de repeacuterage ougrave les notices en pinyin sont minoritaires Une eacutetude reacutecente a montreacute que lutilisation de la romanisation (pinyin dans ce cas) pour le repeacuterage donne de bons reacutesultats de lavis dune large portion des utilisateurs Mais il est inteacuteressant dobserver quune proportion non neacutegligeable des participants qui tous avaient affirmeacute leur familiariteacute avec le pinyin ont eu des difficulteacutes agrave compleacuteter une tacircche de repeacuterage simple en pinyin En reacutealiteacute plusieurs facteurs dont

1 Parmi ceux qui valent la peine decirctre mentionneacutes citons lOPAC de la University of California (MELVYL) lthttpmelvylcdliborggt celui de Harvard University (Hollis) lthttpholliscatalogharvardedugt ainsi que celui de la University of Massachusetts lthttpfclihrlibraryumassedugt

2 Cest le cas du catalogue WorldCat de lOCLC sur linterface FirstSearch lthttp firstsearchoclcorggt du catalogue de la University of British Columbia lthttp webcatlibraryubccagt et de celui de Yale University (Orbis) lthttporbislibrary yaleedugt pour ne nommer que ceux-lagrave

le niveau deacuteducation et linterfeacuterence dialectale affectent profondeacutement le niveau de familiariteacute des utilisateurs avec le pinyin et leur eacutevaluation du pinyin dans la recherche deacuteleacutements en langue chinoise dans un catalogue public en ligne Pour fournir agrave cette clientegravele des services de repeacuterage plus adeacutequats et plus efficaces il est donc essentiel dexaminer les options meacutethodologiques en tenant compte des dispariteacutes dans la familiariteacute avec le pinyin au sein des sous-groupes dutilisateurs Il apparaicirct essentiel dadapter un certain nombre de techniques de repeacuterage selon les besoins speacutecifiques de chaque requecircte et de chaque utilisateur Il est eacutegalement neacutecessaire de sinterroger sur lapplishycabiliteacute et ladaptabiliteacute de ces techniques de repeacuterage dans un environnement nord-ameacutericain

La preacutesente eacutetude a pour but dexaminer les faccedilons possibles dinteacutegrer une varieacuteteacute de modules de repeacuterage dans les grands OPACs multilingues accesshysibles via Internet afin de repeacuterer les objets en langue chinoise qui y sont catalogueacutes Les problegravemes relieacutes au repeacuterage des notices bibliographiques en langue chinoise en contexte nord-ameacutericain sont abordeacutes Dans le but de faciliter le repeacuterage de documents en langue chinoise dans les catalogues agrave accegraves public en ligne notre eacutetude suggegravere et preacutesente plusieurs avenues de recherche sur ce thegraveme

RECHERCHES ANTEacuteRIEURES

Dans une recherche anteacuterieure nous avons rassembleacute des donneacutees en vue de mesurer leffishycaciteacute et le rendement du pinyin dans le repeacuterage des titres chinois dans les OPACs Lanalyse des donneacutees a montreacute que le taux de succegraves est assez eacuteleveacute dans le cas des recherches sur des objets speacutecifiques Vingt-quatre participants ayant tous le chinois pour langue maternelle ont eu agrave reacutealiser des recherches sur des objets speacutecifiques (cest-agrave-dire sur des titres speacutecishyfiques plutocirct que sur des thegravemes donneacutes) sur 40 titres chinois en utilisant le pinyin dans un gros catalogue public en ligne Le taux de succegraves constateacute au cours de cette expeacuterience se situe entre 80 et 90 selon le modegravele dagreacutegation et le mode de recherche utiliseacutes par les participants (Arsenault 2000154) Les entreacutees en pinyin pouvaient ecirctre enregistreacutees selon un modegravele monosyllabique (non agreacutegeacute) ou selon un modegravele polysyllabique (agreacutegeacute) suivant les politiques de deacuteveloppement locales En raison de la petite taille de leacutechantillonnage les variations entre les groupes nont pas eacuteteacute jugeacutees significatives du point de vue statistique Notons en passant que le succegraves dans les recherches sur des objets speacutecifiques se deacutefinit comme le fait de trouver cest-agrave-dire dafficher la notice biblioshygraphique de lobjet rechercheacute

En deacutepit de ce taux de succegraves plutocirct eacuteleveacute il est inteacuteressant de noter quapproximativement la moitieacute des requecirctes formuleacutees par les participants ont eacutechoueacute

1 7 6 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

TABLEAU 1

Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC

Titre exact

Mots-cleacutes dans le titre Keywords-in-titlecirc)

PINYIN (MONOSYLLABES)

59 (n=i2)

47 (n=i2)

PINYIN (POLYSYLLABES)

57 (n=i2)

48 (n=n)

ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)

Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs

En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il

TABLEAU 2

Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute

Erreurs dagreacuteshygation

Erreurs de romanisation

Autres erreurs

Total

PINYIN (MONOSYLLABES)

308 (437)

348 (494)

49 (69)

705 (lOO)

PINYIN (POLYSYLLABES)

494 (569)

319(368)

55 (63)

868 (100) j

apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne

Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)

Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise

0 Lidentification des requecirctes par traitement linguistique informatiseacute

0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques

0 Le repeacuterage trans-scripts

L E TRAITEMENT L INGUISTIQUE INFORMATISEacute

On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7

TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois

DEacuteVELOPPEUR

Xerox

Lextex

Alfa-informatica U de Groningen

RALI U de Montreacuteal

Alis Technologies

PentaMem Technology

MorphoLogic

PRODUIT

CA

Lextex Intl

Textcat

SILC

iQueacute4

PentaMem

LangWitch

URL

ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt

ltwwwlextekcomgt

ltodurletrugnl~vannoordTextCatDemo textcathtmlgt

ltwww-raliiroumontrealcaSILCSILCfrcgigt

ltquebecaliscomcastilessai_silccgigt

ltnlppetamemeomlangreccgigt

ltwwwmorphologichuorderlangwitchaspgt

VERNACU-LAIREa

Chinois

Abkhaz

Chinois

Chinois

Chinois

Albanais

Pas disp

PINYIN NON

AGREacuteGEacuteb

Catalan

Javanais

Inconnu

Allemand

Allemand

Turc

Espagnol

PINYIN

AGREacuteGEacute0

Catalan

Javanais

Inconnu

Italien

Italien

Turc

Espagnol

h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang

c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang

formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections

Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse

3 Notre traduction

1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee

La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-

duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise

LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES

Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-

4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues

ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)

Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques

L E REPEacuteRAGE TRANS-SCRIPTS

Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation

Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il

5 Notre traduction 6 Notre traduction

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 3: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

en Chine au milieu des anneacutees 1950 Les grandes bases de donneacutees bibliographiques telles que FOCLC (Online Computer Library Center) et le RLG (Research Libraries Group) contiennent des notices en caracshytegraveres pinyin En avril 2005 on comptait plus de 132 million de notices en langue chinoise dans la base WorldCat de FOCLC (OCLC 2005) Il est cependant important de noter que linformation tonale nest pas enregistreacutee Il y a quatre tons distincts dans le chinois standard moderne ainsi quun ton neutre

Une reacutecente recherche effectueacutee par lull (2002) a montreacute quun bon nombre de systegravemes automatiseacutes de bibliothegraveque ont deacutejagrave implanteacute la norme Unicode agrave des degreacutes divers mais que pour diverses raisons peu de bibliothegraveques nord-ameacutericaines offrent pour linstant un systegraveme de repeacuterage ougrave il soit possible de faire une recherche sur les donneacutees vernaculaires Tradishytionnellement les bibliothegraveques sappuient sur des textes romaniseacutes pour la recherche le tri et laffichage des notices bibliographiques de mateacuteriaux en langue chinoise Il est donc encourageant de constater leacutemershygence reacutecente dun nombre grandissant de catalogues agrave accegraves public en ligne (online public access catalogs ou OPACs) munis de fonctionnaliteacutes multiscript Certains systegravemes offrent la possibiliteacute dafficher des caractegraveres vernaculaires chinois et de soumettre des requecirctes en chinois vernaculaire1 tandis que dautres permettent laffichage de caractegraveres non romains mais nont pas encore la capaciteacute de traiter des requecirctes formuleacutees en caractegraveres non romains2

Des eacutetudes reacutecentes ont montreacute quen ce qui concerne le chinois la romanisation permet des recherches assez efficaces dans les titres de monograshyphies (Arsenault 2000 Mair 2001) Leacutetude effectueacutee par Huang sur le catalogue de lUniversiteacute de Peacutekin reacutevegravele que le repeacuterage en pinyin peut ecirctre ameacutelioreacute et faciliteacute si le systegraveme impose les conditions de seacutequence et de contiguiumlteacute tout en ignorant automatiquement les espaces entre les termes (Huang 2004) Mais il est fort improbable que ces choix puissent ecirctre programmeacutes comme paramegravetres par deacutefaut dans des systegravemes de repeacuterage ougrave les notices en pinyin sont minoritaires Une eacutetude reacutecente a montreacute que lutilisation de la romanisation (pinyin dans ce cas) pour le repeacuterage donne de bons reacutesultats de lavis dune large portion des utilisateurs Mais il est inteacuteressant dobserver quune proportion non neacutegligeable des participants qui tous avaient affirmeacute leur familiariteacute avec le pinyin ont eu des difficulteacutes agrave compleacuteter une tacircche de repeacuterage simple en pinyin En reacutealiteacute plusieurs facteurs dont

1 Parmi ceux qui valent la peine decirctre mentionneacutes citons lOPAC de la University of California (MELVYL) lthttpmelvylcdliborggt celui de Harvard University (Hollis) lthttpholliscatalogharvardedugt ainsi que celui de la University of Massachusetts lthttpfclihrlibraryumassedugt

2 Cest le cas du catalogue WorldCat de lOCLC sur linterface FirstSearch lthttp firstsearchoclcorggt du catalogue de la University of British Columbia lthttp webcatlibraryubccagt et de celui de Yale University (Orbis) lthttporbislibrary yaleedugt pour ne nommer que ceux-lagrave

le niveau deacuteducation et linterfeacuterence dialectale affectent profondeacutement le niveau de familiariteacute des utilisateurs avec le pinyin et leur eacutevaluation du pinyin dans la recherche deacuteleacutements en langue chinoise dans un catalogue public en ligne Pour fournir agrave cette clientegravele des services de repeacuterage plus adeacutequats et plus efficaces il est donc essentiel dexaminer les options meacutethodologiques en tenant compte des dispariteacutes dans la familiariteacute avec le pinyin au sein des sous-groupes dutilisateurs Il apparaicirct essentiel dadapter un certain nombre de techniques de repeacuterage selon les besoins speacutecifiques de chaque requecircte et de chaque utilisateur Il est eacutegalement neacutecessaire de sinterroger sur lapplishycabiliteacute et ladaptabiliteacute de ces techniques de repeacuterage dans un environnement nord-ameacutericain

La preacutesente eacutetude a pour but dexaminer les faccedilons possibles dinteacutegrer une varieacuteteacute de modules de repeacuterage dans les grands OPACs multilingues accesshysibles via Internet afin de repeacuterer les objets en langue chinoise qui y sont catalogueacutes Les problegravemes relieacutes au repeacuterage des notices bibliographiques en langue chinoise en contexte nord-ameacutericain sont abordeacutes Dans le but de faciliter le repeacuterage de documents en langue chinoise dans les catalogues agrave accegraves public en ligne notre eacutetude suggegravere et preacutesente plusieurs avenues de recherche sur ce thegraveme

RECHERCHES ANTEacuteRIEURES

Dans une recherche anteacuterieure nous avons rassembleacute des donneacutees en vue de mesurer leffishycaciteacute et le rendement du pinyin dans le repeacuterage des titres chinois dans les OPACs Lanalyse des donneacutees a montreacute que le taux de succegraves est assez eacuteleveacute dans le cas des recherches sur des objets speacutecifiques Vingt-quatre participants ayant tous le chinois pour langue maternelle ont eu agrave reacutealiser des recherches sur des objets speacutecifiques (cest-agrave-dire sur des titres speacutecishyfiques plutocirct que sur des thegravemes donneacutes) sur 40 titres chinois en utilisant le pinyin dans un gros catalogue public en ligne Le taux de succegraves constateacute au cours de cette expeacuterience se situe entre 80 et 90 selon le modegravele dagreacutegation et le mode de recherche utiliseacutes par les participants (Arsenault 2000154) Les entreacutees en pinyin pouvaient ecirctre enregistreacutees selon un modegravele monosyllabique (non agreacutegeacute) ou selon un modegravele polysyllabique (agreacutegeacute) suivant les politiques de deacuteveloppement locales En raison de la petite taille de leacutechantillonnage les variations entre les groupes nont pas eacuteteacute jugeacutees significatives du point de vue statistique Notons en passant que le succegraves dans les recherches sur des objets speacutecifiques se deacutefinit comme le fait de trouver cest-agrave-dire dafficher la notice biblioshygraphique de lobjet rechercheacute

En deacutepit de ce taux de succegraves plutocirct eacuteleveacute il est inteacuteressant de noter quapproximativement la moitieacute des requecirctes formuleacutees par les participants ont eacutechoueacute

1 7 6 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

TABLEAU 1

Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC

Titre exact

Mots-cleacutes dans le titre Keywords-in-titlecirc)

PINYIN (MONOSYLLABES)

59 (n=i2)

47 (n=i2)

PINYIN (POLYSYLLABES)

57 (n=i2)

48 (n=n)

ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)

Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs

En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il

TABLEAU 2

Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute

Erreurs dagreacuteshygation

Erreurs de romanisation

Autres erreurs

Total

PINYIN (MONOSYLLABES)

308 (437)

348 (494)

49 (69)

705 (lOO)

PINYIN (POLYSYLLABES)

494 (569)

319(368)

55 (63)

868 (100) j

apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne

Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)

Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise

0 Lidentification des requecirctes par traitement linguistique informatiseacute

0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques

0 Le repeacuterage trans-scripts

L E TRAITEMENT L INGUISTIQUE INFORMATISEacute

On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7

TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois

DEacuteVELOPPEUR

Xerox

Lextex

Alfa-informatica U de Groningen

RALI U de Montreacuteal

Alis Technologies

PentaMem Technology

MorphoLogic

PRODUIT

CA

Lextex Intl

Textcat

SILC

iQueacute4

PentaMem

LangWitch

URL

ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt

ltwwwlextekcomgt

ltodurletrugnl~vannoordTextCatDemo textcathtmlgt

ltwww-raliiroumontrealcaSILCSILCfrcgigt

ltquebecaliscomcastilessai_silccgigt

ltnlppetamemeomlangreccgigt

ltwwwmorphologichuorderlangwitchaspgt

VERNACU-LAIREa

Chinois

Abkhaz

Chinois

Chinois

Chinois

Albanais

Pas disp

PINYIN NON

AGREacuteGEacuteb

Catalan

Javanais

Inconnu

Allemand

Allemand

Turc

Espagnol

PINYIN

AGREacuteGEacute0

Catalan

Javanais

Inconnu

Italien

Italien

Turc

Espagnol

h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang

c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang

formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections

Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse

3 Notre traduction

1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee

La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-

duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise

LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES

Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-

4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues

ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)

Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques

L E REPEacuteRAGE TRANS-SCRIPTS

Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation

Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il

5 Notre traduction 6 Notre traduction

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 4: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

TABLEAU 1

Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC

Titre exact

Mots-cleacutes dans le titre Keywords-in-titlecirc)

PINYIN (MONOSYLLABES)

59 (n=i2)

47 (n=i2)

PINYIN (POLYSYLLABES)

57 (n=i2)

48 (n=n)

ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)

Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs

En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il

TABLEAU 2

Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute

Erreurs dagreacuteshygation

Erreurs de romanisation

Autres erreurs

Total

PINYIN (MONOSYLLABES)

308 (437)

348 (494)

49 (69)

705 (lOO)

PINYIN (POLYSYLLABES)

494 (569)

319(368)

55 (63)

868 (100) j

apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne

Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)

Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise

0 Lidentification des requecirctes par traitement linguistique informatiseacute

0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques

0 Le repeacuterage trans-scripts

L E TRAITEMENT L INGUISTIQUE INFORMATISEacute

On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7

TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois

DEacuteVELOPPEUR

Xerox

Lextex

Alfa-informatica U de Groningen

RALI U de Montreacuteal

Alis Technologies

PentaMem Technology

MorphoLogic

PRODUIT

CA

Lextex Intl

Textcat

SILC

iQueacute4

PentaMem

LangWitch

URL

ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt

ltwwwlextekcomgt

ltodurletrugnl~vannoordTextCatDemo textcathtmlgt

ltwww-raliiroumontrealcaSILCSILCfrcgigt

ltquebecaliscomcastilessai_silccgigt

ltnlppetamemeomlangreccgigt

ltwwwmorphologichuorderlangwitchaspgt

VERNACU-LAIREa

Chinois

Abkhaz

Chinois

Chinois

Chinois

Albanais

Pas disp

PINYIN NON

AGREacuteGEacuteb

Catalan

Javanais

Inconnu

Allemand

Allemand

Turc

Espagnol

PINYIN

AGREacuteGEacute0

Catalan

Javanais

Inconnu

Italien

Italien

Turc

Espagnol

h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang

c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang

formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections

Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse

3 Notre traduction

1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee

La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-

duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise

LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES

Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-

4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues

ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)

Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques

L E REPEacuteRAGE TRANS-SCRIPTS

Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation

Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il

5 Notre traduction 6 Notre traduction

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 5: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois

DEacuteVELOPPEUR

Xerox

Lextex

Alfa-informatica U de Groningen

RALI U de Montreacuteal

Alis Technologies

PentaMem Technology

MorphoLogic

PRODUIT

CA

Lextex Intl

Textcat

SILC

iQueacute4

PentaMem

LangWitch

URL

ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt

ltwwwlextekcomgt

ltodurletrugnl~vannoordTextCatDemo textcathtmlgt

ltwww-raliiroumontrealcaSILCSILCfrcgigt

ltquebecaliscomcastilessai_silccgigt

ltnlppetamemeomlangreccgigt

ltwwwmorphologichuorderlangwitchaspgt

VERNACU-LAIREa

Chinois

Abkhaz

Chinois

Chinois

Chinois

Albanais

Pas disp

PINYIN NON

AGREacuteGEacuteb

Catalan

Javanais

Inconnu

Allemand

Allemand

Turc

Espagnol

PINYIN

AGREacuteGEacute0

Catalan

Javanais

Inconnu

Italien

Italien

Turc

Espagnol

h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang

c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang

formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections

Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse

3 Notre traduction

1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee

La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-

duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise

LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES

Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-

4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues

ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)

Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques

L E REPEacuteRAGE TRANS-SCRIPTS

Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation

Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il

5 Notre traduction 6 Notre traduction

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 6: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise

LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES

Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-

4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues

ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)

Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques

L E REPEacuteRAGE TRANS-SCRIPTS

Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation

Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il

5 Notre traduction 6 Notre traduction

DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 7: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

FIGURE l Modegravele de repeacuterage traditionnel

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)

ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION

Romanisation Romanisation Romanisation

Autres meacutethodes dentreacutee Vernaculaire Vernaculaire

faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous

Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)

IMPLICATIONS DE LA RECHERCHE

Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg

SOIIRCFR CONSUI TFFS

Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50

2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736

Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press

1968 A grammar of spoken Chinese Berkeley University of California Press

Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today

Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89

Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)

Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100

King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University

Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic

Journal 7

Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management

35 (4) 443-462

OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)

Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185

1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 8: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

Xie Yinglian et David OHallaron 2002 Locality in search engine

queries and its implications for caching Proceedings of IEEE

INFOCOM mdash The Conference on Computer Communications

lthttpwww-2cscmuedu~drohpapersqueryinfocom

pdfgt

Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a

probabilistic model for cross-lingual information retrieval

SIGIRoi 105-110

Yin Binyong et Mary Felley 1990 Chinese Romanization

pronunciation and orthography Beijing Sinologua

A N N F X F

Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003

Syllabe

qiong

zhei

zhui

ceng

yu

xian

jiao

jia

bian

zuo

xiu

qiao

xue

xiong

xin

dian

jian

nian

xing

xiao

jiu

zhong

zhun

qi

zong

xiang

qian

zheng

jue

zhuang

guan

xia

guo

jie

zhai

qiang

jiang

zhuan

zhu

KWds Titre

8 6

1

378

576

37601s

16822

12398

10745

10575

9398

2285

9 4 9

36015

656

14323

11685

15370

11729

10067

10638

17008

15016

530

13818

4012

10150

4053

12095

1597

1402

11272

2597

15220

10923

1140

9 6 0

4974

956l

13807

KWds Titre amp

la=Chinois

8 6

1

377

573

37323

16646

12263

10619

10446

9283

2257

937

35505

6 4 6

14097

11499

15114

11526

9891

10452

16699

14733

5 2 0

13551

3934

9949

3970

11847

1564

1373

11038

2543

14897

10690

1115

938

4857

9336

13474

Ratio

10000

10000

9974

9948

9926

9895

9891

9883

9878

9878

9877

9874

9858

9848

9842

9841

9833

9827

9825

9825

9818

9812

9811

9807

9806

9802

9795

9795

9793

9793

9792

9792

9788

9787

978l

9771

9765

9765

9759

Rang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

2 0

21

2 2

23

2 4

25

2 6

27

2 8

2 9

3 0

31

32

33

3 4

35

36

37

38

39

Rang cum

025

049

074

098

123

147

172

197

221

246

270

295

349

344

369

393

418

442

467

491

516

541

565

590

614

639

663

688

713

737

762

786

811

835

860

885

909

934

958

Syllabe

qing

ren

guang

cang

zhan

diao

zhuo

zhen

qu

xun

lian

zha

shuai

qiu

zhua

cun

xuan

gou

yue

gong

qun

zi

cuo

biao

zhang

zhao

jing

zhe

zeng

qin

ge ng

zhou

zai

g

zao

deng

zou

gu i

ji

mian

ruo

xu

zui

qie

gao

luo

duan

guai

lue

yan

shuo

cai

jin

rong

jiong

KWds Titre

9002

14828

2075

1689

8556

1834

182

4227

7327

3019

2625

4 2 0

3 8 8

2148

3 0

2302

12568

1691

3738

15218

611

15689

2 2 6

2271

3293

1480

20243

5148

6 4 0

1921

3 4 2

3038

3834

13825

1756

2141

1350

3433

S8104

1228

2 9 8

3703

1999

2 2 0

6002

1655

1726

287

2361

22830

8103

5766

10831

1646

12

KWds Titre amp

la=Chinois

8782

14464

2021

1645

8328

1785

177

4110

7119

2933

2550

4 0 8

376

2078

2 9

2225

12145

1634

3611

14696

5 9 0

15143

218

2190

3171

1424

19442

4936

612

1833

3 2 6

2886

3630

13081

1656

2014

1266

3219

54461

1150

279

3464

1869

2 0 5

5588

1534

1597

2 6 5

2179

21059

7472

5298

9941

1510

n

Ratio

9756

9755

9740

9739

9734

9733

9725

9723

9716

9745

9714

9714

9691

9674

9667

9666

9663

9663

9660

9657

9656

9652

9646

9643

9630

9622

9604

9588

9563

9542

9532

95oo

9468

9462

9431

9407

9378

9377

9373

9365

9362

9355

9350

9318

9310

9269

9253

9233

9229

9224

9221

9188

9178

9174

9167

Rang

4 0

41

4 2

4 3

4 4

45

4 6

47

4 8

4 9

5 0

51

52

53

5 4

55

56

57

58

59

6 0

61

6 2

6 3

6 4

65

6 6

6 7

6 8

6 9

7 0

71

72

73

74

75

76

77

78

79

8 0

81

82

83

8 4

85

8 6

87

88

89

9 0

91

9 2

93

9 4

Rang cum

983

1007

1032

1057

1081

1106

1130

1155

1179

1204

1229

1253

1278

1302

1327

1351

1376

1400

1425

1450

1474

1499

1523

1548

1572

1597

1622

1646

1671

1695

1720

1744

1769

1794

1818

1843

1867

1892

1916

1941

1966

1990

2015

2039

2064

2088

2113

2138

2162

2187

2211

2236

2260

2285

2310

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 9: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

Syllabe

cong

pian

shao

wen

neng

shuang

shen

bao

dang

wai

tian

ying

huan

dui

dao

niao

sheng

gai

nong

lun

ge huo

tong

liang

heng

ming

quan

shou

miao

shang

zhi

wu

liao

liu

fang

kuai

fen

feng

xie

hou

tiao

fa

yuan

wei

ci

gua

lu lu

shui

ping

pin

shu

meng

yao

hui

ling

KWds Titre

4 6 4 9 2

3104

3239

52293

1 0 0 3

733

5 4 0 3

9218

8531

6134

3338

11755

2795

3293

6 7 6 6

611

22578

6197

4 2 8 2

24752

10263

5 0 4 5

11263

4 6 4 3

1142

18547

8911

7861

1290

9529

32643

21817

11756

6748

13931

1196

6635

7385

3554

2681

2919

29413

19129

11937

1 0 2 8 6

257

2 2 6 4 6

6199

7958

6128

73897

3143

7 9 0 8

2 6 2 0 0

4 6 0 1

KWds Titre amp

la=Chinois

4 2 5 2 8

2827

2932

47222

9 0 5

6 6 1

4 8 6 7

8287

7 6 6 9

5 4 9 6

2 9 8 9

10510

2 4 8 7

2 9 2 9

6 0 1 8

543

2 0 0 3 4

5 4 9 4

3777

21753

9 0 1 8

4 4 3 2

9 8 3 6

4 0 4 6

9 9 4

16133

7750

6 8 3 4

1118

8 2 4 6

28243

18872

10154

5818

11988

1017

5635

6 2 6 1

3 0 1 0

2 2 6 7

2 4 5 2

2 4 6 6 9

16035

9 9 9 9

8 6 0 2

214

18845

5131

6 5 4 0

5025

60526

2567

6 4 5 4

21378

3751

Ratio

9 1 4 7

9108

9 0 5 2

9 0 3 0

9 0 2 3

9018

9 0 0 8

8 9 9 0

8 9 9 0

8 9 6 0

8 9 5 4

8 9 4 1

88 98

8895

8 8 9 4

8 8 8 7

8 8 7 3

8 8 6 6

8 8 2 1

8788

8 7 8 7

8 7 8 5

8 7 3 3

87 14

8 7 0 4

8 6 9 8

8 6 9 7

8 6 9 4

8 6 6 7

8 6 5 4

8 6 5 2

8 6 5 0

8 6 3 7

8 6 2 2

8 6 0 5

8 5 0 3

8 4 9 3

84 78

8 4 6 9

8 4 5 6

8 4 0 0

8 3 8 7

8 3 8 3

8 3 7 6

8 3 6 3

8327

8 3 2 2

8 2 7 7

8218

8 2 0 0

8191

81 67

8 1 6 1

8 1 6 0

8 i 5 3

Rang

9 5

9 6

97

9 8

9 9

1 0 0

101

102

103

1 0 4

105

1 0 6

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

Rang cum

2 3 3 4

2359

2 3 8 3

2 4 0 8

2 4 3 2

2 4 5 7

2 4 8 2

2 5 0 6

2 5 3 1

25 55

2 5 8 0

2 6 0 4

2 6 2 9

2 6 5 4

2 6 7 8

2 7 0 3

2727

2 7 5 2

2 7 7 6

2 8 0 1

2 8 2 6

2 8 5 0

2 8 7 5

2 8 9 9

2 9 2 4

2 9 4 8

2 9 7 3

2 9 9 8

3 0 2 2

3 0 4 7

3071

3 0 9 6

3120

31 45

31 70

31 94

32 19

3 2 4 3

3 2 6 8

3 2 9 2

3317

3 3 4 2

3 3 6 6

3 3 9 1

34 15

3 4 4 0

3 4 6 4

3 4 8 9

3 5 4 4

35 38

3563

35 87

3 6 1 2

3 6 3 6

3 6 6 1

1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Syllabe

hao

leng

yin

ju bie

peng

shi

chuang

hua

huang

cheng

weng

zang

nuan

kua

lin

fei

yun

jun

huai

shan

kou

bing

kuang

niang

wang

zuan

ydegng chuan

piao

dong

dou

rou

xi

suan

ruan

ding

ting

pei

bai

tan

chang

mei

ye

tuan

fu

nan

cao

kao

wan

tao

tuo

tang

yi gei

KWds Titre

4 0 4 2

345

8725

6 7 8 9

6 5 8

875

79522

4 0 4 7

3 4 o 8 l

3237

18104

156

1026

102

598

5 0 2 0

2 8 4 3

6 5 2 2

4158

8 8 8

6 5 4 5

2 4 2 9

2750

4 4 7 9

2 2 8

5570

323

8 3 0 8

12683

2 0 2 4

7 7 0 3

1142

133

2 4 4 8 0

1754

2 6 8

2 4 7 7

3742

5 9 9 6

6 9 7 7

10791

11158

8219

16051

1992

12580

8144

2 0 5 7

8 6 4 7

6514

6874

8 6 2

6611

37223

413

KWds Titre amp

la=Chinois

3 2 9 4

281

7 1 0 0

5523

535

711

64143

3254

27293

2582

14413

124

815

81

471

3 9 4 2

2 2 2 5

5 0 8 4

3218

685

5 0 4 5

1869

2111

3438

175

4275

2 4 6

6313

9 5 2 9

1504

5 7 0 3

8 4 4

9 8

17920

1283

195

1801

2 7 2 0

4357

5 0 6 6

7813

8 0 5 8

5935

11540

1425

8 9 9 7

5821

1467

6139

4611

4 7 8 2

5 9 6

4567

25697

285

Ratio

8149

8 1 4 5

81 38

8 i 3 5

81 31

8 1 2 6

8 0 6 6

8 0 4 1

8 0 0 8

7 9 7 7

7 9 6 1

7 9 4 9

79gt43

7 9 4 1

7 8 7 6

7 8 5 3

7 8 2 6

7 7 9 5

7 7 3 9

7 7 1 4

7 7 o 8

7 6 9 5

76 76

76 76

7 6 7 5

7 6 7 5

7616

7 5 9 9

7513

7431

74 04

7 3 9 1

7 3 6 8

73 20

7315

7276

7271

7 2 6 9

72 67

7 2 6 1

7 2 4 0

7222

7 2 2 1

7 1 9 0

71 54

71 52

7 1 4 8

7132

7 1 0 0

70 79

6 9 5 7

6 9 1 4

6 9 0 8

6 9 0 4

6 9 0 1

Rang

150

151

152

153

154

155

156

157

158

159

1 6 0

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

2 0 0

2 0 1

2 0 2

2 0 3

2 0 4

Rang cum

3686

3 7 i o

37 35

37 59

3 7 8 4

3 8 0 8

3833

3 8 5 7

3 8 8 2

3 9 0 7

3 9 3 1

3 9 5 6

3 9 8 o

4 0 0 5

4 0 2 9

4 0 5 4

4 0 7 9

41 03

4 1 2 8

41 52

4 1 7 7

4 2 0 1

4 2 2 6

4 2 5 1

4 2 7 5

43oo

4 3 2 4

4 3 4 9

4373

4 3 9 8

4 4 2 3

4 4 4 7

4 4 7 2

4 4 9 6

4521

4 5 4 5

4 5 7 0

4 5 9 5

4 6 1 9

4 6 4 4

4 6 6 8

4 6 9 3

47 17

4 7 4 2

47 67

4 7 9 1

4816

4 8 4 0

4 8 6 5

4 8 8 9

4 9 4 4

4 9 3 9

4 9 6 3

4 9 8 8

5 0 1 2

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 10: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

Syllabe

bu

pao

shua

chan

mao

gan

chao

chu

qia

ning

wo

fo mu

lie

fan

lai

teng

pu

chun

seng

cui

chou

miu

yang

shun

tai

li

hu

kuan

beng

ku

lao

ri

shuan

suo

hei

keng

chen

kang

hai

ban

chi

she

niu

ti

ce

tui

han

kuo

er

hun

cha

chai

sha

tu

KWds Titre

7879

53i8

214

10734

5589

2663

4929

23698

6

923

4919

2392

6882

7757

6068

3193

9 6 8

9308

5513

238

1694

3426

6 4

11979

329

15667

5199S

6725

4700

112

1 4 m

3932

5130

27

5353

974

287

7651

4781

10913

6056

34256

25554

574

34524

11849

2620

13449

20033

8401

2702

7637

1652

1701

25519

KWds Titre amp

la=Chinois

5431

3649

146

7323

370

1794

3316

15920

4

6 0 9

3241

1569

4513

5061

3959

2082

631

6046

3527

152

1076

2170

4 0

7469

2 0 5

9721

32113

4130

2885

6 8

8544

2369

3075

16

3172

571

166

4425

2746

6240

3453

19459

14381

323

19219

6568

1434

7203

10704

4338

1392

3932

834

855

12746

Ratio

6893

6862

6822

6822

6745

6737

6728

6718

6667

6598

6589

6559

6558

6524

6524

6521

6519

6495

6398

6387

6352

6334

6250

6235

6231

6205

6176

6141

6138

6071

6055

6025

5994

5926

5926

5862

5784

5784

5744

5718

5702

5680

5628

5627

5567

5543

5473

5356

5343

5164

5152

5149

5048

5026

4995

Rang

2 0 5

2 0 6

2 0 7

2 0 8

2 0 9

210

211

212

213

214

215

216

217

218

219

2 2 0

221

2 2 2

223

2 2 4

225

2 2 6

227

2 2 8

2 2 9

2 3 0

231

232

233

234

235

236

237

238

239

2 4 0

2 4 1

2 4 2

2 4 3

2 4 4

2 4 5

2 4 6

2 4 7

2 4 8

2 4 9

2 5 0

251

252

253

254

255

256

257

258

259

Rang cum

5037

5061

5086

5111

5i35

5160

5184

5209

5233

5258

5283

5307

5332

5356

538i

5405

543o

5455

5479

5504

5528

5553

5577

5602

5627

5651

5676

5700

5725

5749

5774

5799

5823

5848

5872

5897

5921

5946

5971

5995

6020

6044

6069

6093

6118

6143

6167

6192

6216

6241

6265

6290

6314

6339

6364

Syllabe

tie

cuan

mou

pang

min

gang

chui

kan

lan

n u n u

ran

sui

bo

ben

pai

hong

hang

lei

dai

pen

zun

luan

ke

Pi | lou

kui

mo

chong

ta

kong

pou

ze

nei

si

nuo

he

mang

pan

zan

juan

rang

ai

sai

ya

sou

kun

lang

nao

di

kai

tou

duo

zen

bi

che

KWds Titre

2010

4 9

8 9 9

659

33348

4197

6 5 2

24524

5673

6406

3172

4638

5371

11703

5742

6909

3140

8362

52127

6497

3 0 7

8 6 6

24843

7575

3042

6 0 0

10688

3774

16217

6017

712

3980

6102

33425

189

28720

6 5 0

10456

336

16134

9 4 1

7555

1489

9319

527

2250

3209

1966

189115

17399

9442

3250

3343

18820

12787

KWds Titre amp

la=Chinois

9 8 9

2 4

4 3 9

313

15465

1925

2 9 8

11133

2557

2873

1393

2026

2304

4864

2364

2833

1263

3306

19886

2475

115

3 2 4

8927

2620

1049

2 0 4

3600

1269

5366

1968

232

1283

1946

10310

58

8670

194

3120

9 8

4596

2 6 4

2057

4 0 1

2493

139

588

7 7 0

4 6 8

44360

3917

2115

7 0 3

711

3971

2522

Ratio

4920

4898

4883

4750

4637

4587

4571

4540

4507

4485

4392

4368

4290

4156

4117

4100

4022

3954

3815

3809

3746

3741

3593

3459

3448

3400

3368

3362

3309

3271

3258

3224

3189

3085

3069

3019

2985

2984

2917

2849

2806

2723

2693

2675

2638

2613

2400

2380

2346

2251

2240

2163

2127

2110

1972

Rang

2 6 0

2 6 1

2 6 2

2 6 3

2 6 4

2 6 5

2 6 6

2 6 7

2 6 8

2 6 9

2 7 0

271

272

273

274

275

2 7 6

277

278

279

2 8 0

281

2 8 2

283

2 8 4

285

2 8 6

287

2 8 8

2 8 9

2 9 0

291

2 9 2

2 9 3

2 9 4

295

2 9 6

2 9 7

2 9 8

2 9 9

3 0 0

3 0 1

3 0 2

3 0 3

3 0 4

3 0 5

3 0 6

3 0 7

3 0 8

3 0 9

310

311

312

313

314

Rang cum

6388 1

6413

6437

6462

6486

6511

6536

6560

6585

6609

6634

6658

6683

6708

6732

6757

6781

6806

6830

6855

6880

6904

6929

6953

6978

7002

7027

7052

7076

7101

7125

7150

7174

7i99

7224

7248

7273

7297

7322

7346

7371

7396

7420

7445

7469

7494

7518

7543

7568

7592

7617

7641

7666

7690

7745

DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 11: Problèmes de repérage des ressources bibliographiques en ... · Chinese. Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin).

Syllabe

tun

bang

san

da

su

ba

reng

kei

gen

rao

mi

ma

bei

zei

te

nang

zu

cen

rui

ao

chua

bin

mie

sen

long

nin

sang

nue

nie

men

se

you

fou

shai

re

sun

song

du

ang

ru

can

dan

lo

za

mai

pa

shei

KWds Titre

8 6 4

1696

46321

86674

34974

14048

2 0

3 6 8

3208

539

23428

14638

28728

171

20169

6 6 8

50782

2 6 8

6 0 6

5951

281

2099

728

3521

9976

8 9 6

3607

112

1421

30926

20116

99761

596

231

11131

14963

45384

116542

6 7 6

36328

28152

31568

14878

32232

16007

23786

82

KWds Titre amp

la=Chinois

168

325

7726

14299

5598

2222

3

53

453

71

2994

1828

3541

21

2472

79

5866

3 0

66

633

2 9

2 0 9

72

3 2 4

9 0 1

74

297

9

112

2308

1445

7131

41

15

715

8 6 2

2609

6243

3 4

1708

1318

1323

595

1256

597

885

3

Ratio

1944

1916

1668

1650

1601

1582

1500

1440

1412

1347

1278

1249

1233

1228

1226

1183

1155

1119

1089

1064

1032

996

989

920

903

826

823

804

788

746

718

715

688

649

642

576

575

536

503

470

468

449

400

390

373

372

366

Rang

315

316

317

318

319

3 2 0

321

322

323

3 2 4

325

3 2 6

327

3 2 8

3 2 9

3 3 0

331

332

333

334

335

336

337

338

339

3 4 0

341

3 4 2

3 4 3

3 4 4

345

3 4 6

347

3 4 8

3 4 9

350

351

352

353

354

355

356

357

358

359

3 6 0

361

Rang cum

7740

7764

7789

7813

7838

7862

7887

7912

7936

796i

7985

8010

8034

8059

8084

8108

8133

8157

8182

8206

8231

8256

8280

8305

8329

8354

8378

8403

8428

8452

8477

8501

8526

8550

8575

8600

8624

8649

8673

8698

8722

8747

8771

8796

8821

8845

8870

Syllabe

ni

po

chuai

ou

hen

cou

diu

sao

cu

man

chuo

an

dun

ken

nai

gun

sa

nia

lia

ng de

yo

run

pie

que

ka

e ecirc

ei

nou

na

wa

le

ga a

eng

ca

ha

nen

die

la

en

ne

me

den

dia

dei

KWds Titre

37000

51397

3 0

21528

9812

74

2 6 2

7108

3003

77521

1244

182000

14597

10877

5719

5569

15790

71

2 8 6

895

158138

573

5993

1994

32421

19372

168550

2400

4 2 0

114054

61170

185788

6825

230000

5655

9377

53381

10678

174739

197718

177721

10714

74492

82397

5015

22737

KWds Titre amp

la=Chinois

1322

1746

1

7 0 3

2 9 3

2

7

188

7 0

1753

2 8

4075

321

214

110

8 0

225

1

4

11

1868

66

66

14

223

115

891

12

2

525

2 4 4

6 2 6

22

7 0 9

17

2 6

117

2 2

252

2 0 3

163

9

56

18

1

1

Ratio

357

340

333

327

299

270

267

264

233

226

225

224

220

197

192

144

142

141

140

123

118

115

110

070

069

059

053

050

048

046

040

034

032

031

030

028

022

021

014

010

009

008

008

002

002

000

Rang

3 6 2

363

3 6 4

365

3 6 6

367

368

3 6 9

3 7 0

371

372

373

374

375

376

377

378

379

3 8 0

381

382

383

3 8 4

385

3 8 6

387

388

389

3 9 0

391

392

393

3 9 4

395

3 9 6

397

398

3 9 9

4 0 0

4 0 1

4 0 2

4 0 3

4 0 4

4 0 5

4 0 6

4 0 7

Rang cum

8894

8919

8943

8968

8993

9017

9042

9066

9091

9115

9140

9165

9189

9214

9238

9263

9287

9312

9337

936l

9386

94io

9435

9459

9484

9509

9533

9558

9582

9607

9631

9656

9681

9705

9730

9754

9779

9803

9828

9853

9877

9902

9926

9951

9975

10000

2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang

3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang

4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats

5 Les valeurs en italiques sont estimeacutees

1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES