Post on 18-Oct-2020
Tous droits reacuteserveacutes copy Association pour lavancement des sciences et destechniques de la documentation (ASTED) 2005
Ce document est proteacutegeacute par la loi sur le droit drsquoauteur Lrsquoutilisation desservices drsquoEacuterudit (y compris la reproduction) est assujettie agrave sa politiquedrsquoutilisation que vous pouvez consulter en lignehttpsaproposeruditorgfrusagerspolitique-dutilisation
Cet article est diffuseacute et preacuteserveacute par EacuteruditEacuterudit est un consortium interuniversitaire sans but lucratif composeacute delrsquoUniversiteacute de Montreacuteal lrsquoUniversiteacute Laval et lrsquoUniversiteacute du Queacutebec agraveMontreacuteal Il a pour mission la promotion et la valorisation de la recherchehttpswwweruditorgfr
Document geacuteneacutereacute le 25 mars 2021 2134
Documentation et bibliothegraveques
Problegravemes de repeacuterage des ressources bibliographiques enlangue chinoise une perspective occidentaleOn the Retrieval of Bibliographic Resources in Chinese AWestern PerspectiveProblemas de localizacioacuten de fuentes bibliograacuteficas en chinoCleacutement Arsenault
Volume 51 numeacutero 3 juilletndashseptembre 2005
URI httpsideruditorgiderudit1029496arDOI httpsdoiorg1072021029496ar
Aller au sommaire du numeacutero
Eacutediteur(s)Association pour lavancement des sciences et des techniques de ladocumentation (ASTED)
ISSN0315-2340 (imprimeacute)2291-8949 (numeacuterique)
Deacutecouvrir la revue
Citer cet articleArsenault C (2005) Problegravemes de repeacuterage des ressources bibliographiques enlangue chinoise une perspective occidentale Documentation et bibliothegraveques51(3) 175ndash184 httpsdoiorg1072021029496ar
Reacutesumeacute de larticleCe travail a pour objet de preacutesenter plusieurs avenues de recherche pour ledeacuteveloppement de modules de repeacuterage de notices bibliographiques en languechinoise Des eacutetudes anteacuterieures ont montreacute les succegraves et les limites durepeacuterage se fondant sur des donneacutees chinoises romaniseacutees (pinyin) Il sembleqursquoune proportion non neacutegligeable des utilisateurs nrsquoobtient pas des reacutesultatstregraves satisfaisants lors du repeacuterage en pinyin Pour fournir agrave ces utilisateurs desmoyens de repeacuterage mieux adapteacutes il est essentiel drsquoexplorer drsquoautres avenuesmeacutethodologiques susceptibles drsquoecirctre inteacutegreacutees aux bases bibliographiques dansle contexte nord-ameacutericain ougrave les ressources en langue chinoise repreacutesententhabituellement seulement une proportion minime des collections
DOCUMENTATION B I B L I O l H Egrave Q U E S
Problegravemes de repeacuterage des ressources bibliographiques en langue chinoise une perspective occidentale
CLEacuteMENT AcircRSENAULT Clernentarsenaultumontrealxa
CONTEXTE DE LA RECHERCHE
KESUME | ABSTKACI5 | K t S U M E N
Ce travail a pour objet de preacutesenter plusieurs avenues de recherche pour le deacuteveloppement de modules de repeacuterage de notices bibliographiques en langue chinoise Des eacutetudes anteacuterieures ont montreacute les succegraves et les limites du repeacuterage se fondant sur des donneacutees chinoises romaniseacutees (pinyin) Il semble quune proportion non neacutegligeable des utilisateurs nobtient pas des reacutesultats tregraves satisfaisants lors du repeacuterage en pinyin Pour fournir agrave ces utilisateurs des moyens de repeacuterage mieux adapteacutes il est essentiel dexplorer dautres avenues meacutethodologiques susceptibles decirctre inteacutegreacutees aux bases bibliographiques dans le contexte nord-ameacutericain ougrave les ressources en langue chinoise repreacutesentent habituellement seulement une proportion minime des collections
On the Retrieval of Bibliographie Resources in Chinese A Western Perspective
This article outlines several research possibilities regarding the development of retrieval methods for bibliographic records in Chinese Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin) It would appear that a significant proportion of users do not obtain satisshyfactory results when searching in Pinyin In order to provide these users with better retrieval methods it is essential to explore other options that can be integrated to the bibliographic data bases in a North American context where the documents in Chinese usually make up a small portion of the collections
Problemas de localizaciocircn defuentes bibliogracircficas en chino
El objetivo de este trabajo es presentar varias alternativas de investigaciocircn para el desarrollo de mocircdulos de localizaciocircn de resenas bibliogracircficas en chino Estudios anteriores mostraron los aciertos y desaciertos de la localizaciocircn basados en datos chinos transliterados en alfabeto latino (sistema pinyin) Al parecer un numeacutero considerable de usuarios no obtiene resultados muy satisfactorios cuando busca informaciocircn bibliogracircfica con este sistema Por este motivo y con el fin de facilitarles medios de localizaciocircn mejor adaptados es indispensable explorar otras posibilidades metodolocircgicas capaces de integrarse a las bases bibliogracircficas del contexto norteamericano en las que lasfuentes en chino representan normalmente una proporciocircn de las colec-ciones
Cette recherche a eacuteteacute rendue possible gracircce agrave une subvention du Conseil de recherches en sciences humaines du Canada Ce texte a eacuteteacute publieacute originalement en anglais dans International Information and Library Review This research was made possible with a grant from the Social Sciences and Humanities Research Council of Canada This article was originally published in English in the International Information and Library Review Esta investigaciocircn se realize gracias a la subvenciocircn del Consejo de Investigaciocircn en Ciencias Humanas de Canada La publicaciocircn original del texto fue en ingleacutes en la revista Intenational Information and Library Review
DANS UN ENVIRONNEMENT ougrave linformation est enregistreacutee principalement en caractegraveres romains le repeacuterage dinformation textuelle en
langue chinoise preacutesente des deacutefis particuliers et speacutecishyfiques que les systegravemes conventionnels ne relegravevent pas avec une efficaciteacute souhaitable Dans le monde occidental les systegravemes de repeacuterage informatiseacutes sont habituellement conccedilus en fonction des besoins de repeacuterage de ressources enregistreacutees dans les langues occidentales et sont par conseacutequent mal adapteacutes au repeacuterage de ressources en langue chinoise
Dans les systegravemes en ligne le repeacuterage de donneacutees en langue chinoise se fait ordinairement soit en lanccedilant des requecirctes eacutecrites en vernaculaire agrave la recherche de correspondances en vernaculaire parmi les entreacutees indexeacutees soit en lanccedilant des requecirctes romaniseacutees agrave la recherche de correspondances parmi les entreacutees romaniseacutees des index
Du point de vue de lutilisateur les deux meacutethodes soulegravevent des problegravemes et des obstacles speacutecifiques Dans le premier cas geacuteneacuterer des caractegraveres chinois pour la formulation de sa requecircte peut preacutesenter un deacutefi agrave lutilisateur Lutilisation des systegravemes dentreacutee de donneacutees conventionnels tels que le clavier dordishynateur est loin decirctre une faccedilon ideacuteale de geacuteneacuterer des caractegraveres chinois mecircme si dans les anneacutees reacutecentes des laquo eacutediteurs de meacutethodes dentreacutee raquo input method editors ou IME) ont eacuteteacute deacuteveloppeacutes et inteacutegreacutes aux systegravemes dexploitation tels que Microsoft Windows et ont faciliteacute cette tacircche Dans le second cas lorsque le repeacuterage se fait sur des entreacutees romaniseacutees le problegraveme rencontreacute est celui dun niveau eacuteleveacute dhomonymie qui dilue la preacutecision des reacutesultats du repeacuterage Cet obstacle est ducirc au fait que les marqueurs de ton ne sont geacuteneacuteralement pas enregistreacutes ou pris en compte dans le processus de lindexation il est ducirc aussi au fait que le texte est converti en uniteacutes lexicales monosyllabiques au lieu de polysyllabiques comme cest le cas par exemple des champs romaniseacutes des notices bibliographiques MARC Agrave lheure actuelle le systegraveme de romanisation le plus utiliseacute pour la transshycription des caractegraveres chinois dans les notices biblioshygraphiques est le systegraveme pinyin qui a eacuteteacute deacuteveloppeacute
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2 0 0 5 | 1 7 5
en Chine au milieu des anneacutees 1950 Les grandes bases de donneacutees bibliographiques telles que FOCLC (Online Computer Library Center) et le RLG (Research Libraries Group) contiennent des notices en caracshytegraveres pinyin En avril 2005 on comptait plus de 132 million de notices en langue chinoise dans la base WorldCat de FOCLC (OCLC 2005) Il est cependant important de noter que linformation tonale nest pas enregistreacutee Il y a quatre tons distincts dans le chinois standard moderne ainsi quun ton neutre
Une reacutecente recherche effectueacutee par lull (2002) a montreacute quun bon nombre de systegravemes automatiseacutes de bibliothegraveque ont deacutejagrave implanteacute la norme Unicode agrave des degreacutes divers mais que pour diverses raisons peu de bibliothegraveques nord-ameacutericaines offrent pour linstant un systegraveme de repeacuterage ougrave il soit possible de faire une recherche sur les donneacutees vernaculaires Tradishytionnellement les bibliothegraveques sappuient sur des textes romaniseacutes pour la recherche le tri et laffichage des notices bibliographiques de mateacuteriaux en langue chinoise Il est donc encourageant de constater leacutemershygence reacutecente dun nombre grandissant de catalogues agrave accegraves public en ligne (online public access catalogs ou OPACs) munis de fonctionnaliteacutes multiscript Certains systegravemes offrent la possibiliteacute dafficher des caractegraveres vernaculaires chinois et de soumettre des requecirctes en chinois vernaculaire1 tandis que dautres permettent laffichage de caractegraveres non romains mais nont pas encore la capaciteacute de traiter des requecirctes formuleacutees en caractegraveres non romains2
Des eacutetudes reacutecentes ont montreacute quen ce qui concerne le chinois la romanisation permet des recherches assez efficaces dans les titres de monograshyphies (Arsenault 2000 Mair 2001) Leacutetude effectueacutee par Huang sur le catalogue de lUniversiteacute de Peacutekin reacutevegravele que le repeacuterage en pinyin peut ecirctre ameacutelioreacute et faciliteacute si le systegraveme impose les conditions de seacutequence et de contiguiumlteacute tout en ignorant automatiquement les espaces entre les termes (Huang 2004) Mais il est fort improbable que ces choix puissent ecirctre programmeacutes comme paramegravetres par deacutefaut dans des systegravemes de repeacuterage ougrave les notices en pinyin sont minoritaires Une eacutetude reacutecente a montreacute que lutilisation de la romanisation (pinyin dans ce cas) pour le repeacuterage donne de bons reacutesultats de lavis dune large portion des utilisateurs Mais il est inteacuteressant dobserver quune proportion non neacutegligeable des participants qui tous avaient affirmeacute leur familiariteacute avec le pinyin ont eu des difficulteacutes agrave compleacuteter une tacircche de repeacuterage simple en pinyin En reacutealiteacute plusieurs facteurs dont
1 Parmi ceux qui valent la peine decirctre mentionneacutes citons lOPAC de la University of California (MELVYL) lthttpmelvylcdliborggt celui de Harvard University (Hollis) lthttpholliscatalogharvardedugt ainsi que celui de la University of Massachusetts lthttpfclihrlibraryumassedugt
2 Cest le cas du catalogue WorldCat de lOCLC sur linterface FirstSearch lthttp firstsearchoclcorggt du catalogue de la University of British Columbia lthttp webcatlibraryubccagt et de celui de Yale University (Orbis) lthttporbislibrary yaleedugt pour ne nommer que ceux-lagrave
le niveau deacuteducation et linterfeacuterence dialectale affectent profondeacutement le niveau de familiariteacute des utilisateurs avec le pinyin et leur eacutevaluation du pinyin dans la recherche deacuteleacutements en langue chinoise dans un catalogue public en ligne Pour fournir agrave cette clientegravele des services de repeacuterage plus adeacutequats et plus efficaces il est donc essentiel dexaminer les options meacutethodologiques en tenant compte des dispariteacutes dans la familiariteacute avec le pinyin au sein des sous-groupes dutilisateurs Il apparaicirct essentiel dadapter un certain nombre de techniques de repeacuterage selon les besoins speacutecifiques de chaque requecircte et de chaque utilisateur Il est eacutegalement neacutecessaire de sinterroger sur lapplishycabiliteacute et ladaptabiliteacute de ces techniques de repeacuterage dans un environnement nord-ameacutericain
La preacutesente eacutetude a pour but dexaminer les faccedilons possibles dinteacutegrer une varieacuteteacute de modules de repeacuterage dans les grands OPACs multilingues accesshysibles via Internet afin de repeacuterer les objets en langue chinoise qui y sont catalogueacutes Les problegravemes relieacutes au repeacuterage des notices bibliographiques en langue chinoise en contexte nord-ameacutericain sont abordeacutes Dans le but de faciliter le repeacuterage de documents en langue chinoise dans les catalogues agrave accegraves public en ligne notre eacutetude suggegravere et preacutesente plusieurs avenues de recherche sur ce thegraveme
RECHERCHES ANTEacuteRIEURES
Dans une recherche anteacuterieure nous avons rassembleacute des donneacutees en vue de mesurer leffishycaciteacute et le rendement du pinyin dans le repeacuterage des titres chinois dans les OPACs Lanalyse des donneacutees a montreacute que le taux de succegraves est assez eacuteleveacute dans le cas des recherches sur des objets speacutecifiques Vingt-quatre participants ayant tous le chinois pour langue maternelle ont eu agrave reacutealiser des recherches sur des objets speacutecifiques (cest-agrave-dire sur des titres speacutecishyfiques plutocirct que sur des thegravemes donneacutes) sur 40 titres chinois en utilisant le pinyin dans un gros catalogue public en ligne Le taux de succegraves constateacute au cours de cette expeacuterience se situe entre 80 et 90 selon le modegravele dagreacutegation et le mode de recherche utiliseacutes par les participants (Arsenault 2000154) Les entreacutees en pinyin pouvaient ecirctre enregistreacutees selon un modegravele monosyllabique (non agreacutegeacute) ou selon un modegravele polysyllabique (agreacutegeacute) suivant les politiques de deacuteveloppement locales En raison de la petite taille de leacutechantillonnage les variations entre les groupes nont pas eacuteteacute jugeacutees significatives du point de vue statistique Notons en passant que le succegraves dans les recherches sur des objets speacutecifiques se deacutefinit comme le fait de trouver cest-agrave-dire dafficher la notice biblioshygraphique de lobjet rechercheacute
En deacutepit de ce taux de succegraves plutocirct eacuteleveacute il est inteacuteressant de noter quapproximativement la moitieacute des requecirctes formuleacutees par les participants ont eacutechoueacute
1 7 6 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
TABLEAU 1
Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC
Titre exact
Mots-cleacutes dans le titre Keywords-in-titlecirc)
PINYIN (MONOSYLLABES)
59 (n=i2)
47 (n=i2)
PINYIN (POLYSYLLABES)
57 (n=i2)
48 (n=n)
ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)
Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs
En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il
TABLEAU 2
Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute
Erreurs dagreacuteshygation
Erreurs de romanisation
Autres erreurs
Total
PINYIN (MONOSYLLABES)
308 (437)
348 (494)
49 (69)
705 (lOO)
PINYIN (POLYSYLLABES)
494 (569)
319(368)
55 (63)
868 (100) j
apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne
Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)
Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise
0 Lidentification des requecirctes par traitement linguistique informatiseacute
0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques
0 Le repeacuterage trans-scripts
L E TRAITEMENT L INGUISTIQUE INFORMATISEacute
On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7
TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois
DEacuteVELOPPEUR
Xerox
Lextex
Alfa-informatica U de Groningen
RALI U de Montreacuteal
Alis Technologies
PentaMem Technology
MorphoLogic
PRODUIT
CA
Lextex Intl
Textcat
SILC
iQueacute4
PentaMem
LangWitch
URL
ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt
ltwwwlextekcomgt
ltodurletrugnl~vannoordTextCatDemo textcathtmlgt
ltwww-raliiroumontrealcaSILCSILCfrcgigt
ltquebecaliscomcastilessai_silccgigt
ltnlppetamemeomlangreccgigt
ltwwwmorphologichuorderlangwitchaspgt
VERNACU-LAIREa
Chinois
Abkhaz
Chinois
Chinois
Chinois
Albanais
Pas disp
PINYIN NON
AGREacuteGEacuteb
Catalan
Javanais
Inconnu
Allemand
Allemand
Turc
Espagnol
PINYIN
AGREacuteGEacute0
Catalan
Javanais
Inconnu
Italien
Italien
Turc
Espagnol
h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang
c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang
formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections
Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse
3 Notre traduction
1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee
La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-
duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise
LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES
Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-
4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues
ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)
Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques
L E REPEacuteRAGE TRANS-SCRIPTS
Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation
Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il
5 Notre traduction 6 Notre traduction
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
DOCUMENTATION B I B L I O l H Egrave Q U E S
Problegravemes de repeacuterage des ressources bibliographiques en langue chinoise une perspective occidentale
CLEacuteMENT AcircRSENAULT Clernentarsenaultumontrealxa
CONTEXTE DE LA RECHERCHE
KESUME | ABSTKACI5 | K t S U M E N
Ce travail a pour objet de preacutesenter plusieurs avenues de recherche pour le deacuteveloppement de modules de repeacuterage de notices bibliographiques en langue chinoise Des eacutetudes anteacuterieures ont montreacute les succegraves et les limites du repeacuterage se fondant sur des donneacutees chinoises romaniseacutees (pinyin) Il semble quune proportion non neacutegligeable des utilisateurs nobtient pas des reacutesultats tregraves satisfaisants lors du repeacuterage en pinyin Pour fournir agrave ces utilisateurs des moyens de repeacuterage mieux adapteacutes il est essentiel dexplorer dautres avenues meacutethodologiques susceptibles decirctre inteacutegreacutees aux bases bibliographiques dans le contexte nord-ameacutericain ougrave les ressources en langue chinoise repreacutesentent habituellement seulement une proportion minime des collections
On the Retrieval of Bibliographie Resources in Chinese A Western Perspective
This article outlines several research possibilities regarding the development of retrieval methods for bibliographic records in Chinese Past research has underscored the successes and limits of retrieval based on Romanized Chinese data (Pinyin) It would appear that a significant proportion of users do not obtain satisshyfactory results when searching in Pinyin In order to provide these users with better retrieval methods it is essential to explore other options that can be integrated to the bibliographic data bases in a North American context where the documents in Chinese usually make up a small portion of the collections
Problemas de localizaciocircn defuentes bibliogracircficas en chino
El objetivo de este trabajo es presentar varias alternativas de investigaciocircn para el desarrollo de mocircdulos de localizaciocircn de resenas bibliogracircficas en chino Estudios anteriores mostraron los aciertos y desaciertos de la localizaciocircn basados en datos chinos transliterados en alfabeto latino (sistema pinyin) Al parecer un numeacutero considerable de usuarios no obtiene resultados muy satisfactorios cuando busca informaciocircn bibliogracircfica con este sistema Por este motivo y con el fin de facilitarles medios de localizaciocircn mejor adaptados es indispensable explorar otras posibilidades metodolocircgicas capaces de integrarse a las bases bibliogracircficas del contexto norteamericano en las que lasfuentes en chino representan normalmente una proporciocircn de las colec-ciones
Cette recherche a eacuteteacute rendue possible gracircce agrave une subvention du Conseil de recherches en sciences humaines du Canada Ce texte a eacuteteacute publieacute originalement en anglais dans International Information and Library Review This research was made possible with a grant from the Social Sciences and Humanities Research Council of Canada This article was originally published in English in the International Information and Library Review Esta investigaciocircn se realize gracias a la subvenciocircn del Consejo de Investigaciocircn en Ciencias Humanas de Canada La publicaciocircn original del texto fue en ingleacutes en la revista Intenational Information and Library Review
DANS UN ENVIRONNEMENT ougrave linformation est enregistreacutee principalement en caractegraveres romains le repeacuterage dinformation textuelle en
langue chinoise preacutesente des deacutefis particuliers et speacutecishyfiques que les systegravemes conventionnels ne relegravevent pas avec une efficaciteacute souhaitable Dans le monde occidental les systegravemes de repeacuterage informatiseacutes sont habituellement conccedilus en fonction des besoins de repeacuterage de ressources enregistreacutees dans les langues occidentales et sont par conseacutequent mal adapteacutes au repeacuterage de ressources en langue chinoise
Dans les systegravemes en ligne le repeacuterage de donneacutees en langue chinoise se fait ordinairement soit en lanccedilant des requecirctes eacutecrites en vernaculaire agrave la recherche de correspondances en vernaculaire parmi les entreacutees indexeacutees soit en lanccedilant des requecirctes romaniseacutees agrave la recherche de correspondances parmi les entreacutees romaniseacutees des index
Du point de vue de lutilisateur les deux meacutethodes soulegravevent des problegravemes et des obstacles speacutecifiques Dans le premier cas geacuteneacuterer des caractegraveres chinois pour la formulation de sa requecircte peut preacutesenter un deacutefi agrave lutilisateur Lutilisation des systegravemes dentreacutee de donneacutees conventionnels tels que le clavier dordishynateur est loin decirctre une faccedilon ideacuteale de geacuteneacuterer des caractegraveres chinois mecircme si dans les anneacutees reacutecentes des laquo eacutediteurs de meacutethodes dentreacutee raquo input method editors ou IME) ont eacuteteacute deacuteveloppeacutes et inteacutegreacutes aux systegravemes dexploitation tels que Microsoft Windows et ont faciliteacute cette tacircche Dans le second cas lorsque le repeacuterage se fait sur des entreacutees romaniseacutees le problegraveme rencontreacute est celui dun niveau eacuteleveacute dhomonymie qui dilue la preacutecision des reacutesultats du repeacuterage Cet obstacle est ducirc au fait que les marqueurs de ton ne sont geacuteneacuteralement pas enregistreacutes ou pris en compte dans le processus de lindexation il est ducirc aussi au fait que le texte est converti en uniteacutes lexicales monosyllabiques au lieu de polysyllabiques comme cest le cas par exemple des champs romaniseacutes des notices bibliographiques MARC Agrave lheure actuelle le systegraveme de romanisation le plus utiliseacute pour la transshycription des caractegraveres chinois dans les notices biblioshygraphiques est le systegraveme pinyin qui a eacuteteacute deacuteveloppeacute
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2 0 0 5 | 1 7 5
en Chine au milieu des anneacutees 1950 Les grandes bases de donneacutees bibliographiques telles que FOCLC (Online Computer Library Center) et le RLG (Research Libraries Group) contiennent des notices en caracshytegraveres pinyin En avril 2005 on comptait plus de 132 million de notices en langue chinoise dans la base WorldCat de FOCLC (OCLC 2005) Il est cependant important de noter que linformation tonale nest pas enregistreacutee Il y a quatre tons distincts dans le chinois standard moderne ainsi quun ton neutre
Une reacutecente recherche effectueacutee par lull (2002) a montreacute quun bon nombre de systegravemes automatiseacutes de bibliothegraveque ont deacutejagrave implanteacute la norme Unicode agrave des degreacutes divers mais que pour diverses raisons peu de bibliothegraveques nord-ameacutericaines offrent pour linstant un systegraveme de repeacuterage ougrave il soit possible de faire une recherche sur les donneacutees vernaculaires Tradishytionnellement les bibliothegraveques sappuient sur des textes romaniseacutes pour la recherche le tri et laffichage des notices bibliographiques de mateacuteriaux en langue chinoise Il est donc encourageant de constater leacutemershygence reacutecente dun nombre grandissant de catalogues agrave accegraves public en ligne (online public access catalogs ou OPACs) munis de fonctionnaliteacutes multiscript Certains systegravemes offrent la possibiliteacute dafficher des caractegraveres vernaculaires chinois et de soumettre des requecirctes en chinois vernaculaire1 tandis que dautres permettent laffichage de caractegraveres non romains mais nont pas encore la capaciteacute de traiter des requecirctes formuleacutees en caractegraveres non romains2
Des eacutetudes reacutecentes ont montreacute quen ce qui concerne le chinois la romanisation permet des recherches assez efficaces dans les titres de monograshyphies (Arsenault 2000 Mair 2001) Leacutetude effectueacutee par Huang sur le catalogue de lUniversiteacute de Peacutekin reacutevegravele que le repeacuterage en pinyin peut ecirctre ameacutelioreacute et faciliteacute si le systegraveme impose les conditions de seacutequence et de contiguiumlteacute tout en ignorant automatiquement les espaces entre les termes (Huang 2004) Mais il est fort improbable que ces choix puissent ecirctre programmeacutes comme paramegravetres par deacutefaut dans des systegravemes de repeacuterage ougrave les notices en pinyin sont minoritaires Une eacutetude reacutecente a montreacute que lutilisation de la romanisation (pinyin dans ce cas) pour le repeacuterage donne de bons reacutesultats de lavis dune large portion des utilisateurs Mais il est inteacuteressant dobserver quune proportion non neacutegligeable des participants qui tous avaient affirmeacute leur familiariteacute avec le pinyin ont eu des difficulteacutes agrave compleacuteter une tacircche de repeacuterage simple en pinyin En reacutealiteacute plusieurs facteurs dont
1 Parmi ceux qui valent la peine decirctre mentionneacutes citons lOPAC de la University of California (MELVYL) lthttpmelvylcdliborggt celui de Harvard University (Hollis) lthttpholliscatalogharvardedugt ainsi que celui de la University of Massachusetts lthttpfclihrlibraryumassedugt
2 Cest le cas du catalogue WorldCat de lOCLC sur linterface FirstSearch lthttp firstsearchoclcorggt du catalogue de la University of British Columbia lthttp webcatlibraryubccagt et de celui de Yale University (Orbis) lthttporbislibrary yaleedugt pour ne nommer que ceux-lagrave
le niveau deacuteducation et linterfeacuterence dialectale affectent profondeacutement le niveau de familiariteacute des utilisateurs avec le pinyin et leur eacutevaluation du pinyin dans la recherche deacuteleacutements en langue chinoise dans un catalogue public en ligne Pour fournir agrave cette clientegravele des services de repeacuterage plus adeacutequats et plus efficaces il est donc essentiel dexaminer les options meacutethodologiques en tenant compte des dispariteacutes dans la familiariteacute avec le pinyin au sein des sous-groupes dutilisateurs Il apparaicirct essentiel dadapter un certain nombre de techniques de repeacuterage selon les besoins speacutecifiques de chaque requecircte et de chaque utilisateur Il est eacutegalement neacutecessaire de sinterroger sur lapplishycabiliteacute et ladaptabiliteacute de ces techniques de repeacuterage dans un environnement nord-ameacutericain
La preacutesente eacutetude a pour but dexaminer les faccedilons possibles dinteacutegrer une varieacuteteacute de modules de repeacuterage dans les grands OPACs multilingues accesshysibles via Internet afin de repeacuterer les objets en langue chinoise qui y sont catalogueacutes Les problegravemes relieacutes au repeacuterage des notices bibliographiques en langue chinoise en contexte nord-ameacutericain sont abordeacutes Dans le but de faciliter le repeacuterage de documents en langue chinoise dans les catalogues agrave accegraves public en ligne notre eacutetude suggegravere et preacutesente plusieurs avenues de recherche sur ce thegraveme
RECHERCHES ANTEacuteRIEURES
Dans une recherche anteacuterieure nous avons rassembleacute des donneacutees en vue de mesurer leffishycaciteacute et le rendement du pinyin dans le repeacuterage des titres chinois dans les OPACs Lanalyse des donneacutees a montreacute que le taux de succegraves est assez eacuteleveacute dans le cas des recherches sur des objets speacutecifiques Vingt-quatre participants ayant tous le chinois pour langue maternelle ont eu agrave reacutealiser des recherches sur des objets speacutecifiques (cest-agrave-dire sur des titres speacutecishyfiques plutocirct que sur des thegravemes donneacutes) sur 40 titres chinois en utilisant le pinyin dans un gros catalogue public en ligne Le taux de succegraves constateacute au cours de cette expeacuterience se situe entre 80 et 90 selon le modegravele dagreacutegation et le mode de recherche utiliseacutes par les participants (Arsenault 2000154) Les entreacutees en pinyin pouvaient ecirctre enregistreacutees selon un modegravele monosyllabique (non agreacutegeacute) ou selon un modegravele polysyllabique (agreacutegeacute) suivant les politiques de deacuteveloppement locales En raison de la petite taille de leacutechantillonnage les variations entre les groupes nont pas eacuteteacute jugeacutees significatives du point de vue statistique Notons en passant que le succegraves dans les recherches sur des objets speacutecifiques se deacutefinit comme le fait de trouver cest-agrave-dire dafficher la notice biblioshygraphique de lobjet rechercheacute
En deacutepit de ce taux de succegraves plutocirct eacuteleveacute il est inteacuteressant de noter quapproximativement la moitieacute des requecirctes formuleacutees par les participants ont eacutechoueacute
1 7 6 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
TABLEAU 1
Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC
Titre exact
Mots-cleacutes dans le titre Keywords-in-titlecirc)
PINYIN (MONOSYLLABES)
59 (n=i2)
47 (n=i2)
PINYIN (POLYSYLLABES)
57 (n=i2)
48 (n=n)
ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)
Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs
En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il
TABLEAU 2
Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute
Erreurs dagreacuteshygation
Erreurs de romanisation
Autres erreurs
Total
PINYIN (MONOSYLLABES)
308 (437)
348 (494)
49 (69)
705 (lOO)
PINYIN (POLYSYLLABES)
494 (569)
319(368)
55 (63)
868 (100) j
apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne
Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)
Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise
0 Lidentification des requecirctes par traitement linguistique informatiseacute
0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques
0 Le repeacuterage trans-scripts
L E TRAITEMENT L INGUISTIQUE INFORMATISEacute
On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7
TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois
DEacuteVELOPPEUR
Xerox
Lextex
Alfa-informatica U de Groningen
RALI U de Montreacuteal
Alis Technologies
PentaMem Technology
MorphoLogic
PRODUIT
CA
Lextex Intl
Textcat
SILC
iQueacute4
PentaMem
LangWitch
URL
ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt
ltwwwlextekcomgt
ltodurletrugnl~vannoordTextCatDemo textcathtmlgt
ltwww-raliiroumontrealcaSILCSILCfrcgigt
ltquebecaliscomcastilessai_silccgigt
ltnlppetamemeomlangreccgigt
ltwwwmorphologichuorderlangwitchaspgt
VERNACU-LAIREa
Chinois
Abkhaz
Chinois
Chinois
Chinois
Albanais
Pas disp
PINYIN NON
AGREacuteGEacuteb
Catalan
Javanais
Inconnu
Allemand
Allemand
Turc
Espagnol
PINYIN
AGREacuteGEacute0
Catalan
Javanais
Inconnu
Italien
Italien
Turc
Espagnol
h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang
c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang
formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections
Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse
3 Notre traduction
1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee
La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-
duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise
LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES
Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-
4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues
ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)
Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques
L E REPEacuteRAGE TRANS-SCRIPTS
Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation
Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il
5 Notre traduction 6 Notre traduction
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
en Chine au milieu des anneacutees 1950 Les grandes bases de donneacutees bibliographiques telles que FOCLC (Online Computer Library Center) et le RLG (Research Libraries Group) contiennent des notices en caracshytegraveres pinyin En avril 2005 on comptait plus de 132 million de notices en langue chinoise dans la base WorldCat de FOCLC (OCLC 2005) Il est cependant important de noter que linformation tonale nest pas enregistreacutee Il y a quatre tons distincts dans le chinois standard moderne ainsi quun ton neutre
Une reacutecente recherche effectueacutee par lull (2002) a montreacute quun bon nombre de systegravemes automatiseacutes de bibliothegraveque ont deacutejagrave implanteacute la norme Unicode agrave des degreacutes divers mais que pour diverses raisons peu de bibliothegraveques nord-ameacutericaines offrent pour linstant un systegraveme de repeacuterage ougrave il soit possible de faire une recherche sur les donneacutees vernaculaires Tradishytionnellement les bibliothegraveques sappuient sur des textes romaniseacutes pour la recherche le tri et laffichage des notices bibliographiques de mateacuteriaux en langue chinoise Il est donc encourageant de constater leacutemershygence reacutecente dun nombre grandissant de catalogues agrave accegraves public en ligne (online public access catalogs ou OPACs) munis de fonctionnaliteacutes multiscript Certains systegravemes offrent la possibiliteacute dafficher des caractegraveres vernaculaires chinois et de soumettre des requecirctes en chinois vernaculaire1 tandis que dautres permettent laffichage de caractegraveres non romains mais nont pas encore la capaciteacute de traiter des requecirctes formuleacutees en caractegraveres non romains2
Des eacutetudes reacutecentes ont montreacute quen ce qui concerne le chinois la romanisation permet des recherches assez efficaces dans les titres de monograshyphies (Arsenault 2000 Mair 2001) Leacutetude effectueacutee par Huang sur le catalogue de lUniversiteacute de Peacutekin reacutevegravele que le repeacuterage en pinyin peut ecirctre ameacutelioreacute et faciliteacute si le systegraveme impose les conditions de seacutequence et de contiguiumlteacute tout en ignorant automatiquement les espaces entre les termes (Huang 2004) Mais il est fort improbable que ces choix puissent ecirctre programmeacutes comme paramegravetres par deacutefaut dans des systegravemes de repeacuterage ougrave les notices en pinyin sont minoritaires Une eacutetude reacutecente a montreacute que lutilisation de la romanisation (pinyin dans ce cas) pour le repeacuterage donne de bons reacutesultats de lavis dune large portion des utilisateurs Mais il est inteacuteressant dobserver quune proportion non neacutegligeable des participants qui tous avaient affirmeacute leur familiariteacute avec le pinyin ont eu des difficulteacutes agrave compleacuteter une tacircche de repeacuterage simple en pinyin En reacutealiteacute plusieurs facteurs dont
1 Parmi ceux qui valent la peine decirctre mentionneacutes citons lOPAC de la University of California (MELVYL) lthttpmelvylcdliborggt celui de Harvard University (Hollis) lthttpholliscatalogharvardedugt ainsi que celui de la University of Massachusetts lthttpfclihrlibraryumassedugt
2 Cest le cas du catalogue WorldCat de lOCLC sur linterface FirstSearch lthttp firstsearchoclcorggt du catalogue de la University of British Columbia lthttp webcatlibraryubccagt et de celui de Yale University (Orbis) lthttporbislibrary yaleedugt pour ne nommer que ceux-lagrave
le niveau deacuteducation et linterfeacuterence dialectale affectent profondeacutement le niveau de familiariteacute des utilisateurs avec le pinyin et leur eacutevaluation du pinyin dans la recherche deacuteleacutements en langue chinoise dans un catalogue public en ligne Pour fournir agrave cette clientegravele des services de repeacuterage plus adeacutequats et plus efficaces il est donc essentiel dexaminer les options meacutethodologiques en tenant compte des dispariteacutes dans la familiariteacute avec le pinyin au sein des sous-groupes dutilisateurs Il apparaicirct essentiel dadapter un certain nombre de techniques de repeacuterage selon les besoins speacutecifiques de chaque requecircte et de chaque utilisateur Il est eacutegalement neacutecessaire de sinterroger sur lapplishycabiliteacute et ladaptabiliteacute de ces techniques de repeacuterage dans un environnement nord-ameacutericain
La preacutesente eacutetude a pour but dexaminer les faccedilons possibles dinteacutegrer une varieacuteteacute de modules de repeacuterage dans les grands OPACs multilingues accesshysibles via Internet afin de repeacuterer les objets en langue chinoise qui y sont catalogueacutes Les problegravemes relieacutes au repeacuterage des notices bibliographiques en langue chinoise en contexte nord-ameacutericain sont abordeacutes Dans le but de faciliter le repeacuterage de documents en langue chinoise dans les catalogues agrave accegraves public en ligne notre eacutetude suggegravere et preacutesente plusieurs avenues de recherche sur ce thegraveme
RECHERCHES ANTEacuteRIEURES
Dans une recherche anteacuterieure nous avons rassembleacute des donneacutees en vue de mesurer leffishycaciteacute et le rendement du pinyin dans le repeacuterage des titres chinois dans les OPACs Lanalyse des donneacutees a montreacute que le taux de succegraves est assez eacuteleveacute dans le cas des recherches sur des objets speacutecifiques Vingt-quatre participants ayant tous le chinois pour langue maternelle ont eu agrave reacutealiser des recherches sur des objets speacutecifiques (cest-agrave-dire sur des titres speacutecishyfiques plutocirct que sur des thegravemes donneacutes) sur 40 titres chinois en utilisant le pinyin dans un gros catalogue public en ligne Le taux de succegraves constateacute au cours de cette expeacuterience se situe entre 80 et 90 selon le modegravele dagreacutegation et le mode de recherche utiliseacutes par les participants (Arsenault 2000154) Les entreacutees en pinyin pouvaient ecirctre enregistreacutees selon un modegravele monosyllabique (non agreacutegeacute) ou selon un modegravele polysyllabique (agreacutegeacute) suivant les politiques de deacuteveloppement locales En raison de la petite taille de leacutechantillonnage les variations entre les groupes nont pas eacuteteacute jugeacutees significatives du point de vue statistique Notons en passant que le succegraves dans les recherches sur des objets speacutecifiques se deacutefinit comme le fait de trouver cest-agrave-dire dafficher la notice biblioshygraphique de lobjet rechercheacute
En deacutepit de ce taux de succegraves plutocirct eacuteleveacute il est inteacuteressant de noter quapproximativement la moitieacute des requecirctes formuleacutees par les participants ont eacutechoueacute
1 7 6 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
TABLEAU 1
Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC
Titre exact
Mots-cleacutes dans le titre Keywords-in-titlecirc)
PINYIN (MONOSYLLABES)
59 (n=i2)
47 (n=i2)
PINYIN (POLYSYLLABES)
57 (n=i2)
48 (n=n)
ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)
Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs
En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il
TABLEAU 2
Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute
Erreurs dagreacuteshygation
Erreurs de romanisation
Autres erreurs
Total
PINYIN (MONOSYLLABES)
308 (437)
348 (494)
49 (69)
705 (lOO)
PINYIN (POLYSYLLABES)
494 (569)
319(368)
55 (63)
868 (100) j
apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne
Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)
Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise
0 Lidentification des requecirctes par traitement linguistique informatiseacute
0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques
0 Le repeacuterage trans-scripts
L E TRAITEMENT L INGUISTIQUE INFORMATISEacute
On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7
TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois
DEacuteVELOPPEUR
Xerox
Lextex
Alfa-informatica U de Groningen
RALI U de Montreacuteal
Alis Technologies
PentaMem Technology
MorphoLogic
PRODUIT
CA
Lextex Intl
Textcat
SILC
iQueacute4
PentaMem
LangWitch
URL
ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt
ltwwwlextekcomgt
ltodurletrugnl~vannoordTextCatDemo textcathtmlgt
ltwww-raliiroumontrealcaSILCSILCfrcgigt
ltquebecaliscomcastilessai_silccgigt
ltnlppetamemeomlangreccgigt
ltwwwmorphologichuorderlangwitchaspgt
VERNACU-LAIREa
Chinois
Abkhaz
Chinois
Chinois
Chinois
Albanais
Pas disp
PINYIN NON
AGREacuteGEacuteb
Catalan
Javanais
Inconnu
Allemand
Allemand
Turc
Espagnol
PINYIN
AGREacuteGEacute0
Catalan
Javanais
Inconnu
Italien
Italien
Turc
Espagnol
h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang
c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang
formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections
Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse
3 Notre traduction
1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee
La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-
duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise
LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES
Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-
4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues
ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)
Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques
L E REPEacuteRAGE TRANS-SCRIPTS
Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation
Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il
5 Notre traduction 6 Notre traduction
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
TABLEAU 1
Taux moyen de succegraves de la premiegravere requecircte dans les recherches en pinyin sur des objets speacutecifiques dans un OPAC
Titre exact
Mots-cleacutes dans le titre Keywords-in-titlecirc)
PINYIN (MONOSYLLABES)
59 (n=i2)
47 (n=i2)
PINYIN (POLYSYLLABES)
57 (n=i2)
48 (n=n)
ce qui signifie que pour chaque objet rechercheacute approximativement deux requecirctes ont eacuteteacute neacutecesshysaires Le taux de succegraves tombe radicalement si lon ne considegravere que la premiegravere requecircte (voir le tableau 1)
Les donneacutees ayant eacuteteacute rassembleacutees dans un contexte expeacuterimental on peut supposer que les participants se sachant observeacutes avaient agrave cœur de produire des reacutesultats et nheacutesitaient pas agrave reformuler leur requecircte afin de repeacuterer la notice mecircme sil ny avait aucune garantie que la notice se trouve effectishyvement dans la base de donneacutees Dans une situation de la vie courante il se pourrait que les utilisashyteurs soient moins motiveacutes agrave reacutepeacuteter leur recherche plusieurs fois Par conseacutequent les taux de succegraves pourraient ecirctre moins eacuteleveacutes que ceux mesureacutes dans le contexte expeacuterimental Mais on pourrait aussi trouver des arguments en faveur de la position opposeacutee les participants sont plus motiveacutes dans une situation de la vie courante parce quils ont un besoin reacuteel de linformation quils recherchent Les recherches sur des titres speacutecifiques sont les opeacuterations de repeacuterage les plus faciles quon puisse faire sur un OPAC plus faciles certainement que les recherches par sujet Pourtant il est inteacuteressant de constater que les partishycipants ont eu de la difficulteacute agrave localiser les notices Plusieurs sources derreur ont eacuteteacute identifieacutees qui explishyquent les eacutechecs La majoriteacute peut ecirctre attribueacutee agrave des erreurs dagreacutegation ou agrave des erreurs de romanisation Le tableau 2 donne le deacutetail de ces erreurs dans trois cateacutegories (1) la proportion des erreurs que lon peut attribuer agrave une non correspondance entre le modegravele dagreacutegation de la requecircte et le modegravele dagreacutegation des entreacutees dindexation (2)la proportion qui peut ecirctre attribueacutee aux erreurs de romanisation et (3) les autres erreurs
En moyenne chacun des 24 participants a fait 65 erreurs sur les 40 titres qui faisaient lobjet de recherches Il faut neacuteanmoins noter que la distribution des erreurs de romanisation parmi les participants preacutesente une structure bimodale tregraves marqueacutee une large proportion des participants fait peu derreurs tandis quune proportion plus faible mais tout de mecircme importante fait un grand nombre derreurs (Arsenault 2002 49) alors que les erreurs dagreacuteshygation sont distribueacutees de maniegravere plus uniforme Il
TABLEAU 2
Nombre derreurs observeacutees dans les requecirctes ayant eacutechoueacute
Erreurs dagreacuteshygation
Erreurs de romanisation
Autres erreurs
Total
PINYIN (MONOSYLLABES)
308 (437)
348 (494)
49 (69)
705 (lOO)
PINYIN (POLYSYLLABES)
494 (569)
319(368)
55 (63)
868 (100) j
apparaicirct donc quune proportion non neacutegligeable des utilisateurs nest pas parfaitement agrave laise avec le repeacuterage selon la romanisation qui est freacutequemment la seule meacutethode offerte par les OPACs et certains autres systegravemes de repeacuterage en ligne
Cette analyse nous amegravene agrave conclure que lutishylisation de la romanisation comme seul et unique moyen de repeacuterer des titres speacutecifiques ne produit pas des reacutesultats satisfaisants Dautres options meacutethodoshylogiques sont neacutecessaires si lon deacutesire ameacuteliorer le repeacuterage et la performance des utilisateurs De plus il serait souhaitable dincorporer des techniques de repeacuterage qui prennent en compte le fait que lagreacuteshygation des syllabes chinoises en uniteacute lexicales est freacutequemment ambigueuml du fait quil nexiste pas de standard orthographique largement accepteacute et bien promu dans ce domaine (Yin et Felley 1990) Il ny a aucune garantie que lutilisateur sera en mesure de deviner comment une chaicircne de caractegraveres chinois a eacuteteacute agreacutegeacutee dans sa forme romaniseacutee comme le montre clairement le fait que les erreurs dagreacuteshygation comptent pour la moitieacute de toutes les erreurs (tableau 2)
Ces observations nous megravenent agrave proposer les aires de recherche suivantes dans le but dameacuteliorer la qualiteacute du repeacuterage dobjets en langue chinoise
0 Lidentification des requecirctes par traitement linguistique informatiseacute
0 Le repeacuterage fondeacute sur la pertinence dans les recherches sur des titres speacutecifiques
0 Le repeacuterage trans-scripts
L E TRAITEMENT L INGUISTIQUE INFORMATISEacute
On peut imaginer que le catalogue public en ligne dune collection contenant une majoriteacute douvrages en langue chinoise (par exemple le catalogue dun deacuteparshytement deacutetudes de lAsie de lEst dans une grande institution universitaire) pourrait offrir une interface utilisateurs permettant de seacutelectionner le mode de repeacuterage lutilisateur pourrait choisir entre le repeacuterage selon la romanisation le repeacuterage selon des requecirctes
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 7
TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois
DEacuteVELOPPEUR
Xerox
Lextex
Alfa-informatica U de Groningen
RALI U de Montreacuteal
Alis Technologies
PentaMem Technology
MorphoLogic
PRODUIT
CA
Lextex Intl
Textcat
SILC
iQueacute4
PentaMem
LangWitch
URL
ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt
ltwwwlextekcomgt
ltodurletrugnl~vannoordTextCatDemo textcathtmlgt
ltwww-raliiroumontrealcaSILCSILCfrcgigt
ltquebecaliscomcastilessai_silccgigt
ltnlppetamemeomlangreccgigt
ltwwwmorphologichuorderlangwitchaspgt
VERNACU-LAIREa
Chinois
Abkhaz
Chinois
Chinois
Chinois
Albanais
Pas disp
PINYIN NON
AGREacuteGEacuteb
Catalan
Javanais
Inconnu
Allemand
Allemand
Turc
Espagnol
PINYIN
AGREacuteGEacute0
Catalan
Javanais
Inconnu
Italien
Italien
Turc
Espagnol
h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang
c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang
formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections
Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse
3 Notre traduction
1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee
La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-
duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise
LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES
Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-
4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues
ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)
Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques
L E REPEacuteRAGE TRANS-SCRIPTS
Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation
Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il
5 Notre traduction 6 Notre traduction
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
TABLEAU 3 Reacutesultats dune expeacuterience didentification de la langue en utilisant un court extrait de texte chinois
DEacuteVELOPPEUR
Xerox
Lextex
Alfa-informatica U de Groningen
RALI U de Montreacuteal
Alis Technologies
PentaMem Technology
MorphoLogic
PRODUIT
CA
Lextex Intl
Textcat
SILC
iQueacute4
PentaMem
LangWitch
URL
ltwwwxrcexeroxcomcompetenciescontent-analysistoolsguesserenhtmlgt
ltwwwlextekcomgt
ltodurletrugnl~vannoordTextCatDemo textcathtmlgt
ltwww-raliiroumontrealcaSILCSILCfrcgigt
ltquebecaliscomcastilessai_silccgigt
ltnlppetamemeomlangreccgigt
ltwwwmorphologichuorderlangwitchaspgt
VERNACU-LAIREa
Chinois
Abkhaz
Chinois
Chinois
Chinois
Albanais
Pas disp
PINYIN NON
AGREacuteGEacuteb
Catalan
Javanais
Inconnu
Allemand
Allemand
Turc
Espagnol
PINYIN
AGREacuteGEacute0
Catalan
Javanais
Inconnu
Italien
Italien
Turc
Espagnol
h) Zai guo qu 35 nian li Ri ben huang shi de 9 ming xin sheng er quan shi nu de yan zhong que fa nacircn xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nu tian huang
c) Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolu xiugai xianfa yi |iena yi wei nu tianhuang
formuleacutees en caractegraveres chinois ou une combinaison des deux Toutefois cette approche pourrait saveacuterer peu pratique si la collection chinoise est inteacutegreacutee agrave un ensemble multilingue plus grand destineacute agrave une clientegravele diverse et comportant un vaste assortiment de collections
Une solution possible consisterait agrave deacutevelopper des agents intelligents et agrave les inteacutegrer agrave linterface du systegraveme de repeacuterage Ces agents se deacutefinissent comme des modules informatiques semi-autonomes capables didentifier des modegraveles reacutepeacutetitifs de comportements des similitudes entre des eacuteveacutenements et des objets et des changements de modegraveles dans le temps (Feldman et Yu3) Ces agents pourraient agir sur plusieurs fronts pour faciliter le repeacuterage dobjets chinois Agrave laide de techniques didentification de la langue lors de lanalyse des termes de la requecircte un agent pourrait deacutetecter que lutilisateur est agrave la recherche dun objet en chinois Cette deacutetection acheveacutee lagent intelshyligent pourrait afficher une interface offrant un assortiment de techniques de repeacuterage adapteacutees au repeacuterage de notices douvrages en langue chinoise puis cibler automatiquement le sous-ensemble des notices bibliographiques en langue chinoise contenues dans le catalogue En cas deacutechec de la requecircte ou dun manque de preacutecision lagent pourrait activer et adapter des algorithmes de pertinence qui pourraient classer par ordre de pertinence de grands ensembles de notices ou appeler des techniques dexpansion de requecirctes Enfin la deacutetection de la langue par lagent pourrait aussi deacuteclencher lactivation de modules de repeacuterage trans-scripts qui pourraient comparer les termes des requecirctes formuleacutees en vernaculaire aux termes dindexation romaniseacutes et linverse
3 Notre traduction
1 7 8 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Dans ce cadre de travail il est eacutevidemment essentiel que la langue de la requecircte soit identifieacutee avant lactivation de toute autre technique de repeacuterage Ideacutealement cela devrait ecirctre fait en demandant simplement agrave lutilisateur didentifier manuellement la langue de sa recherche En pratique cependant il y a peu de chances dobtenir une telle information des utilisateurs qui nexploitent que rarement les options avanceacutees de repeacuterage (Xie et OHallaron 2002 2) La plupart des eacutetudes sur lidentification informashytique de la langue se concentrent sur lanalyse statisshytique selon les caracteacuteristiques textuelles Dans le cas des textes vernaculaires chinois lopeacuteration est assez simple mais lidentification informatique de la langue dun texte chinois romaniseacute pourrait ecirctre plus difficile surtout quand lanalyse opegravere sur les quelques termes dune requecircte Il existe un certain nombre de produits informatiques commerciaux qui sattaquent au deacutefi didentifier la langue dun texte eacutecrit Le tableau 3 ci-dessous montre les reacutesultats obtenus lors dune expeacuterience lanceacutee agrave partir dun petit texte provenant du site Internet de Yahoo News en chinois (http cnnewsyahoocom) Quatre des sept produits testeacutes ont eacuteteacute capables didentifier correctement la langue dun texte vernaculaire mais aucun na pu lidentifier agrave partir des deux formes pinyin Il est donc clair que de nouveaux deacuteveloppements sont requis dans ces produits avant de pouvoir deacutetecter un texte chinois en forme romaniseacutee
La question de savoir si cette identification linguisshytique est possible dans le cadre de requecirctes dans un catalogue public en ligne (OPAC) et avec quel niveau de succegraves est eacutevidemment essentielle Pour tenter de reacutepondre agrave cette question nous avons proceacutedeacute agrave une autre bregraveve expeacuterience dont les reacutesultats sont encoushyrageants Nous avons utiliseacute des syllabes pinyin indivi-
duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise
LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES
Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-
4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues
ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)
Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques
L E REPEacuteRAGE TRANS-SCRIPTS
Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation
Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il
5 Notre traduction 6 Notre traduction
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
duelles pour formuler des requecirctes dans lOPAC de la Library of Congress lthttpcatalogloggovgt un tregraves vaste catalogue multilingue contenant plus de 12 millions dobjets Chacune des 407 syllabes4 a eacuteteacute utiliseacutee individuellement pour lancer des recherches sur des mots-cleacutes dans le titre une premiegravere fois sans limite de langue une seconde fois avec la langue limiteacutee aux notices en langue chinoise uniquement On trouvera les donneacutees complegravetes en annexe Le ratio des deux recherches est ainsi une indication de la probabiliteacute que chaque syllabe pinyin correspond bien agrave du texte chinois Par exemple il est hautement probable que si la syllabe laquo xiang raquo est utiliseacutee dans une requecircte sa preacutesence indique lintention de repeacuterer un titre chinois puisque 98 de toutes les occurrences de laquoxiangraquo dans lindex viennent de notices en langue chinoise Dautre part du fait que 1 seulement des occurrences de la syllabe laquorunraquo correspondent agrave des donneacutees chinoises il est hautement improbable quune requecircte contenant ce terme indique lintention de repeacuterer un titre en langue chinoise Ce quil y a dencourageant et de prometteur dans cette bregraveve analyse est que 25 environ de toutes les syllabes pinyin ont une probabiliteacute de plus de 90 de corresshypondre agrave des notices en langue chinoise De plus la probabiliteacute demeure assez eacuteleveacutee (plus de 69 ) si on ne considegravere que la moitieacute des syllabes On peut degraves lors imaginer que si une requecircte contient simplement deux ou trois syllabes il est assez facile de deacutetecter dans la majoriteacute des cas et avec un bon niveau de fiabiliteacute quune requecircte est formuleacutee en pinyin et que par conseacutequent elle indique lintention de repeacuterer des ressources en langue chinoise
LE REPEacuteRAGE FONDEacute SUR LA PERTINENCE DANS LES RECHERCHES SUR DES TITRES SPEacuteCIF IQUES
Traditionnellement cest aux recherches par sujet que sappliquent les techniques de repeacuterage fondeacutees sur la pertinence Dans les recherches sur des titres speacutecifiques le taux de succegraves et le ratio de preacutecision sont habituellement suffisamment eacuteleveacutes pour ne pas opposer dobstacles agrave un repeacuterage efficace Mais comme nous lavons vu plus haut le taux de succegraves dune premiegravere requecircte sur des titres speacutecifiques chinois peut ne pas ecirctre satisfaisant en raison de lambiguiumlteacute concernant lagreacutegation et de la confusion dans la romanisation qui sont dues au fait que la langue chinoise contient un volume dinformation phonologique tregraves eacuteleveacute si lon prend en compte toutes les variables en jeu Par conseacuteshyquent la moindre nuance est susceptible de faire une grande diffeacuterence au repeacuterage et la mauvaise pronon-
4 Il y a 409 syllabes en tout mais comme le systegraveme ignore les signes diacritiques dans les termes de requecircte les paires syllabiques lulu et nunucirc ont ducirc ecirctre confondues
ciation dun mot va aboutir selon toute probabiliteacute agrave la prononciation dun autre mot (Chao 1968 23s) Une analyse plus pousseacutee des requecirctes a permis de regrouper les erreurs dagreacutegation et les erreurs de romanisation en trois ou quatre sous-groupes En ce qui concerne les erreurs de romanisation nous avons observeacute que la majoriteacute des requecirctes eacutetaient en fait presque des correspondances la diffeacuterence eacutetant due agrave une leacutegegravere confusion de prononciation chez lutilishysateur (Arsenault 2000 183) Par exemple le terme laquo lin raquo qui signifie laquo forecirct raquo a parfois eacuteteacute introduit sous la graphie laquolingraquo La confusion entre les prononshyciations nasale avant (consonne alveacuteolaire) et nasale arriegravere (consonne veacutelaire) est assez freacutequente chez les locuteurs de langue maternelle chinoise (Chao 1961 7 King 1983 98-99 Yin et Felley 1990 27-28) Parmi les autres erreurs de prononciation observeacutees freacutequemment il faut compter la confusion entre les paires fricatives (ssh chzh) et les autres paires de consonnes (1n hf par exemple)
Ces observations nous amegravenent agrave souhaiter que des donneacutees plus abondantes soient rassembleacutees concernant ces pheacutenomegravenes et que des algorithmes de repeacuterage prenant en compte les correspondances approximatives soient deacuteveloppeacutes Lapplication de techniques de recherches floues pourrait ecirctre utile ici agrave cause de leur toleacuterance des erreurs commises tant agrave lentreacutee des donneacutees quagrave lentreacutee des requecirctes (Chu 2003 65) La mecircme chose vaut pour les erreurs dagreacuteshygation pour lesquelles des algorithmes de classement par proximiteacute de termes pourraient ameacuteliorer le repeacuterage mecircme dans le cas de recherches de titres speacutecifiques
L E REPEacuteRAGE TRANS-SCRIPTS
Le repeacuterage trans-scripts est une autre aire de recherche qui meacuterite decirctre approfondie Il est tregraves eacutetroitement lieacute au repeacuterage dinformation multishylingue (RIML) qui se deacutefinit comme la deacutecouverte de documents dans une langue reacutepondant agrave des requecirctes formuleacutees dans une autre langue (Xu Weischedel et Nguyen 20011056) Comme nous lavons mentionneacute au deacutebut de cette eacutetude le repeacuterage des donneacutees en langue chinoise se fait traditionnellement en cherchant une ou des correspondances entre des termes de requecircte romaniseacutes et des donneacutees romaniseacutees ou bien entre des requecirctes en vernaculaire et des donneacutees vernaculaires (voir la figure 1) Notons agrave nouveau que la plupart des OPACs du monde occidental se limitent au repeacuterage selon la romanisation
Pour le repeacuterage de notices contenant agrave la fois des entreacutees vernaculaires et romaniseacutees il devrait ecirctre possible dappliquer des techniques RIML Il
5 Notre traduction 6 Notre traduction
DOCUMENTATION ET BIBLIOTHEgraveQUES | JUILLET bull SEPTEMBRE 2005 | 1 7 9
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
FIGURE l Modegravele de repeacuterage traditionnel
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
FIGURE 2 Modegravele de repeacuterage trans-scripts (cross-script retrieval)
ENTREacuteE TERMES DINTERROGATION TERMES DINDEXATION
Romanisation Romanisation Romanisation
Autres meacutethodes dentreacutee Vernaculaire Vernaculaire
faudrait seulement dans ce cas appliquer le repeacuterage entre scripts plutocirct quentre langues Ainsi le repeacuterage ne serait plus limiteacute aux seules recherches de corresshypondance entre requecirctes romaniseacutees et donneacutees romaniseacutees il pourrait se faire selon plusieurs avenues comme le montre la figure 2 ci-dessous
Dans ce modegravele lutilisateur serait libre de formuler sa requecircte sous nimporte quelle forme et il serait possible dy incorporer des techniques de repeacuterage et dindexation deacuteveloppeacutees speacutecifiquement pour du texte vernaculaire chinois baseacutees sur les caractegraveres ou sur les mots ou encore des meacutethodes hybrides telles que les meacutethodes laquo-grams (Nie et Ren 1999 Dai Khoo et Loh 1999)
IMPLICATIONS DE LA RECHERCHE
Nous avons preacutesenteacute dans cette eacutetude la probleacuteshymatique geacuteneacuterale du repeacuterage de titres speacutecifiques en langue chinoise dans les catalogues publics en ligne nord-ameacutericains (OPACs) La recherche de titres speacutecifiques dans un OPAC est une opeacuteration ordinairement facile mais elle devient freacutequemment complexe quand il sagit dune recherche dobjets en langue chinoise surtout quand les modules dinterroshygation et de repeacuterage ne sont pas adapteacutes aux partishyculariteacutes de cette langue Notre analyse de quelques-uns des problegravemes que pose cette situation montre quil existe un besoin urgent de recherches dans ce domaine si lon veut ameacuteliorer et faciliter le repeacuterage dobjets en langue chinoise Le but de la preacutesente eacutetude a eacuteteacute didentifier des avenues de recherche possibles et de mettre de lavant quelques ideacutees sur la maniegravere de les mener agrave bien reg
SOIIRCFR CONSUI TFFS
Arsenault Cleacutement 2002 Pinyin Romanization for OPAC retrieval is everyone being served Information Technology and Libraries 21(2) 45-50
2000 Word division in the transcription of Chinese script in the title fields of bibliographic records Thegravese de doctorat non publieacutee Toronto Universiteacute de Toronto Disposhynible chez UMI ndeg AAT NQ53736
Chao Yuen Ren 1961 Mandarin primer an intensive course in spoken Chinese Cambridge Harvard University Press
1968 A grammar of spoken Chinese Berkeley University of California Press
Chu Heting 2003 Information representation and retrieval in the digital age Medford NJ Information Today
Dai Yubin Christopher SG Khoo et Teck Ee Loh 1999- A new statistical formula for Chinese text segmentation incorposhyrating contextual information SIGIR 99 82-89
Feldman Susan et Edmund Yu 1999 Intelligent agents a primer Searcher 7(9)
Huang Jie 2004 Retrieval of Chinese language in pinyin a compashyrative study Information Technology and Libraries 23 (3) 95-100
King Paul L 1983 Contextual factors in Chinese pinyin writing Thegravese de doctorat non publieacutee Ithaca Cornell University
Mair Victor H 2001 Pinyin orthographical rules for libraries a follow-up Chinese Librarianship An International Electronic
Journal 7
Nie Jian-Yun et Fuji Ren 1999 Chinese information retrieval Using characters or words Information Processing amp Management
35 (4) 443-462
OCLC 2005 WorldCat facts and statistics lthttpwwwoclcorg worldcatstatisticsgt (page consulteacutee le 2 mai 2005)
Tull Laura 2002 Library systems and Unicode a review of the current state of development Information Technology and Libraries 21 (4) 181-185
1 8 0 I JUILLET bull SEPTEMBRE 2 0 0 5 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Xie Yinglian et David OHallaron 2002 Locality in search engine
queries and its implications for caching Proceedings of IEEE
INFOCOM mdash The Conference on Computer Communications
lthttpwww-2cscmuedu~drohpapersqueryinfocom
pdfgt
Xu Jinxi Ralph Weischedel et Chanh Nguyen 2001 Evaluating a
probabilistic model for cross-lingual information retrieval
SIGIRoi 105-110
Yin Binyong et Mary Felley 1990 Chinese Romanization
pronunciation and orthography Beijing Sinologua
A N N F X F
Donneacutees assembleacutees agrave partir du catalogue en ligne de la Library of Congress entre le 8 novembre 2002 et le 30 janvier 2003
Syllabe
qiong
zhei
zhui
ceng
yu
xian
jiao
jia
bian
zuo
xiu
qiao
xue
xiong
xin
dian
jian
nian
xiao
jiu
zhong
zhun
qi
zong
xiang
qian
zheng
jue
zhuang
guan
xia
guo
jie
zhai
qiang
jiang
zhuan
zhu
KWds Titre
8 6
1
378
576
37601s
16822
12398
10745
10575
9398
2285
9 4 9
36015
656
14323
11685
15370
11729
10067
10638
17008
15016
530
13818
4012
10150
4053
12095
1597
1402
11272
2597
15220
10923
1140
9 6 0
4974
956l
13807
KWds Titre amp
la=Chinois
8 6
1
377
573
37323
16646
12263
10619
10446
9283
2257
937
35505
6 4 6
14097
11499
15114
11526
9891
10452
16699
14733
5 2 0
13551
3934
9949
3970
11847
1564
1373
11038
2543
14897
10690
1115
938
4857
9336
13474
Ratio
10000
10000
9974
9948
9926
9895
9891
9883
9878
9878
9877
9874
9858
9848
9842
9841
9833
9827
9825
9825
9818
9812
9811
9807
9806
9802
9795
9795
9793
9793
9792
9792
9788
9787
978l
9771
9765
9765
9759
Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2 0
21
2 2
23
2 4
25
2 6
27
2 8
2 9
3 0
31
32
33
3 4
35
36
37
38
39
Rang cum
025
049
074
098
123
147
172
197
221
246
270
295
349
344
369
393
418
442
467
491
516
541
565
590
614
639
663
688
713
737
762
786
811
835
860
885
909
934
958
Syllabe
qing
ren
guang
cang
zhan
diao
zhuo
zhen
qu
xun
lian
zha
shuai
qiu
zhua
cun
xuan
gou
yue
gong
qun
zi
cuo
biao
zhang
zhao
jing
zhe
zeng
qin
ge ng
zhou
zai
g
zao
deng
zou
gu i
ji
mian
ruo
xu
zui
qie
gao
luo
duan
guai
lue
yan
shuo
cai
jin
rong
jiong
KWds Titre
9002
14828
2075
1689
8556
1834
182
4227
7327
3019
2625
4 2 0
3 8 8
2148
3 0
2302
12568
1691
3738
15218
611
15689
2 2 6
2271
3293
1480
20243
5148
6 4 0
1921
3 4 2
3038
3834
13825
1756
2141
1350
3433
S8104
1228
2 9 8
3703
1999
2 2 0
6002
1655
1726
287
2361
22830
8103
5766
10831
1646
12
KWds Titre amp
la=Chinois
8782
14464
2021
1645
8328
1785
177
4110
7119
2933
2550
4 0 8
376
2078
2 9
2225
12145
1634
3611
14696
5 9 0
15143
218
2190
3171
1424
19442
4936
612
1833
3 2 6
2886
3630
13081
1656
2014
1266
3219
54461
1150
279
3464
1869
2 0 5
5588
1534
1597
2 6 5
2179
21059
7472
5298
9941
1510
n
Ratio
9756
9755
9740
9739
9734
9733
9725
9723
9716
9745
9714
9714
9691
9674
9667
9666
9663
9663
9660
9657
9656
9652
9646
9643
9630
9622
9604
9588
9563
9542
9532
95oo
9468
9462
9431
9407
9378
9377
9373
9365
9362
9355
9350
9318
9310
9269
9253
9233
9229
9224
9221
9188
9178
9174
9167
Rang
4 0
41
4 2
4 3
4 4
45
4 6
47
4 8
4 9
5 0
51
52
53
5 4
55
56
57
58
59
6 0
61
6 2
6 3
6 4
65
6 6
6 7
6 8
6 9
7 0
71
72
73
74
75
76
77
78
79
8 0
81
82
83
8 4
85
8 6
87
88
89
9 0
91
9 2
93
9 4
Rang cum
983
1007
1032
1057
1081
1106
1130
1155
1179
1204
1229
1253
1278
1302
1327
1351
1376
1400
1425
1450
1474
1499
1523
1548
1572
1597
1622
1646
1671
1695
1720
1744
1769
1794
1818
1843
1867
1892
1916
1941
1966
1990
2015
2039
2064
2088
2113
2138
2162
2187
2211
2236
2260
2285
2310
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I I ft 1
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
cong
pian
shao
wen
neng
shuang
shen
bao
dang
wai
tian
ying
huan
dui
dao
niao
sheng
gai
nong
lun
ge huo
tong
liang
heng
ming
quan
shou
miao
shang
zhi
wu
liao
liu
fang
kuai
fen
feng
xie
hou
tiao
fa
yuan
wei
ci
gua
lu lu
shui
ping
pin
shu
meng
yao
hui
ling
KWds Titre
4 6 4 9 2
3104
3239
52293
1 0 0 3
733
5 4 0 3
9218
8531
6134
3338
11755
2795
3293
6 7 6 6
611
22578
6197
4 2 8 2
24752
10263
5 0 4 5
11263
4 6 4 3
1142
18547
8911
7861
1290
9529
32643
21817
11756
6748
13931
1196
6635
7385
3554
2681
2919
29413
19129
11937
1 0 2 8 6
257
2 2 6 4 6
6199
7958
6128
73897
3143
7 9 0 8
2 6 2 0 0
4 6 0 1
KWds Titre amp
la=Chinois
4 2 5 2 8
2827
2932
47222
9 0 5
6 6 1
4 8 6 7
8287
7 6 6 9
5 4 9 6
2 9 8 9
10510
2 4 8 7
2 9 2 9
6 0 1 8
543
2 0 0 3 4
5 4 9 4
3777
21753
9 0 1 8
4 4 3 2
9 8 3 6
4 0 4 6
9 9 4
16133
7750
6 8 3 4
1118
8 2 4 6
28243
18872
10154
5818
11988
1017
5635
6 2 6 1
3 0 1 0
2 2 6 7
2 4 5 2
2 4 6 6 9
16035
9 9 9 9
8 6 0 2
214
18845
5131
6 5 4 0
5025
60526
2567
6 4 5 4
21378
3751
Ratio
9 1 4 7
9108
9 0 5 2
9 0 3 0
9 0 2 3
9018
9 0 0 8
8 9 9 0
8 9 9 0
8 9 6 0
8 9 5 4
8 9 4 1
88 98
8895
8 8 9 4
8 8 8 7
8 8 7 3
8 8 6 6
8 8 2 1
8788
8 7 8 7
8 7 8 5
8 7 3 3
87 14
8 7 0 4
8 6 9 8
8 6 9 7
8 6 9 4
8 6 6 7
8 6 5 4
8 6 5 2
8 6 5 0
8 6 3 7
8 6 2 2
8 6 0 5
8 5 0 3
8 4 9 3
84 78
8 4 6 9
8 4 5 6
8 4 0 0
8 3 8 7
8 3 8 3
8 3 7 6
8 3 6 3
8327
8 3 2 2
8 2 7 7
8218
8 2 0 0
8191
81 67
8 1 6 1
8 1 6 0
8 i 5 3
Rang
9 5
9 6
97
9 8
9 9
1 0 0
101
102
103
1 0 4
105
1 0 6
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
Rang cum
2 3 3 4
2359
2 3 8 3
2 4 0 8
2 4 3 2
2 4 5 7
2 4 8 2
2 5 0 6
2 5 3 1
25 55
2 5 8 0
2 6 0 4
2 6 2 9
2 6 5 4
2 6 7 8
2 7 0 3
2727
2 7 5 2
2 7 7 6
2 8 0 1
2 8 2 6
2 8 5 0
2 8 7 5
2 8 9 9
2 9 2 4
2 9 4 8
2 9 7 3
2 9 9 8
3 0 2 2
3 0 4 7
3071
3 0 9 6
3120
31 45
31 70
31 94
32 19
3 2 4 3
3 2 6 8
3 2 9 2
3317
3 3 4 2
3 3 6 6
3 3 9 1
34 15
3 4 4 0
3 4 6 4
3 4 8 9
3 5 4 4
35 38
3563
35 87
3 6 1 2
3 6 3 6
3 6 6 1
1 8 2 | JUILLET bull SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
hao
leng
yin
ju bie
peng
shi
chuang
hua
huang
cheng
weng
zang
nuan
kua
lin
fei
yun
jun
huai
shan
kou
bing
kuang
niang
wang
zuan
ydegng chuan
piao
dong
dou
rou
xi
suan
ruan
ding
ting
pei
bai
tan
chang
mei
ye
tuan
fu
nan
cao
kao
wan
tao
tuo
tang
yi gei
KWds Titre
4 0 4 2
345
8725
6 7 8 9
6 5 8
875
79522
4 0 4 7
3 4 o 8 l
3237
18104
156
1026
102
598
5 0 2 0
2 8 4 3
6 5 2 2
4158
8 8 8
6 5 4 5
2 4 2 9
2750
4 4 7 9
2 2 8
5570
323
8 3 0 8
12683
2 0 2 4
7 7 0 3
1142
133
2 4 4 8 0
1754
2 6 8
2 4 7 7
3742
5 9 9 6
6 9 7 7
10791
11158
8219
16051
1992
12580
8144
2 0 5 7
8 6 4 7
6514
6874
8 6 2
6611
37223
413
KWds Titre amp
la=Chinois
3 2 9 4
281
7 1 0 0
5523
535
711
64143
3254
27293
2582
14413
124
815
81
471
3 9 4 2
2 2 2 5
5 0 8 4
3218
685
5 0 4 5
1869
2111
3438
175
4275
2 4 6
6313
9 5 2 9
1504
5 7 0 3
8 4 4
9 8
17920
1283
195
1801
2 7 2 0
4357
5 0 6 6
7813
8 0 5 8
5935
11540
1425
8 9 9 7
5821
1467
6139
4611
4 7 8 2
5 9 6
4567
25697
285
Ratio
8149
8 1 4 5
81 38
8 i 3 5
81 31
8 1 2 6
8 0 6 6
8 0 4 1
8 0 0 8
7 9 7 7
7 9 6 1
7 9 4 9
79gt43
7 9 4 1
7 8 7 6
7 8 5 3
7 8 2 6
7 7 9 5
7 7 3 9
7 7 1 4
7 7 o 8
7 6 9 5
76 76
76 76
7 6 7 5
7 6 7 5
7616
7 5 9 9
7513
7431
74 04
7 3 9 1
7 3 6 8
73 20
7315
7276
7271
7 2 6 9
72 67
7 2 6 1
7 2 4 0
7222
7 2 2 1
7 1 9 0
71 54
71 52
7 1 4 8
7132
7 1 0 0
70 79
6 9 5 7
6 9 1 4
6 9 0 8
6 9 0 4
6 9 0 1
Rang
150
151
152
153
154
155
156
157
158
159
1 6 0
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
2 0 0
2 0 1
2 0 2
2 0 3
2 0 4
Rang cum
3686
3 7 i o
37 35
37 59
3 7 8 4
3 8 0 8
3833
3 8 5 7
3 8 8 2
3 9 0 7
3 9 3 1
3 9 5 6
3 9 8 o
4 0 0 5
4 0 2 9
4 0 5 4
4 0 7 9
41 03
4 1 2 8
41 52
4 1 7 7
4 2 0 1
4 2 2 6
4 2 5 1
4 2 7 5
43oo
4 3 2 4
4 3 4 9
4373
4 3 9 8
4 4 2 3
4 4 4 7
4 4 7 2
4 4 9 6
4521
4 5 4 5
4 5 7 0
4 5 9 5
4 6 1 9
4 6 4 4
4 6 6 8
4 6 9 3
47 17
4 7 4 2
47 67
4 7 9 1
4816
4 8 4 0
4 8 6 5
4 8 8 9
4 9 4 4
4 9 3 9
4 9 6 3
4 9 8 8
5 0 1 2
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
bu
pao
shua
chan
mao
gan
chao
chu
qia
ning
wo
fo mu
lie
fan
lai
teng
pu
chun
seng
cui
chou
miu
yang
shun
tai
li
hu
kuan
beng
ku
lao
ri
shuan
suo
hei
keng
chen
kang
hai
ban
chi
she
niu
ti
ce
tui
han
kuo
er
hun
cha
chai
sha
tu
KWds Titre
7879
53i8
214
10734
5589
2663
4929
23698
6
923
4919
2392
6882
7757
6068
3193
9 6 8
9308
5513
238
1694
3426
6 4
11979
329
15667
5199S
6725
4700
112
1 4 m
3932
5130
27
5353
974
287
7651
4781
10913
6056
34256
25554
574
34524
11849
2620
13449
20033
8401
2702
7637
1652
1701
25519
KWds Titre amp
la=Chinois
5431
3649
146
7323
370
1794
3316
15920
4
6 0 9
3241
1569
4513
5061
3959
2082
631
6046
3527
152
1076
2170
4 0
7469
2 0 5
9721
32113
4130
2885
6 8
8544
2369
3075
16
3172
571
166
4425
2746
6240
3453
19459
14381
323
19219
6568
1434
7203
10704
4338
1392
3932
834
855
12746
Ratio
6893
6862
6822
6822
6745
6737
6728
6718
6667
6598
6589
6559
6558
6524
6524
6521
6519
6495
6398
6387
6352
6334
6250
6235
6231
6205
6176
6141
6138
6071
6055
6025
5994
5926
5926
5862
5784
5784
5744
5718
5702
5680
5628
5627
5567
5543
5473
5356
5343
5164
5152
5149
5048
5026
4995
Rang
2 0 5
2 0 6
2 0 7
2 0 8
2 0 9
210
211
212
213
214
215
216
217
218
219
2 2 0
221
2 2 2
223
2 2 4
225
2 2 6
227
2 2 8
2 2 9
2 3 0
231
232
233
234
235
236
237
238
239
2 4 0
2 4 1
2 4 2
2 4 3
2 4 4
2 4 5
2 4 6
2 4 7
2 4 8
2 4 9
2 5 0
251
252
253
254
255
256
257
258
259
Rang cum
5037
5061
5086
5111
5i35
5160
5184
5209
5233
5258
5283
5307
5332
5356
538i
5405
543o
5455
5479
5504
5528
5553
5577
5602
5627
5651
5676
5700
5725
5749
5774
5799
5823
5848
5872
5897
5921
5946
5971
5995
6020
6044
6069
6093
6118
6143
6167
6192
6216
6241
6265
6290
6314
6339
6364
Syllabe
tie
cuan
mou
pang
min
gang
chui
kan
lan
n u n u
ran
sui
bo
ben
pai
hong
hang
lei
dai
pen
zun
luan
ke
Pi | lou
kui
mo
chong
ta
kong
pou
ze
nei
si
nuo
he
mang
pan
zan
juan
rang
ai
sai
ya
sou
kun
lang
nao
di
kai
tou
duo
zen
bi
che
KWds Titre
2010
4 9
8 9 9
659
33348
4197
6 5 2
24524
5673
6406
3172
4638
5371
11703
5742
6909
3140
8362
52127
6497
3 0 7
8 6 6
24843
7575
3042
6 0 0
10688
3774
16217
6017
712
3980
6102
33425
189
28720
6 5 0
10456
336
16134
9 4 1
7555
1489
9319
527
2250
3209
1966
189115
17399
9442
3250
3343
18820
12787
KWds Titre amp
la=Chinois
9 8 9
2 4
4 3 9
313
15465
1925
2 9 8
11133
2557
2873
1393
2026
2304
4864
2364
2833
1263
3306
19886
2475
115
3 2 4
8927
2620
1049
2 0 4
3600
1269
5366
1968
232
1283
1946
10310
58
8670
194
3120
9 8
4596
2 6 4
2057
4 0 1
2493
139
588
7 7 0
4 6 8
44360
3917
2115
7 0 3
711
3971
2522
Ratio
4920
4898
4883
4750
4637
4587
4571
4540
4507
4485
4392
4368
4290
4156
4117
4100
4022
3954
3815
3809
3746
3741
3593
3459
3448
3400
3368
3362
3309
3271
3258
3224
3189
3085
3069
3019
2985
2984
2917
2849
2806
2723
2693
2675
2638
2613
2400
2380
2346
2251
2240
2163
2127
2110
1972
Rang
2 6 0
2 6 1
2 6 2
2 6 3
2 6 4
2 6 5
2 6 6
2 6 7
2 6 8
2 6 9
2 7 0
271
272
273
274
275
2 7 6
277
278
279
2 8 0
281
2 8 2
283
2 8 4
285
2 8 6
287
2 8 8
2 8 9
2 9 0
291
2 9 2
2 9 3
2 9 4
295
2 9 6
2 9 7
2 9 8
2 9 9
3 0 0
3 0 1
3 0 2
3 0 3
3 0 4
3 0 5
3 0 6
3 0 7
3 0 8
3 0 9
310
311
312
313
314
Rang cum
6388 1
6413
6437
6462
6486
6511
6536
6560
6585
6609
6634
6658
6683
6708
6732
6757
6781
6806
6830
6855
6880
6904
6929
6953
6978
7002
7027
7052
7076
7101
7125
7150
7174
7i99
7224
7248
7273
7297
7322
7346
7371
7396
7420
7445
7469
7494
7518
7543
7568
7592
7617
7641
7666
7690
7745
DOCUMENTATION ET BIBLIOTHEgraveQUES I JUILLET bull SEPTEMBRE 2005 I 1 A 3
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES
Syllabe
tun
bang
san
da
su
ba
reng
kei
gen
rao
mi
ma
bei
zei
te
nang
zu
cen
rui
ao
chua
bin
mie
sen
long
nin
sang
nue
nie
men
se
you
fou
shai
re
sun
song
du
ang
ru
can
dan
lo
za
mai
pa
shei
KWds Titre
8 6 4
1696
46321
86674
34974
14048
2 0
3 6 8
3208
539
23428
14638
28728
171
20169
6 6 8
50782
2 6 8
6 0 6
5951
281
2099
728
3521
9976
8 9 6
3607
112
1421
30926
20116
99761
596
231
11131
14963
45384
116542
6 7 6
36328
28152
31568
14878
32232
16007
23786
82
KWds Titre amp
la=Chinois
168
325
7726
14299
5598
2222
3
53
453
71
2994
1828
3541
21
2472
79
5866
3 0
66
633
2 9
2 0 9
72
3 2 4
9 0 1
74
297
9
112
2308
1445
7131
41
15
715
8 6 2
2609
6243
3 4
1708
1318
1323
595
1256
597
885
3
Ratio
1944
1916
1668
1650
1601
1582
1500
1440
1412
1347
1278
1249
1233
1228
1226
1183
1155
1119
1089
1064
1032
996
989
920
903
826
823
804
788
746
718
715
688
649
642
576
575
536
503
470
468
449
400
390
373
372
366
Rang
315
316
317
318
319
3 2 0
321
322
323
3 2 4
325
3 2 6
327
3 2 8
3 2 9
3 3 0
331
332
333
334
335
336
337
338
339
3 4 0
341
3 4 2
3 4 3
3 4 4
345
3 4 6
347
3 4 8
3 4 9
350
351
352
353
354
355
356
357
358
359
3 6 0
361
Rang cum
7740
7764
7789
7813
7838
7862
7887
7912
7936
796i
7985
8010
8034
8059
8084
8108
8133
8157
8182
8206
8231
8256
8280
8305
8329
8354
8378
8403
8428
8452
8477
8501
8526
8550
8575
8600
8624
8649
8673
8698
8722
8747
8771
8796
8821
8845
8870
Syllabe
ni
po
chuai
ou
hen
cou
diu
sao
cu
man
chuo
an
dun
ken
nai
gun
sa
nia
lia
ng de
yo
run
pie
que
ka
e ecirc
ei
nou
na
wa
le
ga a
eng
ca
ha
nen
die
la
en
ne
me
den
dia
dei
KWds Titre
37000
51397
3 0
21528
9812
74
2 6 2
7108
3003
77521
1244
182000
14597
10877
5719
5569
15790
71
2 8 6
895
158138
573
5993
1994
32421
19372
168550
2400
4 2 0
114054
61170
185788
6825
230000
5655
9377
53381
10678
174739
197718
177721
10714
74492
82397
5015
22737
KWds Titre amp
la=Chinois
1322
1746
1
7 0 3
2 9 3
2
7
188
7 0
1753
2 8
4075
321
214
110
8 0
225
1
4
11
1868
66
66
14
223
115
891
12
2
525
2 4 4
6 2 6
22
7 0 9
17
2 6
117
2 2
252
2 0 3
163
9
56
18
1
1
Ratio
357
340
333
327
299
270
267
264
233
226
225
224
220
197
192
144
142
141
140
123
118
115
110
070
069
059
053
050
048
046
040
034
032
031
030
028
022
021
014
010
009
008
008
002
002
000
Rang
3 6 2
363
3 6 4
365
3 6 6
367
368
3 6 9
3 7 0
371
372
373
374
375
376
377
378
379
3 8 0
381
382
383
3 8 4
385
3 8 6
387
388
389
3 9 0
391
392
393
3 9 4
395
3 9 6
397
398
3 9 9
4 0 0
4 0 1
4 0 2
4 0 3
4 0 4
4 0 5
4 0 6
4 0 7
Rang cum
8894
8919
8943
8968
8993
9017
9042
9066
9091
9115
9140
9165
9189
9214
9238
9263
9287
9312
9337
936l
9386
94io
9435
9459
9484
9509
9533
9558
9582
9607
9631
9656
9681
9705
9730
9754
9779
9803
9828
9853
9877
9902
9926
9951
9975
10000
2 Zai guo qu 35 nian Ii Ri ben huang shi de 9 ming xin sheng er quan shi nii de yan zhong que fa nan xing ji wei ren xuan Ri ben guo hui bei po kao lii xiu gai xian fa yi jie na yi wei nii tian huang
3 Zai guoqu 35 nian li Riben huangshi de 9 ming xinshenger quan shi nii de yanzhong quefa nanxing jiwei renxuan Riben guohui beipo kaolii xiugai xianfa yi jiena yi wei nii tianhuang
4 Agrave noter que ce produit utilise la technologie deacuteveloppeacutee au RALI (Recherche appliqueacutee en linguistique informatique Universiteacute de Montreacuteal) il nest donc pas eacutetonnant dobtenir les mecircmes reacutesultats
5 Les valeurs en italiques sont estimeacutees
1 8 4 | JUILLET SEPTEMBRE 2005 | DOCUMENTATION ET BIBLIOTHEgraveQUES