Mes vingt années suivantes -...

8
Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés. Mes vingt années suivantes Roberto BUSA S.I. Plus de vingt ans écoulés depuis le congrès de Prague (7-11 juin 1966) n'en ont pas terni le souvenir. Ce fut sans aucun doute une rencontre très agréable} mais surtout un vivier de promesses que ces années ont concrétisées. Les actes publiés en 1968 demeurent un document de la vitalité de l'in- formatique linguistique de cette époque et du climat de l'amitié internationale qu'elle a favorisée. C'est le mérite de la Revue du C.I.P.L. d'en documenter aujourd'hui les fruits et les résultats. Pour ma part, je dirai avant tout et en trois points comment mes recherches ont progressé depuis lors. Enfin, je me permettrai quelques observations sur le développement général de ce type d'études. Mais je laisse à d'autres le soin d'en résumer le status artis. De toute façon pour cette raison je renvoie à l'article que le Prof. Zampolli a publié dans le Fe,t.sehrift qu'il m'a dédié. L'article (pp. 301-341) a pour titre Perspectives for an Itatian Mu/tifunetional Lexieal Databa,e et contient une synthèse solide ct très structurée du pivot de la linguistique computationnel1e cl 'aujourd 'hui. J'exposerai mes recherches en trois temps: jusqu'en 1980 achèvement et publication de l'Index Thomi,tieu,; de 1980 à aujourd'hui création à Milan du GIRCSE; à partir de maintenant préparation d'une continuation dans l'avenir, ... posthume. 1.- Achèvement de l'Inde", Thomisticus. Le projet était en 1946. En 1949, les premières expériences de traitement de texte avec des machines IBM avaient commencé à New York. Elles se poursuivirent à Gallarate et Milan jusqu'en 1966. Durant les années 1967- 69, le travail fut transféré à Pise auprès du CNUCE. Ce Centre National Universitaire de Calcul Electronique avait été créé à la double initiative de l'Université et d'IBM. Et le Professeur Zampolli fut appelé à y fonder la section linguistique. Dans le" années 1969-1971 mon équipe se tranféra auprès de l'IBM

Transcript of Mes vingt années suivantes -...

Page 1: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

Mes vingt années suivantes

Roberto BUSA S.I.

Plus de vingt ans écoulés depuis le congrès de Prague (7-11 juin 1966) n'enont pas terni le souvenir. Ce fut sans aucun doute une rencontre très agréable}mais surtout un vivier de promesses que ces années ont concrétisées.

Les actes publiés en 1968 demeurent un document de la vitalité de l'in­formatique linguistique de cette époque et du climat de l'amitié internationalequ'elle a favorisée. C'est le mérite de la Revue du C.I.P.L. d'en documenteraujourd'hui les fruits et les résultats.

Pour ma part, je dirai avant tout et en trois points comment mes recherchesont progressé depuis lors. Enfin, je me permettrai quelques observations sur ledéveloppement général de ce type d'études.

Mais je laisse à d'autres le soin d'en résumer le status artis. De toute façonpour cette raison je renvoie à l'article que le Prof. Zampolli a publié dans leFe,t.sehrift qu'il m'a dédié. L'article (pp. 301-341) a pour titre Perspectives foran Itatian Mu/tifunetional Lexieal Databa,e et contient une synthèse solide cttrès structurée du pivot de la linguistique computationnel1e cl 'aujourd 'hui.

J'exposerai mes recherches en trois temps: jusqu'en 1980 achèvement etpublication de l'Index Thomi,tieu,; de 1980 à aujourd'hui création à Milan duGIRCSE; à partir de maintenant préparation d'une continuation dans l'avenir,... posthume.

1.- Achèvement de l'Inde", Thomisticus.

Le projet était né en 1946. En 1949, les premières expériences de traitementde texte avec des machines IBM avaient commencé à New York. Elles sepoursuivirent à Gallarate et Milan jusqu'en 1966. Durant les années 1967­69, le travail fut transféré à Pise auprès du CNUCE. Ce Centre NationalUniversitaire de Calcul Electronique avait été créé à la double initiative del'Université et d'IBM. Et le Professeur Zampolli fut appelé à y fonder la sectionlinguistique. Dans le" années 1969-1971 mon équipe se tranféra auprès de l'IBM

Page 2: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

28 ROBERTO BUSA SI

de Boulder, Colorado, USA. J'y fis l'essai de la nouvelle photocomposeuse IBM2686, qui maintenant n'est plus produite. De 1971 à 1980, auprès du CentreScientifique de l'IBM-Italie, qui était alors à Venise, je complétais, avec la 2686,la photocomposition automatique des 70.000 pages qui forment les 56 volumes,format encyclopédie, de l'Index Thomisticus.

Quand je le considère de façon détachée et avec un recul de 10 ans, durantlesquels il fut utilisé par d'autres et par moi-même, cela me confirme dans monopinion que c'est un document complet et fort riche.

Il aurait été utilisable même avec beaucoup moins de structures, mais jen'aurais pas pu les augmenter. Il y a certainement des défauts, mais je croisqu'ils affectent des détails.

Si je compare l'Index ThomÎstÎcllS à de gigantesques banques de données,c'est évidemment un produit mineur. Mais il ne l'est plus, si je le compareaux index ct concordances publiés depuis lors. Je vois qu'il demeure encore àl'avant-garde. Et cela non seulement pour la quantité de l'input, mais surtoutpour le nombre et la complexité des catégories et des structures selon lesquellesil est organisé.

Ce n'est pas pour rien que beaucoup se sont plaints de la peine qu'exigeson utilisation. Cette plainte me flatte ... De fait je n'ai jamais voulu utiliserl'ordinateur selÙement pour accélérer le travail, mais pour atteindre des niveauxde qualité plus profonds.

Ce n'est pas pour rien que le travail humain de mes équipes, interactifavec le travail machine, a largement dépassé durant presque 35 ans le millionet demi d'heures-homme. Cela a correspondu en fait au travail d'environ millepersonnes pendant un an.

Dix volumes sont remplis par 50 index et tables différents. Dans 39 volumes4 concordances distinctes et différentes documentent intégralement tous lesmots, y compris tous les mots grammaticaux, c'est-à-dire les pronoms, lesprépositions, les conjonctions, les auxiliaires qui généralement sont omis. Cesconcordances sont structurées de façon à permettre même de documenter sil'auteur a écrit réellement certains passages qui lui sont attribués. Enfin 7 autresvolwnes condensent la réimpression automatique des 179 textes que l'IndexThomÎsticU3 a analysés et recensés.

Je mentionne quelques-unes des principales codifications et fonctions quifurent ajoutées aux mots et à la ponctuation des textes enregistrés et quiont permis et exigé le nombre et la complexité des structures de l'IndexThomisticU3.

Avant tout s'imposait la codification préalable des typologies des discours,dont la plus nécessaire était celle de la paternité: il est évident qu'au moins ilne faut pas attribuer à l'auteur ce qu'il cite.

Page 3: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

MES VINGT ANNÉES SUIVANTES 29

Puis nous avons considéré comme indispensable le lourd travail de lalemmatisation : en effet la presque totalité des recherches philologiques tourneautour des unités lexicales, que nous appelons "1emmes" bien avant et bien plusqu'autour de leurs variations flexiOImelles.

Dans les concordances et dans quelques index nous avons traité commemots~clés singuliers environ mille "syntagmes", c'est-à-dire les séquences deplusieurs mots à signification un~taire.

En outre dans les concordances, nous avons introduit avant les contextesde chaque mot-clé, un titre qui annonce le mot, sa morphologie, sa typologie etsa fréquence.

Le découpage des contextes a été exécuté par un prograrrune compliquéqui le rendit autant que possible Hintelligent".

Nous avons aussi voulu fondre en un seul contexte continu les contextes quela répétition voisine du même mot-clé aurait rendus répétitifs et fragmentés.

Enfin les 40 tables des volumes 9 et 10 des indice. constituent presque untraité d'anatomie du premier niveau du lexique d'un auteur.

2.- Le Gircse.En 1974, j'avais commencé à l'Aloisianum un Séminaire annuel de Lexico­

logie et Lexicographie Thomistes. Je l'étendis ensuite à l'Université Grégoriennede Rome et à partir de 1978 à l'Université Catholique de Milan.

En 1982, il se transforma grâce aux Professeurs G .C. Bolognesi et L. Vian,en une école d'informatique pour humanistes appelée GIRCSE lIGruppo Inter­disciplinare pel' la Computerizzazione dei Segni dell'Espressione". Je la conçuset la réalisai avec une finalité précise: l'école devait être élémentaire et initiale.Elle enseigne à des étudiants et des chercheurs de discipline et de formationhumaines, qui sont dépourvus de connaissances infonnatiques, à élaborer untexte de n'importe quelle langue et n'importe quel alphabet et à en tirer lesconcordances lemmatisées et la description morphologique et quantitative dusystème lexical du texte.

Les élèves ne deviennent ni des experts d'informatique ni même desprogrammeurs, mais seulement des usagers de l'informatique. Seulement après,une grande partie d'entre eux commencent à employer couramment les P.C.dans leurs recherches, en choisissant leurs programmes. En outre, seulement unpetit nombre parmi ces derniers fréquente des cours de programmation pourapprendre à écrire leurs propres programmes aussi bien pour les P.C. que pourles grosses machines.

Page 4: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

30 ROBERTO BUSA SI

Nous laissons ces choix à la sélection naturelle, confiants que parmi lesnombreux philologues capables de répéter les méthodes apprises, cette mêmesélection naturelle reconnaîtra ceux qui deviendront des architectes créateursde nouvelles stratégies de recherche.

Je viens de publier dans mon cours (Fondamenti di Informatica Linguistica,Milano, Vita e Pensiero, 1987, pp. 412 Lit. 50.000) ce que l'expérience m'aappris. Je suggère qu'il soit confronté aux analyses des cours d'informatiquepour humanistes que traite le numéro 21-4 de Computer and the Rumaniti..(octobre-décembre 1977) préparé avant la publication de mon cours et qui m'estparvenu après.

Les principales langues sur lesquelles nous avons travaillé sont: l'arabe,l'arménien, le tchèque, le finnois, le français, le grec classique, l'anglais ancienet moderne, l'italien, le latin, l'espagnol de la Renaissance, l'espagnol moderneet l'allemand. J'avais élaboré auparavant l'araméen, l'hébreu, le nabatéen et lerusse.

Tous les textes ont été élaborés jusqu'à la première définition de leursystème lexicologique, mais je considère que ce n'est pas le lieu pour en donnerla liste.

Néanmoins je signale ici que nous avons conunencé aussi quelques re­cherches plus avancées. Puisque nous avions élaboré un texte et dans sa langueoriginelle, et, ensuite, dans plusieurs de ses traductions nous en possédons lessystèmes lexicaux aussi bien du texte original que de ses traductions. Cela nouspermet d'en tirer des concordances contrastives pour y inventorier les corres­pondances entre les lelIunes de l'original et les lemmes de chaque traductionet inversement: correspondances de un à un, de un à plusieurs et de plusieursà un. Avant tout, nous le faisons sur les lemmes à valeur défiIÙe, pour tenterensuite d'y inclure les mots grammaticaux. Nous nous attendons à trouverdes problèmes spécifiques dans les correspondances entre mots individuels etsyntagmes. Nous voulons d'abord recueillir des informations qui soient desdonnées de fait garanties par une induction effective et informatisée. Ensuitenous voudrions y découvrir, si elles existent, les lois instinctives auxquelles letraducteur obéit même inconsciemment, dans le jeu des passages successifs dessignifiants du texte A aux signifiés dans la pensée du traducteur D, enfin deces derniers aux mots qu'il choisit pour les signifier dans la langue B. Cetterecherche est encore en cours.

Mais j'en ai déjà achevé une autre que j'ai exposée dans mon coursmentionné plus haut et que j'ai déjà mise à Pépreuve sur plusieurs textesde langues différentes. Il s'agit d'une formule minimale de lemmatisation.En effet bien que celle que j'avais imaginée et appliquée dans mon IndexThomi3ticU3 ait été seulement morpho-thématique et non syntactique, elle

Page 5: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

MES VINGT ANNÉES SUIVANTES 31

demandait énonnément de temps et d'efforts pour en conserver la cohérencesystématique. De plus elle augmentait trop le nombre des homographes àdistinguer. La nouvelle formule est beaucoup plus rapide car elle définitclairement les limites d'un petit nombre de catégories générales qui peuventsubir, sans être altérées, des spécifications ultérieures à des niveaux plusprofonds si on le désire.

Avec cette nouvelle formille je considère que j'ai rendu un service utileà ceux qui, comme moi, pensent qu'un texte n'est pas vraiment en Hmachinereadable form", sinon lorsque chacun de ses mots a été non seulement typolo­giquement défini, mais aussi lemmatisé.

3.- L'avenir.Maintenant, je travaille à fonder une organisation dont le but soit de

promouvoir une collaboration internationale et supra-confessionnelle pour tirerde l'Index Thomisticus un "lexique" qui traduise dans le vocabulaire cultureld'aujourd'hui les termes dans lesquelles s'exprimait la culture au temps desaint Thomas. Evidemment, cette recherche demandera plusieurs dizainesd'années. Elle ne devrait pas produire un "lexique doctrinal". En effet il existedéjà et l'Index Thomisticus imprimé et tous les textes thomistes sur bandesmagnétiques, et d'ici peu aussi sur disquettes. Elle devrait produire un Ulexiquede traduction": non seulement bilingue (ou multilingue), mais aussi, pour ainsidire, bi-culturel, comme un pont entre la culture du treizième siècle et la cilltured'aujourd'hui.

Ce lexique précisera que virtus alors signifiait aussi "force, énergie etpouvoir" et non seulement "vertu" j que ordo exprimait ce qu'aujourd'huinous exprimons par les mots "organisation, système, structure, programmation,classification, taxonomie.,," j que alors ratio seminalis signifiait "programmegénétique" ou "code génétique", et ainsi de suite.

Ce lexique, dans une seconde partie, fera la liste alphabétique des motsmodernes qui se sont ramifiés ou qui ont déplacé leurs contenus et les noeudsdu filet des intérêts culturels. La liste indiquera quels mots latins du 13'correspondaient à chacun de ces mots modernes, c'est-à-dire sous quels motsdu 13 e noUs pouvons repérer nos concepts d'aujourd'hui.

Tous le monde m'accordera que, en tant que rêve, ce projet est très beau.Si Dieu le veut, il le fera réaliser.

Page 6: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

32 ROBERTO BUSA SI

4.- Observations sur le développement de l'informatiquelinguistique.

Tout le monde connaît les développements de l'informatique linguistique:revues, congrès, écoles, publications, banques de données. Beaucoup en outre serendent compte de ses linùtes. L'article le plus récent qui en parle est LiteraryCritici>m and Literary Computing (. ..) de R.J. Potter dans Chum 22-2 (1988)pp. 91-97. Je répéterai ici quelques observations que rai déjà publiées ailleurs,et qui portent avant tout sur la persistance de certains défauts.

Certains utilisent encore l'ordinateur pour mener des recherches avec lesmêmes méthodes qu'auparavant seulement dans le but de les conclure plusrapidement. Probablement pour la même raison, trop de chercheurs se limitentencore à produire des index et des concordances de mots non lemmatisés mêmesur de petits textes.

L'urgence du publish or perish porte à une poussière de recherches quine sont que modèles-réduits: quelques pages d'algorithmes sur des donnéestrop minces pour étayer des conclusions utilisables. En effet, cent entrepriseschargées de créer une route dans la forêt ne devraient pas construire, chacunede son côté le premier kilomètre, mais l'une le premier, une autre le second etune autre le troisième et ainsi de suite. Cette remarque nous amène à donnerla préférence aux grosses banques de données et aux institutions qui pendantdes dizaines d'années travaillent en équipe.

Même dans notre époque électronique l'information donne des signesd'inflation. En effet dans des congrès et sur des revues, il n'est pas rare devoir présentées comme des nouveautés et des découvertes des réalisations quiavaient été publiées vingt ou trente ans avant. Mais il est peut-être naturelque le seuil au-delà duquel l'information n'est plus perçue s'abaisse au fur et àmesure que Pinformation augmente en quantité et en rapidité.

Le fait que beaucoup d'informaticiens aient une formation de mathéma­tiques et de sciences exactes comporte parfois la conséquence que dans desrecherches de langue et de texte, les mots sont traités comme s'ils étaienthomogènes, tels les chiffres. Peut-être celui qui est habitué aux méthodes de larecherche numérique n'imagine-t-il pas à quel point est hétérogène le coefficientde sémanticité des rapports signifiants-signifiés. En outre peut-être n'imagine­t-il même pas que les unités et les catégories conceptuelles sont d'une autredimension et d'un autre type que les utùtés et les catégories verbales.

Je pense aussi qu'un trop petit nombre d'infonnaticiens juge nécessairede faire précéder la programmation par un travail long et patient d'induction:quand il s'agit de l'expression humaine, il est absolument nécessaire d'en induireles catégories et les structures de quantités très grandes de textes naturels

Page 7: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

MES VINGT ANNÉES SUIVANTES 33

de type différent. En effet, le langage est une force qui ressemble plus à lamétéorologie des vents qu'à la parcellisation des terres.

Beaucoup mettent dans les algorithmes de l'ordinateur seulement des infor­mations qu'ils trouvent dans les granunaires et les dictionnaires traditionnels;d'autres confient à l'ordinateur seulement ce qu'ils connaissent personnellementet consciemment de leur "langue". Cela peut suffire pour des expériences etdes modèles qui recouvrent des zones restreintes: je pense en ce moment auxréalisations admirables et solides que l'IBM Italie vient de publier (Nole diInformaliea - 17, Dieembre 1987, Centro Seientifieo IBM Italia, Roma).

Mais je crains que tout cela ne soit pas applicable couramment et à grandeéchelle, à moins que l'on ait auparavant redéfini et purifié les catégories etles structures et que leurs coefficients de probabilité aient été induits, par desrecensements analytiques de millions de phrases naturelles, de genres littérairesdifférents.

En effet grâce à sa nature, proche des méthodes physico-mathématiques,l'informatique non seulement permet, mais même exige un renouvellement dela philologie. Non pas dans le sens où elle détruit la philologie traditionnelle,mais dans le sens où elle demande de l'approfondir et de l'élargir. Elle requierten outre non seulement une induction majeure, mais aussi et surtout unaccroissement de la qualité de ses méthodes.

La fonction propre de l'ordinateur est de résumer instantanément degrandes masses de dOlmées individuelles élémentaires. Ceci pousse la philologieà se développer dans deux directions: vers ((l'amont" et vers ul'aval".

"En amont", l'informatique permet Wle purification et une mise au pointdes catégories linguistiques connues depuis des siècles. Les premiers échecs de latraduction automatique, il y a déjà vingt ans, avaient été attribués au fait quenos connaissances philologiques traditionnelles sont inadéquates à construiredes algorithmes informatiques pratiques.

"En aval", elle ouvre des perspectives infinies à la créativité de ceux quicomprennent que le vol des avions suit des routes bien différentes de celles desvoitures à cheval.

C'est pour cette raison que je nourris un enthousiasme, pourtant contrôlé,pour l'intelligence artificielle. En effet, je vois en elle la promesse que l'ordi­nateur enseignera même à la philologie à pénétrer dans de nouveaux espaceset avec de nouvelles stratégies, pour qu'elle opère beaucoup plus et beaucoupmieux: les jeunes philologues ont devant eux beaucoup plus de possibilités detravail que nous n'en avons eu.

Cette rapide évolution méthodologique et épistémologique a déjà com­mencé. Grâce à elle je vois aussi s'estomper les frontières entre informatique

Page 8: Mes vingt années suivantes - promethee.philo.ulg.ac.bepromethee.philo.ulg.ac.be/RISSHpdf/Annee1989/Articles/RBusa.pdf · an Itatian Mu/tifunetional Lexieal Databa,e et contient une

Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXV, 1 à 4, 1989. C.I.P.L. - Université de Liège - Tous droits réservés.

34 ROBERTO BUSA SI

documentaire et informatique linguistique. La première débouche dans des data·base." La seconde par contre vise à découvrir et classifier les catégories structu­relles du langage. Les finalités de leurs services demeurent bien distinctes. Maisleurs procédures informatiques semblent tendre à coïncider toujours davantage.A mon avis, ceci sera vrai et valide dans la mesure où chaque informationenregistrée en database aura été lemmatisée et codifiée typologiquement motpar mot.

Conclusion.Après le congrès que j'avais organisé à l'Université de Tübingen en 1960

(Internat. Kolloquium über Machinelle Methoden der Literarische Analyse), denombreux autres ont marqué la chaîne évolutive de l'informatique linguistique.Celui de Prague de 1966 a représenté un anneau, une étape et un pilier notablescar il exerça une influence promotionnelle profonde.

Nous en conservons tous un souvenir admiratif. Par-dessus les frontièresnationales et confessionnelles, il lia d'une amitié durable les savants qui y par­ticipèrent. Aujourd'hui ceux~ci sont appelés les patriarches de cette discipline.

Le mérite d'avoir conçu ce congrès au moment le plus heureux revient àMadame Jitka Stindlova de Prague et à M. Erich Mater de Berlin qui l'ontorganisé et dirigé, à leurs collègues qui ont collaboré, à l'Academia qui en apublié les Actes et aux Académies des Sciences de Berlin et Prague qui l'ontvoulu.