Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine...

91
CHAPITRE IV Eléments pour une définition de la textualité

Transcript of Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine...

Page 1: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

Eléments pour unedéfinition de la textualité

Page 2: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

128

Page 3: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

129

Aperçu__________________________________________

Au plan technique, la qualité des propositions d’un système de diffusion ciblée repose sur laprise en compte du caractère non seulement linguistique mais aussi textuel de toutes les données,profils et documents. La recherche linguistique s’ouvre donc sur une analyse de la textualité, à savoirl’explicitation des propriétés constitutives des textes. A partir de cet inventaire très large, et dans lecontexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sontdéfinies pour guider la conception des traitements : (i) la matière linguistique du texte, (ii) sonorganisation interne, close et orientée, (iii) l’intertextualité (et notamment les formations que sont lesgenres), (iv) le rôle constitutif des lectures et la dynamique de l’interprétation (le sens est construit paret pour un lecteur).

Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ?L’idée d’une compréhension automatique est ici rejetée. L’apport de l’ordinateur tient à ses capacitésen termes de mémoire, de manipulation systématique et de vitesse de calcul. Le traitement suppose ladéfinition d’une représentation, qui est déjà une interprétation : le sens de l’analyse effectuée est etreste du côté de l’utilisateur. A ce stade de l’exposé, un point sur les différentes conceptions del’interprétation semble s’imposer, pour préciser la voie adoptée. Interpréter un texte, ce n’est ici niétablir sa vérité, ni expliciter le sens qu’il renfermerait ; mais c’est repérer des points d’appuis et descontraintes qui orientent la construction d’un sens. Dans le même esprit, le concept de pertinence,central pour les systèmes documentaires et les applications de recherche d'informations, est examiné àson tour. La diversité des facteurs de pertinence est rappelée et illustrée, mettant par là même enévidence l’insuffisance des modèles qui préenregistrent des jugements de pertinence pour des pairesrequête - document. Pour un système comme DECID, il s’agit aussi de choisir une forme dereprésentation de la pertinence. Parmi les cinq modèles identifiés, dont celui, le plus connu dans lesmoteurs de recherche, de la pertinence linéaire (la pertinence est évaluée par un score chiffré, et lesdocuments sont présentés selon une liste ordonnée), le choix se porte sur une pertinence différentielle,qui permet une exploration thématique, méthodique et dynamique des propositions.

_______________________________________________

Page 4: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

130

Page 5: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

131

Table des matières du Chapitre IV

A. MULTIPLES VUES SUR LE TEXTE : L’INVENTAIRE DU COLLECTIONNEUR ...... 135

1. Avertissement.............................................................................................................. 135

2. Du côté de l’informatique et d’autres supports d’inscription et d’enregistrement135a) Le codage alphabétique ........................................................................................................ 135b) L’expression libre dans le cadre d’une langue..................................................................... 136c) La linéarité............................................................................................................................ 136d) Présentation, maquette, typographie .................................................................................... 136

3. Une linguistique qui s’aventure hors de la phrase pour aller vers le texte ........... 137a) La cohésion : liens de continuité .......................................................................................... 137b) La progression ...................................................................................................................... 138c) La cohérence : la construction d’un référentiel ................................................................... 139

4. Structure et déploiement interne............................................................................... 139a) Elasticité ............................................................................................................................... 139b) Une possible hétérogénéité de la forme : les séquences....................................................... 139c) Tabularité.............................................................................................................................. 140d) Arborescence orientée .......................................................................................................... 140e) Délimitation .......................................................................................................................... 140f) Cœur et périphérie ................................................................................................................ 140

5. Le texte et son entour ................................................................................................. 141a) Liens et citations ................................................................................................................... 141b) Situation et implicite ............................................................................................................. 141c) L’autonomie .......................................................................................................................... 142d) L’affiliation historico-culturelle et l’appartenance à un genre............................................ 142e) Une parole fixée, inscrite...................................................................................................... 144f) Une épaisseur temporelle ..................................................................................................... 144

6. L’homme face au texte ............................................................................................... 145a) Une existence motivée........................................................................................................... 145b) Le support de lectures et d’interprétations........................................................................... 145

7. Le texte électronique : une autre textualité ? ........................................................... 145a) L’incidence du support sur la nature du texte ...................................................................... 145b) Un document diffus et fragmenté : la clôture du texte en question ...................................... 146c) Perte de certains guides de parcours : butinage et désorientation ...................................... 147d) Sources diffuses : des documents multipliés et mal identifiés .............................................. 148e) Liens organisateurs d’un espace .......................................................................................... 148

Page 6: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

132

f) Documents vivants ................................................................................................................ 148g) De l’empreinte à la matrice : un potentiel de réalisations multiples ................................... 149h) Bilan : réinvention de la lecture ........................................................................................... 149

B. PROPOSITION DE SYNTHÈSE : LES QUATRE FACETTES DU TEXTE..................... 150

1. Le texte dans le contexte de l’application DECID : champ d’étude ...................... 150a) De « vrais » textes................................................................................................................. 150b) Des documents scientifiques et techniques, à vocation informative..................................... 150c) L’écrit.................................................................................................................................... 151d) Le rapport au texte est celui de la lecture ............................................................................ 151e) Des textes en nombre ............................................................................................................ 152

2. Description des quatre facettes textuelles................................................................. 152a) Présentation .......................................................................................................................... 152

Organisation d’ensemble ........................................................................................................................................... 152Comparaison et discussion ........................................................................................................................................ 152L’utilisation des facettes dans le système DECID ..................................................................................................... 153

b) La langue comme matériau du texte ..................................................................................... 154Langue naturelle, langage formel .............................................................................................................................. 154Problèmes d’ontologies - l’autonomie de la linguistique .......................................................................................... 155Le texte, objet linguistique, et l’objet de la linguistique............................................................................................ 157Incidence pratique pour DECID................................................................................................................................ 157

c) La construction interne du texte, sa clôture et son orientation ............................................ 157Avertissement : des propriétés situées, relatives........................................................................................................ 157Dimension horizontale............................................................................................................................................... 158Dimension verticale................................................................................................................................................... 158Des considérations générales à la réalisation concrète .............................................................................................. 159

d) L’intertextualité..................................................................................................................... 160Une facette qui s’impose ........................................................................................................................................... 160Intertextualité et pertinence ....................................................................................................................................... 160Une communauté intertextuelle remarquable : le genre............................................................................................. 161Le corpus, esquisse matérielle de l’intertexte ............................................................................................................ 162

e) Le rôle constitutif des lectures .............................................................................................. 162Multiples déterminations ........................................................................................................................................... 162L’acte interprétatif ..................................................................................................................................................... 163Pas de texte sans lecture ............................................................................................................................................ 163Orientations pour DECID.......................................................................................................................................... 163

f) Epilogue : résonances de l’image du texte comme tissu ...................................................... 164

C. TEXTES ET TRAITEMENTS AUTOMATIQUES : OBSERVATIONS QUANT AUSTATUT DU TEXTE DANS LES PÔLES DE RECHERCHE ACTUELS................................. 165

1. Linguistique................................................................................................................. 165a) Texte et lexique ..................................................................................................................... 165b) Texte et phrases..................................................................................................................... 166c) Texte et statistiques sur corpus............................................................................................. 168

2. Autour de l’informatique........................................................................................... 168a) Texte et cognition (en Intelligence Artificielle) .................................................................... 168b) Texte et hypertexte ................................................................................................................ 170c) Texte et ergonomie des interfaces......................................................................................... 170

Page 7: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

133

3. Systèmes documentaires et recherche d’information : le modèle vectoriel........... 170a) Une approche tout naturellement textuelle........................................................................... 170b) Et pourtant : l’oubli du texte................................................................................................. 171c) La normalisation homothétique ............................................................................................ 172d) L’échantillon ......................................................................................................................... 172

Le début..................................................................................................................................................................... 172Les phrases à concentration de vocabulaire caractéristique....................................................................................... 173

e) La scission en passages ........................................................................................................ 174Nouvelle définition des unités de recherche .............................................................................................................. 174L’articulation global / local ....................................................................................................................................... 175Vers une décomposition automatique du texte : segments et thèmes ........................................................................ 175

f) Que penser de tout cela ?...................................................................................................... 177

4. Lexicométrie intratextuelle : l’étude des rythmes ................................................... 177

D. RECEVOIR UN TEXTE ........................................................................................................... 179

1. Compréhension ........................................................................................................... 179a) Que saisir de la compréhension d’un texte ?........................................................................ 179

Repères généraux....................................................................................................................................................... 179Une proposition linguistique : la sémantique interprétative ...................................................................................... 180Appropriation et construction : l’image de l’interpolation ........................................................................................ 181Discussion : affinités et écarts avec la pertinence selon Sperber & Wilson............................................................... 182Modélisation : points d’appui plutôt que contenu ..................................................................................................... 183

b) Place de la compréhension dans les traitements automatiques ........................................... 184Conception et interface : singer n’est pas la (seule) solution..................................................................................... 184Contrôle et suspens de l’interprétation ...................................................................................................................... 185

c) La dimension applicative : des contextes favorables............................................................ 185L’observation de situations courantes ....................................................................................................................... 185Un exemple : de la lecture d’analyse documentaire à la conception d’une application automatique ........................ 185La recherche documentaire........................................................................................................................................ 186

2. Représentation ............................................................................................................ 186a) De justes rapports ................................................................................................................. 186

La primauté du texte .................................................................................................................................................. 186Ce qui revient à la machine ....................................................................................................................................... 187Sans interprète, pas de sens ....................................................................................................................................... 190

b) Une heureuse fatalité ............................................................................................................ 191Représenter, c’est réduire .......................................................................................................................................... 191Réduire, c’est commencer à interpréter ..................................................................................................................... 191

c) Les voies de réduction........................................................................................................... 192La projection ............................................................................................................................................................. 192La sélection et l’élimination ...................................................................................................................................... 192Le regroupement, la synthèse .................................................................................................................................... 193L’analyse et la description par des lois...................................................................................................................... 193

d) Repères pour la mise en œuvre ............................................................................................. 194Démarche méthodologique........................................................................................................................................ 194Des critères pour qualifier la représentation .............................................................................................................. 194

3. Interprétation : huit conceptions............................................................................... 194a) Introduction au parcours proposé ........................................................................................ 194b) Véricondition......................................................................................................................... 195c) Extraction et univocité .......................................................................................................... 195

Sens hors-contexte..................................................................................................................................................... 195Détermination par optimalité..................................................................................................................................... 196Première critique : le régime de la clarté ................................................................................................................... 196

Page 8: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

134

Deuxième critique : une unicité arbitraire ................................................................................................................. 197

d) Explicitation totale................................................................................................................ 197Complétude et ajustement ......................................................................................................................................... 197Représenter l’implicite .............................................................................................................................................. 197Une quête sans limites ............................................................................................................................................... 198Focalisation et pertinence .......................................................................................................................................... 198

e) Double sens ........................................................................................................................... 199Une orientation a priori ............................................................................................................................................. 199Une herméneutique convaincue................................................................................................................................. 199Des principes aux conditions linguistiques................................................................................................................ 199

f) Plusieurs sens formant système ............................................................................................ 200g) Equivocité et indétermination ............................................................................................... 200

Une conception non extrémiste ................................................................................................................................. 200Les lignes directrices ne sont pas dans des a priori... ................................................................................................ 200...les contraintes linguistiques fournissent des lignes directrices ............................................................................... 201

h) Multiplicité artificielle .......................................................................................................... 201Combinatoire artéfactuelle......................................................................................................................................... 201Droit à l’existence d’un sens non fixable................................................................................................................... 201

i) Infinité ................................................................................................................................... 202

E. LA QUESTION DE LA PERTINENCE .................................................................................. 203

1. Les expressions de la pertinence : examen des modèles rencontrés dans lesapplications documentaires .............................................................................................. 203

a) Pertinence binaire................................................................................................................. 203b) Pertinence n-aire .................................................................................................................. 204c) Pertinence linéaire................................................................................................................ 205d) Pertinence différentielle........................................................................................................ 206e) Pertinence polaire................................................................................................................. 206

2. Etude pour la diffusion ciblée.................................................................................... 207a) Paramètres des choix de lecture professionnelle : qui lit quoi ............................................ 207

Le lecteur en tant qu’individu.................................................................................................................................... 208L’objectif : comment la lecture prend place dans le travail ....................................................................................... 209Les caractéristiques du document .............................................................................................................................. 210Dynamique de la confrontation lecteur / document ................................................................................................... 211Composer ses lectures : préférences et compromis.................................................................................................... 213La société du lecteur (communauté scientifique, collègues)...................................................................................... 214Les circonstances....................................................................................................................................................... 215Vers la construction d’indicateurs de pertinence....................................................................................................... 215

b) Le point de vue, réciproque, de l’expéditeur d’un document (notamment par diffusion ciblée)216Interprétations des propositions du système .............................................................................................................. 216Les destinataires, collègues dans une même entreprise ............................................................................................. 217

Page 9: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

135

A. MULTIPLES VUES SUR LE TEXTE : L’INVENTAIRE DUCOLLECTIONNEUR

1. AvertissementQu’est-ce qu’un texte ? La question éveille de multiples résonances. C’est même le titre

littéral d’un essai de Paul Ricœur, d’un ouvrage collectif dirigé par Edmond Barbotin, et gageons quecette liste pourrait s’étendre.

D’inspiration les plus diverses, les contributions saisissent des propriétés de tous ordres.Chacune vaut d’être entendue. Les deux écueils seraient d’une part la censure, qui refusearbitrairement un point de vue (nous pensons au contraire qu’il y a à trouver dans chacun unfondement de vérité), d’autre part croire définir la textualité par seulement un ou quelques-uns de cesaspects.

Aussi large que serait l’inventaire, il faut renoncer dès à présent à rassembler toutes lespropriétés attribuable au texte, et même à en ‘tenir’ ne serait-ce qu’une seule ! La textualité, en unsens universel et intemporel, est un objet illusoire1. Ne nous trompons pas d’objectif : l’inventaire estdestiné à recueillir les éléments, issus de l’expérience acquise dans notre culture actuelle. Celafournira la base pour prendre en compte la dimension textuelle des documents rencontrés dans lecadre de l’application de diffusion ciblée qui nous concerne. On pourra ainsi proposer une définition,utile pour notre contexte, mais également établie non sans un certain recul.

Si, à ce stade, l’ensemble paraît bien dépareillé, dans un second temps une vision plussynthétique pourra être élaborée, intégrant et mettant l’accent sur les aspects qui apparaissent les pluspertinents dans notre contexte.

Pour l’instant, le parcours tous azimuts est un survol de repérage.

2. Du côté de l’informatique et d’autres supports d’inscription etd’enregistrement

a) Le codage alphabétiqueEst dit textuel ce qui procède d’une langue, se transcrit, s’articule en lettres et en mots dans

une écriture, par opposition à ce qui relève d’autres médias : les images, les sons. Le multimédiacommence par distinguer ces différents modes d’expression, pour ensuite les mettre en relation et lesintégrer en un tout plus riche. Le premier temps de la démarche induit une manière spécifique deconsidérer le texte. Le format du fichier informatique exploite directement la représentation en termesde chaînes de caractères, ce qui d’ailleurs occupe un espace mémoire notablement moindre que lecodage des images en pixels. Les traitements s’appliquant au textuel a minima s’assimilent auxmanipulations d’une suite de caractères : repérage et transformations d’expressions régulières2, miseen forme et séquencement par l’intermédiaire de caractères spéciaux (notamment fin de ligne).

1 « les structures textuelles sont essentiellement sémantiques. En tant que telles, elles relèvent donc plutôt denormes et de régularités que de règles –et échappent à une linguistique restreinte qui concevrait les règlesconformément à la théorie des langages formels. Le caractère culturel de ces normes dissuade de considérer latextualité comme un invariant. Du moins, s’il existe au plan sémantique des formes générales voire universellesde la textualité, c’est à une sémantique comparée de les caractériser. Nous estimons donc que la textualité ne peutse définir en soi, et nous entendons seulement proposer le cadre conceptuel d’une typologie des textes. » (Rastier,Cavazza, Abeillé 1994, §VII.2, p. 172).2 Ce formalisme bien connu des informaticiens permet la définition de patrons décrivant un ensemble de chaînesde caractères. Des opérateurs fournissent une notation condensée de : (i) la gamme des caractères possibles à uneposition donnée, (ii) la présence facultative ou obligatoire d’une séquence de caractères, (iii) la réalisation uniqueou la répétition d’une séquence de caractères.

Page 10: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

136

Le jeu de caractères est un alphabet. L’alphabet de l’anglais fait partie des caractères de basede l’ordinateur ; les caractères diacritiques (avec accent, tréma, cédille, tilde,...) et les alphabets nonlatins ont obligé à concevoir des extensions pour les textes d’autres langues. Et bien sûr ce modèle« oublie » les écritures idéographiques.

Des propriétés statistiques sont observées sur les suites de caractères réalisées par les textes(cf. la loi de Zipf). Elles sont centrales pour les problématiques de la compression du volume dedonnées enregistrées ou du cryptage (Salton 1989, §5 et 6). Ces considérations visent cependant lelangage plus que la textualité.

b) L’expression libre dans le cadre d’une langueDans le jargon des bases de données, les champs textuels s’opposent aux champs factuels et

numériques. Ce qui est factuel, c’est ce qui prend sa valeur parmi un ensemble donné d’alternatives(vrai / faux, codes départementaux, date, répertoire de noms d’auteurs, etc.). Pour ce qui est textuel, iln’y a pas de liste de possibilités prévues, la seule contrainte est en général une longueur maximale.

La particularité des champs textuels est alors leur extrême variabilité, qui fait que sur un trèsgrand nombre d’enregistrements il peut n’y en avoir pas deux identiques. La recherche de l’identitécède le pas à la recherche du similaire. La langue, grâce aux descriptions qu’en donnent lamorphologie, la syntaxe, la sémantique, met en relation des mots, des constructions. L’analyse d’unensemble de champs textuels, par exemple l’ensemble des réponses à une question d’une enquête,s’appuie sur la linguistique pour opérer des transformations et des réductions, et ainsi forger desreprésentations confrontables, comparables.

c) La linéaritéLe texte se déroule, il se présente comme une suite de mots ordonnés. Si des effets de

superposition ou d’échos sémantiques semblent échapper en partie à l’impératif de succession, et siune lecture peut prendre des libertés en consultant simplement quelques passages ici et là,l’expression, à travers l’écriture et la mise en page, propose un parcours systématique, qui mène dudébut à la fin du texte.

L’ordre joue un rôle au niveau sémantique3, même s’il ne détermine le sens nisystématiquement, ni entièrement. Des artifices linguistiques et graphiques contribuent à exprimer unparallélisme –le caractère non significatif de l’ordre pourtant présent– là où le texte force un avant etun après4.

Cette linéarité ne préjuge pas d’une identique linéarité de la représentation que peut seconstruire un lecteur : le texte est plutôt perçu comme un tout, une composition d’ensemble5,synthétique, quand bien même la langue semble forcer le détour par une expression analytique6.

d) Présentation, maquette, typographieUn texte, dans sa réalisation matérielle, est mis en forme. Les logiciels de traitement de texte

sont ainsi présentés comme des systèmes d’édition, et, pour les plus avancés, comme de la publicationassistée par ordinateur (PAO). Il s’agit bien d’une dimension du texte lui-même : la présentationchoisie n’est pas extérieure au texte, elle est en interrelation avec l’expression linguistique et concourt 3 Cf. la composante tactique, proposée par François RASTIER pour la description sémantique des textes.4 En guise de remarque : la plupart de ces artifices linguistiques (comme la coordination et les connecteurs) ougraphiques (comme les listes) servent aussi bien à marquer l’absence d’ordre significatif qu’à souligner un ordreprécis : enchaînement temporel, causal, logique, etc. Leur valeur est ainsi manifestement affaire d’interprétation.5 « Pour comprendre un texte, il faut être capable de passer de la séquence (lire-comprendre les propositionscomme venant les unes après les autres conformément à la contrainte de la linéarité de la langue) à la figure. Ilfaut, comme P. Ricœur l’a montré, être capable de comprendre le texte comme faisant sens dans sa globalitéconfigurationelle. » (Adam 1990, §I.1.4, p. 48)6 « on ne peut pas tout dire de quelque chose en même temps ; le langage oblige à présenter de manièreanalytique, point par point, des réalités synthétiques, globalisantes. L’arbre décrit par une succession de termesplus ou moins précis n’est pas l’arbre perçu. [...] Le langage contribue donc en cela à distordre la réalité. » (deAlmeida, Bellamy, Kassai, p. 53)

Page 11: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

137

à la construction de la signification7. Les choix de découpage des paragraphes comme des mises enrelief se comportent comme des instructions de lecture, des indices d’une intention du rédacteur, des« traces d’actes de discours », à valeur performative8.

3. Une linguistique qui s’aventure hors de la phrase pour aller vers letexte

a) La cohésion : liens de continuitéLe texte est ce qui déborde la phrase. Les liens syntaxiques décrivent l’unité de la phrase.

Mais il y a aussi des articulations interphrastiques, c’est-à-dire d’une phrase à l’autre, ou dont laportée est de l’ordre du paragraphe.

Les anaphores (reprise par un pronom, l’élément repris est l’antécédent du pronom) et lesellipses (reprise partielle) procurent le suivi d’une notion avec moins de lourdeur qu’une répétitionlittérale.

Les connecteurs, en introduisant un élément, le positionnent par rapport à ce qui précède(bref, par conséquent). Il y a aussi des systèmes de connecteurs : d’une part / d’autre part,premièrement / deuxièmement / etc. Certains décrivent l’effet de ces liens d’enchaînement par leterme connexité, en réservant le terme cohésion aux liens de type reprise (anaphore etc.) (Charolles1988).

L’impression de continuité sémantique du discours, par opposition à une succession deruptures de type coq-à-l’âne, est une forme d’isotopie9 : les unités lexicales ont des sens qui entrent enrelation (Morris, Hirst 1991), elles partagent des sèmes.

Certains enchaînements locaux s’analysent en explicitant des présuppositions, et des polaritésargumentatives10, qui renforcent la plausibilité de telle succession de propositions et expliquent lecaractère apparemment curieux de telle autre. Un point du discours n’est pas seulementl’aboutissement de ce qui précède, c’est aussi la préparation de ce qui suit ; le contexte local n’est passimplement un contexte antécédent (en témoigne aussi le phénomène de cataphore).

7 « les propriétés relatives de la réalisation typographique et de l’organisation spatiale de certains objets [textuels]participent à la composante sémantique du document : l’architecture d’un texte, perceptible par le biais de cespropriétés de mise en forme matérielle, est directement partie prenante dans la construction du sens de cetexte. » (Pascual 1991, §I.1, p. 46)Cela devient le support de pratiques méthodiques d’« analyse de contenu » :« Ainsi pour constater et mesurer les différences de présentation d’un événement dans la presse, on prendclassiquement pour indicateurs : la surface totale (en centimètres carrés) de l’article d’information ; le nombre demots ; la position dans le journal (première page ou pages intérieures) ; la position dans la page ; la surface totalede l’espace consacré au titre et aux sous-titres ; la taille des caractères du titre (s’il y a des majuscules, on prendla taille des caractères non majuscules) ; le nombre des illustrations ; la surface (en centimètres carrés) desilustrations. » (Mucchielli 1974, §3.3, p. 60)8 « un ‘chapitre’, une ‘section’, ou un ‘paragraphe’, aussi ‘naturels’ et justifiables que soient les motifs que l’onpeut avancer pour leur existence dans un texte donné, doivent d’abord leur existence au fait que par quelquemoyen je performe l’existence de telle ou telle entité ayant tel statut dans mon texte. [...] Il n’est pas jusqu'à desénoncés dont les conditions d’établissement semblent très éloignées de la performativité, tels les théorèmes ou lesdémonstrations qui ne relèvent pas, à notre avis, de cette performativité textuelle. Ainsi, un théorème ou unedémonstration dont on peut montrer qu’ils sont mal formulés ou qu’ils comportent une erreur demeurent un‘théorème’ ou une ‘démonstration’ dans un texte donné s’ils ont été performés en tant que tels (ils seront dans cecas un pseudo-théorème, ou une démonstration fausse, dans l’univers des mathématiques ou de la logique, maisun théorème ou une démonstration dans celui de la performativité textuelle). » (Virbel 1987, §2.2, pp. 86-87)9 C’est Greimas qui a introduit le concept d’isotopie sémantique (voir par exemple (Greimas 1966, §VI.1)). Ceconcept est central chez lui, au point que le texte à étudier n’est plus défini que par l’intermédiaire d’uneisotopie :« Nous entendrons [...] par texte [...] l’ensemble des éléments de signification qui sont situés sur l’isotopiechoisie et sont enfermés dans les limites du corpus. » (Greimas, §IX.1.c, p. 145)10 Ceci renvoie tout particulièrement aux travaux de Oswald DUCROT et de son école.

Page 12: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

138

La recherche de points de cohésion moindre, voire de rupture ou de discontinuité de lacohésion sur un plan (thématique, temporel, etc.) est une tactique utilisée pour repérerautomatiquement un découpage d’un flux textuel en textes, d’un document composite en sous-parties,ou d’un texte en passages successifs.

b) La progressionDès le niveau interphrastique se manifeste la progression du texte. Un ordre est souligné par

les connecteurs ; à ce qui est connu s’ajoute ce qui est nouveau (c’est la paire thème / rhème)11, et letexte entrelace constamment le connu et le nouveau12. Chaque élément (personnage, idée,...) estintroduit, c’est-à-dire placé dans le contexte existant, puis précisé, enrichi, peu à peu transformé13.L’étude de la progression introduit une dynamique dans la représentation du texte et de ses lectures14.

Sauf convention de lecture particulière (lié à un genre), le texte qui patine, tourne en rond, serépète, n’est pas admis, ou n’est pas reçu comme tel : on lui prêtera un gain en précision, uneinsistance. Inversement, face à une apparente rupture du fil du discours, le lecteur soupçonne unealtération du support (perte d’une page, trou dans un fichier), ou encore induit une transition avec cequi précède ou à un niveau plus général.

Le plus souvent, le rédacteur (l’écrivain) ménage une tension15, qui retienne l’attention dulecteur qui se demande où l’auteur veut en venir. La dynamique de lecture est également sensible à la 11 Pour une introduction à ces notions, voir les dictionnaires linguistiques et autres ouvrages de référence, parexemple (Ducrot & Todorov 1972, § Combinatoire sémantique) ou (Pottier 1992, §XV.6.2).Dans le cadre d’une analyse automatique de textes, (Hahn 1992) s’appuie sur le travail de F. Danes, qui auraitidentifié trois types d’enchaînements (chaque succesion d’une phrase à l’autre relèverait de l’un de ces trois cas) :(i) la conservation du thème (développement autour d’un sujet donné), (ii) la transformation du rhème en thème(ce qui est commentaire à propos d’un thème devient le thème suivant), (iii) le lien à un même thème plus général(hyperonyme) implicite (les thèmes décrivent différents aspects, de façon parallèle, à un même niveau).L’utilisation de ces structures fournirait des moyens d’enrichissement de requêtes (indication de thèmes enrelation), pour une recherche sur les textes analysés.L’implémentation présentée par (Hahn 1992) fait appel à d’importantes ressources en termes d’outils deTraitement Automatique des Langues Naturelles et de bases de connaissances sur le domaine.12 « la textualité peut être définie comme un équilibre délicat entre une continuité-répétition, d’une part, etprogression de l’information, d’autre part. Ainsi B. Combettes : « L’absence d’apport d’information entraîneraitune paraphrase perpétuelle ; l’absence de points d’ancrage renvoyant à du ‘déjà dit’ amènerait à une suite dephrases qui, à plus ou moins long terme, n’auraient aucun rapport entre elles » [COMBETTES Bernard (1986) -« Introduction et reprise des éléments d’un texte », Pratiques, 49, Metz, p. 69]. » (Adam 1990, §I.1.3, pp. 45-46)Voi aussi (Combettes & Tomassone 1988).13 Le travail de thèse de Jean-Philippe DUPUY (Dupuy 1993) est une foisonnante étude, d’inspirationlexicométrique, de la répétition à l’intérieur d’un texte, et de la manière dont elle fait sens dans un jeu d’identitéset de différences, d’articulation entre l’unité et l’altérité, de tension entre le retour et l’évolution :« répéter, c’est tracer un lien à la surface du discours, construire une relation, mettre en rapport deux occurrencesainsi que deux zones cotextuelles qui entrent en opposition ; [...] les répétitions, qui semblent scander le temps,ne font que mettre en évidence sa lente métamorphose. » [en l’occurrence, celle du personnage du texte] (Dupuy1993, p. 24)« [Dans cette étude,] le texte a été appréhendé successivement selon quatre niveaux structureaux, lexical,morphologique, temporel et sémantique [...]. A chaque fois, on a essayé de montrer que l’on peut accéder auxsens du texte en étudiant comment il organise sa répétitivité. Non que l’émergence du sens passe nécessairementet uniquement par l’itératif : c’est souvent la différence qui signifie ; détecter une répétition, c’est préciséments’offrir la possibilité d’observer la différence (diégèse en devenir, autre cotexte et autres relations), d’autant pluspatente qu’elle se trouve comme pointée par l’invariant réitéré. » (ibid., p. 507)14 (Grau 1983) propose ainsi un traitement automatique pour suivre les développements thématiques d’un textenarratif. Le texte est parcouru phrase par phrase, et chaque phrase est intégrée dans le contexte formé par lesphrases précédentes. Des principes de récence (locale, thème de la phrase précédente) et de dominance (globale,thème principal) guident le suivi des thèmes. Une limitation importante vient cependant du traitement purementséquentiel du texte, en particulier le modèle n’est compatible qu’avec un « texte où le thème principal estintroduit dès les premières phrases » (p. 126).15 Dans le modèle qu’il propose, (Greimas 1966, §XI.2.c, p. 206) donne une explication de ce que l’on peutappeler intrigue, suspense, ressort ou tension dramatique.

Page 13: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

139

progression, avec d’une part une assimilation rétrospective, qui récapitule ce qui a été lu, et uneanticipation, prospective, élan en prolongement du point courant.

c) La cohérence : la construction d’un référentielLe texte s’ancre dans un univers qu’il présente et organise. Le lecteur se construit une

représentation de cet univers, et cette représentation évolue dynamiquement au fil de sa lecture. Letexte présente alors une unité de sens. La cohérence –peut-être d’ailleurs plus comme uneprésomption que comme un fait–, assure ainsi l’intelligibilité du texte (Charolles 1988).

Au fil du texte, plusieurs désignations peuvent être interprétées comme faisant référence à unmême objet dans l’univers sous-jacent au texte : c’est le phénomène de coréférence.

Un même texte peut présenter plusieurs foyers énonciatifs, c’est-à-dire plusieurs points devue, qui ont pour effet de superposer plusieurs univers. Ces points de vue servent de référence pour lechoix des temps et des modalités, et pour toutes les formes d’évaluation.

4. Structure et déploiement interne

a) ElasticitéUn texte s’inscrit dans une série de réécritures, comme entre deux infinis, du plus succinct au

développement prolixe. Des opérations de condensation mènent aux résumés, à un intitulé, à un motou une proposition jugée fondatrice. Des opérations d’expansion conduisent aux commentaires, auxexplicitations. La langue elle-même présente cette souplesse de passage d’une formulationsynthétique à une formulation analytique et vice-versa, et qui devient le principe d’association entre lemot et sa définition dans les dictionnaires16.

Certains17 ont induit de cette propriété le fait que tout texte soit réductible à une macro-proposition, qui prend la forme d’une proposition au sens grammatical, et qui contient toute l’essencedu texte. Cette macro-proposition se détermine par élagage et regroupement. Une telle conception doitêtre dénoncée comme doublement réductrice. Elle stipule le caractère accessoire d’une grande partiedu texte, ce qui est pour le moins désobligeant vis-à-vis de l’auteur, dont l’effort aurait consisté en unmagistral délayage. Elle donne pour aboutissement la proposition, et même une unique propositionfixée, s’interdisant donc tout à la fois de considérer d’autre paliers (le paragraphe, le mot) et ladiversité des points de vue auxquels se prête un texte. On relèvera simplement que cet engouementpour la proposition est né dans un contexte encore fortement marqué par un intérêt dominant pour lasyntaxe.

b) Une possible hétérogénéité de la forme : les séquencesUn même texte peut successivement décrire, raconter, argumenter... Les éléments

linguistiques mobilisés et le mode de lecture diffèrent d’une séquence à l’autre. C’est un lieud’hétérogénéité du texte. La pure narration, la pure explication, etc., sont des cas d’école (Adam1992). On peut d’ailleurs s’interroger sur la possibilité de découper de telles séquences homogènes,juxtaposées et successives.

16 « [Dans une définition,] le défini lexicalise de façon synthétique ce que le définissant lexicalise en général defaçon analytique [...]. On peut appeler expansivité la propriété universelle des langues qui permet que des unitésde sens soient expansées dans des unités de complexité plus grande : le rapport entre un titre et le texte qu’ilintroduit en illustre un cas limite. La propriété converse est la rétractivité, qui permet les pratiques de résumé.Expansivité et rétractivité sont des propriétés herméneutiques : c’est par convention locale soumise à conditionsque l’on admet l’équivalence d’unités, quel que soit leur degré de complexité relatif. » (Rastier, Cavazza, Abeillé1994, §III.2.1, pp. 48-49)Comme l’avait déjà noté (Greimas 1996, §VI.2.a et b, p. 72 sq.), cette souplesse de passage d’un palier à l’autreest une motivation pour penser une sémantique unifiée.17 Teun VAN DIJK et Walter KINTSCH ont ouvert la voie.

Page 14: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

140

c) TabularitéPrésenté sur une page, le texte prend un caractère spatial18, et le regard peut le balayer sans se

cantonner au conduit des lignes. La poésie joue manifestement sur cette disposition plane pour mettreen valeur la superposition des finales des vers (accompagnant le rapprochement des sonorités par unrapprochement graphique). L’acrostiche en fait même une clé de lecture.

Il y a ainsi deux modes de perception, complémentaires, du texte. D’une part, la linéarité : decelle-ci relèvent l’ordre et la successivité, la dynamique d’un cheminement, l’orientation temporelle(avant / pendant / après). La linéarité se dessine dans le déplacement d’un point de vue local. D’autrepart, la tabularité, qui s’oppose méthodiquement, point par point, aux caractéristiques données pour lalinéarité. La tabularité se situe dans le registre du global : c’est une perception globale, simultanée (oudu moins qui neutralise l’ordre successif par la coprésence d’une multiplicité d’ordres virtuels). Audynamisme d’un parcours elle oppose la disposition respective d’éléments, considérés dans leursinterrelations19.

d) Arborescence orientéeLe sommaire d’un ouvrage présente le texte par sa structure, un découpage qui rythme le

texte. Cette structure présente quatre propriétés. (i) Elle est sans restes : toute partie du texte, saufpeut-être des pièces liminaires comme surajoutées et périphériques, prend place, entre deux bornesd’un découpage. (ii) La structure est orientée : chaque partie se situe entre un avant et un après, saufles deux positions remarquables de première et dernière. (iii) La structure est hiérarchisée, au sens oùelle s’organise en parties de niveaux successifs de généralité / spécificité. (iv) Enfin, la structure estemboîtée, si bien que l’intégrité de chaque partie n’est mise en cause par aucune autre partie : elle estsoit entièrement incluse, soit analysée en sous-parties plus fines qui ne vont pas chercher d’éléments àl’extérieur de la partie.

Cette structure prépare deux axes de lecture : un axe « horizontal », qui suit la linéarité dutexte et enchaîne les parties, et les parcourt systématiquement l’une après l’autre (c’est le parcours enprofondeur d’abord des informaticiens) ; et un axe « vertical », qui s’appuie sur les intitulés etcommence par la vision d’ensemble pour la détailler peu à peu et accéder au texte par « morceaux »(c’est cette fois-ci le parcours en largeur d’abord).

La structure peut connaître des réalisations minimales. Un roman peut s’en tenir à une simpledivision en chapitres, une nouvelle se présenter d’un seul tenant. En revanche, une documentationtechnique multiplie les niveaux de granularité et ménage ainsi des accès de consultation sur un pointdonné.

e) DélimitationLe texte compte un nombre limité de pages, et son déroulement chemine d’un début à une fin.

Les contraintes physiques imposent ce caractère fini (Bazin 1994). La rédaction s’accommode de cecadre et le charge de signification : les genres dessinent les manières de commencer un texte et de lefinir ; et tout ce qui est exprimé dans le texte doit se trouver dans l’espace des pages qui leconstituent.

f) Cœur et périphérieDes parties singulières ménagent la transition entre le propos du texte et les accès vers et

depuis le texte. Ces parties se trouvent d’ailleurs aux marges de l’objet physique que constitue lelivre, tel qu’il est manié : premières et dernières pages, couverture, mais aussi illustrations,

18 Jack GOODY (Goody 1979) montre qu’ainsi, par son déploiement spatial, l’écriture a permis à d’autres formesde pensée d’advenir. Typiquement, la présentation sous forme de tableau conduit à se représenter simultanémentle croisement de deux séries de modalités. Un tableau ne peut être linéarisé, exprimé oralement, sans perdre unepartie de sa substance (la symétrie d’entrée par les lignes ou par les colonnes, la mise en évidence radicale des« trous » ou des surcharges dans les cases du tableau, etc.).19 L’articulation linéarité / tabularité traverse tout le travail de (Dupuy 1993).

Page 15: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

141

commentaires marginaux. Passages entre le texte et la situation de lecture, ils orientent la façond’aborder le texte ou de faire un écart (détour par une note et un renvoi par exemple). A la suite de(Genette 1987), on convient d’appeler ce rapport paratextualité.

5. Le texte et son entour

a) Liens et citationsDe par l’ensemble des textes connus de l’auteur et présents à son esprit, et de ceux par rapport

auxquels le texte se positionne pour ses lecteurs, aucun texte n’échappe à une multitude de liens qui lerattachent à d’autres textes.

Au sens large, une citation peut être explicite (annoncée, référencée) ou implicite (grefféesans démarcation dans le fil du texte), voulue ou fortuite, mise en valeur, allusive ou furtive, rejetéeou appropriée, littérale ou accommodée, conventionnelle ou inattendue20. Au point que tout textepuisse finalement être tenu pour un centon, à savoir tout entièrement forgé à partir de citations21.

b) Situation et impliciteLe texte délimite un environnement intérieur, linguistique, et un environnement extérieur,

situationnel, respectivement le cotexte et le contexte22.Ancré dans un contexte qui le situe, tout texte, dans sa finitude, comporte une part d’implicite.

Il part d’une certaine connaissance commune et à partir de laquelle il se déploie. Cette connaissancecommune peut être plus ou moins universelle et atemporelle (elle n’est jamais complètement l’un oul’autre, de par son ancrage culturel) : renvoi à l’actualité, à des circonstances qui relèvent de la vieprivée, etc.

La prise en compte des conditions de production, ou au contraire le travail sur la matérialitélinguistique du texte détaché d’une situation particulière, est parfois traduit par l’opposition discoursvs texte.23

20(Maingueneau 1991, p. 139 sq.) distingue l’intertexte, à savoir l’ensemble des citations effectives, etl’intertextualité, qui est le type de citation que le genre (donc la pratique) dans lequel s’insère le texte autorise.L’intertextualité représente donc le domaine virtuel des citations. L’intertextualité se divise en interne vs externe,selon que le texte cité se trouve dans le même champ pratique que le texte étudié ou bien qu’il en sort.21 Roland BARTHES résume ainsi cette prégnance insoupçonnée et généralisée des citations :« Le texte redistribue la langue (il est le champ de cette redistribution). L’une des voies de cette déconstruction -reconstruction est de permuter des textes, des lambeaux de textes qui ont existé ou existent autour du texteconsidéré, et finalement en lui : tout texte est un intertexte ; d’autres textes sont présents en lui, à des niveauxvariables, sous des formes plus ou moins reconnaissables : les textes de la culture antérieure et ceux de la cultureenvironnante ; tout texte est un tissu nouveau de citations révolues. Passent dans le texte, redistribués en lui, desmorceaux de codes, des formules, des modèles rythmiques, des fragments de langages sociaux, etc., car il y atoujours du langage avant le texte et autour de lui. L’intertextualité, condition de tout texte, quel qu’il soit, ne seréduit évidemment pas à un problème de sources ou d’influences ; l’intertexte est un champ général de formulesanonymes, dont l’origine est rarement repérable, de citations inconscientes ou automatiques, données sansguillemets. Epistémologiquement, le concept d’intertexte est ce qui apporte à la théorie du texte le volume de lasocialité : c’est tout le langage, antérieur et contemporain, qui vient au texte, non selon la voie d’une filiationrepérable, d’une imitation volontaire, mais selon celle d’une dissémination –image qui assure au texte le statut,non d’une reproduction, mais d’une productivité. » (Barthes 1973)Pour une étude développée des processus de citation dans les textes, voir (Compagnon 1979).22 Cette terminologie n’est pas complètement stabilisée.Bernard POTTIER distingue par exemple trois modalités de contexte (Bommier 1994a, p. 7) :- l’antétexte est le contexte linguistique, c’est-à-dire le texte énoncé peu avant, qui est présent à la mémoire desinterlocuteurs (ou du rédacteur / lecteur), et auquel peuvent notamment référer des anaphores.- le co-texte est l’accompagnement du texte utilisant un support non verbal, par exemple une illustration.- le contexte doit être compris au sens large : c’est tout ce qui peut caractériser la situation d’énonciation, et quiinteragit (de façon plus ou moins marquée) avec le texte.23 « un discours est un énoncé caractérisable certes par des propriétés textuelles, mais surtout comme un acte dediscours accompli dans une situation (participants, institutions, lieu, temps) [...]. Le texte, en revanche, est un

Page 16: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

142

L’explicite, ce qui est dit dans le texte, peut servir de base d’application de déductions etd’inférences. Ces raisonnements servent à expliciter une part de ce que le texte porte en puissancesans l’exprimer.

c) L’autonomieL’échange de paroles impose la coprésence des interlocuteurs. Le texte, par le biais de

l’écriture, intercepte24 le rapport auteur - lecteur et se détache d’une situation particulière, hic et nunc.S’il use de déictiques, c’est pour renvoyer à son propre univers interne qu’il élabore, qu’il s’agissed’un développement théorique et abstrait, d’un monde fictionnel, ou de la vision d’une réalité.

L’autonomie n’est pas autarcie, et le texte ne prend sens que pour un lecteur, dans uncontexte. D’où le rejet d’un principe d’immanence, qui voudrait que « tout » soit « dans » le texte. Lalecture est une actualisation et une appropriation25, elle prend sa matière de construction à la fois danset hors du texte. Si l’on peut reconnaître un fonctionnement endogène au texte, qui instaure, crée etfait évoluer lui-même son univers et son maniement de la langue, cela n’élude pas l’interaction sanslaquelle le texte, coupé de toute réalité, ne peut se situer et prendre sens.26

d) L’affiliation historico-culturelle et l’appartenance à un genreQu’il s’agisse de sa rédaction ou de ses lectures, le rapport au texte est médiatisé par la

culture (Beacco 1992).C’est cette dimension qui le constitue comme archive27, non seulement trace historique, mais

instance prenant place dans un tissu de rapports sociaux, et s’inscrivant –de façon significative– dansun mode de prise de parole. objet abstrait résultant de la soustraction du contexte opérée sur l’objet concret (discours). » (Adam 1990,Introduction §3, p. 23)24 C’est le terme de Paul RICŒUR : on trouvera l’idée développée dans plusieurs essais de (Ricœur 1986).25 Nous suivons toujours (Ricœur 1986). Au fil de ces essais, Paul RICŒUR engage à dépasser l’oppositionépistémologique entre une conception objective et une conception subjective du texte. Il s’applique à montrerl’alliance féconde de l’explication (qui s’ancre dans la matérialité du texte et dégage ses structures internes) et dela compréhension ou interprétation (qui ouvre dynamiquement le texte sur un sens personnel pour le lecteur, enreconfigurant sa manière de voir le monde).26 Une étude linguistique du texte peut ainsi procéder à une triple désontologisation, méthodique et raisonnée :« (i) remplacer le problème de la référence par celui de l’impression référentielle ; (ii) celui de l’énonciateur, parcelui du foyer énonciatif, tel qu’il est représenté dans le texte et/ou situé par les règles du genre ; (iii) et celui dudestinataire par celui du foyer interprétatif, dans des conditions analogues. » (Rastier 1996b, §1.1, p. 16)Plutôt que de se perdre dans une insaisissable réalité extratextuelle, l’analyse observe celle-ci depuis ses traces,ses points de contact avec le texte. Aux pôles extrinsèques du texte (l’auteur, le monde, les destinataires)répondent les pôles intrinsèques du texte, tels que les circonscrit le genre.27 Ce terme renvoie à l’école française d’Analyse du Discours. Dominique MAINGUENEAU en est un porte-parole :« pour l’AD [l’école française d’analyse du discours] il ne saurait être question de traiter les matériaux verbauxcomme de simples véhicules d’information ; elle veut les appréhender comme des textes. Si pour l’analyse decontenu ces textes sont en quelque sorte transparents aux représentations des sujets sociaux qu’ils sont censésrefléter, l’AD prend acte de leur opacité, refusant de les projeter directement sur une réalité extradiscursive :l’interprétation doit prendre en compte le mode de fonctionnement des discours, les modalités de l’exercice de laparole dans un univers déterminé. [...]Tel qu’il se détermine ici, l’objet de l’AD pourrait être dénommé une archive, laquelle regroupe un ensembled’« inscriptions » référées à un même positionnement. [...]Pour l’AD les soubassements sémantiques d’archive ne sont pas dénués d’intérêt. Son étymon latin, l’archivum,provient de l’archeion grec, lui-même dérivé de l’archè de l’archéologie. Lié à l’archè, « source », « principe »et à partir de là « commandement », « pouvoir », l’archeion, c’est le siège de l’autorité (un palais par exemple),un corps de magistrats, mais aussi les archives publiques. La fonction de mémorisation, de trésor textuel qui estcelle de l’archive et dont participe l’AD elle-même en recueillant, en manipulant les énoncés déjà proférés, estainsi systématiquement rapportée à la détermination d’une enceinte, d’un pouvoir qui est pouvoir de dire, àl’affirmation de la légitimité d’un corps d’énonciateurs consacrés. Or s’il est vrai que l’AD récuse l’idée d’unpoint d’origine du discours, l’imaginaire constitutif de l’archive suppose une relation à une source du sens, la

Page 17: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

143

Rattaché, par l’usage, à une pratique particulière, il se rapporte nécessairement à un genre28.Le texte neutre29, standard ou spontané, qui serait délié de tout genre, ne peut pas exister.

Le genre n’est pas un moule formel, préexistant, extérieur au texte, il est constitutif du texte30.Le genre a une incidence sur la composition du texte (thèmes abordés, vocabulaire, découpage enparties,...) et sur ses modes de lecture31. L’affiliation à un genre est porteuse de signification : le textes’y positionne, il s’en réclame ou le subvertit, etc. (Maingueneau 1991, §5.1)

Des typologies sont proposées (Adam 1992) (Petitjean 1989ab) (Bronckart, Coste, Roulet1991), renvoyant pour la plupart à des considérations fonctionnelles (raconter (narratif), convaincre(argumentatif), etc.). La discussion autour de ces propositions peut s’engager à partir des pointssuivants : (i) pour tout texte que j’ai là, maintenant, devant moi, concrètement, trouve-t-il sa placedans la typologie considérée ? et avec quelle clarté : l’attribution est-elle laborieuse ? (ii) La typologieplace-t-elle mon texte dans la même classe que d’autres textes, avec lesquels il est pourtant encontraste évident ?32 Le premier point épingle une typologie trop restrictive, le second une typologietrop accueillante (ces deux défauts pouvant se cumuler).

délimitation d’un espace fondateur, authentifiant. L’AD s’intéresse en effet surtout aux discours autorisés qui,au-delà de leur fonction immédiate, supposent un rapport aux fondements et aux valeurs. Considéré comme« archive », un ensemble de textes ne se définit pas seulement comme la réponse à un faisceau de contraintespratiques, il permet aussi de légitimer un certain exercice de la parole pour un groupe donné. Dès lors, étudierdes articles scientifiques ou les publications internes à une entreprise industrielle ne saurait se résoudre dans laseule prise en compte de leur utilité, dans la mise en rapport d’une structure et d’une fonction : c’est une certaineorganisation de l’univers d’une collectivité qui se trouve impliquée. L’étude de l’archive joue aussi un rôlecomparable à celle du mythe pour les sociétés primitives. Pour l’AD comme pour le mythologue, il s’agit deconsidérer des positions énonciatives qui nouent un fonctionnement textuel à l’identité d’un groupe. »(Maingueneau 1991, §1.1, pp. 9, 22)28 « Un acte de communication n’est pas une simple transmission de messages entre deux interlocuteurs idéalisés,comme l’Emetteur et le Récepteur pour Saussure, A et B pour Jakobson, ou Jill et Jack pour Bloomfield. L’usaged’une langue est par excellence une activité sociale, si bien que toute situation de communication est déterminéepar une pratique sociale qui l’instaure et la contraint.Sur cette évidence se fondent nos affirmations sur l’omniprésence des genres. » (Rastier 1989, §I.3.III)Les types de textes se répartissent alors en discours (qui correspondent aux domaines d’activités dans la sociétéet à la division du travail : politique, religieux, médical, etc.), puis en genres (qui sont associés aux différentespratiques ayant cours dans le domaine en question). (Adam 1990, Introduction §3, p. 20-21) (Rastier, Cavazza,Abeillé 1994, §VII.4.1)29 « A ceux qui demandent comment traiter les textes neutres ou ordinaires, qui ne seraient ni littéraires nitechniques, nous répondons qu’il n’en existe pas. Cette question est inspirée sans doute par la philosophie dulangage ordinaire, et plus généralement par l’idée qu’il existe un emploi neutre du langage, littéral, à la foisd’usage général et simplement dénotatif. En fait, tous les usages linguistiques sont normés, relèvent d’un genre etd’une pratique sociale, et même ceux qui donnent l’impression de liberté, notamment les usages privés,n’échappent pas à ces déterminations. » (Rastier, Cavazza, Abeillé 1994, §VII.1.3)30 « Les genres du discours ne sont pas des catégories intemporelles mais des réalités historiques, inséparablesdes sociétés dans lesquelles ils émergent. A la lumière de la conception pragmatique du langage, on assiste à unemodification de l’image traditionnelle qu’on s’en fait, celle d’un ensemble de « procédés », de « cadres », quipermettent de donner une certaine forme à un « contenu » qui en serait indépendant. On préfère y voir uneactivité sociale ritualisée, soumise à des conditions de réussite qui intègrent un ensemble diversifié de paramètres(statut des énonciateurs, du public, lieux d’énonciation, etc.). Dans cet ordre d’idées on sait par exemple quelsprogrès ont été réalisés dans la compréhension des Evangiles quand on a étudié leur texte en prenant en comptel’usage qui en était fait dans les communautés chrétiennes où ils se sont constitués, au lieu de ne voir dans cesdernières que des « circonstances » contingentes. » (Maingueneau 1991, §5.1, pp. 178-179)31 « le genre est une catégorie instituante qui prend la forme d’un ‘horizon d’attente’ au niveau de la lecture, d’uncadre discursif au niveau de l’écriture, et dans tous les cas d’instance de ‘socialisation’. » (Petitjean 1989b,p. 120)32 Par exemple, que deviennent ces deux questions quand je considère les descriptifs d’activité des agents de laDirection des Etudes et Recherches d’EDF, et non un roman ‘canonique’...Un regard critique plus détaillé sur les typologies fonctionnelles pourra être trouvé dans (Rastier 1989,§I.3.IV.A).

Page 18: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

144

La tendance est à la description des genres comme des hybridations des fonctions précitées,les textes « purs » apparaissant des cas d’école. Plus souple encore, la définition du genre d’un textepeut être obtenue par une panoplie de critères de caractérisation33.

e) Une parole fixée, inscriteLes paroles s’envolent, l’écrit reste, résume le dicton. La composition linguistique du texte

est stable, le choix et l’ordre des mots sont fixés définitivement34. De plus, le codage alphabétiqueopéré par l’écriture assure une reproductibilité exacte et littérale, ad libitum, et donc une persistancedu texte dans une démultiplication de ses exemplaires. Ceci suppose que l’on s’en tienneessentiellement à l’expression linguistique et aux segmentations marquées (vers, paragraphes,parties), et que l’on néglige la nature du support (choix du papier,...) et peut-être la disposition (miseen page et typographie). Le texte est à la fois constitué par la matérialité de son support qui l’institue,et caractérisé par sa dématérialisation, qui lui permet de persister par delà l’existence d’exemplairesconcrets.

Dans une lecture, cette inscription sur un support permet des libertés qui échappent à l’oral35.En effet, la linéarité du texte n’engage pas celle de la lecture, à la différence de la chronologie del’oral. Le texte peut être consulté ponctuellement, le lecteur peut revenir sur un point précédent36, ouanticiper sur le déroulement linéaire ; il peut feuilleter, survoler, s’arrêter sur un point37. Ceci estfacilité par l’évolution des supports : on est passé de l’accès séquentiel du codex (rouleau), à l’accèsdirect avec le livre (ouverture sur n’importe quelle page) ; et les nouveaux supports électroniquesinstrumentent et renforcent l’accès direct (liens statiques et dynamiques, recherche en texte intégral etnavigation).

f) Une épaisseur temporelleLa génétique des textes étudie la formation d’un texte à travers les brouillons successifs. La

philologie s’efforce de rétablir la version originelle d’un texte, dont les copistes du Moyen-Age ou leséditeurs, même réputés sérieux, se sont écartés. De nos jours, l’utilisation des traitements de texte

33 François Rastier propose quatre composantes sémantiques : la thématique, la dialectique, la dialogique et latactique. D'une façon très simplifiée : la thématique s'intéresse au repérage des éléments de contenu et àl'identification du sujet du texte ; la dialectique traite des intervalles temporels dans le temps représenté, de lastructuration et des interactions des entités ; la dialogique étudie les points de vue (modalisation) ; et la tactiquerend compte de la disposition linéaire des unités sémantiques, avec les effets d'ordre et de succession, tant au plande l'expression que du contenu. Ces composantes concernent tous les paliers de l'analyse (mot, phrase, texte) etsont organisées en hétérarchie (aucune ne domine ni ne précède une autre).« Les genres sont définis par des interactions normées entre les composantes [sémantiques]. [...][...] les interactions des composantes sémantiques n’ont pas à être explorées in abstracto. Elles sont codifiées parles discours, et les genres (dont chacun peut être défini –quant à son contenu– comme un type d’interaction entreelles) et en cela relèvent de normes, évidemment culturelles. Aussi n’entendions nous pas formuler une typologie,mais en définir les critères. » (Rastier, Cavazza, Abeillé 1994, §VII.4.6)34 « On ne dira jamais assez, par exemple, l’importance du ‘bon à tirer’ qui sépare nettement l’acte d’écrire,révisable et interminable, de l’œuvre elle-même ». (Bazin 1994)35 Le texte n’est donc pas seulement une expression linguistique fixée sur un support, mais il est conçu avecl’idée qu’il est fixé, se prêtant à une pratique interprétative de lecture et de relectures. Certains enregistrementsd’interventions, à l’oral, satisferaient cette condition : la lecture préparée d’un texte, et peut-être un certainnombre d’émissions différées. En revanche, inclure dans l’étude des textes des retranscriptions d’échanges dansdes situations où il est hors des préoccupations « normales » des locuteurs de garder et marquer une trace del’échange tel qu’il se déroule, élargit par trop le champ de notre étude et nous ferait perdre des propriétés fortesde la textualité.36 Cette possibilité, de revenir plusieurs fois sur un passage complexe, fait que « l’écrit peut se permettred’imposer à la mémoire du récepteur une charge supplémentaire » par rapport à celle acceptable à l’oral (deAlmeida, Bellamy, Kassai, pp. 99-100).37 La structuration du texte guide la construction d’un parcours : le lecteur s’oriente en fonction du type dedocument et des traces (typographiques, linguistiques) de son organisation, il se repère par rapport à ses attentessur les fonctionnalités des parties (Dillon 1991).

Page 19: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

145

modifie les habitudes de rédaction (facilités d’insertion, de déplacement et de duplication d’une zonede texte), multiplie les versions. L’attention qui était apportée à la conception et à la planificationinitiale, dans une rédaction manuscrite, est reversée sur une phase de corrections et d’enrichissement(Piolat, Isnard, Della Valle 1993). Les ‘marques de révision’ sont proposées pour tracer les retouches.

Le rattachement à son auteur inscrit le texte dans une œuvre, peut-être comme étape dans laréalisation d’un projet (esthétique, scientifique), ou comme élément de réponse à une questionpremière qui hante l’auteur. Tel texte est perçu comme une évolution, une révision, une annonce, d’unautre texte de l’auteur. Le choix d’un ordre de lecture n’est pas sans incidence interprétative (Tardieu1987).

Quant à sa lecture, le texte s’enrichit des lectures qui ont marqué la vision que l’on adopte dutexte. Ce processus de sédimentation (les lectures se superposent au fil du temps et des traditions) estaussi ce qui maintient une continuité entre un texte original, éloigné dans le temps et l’espace, et sespossibles lectures actuelles.

6. L’homme face au texte

a) Une existence motivéeLe texte apparaît comme le fruit de l’expression originale d’un auteur (éventuellement pluriel)

à l’intention d’un lectorat. Il se pose comme un acte, acte d’écriture, acte qui intervient dans le coursdes choses et dans l’histoire38. A contrario, une suite de mots, même « bien formée » (pour reprendrel’expression consacrée des logiciens), générée par une machine et non orientée par quelque choixhumain (choix des éléments à présenter, choix du mode de construction du discours, etc.), peine à êtrereçue comme un texte (pour autant que l’on sache qu’il s’agit d’une production machinale) (Dumesnil1992). Un texte est une intelligence, une sensibilité, qui se communique. Il est crédité d’un sens.

Par sa simple existence, le texte se pose comme légitime (Maingueneau 1991, p. 173). Sonauteur s’en porte garant.

Le texte se justifie par son utilité (au sens large) et son originalité (non sans lien avec sanouveauté) (Chabin 1997). Les typologies fonctionnelles s’efforcent ainsi de situer chaque texte parrapport à un usage général visé, un mode de relation de communication : décrire (représentation parles mots d’une scène statique), raconter (un enchaînement d’événements qui fait sens), argumenter,enseigner, distraire, procurer une émotion esthétique... Quant à son originalité, le texte se présentecomme un apport ou un écart dans le contexte dans lequel il s’inscrit.

b) Le support de lectures et d’interprétationsDu texte à son lecteur humain, il y a un acte. En fonction de ses attentes, des contraintes

linguistiques posées par le texte, de règles interprétatives, le lecteur parcourt le texte. Il se construitdynamiquement une représentation de ce qu’il a perçu, de ce qui a été saillant39.

7. Le texte électronique : une autre textualité ?

a) L’incidence du support sur la nature du texteIl y a une différence fondamentale entre des documents conçus, ou adaptés, pour une

publication hypertexte40 (et qui nous intéressent pour ce dernier ensemble de propriétés), et des

38 (Ricœur 1986) trace un riche parallèle entre texte et action.39 Par exemple, une lecture professionnelle ne procède pas de la même manière, ni avec les mêmes objectifs,qu’une lecture « gratuite », « pour le plaisir » (Brouillette 1996).40 Pour un rapide tour d’horizon historique sur la formation du concept d’hypertexte et des premières réalisations(Vannevar BUSH, Paul OTLET, H.G. WELLS, Douglas C. ENGELBART, Theodor Holm NELSON, Bill ATKINSON,Tim BERNERS-LEE), voir (Teasdale 1995).

Page 20: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

146

documents qui sont la reprise, sans réaménagement, de documents papiers existants (Oßwald 1995)(Amitay 1997)41.

Les possibilités offertes par la forme électronique induisent de nouvelles formes textuelles,qui, par delà même l’apparition de nouveaux genres42, bousculent certains des repères donnésprécédemment pour la textualité.

Il ne faut pas croire pour autant à la disparition du papier, et à l’étouffement définitif desmodes de lecture qu’il induit et des propriétés textuelles que nous avons vues précédemment. Onpourrait plutôt esquisser une complémentarité :

Papier Electroniquelire apercevoir (signalement)concentration (recueil) dispersion (réseau)stabilité, référence dynamiquelocalisation (objet à sadisposition)

diffusion

b) Un document diffus et fragmenté : la clôture du texte en questionL’hypertexte rend problématique la clôture du document. Autant l’unité que constitue la page

est clairement délimitée, autant une unité supérieure, qui rassemblerait des pages pour former undocument, n’est pas toujours claire à cerner. Jusqu’où suivre les liens ? Trancher sur le statut, interneou externe, d’un lien par rapport au document, devient parfois une véritable opération herméneutique.

Tout se passe un peu comme si l’ancienne évidence unitaire du texte devenait une évidenceunitaire de la page, fragmentant de la sorte les unités de communication43. Mais la vision devient alorsparcellaire, la page isolée ayant parfois un contenu indigent et non autonome. Et, enregistrés sous lamême appellation de page, se trouvent des documents des « niveaux » les plus divers : page d’accueilgénérique, exemple, illustration, article de référence, courrier électronique, etc. (Koch 1996)

41 La mise sous forme hypertextuelle de documents « classiques » électroniques existants donne lieu à uneréflexion théorique et pratique très riche. Voir par exemple tout le travail de thèse de (Papy 1994), en particulier§4.1 (p. 84 sq.) –comment « découper » le document pour former les noeuds de l’hypertexte ; les textestechniques s’y prêtent mieux que les textes littéraires–, et §6.6 (p. 152 sq.) –la difficulté qu’il y a à éclater le texteen unités.42 Einat Amitay plaide haut et fort pour définir l’hypertexte comme un nouveau genre :« The idea behind this dissertation is that hypertext is a new genre of expression and that it is systematicallydifferent from other communicative verbal means of expression like flat hierarchical text or speech. » (Amitay1997, §6, p. 49)Son travail sur les spécificités linguistiques et organisationnelles d’un corpus de pages Web, et notamment sur laforme et l’usage des ancres (zones actives pour un renvoi hypertexte), serait plutôt une excellente introduction àune analyse des pages personnelles. Si genre il y a, il se situe selon nous à ce niveau (un « type » de page) ouencore en deçà (par ex. les pages personnelles d’une certaine communauté). Vouloir décrire le Web dans sonensemble appauvrirait les régularités décelables (peu de choses sont communes à toutes les pages Web), sans nonplus refléter une unité réelle et effective (en pratique on a affaire à un secteur du Web).Marie-Anne CHABIN propose, comme première piste de travail à propos des archives numériques, de prendre actede cette différence des documents électroniques, qui ne sont pas une simple retranscription des formes de textesconnues :« Etablir une typologie spécifique des documents numériques : à côté des natures de documents qui ontsimplement changé de support, l’utilisation du numérique promeut de nouveaux types de documents tels que lesdocuments collectifs issus du workflow, ou les très nombreuses mises à jour. L’analyse de leur raison d’être, deleur provenance, de leur mode de fabrication, etc., doit permettre d’esquisser des types de documents. » (Chabin1997, pp. 215-216)43 Cette évolution vers une fragmentation de plus en plus marquée de l’information est analysée comme unesource de surcharge cognitive : il faut en effet constamment passer d’un fragment à l’autre, et à chaque fois(re)constituer un contexte. Il faut aussi gérer simultanément une multiplicité d’informations autonomes, enpercevant leur positionnement respectif et en organisant leurs priorités (voir les travaux de Saadi LAHLOU à EDF-DER et de Charles LENAY à l’UTC de Compiègne).

Page 21: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

147

La page, ajustée par les contraintes de transfert et d’affichage, devient le nœud central, et lepoint intercalaire entre deux « zones » nouvelles. L’unité supérieure « physique » est le site (pourInternet), ou plus généralement un répertoire principal. Et, zone plus petite que la page, la fenêtred’affichage, qui cadre le champ de vision et renforce la linéarité et le découpage du texte à l’intérieurde la page (le début est plus visible que la fin ; la présence nombreuse de frontières et de titres facilitele repérage, où que soit positionnée la fenêtre).

c) Perte de certains guides de parcours : butinage et désorientationLes pages d’un livre, reliées dans un certain ordre, proposent d’emblée un parcours préparé et

systématique. En suivant l’ordre du livre, le lecteur sait qu’il aura une vue complète de l’ouvrage. Ilpeut se reposer sur ce fil conducteur. Il a à tout moment une idée du chemin parcouru et de ce quireste à parcourir. Grâce aux indications portées par la structuration interne du document (découpageen chapitres et sections et intitulés, paragraphes mis en valeur ou au contraire présentés commesubsidiaires), il adapte facilement son parcours de lecture à sa situation (intérêts, contraintes de temps,etc.). Le lecteur prend donc certaines libertés, mais sur une base linéaire.

Ces repères sont pour une bonne part perdus quand il s’agit d’un hypertexte44, qui par essenceoffre des lectures purement non-linéaires. Il y a d’abord la question du point d’entrée : toutes lespages ne sont pas équivalentes pour donner un contexte introductif et ouvrir sur une lectureconstructive. Ensuite, en ce qui concerne l’enchaînement des pages, une page propose courammentplusieurs liens, ce qui rompt la linéarité et l’évidence du parcours. Il n’y a plus vraiment de tactiquesystématique pour faire le tour d’un document. Bien sûr, l’algorithmique fournit deux modes deparcours d’un arbre hiérarchique, en largeur d’abord et en profondeur d’abord. Le réseau hypertextepeut en effet être vu comme une simple structure arborescente, en prenant la page de départ commeracine (à quelques exceptions prêt, qui peuvent compliquer la situation : cycles, etc.). La logique duparcours en largeur d’abord crée des discontinuités de contexte (on saute d’une branche à l’autre del’arbre) : c’est tellement anti-naturel qu’elle est spontanément très peu pratiquée, ou seulement trèslocalement (sans sortir du contexte d’une page). La logique en profondeur d’abord entraîne dans desdérives sans fin, faute de repères de clôture. Elle contribue à ces digressions et flâneries que d’aucunsstigmatisent. La démarche réelle est intermédiaire, et donc plus aléatoirement opportunistequ’efficacement systématique. Une aide importante (mais qui ne résout pas tout) est l’indicationqu’un lien mène sur une page qui a déjà été visitée ou non.

A cela s’ajoute que, au lieu d’une identification des « niveaux » d’information, tout est« page », et il est souvent difficile de savoir, en décidant de suivre un lien, si l’on trouve uneinformation synthétique ou détaillée, une illustration ou une page d’accueil qui invite à explorer toutun nouveau site (Teasdale 1995).

Au mieux, l’hypertexte favorise une stratégie de découverte (« tomber sur » une pageinattendue et intéressante) (Michel 1997, §2.5, p. 224), mais gêne la construction de visions intégraleset intégrées, et le repérage par rapport à des points de référence caractéristiques (réalité mouvante del’Internet, uniformité du format ‘page’). L’absence d’un texte principal, d’une unité textuelle, semblesubstituer la lecture, qui procède par enrichissement de l’interprétation au fil du texte, au parcours,qui n’est que déplacement d’un centre d’attention à un autre, sans capitalisation progressive45. Lesquébécois, en baptisant les logiciels de navigation des butineurs, ont trouvé une image parlante.

La difficulté pour cerner un ensemble qui forme un document et avoir la vision globale d’untout a bien été identifiée –« myopie »– par les concepteurs d’interface, qui s’ingénient à fournir àl’utilisateur une vue d’ensemble de son parcours (éventuellement « aplatie », cf. le mécanisme de 44 (Zizi 1995, §1.3.2) donne une bonne description des Problèmes inhérents à la navigation hypertexte, qu’elledéveloppe en trois points : myopie, désorientation, et digression.Sur la désorientation, voir aussi : (Papy 1994, §2.5.3, p. 56 sq.).45 (Bachimont 1999b).L’usager des hypertextes exprime le besoin d’outils pour éviter l’inconsistance et la dispersion de ces parcours :« Je veux naviguer facilement sans perdre le fil de ma pensée. Ce qui m’intéresse, c’est un historique de mapensée. J’ai besoin de ne retenir qu’un lien fort. Trop rebondir peut distraire plus qu’enrichir. J’aimerais avoirdes aides pour enrichir le rebondissement sans connaître la distraction. » (Merle, Fradin 1994, §9, p. 48)

Page 22: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

148

retour arrière, qui mémorise le déroulement ‘en profondeur’ mais pas ‘en largeur’ depuis le début dela session). Soit dit en passant, ce diagnostic heuristique révèle bien l’importance del’interdétermination du local et du global dans la construction de l’interprétation, point sur lequelnous aurons l’occasion de revenir.

Le support papier favorise une vue synoptique : pour travailler sur un dossier, on disposel’ensemble des documents sur l’espace de travail, et on s’organise et s’oriente en fonction de lahauteur des piles, de leur ordre de succession, de la proximité (ce qu’on a placé près ou bien loin desoi). L’électronique ne reproduit pas naturellement ni efficacement ces dispositions d’ensemble. Enrevanche, la force (potentielle) du support numérique est dans le calcul de vues synthétiques,correspondants à un angle de lecture, qui embrassent un volume de documents d’un tout autre ordrede grandeur (Bachimont 1999c).

d) Sources diffuses : des documents multipliés et mal identifiésLa généralisation de l’usage des traitements de texte, et l’ouverture de moyens puissants de

diffusion hors des circuits, contrôlés, des maisons d’édition, affaiblit la légitimité accordée au texte, etbouleverse la constitution des fonds d’archives (Chabin 1997) (Michel 1997). L’auteur d’undocument n’est pas toujours clairement identifié ; et aucun comité de lecture n’a approuvé le texte etreconnu qu’il « méritait » d’être lu (Bazin 1994). En outre, le document, qui n’a pas une forme stableet unique, a pu être modifié subrepticement ; et à la surmultiplication des exemplaires (proliférationdes copies pour information) se mêlent confusément les variantes de version.

Le document devient plus insaisissable, dans tous les sens du terme. Il n’y a peut-être pas às’en étonner pour ce qui concerne Internet. L’origine du Web était justement une organisation enréseau telle qu’elle échappe à toute tentative de destruction. Ce qui est perdu localement peut êtrerétabli, retrouvé ailleurs. C’est une dispersion, une dilution tactique. Les sites miroirs, les liensmultiples et sans systématique, empêchent de cerner une cible.

Au quotidien dans les bureaux, le stockage sous forme électronique relâche certainescontraintes d’encombrement et d’ordre (Chabin 1997), ce qui favorise une conservation plus‘quantitative’ et moins ‘qualitative’, plus systématique et moins rigoureuse.

e) Liens organisateurs d’un espaceL’avènement de l’hypertexte a matérialisé le renvoi « point à point », d’une zone d’un texte à

un point –ce qui ne préjuge pas du caractère ponctuel de la cible du renvoi : référence interprétéecomme l’œuvre qu’elle désigne, début d’une partie (page, intitulé, paragraphe) associé audéveloppement qui y est opéré, terme pris dans son contexte.

Il y a une topographie des relations de texte à texte46. La littérature tendrait à mettre en valeurun canon, un texte qui donne accès à tous les autres. Les lianes de l’Internet, ou les textes bien rangésdans une base de donnée, donneraient plutôt l’image d’une multitextualité, dans laquelle il n’y a pasde texte dominant.

Les liens tissent ainsi un espace, avec ses voisinages, ses chemins ; il ne s’agit (actuellement)que de parcours locaux, de linéarisations élémentaires, qui n’aiguillent que d’une page à une autre.

f) Documents vivantsLe support électronique favorise l’évolution et l’ajustement continu du document (Papy 1994,

§2.2.4, p. 42 sq.). Par exemple sur Internet, un document apparaît à une adresse donnée. Il évolue,avec des discontinuités possibles, si l’on identifie le document par son adresse : remplacementcomplet d’un texte par un autre, « déménagement » de la page à une autre adresse. Puis il disparaîtsans prévenir et sans laisser de traces... Cette caducité et cette fugacité se généralisent à la plupart des

46 Des études récentes suivent par exemple les types de cheminement, de page à page, sur une portion du Web(Wexelblat, Maes 1997).On peut aussi s’intéresser à la typologie des liens eux-mêmes ((Papy 1994, §2.5.2, p.55) expose cetteproblématique mais n’entreprend pas de la creuser).

Page 23: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

149

documents conçus sous forme électronique, et gagne une large part des documents dans lesentreprises47.

Le document devient même intrinsèquement dynamique : des calculs composent une page enfonction du moment ou / et d’une indication introduite par celui qui la consulte. Le document est-ilalors le ‘moule’ et ses remplissages virtuels, ou y a-t-il autant de documents que de réalisations de lapage ?

La publication sur les réseaux électronique réduit la distance qui sépare le lecteur de l’auteur(contemporain), voire des autres lecteurs. Le texte peut évoluer en échos aux lectures qui en sontfaites (Bazin 1994).

g) De l’empreinte à la matrice : un potentiel de réalisations multiplesLe texte électronique se prête à une diversité de formes de présentation : impression papier,

réorganisation par des tris et des filtres, etc. Le texte électronique est générateur d’une multitude detextes donnés à la lecture. L’auteur se voit alors confronté à la nécessité de structurer son texte et ainside guider (contraindre) les modes d’appréhension et d’accès offerts par le calcul, en les anticipant.(Cotte 1999)

h) Bilan : réinvention de la lecturePlusieurs questions se sont posées [...] au fil de notre parcours [étudiant l’impact des nouveaux

supports électroniques pour le texte]. Elles concernent la constitution et l’appropriation d’une mémoirecollective, le rôle du témoignage, la fiabilité de l’information, la délocalisation du savoir.

Toutes convergent, finalement, vers la question du « sens », c’est-à-dire ce qui donne consistanceau fait de vivre en communauté. En effet, la sophistication croissante des dispositifs de traitement del’information semble s’accompagner d’une évaporation des référents stables, clairement repérables ettransmissibles, que produisait l’ordre du livre.

[...] il ne faut pas perdre de vue que les enjeux se situeront, désormais, beaucoup plus du côté desprocessus de lecture que de la fixation des contenus.

Autrement dit, il faudra veiller à ce que tous les citoyens disposent des outils adéquats etmaîtrisent les nouvelles techniques de lecture. Plus profondément, il faudra favoriser le partage desmêmes pratiques [...] [pour] réinventer ensemble, dans le contexte du relativisme et de la virtualité,l’espace public du savoir, sans lequel la connaissance n’est pas culture.

(Bazin 1994)

47 « L’expérience de consultant de l’auteur de ces lignes lui permet d’avancer que 30 à 60 % des documentsproduits aujourd’hui par une entreprise n’existaient pas il y a 10 ans ou n’existeront plus dans 10 ans, soit qu’ilscorrespondent à une nouvelle procédure, soit que la fonction qui les produit ait été redéfinie et qu’ils aient changéde nom, soit que, agencés différemment dans des dossiers nouveaux, ils n’aient plus la même apparence. »(Chabin 1997, §2.6, p. 211)

Page 24: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

150

B. PROPOSITION DE SYNTHÈSE : LES QUATRE FACETTES DU TEXTE

1. Le texte dans le contexte de l’application DECID : champ d’étude

a) De « vrais » textesL’enjeu est de pouvoir prendre le document de travail le plus banal, tel qu’il est. Il ne s’agit ni

d’imaginer des textes qui n’existent pas (textes attestés), ni de s’en tenir à des textes calibrés (issussoit d’une réécriture, soit d’une contrainte qui serait ajoutée à la rédaction). Ce ne sont pas les textesqui sont faits pour l’application, mais c’est l’application qui est au service des textes rencontrés.

Ancré dans la réalité, le corpus affirme l’inanité d’une vision universaliste en s’inscrivantdans un domaine et en y prenant sens.

Même pour le corpus destiné à fournir les caractérisations des destinataires, il n’est pasquestion de mettre en place un contrôle rédactionnel qui veillerait à une certaine qualité normée destextes. Bien sûr, il n’est pas mauvais que l’application de diffusion ciblée encourage les chercheursd’EDF à faire une « bonne » rédaction des textes descriptifs de l’activité, c’est-à-dire à donner unedescription riche, détaillée, informative : cela ne peut que profiter à tout le monde (les destinatairessont mieux caractérisés et donc mieux servis, et l’application de diffusion ciblée est plusperformante). Mais l’effort se porte prioritairement sur la conception d’un système suffisammentsouple et puissant pour tirer un parti aussi intéressant que possible de l’existant.

b) Des documents scientifiques et techniques, à vocation informativeLes textes qui nous intéressent pour DECID sont ceux qui servent de support de

mémorisation, de transcription de connaissance, dans la mesure où s’y applique un travail decompréhension. Ce sont des documents qui entrent dans une pratique professionnelle de constitutionet de mise en œuvre d’un savoir scientifique et technique.

La manière d’aborder les textes ne serait pas la même si l’on avait affaire à des texteslittéraires ou juridiques par exemple48. Il est difficile d’éluder la question de la qualité et des effets dustyle dans un texte littéraire, et d’y trouver un plan de lecture fortement présent. Une lecture qui s’entient à l’intrigue est possible et légitime, mais n’est pas pleinement ‘convaincante’ : on attend del’auteur littéraire une portée significative de son maniement de la langue, c’est une présomption quioriente la lecture et la construction d’un sens. Le sens d’une œuvre littéraire n’est pas dans le vrai, pasnécessairement dans le vraisemblable ; il peut faire grande place à la musique des mots (phonétiques).Alors que, dans un contexte scientifique et technique, la tendance est à la normalisation de laformulation et du lexique (un concept est désigné par un terme précis, une pièce est identifiée par unidentifiant consigné dans une nomenclature stricte), l’œuvre littéraire recherche des façons inédites dedire les choses.

Nous avons aussi évoqué les textes juridiques : les pratiques de lecture extrêmement nuancéeset scrupuleuses, qui permettent, sur un mot, de basculer d’un univers dans un autre, ne correspondentpas au dégrossissement et aux approximations de l’approche adoptée ici. Tout au plus pourrait-onproposer une première lecture, mais là encore sans doute trop insuffisante.

48 La différence que nous voulons souligner est celle de pratiques interprétatives contrastées. La question, dansl’absolu, de la (plus grande) facilité ou difficulté à traiter textes scientifiques ou littéraires, est sans doute unefausse question. Citons par exemple le témoignage suivant :« une idée circule dans la communauté des Traitements Automatiques des Langues, selon laquelle les textestechniques seraient en général plus simples à traiter, grâce, notamment, à des constructions syntaxiques plussimples. Même si l’on observe effectivement sur nos corpus des caractéristiques linguistiques pouvant simplifierles traitements automatiques, nous montrons [par des extraits du corpus] [...] des constructions syntaxiques quipeuvent être complexes. [Ces extraits] montrent également la présence d’expressions imprécises. » (Assadi 1998,§I.5.2, p. 68)

Page 25: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

151

Bien sûr, il s’agit ici de dominantes. On ne peut refuser à certains rédacteurs de notestechniques un certain art de la rédaction, un style personnel, une finesse extrême dans le choix destermes et des tournures, le recours à quelques figures de style ou procédés rhétoriques... Notreposition n’est pas décréter l’insignifiance de tout cela, mais de considérer que ce n’est pas premierdans une application de diffusion ciblée. L’application choisit un point de vue sur les textes : lestextes en tant que documents, reflets de connaissances et de compétences dans les domaines d’activitéoù ils circulent. A ce titre aussi, des documents que l’on classerait comme administratifs oumédiatiques rejoignent le corpus de DECID, tant que l’on considère que le point de vue del’application apporte une lecture intéressante de ces documents.

c) L’écritLe texte est inscrit, fixé sur un support. Les définitions les plus larges envisagent toutes sortes

de support, y compris la bande magnétique, qui enregistre un discours.Nous voulons nous en tenir ici aux documents rédigés pour être lus. Cela a une incidence sur

leur constitution. L’auteur ajuste en effet sa composition au mode de réception. Typiquement, laretranscription d’un échange oral n’est pas du même ordre qu’un texte conçu pour être diffusé sousforme de livre ou d’article. Ce qui est oral (à l’origine) oblige à limiter les développements(l’attention et la disponibilité des auditeurs ou interlocuteurs jouent fortement), permet de compter surune certain interactivité (des questions sont l’occasion de revenir sur un point évoqué rapidement),peut faire grande référence au contexte qui réunit les participants, multiplie les modalités (ton de voix,gestes, projection de transparents), etc.

Un document écrit, pour assurer sa fonction de transmission d’un savoir ou d’informations,est conçu de façon à pouvoir être consulté dans diverses situations et sans contact avec l’auteur. Cecisuppose au contenu du document une certaine autonomie.

Le rôle des graphiques et illustrations peut être d’importance inégale selon les documents.Sans prétendre donner une lecture complète du document, l’analyse dans DECID s’en tient au texte(sans se priver des éléments textuels dans les tableaux, des légendes titrant et commentant lesgraphiques) et essaie d’en tirer le meilleur parti.

d) Le rapport au texte est celui de la lectureDans le contexte de l’application de diffusion ciblée, les documents sont visé sous l’angle de

la lecture par opposition à celui de la rédaction. Le travail s’effectue sur les parcours de lecture et lesinformations construites à partir du document, et non sur le passage d’une idée à son expressionlinguistique, à la délimitation de ce qui est à dire, aux contraintes rédactionnelles et à la manièred’investir un genre, à la création d’un objet linguistique reçu et reconnu par un certain public. Côtétraitements automatiques, c’est se situer parmi les outils d’analyse vs les outils de génération49.

Nous ne demandons pas à la machine de ‘produire’ des textes, mais de partir d’un existant.Son rôle est de proposer des configurations, des présentations, qui renouvellent les modes d’accès auxtextes, sans pour autant pouvoir se substituer à une interprétation humaine.

Nous sommes convaincus que l’ordinateur peut apporter une aide réelle pour aborder desvolumes textuels de plus en plus présents (voire oppressants), et qu’il est moins souvent opportunpour porter des données codifiées dans le monde des textes. Les données codifiées ne sont-elles pasexploitables plus efficacement dans leur pureté, leur simplicité et leur acuité originelle ? La mise entexte n’est pas une transformation conservatrice, sans pertes ni gains. Les gains sont issus del’explicitation d’une lecture d’un format conventionnel (autrement dit, comment déchiffrer telle sériede mesures, tel diagramme), et l’introduction d’un point de vue sur les données (qu’il faudra attribuersoit au rédacteur humain, soit au concepteur qui a édicté le comportement de la machine, dans leslimites de sa maîtrise de l’algorithme). Les pertes de la transformation des données en texte se

49 Plus précisément, on pourrait opposer analyse vs génération au niveau syntaxique, interprétation vsproduction au niveau sémantique, et compréhension vs énonciation au niveau mental, cf. (Rastier, Cavazza,Abeillé 1994, §I.2.2, p. 16)

Page 26: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

152

manifestent comme un effet d’enrobage, surtout vis-à-vis d’un format codifié qui s’est forgé au longd’une pratique et est le plus ajusté à la situation concrète.

e) Des textes en nombreL’automatisation apporte un relais face à un volume de texte que l’homme n’est pas en

mesure d’appréhender. La valeur ajoutée de l’outil n’existe que par cet effet d’échelle.Très concrètement, il n’y a aucun intérêt à mettre en place un outil de diffusion ciblée et de

repérage de destinataires, lorsque l’ensemble des destinataires potentiels est une petite équipe depersonnes qui se connaissent bien ! La lecture humaine est évidemment supérieure au traitementmécanique que peut effectuer la machine.

2. Description des quatre facettes textuelles

a) Présentation

Organisation d’ensembleAnnonçons dès à présent les quatre facettes que nous proposons de retenir pour guider la suite

de notre étude. La présentation en tableau est utilisée pour faire ressortir des regroupements etoppositions qui structurent les quatre facettes comme formant système. Les annotations dans lesmarges du tableau proposent une interprétation possible (et ouverte) pour décrire ce système.

Vision interne : texteobjet unique (objectivité relative)paradigme logico-grammatical

Vision externe : documentcontextes pluriels (subjectivité)paradigme rhétorico-herméneutique

Domaine :situé,cotexte (culturel, situationnel,...)

1. MATIERE LINGUISTIQUE 4. RÔLE CONSTITUTIF DE LALECTURE

Domaine :système,contexte (textuel)

2. ORGANISATION INTERNEclôture et autonomie, linéarité,

hiérarchie, orientation

3. INTERTEXTUALITE

L’ordre de parcours proposé par la numérotation des facettes concorde, au moins pour lestrois premières, avec un élargissement des paliers concernés. La linguistique s’attacherait aux petitesunités, l’organisation interne déborde la phrase et déploie le texte. L’intertextualité peut être penséecomme un palier encore supérieur (Kanellos, Thlivitis 1997).

Comparaison et discussionDans un contexte plus général, celui d’une réflexion sur un format général d’encodage des

textes (y compris des parchemins) sous forme électronique, (Sperberg-McQueen 1991) aboutit à uneanalyse comparable de la textualité. Il énonce et commente neuf axiomes :

Axiom 1 : Markup reflects a theory of the text.Axiom 2 : One’s understanding of texts is worth sharing.Axiom 3 : No finite markup language can be complete.Axiom 4 : Texts are linguistic objects.Axiom 5 : Texts occur in / are realized by physical objects.Axiom 6 : Texts are both linear and hierarchical.Axiom 7 : Textual cross-references form a structure.Axiom 8 : Texts refer to objets in a real or fictive universe.Axiom 9 : Texts are cultural and therefore historical objects.(Sperberg-McQueen 1991)

Page 27: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

153

Il est frappant de trouver de multiples parallèles : on rapportera sans hésitations l’axiome 4 ànotre première facette, la seconde facette a son pendant dans l’axiome 6, la troisième facette trouve unécho dans l’axiome 7 mais aussi l’axiome 9 (où Sperberg-McQueen aborde les conventions derédaction –ce que nous rattachons à la question des genres– et les faisceaux de versions d’un mêmetexte). Notre quatrième facette n’a pas de correspondant direct, mais se retrouve sans peine derrièreles réflexions sur le sens et la portée du codage (axiomes 1, 2 et 3).

Toutes nos quatre facettes sont confirmées chez Sperberg-McQueen. Il reste à considérer lacorrespondance inverse : deux axiomes (le 5 et le 8) semblent oubliés de notre grille.

L’axiome 5 est l’occasion pour Sperberg-McQueen de souligner les effets de mise en page etde disposition matérielle des blocs de textes. Cela peut généralement être réintégré dans notredeuxième facette, nous l’illustrerons dans notre chapitre sur le codage des textes dans DECID. Les casextrêmes, de disposition élaborées (acrostiches complexes ou calligrammes) relèvent d’effetsrecherchés dans le domaine littéraire. L’autre incidence du support est celle de son altérationpossible : un passage illisible, un morceau manquant, une tache malencontreuse. Là encore, cettedimension, significative pour un corpus d’archives, ne paraît pas devoir être ajoutée à nos facettespour le contexte que nous nous sommes fixé50. L’axiome 5 déborde en quelque sorte notreproblématique, et serait à reconsidérer pour une adaptation des facettes à un contexte plus général.

En revanche, l’axiome 8 s’écarte des fondements de notre approche en soulignant ladimension référentielle ou dénotationnelle des textes. Notre perspective est de recourir à unesémantique différentielle. Considérons de plus près comment Sperberg-McQueen entend la chose.L’axiome 8 est celui qui fait l’objet du plus bref commentaire :

Because texts refer to things, wether real or fictive, we need to be able to mark the objectsreferred to in texts, e.g. place names and personal names. Such markup may be required for stylisticstudy (to distinguish Mr. Brown from the color brown) or historical study (to see who knew the Pastonfamily) or for subject indexing.

Les conséquences tirées de cet axiome, qui sont donc d’opérer un codage des « objets » dutexte, seront critiquées (et rejetées) à l’occasion de la réflexion sur le codage des textes pour DECID.En effet, ce codage, par son aspect autoritaire et tranché, va à l’encontre de la dimensioninterprétative. Quant à l’exemple sur la confusion Mr. Brown / couleur brown, il procède d’une visionsémasiologique et non contextuelle. L’axiome 8 est donc le seul point de désaccord véritable entre laproposition de Sperberg-McQueen et la nôtre.

Dans l’ensemble, nous estimons que les quatre facettes sont un guide plus clair, à garder àl’esprit lors de la construction de la modélisation, que la série des neuf axiomes.

L’utilisation des facettes dans le système DECIDDes affinités particulières se tissent entre les différentes facettes et les chapitres qui

présentent la réalisation du système DECID. Ainsi, la recherche d’un format de codage seral’occasion de revenir sur les structures d’organisation interne d’un texte. Le repérage et laconstruction d’unités mobilise des connaissances sur la langue. La mise en contraste d’un texte dansun corpus, et la confrontation de texte à texte renvoient de façon évidente à l’intertextualité. Et la

50 Le fait de ne pas prendre en compte ici la matérialité physique du texte est une approximation. Elle se légitimedans la mesure où, dans les pratiques professionnelles que nous considérons, les variations entre deux éditions(pagination, choix des caractères, etc.) ne sont généralement pas perçues comme significatives : il s’agit toujoursdu même texte.Nous avons pourtant rencontré des situations où cette approximation est mise en défaut. Un chercheur à qui l’onprésentait un document, en lui demandant d’expliciter les critères qui lui permettraient de savoir à qui le fairesuivre (soit donc une problématique de diffusion ciblée de l’information, précisément), disait avoir accordé uneimportance significative aux perforations dans la marge gauche. Cela lui permettait le raisonnement suivant : il ya des trous, donc c’est un feuillet destiné à être rangé dans un classeur, donc c’est une information de travail, quidoit régulièrement être mise à jour –pas un ouvrage de référence, faisant état d’une connaissance stabilisée. C’esttypiquement un document utilisé par une équipe dans la phase de réalisation d’un projet, et pas un document desynthèse qui pourrait intéresser un directeur. Une information sur l’aspect physique du document a donc étéutilisée pour avoir une première interprétation générale du document.

Page 28: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

154

réflexion sur la dimension interprétative et le rôle constitutif de la lecture trouve des prolongementsdans la définition d’une interface, accompagnant l’interaction de l’utilisateur avec les textes.

Mais si l’une ou l’autre facette est plus en évidence selon un certain point de vue, les facettesrestantes n’en restent pas moins présentes. Par exemple, l’idée même de construction des unités estune idée interprétative (facette 4), et sa mise en œuvre prendra appui sur des zones de localitédessinées par la structuration interne du texte (facette 3). Et la caractérisation d’un texte repose sur sadescription externe (facette 2), mais aussi interne (facette 2).

Ces quatre facettes vont donc être tour à tour activement mobilisées dans la conception dusystème DECID. Cela montre la cohérence et l’efficacité que nous avons trouvées à ce résumé desdimensions textuelles, dans notre contexte. Cette synthèse ne prétend à aucun statut théorique, encoremoins à l’universalité. Elle est dédiée à guider des réalisations pratiques, concernant des documentsécrits. Elle trouverait toute sa justification en se révélant utile pour d’autres applications, dans cedomaine des systèmes documentaires : elle y servirait de repère pour l’introduction équilibrée d’unevision textuelle.

b) La langue comme matériau du texteUne partition musicale transcrivant une symphonie, (i) a une structure interne, close et

orientée, ligne mélodique et déploiement du contrepoint ; (ii) est en rapport de reprise et d’oppositionavec d’autres œuvres, notamment celles de la même forme musicale, du même compositeur ou de lamême période ; (iii) et est actualisée dans une interprétation musicale, qui lui donne sens. Mais nousn’y reconnaissons pas un texte (sinon par métaphore) : son matériau est la gamme et le systèmerythmique, alors que le texte se forge dans la langue.51

Langue naturelle, langage formelUne langue n’est pas assimilable à un langage formel.La langue présente des régularités, qui servent assurément de point d’appui pour

l’interprétation : capacité à donner sens à un énoncé encore jamais rencontré, à un néologisme. Cesrégularités jouent aussi un rôle pour réduire la charge cognitive liée au langage : elles permettent de« factoriser » des connaissances.

Certaines régularités peuvent s’apparenter à des lois, elles sont tellement intégrées à la langueet objectivées que le locuteur n’a plus de prise dessus. Mais ces lois (ou normes fortes) ne sont pasdes lois logiques, et la langue ne se laisse pas décrire par une mécanique formelle qui détermine cequi est dicible et ce qui ne l’est pas, et qui régisse le sens en termes de calcul. En effet, rien ne peutempêcher de parler ou d’écrire à sa guise ; et même plus : l’activité interprétative est irrépressible, onne peut s’empêcher de comprendre « quelque chose » à ce que l’on entend ou lit52.

51 L’exemple peut être retourné, et d’autres préféreront au contraire une définition du texte qui s’étende à l’œuvremusicale comme à d’autres expressions dans d’autres registres sémiotiques (Barthes 1973). Etablir la réalisationdans une langue comme une caractéristique définitoire du texte est un choix, ici voulu, mais qui ne prétend pasl’invalidité d’autres conceptions (qui ont leur pertinence pour un autre point de vue).52 Ce que l’on désigne comme le « caractère compulsif de l’interprétation sémantique ». (Rastier 1991, §VIII.2,p. 212) poursuit : « Les linguistes ont beau faire, on sait que les phrases réputées absurdes, voire asémantiquespeuvent toujours être interprétées : cela reflète sans doute un processus hautement complexe, comprenant deshypothèses sur un émetteur et une situation de communication fictive, des processus de « réécriture »interprétative (création d’acceptions figurées ou idiomatiques). Mais en deçà, ces opérations ne sont possiblesque sur la base des simulacres associés aux lexies. Même des non-mots suscitent de tels simulacres, pour peu queleur formation respecte les règles morpho-phonologiques de la langue : c’est pourquoi on peut lire Finnegan’sWake même dans les passages où aucun des mots ne figure au dictionnaire. [...]Bref, pour simplifier, de la même façon qu’on ne peut s’empêcher d’entendre, on ne peut s’empêcher decomprendre. (Note : C’est là une allégorie du péché originel, ou de moins de la condition humaine : nous sommescondamnés au sens.) »

Page 29: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

155

Problèmes d’ontologies - l’autonomie de la linguistiqueIl faut également souligner l’irréductibilité de la sémantique (linguistique) tant à un ensemble

de référents identifiables dans le monde réel, qu’à des abstractions conceptuelles qui appartiendraientà un monde des idées, voire à des universaux de pensée. Ceci conduit à abandonner les conceptionsréférentielle et inférentielle de la linguistique, au profit d’une approche différentielle. Seul ce cadrefait place à la diversité fondamentale des langues –telle qu’il n’est jamais d’identité de sens entre uneexpression dans une langue et le meilleur équivalent que l’on puisse trouver dans une autre53– et à lapluralité des ontologies54. D’ailleurs, loin d’être soumise à la simple explicitation d’une réalité externeuniverselle, univoque et prédéterminée, bref à une distribution d’étiquettes, la langue modèle la visiondu monde que se construit un locuteur55.

Il en va également ainsi des jargons professionnels, ou du langage commun (sociolecte) qui acours à l’intérieur d’une entreprise56.

Que le lecteur ne nous en veuille pas pour le plaisir que nous avons à rappeler ici ces proposde Bergson –et pour notre incapacité à les raccourcir...57– :

Quel est l’objet de l’art ? Si la réalité venait frapper directement nos sens et notre conscience, sinous pouvions entrer en communication immédiate avec les choses et avec nous-mêmes, je crois bienque l’art serait inutile, ou plutôt que nous serions tous artistes, car notre âme vibrerait continuellementà l’unisson de la nature. Nos yeux, aidés de notre mémoire, découperaient dans l’espace et fixeraientdans le temps des tableaux inimitables. Notre regard saisirait au passage, sculptés dans le marbrevivant du corps humain, des fragments de statue aussi beaux que ceux de la statuaire antique. Nousentendrions chanter au fond de nos âmes, comme une mélodie quelquefois gaie, plus souvent plaintive,toujours originale la mélodie ininterrompue de notre vie intérieure. Tout cela est autour de nous, toutcela est en nous, et pourtant rien de tout cela n’est perçu par nous distinctement. Entre la nature etnous, que dis-je ? entre nous et notre propre conscience, un voile s’interpose, voile épais pour lecommun des hommes, voile léger, presque transparent pour l’artiste et le poète.

Quelle fée a tissé ce voile ? Fut-ce par malice ou par amitié ? Il fallait vivre et la vie exigeait quenous appréhendions les choses dans le rapport qu’elles ont avec nos besoins. Vivre consiste à agir.

53 Ce travail de translation (Rastier 1995b) fait le caractère éminemment humain et interprétatif de la traduction.Le traducteur (et interprète) est sans cesse tenue d’adopter un point de vue, fût-il par fidélité à la formulationd’origine (sourcier) ou à l’effet de sens obtenu (cibliste) (Ladmiral 1986).54 Une ontologie est l’ensemble des entités que l’on perçoit et discerne, et la manière dont on les organise.L’ontologie d’un animal se centre par exemple sur ses prédateurs, ses proies, et ses congénères. L’ontologie d’unexpert dans un domaine est évidemment plus détaillée que celle du quidam dans ce même domaine. Face à unsalon meublé, la femme de ménage distinguera d’abord les meubles sous lesquels passer le balais, les meubles àcirer, etc. alors que l’ébéniste pourrait percevoir surtout les différences de styles, les piqûres de vers récentes, etc.et le déménageur sera sensible aux volumes et aux fragilités.55 Telle langue nordique déclinera toute une gamme de vocabulaire pour qualifier les différents états de la neige,là où le français courant ne proposera que de trois ou quatre adjectifs. De même, le spectre des couleurs n’est pasdécoupé de la même manière dans toutes les langues (Hjelmslev 1968, §13, p. 71 sq.).« Si chaque langue est une vision spécifique du monde, les relations internationales ont la lourde tâched’« ajuster » non pas des langues, par un simple transvasement de contenu des unes dans les autres, mais bien desconceptualisations différentes, des manières de voir qui souvent ne sont même pas perçues comme telles. [...]On peut dire que chaque langue est un prisme à travers lequel ses usagers sont contraints de voir le monde. Ceprisme ordonne le monde et l’expérience en catégories qui les rendent pensables. » (de Almeida, Bellamy,Kassai, pp. 51 et 61)56 « La vie en entreprise peut fournir un langage commun qui fonctionne par allusion au vécu collectif. C’est lelangage élaboré à partir de l’expérience commune en entreprise, et par exemple véhiculé par ses publicationsinternes. Ce sociolecte, qui permet la connivence, est donc facteur d’une communication plus économique et plusefficace sur le lieu de travail.[...] le ‘jargon’ professionnel [...] se justifie par le besoin des professionnels d’affiner leur vision et leurstechniques.Cependant, il n’est pas moins vrai que les langages professionnels [...] ont une fonction distinctive, voiredémarcative. Ainsi, l’emploi de certains termes s’explique aussi bien par le besoin de se distinguer de ceux qui nefont pas partie de la profession que par celui de souligner l’appartenance au groupe. »(de Almeida, bellamy, Kassai, pp. 62 et 89)57 C’est un texte qui a joué un rôle précurseur dans mon attrait pour la linguistique.

Page 30: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

156

Vivre c’est n’accepter des objets que l’impression utile pour y répondre par des actions appropriées :les autres impressions doivent s’obscurcir ou ne nous arriver que confusément. Je regarde et je croisvoir, j’écoute et je crois entendre, je m’étudie et je crois lire dans le fond de mon cœur. Mais ce que jevois et ce que j’entends du monde extérieur, c’est simplement ce que mes sens en extraient pouréclairer ma conduite ; ce que je connais de moi-même, c’est ce qui affleure à la surface, qui prend partà l’action. Mes sens et ma conscience ne me livrent donc de la réalité qu’une simplification pratique.Dans la vision qu’ils me donnent des choses et de moi-même, les différences inutiles à l’homme sonteffacées, les ressemblances utiles à l’homme sont accentuées, des routes me sont tracées à l’avance oùmon action s’engagera. Ces routes sont celles où l’humanité toute entière a passé avant moi. Leschoses ont été classées en vue du parti que j’en pourrai tirer. Et c’est cette classification que j’aperçoisbeaucoup plus que le contour et la forme des choses [...]. L’individualité des choses et des êtres nouséchappe toutes les fois qu’il ne nous est pas matériellement utile de les apercevoir. Et là même où nousla remarquons (comme lorsque nous distinguons un homme d’un autre homme), ce n’est pasl’individualité même que notre œil saisit, c’est-à-dire une harmonie tout à fait originale des formes etdes couleurs, mas seulement un ou deux traits qui faciliteront la reconnaissance pratique.

Enfin pour tout dire, nous ne voyons pas les choses mêmes ; nous nous bornons, le plus souventà lire des étiquettes collées sur elles. Cette tendance, issue du besoin, s’est encore accentuée sousl’effet du langage. Car les mots (à l’exception des noms propres) désignent des genres. Le mot, qui nenote de la chose que sa fonction la plus commune et son aspect banal, s’insinue entre elle et nous, et enmasquerait la forme à nos yeux si cette forme ne se dissimulait déjà derrière les besoins qui ont créé lemot lui-même. Et ce ne sont pas seulement les objets extérieurs, ce sont aussi nos propres états d’âmequi se dérobent à nous dans ce qu’ils ont d’intime, de personnel, d’originalement vécu. Quand nouséprouvons de l’amour ou de la haine, quand nous nous sentons joyeux ou tristes, est-ce bien notresentiment lui-même qui arrive à notre conscience avec les mille nuances fugitives et les millerésonances profondes qui en font quelque chose d’absolument nôtre ? Nous serions alors tousromanciers, tous poètes, tous musiciens. Mais le plus souvent nous n’apercevons de notre état d’âmeque son déploiement extérieur. Nous ne saisissons de nos sentiments que leur aspect impersonnel,celui que le langage a pu noter une fois pour toutes parce qu’il est à peu près le même, dans les mêmesconditions, pour tous les hommes. Ainsi, jusque dans notre propre individu, l’individualité nouséchappe. Nous nous mouvons parmi des généralités et des symboles [...]. Nous vivons dans une zonemitoyenne entre les choses et nous, extérieurement aux choses, extérieurement aussi à nous-mêmes.

(Bergson 1900, §III.1)Heureusement, la langue n’est pas enfermée et figée dans ses mots.58 Et pour poursuivre le

propos de Bergson, un texte peut être reçu telle une œuvre –ciselée par son auteur–, et le lecteur, sefaisant interprète, est créateur de sens.

Du débat sur le rapport entre la langue et la pensée, retenons le caractère irréductible de l’uneà de l’autre, et leur relativité culturelle.

Il est de la nature du langage de prêter à deux illusions en sens opposé. Etant assimilable,consistant en un nombre toujours limité d’éléments, la langue donne l’impression de n’être qu’un destruchements possibles de la pensée, celle-ci, libre, autarcique, individuelle, employant la languecomme son instrument. En fait, essaie-t-on d’atteindre les cadres propres de la pensée, on ne ressaisitque les catégories de la langue. L’autre illusion est à l’inverse. Le fait que la langue est un ensembleordonné, qu’elle révèle un plan, incite à chercher dans le système formel de la langue le décalque

58 Quant à la critique linguistique de ce passage de Bergson, elle pourrait reprocher deux détails (?) : (i) il n’y apas la langue de l’humanité, mais une diversité de langues, irréductibles les unes aux autres, ancrées dans uneculture et modelées par l’histoire d’une société ; (ii) les « choses » ne préexistent pas indépendamment, leuridentification et leur délimitation sont déjà un acte interprétatif.Et l’accent mis sur un façonnement de la langue utilitariste mériterait discussion :« Il faut affirmer nettement que le signe-outil s’oppose au véritable symbole, tout comme au signifiantlinguistique. La pression de l’utilité, si elle était constante, empêcherait tout simplement l’apparition d’unfonctionnement linguistique ou symbolique, qui repose précisément sur la mise à distance de l’utilité [...]. Voilàpourquoi les scénarios utilitaristes de l’origine du langage ne sont pas crédibles [...]. Et s’il y a bien un intérêt del’humain pour le langage, il faut reconnaître qu’il est d’abord d’un autre ordre. [...] [Cet intérêt] s’apparent-t-il audésir de classer, bricoler et cuisiner des mondes symboliques –soit à une façon d’aménager, d’habiter, deconcilier le soi, le monde, les autres ? ou bien est-ce d’emblée la constitution du désir comme poursuite d’unenjeu, retracée par une intrigue certes finie, mais qu’il faut toujours recommencer (ce désir serait toujours celuid’une autre suite, d’une autre fin) ? » (Visetti 1999, p. 147)

Page 31: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

157

d’une « logique » qui serait inhérente à l’esprit, donc extérieure et antérieure à la langue. En fait, on neconstruit ainsi que des naïvetés ou des tautologies. (Benveniste 1966, §6, p. 73)

Nous nous en tenons [...] à cette position mesurée : les signifiés des langues et les représentationsmentales sont les uns comme les autres des formations culturelles. Ils ne se confondent pas et seconditionnent mutuellement. Cependant leur unité est telle qu’une position dualiste qui admettrait unedétermination unilatérale du signifié à la représentation, ou la détermination inverse, ne permettrait pasde saisir la complexité de leurs interrelations. (Rastier 1991, §III.4, p. 96)

La langue n’est ni un décalque du monde et de la réalité perceptible, ni une projection descatégories de la pensée et des concepts mentaux. Mais elle tient un rôle médiateur entre ces deuxpôles.

le rôle médiateur du monde sémiotique [entre le monde physique et le monde desreprésentations] [...] tient à la double nature des signes [...], qui relèvent du physique par leurssignifiants, et qui peuvent être associés à des représentations mentales par les signifiés qu’on leurattribue, directement ou non.

Ce rôle s’entend de deux façons, puisque le biologique est inclus dans le physique. Relativementau physique (au sens très restreint de l’objectivité perçue), le sémiotique est le médiateur entre les« états de choses » et leurs représentations. En d’autres termes, le face-à-face millénaire et figé quioppose le sujet à l’objet devrait s’effacer avec le dualisme dont il procède : car on ne passe pasdirectement d’une objectivité physique à une représentation subjective. [...]

Touchant la médiation entre le représentationnel et le biologique, nous formulons l’hypothèseque le sémiotique constitue corrélativement l’instance médiatrice entre les états mentaux et les étatscérébraux –indépendamment du fait que les échanges sémiotiques structurent une part des tissuscérébraux.

(Rastier 1991, Epilogue, p. 243)

Le texte, objet linguistique, et l’objet de la linguistiqueC’est récemment que le texte a été reconnu comme l’objet réel de la linguistique, ou

autrement dit l’observable de la science étudiant la langue. Certaines théories linguistiques ont étébâties sur le mot, ou le plus souvent sur la phrase (ou énoncé, ou proposition). Affirmer que le texteest l’objet premier de la linguistique, c’est dire que les mots sont des unités non pas données et figées,mais construites à travers leurs usages en contexte. C’est également percevoir que la compréhensiond’un texte n’est pas simple affaire de juxtaposition ou de composition de phrases, et que la syntaxevoit son rôle relativisé.

Incidence pratique pour DECIDCes considérations liées à la nature linguistique du texte jouent un rôle fondamental dans la

conception de l’outil de caractérisation des textes développé ici, tout particulièrement pour ladéfinition d’unités élémentaires, descriptives et caractérisantes. Cela oriente la mise en œuvre desmoyens apportés par les outils de traitement automatique du langage naturel.

c) La construction interne du texte, sa clôture et son orientationCette facette reprend déjà ce qui a trait à la structure à la fois arborescente et orientée d’un

texte, telle qu’elle est présentée dans une table des matières, ainsi que ce qui a été dit sur laprogression. Soit donc deux axes qui ordonnent matériellement le texte : un axe « horizontal »,linéaire et séquentiel, et un axe « vertical », hiérarchique.

Avertissement : des propriétés situées, relativesLa définition et la pertinence de cette facette se conçoivent bien dans le domaine que nous

nous sommes fixé. Il s’agit bien de textes conçus sous une forme écrite, et destinés à être utilisés dansune activité de lecture. Le support d’un livre ou d’un ensemble de feuillets matérialise nettement etd’emblée son caractère clos et délimité, ce qui est peut-être moins évident d’une conversation, quipeut glisser d’une préoccupation à une autre, sans qu’il y ait au final le sentiment d’une unitéd’ensemble et d’une composition réfléchie. D’autre part, la structuration interne dont il est iciquestion est très présente et marquée dans les documents scientifiques et techniques, par oppositionpar exemple aux romans.

Page 32: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

158

La façon de concevoir et organiser un texte n’est pas indépendante de son support. La facetteque nous considérons ici est au tout premier plan concernée par les transformations du texte papier autexte électronique, du document imprimé à l’hypertexte. Sans s’arrêter aux modificationssuperficielles, il faut y percevoir des facteurs d’évolution qui influent sur les modes de pensée59. Lespages du Web n’ont des pages d’un livre que le nom : elles fragmentent le texte et rendent son contourplus diffus. Les liens hypertextes font éclater les rapports de proximité et de localité, et les repères duparcours linéaire se dérobent dans la mise en abyme des renvois illimités. Les grandes lignes que noustraçons pour décrire la facette de l’organisation interne du texte sont une base pour saisir descompositions porteuses de sens, mais aussi pour contraster les formes de mobilisation de cesstructures.

Dimension horizontaleLa linéarité orientée du texte non seulement souvent guide la lecture, mais joue un rôle

interprétatif. Par exemple, dans la plupart des genres, il est de convention qu’un élément simplementévoqué en un point du texte, mais a priori non connu du lectorat (personnage, notion plus technique,etc.), a été introduit dans les pages précédentes. Et le lecteur qui a pris la liberté d’entrer directementen un point du texte sait que ce qu’il lit peut avoir des liens de dépendance avec ce qui précède ets’appuyer dessus.

Cette logique cumulative est tempérée par des phénomènes de proximité. Le lecteur peutretenir davantage dans le détail ce qu’il vient de lire, et garder une idée plus synthétique des premièresparties. Il reste que, sur un support écrit, il y a toujours la possibilité latente de revenir au besoin surun passage et de réactualiser un moment de lecture antérieur, comme de prendre du temps pour mieuxmémoriser une partie du texte, –deux possibilités que n’offre pas la communication orale directe.

Le déroulement linéaire, ponctué par de multiples découpages (paragraphes, sections, etc.),crée des zones de localité. Ces zones ont un rôle de premier plan dans la construction et l’actualisationdes unités sémantiques : par leur proximité et leur mise en relation, des éléments se renforcent, sepropagent, d’autres sont virtualisés, inhibés. La dynamique interprétative est extrêmement sensible àces interactions à différentes échelles de contexte.

Ce découpage est le lieu d’introduction de dénombrements mnémoniques : numérotation d’unensemble de points, rythme qui équilibre l’ensemble du texte (par exemple : quatre parties, qui sedivisent en trois sections chacune).

Dimension verticaleL’organisation hiérarchique du texte est le plus souvent étiquetée par des intitulés (chapitres,

sections, etc.), qui, selon le genre, remplissent diverses fonctions : formulation synthétique du thème

59 Il y a là tout un programme de recherche, tel celui mené par Bruno BACHIMONT, qui étudie le passage de laraison graphique (écriture traditionnelle) à la raison computationnelle (dynamique apportée par le supportélectronique) :« La technique permet d’accroître et d’élargir les possibilités de donner un sens au monde en proposant desstructures d’appréhension nouvelles. Autrement dit, la technique permet de constituer de nouvelles catégoriesconceptuelles pour penser le monde, c’est-à-dire de constituer de nouvelles rationalités. On peut alors penser quechaque type de système technique sera constitutif d’un type particulier de rationalité. Ainsi, on parlera de raisongraphique pour les techniques d’écriture.L’écriture est un exemple paradigmatique du rôle constitutif de la technique dans la genèse des connaissances.(Goody 1979) a montré comment l’apparition de l’écriture dans une culture s’accompagne de l’émergence denouvelles catégories intellectuelles comme les listes, les tableaux, les formules. Ces structures conceptuelles sontdes artefacts de l’écriture. Ses traducteurs ont proposé le terme de ‘raison graphique’ pour désigner le type derationalité constituée par la technique de l’écriture.L’apparition de supports d’inscription dynamiques comme l’ordinateur renouvelle la technique de l’écriture. Sepose alors la question de savoir dans quelle mesure ces nouvelles techniques vont reconfigurer la géographie dusavoir et constituer des nouvelles structures conceptuelles. La ‘raison computationnelle’ correspond à larationalité constituée par les supports dynamiques et le but de la recherche entreprise ici est de la mettre enévidence et d’en préciser les caractéristiques. »(http://www.biomath.jussieu.fr/~bb/FullRecherches.htm, 20 octobre 1998)

Page 33: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

159

abordé dans la partie, effet d’accroche, repérage dans un plan-type, fonction de la partie (ex. :introduction, glossaire), etc. La constante est le rapport global posé entre l’intitulé et la partiecorrespondante. On peut aussi noter la convention générale d’antéposition : le titre ou l’intertitre estplacé avant le texte ou la partie à laquelle il est rattaché. D’où un effet d’annonce (qui joue sur lesanticipations du lecteur), et une manière d’accompagner le mouvement naturel de détermination dulocal par le global. En effet, la formulation synthétique du titre pose un cadre interprétatif préparantl’entrée dans le détail du texte.

Le texte forme un tout, il s’affiche comme une unité close, du moins autonome, et complète.D’où une définition du texte comme « unité linguistique de taille maximale, appréhendable dans uneperspective interne » (Bronckart & al. 1985, introduction à la première partie, p. 11). Il ne faut pas s’ytromper : que l’unité soit de taille maximale n’implique pas une grande étendue (au plansyntagmatique), la taille maximale signifie simplement qu’on ne se le représente pas comme un extraitmais comme un tout. Le texte n’est pas créé par le nombre de pages ni celui de phrases. Un panneauqui indique Danger ou Interdiction de fumer est déjà un texte. Nous rejoignons pleinement Todorovquand il écrit :

La notion de texte ne se situe pas sur le même plan que celle de phrase (ou de proposition,syntagme, etc.) ; en ce sens, le texte doit être distingué du paragraphe, unité typographique deplusieurs phrases. Le texte peut coïncider avec une phrase comme avec un livre entier ; il se définitpar son autonomie et par sa clôture (Ducrot, Todorov 1972, § Texte)

Formant ainsi une entité, le texte a un nom, qui permet de l’évoquer, de le citer : son titre.Le texte n’est pas censé faire appel à des éléments extérieurs à lui et non conventionnellement

connus du lectorat auquel il s’adresse (autonomie). Il peut bien sûr, au fil de l’exposé, renvoyerexplicitement à d’autres textes, mais en termes de complément, pas de passage obligé pour poursuivrela lecture commencée. Le texte porte donc en lui-même tout le nécessaire pour construire un universqu’il invite le lecteur à parcourir.

Définir le texte comme un tout c’est aussi lui supposer une certaine homogénéité, unecohérence d’ensemble. Un document qui rassemble plusieurs composants disparates sera plutôtprésenté comme un recueil de textes (textes au pluriel), tout en considérant que l’acte de les avoirréunis dans un même document laisse présumer une cohérence d’ensemble.

Le fait que le texte soit à la fois une structure close et orientée lui confère des extrémités, quisont autant de passages particuliers. Selon l’axe horizontal, ce sont le début et la fin, soientnotamment, au palier du texte, toutes les pièces liminaires et annexes qui bordent le développementcentral. Le rôle singulier du début et de la fin peut encore se retrouver au niveau de chaque partie(délimitée comme un texte dans le texte), voire au palier du paragraphe60. A la zone de début sontassociées les présentations générales, le contexte introductif ; à celle de fin, les reprises synthétiqueset conclusives, et éventuellement l’annonce du début suivant, une transition.

Des considérations générales à la réalisation concrèteCette présentation a incontestablement un caractère naïf et, prise à la lettre, se heurterait à de

nombreux contre-exemples. Ce qu’il convient d’en retenir, ce sont les points d’attention qu’ellepropose. Dans un contexte applicatif donné, pour un corpus particulier, ce sont autant d’aspects quipeuvent jouer un rôle particulier dans l’analyse : dans les textes que je considère, qu’induit la linéarité(cf. la composante tactique chez F. Rastier), quelle place prend-elle dans la lecture et la constructionde l’interprétation ? et qu’en est-il de l’imbrication hiérarchique des parties ? et de leurs intitulés ? etdes zones de début et de fin ? etc.

Cette facette de la structuration interne du texte invite à voir l’impact de la mise en page etdes modes de lectures qu’elle soutient : découpage plus ou moins marqué, disposition, pointsd’accroche. Par exemple, le lecteur peut sauter certains passages, encouragé par une présentation quien annonce le caractère marginal, ou qui le présente comme un complément plus technique facultatifdans le cadre du texte, ou encore qui unit une série d’alternatives parmi lesquelles une seule estpertinente pour le lecteur et a été repérée. On relève dans le texte d’un document scientifique et

60 Dans ses analyses textuelles, (Dupuy 1993) accorde ainsi un « poids » particulier aux zones de début et de fin(première et dernière phrase du texte, début et fin des paragraphes).

Page 34: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

160

technique des éléments qui se distinguent et ressortent du reste, mais avec des statuts très différents :exemple61, résumé, atomes d’information (de type formules), éléments-clés de validation etd’évaluation (hypothèses explicitées, formulation de résultats), etc. Les références d’unebibliographie sont typiquement hétérogènes quant à leur signification.

D’une façon générale, l’organisation du texte met en relation tel et tel items, résume ousouligne une information centrale ; capter la teneur informative d’un texte, c’est bien repérer ce quiest présenté de façon à en être retenu (ce qui frappe l’attention, mobilise la mémoire).

Dans la conception d’un traitement automatique, tous ces points concernant la structurationinterne du texte interviennent dès le choix d’un format de codage des textes. Ils peuvent ensuite alorsentrer en ligne de compte pour l’étape de caractérisation des textes, qui prépare elle-même laprésentation d’un texte vis-à-vis des autres textes et pour l’utilisateur.

Pour les genres privilégiés, qui font l’objet d’une étude approfondie, la description de lastructuration interne peut être enrichie, notamment en ajoutant la caractérisation de partiesconventionnelles (que nous appelons « rubriques »), leur organisation entre elles, et leur compositionpropre. Dans le cas de DECID, ce travail a été lancé pour le corpus des descriptifs d’activité, utilisépour la constitution des profils de destinataires. Les efforts spécifiques pour ce corpus doiventcependant rester mesurés : ce corpus joue actuellement un rôle central, mais est amené à évoluer avecla politique de mise en œuvre de l’ordonnancement à la Direction des Etudes et Recherches d’EDF(les tendances actuelles sont : réduction du nombre de textes, modifications du plan-type, couvertureplus générale de chaque texte).

d) L’intertextualité

Une facette qui s’imposeUn document n’est jamais perçu isolément62. Il s’entoure d’autres textes : textes par rapport

auquel le rédacteur se positionne, textes que le lecteur utilise ou a rencontré dans la même pratique. Etplus généralement : textes que l’ouvrage côtoie sur l’étagère, textes présents à l’esprit ou prêts àrefaire surface du fond de la mémoire, textes dont l’analogie est plus ou moins « rationnelle » (durattachement au même sujet à la ressemblance de la couverture...).

Intertextualité et pertinencePerçu parmi une multitude d’autres textes, le texte reçoit une valeur relative, il prend sens par

rapport aux autres63. Il y a une « attente » intertextuelle du lecteur : tout texte semble devoir sejustifier par ce qu’il comporte de différent, de novateur, d’original par rapport aux autres, tout ens’inscrivant dans un existant et se calant sur des repères connus. Le texte respecte un canon, tout en

61 « Le rôle et la structure des exemples ne peuvent être décrits que par rapport au contexte dans lequel ilss’insèrent. En premier lieu, ils diffèrent selon les discours et les genres. Ainsi, dans le discours philosophique, ilsparaissent avoir un rôle de problématisation ; dans le discours scientifique, un rôle d’objectivation ; dans lediscours technique, un rôle de typification. » (Rastier, Cavazza, Abeillé 1994, §VII.7.2, p. 195)62 Et plus généralement, son contexte (autres textes, origine du document, situations de lecture prévues) contribuedirectement à lui donner sens (Poitou, Ballay, Saintive 1997, p. 12 sq.).Voir aussi (Thlivitis 1998), qui élargit la Sémantique Interprétative de François Rastier à une SémantiqueInterprétative Intertextuelle, notamment par une généralisation de ses structures de classes sémantiques(formation de classes de textes).63 La situation d’un document dans un ensemble de documents accessibles, dans un fonds qui a été rassemblé, estchargée de sens, et participe directement à la valeur qu’il reçoit : « Citons comme exemple le fait de savoir pourune lettre de réclamation d’un client qu’elle est isolée ou qu’elle fait partie d’une série de cinquante lettres dumême type, et si elle est isolée, qu’elle l’a toujours été ou qu’elle l’est aujourd’hui par suite de la destruction desautres ; le fait de savoir que ce compte rendu de séance d’une page est comparable à tous les autres comptesrendus de ce comité ou, au contraire, que c’est la seule séance qui a bénéficié d’un compte rendu, ou encore qued’ordinaire les comptes rendus font 20 pages ; le fait de savoir que tel projet de plan a été étudié et par qui, qu’ila été approuvé ou non, que le plan a été réalisé ou qu’il est resté sans suite. » (Chabin 1997)

Page 35: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

161

s’en démarquant, ce qui lui donne da raison d’être64. D’où deux formes de saillance, c’est-à-dire de« relief » des éléments du texte au fil de la lecture : la saillance de ce qui est très visiblement encommun avec d’autres textes (une citation), et la saillance de ce qui se démarque de l’expressioncommune (un terme particulier, une idée originale).

Enfin, la pertinence d’un document à traiter d’une question ne s’évalue pas tant comme uneadéquation du document en lui-même à cette question que comme prenant place dans une compositionéquilibrée de plusieurs documents complémentaires : si je vais rechercher de l’information sur unequestion dans un centre de documentation, il est vraisemblable que je reparte avec deux ou troisouvrages, par exemple l’un qui fait référence, l’autre plus d’actualité, le troisième qui apporte unpoint de vue original et stimulant sur mon sujet, sans qu’aucun des trois ne puisse être considérécomme meilleur que les autres.

Un document se situe non seulement par le sujet qu’il aborde, l’information ou les donnéesqu’il apporte, mais aussi par le point de vue adopté. Un même texte peut présenter plusieurs points devue, dont l’attribution est significative : ce qui est assumé par l’auteur, caution, éviction. Autrementdit, l’intertextualité ne se centre pas sur la seule composante thématique, généralement considérée viades statistiques distributionnelles de mots-clés. La composante dialogique aurait aussi un rôle destructuration intertextuelle, mais à un niveau plus fin, et demande par exemple la prise en compte desmodalités et de leur association avec les éléments thématiques. Les composantes thématique etdialogique interviennent de façon différente, étant donné qu’il est difficile de confronter desdocuments selon leur composante dialogique indépendamment de leur composante thématique, et detrouver un sens à cette confrontation. Ce qui se conçoit plutôt, c’est de consulter des documentsprésentant des positions contrastées au sein d’un même débat, tout en cherchant à cerner lesprincipaux pôles d’opposition.

Une communauté intertextuelle remarquable : le genreLes genres (ou types) textuels sont tout à fait concernés par la facette de l’intertextualité.

Chaque genre constitue lui-même un ensemble intertextuel, car tout texte renvoie implicitement auxtextes du même genre. Un document, écrit à l’intention d’une certaine utilisation, se rallie à un genre,en en adoptant les conventions plus ou moins codifiées. (Même pour s’en démarquer, il doit encoregarder un lien au genre visé.) Techniquement, réunir un corpus de documents d’un même genrepermet d’étudier les régularités et conventions du genre. Si ensuite l’on est amené à considérer desdocuments de genres différents, les caractéristiques d’un genre sont des paramètres particuliers, quel’on peut choisir de faire ressortir (le genre devient une dimension de contraste fort) ou au contraired’estomper (par exemple, on souhaite trouver des similarités thématiques, même entre des documentsde genres différents). En revanche, l’absence de caractérisation préalable des genres favorise desrapprochements inadéquats, telle formulation conventionnelle et banalisée dans un genre étantremotivée par rapprochement avec une expression relevant de la thématique d’un texte d’un autregenre.

La reconnaissance et la prise en compte des genres est une étape nécessaire dans la réalisationd’une application qui opère des calculs sur des textes65. L’étude et la caractérisation des genres 64 D’où le sentiment paradoxal, l’absurde latent –et même avoué–, dans la nouvelle de Jorge Luis BORGES, quiraconte la laborieuse réécriture littérale du Don Quichotte par un certain Ménard (recueil Fictions). Et pourtant,on y joue de la différence essentielle des deux œuvres, qui tient justement au contraste entre les contextes surlesquelles elles se profilent. Il nous faut donc compléter notre formule : le texte prend sens par rapport aux autres,mais aussi par les autres qui lui sont rapportés. Quant à Borges, il conclut : « Ménard (peut-être sans le vouloir) aenrichi l’art figé et rudimentaire de la lecture par une technique nouvelle : la technique de l’anachronismedélibéré et des attributions erronées. [...] Attribuer l’Imitation de Jésus-Christ à Louis-Ferdinand Céline ou àJames Joyce, n’est-ce pas renouveler suffisamment les minces conseils spirituels de cet ouvrage ? ».65 « La typologie des genres textuels paraît indispensable pour les traitements automatiques. Soit en général, carl’analyse des corpus en situation montre que le lexique, la morphosyntaxe, la manière dont se posent lesproblèmes sémantiques de l’ambiguïté et de l’implicite, tout cela varie avec les genres. [...] Soit en particulier, carles genres sont déterminés par des pratiques sociales spécifiques, dans lesquelles les applications informatiquesprennent place. Elles doivent donc tenir compte de ces contraintes propres à ces pratiques où elles s’insèrent. »(Rastier, Cavazza, Abeillé 1994, §VII.4.1)

Page 36: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

162

dominants attendus ne couvre cependant pas nécessairement tout le registre des textes effectivementsoumis au système, outre qu’elle suppose un investissement (temps et expertise) qui dépasse aisémentles moyens consentis. L’exigence de robustesse d’une application opérationnelle conduit à concevoirun fonctionnement acceptable malgré l’absence d’information de genre sur un texte.

Le corpus, esquisse matérielle de l’intertexteL’intertextualité conduit à la question du corpus, de sa constitution et de son étude.

Suffisamment large et représentatif66, le corpus constitue un univers de référence pour le traitement,un univers textuel67, qui permet déjà des caractérisations justifiées et significatives. Le corpus estexploré selon l’approche différentielle, mettant en valeur les ressemblances et les différences, ce quiest uniforme et ce qui est contrasté. Les études de statistiques lexicales et textuelles se penchent sur cedomaine.

Evoquer le corpus annonce déjà la facette suivante : l’association de textes est un acteherméneutique, c’est une clé de lecture.

e) Le rôle constitutif des lectures

Multiples déterminationsLe rapport du texte au(x) lecteur(s) est double : un texte est écrit pour des lecteurs, et prend

sens dans son appropriation par un lecteur.En étant destiné à un certain lectorat, le texte rejoint d’autres textes rentrant dans une même

pratique et adressés à la même communauté. En cela, la facette du texte comme objet de lecturesrejoint celle de l’intertextualité. Tout ce que l’on ajoutera ici, c’est que le concept de genre textuels’en trouve renforcé, puisqu’un genre est justement cet ensemble de textes rassemblés par une mêmepratique de lecture.

Un même texte se prête généralement à plusieurs types de lectures, qui sont autant de pointsde vue effectifs sur lui. Par exemple, face à un article scientifique, et de prime abord, le chercheurnovice peut être particulièrement sensible au titre, aux mots-clés ; l’expert du domaine voitimmédiatement l’auteur, la revue, et ‘décode’ la bibliographie. Qui plus est, l’objectif de lecture ne

66 Le corpus est toujours en deçà de l’intertextualité effective : qui saurait cerner même un seul des ensembles detextes, plus ou moins présents dans la mémoire d’un lecteur lorsqu’il se trouve face à un texte donné ?« The interpretive act by which we make sense of these presuppositions does not simply rely on receiving signsand recognizing their signifieds. Instead, we insert these signifiers into the network of discourses always alreadypresent but never fully elaborated during our reading of the text. Intertextual interpretation is therefore the surveyof a set of possible meanings that readers attempt to disentangle from a textthat is nothing more than fragmentsfrom countless other texts knitted together.Investigating a discursive space can never reach any sort of ultimate mapping. No database can be constructedthat would permit researchers to explore every discourse that resonates in a text, especially since cultural, social,and political discourses are not fully transcribed and machine-readable. Nevertheless, databases such as ARTFLenable us to explore intertextuality in ways that did not exist before computers. »(Wolff 1994)67 (Thlivitis 1998) défend l’idée qu’il est possible de rendre compte de toutes sortes de contextes, y compris descontextes « non linguistiques », par le biais de l’ajout de textes ; le texte étudié peut alors être pleinementconsidéré au sein d’un tel univers textuel, au sens le plus fort du terme :« Nous faisons une hypothèse principale pour la suite de ce travail, inspirés en partie d’un constat empirique :dans les analyses de textes il est toujours possible d’exprimer à l’aide d’un texte (e.g. commentaire, critiquelittéraire, exposé pédagogique d’une analyse littéraire) toutes sortes de connaissances utilisées pour l’analyse. [...]cette hypothèse ne supprime pas la nécessité d’un entour mais affime la possibilité de l’internaliser dans ununivers textuel. [...] [Nous présentons donc] la notion d’intertextualité, [...] de façon intuitive, comme un moyende ‘capter’ l’entour de manière textuelle. » (Thlivitis 1998, §1.1.3, pp. 17 & 19)Pour notre part, nous nous en tiendrons au fait que l’intertexte est un environnement significatif, sans statuer surson éventuelle complétude. Quant à la possibilité et la validité d’une description centrée sur le texte comme objetlinguistique, nous pensons qu’elles sont effectives, grâce à la notion de pôles intrinsèques du texte, cf. (Rastier1998).

Page 37: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

163

répond pas nécessairement au contrat de lecture, implicitement déclaré par l’appartenance à un genre :le texte prépare des lectures privilégiées, mais ne peut pas les déterminer entièrement.

Le texte ne prend sens et valeur que dans une lecture : c’est d’une certaine manière ce qui luidonne d’exister, d’être présent68. L’adjectif « constitutif » choisi pour désigner cette quatrième facettetextuelle garde toute sa force.

L’acte interprétatifLa question de la relation d’un lecteur à un texte est celle de l’interprétation. Nous

proposerons plus loin un point sur les diverses manières dont est entendue l’activité interprétative,point qui accuse la divergence de vues sur la question. Sans entrer dès à présent dans le débat, nousallons mentionner ici les principales propriétés que nous voulons retenir dans notre étude de latextualité.

L’interprétation a une dynamique, elle recherche et construit un sens fondé sur le texte etpertinent pour le lecteur. Le texte ne détient pas une signification pleine et unique qu’il s’agitd’extraire (un contenu, à tirer d’un contenant). Le lecteur aborde le texte avec des attentes (enfonction de la situation qui l’amène à rencontrer ou à remarquer ce texte) et des présomptions (decohérence, d’intérêt, de facilité / difficulté, etc.), qui déjà orientent sa manière de percevoir et deparcourir le texte, lui lecteur, à ce moment-là. Le texte prend un certain relief : points saillants, pointslatents (perçus mais non encore considérés) ; des points se font proches, d’autres se répondent tout ense contrastant. Ce parcours ‘inégalitaire’ laisse quelquefois des traces : marque-page, annotations,surlignages.

En un résumé imagé, le texte donne un ensemble de points de repères (des élémentslinguistiques, typographiques, un positionnement intertextuel, etc.) ; l’interprétation est un parcourscirculant parmi ces points de repères, où l’image de la circulation n’interdit ni une lecture linéaire,progressant régulièrement du début à la fin du texte, ni une lecture plus intermittente ou partielle, quiscrute, saute, revient, annote, etc. ; la pertinence enfin se définit par l’intégration des fruits de ceparcours dans l’univers personnel du lecteur, étant pertinent ce qui n’apparaît ni redondant ousuperflu dans cet univers, ni trop étranger et sans ralliement significatif.

Pas de texte sans lectureLe texte renvoie, étymologiquement et de façon suggestive, au textile, au tissage. L’image est

souvent reprise pour rappeler le croisement, en chaque point du texte, des axes syntagmatiques etparadigmatiques. Les vocabulaires ont quelques connivences : la trame du tissu, et la trame del’intrigue...

Le texte pourrait être aussi cette texture, dans l’entrelacs des mots de la langue et du vécu dulecteur. L’un apporterait la chaîne, l’autre la trame ; si bien que le texte sans le lecteur s’effiloche etperd toute consistance. Image qui rappelle aussi qu’il y a mille manière de passer la navette : quels filssont saisis, avec quelle alternance ; choix de couleurs, choix de matières. Chaque lecteur, en recevantle texte, s’y implique, pour l’investir de sens69.

Orientations pour DECIDIdentifier un texte à une représentation formelle particulière nie la dynamique de

l’interprétation –car toute lecture se construit, évolue, et c’est un processus fondamental pourl’appropriation d’une connaissance dans une communication écrite. Dans le cas de DECID, encaractérisant un point de vue d’un lecteur par son profil, puis en confrontant un profil et un document,l’enjeu est bien de rendre compte de la pluralité des lectures auxquelles se prête un même document(y compris un document technique).

68 (Adam 1990, Introduction §4, p.28) cite ainsi RUTTEN F. (1980) - « Sur les notions de texte et de lecture dansune théorie de la réception », Revue des sciences humaines, 177, Université de Lille III, p. 83 : « On ne lit pas untexte, il y a texte parce qu’il y a eu lecture ».69 La lecture peut en partie se matérialiser au sein du texte sous forme d’annotations. Pour une étude des actesannotatifs, voir (Virbel 1994).

Page 38: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

164

Au plan du traitement automatique envisagé, il est clair que la prise en compte de la facetteinterprétative du texte a de multiples incidences techniques, particulièrement pour tout le processus decaractérisation (filtrages et sélections, pondérations et évaluations, ajouts, réductions), comme pour laconception de l’interface, qui détermine les interactions possibles (lectures) entre l’utilisateur humainet les textes (texte soumis en requête, textes formant la base des profils, textes présentés en réponse).Les résultats issus du calcul prennent le statut d’une base suggestive, à partir de laquelle l’utilisateurconstruit lui-même la réponse qu’il recherche, plutôt que le statut de sortie du système (sortie danstous les sens du terme), sélection déterminée et a priori bonne sur laquelle il n’est pas prévu derevenir.

La discipline qui s’est penchée de longue date sur l’acte de lecture et d’interprétation estl’herméneutique : elle pourra être consultée comme guide. Moins intimidantes peut-être, la kyrielle deméthodes de lectures70 montre l’application de certains principes (herméneutiques sans doute, maisrendus familiers) à des textes et dans des pratiques rencontrés dans l’entreprise. La facetteinterprétative peut (doit) être prise en compte dès la description linguistique : la SémantiqueInterprétative de François Rastier fait le lien entre des unités linguistiques et une dynamiqueinterprétative.

f) Epilogue : résonances de l’image du texte comme tissuTISSAGE TEXTE

Le tissage n’est pas scindable, il est d’unseul tenant ; ses lisières sont bien définies, ellesfont même l’objet d’un traitement spécial (retourde la navette, point d’arrêt).

Le texte est pensé avec un début et unefin, avec des hypothèses et une conclusion, avecun tenant et un aboutissant, avec sa clôture, sonsujet ; il pose également son cadre.

Le tissu n’est pas tant la sommematérielle des fils que leur agencement étudié ;

La « forme » (le style, l’organisation desparties) n’a pas moins d’importance que le« fond » ; elle est généralement à son service pourmieux le révéler.

si bien que d’une certaine manière, l’air etle vide entre les croisées des fils réalisent aussi letissu (c’est indéniable qu’ils contribuentnotamment à sa souplesse, à ses propriétésthermiques, etc.).

La trame et la chaîne du tissu sontclassiquement associées respectivement aux axesparadigmatique et syntagmatique. Le texteemprunte sa forme au matériau linguistique, maisle sens n’apparaît qu’au détour des mots.

Il serait par conséquent délicat de définirle tissu uniquement par sa matérialité ; il estplutôt appréhendé pour sa fonctionnalité, touteliée à son étendue couvrante.

Aussi paraît-il vain de considérer le textecomme une série de caractères ; ce sont plutôt lespropriétés de l’objet de communication etd’expression humaine qu’il s’agit de repérer.

Le tissu joue des effets de motifs et detexture : ce sont des effets globaux bien que crééspar des contributions locales (insignifiantes àelles seules).

L’interprétation du texte se nourritd’informations locales et globales,simultanément : on ne peut avoir unecompréhension juste des unes sans uneconnaissance des autres et réciproquement(cf. l’isotopie)

(parallèle repris de (Bommier 1994a, p. 22))

70 Les manuels et formations de lecture rapide ne se comptent plus. Certaines méthodes de lecture se dotentd’acronymes mnémoniques comme SQL2R (Survoler, Questionner, Lire, Réfléchir / Raisonner, Répondre).

Page 39: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

165

C. TEXTES ET TRAITEMENTS AUTOMATIQUES : OBSERVATIONSQUANT AU STATUT DU TEXTE DANS LES PÔLES DE RECHERCHEACTUELS

1. Linguistique

a) Texte et lexiqueLa recherche et les réalisations en Traitement Automatique du Langage Naturel accordent une

place de plus en plus dominante au lexique. Les formalismes syntaxiques s’ancrent dans le lexique etl’investissent (LFG, TAG71). Le(s) crédit(s) accordé(s) à la constitution et à l’entretien des ressourceslexicales occupe(nt) une place dominante : l’éventail s’étend des ressources les plus « linguistiques »(dictionnaires) aux plus conceptuelles (thesaurus et autres ontologies), en passant par lesterminologies, les vocabulaires multilingues et les réseaux sémantiques (cf. le très grand succès deWordNet72). Dans ce cadre, le statut du texte apparaît ambivalent.

D’une part, le texte est opposé au terme, comme dans le parallèle suivant :

texte terme (terminologie)occurrence typesens (description/interprétation en contexte) signification (construction normative)linguistique (morphosyntaxique) conceptuel (ontologies)

Notons que cette opposition n’apparaît pas comme une opération d’exclusion, mais decomplémentarité (alternance de deux points de vue, distincts et compatibles). Cette perspective prête àse focaliser sur la problématique de la terminologie, sans confusion avec une autre problématique quiserait celle du texte.

D’autre part, sauf pour le cas de termes (vocabulaire conventionnel, technique, de spécialité)pris dans leur domaine, l’incidence de l’environnement d’un mot est nettement affirmée, selon l’idéeque le mot ne prend sens qu’en contexte73. Dans cette mouvance se situent des recherches sur lapolysémie, visant à expliciter les mécanismes permettant d’identifier « le » « bon » sens d’un mot. Lesguillemets précédents indiquent déjà notre hésitation : peut-on inventorier les sens d’un mot ?74 Peude linguistes se refuseraient pourtant à reconnaître l’aspect continu des effets de sens. En mettant lecontexte à l’honneur pour la désambiguïsation, c’est peut-être encore une fois aller à l’encontre de latextualité, puisque l’entour du mot n’est considéré que pour mieux l’isoler ensuite. Il s’agirait à 71 LFG : Lexical Functional Grammar, en français la grammaire Lexicale Fonctionnelle, conçue à la fin desannées soixante-dix par Joan BRESNAN et Ronald KAPLAN.TAG : Tree Adjoining Grammar, ou grammaire d’Arbres Adjoints. Lancée par A. JOSHI au milieu des annéessoixante-dix, elle est toujours l’objet de développements actifs, notamment autour d’Anne ABEILLÉ en France.L’ouvrage français de référence sur les formalismes syntaxiques actuels est :ABEILLÉ Anne (1993) - Les nouvelles syntaxes –Grammaires d’unification et analyse du français, ArmandColin, coll. Linguistique, 327 pages.72 On trouvera une présentation de WordNet dans (Habert, Nazarenko, Salem 1997, §III.4, p. 85 sq.).73 Dans la pratique, cependant, les contextes cités débordent rarement la phrase, il n’est donc pas du tout évidentque l’on s’intéresse directement à une dimension textuelle (une forme d’isotopie par exemple).74 Tout dépend aussi de la finesse recherchée (l’homographie n’est pas du même ordre que la pluralitéd’acceptions... Pour une description systématique, voir par exemple (Martin 1983, §II.II, pp. 75-95) ou (Pottier1987, §V.3)). En outre, avivé par une approche sémasiologique, le problème de l’ambiguïté peut souvent paraîtreartificiel à plusieurs égards : en convoquant parallèlement des sens complètement étrangers au contexte ducorpus ; en décrétant que l’auteur a priori ne recourt pas à ce mécanisme (alors qu’il peut être mobilisédélibérément, par jeu, par effet de style fondé sur la richesse sémantique du mot, pour éviter une prise de positionprécoce ou dangereuse...).Pour un argumentaire plus complet, dense et illustré, voir par exemple (Gayral 1998, §1.1).

Page 40: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

166

l’inverse de pouvoir faire le lien entre les occurrences et le référentiel terminologique préexistant,sans filtrer inconsidérément l’enrichissement sémantique émanant du contexte en présence (effets decooccurrence, saillance,...). En définitive, ces approches courent le risque de dévier vers une visonéclatée, morcelée, du texte. Les expériences de traitements inter-lingual sont là pour souligner leslimites des correspondances mot-à-mot, voire terme à terme.

b) Texte et phrasesSi le texte se construit dans l’enchaînement des phrases, alors les études sur l’anaphore, les

connecteurs, rejoignent les études sur la textualité (Fuchs & al. 1993, §8.1.1). Néanmoins, le textuelest d’une autre nature que le transphrastique : le texte ne se réduit pas à une suite de phrases, nimême à la composition d’éléments locaux75. Si macro-syntaxe il y a, le jeu des préfixes ne doit pasocculter qu’elle n’est pas dans la stricte continuité de la (méso- ?) syntaxe : en témoigne l’échecreconnu des « grammaires de discours » pour l’analyse des textes (Charolles 1988) (Vandendorpe1994) (Rastier, Cavazza, Abeillé 1994, §VII.2). Le niveau textuel ne saurait être totalement pris encharge par une extension directe des outils existants pour la morpho-syntaxe76, ce serait mésuser de

75 Un titre comme « Au-delà de la phrase » (article de Christos CLAIRIS dans Modèles Linguistiques, X (2),pp. 79-82) est symptomatique d’une linguistique qui souligne les limites de la phrase, qui déclare son intention desortir de ce cadre, mais qui ne peut s’empêcher de penser en termes de phrases (cette fois-ci au pluriel), sansbasculer dans l’univers d’une autre nature qu’est le texte. Même difficulté pour Gérard SABAH (introduction à lapartie consacrée à la Structuration du discours, cf. extrait ci-dessous) et, dans une moindre mesure, pourCatherine FUCHS et Bernard VICTORRI (Fuchs & al. 1993, chapitre Compréhension automatique de textes) :l’adoption de la conception phrastique dans ces ouvrages de synthèse est à la fois symptôme et vecteur de sonretentissement dans la communauté du Traitement Automatique du Langage Naturel. Sans compromettre lapossibilité d’une sémantique unifiée, il faut réaffirmer que le palier de la phrase et le palier du texte sontirréductibles l’un à l’autre.« Les recherches sur les langues se sont longtemps concentrées sur l’étude de la structure et du sens de phrasesisolées. Cette étape est bien sûr nécessaire pour traiter du discours, mais il faut également préciser comment cescontenus se combinent pour former des ensembles plus importants : après avoir construit des représentationsinternes des diverses phrases, on doit les intégrer dans une structure qui dépasse le niveau de la phrase etreprésente une compréhension à un niveau plus global, montrant qu’un discours est plus qu’une simplesuccession de phrases. Il s’agit donc principalement de mettre en évidence l’unité d’un texte ou d’un dialogue, eneffectuant des raisonnements permettant de découvrir les liens qui existent entre les différents éléments qui lecomposent. De ce point de vue, il est clair qu’une approche purement linguistique ne peut construire le sensglobal d’un texte qu’à partir de ses constituants et de la déclaration explicite des relations qui existent entreeux. » (Sabah 1989, introduction à la deuxième partie, p. 187).76 « Au cours des trois dernières décennies, le texte s’est de plus en plus affirmé comme objet d’étude autonometout en résistant aux diverses tentatives de formalisation qu’on a tenté de lui appliquer. Parmi les pistesempruntées par la recherche, deux grandes orientations se sont partagé les faveurs. L’une se concentre surl’organisation de la signification et s’intéresse au niveau profond du texte en étudiant son articulationparadigmatique : c’est la sémiotique. L’autre, s’inscrivant dans la ligne des études sur la phrase, a d’abordprivilégié l’axe syntagmatique pour tenter de déboucher sur une linguistique transphrastique.[...] Comme le note de Beaugrande [DE BEAUGRANDE Robert (1990) - « Text linguistics through the years »,Text, 10 (1/2), pp. 9-17], une telle ambition reposait sur l’hypothèse fondamentale qu’il n’y avait entre la phraseet le texte que des différences d’ordre quantitatif dont on pourrait ultimement rendre compte en renforçant lessystèmes de règles. C’était ignorer radicalement, comme le note le même auteur, que ‘ce qui fait qu’un texte estun texte n’est pas sa grammaticalité mais sa textualité’ (p. 11). Plus globalement, on pourrait aussi reprocher àcette approche de n’avoir pas perçu que, du système phonologique au texte, en passant par la morphologie et lasyntaxe, l’emprise des contraintes diminue progressivement, pour faire place à une liberté croissante à mesurequ’on monte dans la hiérarchie des composantes du langage. Comme je l’ai montré ailleurs, la ‘grammaire derécit’ n’a pu s’établir qu’en occultant cette spécificité du texte, et en effectuant sur son corpus des opérations desélection et de réécriture garantes des ‘découvertes’ qu’on voulait y faire [VANDENDORPE Christian (1989) -Apprendre à lire des fables : une approche sémio-cognitive, Montréal, Le Préambule / Balzac, pp. 87-98]. »(Vandendorpe 1994, pp. 331-332).

Page 41: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

167

ceux-ci. Le risque ici serait de miser sur un opportunisme de mauvais aloi, orienté par les moyens audétriment des buts77.

Les modélisations du texte (Sabah 1988, 1989), quand elles procèdent par instanciationdynamique d’une représentation statique, en intégrant les résultats de l’analyse successive des phrasesune à une, n’accèdent pas à la dimension globale du texte. Ainsi, la DRT78, avec ses représentationscumulatives, s’écarte indéniablement des représentations suscitées par une lecture humaine (visionsynthétique plutôt qu’exhaustive et littérale, par exemple, ne serait-ce que pour des considérations demémoire).79

Alors que la phrase (ou la proposition) reste traditionnellement au centre de nombre detravaux linguistiques (cf. le choix des exemples de travail), le texte se fait peu à peu reconnaîtrecomme l’objet réel de la linguistique (Rastier 1993c)80. Mais peu de systèmes implémentésconsidèrent ces questions de textualité81. Sans doute sont-elles hors de propos pour certaines finalités 77 Dit de façon brutale, ce n’est pas parce que l’on sait faire certaines analyses au niveau de la phrase, qu’il seraitbon de les transposer au niveau du texte, sans s’inquiéter de leur utilité ni de leur validité.78 Discourse Representation Theory, élaborée par H. KAMP.« Kamp (84) se propose de construire une représentation dynamique des divers éléments du discours constituéed’espaces imbriqués ou indépendants. Cette représentation (appelée structure de représentation discursive) estconstruite progressivement : une phrase nouvelle du discours est intégrée dans la représentation existante etprovoque l’expansion de la représentation discursive. Un « espace » est construit pour représenter une phrase ; ilcontient la mention des éléments qui interviennent dans cette phrase et les relations que la phrase explicite entreces constantes. » (Sabah 1988, §10.3.2.1)Le modèle repose sur des principes compositionnels, et une sémantique dénotationnelle : les objets sont identifiéspar des constantes et variables formelles, leurs relations codées par des fonctions (prédicats logiques). Toutel’attention est focalisée sur la description des phénomènes de portée (matérialisée par des espaces, cadrant ce quiest « accessible » ou non, et représentés par des boîtes), dans la phrase (quantificateurs) ou d’une phrase à l’autre(anaphores).« Une nouvelle phrase du discours provoquera la création d’un espace englobant l’espace ancien et construit defaçon analogue. Les relations ensemblistes entre les divers espaces construits permettent alors d’expliquer lesréférences possibles d’un élément à l’autre (anaphores). Outre les contraintes usuelles (genre, nombre,...) desrègles précisent les possibilités d’accès d’un espace à l’autre et un ordre de préférence dans le parcours desdiverses constantes, par exemple dans la recherche des antécédents des pronoms. » (Sabah 1988, §10.3.2.1)« Les deux formalismes ‘généralistes’ les plus utilisés pour analyser les textes [...] [sont] la théorie de lareprésentation du discours (DRT) de H. Kamp et [...] la théorie des graphes conceptuels de J. Sowa. En effet,l’ambition de ces deux formalismes, que nous avons présentés à propos de l’analyse sémantique de la phrase,dépassent largement ce cadre : l’une de leur principales qualités est justement de permettre de traiter desphénomènes inter-phrastiques comme l’anaphore, en se donnant les moyens de représenter des cadres deréférence qui permettent le calcul des co-références et, dans une certaine mesure, des relations spatio-temporelles. » (Fuchs & al. 1993, §8.2.3, p. 238)Mais, même sur le terrain de ses spécialités (donkey-sentences pour les quantificateurs, et anaphores), la théorien’est pas à l’abri des critiques (Bourigault 1990).79 Cette remarque porte sur l’utilisabilité des représentations construites du texte, et non directement sur leurmode de construction.80 Et l’intuition de (Hérault 1981), qui prévoit un module d’hyperanalyse dans son système :« notre unité d’analyse ne saurait être ni le mot, ni la phrase, mais [doit] englober de longues fractions du texte. »(Hérault 1981, p. 95)81 Voici le constat émis dans l’introduction d’un des principaux ouvrages de référence et de synthèse, en français,dans le domaine du Traitement Automatique du Langage Naturel :« Que signifie ‘comprendre le langage’ ? La réponse n’est pas claire pour l’homme, mais elle est encore pluscomplexe si l’on se demande comment montrer qu’un système automatique a compris. Les recherches se sontlongtemps limitées à la seule phrase or, il est clair que le contexte dans lequel une phrase apparaît doit être prisen compte et que le sens d’un texte n’est pas la simple juxtaposition du sens des phrases qui le composent. Lesdifférents niveaux de compréhension possibles montrent que les inférences (raisonnements) nécessaires peuventêtre très variés, allant de l’extraction du sens du texte à ses diverses interprétations possibles. De plus, on peutreconnaître des unités de sens dans des parties plus importantes : dialogues, descriptions de scènes, explications,récits, etc... Nous manquons encore de méthodes de représentation et d’analyse efficaces du sens de toutes cesunités, bien que des termes comme linguistique du discours ou linguistique du texte commencent à avoir droit decité. » (Sabah 1988, §1.1, p. 20)

Page 42: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

168

(ex.: analyse syntaxique pour elle-même). Surtout, elles soulèvent d’importantes difficultés sur le plande la faisabilité, car elles vont à l’encontre de l’architecture calculatoire des moyens informatiques etde son sémantisme sous-jacent82 : compositionnalité (Nazarenko 1998), conception d’unesignification fonctionnant par dénotation, décontextualisation83. Nonobstant, la linguistique n’a pas àêtre bridée par les contingences techniques : on peut viser à élaborer une théorie rationnelle du texte,quitte ensuite à l’appauvrir sciemment (en fonction du contexte applicatif), à l’approximer, dans unemodélisation formelle pour l’implémentation (Rastier, Cavazza, Abeillé 1994, §II.5, note)84.

c) Texte et statistiques sur corpusLa linguistique à base de corpus fait face aux problèmes d’échelle (Jacob 1994) : il s’agit de

réaliser une industrialisation robuste de systèmes de Traitement Automatique du Langage Naturel,d’acquérir automatiquement des informations (notamment linguistiques) sur un grand ensemble detextes à traiter. La magie de promesses formulées sur la base de quelques exemples ponctuelss’évanouit pour laisser place à plus de modestie85. Une conception booléenne des résultats décline :ici, pas de conclusion sur le registre du vrai /faux ou valide / invalide. Y a-t-il pour autant unregrettable compromis, mettant en balance robustesse (donc utilisabilité) et formalisation (garante derigueur) ? La lexicométrie, la construction d’indicateurs statistiques, l’application de l’analyse desdonnées, ont ouvert la voie d’une rationalité conférant la primauté à une vue d’ensemble, plus souple,et réintroduisant la tâche interprétative86.

L’approche à base de corpus est-elle une approche textuelle ? Cette perspective est en tout casfavorable à faire jouer l’intertextualité, les rapports qu’entretiennent les textes les uns par rapport auxautres ; souvent, aussi, le prétraitement du corpus (en faisant appel à des instruments de TraitementAutomatique du Langage Naturel classiques) s’efforce de respecter sa nature linguistique. Enfin, dansle soin apporté à la constitution d’un corpus homogène il y a déjà des considérations typologiques.Plusieurs des facettes que nous avons proposées sont donc présentes.

2. Autour de l’informatique

a) Texte et cognition (en Intelligence Artificielle)Dans la lignée de la tradition philosophique, se refusant à dissocier langage et pensée, la

linguistique est comptée dans les disciplines majeures des sciences cognitives, et le texte a pu êtreconsidéré comme manifestation directe de la compréhension87. Ce succès ne semble pas avoir profité

Cette formulation de la problématique reste tributaire d’une conception qui vise au calcul d’une représentation dusens d’un texte, par opposition à une conception plus herméneutique.82 « Les composantes sémantiques ne sont ni ordonnées ni hiérarchisées a priori. [...]Ces propriétés rompent avec le modularisme et la séquentialité qui ont dominé bien des théories linguistiques[...]. [Celles-ci décrivaient] l’action successive de modules autonomes déclenchés dans un ordre strict, la sortiedu premier devenant l’entrée du suivant, etc. Ainsi, ces modules n’interagissent pas en cours de traitement [note :Ces présupposés appartiennent au sens commun de l’Intelligence artificielle, et plus généralement del’informatique. Ils y sont nécessaires pour éviter l’explosion combinatoire et l’élaboration des algorithmes trèscomplexes qui régissent les processus parallèles.] » (Rastier 1989, §I.8.A)83 L’objectif de généralité et de portabilité ont pu aussi contribuer au succès de la syntaxe (et donc des analysesphrastiques), selon l’idée (fausse, cf. les études de corpus contrastant les genres) que le système grammatical estconstant à travers tous les usages de la langue, par opposition à la sémantique, jugée coûteuse car dépendante dudomaine d’application.84 Nous reprendrons ce débat dans le chapitre sur la définition des unités pour DECID.85 Ainsi, dans certains acronymes (TAO par ex.), le A glisse de « automatique » à « assisté(e) ».86 L’interprétation intervient ici aussi bien en amont du calcul, dans la définition du corpus, de son découpage enunités, qu’en aval, dans le commentaire éclairant les résultats chiffrés et leur usage.87 Notamment, en psychologie, la production d’un résumé a beaucoup servi de test de compréhension.

Page 43: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

169

à la notion de texte : ne voit-on pas le texte réduit à une production linguistique quelconque, elle-même imparfait véhicule de transmission d’information88 ?

Par exemple, le recours à un formalisme externe, pour la « représentation des connaissances »« extraites » d’un texte, pourrait89 s’interpréter comme une double négation de la textualité. Enpremier lieu, dissocier information (référentiel/objectif) et point de vue (énonciatif/subjectif), postulerl’indépendance du fond (à extraire) par rapport à la forme (à neutraliser), faire strictement la partentre syntaxe et sémantique, bref isoler une connaissance de son support et de sa manifestation,procèdent sans doute (à différents niveaux) d’un même mouvement qui demanderait légitimation90,puisque gommant l’ancrage sémiotique (linguistique, textuel) de l’objet91. En second lieu, déterminer« le » contenu d’un texte, c’est faire fi de sa dimension herméneutique92, à savoir du travailinterprétatif que suppose la construction et l’appropriation d’une connaissance. Car la connaissance(ou la signification) n’est pas immanente au texte. Dans la triade langage / cognition / interprétation(ou lire / savoir / comprendre), les membres entretiennent des rapports complexes et aucun n’estréductible aux autres.

Les Systèmes de Consultation de Documentation Technique, tels celui présenté par (Assadi1998), redonnent aux textes leur place. Il s’agit d'un hypertexte contenant quatre modes d'accès àl'information : une table des matières, une recherche en texte intégral et deux index, l'un représentantles concepts du domaine et l'autre les tâches de l'utilisateur. Chaque concept est relié à sesoccurrences93, et la construction même du réseau (l’ontologie régionale) est basée sur le corpus94. Lemodèle des tâches de l’utilisateur rend compte du contexte de consultation, par des ingénieurs ettechniciens dans le cadre d'une activité bien déterminée.

88 Ainsi, François RASTIER s’écarte d’une conception utilitariste du texte, et oppose, au paradigme (positiviste etréducteur) de la communication, où le langage est vu comme code, le paradigme de la transmission, rendantcompte de la « réélaboration interprétative » à l’œuvre dans le commentaire, la tradition, et la traduction. « Où lacommunication transmet le signifiant, la transmission communique le signifié, [...] non par un transportd’information, mais par création et recréation. » (Rastier 1995b, p.166).« A la conception instrumentale du langage qui prévaut notamment chez les cognitivistes orthodoxes, nousopposerons d’une part que la langue n’est pas un instrument, mais une condition historique a priori, un milieu.D’autre part, que si elle est certes utilisée pour communiquer, elle ne se réduit pas à cette fonction. Seul uninstrument est déterminé par sa fonction. » (Rastier 1991, §III.5, p. 102, note 1)89 Bien sûr, le traitement automatique supposera la mobilisation d’une modélisation. En revanche, l’excès icicondamné est de tenir la représentation construite à partir du texte comme équivalente, voire « supérieure » àcelui-ci ! Nous pensons que le texte et sa représentation sont incommensurables : la représentation perdnécessairement une part de la richesse du texte (par ex. autres interprétations possibles, euphonie, etc.), mais (sielle est conçue astucieusement) c’est pour mieux se prêter au traitement voulu en mettant en évidence leséléments requis.90 Des nuances seraient à introduire : ainsi, un document écrit d’information scientifique et technique a unevocation affichée de transmission de connaissances de travail, et vise à une relative autonomie par rapport àl’auteur (il est destiné au public le plus large, moyennant un certain niveau de connaissances).91 Avec de vertigineux corollaires : à la limite, si le texte doit être considéré comme un simple vecteur deconnaissances, l’étude du texte en tant que tel est-elle du ressort de la linguistique ?92 Bien qu’au cœur de la problématique de l’information retrieval, dont la conception très réductrice de lapertinence est dénoncée dans cette thèse, Gerard SALTON fait écho de cette critique dans la section qu’il consacreaux systèmes experts (Salton 1989, §11.4.2).93 Et même mieux : une relation ternaire, indécomposable, unit un (ou plusieurs, ou aucun) concept, un (ouplusieurs, ou aucun) texte, et une (ou plusieurs, ou aucune) expression (terme) (Assadi 1998, §1.4.2.1, p. 55 sq.,et §3.3.1, p. 156)94 La méthodologie, baptisée analyse conceptuelle interactive (ACI), adopte des principes issus de la sémantiquedifférentielle de François Rastier. L’ACI comporte deux phases : une phase d’amorçage, l’analysemacroscopique, et une phase itérative de raffinement, l’analyse microscopique (on trouvera une présentationsynthétique dans (Assadi 1996)). La partie interactive intègre pleinement la nécessaire intervention d’unecompétence interprétative, celle de l’expert humain.

Page 44: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

170

b) Texte et hypertexteLa définition d’une norme comme SGML95 pour la structuration des documents électroniques

a ouvert une réflexion sur les « fonctionalités » du document, les attentes du lecteur vis-à-vis desusages possibles. Pour ce qui concerne le texte, l’accent est mis sur son découpage et sa structuration.L’hypermédia invite aussi à caractériser la place spécifique du texte, et son degré (variable)d’autonomie, dans des documents faisant conjointement appel à d’autres registres sémiotiques :image, graphique, son.

Les applications (livre électronique, Internet), avec la matérialisation de liens entre lesdocuments, sont également l’occasion d’étudier les parcours de lecture. Il s’agit de trouver des modespertinents d’ancrage, de typage, de gestion des liens ; leur activation dans un processus de navigationmet au jour des problématiques de mémorisation et de repérage, au sein d’un texte et /ou d’unensemble de documents.

c) Texte et ergonomie des interfacesLa promotion du langage naturel, pour les interfaces homme-machine, va de pair avec le souci

de rejoindre le plus grand nombre d’utilisateurs dans leur pratique courante. Au delà de lareconnaissance frustre de mots-clef prédéfinis (filtres), le dialogue est apparu comme le centre despréoccupations. La généralisation et la réutilisabilité de résultats sur l’enchaînement des répliquesapparaissent d’autant plus délicates que le dialogue ne constitue pas (linguistiquement) un type detexte96, et que les régularités que l’on décèle doivent être attribuées au genre sous-jacent (à cerner et àcaractériser). Il n’est alors pas surprenant de voir liée la faisabilité et la réussite d’un système avec labonne délimitation d’un domaine fermé d’application, puisque ce sont justement les pratiques, dansleur cadre, qui induisent les genres.

L’utilisation d’un système informatique étant elle-même une pratique particulière, onremarque effectivement que le dialogue prend une tournure spéciale quand l’interlocuteur est unemachine (explicitation, style télégraphique, dépersonnalisation) (Fuchs & al. 1993, §10.1.3.1). Parailleurs, la motivation généreuse d’exotérisme cache peut-être une illusion démagogique (Rastier1991, §VI.4), à savoir que dans certains cas l’ergonomie réside moins dans une convivialité apparenteque dans l’usage d’un langage approprié, plus efficient97, et plus clair (car ne reportant pas le travaild’interprétation sur une machine dont on ne connaît avec précision les rouages internes).98

3. Systèmes documentaires et recherche d’information : le modèlevectoriel

a) Une approche tout naturellement textuelleDans les systèmes documentaires, ce qui est soumis au calcul, ce sont d’abord des textes :

texte d’un document, texte de la requête. D’où une sage heuristique : rien n’oblige à entrer dans des

95 Standard Generalized Markup Language, pour les formats d’échange entre documents électroniques.96 La conversation ne s’inscrit pas dans une typologie des textes. Si on voulait lui trouver une unité, ce seraitplutôt un type de structure « dialogique » (une séquence, au sens de (Adam 1992)), qui apparaît dans plusieursgenres.« Même les échanges linguistiques qui paraissent les plus spontanés sont réglés par les pratiques sociales danslesquelles ils prennent place, et relèvent donc d’un discours et d’un genre. La conversation, par exemple, n’estpas un genre ni un discours –malgré certains théoriciens de l’analyse conversationnelle. Nous disposons tous deplusieurs genres conversationnels, liés à des pratiques différentes, de l’entretien à la conversation de cantine, etdont chacun a ses spécificités. » (Rastier, Cavazza, Abeillé 1994, §VII.4.1)97 cf. d’ailleurs ce que nous observons sur les requêtes adressées à DECID : quand il n’a pas à sa disposition laforme électronique (fichier) qui lui permettrait de procéder par copier / coller, l’utilisateur préfère souvent taperquelques mots-clés, plutôt que de soumettre un texte dans son entier. L’influence des pratiques de recherchedocumentaire n’est pas non plus négligeable ici.98 L’utilisateur doit être un tant soit peu en intelligence avec les traitements effectués, dans leur principe : cf.B. BACHIMONT (1992) - Le contrôle dans les systèmes à base de connaissances, Hermès.

Page 45: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

171

considérations sur la signification des mots pris isolément. En cela, l’approche est résolumenttextuelle.

It is well known that most text words and expressions are highly ambiguous when considered outof context. On the other hand, principles are also at work that limit the potential for ambiguousinterpretation, at least in ordinary discourse and nonliterary writing. The need for writers and readersto communicate regularizes the language to some extent [...]. Consequently, much of the languageambiguity disappears in ordinary discourse when the wider linguistic, social, and temporal contexts aretaken into account.

The environment in which text units and complete texts are embedded also plays a major role inthe influential use theory of meaning proposed by Wittgenstein and others. The following quotation isreflective of this point of view (Wittgenstein 1953) :

« For a large class of cases –though not for all– in which we employ the word ‘meaning’ it can bedefined thus : the meaning of a word is its use in the language ».

The use theory seems especially appropriate in information retrieval in which the major concernis not with the intrinsic meaning of the words and text units in isolation but with the global meaning ofcomplete text entities. In the retrieval environment it is not normally necessary to assign specificsemantic interpretation to individual text words. Instead, it suffices to determine whether differenttexts –for example, a query text and the texts of stored documents– are close enough to be relatable,that is, whether text use and text environments are congruent.

In practice, it is not always easy to determine the precise purpose and social environment inwhich a given text is placed. It is, however, normally possible to study the linguistic context in whichthe words occur. [...] one assumes that word meanings are related when text words and expressionsappear in similar local contexts [...].

(Salton, Allan, Buckley 1994, pp. 98-99)

b) Et pourtant : l’oubli du texteLes conférences américaines comme TREC ou SIGIR ont centré l’attention sur les

performances des systèmes documentaires, performances mesurées comme une adéquation entre lesrésultats des calculs et une pertinence considérée comme donnée. Il s’agit pour le système d’être auplus près d’une collection de réponses préenregistrées, « pour telle requête, tel document est pertinent,tel autre ne l’est pas ».

Le travail de recherche se concentre alors sur l’ajustement de formules mathématiques, pourobtenir le meilleur accord avec les corpus d’association requête - document. La question de latextualité est bien souvent éludée : quelles propriétés du texte sont significatives pour l’application derecherche documentaire ? comment la modélisation choisie en rend-elle compte ? Tout ceci n’estévoqué qu’évasivement, et n’évolue pas beaucoup : fréquence comme indicateur d’importance,discriminance comme indicateur de significativité. En revanche, c’est la discussion de tout unbataillon de formules qui est exposé, pour conclure sur « la meilleure ». Le choix de l’introductiond’une certaine mesure, ou de l’utilisation de tel type de fonction, est justifié parce que « c’est ce quimarche le mieux », après tâtonnements expérimentaux : « voyez la courbe précision / rappel, elle estau-dessus de toutes les autres... » Bien que TREC se défende d’être une pure compétition de systèmes,pour être avant tout un lieu de débat scientifique sur les qualités et limites des différentes techniques,la discussion critique se situe davantage au niveau des heuristiques avantageuses, que de laconception du texte sous-jacente99.

En fait, la question du texte s’identifie ici très souvent au problème des « textes longs », dèsque l’on se harsarde à quitter les corpus fondateurs que sont les résumés des noticesbibliographiques100, les dépêches et les artciles de presse : nous allons voir ce qu’il en ressort dans cequi suit. 99 Notre analyse n’est pas isolée : « Du côté de la prise en compte des phénomènes linguistiques, les sciences del’information les envisagent souvent dans la perspective de l’interrogation, en termes de taux de rappel et deprécision. On cherche rarement des explications dans les textes sources. » (Bertrand-Gastaldy 1993)100 On peut défendre la pertinence de s’en tenir à un corpus de résumés, mais les arguments sont inégaux :« La performance [des] méthodes [mises au point dans ce travail] n’est envisagée ici que sur des corpus de textescondensés, à savoir des formes textuelles réduites dans lesquelles on s’attache à mettre en valeur les notions

Page 46: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

172

c) La normalisation homothétiqueSi le texte est représenté comme un ensemble de mots (éventuellement avec des

pondérations), la comparaison directe des ensembles est avantageuse pour les textes les plus longs :ils ont plus de mots, donc ont plus facilement des mots en communs avec d’autres textes.

Or bien sûr un texte long n’a pas nécessairement à « peser » plus lourd qu’un texte court.Chaque texte représente une unité, a priori tout aussi achevée et complète quelle que soit sa longueureffective. La parade la plus classique, pour rééquilibrer l’influence des différents textes, est lanormalisation : un texte long a beaucoup de mot, mais chaque mot en commun n’apporte qu’une petitecontribution à la ressemblance. Ce procédé ne donne pas entière satisfaction, car les textes de plus dequelques pages sont alors mal représentés : leur grand nombre de mots les pénalise.

Plus fondamentalement, un modèle fonctionnant par homothétie pour norm(alis)er tous lestextes du point de vue de leur longueur ignore les particularités stylistiques actives chez les uns et lesautres (impact ou évitement des répétitions, texte complet ou extrait,...). Si transformation il y a, pourpasser d’un texte court à un texte long, elle ne se laisse pas penser en termes de dilution, et le textelong n’est pas un texte court « gonflé ». La réduction homothétique est égalisante, au lieu d’être(s)élective. Elle fait disparaître les saillances locales (une notion importante, si elle n’est abordée quepassagèrement, est très vraisemblablement fortement dévaluée par la réduction). Elle maintient toutela diversité du vocabulaire du texte le plus long, au prix d’une dévaluation générale, d’uneminiaturisation artificielle et fragilisante.

d) L’échantillon

Le débutUne autre stratégie, rudimentaire et risquée (mais pratiquée par certains moteurs de recherche

du Web), consiste à ne considérer que le début des documents : on représente par exemple le texte parles 100 premiers mots rencontrés. La qualité d’une telle représentation peut être très variable selon letype de texte : les règles de rédaction pour les journaux (règle des W) ou les pages Web (la pages’affiche dans une fenêtre de hauteur limitée) voudraient qu’effectivement le tout début du texte soitun bon résumé ou donne une bonne idée de l’ensemble101, mais toute page Web ne se conforme pasnécessairement à ce principe d’ergonomie, et le monde des documents ne se limite pas aux articles etaux pages Web.

En fait, tout est affaire de nuance, entre simplification aveugle et heuristique bien pensée etmaîtrisée. Rejetable d’un point de vue général102, la stratégie de s’en tenir au début des textes peut se

essentielles, c’est-à-dire dans lesquelles le phénomène de répétition est lié à la volonté de mettre en valeur lestermes significatifs. Dans ce travail, cette performance n’est envisagée que sur des résumés d’articlesscientifiques et techniques (résumés de publications et de brevets) disponibles directement via l’accès à unserveur de bases et banques de données. En effet sur les serveurs, les documents circulent sous une forme ‘titre etrésumé’, les techniques développées trouvant ainsi un vaste champ d’application. » (Chartron 1988, §II.2.4,p. 24)Que les bases de résumés soient un objet d’étude important, pourquoi pas. Mais que les fréquences des mots dansles résumés soient plus directement interprétables... le texte, résumé ou développé, introduit toujours une distancepar rapport aux dénombrements que l’on peut faire sur lui.101 (Hérault 1981) lui se servirait des débuts des textes comme d’un extrait représentatif, sur lequel ajuster sesoutils pour le traitement :« La mise en place d’un autre module, appelé Adaptation, serait certainement très utile. Nous avons, en effet,constaté que, pour un texte non littéraire, l’Auteur (qui apparaît impersonnellement) donne à son lecteur dans lespremières pages (moins de 5 000 mots, d’après les quelques travaux que nous avons déjà faits) toutes les ‘clefs’qui lui permettront ensuite de suivre convenablement l’architecture du texte. [...] Tout ceci concourt à la créationd’un module qui, pour un texte donné et compte-tenu d’une pré-analyse sur les 5 000 premiers mots, adapteraitles autres modules à ce texte, c’est-à-dire réduirait considérablement les fichiers de données à partir desquels ilsfonctionnent. » (Hérault 1981, p. 121)102 Ce rejet tient à la fois à son inefficacité au plan pratique, et plus fondamentalement à l’éradication qu’ilpromeut. Le principe de ne systématiquement lire que les débuts de documents est un principe discriminateur, qui

Page 47: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

173

justifier parfaitement dans le cadre d’un traitement sur un genre bien défini. Pour un tel genre, le« début » correspond à une partie, dont le rôle correspond à la représentation que l’on veut obtenir.103

Les phrases à concentration de vocabulaire caractéristiqueDes systèmes de résumé automatiques sont réalisés pour réduire le volume du texte en vue des

traitements ultérieurs (Salton 1989, §12.3.1). Ce traitement, qui peut être assez élaboré, est rarementmis en place pour un seul usage de calcul interne : il sert à générer et afficher des versions abrégéesdes textes de la base, à la demande de l’utilisateur. Des moteurs de recherche Web offrent parexemple ce genre de résumés, pour donner un aperçu des pages retenues dans la liste des résultatsd’une interrogation.

Les systèmes non basés sur une modélisation approfondie du domaine des textes à résumerfonctionnent par sélection et recomposition d’extraits du texte. Des phrases sont repérées en fonctionde leur place dans la structure, et de la présence de mots fortement pondérés (i.e. discriminants sur lecorpus et fréquents dans le texte). On veille à la complémentarité du vocabulaire des phrases retenues.Pour éviter que le résultat ne ressemble à un patchwork de phrases sans continuité, des critèreslinguistiques sont ajoutés (expressions-clés, anaphores, place), ou encore l’extraction s’oriente versune extraction de paragraphes. Dans ce dernier cas, le résumé retient les paragraphes les plus centrauxdu point de vue du vocabulaire, éventuellement après les avoir organisés selon une classificationautomatique.

The human being is capable of reading a text and summarizing its message in the form of a new,shorter text. The computer cannot yet do this, and any abstract that it creates at the moment has to bemade up of words and sentences drawn exclusively from the original text. This type of abstract isbetter termed an ‘abridgement’.

[...] Based on ideas of Dr. Michael Hoey, of Birmingham University, our systems variously tracethe patterns of lexical repetition in a text and use this information to select key sentences. Sentencesfound to be most heavily cohesive are deemed to be core information bearers.

[...] Although our system does not apply a weighting to any particular section of the text, it tendsto select initial sentences in journalistic articles because they are lexically rich and so achieve therequired threshold in terms of repetition. This accurately reflects journalistic practice, where theessence of the text is typically summarized in the opening sentence or sentences. [...]

Automatically-generated products, whilst being fast and excellent for some purposes, are not yetall readable or reader-friendly. This is partly because the computer can only represent the writer’smodel of text, whereas the human agent, as abstractor or indexer, adopts the reader’s perspective. Ithink that the kind of software described in this paper, in addition to being used to present finishedproducts to the user, will serve a very useful function as an intermediary in the information chain. Forexample, the automatic abridgements could be used to find other relevant texts in databases ».

(Renouf 1993b)

organise la disparition des documents ne suivant pas cette « norme », pour un monde où on ne lirait que les grostitres. Une telle vision, qui institue une hiérarchie informationnelle, linéaire, est inacceptable.103 Des expérimentations sur le corpus des notes internes (qui nous intéresse au premier chef pour DECID)plaideraient en faveur d’une bonne représentation par les pages introductives :« L’indexation automatique est légèrement meilleure pour le corpus 4 [page de garde, page de synthèse,sommaire, et les 3 pages suivantes] que pour le corpus 3 [texte intégral], le gain intervenant sur la précisionapportée aux indexations T (+ 1 %) [Thesaurus] et N (+ 3 %) [Nouvelle Terminologie], le silence restantconstant, ce qui accrédite l’hypothèse de n’indexer que le début des documents (premières pages) où est ciblé le‘sujet’ traité. » (Monteil 1993, p. 17)Quelques précisions doivent être ajoutées :- d’une manière générale, l’application d’indexation automatique peut être gênée par la longueur des textes prisdans leur entier, qu’elle ne maîtrise qu’en filtrant les mots-clés une fois extraits du texte (donc sans indication deleur contexte et de leur position) ; cela peut engendrer un biais, à l’avantage des premières pages sur le texteintégral.- le corpus des notes internes n’est pas homogène du point de vue du genre (compte-rendu de réunion, article decongrès, rapport de stage, etc.) ; l’étude du rôle du début de la note ne peut aboutir à une conclusion globale (surl’ensemble du corpus) que si tous les genres en présence ont été examinés, et concordent –avec une marged’approximation acceptable– quant au rôle de leurs premières pages.

Page 48: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

174

Quelle que soit la forme du résumé, il reste que ce n’est qu’une autre vue, partielle, du texteintégral, et que les thèmes qui ne sont pas traités de façon majeure dans le texte sont éludés. En cesens, une recherche qui sache prendre en compte un texte dans sa totalité, et à plus forte raison s’il estlong et développé, vaut d’être mise au point (Hearst, Plaunt 1993).

e) La scission en passages

Nouvelle définition des unités de rechercheOn a proposé de raisonner au niveau des « passages » plutôt que des documents entiers. Cela

homogénéise les longueurs donc permet un bon fonctionnement du calcul. D’autre part, dans le cadred’une recherche d’information, le repérage d’un passage pertinent au sein même du documentapparaît comme un plus, puisqu’on localise ainsi immédiatement l’information cherchée sans avoir àparcourir le document104.

De fait, l’objet d’un système documentaire n’est pas le document en tant que tel, mais l’unitéde recherche105. Parler d’unités documentaires ou d’unités textuelles (au lieu de textes et de

104 C’est la position de Christian FLUHR, concernant le système SPIRIT :« pour la comparaison des documents, il est préférable que leur longueur soit assez homogène. Il peut êtredifficile d’indexer par un procédé commun des résumés contenant quelques centaines de mots et des livresrenfermant quelques centaines de milliers de mots. Dans ce cas, on pourra subdiviser les ouvrages longs enchapitres ou même en paragraphes, afin d’avoir un fond de documents homogènes en longueur. Le fait de n’avoirque des documents assez courts permet une meilleure efficacité de réponse documentaire. Ceci, par ailleurs,facilite la validation des réponses. » (Fluhr 1977, §III.5, pp. 174-175)En l’occurrence, les extraits de résultats figurant en annexe semblent montrer que les documents utilisés faisaiententre 15 et 80 mots environ (« mots pleins », c’est-à-dire à l’exclusion des conjonctions, déterminants, etc.).La plaquette de présentation du système, maintenant commercialisé, présente le découpage des documentscomme une des opérations de constitution de la base. Les passages sont déterminés manuellement, parl’administrateur du système, qui par son choix (re)définit la notion de document pour sa base. (Quant à larequête, qui peut être textuelle, ce qui excède une certaine longueur est tronqué, du moins pour ce que l’on peutpercevoir du fonctionnement de SPIRIT-W3).« L’information contenue dans une base de données est découpée en unités documentaires (ou documents) quireprésentent l’unité de recherche. A une question posée, SPIRIT propose un certain nombre de documents quel’utilisateur peut visualiser. La notion de document est variable d’une base de données à l’autre. Pour une basebibliographique ou un catalogue de produits, chaque notice ou chaque description de produit constitue undocument différent. Dans d’autres cas, le découpage à opérer est moins évident. Une base contenant par exemplel’ensemble du code des impôts doit-elle être découpée par chapitre ou par article de loi ? L’administrateur de labase doit effectuer le découpage en tenant compte des règles générales suivantes :- chaque document doit avoir un contenu homogène ;- les documents trop courts dispersent l’information dans la base et la rendent difficile à retrouver ;- les documents trop longs ne permettent pas d’utiliser au mieux les mécanismes d’optimisation de la recherche. »(plaquette de présentation de SPIRIT, société T.GID, 1993).On retrouve le même principe pour le calcul dynamique de liens effectué par Similidoc :« Le système développé a pour objectif la recherche de similitudes entres parties de documents. A chaquerecherche, il y a création de liens dynamiques entre les parties de documents suivant leur degré de similitude ausens du système. [...]Cet outil a été utilisé pour effectuer des rapprochements entre des textes relatifs à l’assurance qualité. Lagranularité choisie est celle du paragraphe. Une baisse de précision est observable pour des paragraphes courtsdont le contexte est limité. En contrepartie, la délivrance directe des paragraphes supposés pertinents est un atoutimportant par rapport à celle des textes complets. »(Betaille, Massotte, Joubert 1998, pp. 136 et 142)105 Le basculement de la recherche documentaire à la recherche d’informations dans des bases de donnéestextuelles trahit le peu de cas que l’on fait de l’unité que constitue le texte :« les clés d’accès [fournies par de nouvelles techniques de gestion documentaire et de recherche rétrospectivedans un fonds] visent essentiellement à répondre à une demande d’information liée à la fourniture du document.Parallèlement à cette problématique du document, un autre type de demande d’information s’est profilé,s’inscrivant dans une problématique d’ensemble de connaissances stockées dans les corpus documentaires. [...]

Page 49: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

175

documents) rappelle qu’il s’agit d’entités construites pour l’application. Faisons-nous fausse route enexaminant la prise en compte du texte dans les systèmes documentaires en général ? C’est peut-être aucontraire souligner la décision herméneutique qui intervient lorsque l’on choisit de reconnaître telensemble de paragraphes comme un texte –il n’y a pas de texte en soi, il n’y a de texte que pardécision d’un lecteur.

La critique majeure que l’on peut formuler à l’encontre de cette redéfinition est qu’elle perdl’unité du document, tel qu’il était perçu initialement. Le texte est éclaté en « morceaux », considérésensuite indépendamment les uns des autres lors du calcul qui les sélectionne.

L’articulation global / localUne manière de profiter des avantages du calcul sur les passages, sans sacrifier la cohésion

d’ensemble du document, est de procéder en deux temps : un premier calcul sélectionne desdocuments (avec éventuellement des scores inégaux, certains très faibles), et un second calcul exploreles passages des documents sélectionnés.

On conjugue ainsi un point de vue global et un point de vue local, et fait jouer des zones delocalité signifiantes comme la phrase ou le paragraphe : en effet, quelques termes en commun sontplus probablement pertinents s’ils sont en relation de proximité que s’ils sont dispersés aux confins dutexte. On fait donc d’une pierre deux coups : la longueur du texte n’est plus irrémédiablementpénalisante, et l’on compense les faiblesses du seul contexte textuel pour saisir les interrelations entreles mots. En effet, on s’efforce ainsi d’écarter les rapprochements injustifiés par un seul mot de fortepondération, ou par un ensemble de mots « dépareillés ». Dans (Salton, Allan, Buckley 1994), lesconditions de similarité entre deux textes prennent ainsi la forme suivante : (i) la similarité (globale)entre les deux textes est supérieure à un certain seuil ; (ii) il existe n paires de phrases, l’une dans lepremier texte, l’autre dans le second, telles que la similarité (locale) entre les deux phrases de la pairesoit supérieure à un seuil fixé, et que plusieurs mots contribuent significativement à la similarité (parexemple, si la similarité entre les deux phrases est due à une seul mot pour plus de 90 % de la valeurcalculée, alors la paire n’est pas comptée comme similarité locale valable).

La discussion porte alors sur la manière la plus adaptée de définir des passages, et le mode decomposition des deux calculs de similarité. Les deux cas sensibles sont ceux où la similarité globaleest très faible et la similarité locale significative, et la réciproque. Première voie : calcul global puislocal, mais le principe même de cascade peut en effet être trop sélectif s’il élimine en amont ce quiaurait en définitive pu être retenu à l’issue du calcul complet. Deuxième voie, garder dans la mêmebase et les textes, et les passages, comme autant d’unités autonomes (ce qui évite le filtrage des unspour accéder aux autres), augmente fortement le volume de la base et renvoie au problème de la pertede la contextualisation des passages et de leur regroupement en un tout.

Troisième voie, combiner les valeurs des rapprochements locaux sélectionnés avec lasimilarité globale sur le document ; en effet, dans un extrait du texte qui aborde un sujet spécifique, ilpeut n’être pas fait mention de la problématique générale du document, qui reste implicite. Lacombinaison des rapprochements locaux et globaux est une manière de prendre en compte à la foisdes thèmes mineurs, développés seulement très localement dans le document, tout en les rapportantéventuellement à un contexte d’ensemble (« A, dans le contexte de B ») (Hearst, Plaunt 1993).

Vers une décomposition automatique du texte : segments et thèmesLe découpage d’un document en passages est quelquefois pris en charge par le système lui-

même. D’abord envisagée à des fins de redéfinition d’unités de recherche, la question de ladélimitation de parties à l’intérieur du document s’est élargi à une forme d’analyse de la structurationinterne du texte.

Dans le cas de figure le moins « linguistique », les contextes locaux sont définis comme dessegments de longueur fixe (en nombre de mots). Technique fruste au premier abord, elle se révèleefficace par plusieurs aspects (Callan 1994). Premièrement, elle forme des zones régulières et pas trop

La croissance et la multiplication des documents sur support magnétique amènent divers utilisateurs [...] àconsidérer les bases de données textuelles comme des réservoirs de connaissances ». (Chartron 1988, §I.2, p. 11)

Page 50: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

176

courtes. En effet, les paragraphes s’avèrent dans certain cas des contextes trop restreints ; la longueuroptimale des fenêtres serait d’ailleurs de 200 à 250 mots selon (Callan 1994). Deuxièmement, la miseen œuvre de fenêtres complètement chevauchantes (l’extrémité d’une fenêtre est le milieu de lafenêtre voisine) évite un cloisonnement des contextes et s’adapte mieux au fait qu’un texte neprésente pas nécessairement un unique découpage significatif.

La façon la plus naturelle de définir les passages est, quand on dispose de l’information, dereprendre la structuration logique du texte, à savoir le découpage en paragraphes ou en sections. Ilsemble ainsi que l’on prenne en compte une sémantique apportée par la forme du document, chaquecontexte ainsi marqué reflétant une intention de l’auteur. Pour autant, il n’est pas assuré que l’auteurfasse un emploi canonique et toujours également motivé de cette structuration. De plus, les documentsélectroniques ont rarement des indications univoques de la structure, il s’agit de traces (comme lesretours à la ligne, les sauts de ligne, etc.) qui doivent être utilisés, non sans risque d’erreur.

Pour (Hearst, Plaunt 1993), les frontières où trancher entre un passage et le passage suivantsont repérées comme des points de discontinuité thématique106. Autrement dit, on quitte un ensemblede mots, qui expriment un certain ton, un certain sujet, pour entrer dans un vocabulaire différent, quiaborde un autre sujet ou / et adopte un autre ton. L’algorithme de leur outil TextTiling calcule toutesles similarités entre segments adjacents (un segment est une suite de 3 à 5 phrases, la mesure desimilarité est une mesure vectorielle de type cosinus, avec une pondération interne, caractérisant levocabulaire du segment par rapport à celui du texte). Ensuite, la courbe des similarités obtenue pourle texte est lissée, et les coupures du texte sont placées selon les ‘creux’, les ‘vallées’ de la courbes.Contrairement aux attentes, l’expérimentation ne révèle pas de supériorité significative de cettetechnique par rapport à l’utilisation du découpage selon les paragraphes.

C’est avec (Salton & al. 1996) que l’on bascule clairement de l’optique de découpage dansl’étude de la structuration interne des textes. Les techniques de calcul de similarité, connues pourcaractériser les rapprochements entre textes à l’intérieur d’un corpus, sont cette fois-ci déployées àl’intérieur d’un texte, pour caractériser les liens entre paragraphes. La base est le calcul des similaritésentre les paragraphes pris deux à deux, ce qui, si l’on ne retient que les similarités suffisantes (seuil),se traduit par un graphe. Chaque paragraphe est un noeud du graphe, et chaque similarité significativeest un arc qui relie les deux paragraphes concernés. Deux formes de structuration sont recherchées, lessegments et les thèmes.

Les segments sont les composantes connexes du graphe, une fois effacés tous les liensconcernant des paragraphes distants (par exemple séparés par plus de trois paragraphes). Lessegments reflètent l’organisation linéaire du texte, sans faire de sauts qui uniraient des partiesdistantes dans le texte. Ils sont analogues à la conception du passage dans TextTiling : cohésionlexicale interne, et délimitations correspondant aux changements de vocabulaire.

Les thèmes, eux, groupent les paragraphes en fonction de leur similarité, indépendamment dela distance qui peut les séparer dans le texte. Le regroupement s’opère par une classificationautomatique par agrégation de trios de paragraphes (triangles dans le graphe), chaque trio étantreprésenté par le vecteur somme des vecteurs paragraphes. Les thèmes sont donc censés représenterdes composantes thématiques du texte, et séparer les différents aspects qui sont traités de façon plusou moins intriquée dans le document.

L’étude du graphe permet encore de repérer les paragraphes les plus centraux, caractérisés parle grand nombre de liens qu’ils entretiennent avec les autres paragraphes. Cela fournit matière à desformes de ‘résumés automatiques’ (cf. la recherche d’échantillons, ci-dessus).

106 (Nakhimovsky, Rapaport 1989) déclinent cinq classes de discontinuités (pour le cas de récits narratifs) :inversion entre premier plan et arrière plan, changement de lieu ou de moment, changement de point de vue,rupture thématique. Ils remarquent notamment que la reprise d’un syntagme nominal complet (au lieu d’uneellipse ou d’une anaphore possible) constitue une marque de discontinuité.Les discontinuités qu’ils se proposent de repérer (sans en montrer une implémentation) sont en deçà duparagraphe. Ils n’utilisent pas l’information du découpage en paragraphes, pour mettre au point leur algorithme.Ces chercheurs américains précisent néanmoins que les paragraphes sont davantage que des indicateurs dediscontinuité : ils instaurent une discontinuité par leur simple présence.

Page 51: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

177

Dans le cadre d’une application de recherche d’information, les segments et thèmes sontmobilisés pour faire des calculs de similarités globaux et locaux (les thèmes remplaçant les passagespour les textes qui ne sont pas organisés de façon linéaire). Ils sont aussi proposés pour proposer desparcours dans les documents : traversée générale (en prenant les paragraphes centraux des différentsthèmes), ou traversée thématique (en sélectionnant les paragraphes centraux à l’intérieur du thèmeretenu).

f) Que penser de tout cela ?La question des documents longs est celle de la construction d’une représentation synthétique.

Les modèles utilisés par les moteurs de recherche ont une logique cumulative : plus il y a de motsdans le document, plus sa représentation est grande, avec un effet de dilution. La solution n’est peut-être pas de réécrire ou de redéfinir le texte lui-même. Une autre voie est de respecter le texte dans sonintégrité, et de construire des unités descriptives synthétiques et des représentations entrant dans lecalcul de façon souple.

Avec la décomposition du texte en segments et thèmes, on assiste à un recyclage magistral destechniques intertextuelles en techniques intratextuelles. Le fait majeur, est la reconnaissance de zonesde localité du point de vue de la sémantique (thématique), et de leurs interrelations possibles àl’échelle du texte. La description reste cependant dans l’ordre de la simplification : le ‘grain’ estdéfini à l’avance (par exemple le paragraphe), et chacun est un atome univoque. Autrement dit, il nesemble pas prévu de rendre compte de chevauchements thématiques par exemple.

4. Lexicométrie intratextuelle : l’étude des rythmesIl s’agit ici de rendre compte de travaux complémentaires à ceux évoqués dans les

paragraphes précédents, et donc, parmi les travaux de lexicométrie, ceux qui optent pour uneapproche intratextuelle plutôt qu’intertextuelle de la distribution d’unités dans les textes. L’accent estdonc mis ici sur notre deuxième facette (la structuration interne du texte et notamment sa linéarité), enreléguant pour un temps au second plan la troisième facette (intertextualité), dont la présence esthabituellement dominante dans les études un tant soit peu quantitatives.

Le texte n’est pas une réalité ponctuelle et uniforme : son déroulement est l’occasion decontrastes entre régularité et rafales107, dispersion étale ou accumulation localisée.

Le texte réunit les conditions d’une étude du rythme :Le rythme ne peut apparaître, selon nous, qu’à certaines conditions :- présence d’une linéarité (linéarité du temps, mais aussi par exemple linéarité du scriptural ou

de l’oral).- présence d’éléments discontinus, distincts les uns des autres tels que des notes ou des mots. Un

son continu, de même hauteur et intensité, comme celui que produit un klaxon, ne saurait créer unrythme.

- présence d’une récurrence : le rythme repose sur le retour, la réapparition, régulière ou non,d’éléments identiques (une même note, un même silence, une même durée).

- présence d’une différence, d’un écart. Dans le domaine musical, par exemple, il faut distinguerl’isochronie (la goutte d’eau qui tombe régulièrement) du rythme, qui naît ou bien d’unedifférenciation qualitative, produite par l’accentuation d’un temps ou la heuteur du son, ou bien d’unedifférenciation quantitative, créée par une opposition de durée. De même qu’elle fonde le sens, ladifférence apparaît ainsi à la base du rythme.

Le texte réunit ces quatre conditions, puisqu’il dispose linéairement des éléments discontinus –les mots–, qui présentent un caractère itératif (itérations lxicales, morphologiques, sémantiques, etc.qui contribuent à la cohérence) mais manifestent simultanément des différences (autre entourcotextuel, autres relations, ce qui assure la progression) : il apparaît ainsi fondé de chercher à mettre enévidence les rythmes textuels. »

(Dupuy 1993, pp. 509-510)L’étude du rythme fait place à plusieurs facettes textuelles, outre la deuxième, directement

concernée (par le biais de la linéarité). Le caractère linguistique du texte (première facette) est le 107 C’est Pierre LAFON qui a introduit le concept de rafale et en a proposé une mesure, voir par exemple (Lafon1981a).

Page 52: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

178

principal point d’appui pour la définition des unités et de leurs variantes. La linguistique fournit dessystèmes d’identités et de différences, lexicales ou morphologiques par exemple. Et la place del’interprétation (quatrième facette) peut être explicitement reconnue, en soulignant le caractère relatifdes choix de modélisation (le choix de ce dont on suit la répétition), et en s’en tenant à des résultatsnuancés et graduels, jamais définitivement établis ni universels.

Cette voie est encore relativement peu suivie108, et mérite d’être reprise et poursuivie, encomplémentarité avec d’autres approches (plus intertextuelles).

108 Les travaux de Pierre LAFON et ceux de Jean-Philippe DUPUY ne sont toutefois pas les seuls.(Lessard & Hamm 1991) ont par exemple une analyse des formes de répétitions, pour des séquences de plusieursunités. Leur problématique est très proche de celle des segments répétés (cf. André SALEM). Ils identifientplusieurs modes de répétition (selon l’écart croissant entre les occurrences : répétition rhétorique, répétitiond’insistance, répétition idiolectale), et s’intéressent également à la relation entre les variantes pour les reprisesnon littérales.

Page 53: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

179

D. RECEVOIR UN TEXTE

1. Compréhension

a) Que saisir de la compréhension d’un texte ?

Repères générauxIl est difficile de souscrire à l’idée de systèmes réalisant une ‘compréhension automatique’.

La discussion doit au moins commencer par clarifier ce que l’on met derrière le mot compréhension.(Sabatier & al. 1997, §4).

Une conception extrême et fortement réductrice est celle qui établirait le résultat de l’analyseautomatique du texte comme « la » compréhension unique, ultime et universelle d’un texte. Une autreversion des faits, plus réaliste et plus modeste, est de se donner une grille de lecture appropriée autype de textes à traiter. La compréhension est alors le remplissage convenable de la grille, pourchaque texte, à partir des informations que l’on y trouve. Dans ces deux cas, la compréhensionconsiste en la transcription d’un texte dans un certain formalisme, –nécessairement non équivalent :une (large ?) part du texte échappe à la dite compréhension. Il semblerait préférable de considérer làqu’il s’agit d’une lecture, quelque peu mécanique, calibrée pour un certain type de textes et un certainusage109, répétitive et fortement déterminée a priori (peu prête à percevoir le texte dans sa singularitéet sa texture propre).

109 La thèse de Laurent Doré (Doré 1992) est un exemple de travail dans cette optique :« En se proposant de comprendre de façon automatique un compte-rendu [médical], on doit aboutir à unereprésentation informatique qui reflète le contenu du texte et réponde de la même façon aux objectifs de lacommunication dégagés précédemment », à savoir la transmission d’informations sur « l’évolution de l’état dupatient » et « l’enchaînement chronologique des actions réalisées » (Doré 1992, p. 37).La « connaissance pragmatique spécifique [du protocole de traitement et de surveillance du cancer de la thyroïde(TSCT)] fournit un shéma d’intégration qui va être instancié par les actions du texte ». (ibid., p. 42)Laurent Doré fonde alors l’algorithme du traitement sur les observations suivantes, faites sur un corpus de80 compte-rendus d’hospitalisation : premièrement, l’ordre du texte suit l’ordre chronologique des actesmédicaux et des observations ; deuxièmement, on reste dans le domaine médical et hospitalier, si bien que lestermes ne présentent pas d’ambiguïté. Le traitement se fait phrase par phrase ; la question de la prise en comptede phénomènes interphrastiques (anaphores) est soulevée, celle (plus générale) de la coréférence est résolue dansle cadre du modèle, qui délimite les références possibles.La valeur pratique de ce traitement automatique trouve une justification dans un contexte défini :« demander aux médecins de s’exprimer dans un formalisme rigide utilisant des codes prédéfinis [comme cela aété fait dans d’autres travaux], se heurte d’une part au manque de disponibilité voire à l’hostilité des médecins etd’autre part rencontre des contraintes pratiques dues à la rigidité intrinsèque de tous les formalismes a priori. »(ibid., p. 153) (le texte reste donc un mode d’expression irréductible ; le traitement est acceptable parce qu’il endonne une vue, mais ne se substitue pas au texte).« Après l’étude des différentes questions possibles [huit jugées intéressantes, proposées par des médecins], ilressort que les informations recherchées (un résultat, une date, un nombre, etc.) font dans la plupart des acsdirectement référence aux événements réalisés ou prévus. Or la représentation de l’histoire que nous construisonsest précisément centrée sur des concepts d’action correspondant aux événements mentionnés dans le texte. »(ibid., p. 155)Les limites du systèmes ne sont pas masquées :« notre approche est effectivement apprpriée pour l’analyse de textes narratifs dans des domaines techniquessous-tendus par un modèle de fonctionnement (resp. de dysfonctionnement) auquel correspondent des plansd’intervention préétablis. » (ibid., p. 150)« le contexte pertinent n’est pas forcément équivalent a priori à la représentation courante de l’histoire. Celle-cireste un contexte par défaut valable uniquement dans le cas de texte relatant des faits de façon strictementchronologique comme nous l’avons estimé pour les compte-rendus d’hospitalisation. » (ibid., p. 156)

Page 54: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

180

D’une manière générale, la classe des systèmes de compréhension de textes (Sabatier & al.1997) porte un titre trop lourd. La compréhension réalisée consiste en la capacité à extraire, etéventuellement reformuler, un élément du texte, ou en la transcription correcte du texte dans leformalisme qu’on s’est choisi. Première objection : la compréhension est tout entière « dans » le texte,éventuellement étendu par une base de connaissances (fournisseur d’inférences), celle-ci n’étantjamais que partielle et partiale (ce peut être néanmoins une bonne représentation d’un arrière planconventionnel). Autrement dit, il ne s’agit pas d’une compréhension au sens d’une appropriationpersonnelle d’un texte, et de la manière dont il fait écho en soi et motive une action originale,innovante, créatrice. Il y a encore une seconde objection à l’étiquette systèmes de compréhension detextes : en fait de textes, la plupart de ces systèmes (grosso modo, ceux qui n’utilisent pas de grille delecture) s’en tiennent à un cumul d’analyses ponctuelles, phrastiques. A proprement parler, ce ne sontpas des textes qu’ils considèrent, mais du texte110. Ils n’acquièrent pas une vue intégrée de l’unitétextuelle, qui fasse sens, mais en obtiennent une vue morcellée en une série d’informationsélémentaires, éventuellement recombinables, certes, mais sans réelle perspective globale etsynthétique de l’unité que forme le texte.

Il faut ainsi dénoncer une modélisation de la compréhension dans le prolongement directd’analyses linguistiques lexicales et morpho-syntaxiques. Bien que le texte soit rédigé dans unecertaine langue, et qu’il puisse y avoir une pertinence à effectuer une analyse des structureslinguistiques qu’il réalise, la compréhension ne saurait s’arrêter à une vue de type étiquetage desmots, des liens syntaxiques, ou des « sens ». En tant que lecteur, ce que je retiens d’un texte, ce n’estpas le détail précis de ses mots ou de ses constructions linguistiques, mais une idée d’ensemble. Lesoutils classiques de Traitement Automatique du Langage Naturel ne sont pas pour autant à exclure :ils peuvent être mis au service d’une vision textuelle.

Une proposition linguistique : la sémantique interprétativeLa compréhension est plutôt une forme d’interprétation, d’actualisation du sens d’un texte par

et pour un lecteur donné, à un moment donné. En ce qui concerne le texte, on peut donc s’efforcer derepérer les contraintes linguistiques qu’il instaure, les indices qu’il fournit, qui, sans déterminerl’interprétation / compréhension, participent à son élaboration.

dans les termes de la sémantique linguistique [, la] compréhension, déliée des réquisitspsychologiques, est une interprétation : elle consiste à stipuler, sous la forme de paraphrasesintralinguistiques, (i) quels traits sémantiques sont actualisés dans un texte, (ii) quelles sont lesrelations qui les structurent, et (iii) quels indices et/ou prescriptions permettent d’actualiser ces traits etd’établir ces relations, qui sont autant de chemins élémentaires pour des parcours interprétatifs. Lapremière stipulation suppose une analyse componentielle ; la seconde, structurale ; la troisième,

110 La citation suivante, d’autant plus significative qu’elle est centrale dans le document fédérateur (Sabatier & al.1997), trahit cette conception non textuelle :« Dans le cadre d’une évaluation qualitative, nous pensons que la meilleure forme de tests pour évaluer dessystèmes de compréhension de textes est celle du type DQR où :- D est un ensemble de phrases déclaratives (ou de données) ;- Q est une question ;- R est la réponse attendue à la question Q, réponse qui peut être déduite de D.Tout système se prêtant à des tests DQR peut être considéré comme un système complet de compréhension dulangage naturel. Nous qualifions de complet un système qui analyse (D et Q) et qui synthétise (R) du langagenaturel. La synthèse est une réaction appropriée aux propos qui lui sont adressés : ce peut être une réponse à unequestion (Q + R) ou bien une réaction du système (R sans Q) sur la consistance, sur l’ambiguïté, sur laredondance des propos tenus, etc. Ce peut-être une demande d’information du système, etc. » (Sabatier & al.,1997, §6)Les textes ne sont ici que pré-textes à interrogations : ils ne sont vus qu’à travers le prisme de questionsponctuelles et factuelles. Il s’agit de retrouver des faits objectifs, d’y accéder, dans une collection de faitsobjectifs, prédéfinis (i.e. dont les valeurs possibles sont connues à l’avance). D’ailleurs dans l’espace de cesquelques lignes, les rédacteurs glissent non sans raison de la compréhension de textes à la compréhension dulangage naturel. Evidemment, il serait absurde de demander à la machine : qu’est-ce qui fait sens pour vous dansce texte ? qu’en retiendriez-vous et pourquoi ? Tout au plus le calcul est-il capable de fournir des représentationssuggestives, support pour l’interprétation d’un utilisateur humain.

Page 55: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

181

interprétative et herméneutique. Il en résulte non une traduction, mais une explicitation, qui généraliseles principes de la définition, en les réfléchissant pour assurer la pertinence de leur application.

En tout cas, le terme de compréhension est sans doute trop fort pour une telle conception qui nerecourt pas à un sujet psychologique ou philosophique. Mais cette insuffisance devient une vertu dèslors qu’il s’agit de proposer une méthode d’interprétation explicite et au moins partiellementautomatisable.

(Rastier, Cavazza, Abeillé 1994, §I.2.2, pp. 11-12)

Appropriation et construction : l’image de l’interpolationLa compréhension est une interprétation, c’est-à-dire la construction et l’appropriation d’un

sens111.Le texte apporte des points d’appui, qui orientent et contraignent la construction d’un

parcours interprétatif ; le lecteur apporte lui aussi ses propres repères. Un sens peut alors se dessinercomme un chemin (mieux : un cheminement)112, une interpolation, qui fait se rejoindre et interagir lemonde du lecteur et celui du texte. Quand ces deux mondes s’inscrivent dans des espaces tropétrangers l’un à l’autre, le tracé d’un parcours se fait laborieux et fragile. Quand au contraire le mondedu texte est déjà comme trop bien intégré au mode du lecteur, Il y a à peine à modifier des tracésexistants –il est difficile d’échapper aux ornières bien creusées–, et l’excursion perd de son attrait. Lacompréhension la plus fructueuse est donc celle qui peut se développer sur des bases textuelles etpersonnelles suffisantes, et vient renouveler le paysage intérieur du lecteur en lui ouvrant de nouvellesperspectives, de nouvelles pistes, plus prometteuses qu’hasardeuses. D’où une remotivation du termelui-même : com-prendre, prendre avec soi, garder quelque chose de la rencontre avec le texte,incorporer une part de la réalité du texte dans sa propre réalité.

Du point de vue de la mémoire, cette image d’une compréhension comme interpolation rejointune expérience commune. A partir de quelques points que l’on se remémore d’abord, se recomposeune pensée cohérente, un tout intégré.

En ce qui concerne les situations de travail dans l’entreprise, chacun sait la difficulté qu’il y aà reprendre le dossier d’un collègue, à « adopter » l’armoire de documents laissée par sonprédécesseur113. L’image du dépôt, d’un gisement ou d’une mine d’informations montre cruellement 111 Ce n’est pas une nouveauté, mais mérite toujours d’être réaffirmé ! Sur ce point, voir par exemple (Dumesnil1992) (la compréhension comme construction), (Poitou, Ballay, Saintive 1997) (les savoirs, commeappropriation des connaissances).112 Ou une trajectoire à travers des attracteurs :[Les] formations sémiotiques ont des structures propres qui, à défaut de leur conférer une objectivité,contraignent les parcours interprétatifs, sans les déterminer pour autant. Par exemple, un tiret inhibe lapropagation des traits sémantiques entre les syntagmes qu’il sépare, alors que les deux points la favorisent. Agrande échelle, ce type de contraintes, auxquelles s’ajoutent des contraintes situationnelles, dessinent desparcours préférentiels. Plus généralement, on pourra définir les sens d’un texte comme des parcours entre descomportements sémantiques stabilisés (ou attracteurs, dans la terminologie des systèmes dynamiques). Le‘mouvement’ du texte, qui le rend irréductible à une suite de phrases, serait alors une trajectoire dans un paysaged’attracteurs, le passage d’un attracteur à un autre dépendant des objectifs de la pratique interprétative en cours. »(Rastier 1994, §2, pp. 334-335).113 Sans compter l’effet « ticket de métro », fort justement perçu et nommé par Simone Joseph-Waterlot :« [dans le métro,] on doit garder son ticket pendant le voyage en cas de contrôle, et à la sortie, on ne fouille passes poches pour le jeter. Et si jamais on a l’idée de s’en débarrasser au cours d’un voyage suivant, on en retrouveplusieurs et ne sachant plus lequel est le bon, celui qu’il faut garder, on les remet tous illico dans sa poche.La gestion d’un dossier peut s’y apparenter. Sauf que l’on ne sait jamais quand finira le voyage. Il est sûr qu’il ya une phase de démarrage, puis de vie active d’un dossier, suivi d’une veille plus ou moins profonde. Le passaged’une étape à l’autre s’effectuant progressivement. C’est à la mise en veille qu’il serait bon de faire un tri sérieux,et de jeter les brouillons et les pièces en double chez un collègue. [...]Mais si la période est passée, et qu’au terme de l’étude, le dossier n’ait pas été rangé, le coche est raté, les chosesdevenant de moins en moins lisibles au fil du temps. [...] On garde alors tout, sans prendre le temps de trier. Cequi explique que les armoires soient pleines et en nombre toujours insuffisant. [...][De plus,] le rangement, la partie visible du tri, n’étant pas une activité gratifiante, rares sont ceux qui prennent letemps de l’effectuer avant de se lancer dans le travail suivant.[...] les successeurs se retrouvent avec un passé inutile ou inutilisable ».

Page 56: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

182

ses limites : l’information n’est pas dans les documents, où il suffirait de la piocher ; elle est àconstruire par et avec une appropriation. D’ailleurs, l’idée que l’on se fait d’un document et lamanière dont on l’aborde évoluent.

Vouloir décrire le monde et expliciter l’ensemble des connaissances, et penser inculquer ainsiune forme de compréhension à la machine qui lui permette de « faire le tour » d’un texte, c’est oublierl’interprétation à l’œuvre dans l’appropriation, la constitution, et la transmission d’un savoir. Lesconnaissances préenregistrées sont figées, normatives, partielles et partiales, et désespérémentincomplètes...

Discussion : affinités et écarts avec la pertinence selon Sperber & WilsonLa conception de la compréhension comme d’une forme de rencontre fructueuse entre le texte

et le lecteur, dans laquelle le monde du texte et celui du lecteur se rejoignent sans se superposer,partage des points forts avec la théorie de la pertinence élaborée par (Sperber & Wilson 1986).

Sperber et Wilson décrivent une situation de communication à partir de de la transmissiond’un message (typiquement une parole, qui peut être modulée par l’intonation, le geste) entre deuxinterlocuteurs. Ils récusent bien l’idée selon laquelle la langue se réduirait à un codage, empaquetantun contenu informationnel114 : la langue (l’expression verbale) fournit des points d’appui à partirdesquels l’interprète / destinataire construit un sens. Et cette élaboration d’un sens ne naît que s’il y aeffectivement rencontre du monde de l’interprète et de celui proposé par le message : il y a uneactivité « productive » de sens que Sperber et Wilson décrivent à travers le concept d’effet contextuel(p. 187). Le contexte lui-même n’est pas donné et fixé a priori (p. 215), il s’ajuste et se reconfiguredans l’activité même d’interprétation.

Mais il est difficile de suivre Sperber et Wilson dans le développement complet de leurthéorie, et plus encore dans la modélisation d’inspiration logique115 qu’ils échaffaudent. L’êtrehumain serait un dispositif efficace de traitement de l’information (p. 76), identifiant la signification(au sens de meaning, le « vouloir dire ») la plus rentable et s’arrêtant à elle (p. 256). Il y a uneréduction imposée et hâtive des possiblités de sens (une phase de désambiguation, cf. p. 267,p. 306)116, calculées à partir d’une sémantique compositionnelle et dénotationnelle117. La mécaniquede description du monde mental de l’interprète est réduite à des processus inférentiels sur desexpressions logiques118. Le choix de l’interprétation est régi par les critères du moindre effort et del’effet maximal (p. 188 sq.), mais la manière dont se concilient ces deux facteurs pour évaluer unerentabilité (ou une productivité, un rendement) n’est pas claire119. Enfin, rien n’est moins sûr quel’universalité d’une herméneutique « intéressée », tout entière régie par des considérations derentabilité immédiate. Le modèle que développent Sperber et Wilson en se référant à des situations

(Joseph-Waterlot, Lahlou 1995, §III.3, pp. 28-29)114 La langue n’encode pas une pensée (ibid., p. 345), et la communication n’est pas le tranfert d’une pensée(ibid., pp. 287-288).115 L’activité de l’esprit humain ne se calque pas entièrement sur des règles logiques, concèdent les auteurs –voirpar exemple (ibid., p. 109).116 Le modèle chasse également toutes formes de contradictions (logiques) : si la représentation du monde que sefait un individu vient à avoir deux éléments contradictoires, alors tout est mis en œuvre pour éliminer lacontradiction, avec l’idée qu’il faut trancher (effacement pur et simple de l’alternative la plus faible, par exemple,cf. p. 176).117 La signification explicite d’un énoncé est déterminée par l’intermédiaire d’associations entre les mots et desconcepts (c’est l’entrée lexicale du concept) (p. 141), l’entrée encyclopédique du concept rassemblant lesinformations sur son extension ou sa dénotation (p. 135), et l’entrée logique assurant le relais avec lareprésentation du monde dont dispose une personne. Le module linguistique travaille mot à mot,séquentiellement (p. 278), avec des anticipations globales possibles au niveau de l’énoncé (p. 306).118 La représentation du monde est assimilée à un ensemble d’hypothèses, sur lesquelles s’appliquent des règleslogiques (inférence, élimination), chaque hypothèse étant modulée par sa force (établissement initial), son degréde confirmation et son accessibilité (réactivations nombreuses ou/et récentes).119 Un test systématique de « toutes » les possibilités ? Mais en s’arrêtant à la première « satisfaisante » ?(cf. 256)Une maximisation absolue semble trop coûteuse, et une maximisation relative trop arbitraire.

Page 57: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

183

d’échanges verbaux brefs, ne se laisse pas généraliser à la diversité des pratiques de lecture etd’interprétation.

Le passage à une utilisation opérationnelle de l’idée de rencontre et d’interpolation entre lemonde du texte et celui du lecteur n’impose pas de recourir à un appareillage logique lourd, rigide, etin fine trop étriqué pour rendre compte du sens. Par exemple, le modèle vectoriel en recherchedocumentaire, et utilisé dans un premier temps par l’application DECID de diffusion ciblée, rendcompte de façon grossière mais robuste des « recouvrements » significatifs entre les pôles d’intérêtsdu destinataire et les sujets abordés dans le document. Nous gardons donc à l’esprit une partie de lathéorie de (Sperber & Wilson 1986), sans adopter leur modèle.

Modélisation : points d’appui plutôt que contenuLes systèmes qui visent une forme de compréhension par la machine sont amenés équiper la

machine d’un ‘monde’. Le premier constat est la nécessité de se restreindre à une réalité cernée et trèslimitée, et fonctionner dans ce monde clos. La deuxième est, malgré cette délimitation, le travailénorme pour rassembler et constituer les connaissances dont doit disposer le système pour mener àbien la construction de représentations utiles. Qu’il s’agisse de réseaux d’inférences, de systèmesexperts, de raisonnements par cas, on est toujours face à des systèmes très lourds (Jacob 1994).

Un troisième constat pointe un écart fondamental de comportement dans les conditions auxlimites. Ces systèmes, qui sont bornés par les limites même des connaissances qu’ils emmagasinent,échouent plus ou moins élégamment face à un texte un peu inattendu. Le lecteur humain a aucontraire une tendance irrépressible à donner du sens, trouver un sens à un texte, à ‘broder’ à partir dequelques éléments qui stimulent son imagination (à défaut peut-être de son savoir rationnel) :l’interprétation est compulsive. Plutôt que de déclarer forfait devant une matière textuelle insuffisante,le système devrait pouvoir partir des moindres traces qu’il reconnaît, même si elles ne forment pasune structure bien formée reconnue, et proposer un résultat. Un indicateur de fiabilité (en termes detraitements automatiques), ou une indication sur la faiblesse de l’ancrage au texte (en termes plusinterprétatifs), serait opportun pour guider l’utilisateur dans la manière de considérer les résultats.

Plutôt qu’une représentation qui renfermerait le sens du texte, ce qu’il est intéressant depasser à la machine, ce sont des points d’appui pour la construction d’une interprétation120. C’est s’en 120 (Hérault 1981) propose l’opposition entre compréhension explicite et compréhension implicite :« il y a compréhension explicite toutes les fois où un système non humain obéit aux instructions qui lui sontdonnées, sous forme écrite ou orale et dans un langage ‘ordinaire’. [...] il est parfaitement envisageable decommander un système mécanique (ou, ce qui revient au même, électronique), même très complexe, à partir d’untexte à propos duquel le système ne dispose que de très sommaires informations. Cette situation est, nous semble-t-il, la seule qui permette de porter un jugement sur la qualité de la compréhension, que nous qualifionsd’explicite car il lui correspond une manifestation physique. Cependant, à une compréhension de ce type est,selon toute vraisemblance, nécessairement associée une ‘sémantique fermée’. Autrement dit plus vulgairement,on sait à l’avance ‘de quoi on parlera’.Que se passe-t-il maintenant, si l’on ne dispose pas d’informations sur ‘ce dont on parlera’ ? Remarquons toutd’abord qu’il s’agit là de la situation normale, celle du lecteur qui entre, pour la première fois, en contact avec undocument, à propos duquel il ne possède que de vagues indications, dérivant, par exemple, du titre, du nom desauteurs ou de son volume. Notons ensuite que l’analyse de la compréhension dans cette ‘situation normale’ aessentiellement donné lieu à un seul type de recherche, où il s’est agi de savoir si l’on pouvait correctementtraduire le phénomène compréhensif en terme d’assemblages de ‘traits sémantiques distinctifs’. Disons tout desuite que notre opinion à propos de ces travaux est fortement négative : toutes les fois où ils ont été engagéssérieusement, nous sommes contraints de constater que, pour le moment, ils ont abouti à un échec ou à uneimpasse, compte tenu du nombre gigantesque des traits qu’il faut manipuler, même pour décrire une situation trèssimple, et compte tenu, aussi, de la complexité de la combinatoire qu’ils engendrent. Nous demeurons donc sur laréserve en ce qui concerne cette partie linguistique de l’Intelligence Artificielle.L’analyse directe de la compréhension en ‘sémantique ouverte’ semblant utopique, à quoi peut correspondrel’approche implicite que nous avons mentionnée ci-avant ? Il s’agira, pour l’essentiel, d’extraire, par desprocédés automatiques, d’un texte donné suffisamment d’informations pour que tout lecteur potentiel, ayant unesolide connaissance du domaine abordé, puisse en déduire une exacte description du ‘ce dont il parle’. Dans cetteapproche, la fermeture sémantique est réalisée grâce à la compétence du lecteur. Et il est clair, par exemple,qu’un très grand savant, spécialiste des problèmes génétiques, ne saurait ‘comprendre’, sauf cas exceptionnel, un

Page 58: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

184

tenir à une réalité du texte, sans s’aventurer vers ce qui ressemble trop à des mirages, quis’évanouissent ou reculent. C’est aussi respecter la dynamique et la pluralité des interprétationspossibles.

One way to use computers effectively without claiming universality is to explore discursiveformations that underlie how we read texts. The emphasis of such an approach would be to locatewords, phrases, and syntactic constructions that produce meanings in a particular instance of reading.(Wolff 1994)

b) Place de la compréhension dans les traitements automatiques

Conception et interface : singer n’est pas la (seule) solutionLes approches de modélisation diffèrent quant à leurs choix fondamentaux :

• modéliser en s’efforçant de reproduire les processus naturels (avec donc une possibilité devalidation théorique d’un modèle descriptif) : c’est de cas de l’IA (Intelligence Artificielle) diteforte ;

• modéliser en visant à obtenir le même comportement, les mêmes réponses, sans nécessairementmimer le moyen d’y parvenir (en quelque sorte, on se donne une ‘obligation de résultat’, mais pasune ‘obligation de moyens’) : IA faible121.

La même division se retrouve pour la conception de l’ergonomie des systèmes :• voiler le fonctionnement du système, et dans l’idée que l’utilisateur n’aie besoin d’aucune

connaissance supplémentaire pour s’en servir, qu’il n’aie pas à changer ses façons de fairenaturelles parce qu’il se trouve devant une machine : IA simulatrice ;

• adapter le système aux moyens disponibles et aux tâches à effectuer, en donnant à l’utilisateur lapossibilité d’interagir en appréhendant le fonctionnement du système, en s’adaptant,éventuellement en jouant sur certains paramètres : IA opératoire.

En raison de la complexité des processus d’interprétation et du peu de connaissances en lamatière, une solution anthropomorphique n’est guère souhaitable. De plus, rien n’assure qu’elle auraitdes performances (qualité du traitement) supérieures122. Notre objectif est l’efficacité de l’application,pas une investigation du fonctionnement cognitif pour elle-même. La voie de l’IA faible est plussouple et pas moins puissante : c’est elle qui est choisie ici.

Au lieu de voir dans la formalisation des connaissances un modèle permettant de reproduire lecomportement cognitif d’un être humain possédant ces connaissances, il s’agit à présent de considérerqu’une telle formalisation permet de construire un système dont le comportement, une fois interprété,

ouvrage traitant des problèmes technologiques liés à la miniaturisation des ordinateurs. En d’autres termes, c’estle lecteur lui-même qui reconstruira le contenu du texte à partir des éléments qui lui seront proposés. Dès lors,deux types de problèmes sont immédiatement soulevés : cette reconstruction étant, par définition, cohérente,comment peut-on évaluer son degré de fidélité par rapport au texte ? Est-il même envisageable qu’unereconstruction complètement inexacte (qui serait en quelque sorte un contresens global) soit créée ? En secondlieu, on doit se demander comment sera traité le passage de la langue du texte à la langue du lecteur, ces deuxlangues étant presque toujours différentes. »Ces quelques paragraphes ont le mérite d’évoquer plusieurs idées importantes : le concept de « sémantiquefermée », la quête illusoire de représentation exhaustive du sens, la compétence irremplaçable du lecteur. Pourautant, parmi les présupposés contestables, celui sur le sens du texte, que le lecteur peut retrouver de façon plusou moins exacte. Quant au problème du passage de la langue du texte à celle du lecteur (problème que nousavons au reste du mal à cerner), nous le suspendrons ici en le réservant aux systèmes fortement multilingues(c’est-à-dire où l’utilisateur peut être confronté à des textes d’une langue qu’il ne connaît pas, ce que nousn’envisageons pas pour DECID).121 Par exemple, s’agissant de « la compréhension de textes rédigés dans la langue naturelle [...] il ne s’agit pas defonctionner comme un humain, ni de comprendre comme un humain, mais de fonctionner de telle manière qu’unhumain interprète le comportement du programme comme une compréhension. » (Bachimont 1992, §1.5.3.2,pp. 25-26).122 Croire à la supériorité intrinsèque de la simulation est se fourvoyer sur le statut de la modélisation, car il n’y apas de correspondance scientifique entre d’une part les mécanismes sous-jacents d’un phénomène, et d’autre partla valeur de signification de ce phénomène pour une personne, cf. (Bachimont 1992), notamment §1.5.3.2.

Page 59: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

185

approxime le comportement cognitif d’un être humain possédant ces connaissances. (Bachimont 1992,§1.5.3.2, p. 25)

Dans le cas de DECID, cela consiste à se tenir au plus près de ce dont on dispose : les textes,tels qu’ils peuvent être fournis à la machine.

In our approach, since the computer does not move away from the text, we must discover ways inwhich it can be made to work with what is available in the text itself. Accordingly, the basic units ofinformation are words, singly and in combination, word frequencies, and the positions of words inrelation to each other. ‘Sticking to the text’ in this way leads us to develop systems that do thingsdifferently from the way a human would ». (Renouf 1993b)

Contrôle et suspens de l’interprétationCalculer n’est pas comprendre. La machine reçoit des données (une suite de symboles), y

applique (aveuglément) un certain nombre de réécritures, et conclut sa tâche sur un critère externe,logiciel (sorties prévues dans l’algorithme) ou matériel (panne). De décision, elle n’a guère : elle suitce qui a été prévu dans la conception du traitement. Même un choix aléatoire n’est que l’appel d’unecertaine fonction, présentant certaines propriétés mathématiques.

En soumettant un texte, dans un certain format qu’il a préparé, et en connaissant les principesdu traitement qui lui sont appliqués, l’utilisateur est en mesure de poursuivre l’interprétation et derevenir au texte en s’appuyant sur les indicateurs apportés par le calcul. La phase de manipulationsymbolique opérée par la machine est comme une restructuration d’entités, indiquées et déposées audépart, et retrouvées et réappropriées à l’arrivée. On peut parler d’un suspens, d’un report del’interprétation.

La machine ne comprend pas. Il y a intelligence du traitement, non que la machine soit dotéed’une intelligence, mais que l’utilisateur soit en intelligence avec les propriétés du traitement, que lesfondements, objectifs et limites du traitement lui soient intelligibles.

Les signes sur l’écran sont des symboles ininterprétés, des codes que manipule le programme. Ilssont lus cependant par l’utilisateur qui les interprète et leur attache du sens. Il faut que ce sens soitconforme à ce qui est attendu [du traitement]. (Bachimont 1992, §1.5.3.2, p. 26)

c) La dimension applicative : des contextes favorablesCertaines applications d’analyse de textes visent à extraire certains types d’information

(prédéterminés), pour les enregistrer dans une base de données. L’utilisation escomptée est alorsl’interrogation sur la base des informations recueillies. Le système est évalué en fonction de sacapacité à répondre à des questions à propos de certains éléments des textes.

La diffusion ciblée ne travaille pas sur l’information elle-même : elle travaille sur satransmission.

L’observation de situations courantesDans un courrier à propos de DECID, Pierre Dumesnil (chercheur à l’INT, Evry) remarque :

En tant que destinataire potentiel, il me plairait qu’un texte me parvienne qui ne soit pasexplicitement dans mon domaine (selon les descripteurs) [i.e. les indices apportés par l’auteur ou lacollection sont insuffisants, il a fallu considérer le texte lui-même], mais que je puisse lire avec profit.C’est la situation que je vis avec mon libraire qui ne comprend pas trop ce que je lis, mais qui,néanmoins, m’indique ce qui pourrait m’intéresser. Souvent, il a raison.

Le libraire pratique une forme de lecture professionnelle, de perception du texte, qui nemobilise pas une appropriation de connaissances apportées par le texte. Ces types de lectures ont déjàété la source d’inspiration de systèmes informatiques, comme l’exemple qui suit.

Un exemple : de la lecture d’analyse documentaire à la conception d’uneapplication automatique

Le principe de départ du système SERAPHIN (Système Expert de Repérage Automatique desPhrases Importantes d’un texte et de leur Normalisation) (Le Roux, Monteil 1993) est de repérer dansles textes des indices de surface pour évaluer le caractère central ou non d’un propos dans ledocument. Par exemple, une formule comme « il est essentiel de noter que... » manifeste l’importance

Page 60: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

186

accordée par l’auteur à ce qui suit immédiatement. Cette approche revendique le modèle fourni par lespratiques des documentalistes, et plus précisément le cas d’une personne qui connaît bien lefonctionnement des documents et de la langue, même si elle ne possède pas tout le bagage techniquepour comprendre un texte de spécialité. La connaissance convoquée par une telle documentaliste,pour analyser le document (pour le classer, le conseiller), serait moins une connaissanceencyclopédique qu’une connaissance linguistique et documentaire : tels sont les présupposés surlesquels s’est fondé le système SERAPHIN. Bref, on pourrait donc analyser un texte et en repérer lesprincipales idées sans pour autant passer par une étape de compréhension.

La recherche documentaireL’ouvrage de référence du courant de l’information retrieval souligne que la tâche de

recherche documentaire n’implique pas nécessairement une modélisation fine du contenu dudocument, ni un objectif de compréhension automatique123.

On the one hand, some individuals are convinced that to retrieve items « about » certain subjects,it is necessary to use all available facts pertaining to these items. This operation necessarily requires ananalysis of meaning which is not substantially different in information retrieval from other areas oflanguage understanding. In particular, a desirable indexing, or content analysis, approach would thenconsist of translating the document or query into some formal language consisting of concepts andrelationships between the concepts. This introduces the notion of a semantic network and oftranslations from one language (the input) to another (the formalized index descriptions). [...]

The opposite view about the importance of language analysis [and understanding] in retrievalcomes to very different conclusions. [...] The reason may be that a fundamental difference existsbetween information retrieval on the one hand and certain other language processing tasks on theother. In retrieval one needs to render a document retrievable, rather than to convey the exact meaningof the text. Thus, two items dealing with the same subject matter but coming to different conclusionsare treated identically in retrieval, that is, either they are both retrieved or they are both rejected. In aquestion-answering or language translation situation, these documents would of course be treateddifferently. This amounts to a qualitative difference between document retrieval on the one hand andquestion-answering or language translation systems on the other. For example, to answer a specificquestion about an apple it is helpful to have some detailed knowledge about apples. To retrievedocuments about apples, it may be unnecessary to understand precisely what the concept of appleactually entails. Instead, it may be sufficient to detect rough similarities between documents andconcepts –for example, it might be enough to know that an apple is more similar to a pear than to anelephant. [...]

This view of information retrieval rejects the notion that information retrieval is simply an earlystage of more refined question answering. »

(Salton, McGill 1983, §7.2)Dans l’application de diffusion ciblée, le système n’a pas à comprendre le document, pas plus

qu’il n’a à dresser un portrait de chaque destinataire. C’est une caractérisation qui est visée :caractérisation des documents qui permet de les positionner les uns par rapport aux autres,caractérisation de l’activité des destinataires, qui reflète leurs intérêts et compétences professionnels.

2. Représentation

a) De justes rapports

La primauté du texteLe texte est accusé de fournir une représentation partielle (à cause de l’implicite), redondante

(synonymies), imprécise (polysémies). La traduction dans un formalisme est alors présentée comme

123 Mail il y a des tenants des deux écoles, et par exemple (Fox 1987) collectionne les formes de contributionpossibles de l’Intelligence Artificielle à la recherche d’informations : représentation des connaissances avec desframes, représentation du temps, systèmes experts, etc.

Page 61: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

187

un bénéfice : là, l’expression est rigoureuse et explicite124. Cette vision doit retournée, pour rétablir laprimauté du texte et reconnaître sa juste place à la représentation formalisée. La formalisation esteffectivement nécessaire au traitement, et une formalisation appropriée donne toute son efficacité autraitement automatique. Le sens et la valeur d’une représentation formalisée sont relatives à uneapplication. La langue, à l’œuvre dans le texte, reste la représentation la plus riche et la plusexpressive, c’est bien une forme privilégiée de la communication humaine125. La représentationformelle ne saisit que certains aspects d’un texte.

Même si l’application informatique n’opère que sur une représentation formelle, la visionsous-jacente peut n’être pas soumise aux contingences techniques. Prenons un jugement désabusécomme celui-ci : « si l’on décide de recourir à l’informatique, alors on adopte une vision du texte entermes de décomptes et de positions de mots ». C’est placer le texte en dépendance par rapport àl’informatique. Cette perspective est en fait à renverser. L’objectif est de se donner une description dutexte, dont on tire une modélisation implémentable. La description initiale fonde l’ensemble, et assureune signification qui déborde le cadre d’une manipulation de symboles. L’informatique intervientcomme étape de l’application, en tant qu’outil. Elle n’a pas à dicter a priori une vision réductrice duproblème.

Ce qui revient à la machineLes atouts de la machine se définissent en regard des limites naturelles des capacités

cognitives humaines : 124 « Language, a mere go-between in our communicative intentions, creates certain severe shortcomings whichare unacceptable from a logical point of view : homonymy (various things called by the same name) ; synonymy(various names for one thing) ; extensional indeterminacy ; and indistinction among levels. In trying to solvethese obstacles, we traditionally fall back on logic, a discipline that studies the structure, foundation and use ofcognoscitive expressions, allowing, in short, a meticulous analysis of thought. [...]The importance of formal logic applied to operations of content analysis comes from the fact that logicalsymbols, unlike linguistic ones, have a perfectly accurate meaning. One of the most important discoveries ofcontemporary methodology is having realised that, using language in its syntactic plane (and thereforedisregarding the other two) makes the intellectual work much easier. [...] [The logical primitive elements andrules] do not form a language, a means of communication, but rather a truly syntactic framework : their elementsare opaque entities, though there is always the possibility of transforming a calculation into a language byinterpreting its symbols and giving them a meaning ». (Pinto Molina 1994)125 « les langues naturelles, elles, n’ont pas les propriétés d’un code ; elles évoluent dans le temps, ellescomportent nécessairement de l’implicite, et elles ne connaissent pas de correspondance bi-univoque entre formeet sens : c’est précisément cette non-biunivocité constitutive sur le plan des signifiants (marqueurs et structures demarqueurs) et le plan des signifiés (valeurs sémantiques) –sources des phénomènes d’ambiguïté, de polysémie, desynonymie, de paraphrase– qui donne aux langues cette marge de jeu, cette labilité leur permettant d’être desinstruments de communication (et pas seulement des moyens de consigner l’information). » (Fuchs & al. 1993,introduction §3.2, p. 25)« Il est [...] communément entendu que la langue ne serait pas suffisamment précise ou qu’elle serait ambiguë.[...] [Pourtant], dans son effectivité, la langue ne fonctionne pas comme un assemblage codifié d’éléments auxpropriétés préalablement fixées, mais comme un système dont la cohérence est testée à la fois de manière interne(cohésion) et de manière externe en référence avec un monde, imaginaire ou réel, jugé possible. Cette propriété,si elle est maniée avec suffisamment de virtuosité, permet en particulier de s’affranchir des significationsdisponibles, des règles grammaticales ou syntaxiques sans que la construction finale soit privée de sens, sansqu’elle soit ambiguë et sans qu’elle soit déclarée « illégale ». Cette « torsion » des règles et des « valeurs » deséléments à assembler serait destructrice pour un langage, elle ne l’est pas pour la langue [...].[...] dans la vie la plus quotidienne, sans être poètes, locuteurs et scripteurs d’un côté, auditeurs et lecteurs del’autre, manifestent la capacité à dire et à entendre l’inouï, à écrire et à lire l’inédit, non pas comme simpleassemblage, combinatoire ou enchaînement de ce qui avait déjà été dit ou écrit, mais comme vraie nouveauté oumieux, comme création, non logiquement déductible des traces externes antérieures de la langue. Cette capacité àénoncer et à communiquer efficacement le nouveau –ou, de manière infiniment plus rapide que le langage, le nonimmédiatement déductible– constitue à nos yeux ce qui rend inexpugnable la position de la langue. »(Dumesnil 1995, pp. 13-14 et 16-17)Voir aussi (Rastier 1995c, §I.C), sur les imperfections dont a été accusée la langue et sur les entreprises deconstruction d’une langue parfaite.

Page 62: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

188

• sa capacité à faire un balayage intégral, systématique, exhaustif, selon le point de vue qui lui a étéprescrit. La machine ne perd rien, n’oublie rien, ne néglige rien des entités qu’on lui a demandé derepérer et d’enregistrer.

• sa capacité à embrasser dans leur ensemble d’énormes volumes de données, et d’accéder avec uneégale facilité à une multiplicité d’informations. L’ordinateur a ainsi réellement permis de mettre enœuvre les techniques d’analyse des données (analyse factorielle, classifications), qui font appel àdes structures matricielles de grande taille qui, sauf approximation ou cas particulier, ne sedécomposent pas en structures de taille plus réduite où répartir la tâche et mener des petits calculsindépendants. La machine est ainsi capable de suggérer et de mettre en évidence des rapports quipasseraient inaperçus dans la « masse ».

• sa rapidité pour effectuer des calculs. Calcul doit être pris dans un sens très large, qui inclut nonseulement les opérations arithmétiques, mais aussi des opérations élémentaires sur divers types dedonnées (troncature d’une chaîne de caractères, etc.), ainsi que toutes les fonctions et procédures,combinaisons élaborées de transformations que les programmes informatiques permettent dedéfinir.

• ses bases de codage explicites, déterministes, et discrètes. Il y a de multiples manières de définirl’égalité (même enregistrement en mémoire, même valeur), mais pour une définition donnée lerésultat est tranché : l’ordinateur n’« hésite » pas126, n’a pas de problème perceptif et interprétatif.Cela le rend particulièrement apte dans des fonctions de contrôle et de vérification systématique decontraintes.

Ces propositions rejoignent celles qui ont pu être exprimées sur la conception de systèmesanthropocentrés :

c’est la machine qui assiste l’homme, non pas l’homme la machine [...] [,] en lui proposant sesservices en matière d’organisation et de gestion des ressources, de calculs symboliques, decomparaisons, bref de services de contrôle de cohérence et de suggestion. (Kanellos, Thlivitis 1997)

Si l’ordinateur n’a rien de la créativité et de l’intelligence humaine –il ne fournit rien qu’iln’ait reçu, sous forme de données ou d’algorithme127–, il est en revanche capable d’épauler l’hommedans certains traitements. Il démultiplie128 les possibilités sur les aspects que nous avons énumérés.Cette aide est comme celle d’un outil, qui prolonge les possibilités d’action sous une formedifférente : le calcul de la machine ne peut être l’image que d’une infime partie des mécanismes deraisonnement humain ; l’enregistrement de la machine est un reflet, déformé et appauvri à l’extrême,de la mémoire humaine.

Il y a bien une place pour la machine dans la sémantique des textes, aux côtés de l’homme quiseul donne du sens :

Yves-Marie Visetti (Visetti 1991) annonçait un renversement de tendance, au vu des échecs destentatives d’artificialiser et de copier l’humain, et proposait la coopération entre l’homme et lamachine. Qui remettrait en cause une telle coopération pour le langage ? Sûrement pas nous, quiutilisons un traitement de texte pour cet article, et un correcteur d’orthographe pour vérifier sa placedans une norme langagière. Mais nous allons ici proposer un nouveau type d’outils, que l’on pourrait

126 Des oscillations éventuelles ne relèvent pas d’un comportement intrinsèque de la machine, mais d’unalgorithme dont la conception est de la responsabilité de l’informaticien.127 « L’expression dans les langages formels des connaissances réduit la connaissance à sa formalisation :l’approche cognitiviste, formaliste, ne trouve alors dans les données qu’elle même, ce qu’elle y a donné. L’IA,dans cette mesure, ne traite les problèmes non tels qu’ils se présentent, mais tels qu’elle les re-présente, lesformalise. L’IA devient ainsi tautologique en ne traitant plus que les problèmes qu’elle sait résoudre. »(Bachimont 1992, §8, p. 309).128 Ou « amplifie » : « [Engelbart (dans GREIF Irene (ed.) (1988) - Computer supported cooperative work : abook of readings, San Mateo, CA, Morgan Kaufmann) parle des machines comme servant à amplifier l’activitémentale.] Cette idée d’amplifier est tout à fait intéressante parce qu’elle procède d’une orientation vraimentdifférente de celle de l’intelligence artificielle, les systèmes experts, etc. ; il ne s’agit pas de substituer quoi quece soit à l’activité mentale, il s’agit de lui donner des amplificateurs, c’est-à-dire un outillage qui lui permette detirer davantage de son activité mentale grâce à un outil plus puissant. Engelbart dit d’ailleurs, qu’il n’y a pasd’intelligence humaine sans outillage, et l’intelligence artificielle c’est un outil particulier, mais ce n’est pas uneautre espèce d’intelligence, c’est toujours le même mode de fonctionnement, une activité mentale qui tire sesconnaissances de son outillage. » (Poitou, Ballay, Saintive p. 11)

Page 63: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

189

grossièrement appeler des outils de traitement de sens. Tout comme les textes que nous tapons neproviennent pas de la machine sur laquelle ils sont simplement mis en forme, une interprétation, ouune attribution de sens à un texte relève uniquement de l’humain, avec tout ce que cette notion peutsupporter de psychologique et de social. Dans le type d’outils que nous proposons, la machine ne sertdonc qu’à mettre en forme une interprétation, et surtout à guider cette opération dans un ensemble decontraintes et d’étapes. Nous verrons également comment cet ensemble d’opérations peut se révélersource de création, en compensant l’aspect exhaustif de ce processus par la proposition de nouvellesdirections dans l’exploration du sens. Enfin, la « standardisation » des données interprétatives permetégalement la qualification d’une interprétation, et propose des voies vers l’appréhension del’intertextualité, toujours en utilisant les facultés de calcul de la machine. (Tanguy, Thlivitis 1996)

La machine prend place dans une stratégie d’aide au traitement d’un grand volume detextes129, et non sous la forme du remplacement d’une compréhension humaine.

Even though we can read more text more systematically with computers, we must still contendwith our ‘horizon of expectations’, a preexisting frame of reference that governs how we interpret textsaccording to subjective perceptions.

Perhaps one way to use computers effectively in textual analysis is to see how the text is able tomanipulate how we read. Intertextuality from this angle would not be a static system of fixed signifiersbut rather openings in the text that compel the reader to participate in the production of meaning. [...]

[Although the analysis is never complete,] databases such as ARTFL130 enable us to exploreintertextuality in ways that did not exist before computers. [...]

Anxiety about computers in the humanities may finally have less to do with methodologies andmore to do with our expectations for ‘science’. The technology at our disposal leads many individualsto expect that literature will finally be explained scientifically. Unless we make it clear what computerscan and cannot do, the myth of science will obscure rather than enhance literary studies.

(Wolff 1994)Soulignons en particulier combien l’introduction du calcul est un apport majeur dans le cadre

de l’inter-détermination global - local, dès lors que le global excède les capacités cognitives deprésentation synoptique. En effet, pour comprendre –prendre ensemble– il faut pouvoir embrasser unensemble pour situer et interpréter chaque élément. Le support numérique et ses possibilités detraitement (bien pensées) prend avantageusement le relais des dossiers papier, lorsque ceux-ci nepeuvent plus être disposés, agencés, de façon significative, sur la surface d’un bureau. Accordons-nous une illustration complète et récapitulative de ce propos, dans le cadre de l’étude de la mise sousforme hypertextuelle des dossiers patient dans un hôpital :

Le dossier papier [un « dossier patient » dans un hôpital] [...] autorise [...] une lecture rapide etefficace en fonction des objectifs de lecture fixés dans la pratique hospitalière. En effet, [...] [il] peuts’étaler ([sur] une table par exemple) et [...] la position des documents dans cet espace conditionne lasignification des informations contenues dans ces documents. Par ailleurs, outre la position dansl’espace, la nature physique du support papier conditionne l’interprétation des informations. Parexemple, si le dossier est étalé en paquets correspondant chacun à une hospitalisation passée, unpaquet peu épais renverra à une hospitalisation de routine dont la consultation n’est que de peud’intérêt ; en revanche, un paquet plus épais correspond à une hospitalisation au cours de laquelle descomplications sont survenues et par conséquent elle mérite le détour. Par ailleurs, la couleur plus oumoins jaune du papier indique l’ancienneté de l’hospitalisation : une hospitalisation ancienne étantconsultée en dernier [...].

Quand on dématérialise le dossier [en en faisant un document électronique, sous formehypertexte], on perd les aides matérielles à la navigation / consultation apportées par le support papier.[...] En effet, la consultation [d’une collection de documents] se structure à partir du moment où, étalésur un espace, [la collection de documents] peut s’appréhender globalement comme un tout : onembrasse sa finitude d’un seul regard et c’est dans ce cadre fini que l’on instrumente la consultation eninterprétant la position spatiale dans l’espace comme une prescription interprétative sur le contenu.Puisque la signification est une position dans un réseau de valeurs sémantiques, il est indispensable

129 (Michel 1997, §2.4, pp. 223-224) voit dans les nouvelles procédures d’investigations sur des grands volumesde textes, l’apparition d’une macro-information, par opposition à la micro-documentation traditionnelle, où ils’agit de sélectionner quelques références de textes à lire.130 ARTFL : American and French Research on the Treasury of the French Language. Collaboration entrel’Université de Chicago et l’Institut National de la Langue Française (INaLF / CNRS), à partir du corpus delittérature française qui a été constitué pour la réalisation du dictionnaire Trésor de la Langue Française (TLF).

Page 64: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

190

d’embrasser le réseau dans sa globalité pour attribuer une position et donc une signification audocument consulté. Or, il est bien clair que la synopsis globale de [la collection de documents] estperdue lors du passage au support informatique. [...]

Pour pallier cette désorientation inhérente à l’informatisation des hyperdocuments, on s’attache,dans certaines expérimentations, à reproduire sur l’écran des équivalents iconiques des aidesmatérielles liées au support papier (indices de couleur, taille analogique des dossiers représentant unehospitalisation, reproduction du fait de tourner les pages, etc.). Egalement on tente de suggérer àl’utilisateur une vision d’ensemble de l’hypertexte pour qu’il sache où il en est : par exemple on luisoumet un damier de rectangles colorés, chaque rectangle correspondant à un document, la couleurindiquant qu’on l’a déjà consulté ou non.

Mais, par ailleurs, on gagne la possibilité de déléguer au système le calcul de la navigation ; aulieu qu’il s’agisse de se repérer en fonction de la contiguïté spatiale, il s’agit de se repérer dans laconsultation du dossier informatisé en fonction de liens calculés. La finitude synoptique du dossier, quis’offre au regard, doit laisser place à la finitude computationnelle du dossier. Le support informatiquepeut calculer sur l’ensemble du dossier et proposer via les liens le point de vue synoptique dont abesoin l’utilisateur pour s’orienter. On gagnerait ainsi la possibilité d’appréhender des [collections dedocuments] dont le volume matériel interdit toute synopsis. Il en est ainsi des [collections dedocuments] portant sur des systèmes techniques complexes : par exemple, la documentation techniqued’un Airbus est aussi volumineuse que l’Airbus lui-même [...].

Il n’est pas question de lire l’hyperdocument à la place du lecteur : le lien calculé propose unsens de parcours, il ne l’impose pas. Pour deux raisons : la première renvoyant aux considérations [...]sur le fait que les actes interprétatifs d’un lecteur humain ne sont pas d’ordre calculatoire et qu’il n’estpar conséquent pas possible de calculer une lecture ; la seconde tenant au fait que, pour que lecture il yait, il faut qu’il y ait une actualisation active par le lecteur du sens proposé par le système. [...]

Si l’on se souvient que la meilleure manière de traiter [une collection de documents] papier estde l’étaler sur un plan matériel pour que sa vision globale permette d’interpréter les positions desdocuments vis-à-vis de l’ensemble, on constate que l’on conserve la même idée à un niveau localdésormais, l’écran. [...] [Le calcul permet de projeter] le global dans le local. Par exemple, lorsquel’on calcule une table des matières [...], c’est bien de cela dont il s’agit : l’appréhension de la totalitédu texte, tâche difficile, fastidieuse voire impossible à l’échelle d’un individu, pour en déduire undocument de synthèse accessible dans son unité et sa globalité.

(Bachimont 1999c, pp. 21-27)

Sans interprète, pas de sensLa machine n’opère que des réécritures, selon des opérations d’ordre syntaxique. Or la

syntaxe ne détermine pas la sémantique. C’est l’utilisateur qui se fait interprète et confère un sens auxcalculs de la machine.131

Plus généralement, les objets ne préexistent pas extérieurement à un sujet (une personne), etindépendamment. Ils sont délimités, identifiées, construits, constitués, dans une activitéherméneutique. Ceci renvoie à l’approche phénoménologique.

Une réflexion sur la constitution ontologique et épistémique des sciences du langage faitapparaître en leur sein le travail d’une double herméneutique : les structures langagières sont à la foisla condition de possibilité et le résultat de l’activité interprétante des sujets parlants. [...]

Les textes ne sont [...] en aucune manière des représentations renvoyées sur un réel supposéobjectif.

131 « [...] nous savons que l’ordinateur est une machine à manipuler des signes [:] [...] les algorithmes netransforment les codes qu’en fonction de leur forme syntaxique, et non en fonction de leur interprétationsémantique. [...][Or] une connaissance ou représentation interprétée ne contient pas dans sa forme ce qui fait d’elle uneconnaissance, i.e. les principes de son interprétation. [...][Donc] le principe de calquer la syntaxe sur la sémantique [sic] est intenable en son fondement : le sens et laforme ne sont pas en relation biunivoque, et les programmes de l’IA [Intelligence Artificielle] ne sont pas desconnaissances.[...] Par conséquent, il faut confier à l’utilisateur la tâche d’interprétation, qui devient par là même une tâche devalidation.[...] Pour parler du sens il faut un interprétant [c’est-à-dire quelqu’un qui interprète.] »(Bachimont 1992, §1.5.2, pp. 20, 24-25)

Page 65: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

191

(Havelange 1995, pp. 136-137)La subjectivité originelle et ultime de tout traitement sur les textes peut être tempérée par la

recherche et la mise en évidence de régularités et de convergences, subsumant les variations d’untraitement à l’autre :

Si l’on peut raisonnablement espérer conduire une analyse rigoureuse et exhaustive, la phased’interprétation reste inévitablement subjective, incertaine mais cependant nécessaire : il faut enassumer le risque, en tentant de le limiter par une recherche constante de convergences (multiplicationdes analyses, croisement des résultats, etc.). (Dupuy 1993, p. 34)

b) Une heureuse fatalité

Représenter, c’est réduireLe texte est irréductible, toute transposition « perd » quelque chose de lui. C’est le cas de ses

descriptions secondaires (mots-clés, résumé), aussi bien que de tout encodage formel (arbressyntaxiques, étiquettes « sémantiques »).Toute modélisation appauvrit. Il n’y a pas ‘dans’ le texte un‘contenu’ qu’on peut capter et transporter dans une représentation132.

La réduction apparaît, sous sa forme la plus simple, comme la suppression de la redondance. [...][Elle] ne peut se faire qu’au prix d’un certain appauvrissement de la signification : le niveau degénéralité une fois choisi, la description ne peut apparaître que comme la sélection des éléments decontenu pertinents et comme le rejet (ou la suspension provisoire) d’autres éléments, considéréscomme stylistiques et non pertinents pour la construction du modèle. (Greimas 1966, §IX.3.b, p. 159)

En explicitant ce qu’elle retient, la représentation perd la dimension, en perspective infinie, dedéploiements implicites du texte.

Pour autant, élaborer un traitement automatique suppose bien à un moment de construire unereprésentation du texte, qui inévitablement en gomme certains aspects mais pour mieux se focalisersur d’autres : tout l’intérêt de la recherche est dans le choix, le repérage et la modélisation de ladimension du texte que l’on s’efforce de capter, sans prétendre qu’il s’agisse encore du texte dans saplénitude.

L’utilisation de la théorie sémantique pour des applications informatiques consiste en premierlieu à transposer une lecture descriptive en lecture réductive, c’est-à-dire à sélectionner les unitéssémantiques pertinentes pour la tâche. (Rastier, Cavazza, Abeillé 1994, §I.2.2, p. 16)

La modélisation a à la fois un rôle descriptif –rendre compte de ce que sur quoi l’on veutbaser l’analyse–, et un rôle normatif –ici, permettre la comparaison, rendre commensurable.

Réduire, c’est commencer à interpréterLa réduction procède d’un choix, qui met en relief les caractères « intéressants ». La réduction

est intrinsèquement subjective et relative, mais, ainsi orientée, elle gagne en pouvoir de significationce qu’elle perd en universalité.

En centrant la représentation sur ce qui est utile dans le traitement, la réduction concourt àl’efficacité du traitement. En organisant la description et en en donnant les contours, la réductionrépond aussi à des critères d’ergonomie : elle aide à saisir, à percevoir, la réalité décrite dans sadiversité.

L’indexation, dans les pratiques documentaires, devrait ainsi être guidée par despréoccupations herméneutiques. L’enjeu est de mettre en rapport le texte et le lecteur. L’analysedocumentaire procède de l’élucidation (avec un objectif de « fidélité » de la représentation) et de lacontextualisation (limiter l’émiettement des documents, des œuvres). La représentation documentaireest bien appelée à concilier « l’ouverture herméneutique potentiellement infinie et la nécessaireréduction documentaire ». (Richardot 1996)

Donner la représentation d’un texte, dans DECID, c’est expliciter les ingrédients de lecturesdu texte. Un texte, y compris un texte technique, est susceptible de multiples lectures, en fonction despréoccupations du lecteur, de ce qui motive la lecture, etc. La représentation, conçue pour une

132 C’est une des raisons de récuser la possibilité de définir un langage pivot, qui servirait d’intermédiaire pourpasser d’une langue à une autre, sans déformation de sens (ni perte, ni ajout !).

Page 66: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

192

certaine application, s’inscrit elle-même dans un mode d’approche du texte. Pour DECID parexemple, il ne semble pas prioritaire de se focaliser sur les actes de langage, même si c’est unequestion par ailleurs très étudiée. Il y a, dans le choix d’une représentation, un opportunisme biendosé.

c) Les voies de réduction

La projectionC’est le choix initial d’un espace de description.Pour un texte : va-t-on considérer la police de caractère utilisée, l’ordre des mots, le

changement de page, etc. Le choix le plus courant, en lexicométrie, est de considérer le texte commeune suite de caractères, en distinguant des caractères constitutifs de mots (lettres), des caractèresséparateurs de mots (espace, apostrophe), et éventuellement des caractères particuliers (ponctuations).

Le texte est en fait toujours tributaire d’une projection, sur le plan de sa réalisation matérielle(codage, mise en page,...) et sur le plan de son rapport à un lecteur, lors d’une lecture (attention portéesur certains aspects et pas sur d’autres, sciemment, consciemment, et inconsciemment). La projectionest la réification de la perception : elle explicite ce que capte la machine, ce qu’aperçoit le lecteur.

Les projections possibles d’un texte sont multiples, et constituent autant de représentationspertinentes pour des points de vue et des usages différents. Le texte est dans chaque cas considérésous un certain angle. Chaque projection s’opère suivant un axe, qui organise la façon dont le texte se« rabat » sur le plan de projection, et lui donne donc sa direction (son sens ?) générale, assurant lacohérence d’ensemble de la représentation vis-à-vis de la matière initiale.

(Morizet-Mahoudeaux, Terray, Brunié, Kassel 1998) font de la projection un processusfondamental dans les systèmes hypertextes : chaque manière d’utiliser les données du fichierélectronique enregistrant le texte est une projection133. La définition qu’ils proposent résume laplupart des points que nous venons de voir (c’est nous qui soulignons) :

Definition : a projection is any systematic operation, which gives a perceptible output, from adetermined format. (Morizet-Mahoudeaux, Terray, Brunié, Kassel 1998)

Ajoutons un dernier point, qui annonce le paragraphe suivant : la projection est globale, ausens où elle considère tout le texte, et où elle retient sa réalisation entière sur la ou les dimensionsqu’elle retient. C’est ainsi qu’elle se distingue d’une opération de sélection.

La sélection et l’éliminationLa seconde voie de réduction est pratiquée sous ses deux faces : sélection et élimination. Dans

les deux cas, il s’agit de délimiter un sous-ensemble dans un ensemble plus vaste. On obtient ainsideux parties (le sous-ensemble vs le complémentaire), que l’on fait correspondre aux deuxalternatives, garder vs laisser.

Les deux opérations, de sélection et d’élimination, seraient donc formellement complètementéquivalentes, si ne s’introduisait un facteur de dissymétrie. Tout dépend du caractère clos et biendéterminé de l’ensemble initial vis-à-vis des valeurs que peut prendre le critère. Soit le partage del’ensemble de départ se fait sur le mode une partie vs le reste (vision dissymétrique), soit on a deuxparties qui ont chacune leur consistance propre (vision symétrique).

Quand on se donne une liste de mots-outils, ou un référentiel terminologique, on opère undécoupage dissymétrique du vocabulaire de la langue. On ne sait pas définir le reste du vocabulaire de 133 Extraits de (Morizet-Mahoudeaux, Terray, Brunié, Kassel 1998) : We can « not only improve ourunderstanding of the nature of digital documents, but, more precisely our understanding of how we are accessingthem. Effectively, we do not have access to digital documents directly, since they always are an abstraction of theelectronic state of the computer, which we model through a bunch of numbers. This calls for defining theoperation that makes the document readable. We will call it a projection of the digital document. »« The table of contents from a structured text is a projection of the document, even if it omits a great part of thefile, since it is still a view of the same file. »« Each projection is an interpretation by the software of the semantics of the format. More precisely, the softwareis a tool used by the author of the programs for building interpretations of this semantics. »

Page 67: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

193

la langue de façon positive, c’est-à-dire autrement que « ce qui n’est pas dans la liste (ou leréférentiel) ».

Faire une sélection à partir d’un référentiel, c’est savoir ce que l’on garde, et ignorer ce quel’on laisse. Autrement dit, c’est retrouver à la sortie ce que l’on a mis en entrée, et ne pas accorderd’attention à ce qui ne correspond pas à ce qui est prévu. Le traitement est déterminé par le format durésultat que l’on veut obtenir. C’est l’attitude que l’on prend pour remplir une grille d’analyse (avecdes rubriques précodées), pour repérer des exemples d’usage d’un mot dans un corpus, pour effectuerune indexation contrôlée (toutes les notions à traduire par un mot-clé sont fixées).

Faire une élimination à partir d’une liste de mots-outils, c’est savoir ce que l’on veut laisser,et garder ce dont la preuve de l’inutilité n’est pas (encore) faite. Le rejet ne se fait que a posteriori, enconnaissance de cause. Cette attitude prévaut dans les dispositifs de veille, dans lesquels unenouveauté doit être repérée. C’est aussi l’approche générale de DECID : l’outil n’est un apport, pourla diffusion de l’information, que s’il est capable de percevoir des destinataires mal représentés par lagrille de l’organigramme, et pas toujours connus des collègues : activité marginale par rapport àl’équipe de rattachement, récent embauché, personne sur un site éloigné, etc.

Le regroupement, la synthèseLe regroupement procède par fusion : ce qui était distingué, et constituait plusieurs unités, est

finalement saisi en une seule unité. Une information sur la nature de la fusion peut enrichir lanouvelle unité. L’unité joue alors le rôle d’une formulation synthétique de ses composantes.

L’illustration la plus évidente est celle des regroupements en classes. Les procéduresascendantes opèrent par regroupements successifs d’éléments ou de classes. Cette approche adoptegénéralement un point de vue local : la constitution des classes s’organise à partir des voisinageslocaux, des proximités des éléments deux à deux. L’attention est portée sur la constitution interne dechaque classe, considérée indépendamment. La démarche inverse se pratique également. Lesprocédures descendantes raisonnent par divisions successives de l’ensemble initial. Elles considèrentdonc à chaque étape une partie et cherchent une scission optimale du point de vue de l’ensemble deses éléments. D’autres méthodes sont globales en cherchant à optimiser une partition en fonction decritères portant sur la structure d’ensemble. In fine, ce sont les rapports inter-classes qui ont uneimportance dominante dans la représentation obtenue. (Quatrain, Béguinet 1996, §3.3)

Quand (Greimas 1966, §V.3.c, p.68) annonce trois étapes pour la description, à savoir,successivement, l’inventaire, la réduction, et la structuration, il emploie le terme réduction dans unsens plus restreint qu’ici, car la réduction se traduit essentiellement chez lui par des opérations deregroupement (peut-être un peu aussi d’élimination). L’inventaire quant à lui a son pendant dans laprojection (et la sélection) ; la structuration pourrait être une forme encore différente de réduction, laréduction par analyse, qu’il nous reste maintenant à présenter.

L’analyse et la description par des loisUn ensemble d’unités « primitives », muni de lois de composition, permet de représenter en

puissance un beaucoup plus grand nombre d’unités « complexes ». Les primitives et les loisconstituent un résumé d’un ensemble de possibilités virtuelles. La réduction n’est satisfaisante que sile décalage entre les unités prévues par les lois et les unités effectivement réalisées est négligeable oune perturbe pas la description. D’autre part, pour qu’il y ait à proprement parler réduction, le nombredes primitives doit être d’un ordre de grandeur inférieur à celui des unités à décrire, et les lois doiventêtre simples et peu nombreuses (donc globalement productives).

Les langages d’indexation pré- ou postcoordonnés s’appuient sur cette propriété. Avec leslangages précoordonnés, la description du référentiel d’indexation est relativement concise, structuréeet systématique, et les termes d’index effectifs sont nombreux et précis. Pour les langagespostcoordonnés, les possibilités de représentation d’un document sont démultipliées par lespossibilités combinatoires des termes d’index134.

134 Voir par exemple (Lefèvre 1997, §4.2.1) pour une explication plus développée de la coordination dans leslangages documentaires.

Page 68: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

194

Au plan des représentations graphiques, la recherche de variétés (au sens mathématique duterme) s’apparente à ce type de réduction : on ajuste un type de forme connu aux données, qui, plusgénéral et plus souple, promet d’être mieux adapté que les seules formes linéaires (droites, plans)135.

d) Repères pour la mise en œuvre

Démarche méthodologiqueIl y a trois étapes-clés auxquelles se jouent la qualité de la représentation pour l’application :

la conception, la réalisation informatique, et la validation.Le schéma régulateur [que nous proposons pour la construction d’un système dans le domaine de

l’Intelligence Artificielle] comprend trois étapes clés : (i) spécification en termes sémiotiques ducomportement que le futur système doit posséder, c’est une étape de description sémiotique ;(ii) modélisation scientifique et construction technique d’un système respectant les descriptionssémiotiques, c’est une étape scientifique ; (iii) évaluation au niveau phénoménologique de l’adéquationentre les descriptions sémiotiques et le comportement produit par le système, c’est une étaped’évaluation sémiotique. (Bachimont 1992, §8.2, p. 313)

La dernière étape est rendue nécessaire parce que la description sémiotique donne lesconditions nécessaires pour que la machine fonctionne conformément à ce qu’on en attend, mais nondes conditions suffisantes (Bachimont 1992, §8.2.3, p. 316).

Des critères pour qualifier la représentationBruno Bachimont distingue trois dimensions d’évaluation de l’adéquation de la

représentation :Les critères d’évaluation découlent du triptyque nature / représentation / utilisation. Un premier

critère consiste à évaluer la facilité d’expression des connaissances dans le formalisme (adéquationnature / représentation), un second à évaluer la pertinence des représentations dans le système(adéquation représentation / utilisation), un troisième à évaluer le comportement global del’architecture (adéquation nature / utilisation). (Bachimont 1992, §8.5.2, p. 339)

Chacun de ces critères reçoit un nom. Le premier (adéquation nature / représentation) évaluela capacité du formalisme choisi à rendre compte de ce qui est pertinent pour le traitement, c’est uncritère d’expressivité. Le second (adéquation représentation / utilisation) évalue si l’utilisation desreprésentations par la machine est explicite et formulée en termes pertinents pour le concepteur, si lesprincipes de fonctionnement sont clairs, c’est un critère de transparence. Le dernier (adéquationnature / utilisation) évalue si le traitement correspond aux spécifications qui ont pu être posées, s’il estconforme à ce qu’on attend du système, c’est un critère de correction (Bachimont 1992, §2.5, p. 72).

3. Interprétation : huit conceptions

a) Introduction au parcours proposéL’examen des différentes conceptions de l’interprétation suit les jalons posés par (Rastier

1987), ce dont nous ne nous cacherons pas. Cette reprise se justifie par un changement de filconducteur. La progression ici aménagée va par « nombre de sens croissant ». Elle part de laconception la plus restrictive (quasi booléenne) à celle la plus largement ouverte (infinité), en passantgraduellement par les conceptions intermédiaires.

Cet ordre assez systématique nous paraît intéressant pour explorer méthodiquement ledomaine136. 135 L’équipe de Martin RAJMAN (EPFL, Lausanne) explore ainsi l’application l’analyse curvilinéaire pourconstruire une représentation optimale (déformation minimale et minimum d’espace « perdu ») de l’ensemble destextes d’une base. (http://liawww.epfl.ch/~lnmain)136 On ne suit pas ici de près les travaux d’Umberto ECO, qui a eu un rayonnement majeur dans les études surl’acte de lecture, notamment à travers ses essais (Eco 1979) ou (Eco 1990).Il faut également signaler la parution récente de plusieurs ouvrages de synthèse sur la question de la lecture, parexemple (Jouve 1993), (Dufays 1994).

Page 69: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

195

b) VériconditionLa logique formelle dispose d’un concept d’interprétation. Or la logique est quelquefois

choisie comme langage de représentations de textes137 (ce choix relève du débat sur Texte et phrases,car le niveau de travail de la logique est la proposition).

La logique piège le sens dans une alternative vrai / faux. Elle suppose un monde (ou modèle),représentation univoque et complète de la réalité concernée, et l’association biunivoque des objets dumonde et des unités d’expression. Elle statue alors sur la correspondance (isomorphe) de la présenceet l’agencement des entités langagières avec le monde. Cette conception fait du monde est undécalque du lexique et de la syntaxe du langage, le premier fixant ses objets, la seconde instituant lesrelations possibles entre eux. Il en résulte une sémantique statique et atomiste (Rastier 1994, §1.2.c,p. 329 sq.). L’extension opérée par la logique modale ne fait qu’introduire et gérer une multiplicité demondes.

Tout le traitement est polarisé sur les objets de travail de la logique : les quantifications(existence, universalité), la négation, la portée des différents opérateurs.

Cette conception se heurte à de sévères impasses dès lors que l’on veut s’en servir pour unesémantique des textes138. La notion de monde, qui serait porteuse de la sémantique du texte, ne faitque déporter la question du sens sans la résoudre139. Pire, cette représentation perd tout ancrage à laréalité : on abandonne la réalité du texte pour partir à la quête d’une description artificielle, appauvrie,et dont le mode de définition est non résolu. La traduction logique opère de façon myope, propositionà proposition, et s’arrange mal des souplesses de construction et d’expression de la langue140. Enfin,décrire le déploiement d’une interprétation comme une fonction d’appariement d’un terme à un objet,et d’une proposition à une valeur de vérité, est contraire à l’expérience de lecture141. Ce que l’onretient d’un texte est différent d’un moment à l’autre, d’une personne à l’autre, et ne se laisse pasréduire à une collection d’assertions validées ou invalidées.

c) Extraction et univocité

Sens hors-contexteDevant la montée en volume de l’information textuelle disponible, d’aucuns élaborent des

systèmes d’extraction de l’information des textes, de synthèse automatique, de filtrage, qui seraientune digestion appropriée, directement assimilable. La critique à leur encontre est évidente :l’expérience interprétative de chacun montre l’incidence déterminante du contexte dans le sens trouvéau texte.

The decision to use poststructuralist theories must imply a prior decision to at least suspend thebelief that texts have unique meanings that can be extracted with the right tools. (Wolff 1994)

137 La DRT fait une place importante au formalisme logique. On trouve aussi des initiatives, qui appellent lalogique de leurs vœux, mais laissent dubitatif quant à la forme concrète que cela pourrait prendre et à lafaisabilité de l’ensemble.« It is often the case that human knowledge materialised in scientific texts is a ‘world’ of logical facts (universalconcepts) arranged in a logical structure [...]. If we add the contrastable reality that any analytical process is,above all, a logical process, then any doubts about the possible contributions of logic to WTDCA [Written TextDocumentary Content Analysis] are fully dissipated. » (Pinto Molina 1994)138 Autant le formalisme logique est un outil puissant, précis et rigoureux, pour structurer des significations(lexicales), autant il s’avère inadapté à la description du sens (d’un texte).139 « [Pour une approche logiciste du langage,] la vérité des phrases est relative à un modèle, d’où la nécessité deconstruire des modèles (partiels ou non) de l’univers sémantique décrit avant de pouvoir leur assigner des valeursde vérité. » (Rastier 1987, §IV.2.6.3, p. 102)140 Un écart qui n’est pas des moindres : les primitives de la logique (les objets, propositions et arguments, surlesquels s’appliquent ses opérateurs), ne sont pas contextuelles (Bachimont 1999c).141 La représentation des tautologies par exemple n’est pas satisfaisante : sur ce point voir (Rastier 1987, §VII.1).

Page 70: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

196

Détermination par optimalitéPour résoudre l’implicite et les ambiguïtés, qui empêchent de trouver le sens du texte, des

principes régissant la communication ont été proposés. Les maximes de Grice142, conçues pour décrirece qui est compris au cours d’une conversation, découlent du postulat que les interlocuteurs cherchentà échanger de l’information de façon coopérative et efficace. (Sperber, Wilson 1986) poursuiventdans cette voie, en concluant que le sens effectif d’un message est celui dont l’intégration à ce quiprécède et à la situation est la plus directe. L’interprétation pertinente serait celle qui s’écarte le moinsdu contexte, celle qui s’ancre dans le plus d’éléments présents, et qui s’avère productive (elle apportequelque chose à l’interprète).

Ces propositions sont intéressantes en ce qu’elles permettent de qualifier et de ne pas traiteruniformément divers cheminements interprétatifs, en prenant réellement appui sur le contexte (texte,mais surtout situation de communication). Elles deviennent réductrices dans leur acceptionuniversalisante (le principe d’économie ne règle pas toutes les pratiques interprétatives, loin de là) etéliminatrice (plusieurs interprétations peuvent coexister, même si l’une domine).

Première critique : le régime de la clartéL’interprétation, conçue comme l’obtention du sens du texte, se place sous le régime de la

clarté. Le travail interprétatif se cantonnerait à résoudre des difficultés ponctuelles, le reste du sens dutexte relevant de l’évidence.

Aussi le cas général serait tout simple : le sens est là, donné, immédiat. Il n’y a pas àproprement parler d’interprétation, sinon quand la formulation choisie dans la langue gêne lareconnaissance du sens. Pourtant, pour peu qu’on l’examine, la notion de sens littéral estproblématique (Rastier 1994, §1.2.a, p. 328) : par quel procédé se présenterait-il, sinon lui aussi parune interprétation, qui le relativise ?

On admet ordinairement qu’en règle générale un texte a un sens littéral [...].Quand, exceptionnellement, ce sens immédiat ne répond pas aux attentes ou, pire, quand aucun

sens littéral n’est immédiatement saisissable, on a recours au sens caché [...]. On sauve ainsi lapossibilité d’identifier un seul et véritable sens.

Une sémantique générative, ou une sémiotique générative, partent inévitablement d’un sens abquo, qui serait le contenu à transmettre ; et les adjonctions qu’il reçoit dans le parcours génératif sontréputées inessentielles.

Conformément à la perspective interprétative adoptée ici, on ne considérera pas le sens commeun donné. On constate en revanche que la polysémie des signes, l’ambiguïté des phrases, la plurivocitédes textes sont des phénomènes –peut-être fondamentaux– de la sémantique des langues naturelles.

[...]Aucun sens n’est donné immédiatement ; même celui de l’énoncé le plus simple est le résultat

d’un parcours interprétatif complexe. [En outre, les textes plurivoques] [...] ne sont aucunement desaberrations vicieuses ou des exceptions déviantes. Toute normativité écartée, ils appartiennent à l’objetde la linguistique, tout aussi bien que Max sliced the salami with a knife, dont ils ne diffèrentsémantiquement que par le degré de complexité des parcours interprétatifs qui leurs sont associés.(Rastier 1987, §VIII.5.1, pp. 210-211)

L’immanentisme et le littéralisme [...] témoignent de deux gestes d’objectivation [...] [selon]deux voies complémentaires, générative ou ‘interprétative’, respectivement : soit en considérant que lesens a été déposé dans le texte par l’esprit et/ou le monde, et qu’il reflète leur cours [...]. Soit enestimant, conformément au postulat réaliste qui fait le fond de toute la tradition occidentale que les

142 Elles sont par exemple présentées dans (Sabah 1988, §10.2) :Maximes de quantité : l’intervention doit apporter suffisamment d’information ; elle ne doit pas apporter plusd’information que ce qui est nécessaire.Maximes de qualité : ne rien dire que l’on croit faux ; ne rien dire que l’on ne puisse démontrer.Maxime de relation : l’information donnée doit être pertinente.Maximes de manière : éviter d’utiliser des expressions obscures ; éviter d’utiliser des expressions ambiguës ; êtrebref ; donner les informations dans le bon ordre.

Page 71: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

197

textes sont des représentations plus ou moins transparentes du monde ou de l’esprit. (Rastier 1994,§1.2.d, p. 331)

Deuxième critique : une unicité arbitrairePostuler qu’un texte ne prend qu’un seul sens est une attitude éliminatrice : il semble plus

juste, même quand un sens s’impose davantage que d’autres, de hiérarchiser les interprétations enprésence, sans exclusion.

La conception du texte comme une richesse de sens, à laquelle concourt également le lecteur,plutôt que comme inscription inaltérable, dépositaire et garant d’une vérité143, est relativementmoderne.

Le traitement des ambiguïtés, réelles ou prétendues, soulève le problème du choix entre lesdiverses interprétations envisageables. Or, en I.A. comme en linguistique, on a généralement pris leparti d’éliminer les interprétations jugées impropres, en postulant l’univocité du texte traité. Nouspréférons une autre approche. Pour une sémantique interprétative, l’équivocité est une donnéefondamentale. En règle générale, on a affaire à plusieurs interprétations. Dans le meilleur des cas, onpeut établir qu’une interprétation est préférable à toutes les autres. En d’autres termes, et bien quetoute notre tradition herméneutique milite contre cette conclusion, le sens d’un texte n’est pas del’ordre du vrai, mais du plausible Plutôt que de révoquer les interprétations jugées impropres, ilconvient donc de les hiérarchiser, en graduant leur plausibilité relativement à une stratégie donnée.(Rastier 1991, §V.4, p. 160)

d) Explicitation totale

Complétude et ajustementLe texte est par nature, nécessairement incomplet. L’ampleur du sens qu’il peut prendre pour

un lecteur ne se mesure pas à son nombre de pages, et ne se laisse pas enfermer dans l’ensemble deses mots. S’inscrivant dans une pratique, il s’appuie sur des ‘acquis’ implicites : les notions courantesdans telles domaine, la référence à tel ouvrage ou telle personnalité, sans compter la manière mêmedont le parcourent les lecteurs.

La compréhension d’un texte a alors pu être considérée comme l’établissement du sens« complet », permettant une « représentation exacte » et entière de son contenu, et pouvant être testéepar la capacité à répondre à des questions à propos de l’information constituée à partir du texte (Fuchs& al. 1993, §8). Le « sens littéral » du texte est prolongé par la prise en compte de la situation et desconditions d’interprétation, permettant certaines actualisations et certaines inférences.

Représenter l’impliciteDes conceptions de l’analyse automatique des textes et de l’intelligence artificielle illustrent

deux manières opposées de viser la dissipation de l’implicite du texte.La première est de partir de l’explicite que représente la matière du texte initial, puis, par

inférences et déductions logiques réitérées, d’ajouter progressivement toutes les propositionssupplémentaires qui peuvent être construites en s’appuyant sur les données explicites du texte ou lesinformations déjà acquises par cheminement logique144. La logique donne le cadre du mécanisme qui 143 Le texte est ainsi lié aux grandes institutions (Barthes 1973), épine dorsale de l’organisation en société :religion, comptabilité (finances et commerce), administration (Etat et pouvoirs centralisateurs), droit (la loi, lescontrats) (Goody 1986). Il est quelque peu sacralisé, pour reprendre les termes de (Rastier 1996b).Dans cette logique, la raison d’être de la philologie est de scientifiquement restituer le texte, l’exactitude littéralede l’écrit assurant alors la préservation de son sens, canonique (Barthes 1973).144 On peut se rallier à cette conception de l’interprétation tout en y reconnaissant un artefact de la modélisationchoisie. C’est le traitement qui séparerait en étapes successives d’abord l’obtention d’un sens explicite et noncontextuel, puis son enrichissement et sa transformation à partir de connaissances supplémentaires.« Nous supposerons tout d’abord l’existence du sens littéral d’un énoncé, construit à l’aide de connaissancesgénérales, syntaxiques et sémantiques (c’est principalement sur cette existence que portent l’essentiel desdiscussions théoriques). Nous supposerons ensuite une étape postérieure à cette première « compréhension »,l’interprétation, visant à expliciter divers éléments portés par l’énonciation réalisée. Nous distinguerons alors [...]

Page 72: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

198

permet de calculer l’implicite qui prolonge le texte. Le passage d’éléments explicites à l’ajout d’unélément implicite repose sur des règles, qui sont clairement une limitation pratique de la mise enœuvre. Il n’est pas simple d’avoir un jeu de règles cohérentes, et la description des opérationspossibles est toujours inachevée.

L’idée des scripts et scénarios est de disposer d’une modélisation complète d’enchaînementsd’événements typiques, de sorte que lorsqu’un texte évoque un des enchaînements d’événementsprévus, la machine soit capable de rétablir l’ensemble des chaînons manquants. L’exemple canoniqueest celui du repas au restaurant : si le texte fait une simple allusion à un repas au restaurant, alors lamachine est en mesure de représenter les entités ‘sous-entendues’ et le déroulement ‘par défaut’(l’installation à une table libre, la commande de plats, le paiement de l’addition, etc.). Ici, l’ajoutd’informations ne se fait pas de façon progressive, et unité d’information par unité d’information,mais au contraire saisit d’un seul tenant tout un ensemble d’événements qui fait système.

Une quête sans limitesL’idée est d’épuiser le texte, en procédant à toutes les inférences autorisées, en explicitant

tous les présupposés et les non-dits. Mais le texte ne ‘contient’ pas un sens qu’il délimite (le‘contenu’, pris dans un ‘contenant’), et la thésaurisation du sens est vaine et sans fin.

« nous ne prétendons pas à l’exhaustivité, largement illusoire, même pour l’étude d’un texte bref.(Note : Son nom indique assez qu’elle est épuisante, pour l’auteur comme le lecteur. Le principed’exhaustivité, énoncé par Hjelmslev, et repris par la traditions sémiotique qui s’en réclame, repose surun immanentisme que nous récusons) ». (Rastier 1989, Introduction §C, p.10)

« En somme, la notion de présupposition existentielle peut amener à conclure que toute phrase,voire tout mot, présuppose l’existence de tout l’univers. » (Rastier 1987, §IX.2.3.2, p.226)

Focalisation et pertinenceL’explicitation d’un implicite pourrait s’en tenir à ce qui semble requis par le contexte

d’interprétation. Si beaucoup d’extensions de la représentation sont possibles, toutes ne sont paségalement valables145. Une lecture n’est pas une réception uniforme, elle construit un sens en fonctionde points d’attention, de lignes de force, attentes vis-à-vis du texte ou éléments suscités par lui. Ladémarche d’explicitation exhaustive est anti-naturelle, machinale.

La pertinence de cette démarche est également discutable pour notre application. Dans unsystème qui confronte des textes entre eux et calcule des rapprochements, il n’y a pas forcément àchercher à résoudre le non-dit. L’implicite est de degré d’évidence et de pertinence varié. Deux textessont proches également parce qu’ils partagent le même non-dit. A l’inverse, un ouvrage trèsspécialisé, qui ne revient pas sur les notions élémentaires du domaine, et un ouvrage d’initiation, quiles présente de façon très complète, ne connaissent pas les mêmes usages, et ne s’adressent pas auxmêmes lecteurs. Bien qu’ils s’inscrivent dans un même domaine de connaissances, ils ne sont pas« proches » pour autant.

deux types d’interprétations : la première consiste à étudier comment l’information apportée par l’énoncés’intègre dans les connaissances que l’on a sur le monde de référence. Il s’agira ici de réaliser des inférences envue d’expliciter les connaissances communes aux interlocuteurs, connaissances qui restent implicites. La secondeinterprétation consistera à étudier dans quelle mesure le contexte d’énonciation influe sur le sens de la phraseprononcée, et comment il convient de modifier le sens littéral pour « calculer » une signification dépendant de lasituation. Encore une fois, il ne s’agit là ni d’un modèle linguistique ni d’un modèle psychologique du langage,mais d’options que les contraintes de modularité ont conduit les informaticiens à adopter. » (Sabah 1988,introduction à la troisième partie, p. 259-260).Le schéma qui suit montre les deux processus d’interprétation, indépendants l’un de l’autre, qui partent du senslittéral : d’une part celui qui mobilise des connaissances sur le monde, et aboutit au sens « complet » ; d’autrepart celui qui prend en paramètre la situation d’énonciation, et aboutit à la signification.145 (Sperber & Wilson 1986) font ainsi la distinction entre tout ce qui est présent à l’esprit d’une personne à unmoment donné, et tout ce qu’elle serait capable de percevoir ou d’inférer (ce qui lui est manifeste). Ce qui estmanifeste est ce qui est accessible, mais n’est à expliciter que si c’est opportun.

Page 73: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

199

e) Double sens

Une orientation a prioriLes deux sens que recèlerait le texte sont en fait toujours pensés comme les deux pôles qui

s’opposent sur un axe orienté. L’axe choisi reflète les préoccupations et l’échelle de valeurs de ladiscipline de l’interprète : s’agit-il d’un exégète ou d’un psychanalyste, la perspective n’est pas tout àfait identique. En revanche, la structure d’articulation en deux pôles se retrouve partout. Il est doncpossible de dresser un petit tableau qui présente, dans ses lignes, les variantes de réalisation de lastructure bi-pôlaire :

axe - +distance, dérivation surface profondsecret (dévoilement) apparent cachétravail interprétatif manifeste latentsubjectivité dénoté connotéabstraction littéral figuré, spirituelchronologie premier, ancien second, nouveauhistoire religieuse(exégèse patristique)

judaïque chrétien

L’interprétation, qui se réduit à identifier les deux sens du texte, rejoint en fait uneinterprétation univoque, car le sens valorisé est généralement retenu comme seul véritable sens(Rastier 1987, §VIII.5.1, p. 210).

Une herméneutique convaincueLe pôle positif, valorisé comme aboutissement de l’interprétation, est ce qui correspond à la

norme que l’on s’est donnée et que l’on veut trouver dans le texte : grammaticalité en syntaxe,principe de charité (qui crédite au texte un sens édificateur) et théologie pour l’exégèse, interprétationlibidinale, etc. (Rastier 1989, §I.2.I, p.22). L’interprétation n’est pas à l’écoute du texte. Lasignification ultime (voulue) est connue par avance, et la tâche interprétative est d’expliciter les règlesou normes qui justifient l’attribution de ce sens (Rastier 1987, §IX.4.1, pp. 247-250).

Des principes aux conditions linguistiquesLa sémantique se refuse à ce jeu de l’herméneutique, et remplace l’interprétation fermée (le

sens est fixé à l’avance) par une interprétation ouverte.L’image suggérée par l’étymologie même du mot « texte » [est celle d’] un tissu ; mais alors que

précédemment la critique (seule forme connue en France d’une théorie de la littérature) mettaitunanimement l’accent sur le « tissu » fini (le texte étant un « voile » derrière lequel il fallait allerchercher la vérité, le message réel, bref le sens), la théorie actuelle du texte se détourne du texte-voileet cherche à percevoir le tissu dans sa texture, dans l’entrelacs des codes, des formules, des signifiants,au sein duquel le sujet se place et se défait (Barthes 1973).

une herméneutique sait toujours quel sens elle doit trouver. [...] [Le] sens caché n’est pasdécouvert mais retrouvé dans l’interprétation, car il se présentait d’emblée, épiphanique, dans lemoment antérieur de la compréhension. [...]

La sémantique textuelle demeure en deçà de toute herméneutique. Elle définit les conditionslinguistiques de l’interpétation. Elle peut décrire des interprétations et les évaluer relativement à cesconditions, mais elle ne produit pas à strictement parler d’interprétation. En bref, elle ne recherche pasun ou plusieurs sens cachés ; dans le cas d’une pluralité de sens, elle décrit leur accessibilité relative,et évalue leur degré de plausibilité ; et surtout, elle ne sait pas quel(s) type(s) de sens elle doit trouver.[...] le texte apparaît comme une série de contraintes qui dessinent des parcours interprétatifs.(Rastier 1989, §I.1.C, p.18)

Page 74: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

200

f) Plusieurs sens formant systèmeCe cas s’apparente au précédent, sauf que le système n’oppose plus deux pôles sur un axe,

mais prévoit n pôles. De la même manière, l’interprétation ne fait qu’établir les chemins qui relient letexte à chacun de ces pôles, déterminés à l’avance.

L’exégèse chrétienne médiévale illustre ce type d’interprétation multi-pôlaire, qui n’apparaîten fait que comme un raffinement de la théorie du double-sens :

cette distinction devenue traditionnelle entre sens littéral (dit aussi historique ou somatique) etsens spirituel (dit aussi allégorique ou figuré) a été élaborée par la suite pour donner lieu à la théoriemédiévale des quatre sens. Thomas d’Aquin la résume ainsi : « La première signification, à savoircelle par laquelle les mots employés expriment certaines choses, correspond au sens premier, qui est lesens historique ou littéral. La signification seconde, par laquelle les choses exprimées par les motssignifient, de nouveau, d’autres choses, c’est ce qu’on appelle le sens spirituel, qui se fonde ainsi sur lepremier et le présuppose. A son tour, le sens spirituel se divise en trois sens distincts. En effet l’Apôtredit : « la loi ancienne est une figure de la loi à venir » ; enfin, dans la nouvelle loi, ce qui a eu lieu dansle Chef est le signe de ce que nous-mêmes nous devons faire. Quand donc les choses de l’ancienne loisignifient celles de la loi nouvelle, on a le sens allégorique ; quand les choses réalisées dans le Christou concernant les figures du Christ sont les signes de ce que nous devons faire, on a le sens moral ;enfin si l’on considère que ces mêmes choses signifient ce qui est de l’éternelle gloire, on a le sensanagogique » (Somme théologique, question I, article 10, conclusion).

(Rastier 1987, §VIII.1.1.1.B, p. 168)Postuler un sens, ou deux, ou une série plus complexe mais tout autant limitée, c’est fermer

l’interprétation : or le travail interprétatif, même en suivant la « trace » du texte, peut toujours allerplus loin. On n’a jamais tout dit, ni donc définitivement cerné ce qui fait sens à partir du texte.

la critique cherche en général à découvrir le sens de l’œuvre, sens plus ou moins caché et qui estassigné à des niveaux divers, selon les critiques ; l’analyse textuelle récuse l’idée d’un signifiédernier : l’œuvre ne s’arrête pas, ne se ferme pas (Barthes 1973)

g) Equivocité et indétermination

Une conception non extrémisteIl y a un point d’équilibre à trouver, pour rendre compte à la fois de la compulsivité de

l’interprétation (on ne peut s’empêcher de donner du sens, même si l’expression linguistique dévie del’usage –agrammaticalité, néologismes, etc.), et de la notion d’absurde (tout sens n’est pas égalementrecevable, et on ne peut admettre de faire dire à un texte n’importe quoi).

Les lignes directrices ne sont pas dans des a priori...Le sens d’un texte n’est pas déterminé a priori : s’il y a détermination, c’est celle d’un sens

(sans exclure d’autres possibles) pour un lecteur, à un moment donné.On ne peut [...] attendre d’une sémantique interprétative qu’elle énonce le sens qui constituerait

la vérité du texte. Ce serait là répéter l’erreur de la philologie, quand elle postulait qu’un texte a un etun seul sens. D’une part il n’existe pas a priori de Sens unique et ultime ; et de plus les sens d’un textene doivent pas être considérés comme immanents : nous souhaitons avoir montré que tout sens, etmême tout sème, était le produit d’opérations interprétatives qui l’actualisent. (Rastier 1987,§IX.4.3.5, p. 263)

En particulier, ne sont fixés à l’avance ni le nombre de sens, ni leur organisation d’ensemble.à des théories des deux sens hiérarchisés a priori, nous souhaitons substituer une théorie des

isotopies multiples non hiérarchisées a priori. (Rastier 1987, §VIII.1.1.3, p. 175)Les différents sens qui coexistent sont évalués a posteriori. La hiérarchisation des isotopies

procède d’un travail interprétatif, faisant intervenir le contexte, et de normes qui ne sont pasuniverselles (Rastier 1987, §VIII.4.3.1, pp. 202-203).

Page 75: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

201

...les contraintes linguistiques fournissent des lignes directricesLa linguistique a son mot à dire dans l’interprétation, en ce que l’expression dans la langue

donne des points d’appui et des contours dans lesquels ancrer l’interprétation. Celle-ci n’est paspurement détachée du texte, et ne peut ignorer sa matière linguistique.

On peut donner un exemple de telles contraintes pour l’établissement d’une isotopie, c’est-à-dire en quelque sorte d’un thème :

Une première recommandation, formulée jadis (l’auteur, 1972, p.93), conseille, avant d’établirune isotopie générique, d’« identifier au moins un sémème appartenant sans équivoque » au domainesémantique considéré, c’est-à-dire pourvu d’un sème générique inhérent, actualisé en contexte, et quil’indexe dans ce domaine. (Rastier 1987, §IX.3.3, p. 240)

Autrement dit, l’expression linguistique ne contient (fixe) pas le sens, mais elle participe, enposant certains points de repères et certaines limites, à la construction d’un sens. C’est ainsi que letexte fonctionne pour faire mémoire, c’est ainsi qu’il retient et transmet :

On peut [...] distinguer deux grands types de techniques : les techniques qui pro-gramment legeste, les techniques qui pro-gramment la reformulation. Dans le premier cas, la structure matérielledes outils conditionne le geste qui se saisit de l’outil. L’outil est une mémoire qui mémorise dans sastructure le geste à accomplir [...]. Dans le second cas, le but de l’outil n’est pas de commander legeste, mais de mémoriser une parole, un savoir, pour le transmettre et le diffuser. L’outil ne commandepas le geste, mais la parole ou la réécriture. L’apparition de la technologie de l’écriture correspondainsi à l’émergence de ces techniques de la mémoire. [...]

Puisque la mémorisation par la technique est d’emblée une restitution, elle comprendnécessairement une sélection. On ne peut en effet se rappeler de tout, ni tout mémoriser [en raison dela finitude rétentionnelle] [...]. Puisque l’enregistrement s’effectue en fonction d’une restitution futurequ’il prescrit, la mémorisation par le technique sélectionne en fonction de l’usage qu’elle prescrit.Ainsi, on écrit pour être lu, c’est-à-dire pour être réécrit [car toute interprétation est une forme deréécriture]. Au lieu de chercher à s’exprimer, on cherche à contraindre la réécriture du lecteur.L’instrument technique sélectionne pour l’usage qu’il contraint en même temps qu’il constitue : unemachine, un marteau, permettent de nouveaux gestes tout en contraignant la manière de les effectuer.Le marteau mémorise une certaine manière de frapper, de frapper « comme un marteau »

(Bachimont 1999b, pp. 2-3 et 23)

h) Multiplicité artificielle

Combinatoire artéfactuelleLes systèmes de traitement automatique de la langue qui cherchent à produire une

représentation sémantique se heurtent souvent à une multiplication artificielle du sens. En effet,plusieurs significations peuvent être attachées à chaque unité lexicale (polysémie), et la combinaisondes unités dans le texte se traduit par une combinatoire, plus ou moins contrôlée, des significationsunitaires.

Ce type d’ambiguïté est clairement artificiel : la machine dénombre des dizaines de sens,parmi lesquels elle ne sait choisir, là où le lecteur humain n’en perçoit spontanément qu’un seul. Unpremier diagnostic montre qu’une bonne part de ces ambiguïtés disparaîtraient avec une meilleureprise en compte du contexte (Rastier 1989, §I.1.B, p. 16).

Droit à l’existence d’un sens non fixableLes systèmes rencontrent également une multiplication artificielle des sens quand il s’agit de

choisir entre des alternatives de sens précises, là où le texte ne permet pas de trancher ou s’en tient àdes considérations plus générales. L’interprétation n’a pas le devoir d’en dire plus que le texte,d’évoquer à la place du texte les prolongements que lui-même n’a pas tracés. Il peut tout à fait fairepartie de la stratégie de l’auteur de maintenir une indétermination qui laisse ouvert un jeu deperspectives.

Ces prétendues ambiguïtés reposent sur l’illusion édénique que chaque phrase pourvue de sensdécrit complètement une partie de la réalité. Non seulement le sens est identifié à une désignation,mais encore à une désignation exhaustive.

(Rastier 1987, §IX.2.3.2.C, p. 226)

Page 76: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

202

i) InfinitéLe déconstructionnisme illustre cette conception de l’interprétation. Ici, tout peut être dit à

partir de tout, et le texte n’oppose aucune limite aux sens dont on l’affuble.Outre que cette approche tourne court pour apporter des éléments à un traitement

automatique, elle contrevient à l’expérience commune de lecteur de tout un chacun. Dire que le textese pourvoit d’une infinité de sens, sans restriction, c’est admettre qu’il n’a aucune incidence sur laconstruction du sens. Le sens ne serait que du côté du lecteur, voire dans la situation. C’est finalementdénier que la lecture puisse être l’expérience d’une rencontre d’une personne avec l’expression d’uneautre personne, à travers la médiation du texte, et l’ouverture sur une altérité enrichissante. Qu’ellesoit évasion, mise en question, information,... la lecture est une invitation à une réalité autre que soi.

Quand on a convenu que les faits sémantiques, comme les autres, sont construits, s’ouvrent alorsles voies d’un faux dilemme [...] : ou bien le récepteur découvre par les procédures appropriées le sensimmanent au texte ; ou bien il le constitue, et ce sens éclate en une pluralité indéfinie, celle deslecteurs.

La première thèse a été soutenue par un courant structuraliste : en appliquant au texte seul (isoléde son entour linguistique et « pragmatique ») des procédures universelles de décodage, un lecteurquelconque, armé de la bonne méthode, pouvait mettre en évidence son sens. [...] L’immanentisme enla matière est issu d’une longue tradition, antérieure à tout projet de description scientifique du sens,celle de l’herméneutique religieuse, fondée sur la révélation. Le sens serait immanent au texte parcequ’il y a été déposé -par Dieu ou par un homme, qu’importe. D’où les stratégies de dévoilement, demise en évidence, etc.

Une autre façon de méconnaître le type d’objectivité du sens (tout aussi unilatérale que laprécédente, mais pour des raisons opposées) consiste à postuler la pluralité indéfinie du sens, situéalors dans le sujet dont l’inconscient, structuré comme un langage, parle au lieu du texte. Le sensdevient alors transcendant au texte [...].

On aurait pu espérer que cette théorie « désirante » du sens, à défaut de décrire les textes,produise au moins une agréable variété de lectures. Il n’en a rien été, car les lectures « pulsionnelles »n’ont vu dans les textes que les drames les plus œudipiens, les symboles les plus lourdementsexualisés. [...]

Affirmer l’objectivité sans nuances du sens, ou sa subjectivité absolue, cela ne résout rien.(Rastier 1989, §I.1.A, pp. 13-15)

Page 77: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

203

E. LA QUESTION DE LA PERTINENCE

1. Les expressions de la pertinence : examen des modèles rencontrésdans les applications documentaires

a) Pertinence binaireLe modèle de la pertinence mis en œuvre dans le courant de l’information retrieval tient de la

pertinence binaire, en ce qui concerne les méthodes d’évaluation. En effet, pour une requête donnée,chaque document reçoit l’appréciation pertinent ou bien non pertinent. La pertinence est doncreprésentée par une valeur parmi deux possibles, l’une positive, l’autre négative.

C’est un peu l’idée que l’utilisateur à la recherche d’informations, à l’issue de sa recherche, afinalement séparé l’ensemble des documents présentés en deux catégories : ceux qui ne l’intéressentpas et qu’il laisse, et ceux qu’il décide d’emmener avec lui pour s’en servir. On conviendra qu’il y abien ce choix (emmener vs laisser), mais que l’interprétation sous-jacente relève d’une réalité pluscomplexe. Autrement dit, il serait simpliste de dire que les documents emportés correspondentexactement aux documents intéressants pour toute personne qui aurait formulé une requête identique.Tel document n’est pas retenu, bien que au cœur du sujet, parce que l’utilisateur le connaît déjà. Telautre est sélectionné, mais il y avait un autre document équivalent, qui aurait tout aussi bien pu leremplacer. Tel autre encore n’est pas vraiment dans le sujet tel qu’il a été exprimé, mais s’est présentéau détour d’un rayon et correspond à une extension de la problématique qui concerne l’utilisateur.Etc.

Dans une curieuse étude, (Janes 1993) fait apparaître que, dans de multiples expériences, lespersonnes, à qui l’on a demandé d’évaluer la pertinence de documents sur une échelle de plusieursvaleurs, tendent à choisir préférentiellement les valeurs extrêmes. Ceci va à l’encontre du senscommun : on s’attendrait à ce que le jugement soit nuancé, et que les valeurs limites soient réservées àl’expression d’exceptions. En fait, il semble que les personnes visent à écarter ou à sélectionner, defaçon décisive, les documents présentés, et que l’utilisation des valeurs intermédiaires est réservé auxdocuments pour lesquels on a l’impression de manquer d’informations pour juger (trancher).Autrement dit, ce qui reste entre les deux extrêmes est ce qui a du mal a être évalué, ce qui prendraitdu temps à préciser, bref des « cas » difficiles de jugement de pertinence, voire des échecs(momentanés), enfin un résidu indécis et inconfortable que l’on souhaite minimal. Mais Janess’interroge lui-même : cette attitude n’est-elle pas un artefact des conditions expérimentalesrelativement artificielles, où l’on demande à des personnes de juger la pertinence de documents, des’exprimer à travers une échelle de pertinence, sans qu’elles soient elles-mêmes véritablementengagées dans une situation réelle et personnelle de besoin d’informations et de recherchebibliographique, dans laquelle leur attitude pourrait prendre d’autres formes d’expression ?

We propose the following hypothesis. It could be that indeed relevance is, in part, [a] bipolar[concept]. It has been recognized for decades that decisions about really good and really baddocuments are easy to make and that middling documents are less clear. We have found that peopleappear to judge that way, too : they see lots of bad documents, a few good ones, and a fair numberscattered in between. Perhaps the process people go through is a two- (or multiple-) stage one :

(1) Determine, very quickly, if the document is really good or really bad. If so, say so and thedata appears to show that they don’t much care exactly how really good or bad it is).

(2) If not, then more time and effort must be taken to determine how much of it is good, whetheror not it is from a trustworthy source, addresses the right issues, is in the right language, is availableand accessible, etc.

The first of these proceses is quick, relatively easy, and is done with confidennce. The second isslower, less certain, and done with more difficulty. [...]

However, this could [...] be artifactual. People have made these decisions and producted thesejudgments because they have been asked to do so as part of a research study. We have no garanteewhatsoever that this is reflective of what people really do when evaluating information in response to

Page 78: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

204

their information needs. Do they worry about how good documents are, or do they just dig in and findwhat’s good in each one (if anything) and get on with whatever work they are doing ?

(Janes 1993, p. 113)

b) Pertinence n-aireLa pertinence, de la forme tranchée pertinent / non pertinent, peut être déclinée en

appréciations progressives : a priori très pertinent, assez pertinent, peu pertinent, hors sujet...Sans rentrer dans une telle grille, somme toute encre assez rigide, le système SPIRIT, dans ses

versions récentes (Fluhr 1994) (SPIRIT-W3), propose une présentation intéressante des résultatsd’une recherche sur une base documentaire. Ce qui l’apparente à une pertinence n-aire, c’est le faitque les documents sélectionnés soient regroupés en classes, et que ces classes sont elles-mêmesprésentées par ordre de pertinence présumée décroissante.146

Le principe est le suivant : la requête consiste habituellement en quelques mots. La premièreclasse est formée par les documents présentant tous les mots de la requête. La deuxième, par lesdocuments présentant tous les mots sauf un (le moins « significatif » au sens d’indicateursstatistiques). Pour la troisième classe, les documents ont encore tous les mots sauf un, mais cette fois-ci le terme manquant était un peu plus important. Et ainsi de suite, jusqu’aux classes correspondantaux documents retournés en raison d’un seul terme.147

Ce mode de sélection et de présentation est connu sous le nom de quorum-level search (Salton1988). Ses limites les plus sensibles sont sa dépendance à la forme des requêtes, et la difficulté àmaîtriser le volume des résultats.

En ce qui concerne la dépendance à la forme des requêtes, il est évident que cette heuristique,bien adaptée à un très petit nombre de termes, engendre une combinatoire peu gérable dès que larequête comporte cinq six termes ou plus. Le nombre de classes est alors démultiplié, et leur ordre estpeu intuitif. Par exemple, si, en connaissant le fonctionnement du système, on sait que la classe desdocuments qui comporte tous les termes est en tête, et que l’on peut deviner que telle combinaison determes, où il manque un terme subsidiaire (i.e. d’usage assez général dans le domaine de la base), seravraisemblablement au deuxième ou troisième rang, que dire d’une certaine classe qui comporte lamoitié des termes : à quel rang la trouver ?

Quand bien même on disposerait d’un index sophistiqué, qui permettrait de se positionnerimmédiatement sur la classe de résultats correspondants à une certaine combinaison de termesprésents, l’exploration des résultats reste peu intuitive. Les documents sont dispersés dans un grandnombre de classes, et des propositions qui en définitive seraient globalement assez proches sontassignées à des classes séparées, uniquement en raison de petites variations de vocabulaire. Dès que lenombre de propositions est assez grand, le dépouillement est particulièrement austère : il fautexaminer chaque classe l’une après l’autre, sans savoir à l’avance quelles combinaisons de termes sesont avérées les plus efficaces.

Il faut cependant retenir de cette représentation de la pertinence son expression relative à larequête soumise, dont on retrouve les termes148. C’est reconnaître qu’il y a toute une variété de misesen correspondances entre la requête et un document, et aussi qu’il ne revient pas à la machine detrancher, en éliminant d’emblée les documents qui ne sont sélectionnés que sur les indices 146 On retrouve encore un tel modèle de pertinence chez (Denos 1997), qui introduit simplement en plus ladistinction entre des mots (ou critères) obligatoires, qui doivent se trouver dans les documents de toutes lesclasses, et les mots optionnels, dont la combinatoire de réalisation induit les classes de présentation des résultats(ibid., §III.2.5, p. 88).147 Cette présentation est légèrement simplifiée : SPIRIT fait aussi intervenir la proximité des termes. Ainsi,lorsque des termes forment un syntagme dans la requête et sont retrouvés comme tels dans des documents, cesdocuments forment une classe distincte, qui obtient un meilleur rang que celle des documents où figurent lesmême termes, mais sans la relation syntagmatique.148 « Les classes de pertinence organisent l’ensemble des documents retrouvés en fonction du schéma depertinence [i.e. la requête]. Elles fournissent à l’utilisateur une vue du corpus structurée en fonction du shéma depertinence qu’il a formulé. Ainsi l’interface constitue le lieu de la confrontation entre le sens que l’utilisateur veutexprimer (son schéma individuel de pertinence) et le sens que le système est capable de produire à partir del’expression du schéma de pertinence. » (Denos 1997, §I.2.2.1, p. 32)

Page 79: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

205

apparemment les plus faibles. Enfin, l’organisation par regroupement, qui rencontre ses limiteslorsqu’il faut parcourir séquentiellement un grand nombre de classes, contribue à une certaineefficacité du parcours : en effet, une sélection sur un motif lexical inadéquat peut être « sautée » dansson ensemble. Au raisonnement document par document se substitue dans certains cas unraisonnement collectif, groupe de documents par groupe de documents.

c) Pertinence linéaireAvec la pertinence linéaire, on revient du côté des systèmes de recherche d’information, mais

cette fois-ci des sorties « brutes », avant alignement sur les formats des campagnes d’évaluation.Les techniques mis en oeuvres, qu’elles soient vectorielles ou probabilistes, fournissent une

valeur numérique pour caractériser la relation entre une requête et un document. En général, il s’agitd’un réel positif, quelquefois plafonné (normé à 1 ou à 100 par exemple), et qui est une fonctioncroissante de l’adéquation du document à la requête. (La variation peut être inverse, si la valeurtraduit non pas une similarité ou proximité, mais une distance).

L’image est spatiale : il y a ce qui est proche, et ce qui est moins proche, du thème d’intérêt.Cela se conçoit bien, si ce n’est l’organisation unidimensionnelle de l’ensemble. En effet, on pressentbien que deux documents peuvent être assez proches de la requête, sans l’être de la même façon. Etque les proposer ex æquo, ou préférer l’un par rapport à l’autre, n’a pas vraiment de sens. Ils sontcomplémentaires, et non en compétition pour se classer au meilleur rang. Si je me rends à labibliothèque, les documents que je peux choisir ne m’apparaissent pas un à un, indépendamment etl’un après l’autre ; il y a plutôt des configurations, des regroupement et des oppositions, desalternatives et des complémentarités, qui me font repartir avec un ensemble de documents dontl’intérêt n’est pas forcément hiérarchisable, surtout de façon univoque.

Pour autant, les utilisateurs réclament a priori ce type de représentation. La mise en ordre desrésultats, par valeur décroissante d’un indice de pertinence, est effectivement ce qui est affichécomme une fonction évoluée, par la plupart des applications documentaires. Les utilisateurs seraientdonc convaincus qu’il s’agit là de ce qu’il y a de mieux, en matière de présentation des résultats. Onpeut penser aussi que les valeurs numériques (de l’indice de pertinence) rassurent, et sont perçues defaçon très positive dans une culture où l’exactitude de la mesure chiffrée et le caractère scientifiquesont assimilés et valorisés.

Concrètement, la diffusion ciblée a expérimenté ce type de pertinence. Nous en avons évoquéles inconvénients pratique (cf. introduction). Premièrement, cette présentation oblige à examiner lesdocuments un à un. Si un terme inapproprié génère des rapprochements incongrus, la gêneoccasionnée est massive, car il n’y a aucun moyen de mettre de côté, en une seule opération, lesdocuments correspondants à cette anomalie : l’erreur est « diffuse ». Deuxièmement, autantl’organisation linéaire est parfaite pour un parcours systématique (on est sûr d’avoir tout examiné),autant le continuum des valeurs de proximité rend difficile la construction d’un parcours complet. Soitl’on parcourt toute la liste : cela risque d’être très long, pour une proportion de documents tropéloignés du sujet de plus en plus grande –soit une efficacité quasi nulle sur la fin de la recherche. Soiton choisit de s’arrêter à un point. Cela revient dans ce contexte à choisir un nombre de documents àexaminer (mais il est difficile d’évaluer avec assurance l’ordre de grandeur du nombre de documentsintéressants), ou bien à choisir une valeur seuil du score de similarité. C’est là que lamonodimensionalité, qui est un artefact de ce modèle, est gênante. En effet, si tel aspect devientinintéressant approximativement à telle valeur du score, tel autre aspect, moins bien noté, continue àsélectionner des documents que l’utilisateur juge intéressants mais qui obtiennent des valeurs desimilarité plus basses. Si bien que sur une même échelle sont confondus et mêlés des rapprochementsselon des perspectives différentes, et fixer un seuil qui départage documents pertinents et documentsnon pertinents est impossible.

La pertinence linéaire est fille d’une réalisation numérique. Si elle rend compte, de façonsynthétique, du comportement du système, elle est en fait étrangère à la notion humaine de pertinence,qui ne se laisse pas réduire à un alignement ordonné.

Page 80: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

206

d) Pertinence différentielleA vrai dire, nous n’avons pas connaissance de systèmes documentaires qui adopteraient cette

conception de la pertinence, sinon ce que nous avons conçu dans le cadre de DECID.La pertinence différentielle fonctionne par regroupements et oppositions, et traduit ainsi les

interrelations entre documents proposés en résultat de la recherche. Les regroupements traduisent lesfamilles, qui peuvent être traitées collectivement (notamment pour mettre de côté des documents toussélectionnés sur un aspect qui n’intéresse pas l’utilisateur). Les oppositions servent à contraster lesdocuments les uns par rapport aux autres, pour mettre en valeur la singularité de chacun dans lecontexte de cette requête et de ce fonds documentaire. C’est en effet une combinaison de jugementsd’équivalence et de caractérisations spécifiques qui construisent le résultat effectif de la recherche, etle choix motivé d’un ensemble de documents.

La forme que cela prend dans DECID est exposée en détail plus loin (chapitre consacré àl’interface et au parcours des résultats). Il s’agit d’une organisation arborescente, qui permet dedescendre progressivement dans les niveaux de détail, et donc à chaque étape de se repérer par rapportà un nombre de propositions raisonnable. Le premier niveau présenté répartit les documents pardomaine (cela peut correspondre à différentes disciplines, qui ont chacune de leur manière affaire authème de recherche) : l’utilisateur a ainsi une vue globale (grossière mais complète) de l’ensemble desrésultats. Il peut tout de suite écarter certaines branches et se focaliser sur les pistes les plusprometteuses. Au niveau de chaque piste, les différences internes font ressortir les intérêts propres desdifférents types de propositions possibles. Cette organisation respecte donc tout à fait la multiplicitéde points de vue auxquels se prête un sujet, sans s’obliger à hiérarchiser ce qui n’est pas en soicomparable.

L’utilisateur - interprète des résultats, construit son propre parcours, son propre cheminement,en se repérant par rapport à cette organisation pistes / originalités. Autrement dit, il est impliqué etactif dans l’établissement de la pertinence, celle-ci n’est pas fixée pour lui, à sa place. En jouant surles mots, à la suite de (Bachimont 1999a), la pertinence différentielle est également une pertinencedifférantielle, à savoir qui diffère « le » sens (ultime), chaque interprétation étant force de propositiond’une vision nouvelle et personnelle sur un texte (ici sur les résultats, la sélection opérée par lecalcul).

Au sens strict, la pertinence différentielle se traduit par une structure de partition (l’ensembledes documents est entièrement organisé en familles), ou une classification hiérarchique (système declasses emboîtées). Une forme plus souple est mise en œuvre dans DECID.

e) Pertinence polaireLa pertinence polaire correspond à une représentation spatiale, dans laquelle peuvent se

dessiner plusieurs pôles d’attraction significatifs. Les documents se concentrent au niveau desdifférents pôles. Certains peuvent se positionner de façon intermédiaire, comme sous l’influence dedifférents pôles. Selon leur proximité relative à ces pôles traduit leur « attirance », potentiellementinégale.149

Selon les représentations, les pôles sont de nature diverse : pôles ponctuels, axes, zones. Lecas général est le choix d’une variété géométrique, qui s’adapte à la forme des résultats et reflète lesregroupements « naturels » qu’opère l’interprétation.

La pertinence polaire ressemble à la pertinence différentielle en ce qu’elle donne unereprésentation globale, et multidimensionnelle (il y a plusieurs manières d’être proche de la

149 Voir par exemple l’interface, assez spectaculaire, de Websom, qui fournit des cartes de documents avec deszones colorées décrivant comme des courbes de niveaux. Le site Internet de Websom a le mérite de fournir, outreune illustration / démonstration de l’interface, une documentation scientifique abondante explicant les principesde construction de ces cartes :http://websom.hut.fi/websom

L’idée de cartographie d’un espace de documents suscite par ailleurs des techniques de calcul et desreprésentations diversifiées : (Appel 1991) et (Lelu & François 1992), (Chalmers 1993), (Zizi 1995).

Page 81: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

207

requête)150. Elle s’en écarte par son caractère continu151. La pertinence différentielle délimitenettement des regroupements, les emboîte en un nombre limité de niveaux. La pertinence polairepermet tous les intermédiaires, toutes les positions singulières. Cela peut donner l’impression d’uneplus grande fidélité à la réalité, infiniment nuancée. Cependant, sous cette forme, il n’y a plus demoyen simple et systématique de parcourir les résultats. Et, sans nier le fait que chaque texte etchaque document soit unique, la pertinence n’est peut-être pas tant la perception de cetteirréductibilité d’un texte à un autre, que celle d’une structure qui, en résumant l’ensemble desdocuments embrassés, rend intelligible leur type d’adéquation au thème de recherche.

2. Etude pour la diffusion ciblée

a) Paramètres des choix de lecture professionnelle : qui lit quoiLa question est ici celle des choix de lecture, et non du comment la lecture est effectuée. Le

mode de pertinence accordée au document oriente bien sûr l’adoption de telle ou telle stratégie delecture, sans la déterminer entièrement. Ainsi, tel document que l’on met à son programme de lecture« pour information » sera, selon le contexte, lu attentivement, parcouru en diagonale, ou sédimentédans une de ces fameuses piles étudiées par les experts du travail de bureau.

Les publications sur la pertinence dans le domaine des systèmes documentaires ont uneinsistance toute particulière sur le fait que la thématique, considérée seule, ne suffit pas à établir lapertinence. Autrement dit, ce n’est pas parce que le sujet d’un document concorde avec le thème de larecherche que le dit document répond aux attentes du chercheur. De multiples facteurs se combinent,dont on s’efforce de percevoir la trace et l’incidence, pour ne pas s’en tenir à une conception par tropsimpliste et réductrice de l’accord requête - document.

The Cranfield tests have, with some variations, been the primary model of experimentalInformation Retrieval research during the past twenty-five years. The research design of the Cranfieldproject provides a conceptual framework for reexamining the underlying assumptions of the traditionalInformation Retrieval model and the implications of using « relevance judgments » in InformationRetrieval evaluation. Cranfield’s experimental design involved four major steps : (1) building a testcollection, (2) gathering users’ questions, (3) obtaining relevance judgments, and (4) conducting testsof retrieval. [...]

Examining the underlying dimensions of relevance in Information Retrieval experimentation, theCranfield model views relevance as « on the topic », the relationship between the topic of a questionand that of a document. The nature of the relationship between a docuument and a user’s question isvery precise and fixed. There are no concerns with the individuality of users. The model also assumesthat users’ information needs are conceptually well defined and that they know how to express them.[...]

[Actually,] relevance is not a simple relationship between a document retrieved and a user’squestion but, rather, is psychological and contextual, involving an individual’s cognitive states,perceptions, experiences, and knowledge about the problem at hand. It goes much deeper than simpletopical relevance. [...] Other aspects of user-based relevance demonstrate its nature as

150 Mais d’un point de vue strictement géométrique, la représentation plane n’exprime jamais que deuxdimensions (2D) ; une animation de l’image (rotations, translations) –dont il faut veiller au coût en termes depuissance de calcul, de flux de transmission de données et d’espace mémoire– permet de simuler un déploiementspatial, en trois dimensions (3D). Or la pertinence, qu’il s’agit ici de représenter, ne se laisse pas caractériser pardeux ou trois facteurs. La visualisation (2D ou 3D) impose de fait une réduction contingente, et facilementillusoire. L’habileté d’un calcul de représentation plane tient notamment à sa capacité à minimiser les(inévitables) déformations, de sorte à ce que l’interprétation de l’utilisateur ait le moins de risques de s’égarer.Sur les manières optimales de projeter des données sur un espace plan, voir principalement les travaux en analysefactorielle. La couverture de (Fénelon 1981) résume le principe de l’approche en présentant côte à côte l’ombrechinoise d’un dromadaire vu de face, et l’ombre chinoise du même dromadaire de profil : l’analyse factoriellechoisit le second. (Wismath, Soong, Akl 1981) proposent une approche originale et plus légère, la triangulation :les points sont placés un à un, de telle sorte que ses distances à deux autres points soient conservées. On respectedonc au total, pour n points, (2n - 3) distances.151 La réflexion sur la signification et l’adéquation d’une représentation continue serait à poursuivre etapprofondir, par exemple à partir de (Salanskis 1996).

Page 82: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

208

multidimensional and dynamic [...]. A user’s information need state may be changed as he or sheencounters relevant citations. [...]

The individual and interpretative nature of user-based relevance [vs simple topical relevance]also demonstrates a serious problem in the interpretation of relevance judgments that are made byothers (for example, subject experts or search intermediaries) than the actual users themselves.

(Park 1993, pp. 322-323, 344, 346)Les considérations qui suivent visent donc à rassembler, décrire et organiser un éventail aussi

complet que possible des facteurs qui entrent en ligne de compte. C’est le fruit d’une synthèse desrésultats publiés par les spécialistes de la pertinence dans le domaine de l’information retrieval152,d’observations lors d’enquêtes réalisées à EDF sur les besoins et utilisations de l’information153, et dela réflexion et de l’expérience personnelle de l’auteur de ces lignes. Ceci ne saurait donc être tenupour un aboutissement, mais comme une proposition de cadre, pour orienter dès à présent lesdéveloppements des applications documentaires, et si possible servir de base à une étude plussystématique et à une validation expérimentale.

Le lecteur en tant qu’individu

Sa personnalitéChaque personne a un rapport à l’écrit et à la lecture qui est un trait de son caractère. Tout le

monde n’est pas un grand lecteur, ou un lecteur rapide, un lecteur naturellement assidu154 ou bienépisodique, un lecteur épanoui ou bien qui n’arrive pas à faire face à ce qu’il veut ou doit lire. Lesbibliothécaires, vis-à-vis de leurs habitués, tiennent spontanément compte de ce facteur pour réguler le« volume » de leurs propositions.

Dans un contexte de recherche d’informations, la patience du chercheur est mise à l’épreuve :pour évaluer une première série de propositions, ajuster ses critères de recherche, dépouiller ànouveau des suggestions en grand nombre, etc. Il y a aussi, en interaction avec d’autres facteurs, uneattitude plus ou moins tolérante, ou inversement, exigeante : des documents ne correspondant pas toutà fait aux attentes conviennent ; une recherche est poussée jusqu'à ses limites avant de se décider à laclore.

Son histoire de lecteurLa pertinence d’un document n’est pas perçue de la même façon si le document est déjà connu

du lecteur, ou non. Si le document lui est connu, sa vision est encore influencée par : l’idée claire etprécise qu’il a du document (entre avoir lu de façon approfondie un document vs en avoir entenduvaguement parler), l’impression qu’il en a gardé (favorable ou défavorable).

Le document lui-même peut être inconnu du lecteur sans lui être totalement étranger. Lelecteur n’a pas la même attitude vis-à-vis d’un document sans lien visible avec ses lecturesantérieures, et un document d’un auteur qu’il connaît, ou publié dans une revue qu’il fréquente ou unecollection qu’il affectionne, ou diffusé par un éditeur qu’il méprise...

Son humeur (du moment)L’humeur du moment n’est pas sans lien avec le tempérament général de la personne. Son

incidence sur les décisions de lecture est manifeste : que l’on contraste les situations de stress et cellesvécue avec aisance, et l’attitude face à un document, l’intérêt qu’on lui trouve, peut varier du tout autout. On reconnaît l’expérience, banale, de lectures redécouvertes, et de lectures désenchantement.

152 Les références citées en bibliographie sont : (Barry 1993), (Cool, Belkin, Kantor 1993), (Harter 1992) (inspirépar (Sperber & Wilson 1986)), (Klobas 1995), (Park 1993), (Wang, Soergel 1993).153 Essentiellement les travaux à la Direction des Etudes et Recherches d’EDF, ceux coordonnés par XavierSOINARD (centrés sur les systèmes documentaires et la documentation électronique) et ceux coordonnés par SaadiLAHLOU (concernant le traitement de l’information dans les bureaux).Voir notamment : (Merle, Fradin, Soinard 1994, pp. 45-47, 65-71, 75-90).154 « Je suis un boulimique de l’information sur mon sujet de recherche mais on n’a pas assez de concurrence quipublie sur le sujet », déplore un chercheur EDF passionné... (Merle, Fradin 1994, §7.2, p. 42)

Page 83: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

209

L’objectif : comment la lecture prend place dans le travail

Lien à la phase de rechercheOn peut avoir à mener l’enquête sur un domaine dans son ensemble :

• ceci va de la première prise de connaissance et de la découverte des réalisations dans le domaine, àl’établissement d’un état de l’art.

• Si l’on a commencé soi-même à contribuer au domaine, il est utile de faire le point sur sonpositionnement, son degré d’originalité.

• D’un point de vue stratégique, on cherche à connaître les besoins, la mode, ce qui est au goût dujour155. Avec une visée prospective, on veut pressentir et repérer des tendances.

Un enrichissement intellectuel personnel dans le domaine est quelquefois recherché, pourmieux fonder et mener à bien un projet :• formation (documents didactiques), cumul d’expérience (prendre connaissance des expériences

marquantes et des principaux résultats acquis).• regard sur les activités amont et aval, pour une bonne intégration du projet dans son environnement

de mise en œuvre.• regard sur des disciplines voisines, qui partagent une même méthodologie ou un même objet

d’étude, voire renfort et complémentarité pluridisciplinaires.Selon ses compétences dans le domaine, et éventuellement si l’on a en vue une tâche de

communication (enseignement, publication), on est amené à s’orienter vers des documents généraux(éventuellement de vulgarisation), ou bien vers des documents pointus, spécialisés. La forme d’espritdu lecteur (analytique, synthétique) et sa formation (qui l’ont rendu familier avec certaines approches)ont également une influence, ainsi que le délai dont on dispose pour mener à bien la tâche (courtterme, long terme) (Mainguenaud 1994, §2.1, p. 9).

Un projet en cours de définition peut être à l’affût de ce qui peut lui permettre d’innover :• connaissance de nouveaux moyens (outils, méthodes) ;• avancement de la recherche, nouvelles idées. Les idées novatrices ne sont pas forcément des idées

neuves, ce sont non seulement des idées récentes, mais aussi des idées anciennes mais oubliées, etayant de nouvelles potentialités dans le contexte présent, et également les pistes suggérées par desprojets en perspectives.

Suivant la nature de la tâche, l’orientation choisie est soit théorique, soit appliquée : c’est cequi fait préférer telle revue à telle autre par exemple.

Lorsque l’on se trouve au cœur de la mise en œuvre d’un projet, la motivation de la recherchepeut être plus ciblée :• réponse à un problème, aide à la résolution d’une difficulté rencontrée ;• être conforté dans un choix (approuvé par un document de référence, un expert reconnu du

domaine) ;• remise en cause (évaluer les faiblesses d’un travail au regard de résultats obtenus ailleurs).

Selon les cas, le besoin est plus ou moins bien défini, plus ou mois aigu. La formulation de cequi est cherché s’affine avec la connaissance que l’on a du domaine, et donc le nouveau venu sur unsujet sera moins bien armé pour prédire ce qui l’intéresse. On touche là un des paradoxes connus de larecherche documentaire, qui demande au chercheur d’exprimer ce qu’il cherche alors que dans biendes cas il ne sait ce qu’il va trouver.

Une lecture peut être jugée intéressante, alors qu’elle sort du besoin explicité lors de larecherche d’information. La lecture n’est pas non plus toujours en rapport direct avec l’activité encours : il y a une pertinence à court terme, à moyen terme, à long terme.

La lecture en tant que tâche à part entière : le devoir explicite de lecturePremier cas, les documents en relecture : en tant que responsable ou qu’expert, il est demandé

un avis sur le document. Le travail demandé est une contribution à la qualité et à la fiabilité du

155 « Etudes Gartner, publications hebdos : plus pour voir ce que retiennent les journalistes, sentir la mode sur dessujets que je connais déjà. » (Merle, Fradin 1994, §7.2, p. 43)

Page 84: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

210

document. La lecture vise à repérer les points à préciser ou à corriger, et peut être à suggérer certainscompléments.

Deuxième cas, un document qui parvient par un circuit de diffusion « officiel », émanant de lahiérarchie, et dont le destinataire est tenu de prendre connaissance. La lecture est imposée, en ce sensque le destinataire est censé être informé de son contenu et en tenir compte.

Vue générale : quatre types de rapport à l’information(Lahlou 1994, §3.3, pp. 39-40) résume les résultats de son analyse lexicale du concept

information en proposant quatre types de propagation de l’information : acquérir, aviser, instituer,apprendre.

- acquérir (le sujet récupère activement de l’information). [...]- aviser (le sujet envoie de façon active de l’information) [...]- apprendre (un couple de sujets se transmet de l’information de façon coopérative et

volontariste, situation dont l’enseignement scolaire est l’archétype) [...]- et enfin instituer (un groupe de sujets explicite officiellement un état de choses, le valide pour

la collectivité). La circulaire, le jugement, sont des exemples types de cette activité [...](Fischler, Lahlou 1995, §2, pp. 8-9)

Les caractéristiques du document

Appartenance à un genre (correspondant à un lectorat et à une pratique)Le type de document suffit parfois à rejeter le document, comme ces surabondantes publicités,

reçues au courrier, visuellement immédiatement identifiées, et que le chercheur jette à la poubellesans même les ouvrir156.

Le genre définit en partie :• la couverture du document, son exigence de complétude : on opposera typiquement l’ouvrage de

synthèse et une annonce de presse, un livre relié et un extrait (photocopie réalisée par un collègue)ou un classeur hérité de multiples prédécesseurs.

• la précision : de ce point de vue la présentation indicative, la vulgarisation, ou la communicationd’expert n’ont pas le même niveau de détail ni le même degré de technicité.

• les attendus concernant les connaissances du lecteur : une note interne en diffusion restreinte peutcompter sur la familiarité des structures et rouages internes à l’entreprise ; un public de techniciensest capable de comprendre des notions qu’un public de dirigeant ne saisit pas, et vice-versa.

• le temps et le travail de lecture estimés : nombre de pages, attention nécessaire à porter au moindredétail, composition d’un seul tenant ou organisée en sections autonomes, etc.

Là encore, il n’y a pas de genre supérieur aux autres, ou de caractéristique intrinsèquementbonne ou mauvaise. Si par exemple le besoin d’information est une réponse factuelle à une questionprécise, point n’est besoin d’avoir un document complet décrivant toute la discipline.

Autres repères bibliographiques, qui manifestent certaines « garanties »Un document non publié n’est pas utilisable de la même manière qu’un document publié : sa

fiabilité n’est pas assurée (par un comité de lecture), sa lisibilité peut être moins bonne (document detravail très spécifique et technique, document non finalisé). Hors des circuits de diffusion officiels,son accessibilité est problématique. Il ne peut contribuer que de façon incidente à une bibliographie,et n’est en général pas considéré comme une citation pleinement valable.

La publication est un premier repère, général, pour le lecteur. Il peut être sensible àreconnaître plus particulièrement : tel auteur (dont il apprécie les écrits), tel éditeur (représentant unecertaine exigence de qualité), telle revue (appartenant à tel courant de recherche).

Les termes consacrés du domaine, désignant des concepts porteurs par rapport à laproblématique de recherche, sont de bons points d’accroche, dès le titre.

156 Avec de malencontreuses erreurs d’identification possibles. C’est ainsi qu’un conditionnement trop coloré etplastifié a conduit à de dommageables échecs de communication, depuis les très officiels carnets de santé jusqu’àdes faire-part personnels originaux.

Page 85: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

211

RécenceSelon les genres, et même à l’intérieur d’un genre, il y a de fortes variations de « durée de

vie » d’un document. Par exemple, les articles de fond sont destinés à perdurer sensiblement plus queles articles d’actualité (la presse est classée comme denrée hautement périssable, le marchand dejournaux n’emmagasine pas de stocks). L’ouvrage de référence vieillit beaucoup moins rapidementque l’article qui fait part de la dernière nouveauté.

Le récent n’est pas meilleur en soi. Tout dépend de la perspective adoptée157. La nouveautéest une valeur cruciale dans le cadre d’une veille (technologique, stratégique). Elle est un facteurmoins aigu quand il s’agit de faire la synthèse des travaux sur une question (resituer la progression dela réflexion, tracer l’historique de divergences ou de convergences, contribue à l’intelligence de lasituation actuelle).

La date du document est généralement un paramètre significatif. Selon le contexte, soninterprétation est plus ou moins précise (on la considère au jour près (journal), à l’année près, à ladécennie près). Sa valeur en dépend aussi : visée prospective ou rétrospective, chronologiquementfocalisée ou large.

L’air du temps flotte autour du lecteur : le document qui est au goût du jour, reflète lestendances pressenties, se réclame d’un sujet à la mode, est écrit par un auteur à succès... est plusfacilement considéré avec un œil favorable.

Dynamique de la confrontation lecteur / document

La pertinence n’est pas dans le document, elle est événementLa pertinence ne peut être attribuée entièrement au document, soit par une analyse de son

« contenu », soit par une caractérisation orientée utilisateur, qui prévoie et reflète les attentesauxquelles un document peut répondre158. Le texte n’explicite pas toutes ses richesses, et d’autre parton ne saurait en épuiser toutes les lectures possibles. Comme il a été ci-dessus débattu, à propos de lacompréhension et de l’interprétation, la lecture est la rencontre d’un texte et d’un point de vue, ellepasse par une démarche personnelle d’appropriation et d’intégration.

Un bon système d’information doit à la fois prendre en compte, évidemment, les contenus (pourbien archiver, indexer, éviter les duplications, etc.) ; mais aussi les usages. Ceux-ci sont étroitementliés aux positions des acteurs et à leurs besoins d’information. Or, chaque acteur a sa propre visionnaturelle du monde, et c’est à partir de celle-ci qu’il définit ses besoins. Si une « même » informationest archivée dans le système d’un unique point de vue, les acteurs devront adopter le point de vue dusystème pour y accéder, ce qui ne leur est pas naturel et engendre des dysfonctionnements, des sous-utilisations, des frustrations. (Lahlou 1994, §2.6, p. 18)

Le système documentaire fait figure de relais. Lorsqu’il sélectionne certains documents, il lesdote d’une garantie tacite de pertinence (Harter 1992) : un document présenté est considéré avec uneprésomption de pertinence (« il doit y avoir une raison qui justifie de le proposer, cherchons à lacomprendre »). D’une certaine manière, le document est vu sous un jour favorable ; mais sapertinence n’est pas acquise.

La pertinence naît à la rencontre d’une attente personnelle et de propositions de lecture. Aussin’y a-t-il pas à se focaliser sur des suggestions statiques (arrêt du calcul) : celles-ci sont envisagées defaçon dynamique. La pertinence n’est pas prédéterminée, elle est construite par le lecteur concerné, ensituation, dans sa manière de balayer et de s’approprier des propositions. 157 Dans l’enquête prospective sur une bibliothèque électronique : « Il est faux de dire que l’âge du document estcritère d’obsolescence et de destruction. Ce sont les mêmes questions que l’on se pose lorsqu’on se met à rangernos armoires. Par exemple quand une note annule et remplace, j’aimerais qu’automatiquement la note qui estannulée et remplacée soit marquée par le système comme remplacée. Mais faut-il la détruire pour autant ? Jepeux en avoir besoin pour comparer l’évolution. Peut-être est-ce un changement de lieu ou de rangement. Ledocument est gardé pour une autre raison que précédemment et son lieu de rangement l’indique (historique alorsqu’auparavant document de référence « vivant »). » (Merle, Fradin, Soinard 1994, p. 95)158 Une saine réaction, dans le contexte d’une proposition d’un surlignage a priori (le lecteur ne sachant pas surquels principes il a été fait) : « Cela ne me plairait pas d’avoir un texte pré-stabyloté ou pré-pointé. Qui l’a faitpour moi ? Je dois rester seul maître de mes centres d’intérêt quand je lis. » (Merle, Fradin, Soinard 1994, p. 67)

Page 86: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

212

Dans l’application DECID, la mesure de rapprochement profil-document matérialise en fait leparcours de lecture et l’opération d’interprétation, qui ne sont ni « dans » le texte, ni « dans » lelecteur, mais bien au niveau de leur confrontation. Le sens est construit et est lié au lecteur, il n’existepas indépendamment de celui-ci. En quelque sorte, c’est parce que le rédacteur écrit pour un certainpublic qu’il transmet une information : il « dépose » dans le texte les éléments qui permettent aulecteur averti de reconstruire un message significatif.

Multiplicité des manières de recevoir un texteSans entrer dans le détail ici, rappelons que la pertinence peut s’établir selon des modes

d’appréhension du document très divers : lecture superficielle ou approfondie, recherched’informations directement utilisables ou capacité du texte à susciter la créativité.

Certains documents ne seront que feuilletés : l’information est simplement de « savoir quecela existe ».

Similarité mais pas identitéDans les systèmes de recherche d’information, la pertinence est généralement exprimée sous

forme d’une similarité. Pour autant, la pertinence « maximale » n’est pas la similarité complète, ausens de l’identité. Le lecteur doit trouver des points communs avec son activité, ses centres d’intérêtou ses compétences, pour se sentir concerné, mais il n’est réellement intéressé que si le documentcomporte aussi certains écarts, certaines différences, une certaine part d’inattendu159, qui puissent êtresources de connaissance160. Ainsi en est-il de la lecture d’une bibliographie : les références quidonneraient envie de voir le document correspondant sont celles dont l’auteur est connu mais portantsur un thème différent de ce qu’on connaît déjà pour cet auteur, ou bien celles dont le titre promet undéveloppement intéressant, et dont l’auteur, inconnu, peut renouveler et enrichir la vision du lecteursur le domaine. En somme, il n’y a de superposition intéressante que partielle.

Par exemple, dans le cadre du « Qui Fait Quoi ? » (calcul des similarités entre les différentsprojets de recherche à la Direction des Etudes et Recherches à EDF), un chef de groupe trouveintéressant de signaler des projets peu liés à ceux de son groupe, mais qui pourraient être amenés àl’être davantage.

C’est aussi ce que l’on peut appeler « l’effet étagère » : le document avec lequel on repart estle document voisin de celui que l’on était venu chercher. Un abonnement joue de cet effet, enprésentant des articles non explicitement recherchés mais qui ouvrent sur diverses considérations enlien avec une thématique et une forme d’approche.

Enfin, l’intérêt d’un document n’est pas forcément dans son contenu immédiat, d’où unelecture que nous pourrions qualifier d’oblique.

159 Avis recueilli lors d’une enquête sur les systèmes documentaires :« Souhait de naviguer de façon autonome dans l’information pour se laisser toucher par des informations nonrecherchées, imprévues mais connectables et utiles.Je suis preneur d’informations quitte à m’embêter un peu à lire. J’aime naviguer, me laisser capter.Refus d’être enfermé dans une démarche trop rationnelle autour d’un thème (l’apport méthodologique des[professionnels de l’information] est important mais il faut être avec pour saisir l’imprévu). » (Merle, Fradin1994, §11.3, p. 56)Egalement, les réponses suivantes à un questionnaire, lors de l’enquête PUBE (Merle, Fradin, Soinard 1995,p. 17) :5ième question : « Je préfère recevoir ce qui est strictement dans mes préoccupations »Réponses : Vrai : 7 personnes ; Faux : 5 personnes (avis partagé).6ième question : « J’aime recevoir des informations hors de mon domaine, ça peut me servir »Réponses : Vrai : 11 personnes ; Faux : 0 ; Ne sait pas : 1 personne (quasi unanimité).160 C’est ainsi que (Harter 1992) lit (Sperber & Wilson 1986) et l’applique aux systèmes documentaires. Ledocument qui n’apporte rien qui ne soit déjà présent à l’esprit de celui qui le considère, n’est pas jugé pertinent :être pertinent, c’est avoir des effets contextuels, autrement dit s’insérer dans un contexte et y apporter desmodifications.

Page 87: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

213

Le document, situé par un cheminement qui le rapporte à soiLa décision de lecture suppose une démarche, un investissement personnel, un cheminement,

qui explicite le sens de cette lecture pour le lecteur en question. Le document est par exemple obtenuau terme d’une navigation dans une base documentaire, qui le situe dans une logique de recherche etl’a identifié en le cernant. Un document « anonyme » (c’est-à-dire associé à rien de connu : auteur,collègue, laboratoire, revue, etc.) et impersonnel (dont on ne voit pas le rapport avec ses activitéspropres et qui n’est pas introduit par un intermédiaire) est d’emblée non pertinent.

Composer ses lectures : préférences et compromis

Attentes et aperçuLe même lecteur peut être dans un cas satisfait avec un document, et une autre fois repartir

avec dix avec l’intention de poursuivre sa recherche. Cela dépend évidemment de l’objectif delecture : document prédéterminé, document quelconque qui comporte tel renseignement, recherched’exhaustivité (bibliographique, approches, etc.). Par exemple, la recherche d’une citation connue sesatisfait de l’ouvrage qui l’enferme, mais un état de l’art touche de multiples documents et n’est pourainsi dire jamais clos. Le choix global d’un ensemble de lectures relève aussi de l’idée que l’on se faitde la largeur du domaine de recherche, et de la quantité d’information optimale pour être« assimilable » et suffisante.

Curiosité et plaisir de la nouveautéLes gens demandent ce sur quoi ils ne travaillent pas, remarquent certains. Ouverture et

culture générale, renouvellement par rapport à une problématique par ailleurs cultivée et bien connue,justifieront éventuellement ces choix aux yeux de l’entreprise ou du centre de recherches qui appelle àtoujours plus de souplesse, de mobilité, d’innovation.

Singularité et spécificitéCe qui est vague est déprécié. Le lecteur est d’autant plus motivé qu’il perçoit ce que tel

document peut lui apporter d’unique.Un document qui serait identifié comme étant du ressort d’un chercheur (un ouvrage

générique sur son domaine : mécanique, acoustique,...) est rarement ce qui peut l’intéresser, qui estbeaucoup plus spécifique.

MultidimensionnalitéIl est difficile d’indiquer un ordre sur les documents retenus, qui sont complémentaires.

Différents critères de sélection ont été mobilisés, et ne sont pas naturellement commensurables : celui-ci est choisi pour sa récence, celui-là par qu’il fait autorité, etc.

Gestion du tempsPris dans des contraintes de délais, le lecteur s’oriente vers ce qu’il juge le plus urgent ou le

plus important, le premier aspect occultant parfois le second.Les jugements et choix de priorité se concrétisent d’ailleurs dans l’organisation des

documents sur le bureau par exemple :Pour maîtriser ou contrôler l’ensemble de l’information qu’ils ont à traiter, les interviewés ont

recours à certaines stratégies sensori-cognitives dont certaines sont rapidement repérables dans lesentretiens. Deux locutions sont constamment utilisées par les répondants, de façon très significative :« sous la main » et « sous les yeux ».

[...] l’espace [est utilisé] comme métaphore de l’urgence.[...] Il y a ainsi équivalence pour certains sujets entre, d’une part, le niveau d’urgence ou

d’importance et la proximité spatiale. Ce qui est important doit être à portée de la main et / ou à portéede regard.

[...]La métaphore d’une information plus ou moins « vivante » revient souvent, comme si un dossier

urgent ou non clos était plus « animé » qu’un dossier traité ou non urgent. Ceci renvoie sans doute à

Page 88: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

214

une sélection écologique. Dans la vie de l’homme primitif, un objet vivant, qui bouge, attire l’attentionparce qu’il est potentiellement « à surveiller », parce qu’il est potentiellement dangereux... tandis quele paysage immobile devient un fond qui s’estompe. Il semble que les sujets aient transposé àl’information cette distinction entre ce qui est « vivant » (et qu’il faut surveiller) et ce qui ne l’est pas,et requiert moins d’attention. C’est l’idée de la saillance (étymologiquement de saillir : sauter, pour unanimal), caractéristique qui fait qu’un objet s’impose à l’attention. D’ailleurs on sait que les humains(et de nombreux autres animaux) ont développé des capteurs différents (bâtonnets et cônes) dans larétine pour les contours et pour le mouvement. Peut-être y a-t-il là une piste à creuser pour lesmétaphores d’interface documentaire ? Un dossier « urgent » gigoterait plus qu’un autre sur l’écran dumicro...

(Fischler, Lahlou 1995, §4, pp. 18-19)Dans la pratique, la conduite n’obéit pas à la seule rationalité de l’urgence ou de l’importance.

Car sont souvent considérées en priorité les informations qui peuvent se traiter rapidement etimmédiatement, donnant mieux l’impression (gratifiante) d’avancer dans son travail (Fischler, Lahlou1995, §5.2.4, p. 37).

Tentations de satisfactionLe lecteur aurait l’esprit tranquille s’il avait la certitude d’avoir tout lu, ou du moins lu tout ce

qui est essentiel. Ce sont là deux tentations (et de fait deux illusions) qui guettent l’utilisateur d’unsystème de recherche documentaire, et se manifestent par deux souhaits :• disposer d’un jugement conclusif, arrêté, sur la qualité et l’intérêt des documents disponibles ;• avoir l’indication de ce qui est essentiel –d’où aussi l’attrait pour certains systèmes qui se vantent

de filtrage et d’écrémage, et fourniraient la substantifique moelle d’un texte, accusé de longueursindues.

Dans les deux cas, le lecteur ne peut pourtant s’en remettre qu’à lui-même en dernièreinstance, et en tout cas pas à un système automatique. Le document ne peut rien lui apporter s’il nes’implique dans sa lecture et cherche activement à en tirer profit. Quant à la détermination del’essentiel, il est généralement raisonnable de présumer l’auteur innocent de toute volonté d’écriresans intention de sens, ce qui fait qu’il n’y aurait aucune partie a priori vaine. Et réciproquement, lalecture est partielle (partiale) et retient tel ou tel point qui a mobilisé l’attention : il n’y a donc pas nonplus de partie en soi toujours importante. On ne peut donc fixer ni ce qui serait toujours essentiel, nice qui ne le serait jamais. A chaque lecture revient sa part de discernement et d’engagementpersonnel.

La question « où s’arrêter ? », dans le dépouillement de listes de propositions (ou autrement)reste donc sans réponse formelle. Comment cela se résout-il dans la pratique ? Par des propositions àgéométrie variable, des déploiements progressifs sur les aspects les plus intéressants (des « filons »).

La société du lecteur (communauté scientifique, collègues)

IntégrationAvoir lu un document rare et convoité, ou au contraire un document incontournable et que

« tout le monde a lu », participe à l’intégration et à la reconnaissance de l’individu dans sacommunauté de travail. C’est une équilibre entre ce qui valorise et distingue (avoir un plus, en tirer uncertain prestige), et ce qui assure que l’on est bien dans la norme (ne pas avoir de manque, être àmême de participer aux discussions).

Une lecture peut être motivée (ou à l’inverse écartée) en fonction du jugement que l’on prête àautrui : faire telle lecture risque de plaire ou déplaire à telle ou telle personne proche, dont l’avisimporte (Klobas 1995).

Rapports hiérarchiquesLa lecture fournie ou l’information envoyée par un supérieur mêle, au jugement que l’on peut

avoir sur le contenu du document, des considérations de devoir plus ou moins claires. Une consigneexplicite accompagnant l’envoi peut tenir d’un ordre (« j’aimerais avoir votre opinion sur ceci »), oudégager de toute contrainte (« j’ai reçu cela, voyez si cela vous intéresse »). Dans tous les cas, avec ou

Page 89: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

215

sans message clair sur le motif de l’envoi, la personne se sent plus tenue de prêter attention etd’accorder un certain égard aux propositions de son chef.

Les circonstances

DisponibilitéDisponibilité de la personne, qui se trouve plus ou moins de temps pour ses lectures.Accessibilité du document : attendre des mois pour l’obtenir, le payer à prix d’or, devoir

multiplier les démarches et tracas administratifs, devoir se déplacer pour consulter sur place, avoir untemps de prêt court, etc., peuvent décourager le lecteur, qui au besoin trouve un document alternatifplus simple à obtenir.

Egalement, s’il n’y a qu’un ou deux documents disponibles sur un sujet, le lecteur s’encontente en général plus volontiers et limite ses exigences, alors qu’il doit au contraire exacerbercelles-ci lorsque, face à un très grand nombre de documents proposés, il doit faire un tri et n’ensélectionner que quelques-uns. Autrement dit, la pertinence accordée à un document dépend del’intertexte effectif dans lequel il se positionne lors de la recherche d’information.

Relations interpersonnellesLa présentation d’un document à un lecteur se double d’une relation interpersonnelle quand

par exemple le document est recommandé par une personne de sa connaissance. L’estime que l’on apour cette personne a généralement une influence majeure sur la décision de lecture. La personne quirecommande fait effet d’un garant, de la même manière que l’on fait confiance à un auteur ou aucomité de rédaction d’une revue, sauf que c’est ici personnalisé.

Déresponsabilisation par dilution collectiveLa revue, reçue sur abonnement, et qui circule systématiquement entre tous les membres

d’une unité en suivant une liste de diffusion standardisée, peut être perçue de deux façons totalementopposée : ou bien, un devoir de lecture (document de travail officiel, visa à apposer) ; ou bien, unerevue qui n’est pas vraiment destinée à toutes les personnes nommées (si la liste ne varie pas selon lesdocuments en circulation), soit une situation telle que, si l’un omet de la parcourir, un autre l’aura lueet signalera à son collègue une information le concernant, au cas où il l’aurait manquée.

L’environnement agréable et efficace de proposition de documentsPour un système automatique, une ergonomie insuffisante pénalise l’utilisateur : utilisation

rébarbative parce que trop spécialisée, difficulté à obtenir des propositions qui semblent adaptées,sentiment de ne pas pouvoir maîtriser l’outil en sorte d’être en mesure d’arriver à ses fins et dans untemps acceptable, dépouillement des résultats laborieux et insatisfaisant s’il manque des élémentspour se faire une idée des documents proposés. Cela peut diminuer les motivations de lecture, etengendrer des déconvenues (tel document qui pouvait sembler pertinent se révèle décevant une foisl’exemplaire en main).

Vers la construction d’indicateurs de pertinenceL’observation des pratiques de recherche documentaire conduit alors à proposer des « règles »

heuristiques, qui explicitent certaines combinaisons favorables de facteurs. Il s’agit en fait de mettreau jour de véritables stratégies interprétatives, l’esquisse d’une herméneutique documentaire. Lespropositions suivantes nous semblent un exemple intéressant de ce type de recherche, en montrantnotamment bien l’intertextualité à l’œuvre dans l’activité d’évaluation :

1. Elimination rule. Users tend to look for aspects of the document and the things which areobviously not what they look for to reject a document :

« This is a dissertation. It doesn’t really say very much. I will tend to pass it. »« ... Grossman, I don’t know. I don’t see any economist’s writing at all. No. »

2. Multi-criteria rule. Users may feel more comfortable to accept a document by using more thanone criterion :

Page 90: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

CHAPITRE IV

216

« ... OK, the next one should be good. I know all the authors. The title sounds good. The authorsare very competent and it’s published in American Journal of Agricultural Economics. »

3. Dominance rule. Of similar documents, users will select the one which excels in at least oneaspect and not worse on the other aspects, especially if only a few documents are wanted :

« ... This is the same as te previous one, almost the same. But, I like the other one better becausethis one is 1980 and that one is 1982. »

4. Scarcity rule. Users tend to select all seemingly relevant documents, if many documents arewanted and only few retrieved :

« I am going to put this, even though it’s on Canada, the abstract sounds very good. I am going toput this high. Also, deals with soil erosion, which I don’t think that we have seen too many [in thesearch outcome]. We have seen a lot of pest management, not much about soil. »

5. Chain rule. Users tend to select chained documents. Chained documents are critiques withoriginal and papers from the same book. If one of such documents is selected, most likely the chaineddocuments are also wanted. Vise versa.

« This is the article that led to the discussion above [previous article has the same title plus thesubtitle Discussion]. This is the main article. I will put a check next to it also. »

(Wang & Soergel 1993, p. 90)

b) Le point de vue, réciproque, de l’expéditeur d’un document(notamment par diffusion ciblée)

Dans le cadre de la diffusion ciblée, à la question de la pertinence d’un document pour unlecteur (pertinence du destinataire, à qui est proposé un document), s’ajoute la question de lapertinence d’un envoi (pertinence de l’émetteur), qui n’apparaît pas dans la problématiquedocumentaire classique.

Interprétations des propositions du système

Responsabilité et risquePrendre l’initiative d’envoyer ou de faire suivre un document est perçu comme une

responsabilité : le risque est de s’être fourvoyé sur les thèmes d’intérêt du destinataire et que ledocument paraisse hors-sujet, ou à l’inverse que le destinataire soit trop compétent ou déjà informé.Aussi l’exigence prioritaire semble être la précision de l’envoi (que l’on veut exempt d’erreurs, pourne pas subir de rejet et de mécontentement), plutôt que l’assurance d’avoir trouvé toutes les personnespotentiellement intéressées (si la diffusion n’est pas « complète », elle est déjà un plus par rapport àl’absence de diffusion (sans l’aide de l’outil) ; et les contacts personnels pourront prendre le relais etprolonger, compléter et affiner la circulation de l’information ; le premier envoi n’aura été qu’uneamorce).

Les propositions de destinataires pourraient donc être accompagnées par un indicateur defiabilité.

En alternative à l’envoi, mettre à disposition et signaler (par voie d’affichage) peut êtregratifiant. Il est naturel de ne pas vouloir imposer une information en présupposant sa pertinence pourla personne : c’est un signe de plus, qui témoigne que la pertinence ne se réduit pas à une simpleadéquation de thématiques et de sujet traité.

Il y a donc des degrés d’action : l’envoi du document est un acte plus « fort » que l’envoipartiel ou le signalement.

La pertinence n’implique pas l’envoiQuand l’utilisateur de la diffusion ciblée dépouille un ensemble de destinataires proposés par

le système, il y a plusieurs cas de figure où la mention d’une personne est jugée positive, sans pourautant conclure à un envoi.

Page 91: Chapitre IV - Eléments pour une définition de la textualité · Quelle place donner à la machine dans l’analyse des textes, quelle aide peut-elle apporter ? L’idée d’une

Eléments pour une définition de la textualité

217

La situation la plus évidente est de trouver le nom d’un collègue proche (voire son proprenom). On sait que cette personne a déjà l’information, donc on n’utilise pas le système de diffusionciblée pour lui faire parvenir. Pour autant, l’indication de cette personne par le système est bénéfiquepour deux raisons. D’une part, cela rassure sur l’efficacité du système, et cela conforte le crédit qu’onlui accorde pour retrouver des personnes concernées : le système répond à la fonction que l’on attendde lui. D’autre part, les propositions du système peuvent ainsi former un ensemble cohérent etéquilibré, qui permet par exemple de se rendre compte de la proportion (forte ou faible) de personnesque l’on était en mesure de trouver sans l’aide du système. La mention systématique de toutes lespersonnes potentiellement concernées permet de faire un point complet avant diffusion del’information : il peut notamment y avoir des personnes connues de l’utilisateur du système dediffusion ciblée, mais qui avaient été oubliées, et que le système rappelle avec opportunité.

Il y a également des signalements (de personnes) jugés intéressants, mais qui n’ont pas àdonner lieu à un envoi immédiatement. L’utilisateur du système de diffusion ciblée conserve leur nompour une autre diffusion ou pour un contact ultérieur éventuel.

Les jugements de pertinence ne se juxtaposent donc pas avec les décisions d’envoi.

Les destinataires, collègues dans une même entreprise

CouvertureDans le cadre de la diffusion ciblée, il y a une pertinence d’ordre global. Il est préférable que

l’information soit bien répartie dans le centre de recherche et touche des entités qui ont peu ou pas decontacts entre elles (d’où un gain en matière de liens de communication), plutôt que de destiner tousses envois à différents membres d’une seule petite équipe. Dans ce dernier cas en effet, on court-circuite le relais du bouche-à-oreille, de personne à personne, plus efficace et nécessaire à la vie del’équipe.

L’apport du système est aussi de proposer des personnes moins évidentes à trouver pard’autres moyens : personnes dont l’activité est assez atypique par rapport à leur rattachement et à leuréquipe (non retrouvées avec un organigramme), personnes dont l’activité est décrite avec un point devue différent et un vocabulaire inattendu (non retrouvées par une recherche par mots-clés).

FocalisationMultiplier les exemplaires et les copies ne multiplie pas d’autant l’impact, il peut même le

diminuer, s’il n’y a pas un destinataire nominatif et privilégié. En effet, lorsque le destinataire estcollectif, et que le document n’est pas spécialement attrayant, chacun se dit qu’un autre prendra bienla peine de le lire, et de repérer pour lui ce qu’il peut y avoir d’important. Assurer une diffusionfocalisée évite une dilution de l’impact et responsabilise le destinataire.

ConvivialitéLes documents se passent et circulent en empruntant le réseau des connaissances. Cet échange

le renforce : c’est l’occasion de reprendre contact avec untel, d’inviter à collaborer plus étroitement,etc.

Se faire parvenir des documents, c’est aussi une façon de communiquer entre amis et collègues.C’est une conséquence de l’existence [de ces] réseaux [de relation] (Joseph-Waterlot, Lahlou 1995,§II.4.1.d, p. 20)