La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

64
Sémantique et Corpus, T oulouse, juin 2004 1 La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus Liesbeth Degand FNRS/Université catholique de Louvain

description

La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus. Liesbeth Degand FNRS/ Université catholique de Louvain. Relations causales et connecteurs. - PowerPoint PPT Presentation

Transcript of La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Page 1: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

1

La sémantique des connecteurs: de l’analyse manuelle à l’analyse

automatisée de corpus

Liesbeth DegandFNRS/Université catholique de Louvain

Page 2: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

2

Relations causales et connecteurs

• Son prochain objectif: le record du monde d'apnée statique d'Andy Le Sauce qui, en piscine, retient sa respiration pendant 7 minutes 35 secondes. Pour inscrire son nom sur les tablettes Jean-Pol François devra gagner plus de deux minutes puisque son record de Belgique est fixé à cinq minutes vingt-deux secondes. (Le Soir, 1997)

 

Page 3: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

3

Relations causales et connecteurs

• Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa. Apparemment, puisque personne - des membres du gouvernement venus l'accueillir ni des représentants de la presse accourus pour l'événement - ne l'a vu descendre de l'avion dans lequel on l'avait vu embarquer, en matinée, à Nice. (Le soir, 1997)

Page 4: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

4

Relations causales et connecteurs

(…) je crois que ça s'appelle en français mais excusez-moi parce que je vais peut-être (…) estropier le mot hein / un goupillon là (Valibel)

Page 5: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

5

Relations causales et connecteurs

• Ce transfert de souveraineté est génial , parce que je vais fièrement pouvoir dire à l' avenir que je suis une vraie Chinoise. (Le soir, 1997)

Page 6: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

6

Relations causales et connecteurs

• A l' occasion de leurs retrouvailles , les deux cousins - qui ont pratiquement le même âge : 62 et 60 ans - auront tout le loisir de parler de leurs souvenirs communs et de leur progéniture, car il n' y a pas l' ombre d' un nuage dans les relations bilatérales entre les deux pays, même si les Belges préféreraient , évidemment , voir les Norvégiens les accompagner dans la grande fratrie européenne. (Le soir, 1997)

Page 7: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

7

L’échelle d’Implication du Locuteur

• Conceptualisation scalaire des connecteurs en termes d’implication du locuteur. Les connecteurs sont ordonnés sur une échelle allant d’un implication minimale (relation objective) à une implication maximale (relation subjective).

• IdL fait référence au degré avec lequel le locuteur joue implicitement un rôle actif dans la construction de la relation (causale)

Page 8: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

8

L’échelle d’Implication du Locuteur

Speaker Involvement increases with the degree to which both the causal relation and the related segments vehicle actions and assumptions of the present speaker (Pander Maat & Degand 2001)

NVC VC Cep NCEp CSA

Page 9: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

9

Détermination du niveau d’IdL

• Degré d’iconicité de la relation causale

• Présence d’un protagoniste conscient dans la situation causale

• Caractère plus ou moins implicite du protagoniste

• Distance par rapport au locuteur et au temps présent

Page 10: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

10

Connecteurs et Implication du Locuteur

• Tout connecteur encode un certain niveau d’IdL qu’il contribue à l’interprétation de son environnement discursif. Lorsque ce niveau est trop bas ou trop élevé pour être combinable avec cet environnement, l’usage du connecteur est inapproprié, ou il impose une nouvelle interprétation.

Page 11: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

11

Connecteurs et Implication du Locuteur

• J’étais pressé, monsieur l’agent, c’est pourquoi j’ai pris le sens interdit.

• J’étais pressé, monsieur l’agent, donc j’ai pris le sens interdit.

Page 12: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

12

Connecteurs, IdL et corpus

• Connecteurs causaux en néerlandais et en françaisNéerlandais: daardoor, daarom, dus, omdat,

want, aangezienFrançais: de ce fait, c’est pourquoi, dès lors,

donc, parce que, car, puisque

Page 13: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

13

Connecteurs, IdL et corpus

• Analyse manuelle de 50 occurrences de chacun des connecteurs dans corpus écrits (presse) et oraux (Valibel, CGN).

• Deux juges• Codage linguistique des marqueurs d’Idl

– Type de relation– Modalité de S1 et S2– Présence d’un protagoniste conscient– Expression linguistique du protagoniste– Continuïté du protagoniste entre S1 et S2– Temps verbal– …

Page 14: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

14

Codage linguistique

(…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait pas affaiblir le camp anticommuniste. (…)

7 14 08 5 2 9 1 3 6 3 1 11 11 1 6

Corpus: Le Soir1997Connecteur: parce queFragment: #08Modalité S1: Action Modalité S2: OpinionType de relation: volitifRéalisation du pp en S1: expliciteRéalisation du pp en S2: implicite…

Page 15: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

15

Difficultés

• Choix des catégories et des traits sémantiques– Combien de catégories?

Théorie(s) et hypothèses

– Combien de traits sémantiques?Ni trop, ni trop peu…

Page 16: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

16

Difficultés

• Accord inter-juges?!– Détermination de la modalité

Scène 2 : suite à un accident, la voiture de Madame P. est déclarée en perte totale car le coût de la réparation dépasse la valeur intrinsèque du véhicule.

S1 = fait, expérience ou action?

Page 17: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

17

Difficultés

• Accord inter-juges?!– Détermination de la relation causale

Si j' accepte aujourd'hui de sortir ces dossiers cachés au fond des tiroirs , c' est parce que le formidable travail qui a été fait ne peut rester oublié.

Relation volitive ou épistémique?

Page 18: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

18

Difficultés

• Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S1 et S2 & Modification du

connecteur– C' est donc surtout parce qu' il estime qu' il convient sur

ces sujets délicats d' éviter la précipitation dans la généralisation, que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences.

– C' est parfois difficile parce qu' il y a ce côté tri-dimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur.

Page 19: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

19

Difficultés

• Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S1 et S2 & Modification du

connecteur– C' est donc surtout parce qu' il estime qu' il convient sur ces

sujets délicats d' éviter la précipitation dans la généralisation (P), que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences (Q).

– C' est parfois difficile (Q) parce qu' il y a ce côté tri-dimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur (P).

Page 20: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

20

Solutions …

• Opérationaliser!!!– Explicitation du processus interprétatif

• Au moins deux juges

• Taille des échantillons (min. 50?)

Page 21: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

21

var4 modalité S1

  1 = fait

Description d’un état ou d’un événement localisable dans le temps (attribution possible de VdV ; extrait imaginable au passé). Le segment ne contient pas de conceptualiseur, il n’y a pas de protagoniste conscient impliqué dans situation causale, seul un auteur/locuteur responsable du récit.

Ex. …

Papraphrase: “C’est un fait que …” + spécification de temps et lieu

Page 22: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

22

var4 modalité S1

  3 = Expérience

Il y a un conceptualiseur, qui est non-agentif. L’expérience est localisable dans le temps, VdV possible. Il s’agit d’événéments individuels, vrais à un moment donné. Différent d’un fait par la présence d’un conceptualiseur, ou une autre forme de représentation mentale.

Ex. …

Paraphrase: “je me souviens que …”, “j’ai appris/découvert que… »

Page 23: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

23

Connecteurs causaux et IdL

• Le potentiel expressif de chacun des connecteurs causaux peut être représenté comme une zone continue sur l’échelle.

• Les connecteurs les plus fréquents doivent diverger significativement sur l’échelle.

• L’échelle est constante pour des langues différentes, les connecteurs peuvent diverger par les zones qu’ils occupent.

Page 24: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

24

Contiguïté relationnelle (NL)

05

101520253035404550

non-vol.vol.c-epist.nc-epist.sp-act

Page 25: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

25

Contiguïté relationnelle (FR)

05

101520253035404550

non-vol.vol.c-epist.nc-epist.sp-act

Page 26: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

26

Divergences d’IdL

• Français: parce que < car < puisquede ce fait < c’est pourquoi < donc/dès lors

• Néerlandais:omdat < want/aangeziendaardoor < daarom < dus

Page 27: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

27

Distance entre protagoniste et locuteur:donc/dès lors

05

101520253035404550

1ere pers.3eme pers.

Page 28: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

28

Expression linguistique du protagoniste:donc/dès lors

05

101520253035404550

impliciteexplicite

Page 29: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

29

Echelle d’IdL contrastive

• Français: parce que < car < puisquede ce fait < c’est pourquoi < dès lors <donc

• Néerlandais:omdat < aangezien < wantdaardoor < daarom < dus

Page 30: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

30

Premières conclusions

• L'IdL peut rendre compte de la variété d'usage des connecteurs causaux et des effets de substitution d'un connecteur par un connecteur de niveau différent.

• L'IdL peut mettre au jour des divergences très fines entre connecteurs.

• L'IdL permet de contraster des "équivalents" dans des langues différentes.

Page 31: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

31

Vers une analyse automatisée…

Yves Bestgen, FNRS/UCLWilbert Spooren, VU Amsterdam

Page 32: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

32

Connecteurs et Analyses de Corpus

• Approches classiques:– analyses manuelles d'échantillons relativement

restreints (25-50)– analyst-dependent

• Vers une approche automatisée– vastes corpus– analyst-independent

Page 33: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

33

Connecteurs causaux en NL et FR

• Aangezien, omdat, want, doordat• Puisque, parce que, car • Hypothèses linguistiques

doordat < omdat < aangezien < wantparce que < car < puisque

• Techniques TAL• identification et extraction du matériel linguistique

pertinent• analyse du matériel linguistique en fonction des

hypothèses

Page 34: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

34

Matériel (NL)

• Corpus presse écrite néerlandaise de +/- 30 millions de mots

• POS-taggé & lemmatisé

• Essai sur 6 premiers mois– exclusion des rubriques à faible contenu

sémantique

• Données: 16.5 millions de mots

Page 35: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

35

Techniques d'extraction d'information sémantique

Analyse sémantique latente

ET

Analyse de contenu thématique

Page 36: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

36

Analyse sémantique latente

Technique statistique permettant de calculer la proximité sémantique de deux mots (segments) sur base de la probabilité de les retrouver dans un contexte textuel similaire.

Deux mots sont similaires s'ils apparaissent dans des paragraphes similaires.

Page 37: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

37

Analyse sémantique latente

• Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel).

• La signification d'un mot est représentée par un vecteur à N dimensions.

• Pour calculer la proximité sémantique entre deux mots, on calcule le cosinus entre les deux vecteurs qui les représentent.

Page 38: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

38

Cos. = 0 Cos. > 0 Cos. = 1singe – lettre ordinateur – mémoire policier - gendarme

Page 39: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

39

Analyse sémantique latente

Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i.e. determination de la similarité sémantique entre les segments, phrases, paragraphes contenant want, omdat, aangezien, doordat.

Page 40: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

40

Analyse de contenu thématique

• Technique d'analyse de contenu permettant de déterminer si un concept donné survient +/- fréquemment dans un type de segment donné (Popping 2000)

• Le concept X est plus fréquent dans les segments A que dans les segments B

Page 41: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

41

Analyse de contenu thématique: première étape

• Construction du dictionnaire

• Identification des segments, p.ex. avec want, omdat, doordat, aangezien …

Concept Entrées lexicales

Pronom personnel

Verbes d'opinion

Termes de couleurs

je, tu, il , elle, nous, vous, ils …

croire, penser, estimer, sembler …

rouge, bleu, vert, jaune, violet..

Page 42: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

42

Analyse de contenu thématique: seconde étape

• Construction d'une matrice avec les segments contenant des instances lexicales des concepts X, Y, Z

want doordat aangezien

concept X 312 954 102

concept Y 112 89 56

concept Z 230 115 465

Page 43: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

43

Fréquence des connecteurs dans le corpus

Connective

Raw frequency

Relative frequency (per million words)aangezien

doordatomdatwant

248826

76895621

30101938686 

Page 44: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

44

Préalable: Analyse « syntaxique »

• Identification des segments de <cause> et de <conséquence> dans les phrases

• Règles heuristiques pour distinguer:– Conn. Antécédent:

Puisque c’est ainsi, je reviendrai mardi.– Conn. Médial 1:

Je suis venue parce que tu me l’avais demandé.– Conn. Médian 2:

Je reviendrai mardi. Car c’était délicieux.

Page 45: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

45

Analyse syntaxique: difficultés

• Hiérarchisation des règles par défaut et règles « prioritaires »

• Détermination des frontières des segments• Taille minimale des segments pour une

analyse sémantique

Pour le français c’est en cours, pour le néerlandais c’est fait!

Page 46: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

46

Analyse automatique du niveau d’IdL (analyse sémantique)

• Les connecteurs diffèrent les uns des autres par le niveau d’IdL qu’ils encodent – doordat: niveau d'IdL bas (non-volitif, objectif,

factuel)– want: niveau d'Idl élevé (épistémique-

interactionnel, subjectif, opinion-argument)– omdat & aangezien: position intermédiaire

(volitif, épistémique)

Page 47: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

47

Dictionnaire de subjectivité

Concepts Entrées lexicales

fait Exister, cellule, économie, décéder, procédure, événement …

action Aider, fabriquer, choisir, appeler, annoncer, écrire, battre, diriger, …

opinion Croire, estimer, probablement, horrible, très, exceptionnel, magnifique, …

Page 48: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

48

IdL (modalité de S1): Hypothèse

• Les segments de <conséquence> liés par doordat contiennent des mots factuels, ceux liés par omdat contiennent des mots d’action et d’opinion, et ceux liés par aangezien et want contiennent des mots d’opinion.

Page 49: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

49

IdL: Résultats

• L’analyse automatique confirme les analyses de corpus manuelles: doordat co-occure significativement plus avec des segments factuels que les autres connecteurs, omdat plus avec des segments d’action et want et aangezien plus avec des segments d’opinion.

Page 50: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

50

IdL et pronoms personnels

• Les pronoms personnels font référence à un protagoniste conscient dans l’événement causal, de ce fait on peut les considérer comme des marqueurs linguistiques de subjectivité (Degand & Pander Maat 2003, Pit 2003)

Page 51: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

51

Pronoms personnels: Hypothèses

• Les connecteurs subjectifs (à IdL élevé) devraient survenir plus avec des pronoms personnels que les connecteurs objectifs (à IdL basse).

• Les connecteurs subjectifs devraient être plus fréquents avec des pronoms personnels à la 1ère personne et les connecteurs objectifs plus fréquents avec des pronoms à la troisième personne.

Page 52: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

52

Pronoms personnels: analyse de contenu thématique

• Dictionnaire pour le concept « pronom personnel »– Entrées lexicales:

ik, jij, je, hij, zij, ze, u, wij, we, jullie.

Page 53: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

53

Pronoms personnels: Résultats

• La première hypothèse se vérifie:

doordat < aangezien < omdat < want

Page 54: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

54

Pronoms personnels: Résultats

• Confirmation partielle de la seconde hypothèse: Tous les connecteurs sont plus fréquents avec des pronoms personnels à la troisième personne, mais la proportion de segments liés par want contenant des pronoms à la première personne est plus élevée.

• Want est le connecteur le plus subjectif, les autres connecteurs se retrouvent dans la partie plus objective de l’échelle.

Page 55: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

55

Rupture de perspective (LSA)

• La perspectivisation rend compte du fait qu’un texte peut être polyphonique. Elle joue un rôle dans les divergences de sens entre want (rupture de perspective) et omdat (pas de rupture)

• Aucune confirmation empirique univoque

Page 56: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

56

Rupture de perspective (LSA)

• Conception de la rupture de perspective comme une rupture dans la cohésion sémantique des segments liés par les connecteurs.

• Une rupture de perspective devrait impliquer une diminution de la cohésion sémantique entre les segments connectés.

Page 57: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

57

Rupture de perspective: Hypothèse 1

• Le cosinus entre Q & P liés par des connecteurs monophoniques (omdat) sera plus élevé que le cosinus entre Q & P liés par des connecteurs polyphoniques (want).

Q conn-mono P vs. Q conn-poly P

Cosinus > Cosinus

Page 58: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

58

Rupture de perspective: Hypothèse 2

• Le cosinus entre la phrase précédente et la phrase suivante sera plus élévé pour les connecteurs monophoniques que pour les connecteurs polyphoniques.

PRIOR Q mono P NEXT vs. PRIOR Q poly P NEXT

Cosinus > Cosinus

Page 59: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

59

Rupture de perspective: Résultats LSA

• Les deux hypothèses se vérifient– Les segments reliés par omdat (monophonique)

sont sémantiquement plus proches que les segments reliés par want (polyphonique).

– Le connecteur omdat va de pair avec une continuité topicale entre la phrase précédente et la phrase suivante, ceci est moins le cas pour want.

Page 60: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

60

Rupture de perspective: Confirmation par ACT

• Construction d’un dictionnaire d’«Indicateurs de perspective » (adverbes d’attitude, « intensifieurs », « évaluateurs », …) sur base d’un thésaurus.

Page 61: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

61

Rupture de perspective: Hypothèse ACT

• Si les segments causaux sont reliés par want, les segment Q contient des indicateurs de perspective, P n’en contiendra pas. Les segments reliés par omdat, doordat, aangezien ne présentent pas une telle rupture (perspective uniforme ou absence de perspective).

• L’hypothèse est vérifiée…

Page 62: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

62

Conclusions

• L’analyse sémantique latente et l’analyse de contenu thématique sont des techniques permettant l’étude automatisée des facteurs linguistiques déterminant le sens et l’usage des connecteurs.

• Une analyse automatisée n’a des sens que si l’on dispose d’hypothèses linguistiques solides (avec premiers résultats « manuels »).

Page 63: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

63

Conclusions

• Usage de VASTES corpus

• Confirmation « automatique » des résultats manuels

• Complémentarité entre analyses qualitatives et quantitatives, avec « quantification » du « qualitatif ».

• Objectivation du processus interprétatif.

Page 64: La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus

Sémantique et Corpus, Toulouse, juin 2004

64

Travaux futurs

• Automatisation (?) de l’analyse syntaxique préalable (identification des segments P&Q)

• Extension de l’analyse afin d ’identifier les différents environnements discursifs de différents connecteurs causaux (en néerlandais et en français), dans des genres différents.

• Etude de séquences implicites et sous-spécifiées.