Eléments de statistique et de visualisations pour l’analyse textuelle

140
Eléments de statistique et de visualisations pour l’analyse textuelle Jean-Marie Viprey Maison des Sciences de l’Homme de Franche- Comté UMR Bases Corpus Langages CNRS-Nice [email protected]

description

Eléments de statistique et de visualisations pour l’analyse textuelle. Jean-Marie Viprey Maison des Sciences de l’Homme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice [email protected]. Généralités. - PowerPoint PPT Presentation

Transcript of Eléments de statistique et de visualisations pour l’analyse textuelle

Page 1: Eléments de statistique et de visualisations pour l’analyse textuelle

Eléments de statistique et de visualisations pour l’analyse

textuelle

Jean-Marie Viprey

Maison des Sciences de l’Homme de Franche-ComtéUMR Bases Corpus Langages CNRS-Nice

[email protected]

Page 2: Eléments de statistique et de visualisations pour l’analyse textuelle

1. Généralités

Page 3: Eléments de statistique et de visualisations pour l’analyse textuelle

La statistique a pour objet de caractériser des ensembles (« populations ») en regroupant les individus qui les constituent selon les attributs ou propriétés qu’ils ont ou non en commun.

Posséder un même attribut, pour N individus, c’est relever d’une même classe.

Pour le démographe statisticien, le genre sexuel est une classe (de même la CSP, la tranche d’âge…).

Pour l’économiste statisticien, le chiffre d’affaire des entreprises, le PNB des états, le revenu d’un ménage détermine (par seuils) des classes statistiques.

Page 4: Eléments de statistique et de visualisations pour l’analyse textuelle

Que la propriété soit qualitative (sexe, CSP, lieu d’implantation) ou quantitative (taille, âge, PNB), elle doit le plus souvent être discrétisée pour donner prise à la statistique.

Ainsi :

Le lieu n’est pas un point GPS, mais une commune, un département, un état…

La taille est arrondie au centimètre, ou de 5 en 5 cm…

L’âge est arrondi au mois, à l’an, de 5 en 5, de 10 en 10, ou par tranches inégales…

*** Le genre sexuel est une donnée binaire, non discrétisable. ***

Page 5: Eléments de statistique et de visualisations pour l’analyse textuelle

Exemple d’un « mot » dans un « texte » :

« chanté » propriétés qualitatives : séquence des lettres c-h-a-n-t-é entièrement en bas de casse forme verbaleforme fléchie du verbe chanterparticipe passésa fonte et son corps4ème mot du premier vers…

Page 6: Eléments de statistique et de visualisations pour l’analyse textuelle

Exemple d’un « mot » dans un « texte » :

« chanté » propriétés quantitatives : comporte 6 lettresComporte 4 phonèmes, 2 syllabesComporte 4 consonnes graphiquesComporte 2 consonnes phonétiquesComporte 2 voyelles graphiques…

Page 7: Eléments de statistique et de visualisations pour l’analyse textuelle

Exemple d’un « mot » dans un « texte » :

« chanté » « autres » propriétés qualitatives : « champ sémantique » de la musique« domaine » du show-business ?métaphore !

Page 8: Eléments de statistique et de visualisations pour l’analyse textuelle

Un « texte », au sens restreint d’énoncé écrit, est formé d’unités successives délimitées conventionnellement (lettres, mots, phrases, paragraphes, chapitres…)

Si l’on considère ces unités, ou segments, comme les individus d’une population, comportant des attributs susceptibles de les associer à des classes,

dès lors le texte est un objet statistique.

Page 9: Eléments de statistique et de visualisations pour l’analyse textuelle

La statistique a pour intérêt de permettre la connaissance synthétique d’objets complexes, très complexes, voire infiniment complexes.

Un ensemble discursif et ses matérialités textuelles (corpus) deviennent rapidement aussi complexes que la population ou l’économie d’un état ou du monde.

Quelques applications statistiques relativement simples permettent de prendre connaissance de structures et de contrastes grossiers et simplifiés, mais surplombants, étayés et reproductibles, afin de les confronter à une expérience empirique subtile et diverse, mais « au ras du sol », labile et contradictoire.

Page 10: Eléments de statistique et de visualisations pour l’analyse textuelle

APPLICATION :

Un corpus de 692 articles de presse « vernaculaire » constitué dans le cadre d’une enquête commanditée par la Préfecture de Région Franche-Comté

Après une segmentation conventionnelle, on dénombre 336 246 « individus », « segments » ou « mots » (à l’exception des ponctuations).

On désigne cette « population » par la lettre N.

Si l’on prend en compte le caractère qualitatif :

Chaîne de caractères indépendamment de la casse, et de toute mise en forme de caractères, on détermine 23 264 « classes », dont les plus fréquentes sont :

(On désigne ce nombre de classes par la lettre V.)

Page 11: Eléments de statistique et de visualisations pour l’analyse textuelle

de 18231   a 1972

la 11204   sur 1906

l' 8511   il 1886

et 8336   nous 1860

le 7488   pas 1765

les 7329   ce 1623

à 6757   plus 1605

des 6719   ne 1339

d' 5515   avec 1276

en 5017   aux 1252

du 4066   europe 1200

pour 3577   se 1166

une 3480   s' 1159

un 3419   qu' 1151

que 2752   sont 1124

est 2728   n' 1080

dans 2665   cette 967

qui 2550   ont 929

au 2164   européenne 890

par 2083   c'est 886

Et parmi lesquelles une majorité (13 919) n’ont qu’une occurrence (« hapax »).

Page 12: Eléments de statistique et de visualisations pour l’analyse textuelle

de 18231 5,4219%   a 1972 0,5865%

la 11204 3,3321%   sur 1906 0,5668%

l' 8511 2,5312%   il 1886 0,5609%

et 8336 2,4791%   nous 1860 0,5532%

le 7488 2,2269%   pas 1765 0,5249%

les 7329 2,1797%   ce 1623 0,4827%

à 6757 2,0095%   plus 1605 0,4773%

des 6719 1,9982%   ne 1339 0,3982%

d' 5515 1,6402%   avec 1276 0,3795%

en 5017 1,4921%   aux 1252 0,3723%

du 4066 1,2092%   europe 1200 0,3569%

pour 3577 1,0638%   se 1166 0,3468%

une 3480 1,0350%   s' 1159 0,3447%

un 3419 1,0168%   qu' 1151 0,3423%

que 2752 0,8184%   sont 1124 0,3343%

est 2728 0,8113%   n' 1080 0,3212%

dans 2665 0,7926%   cette 967 0,2876%

qui 2550 0,7584%   ont 929 0,2763%

au 2164 0,6436%   européenne 890 0,2647%

par 2083 0,6195%   c'est 886 0,2635%

Si l’on rapporte le nombre d’occurrences (effectif) de chaque classe à N (336 246), on établit sa fréquence.

Page 13: Eléments de statistique et de visualisations pour l’analyse textuelle

Il est plus aisé de comparer des fréquences que des effectifs.

2ème APPLICATION :

Un corpus de 252 numéros du mensuel Le Monde diplomatique de 1980 à 2000.

Après une segmentation suivant les mêmes normes que pour le corpus « SGAR », et sur la base du même caractère qualitatif :

N = 17 662 550

V = 182 190

Page 14: Eléments de statistique et de visualisations pour l’analyse textuelle

NB : on peut déjà comparer les « rangs »…

de 955371   de 18231

la 579160   la 11204

l' 466407   l' 8511

les 408350   et 8336

et 392779   le 7488

le 385327   les 7329

des 357728   à 6757

à 343633   des 6719

d' 297294   d' 5515

en 267353   en 5017

du 220847   du 4066

un 190264   pour 3577

une 186261   une 3480

dans 155703   un 3419

que 153648   que 2752

qui 141006   est 2728

est 130662   dans 2665

par 122728   qui 2550

pour 119622   au 2164

a 114916   par 2083

Monde diplomatique SGAR

Page 15: Eléments de statistique et de visualisations pour l’analyse textuelle

Monde diplomatique SGAR

La comparaison la plus immédiatement « parlante » est celle des fréquences.

de 955371 5,41%   de 18231 5,42%

la 579160 3,28%   la 11204 3,33%

l' 466407 2,64%   l' 8511 2,53%

les 408350 2,31%   et 8336 2,48%

et 392779 2,22%   le 7488 2,23%

le 385327 2,18%   les 7329 2,18%

des 357728 2,03%   à 6757 2,01%

à 343633 1,95%   des 6719 2,00%

d' 297294 1,68%   d' 5515 1,64%

en 267353 1,51%   en 5017 1,49%

du 220847 1,25%   du 4066 1,21%

un 190264 1,08%   pour 3577 1,06%

une 186261 1,05%   une 3480 1,03%

dans 155703 0,88%   un 3419 1,02%

que 153648 0,87%   que 2752 0,82%

qui 141006 0,80%   est 2728 0,81%

est 130662 0,74%   dans 2665 0,79%

par 122728 0,69%   qui 2550 0,76%

pour 119622 0,68%   au 2164 0,64%

a 114916 0,65%   par 2083 0,62%

Page 16: Eléments de statistique et de visualisations pour l’analyse textuelle

Monde diplomatique SGAR

La comparaison la plus immédiatement « parlante » est celle des fréquences.

de 955371 5,41%   de 18231 5,42%

la 579160 3,28%   la 11204 3,33%

l' 466407 2,64%   l' 8511 2,53%

les 408350 2,31%   et 8336 2,48%

et 392779 2,22%   le 7488 2,23%

le 385327 2,18%   les 7329 2,18%

des 357728 2,03%   à 6757 2,01%

à 343633 1,95%   des 6719 2,00%

d' 297294 1,68%   d' 5515 1,64%

en 267353 1,51%   en 5017 1,49%

du 220847 1,25%   du 4066 1,21%

un 190264 1,08%   pour 3577 1,06%

une 186261 1,05%   une 3480 1,03%

dans 155703 0,88%   un 3419 1,02%

que 153648 0,87%   que 2752 0,82%

qui 141006 0,80%   est 2728 0,81%

est 130662 0,74%   dans 2665 0,79%

par 122728 0,69%   qui 2550 0,76%

pour 119622 0,68%   au 2164 0,64%

a 114916 0,65%   par 2083 0,62%

Page 17: Eléments de statistique et de visualisations pour l’analyse textuelle

RAPPORT DE V ET DE N.

Souvent défini comme indice de « richesse » lexicale (parfois mieux dit : « variété »

Comparaison difficile. L’accroissement de V (l’emploi de formes non encore utilisées) diminue au fur et à mesure du développement du texte (et donc, de l’accroissement de N).

Le rapport n’est en aucun cas proportionnel.

De nombreuses formules d’indices ont été proposée, sans qu’aucune parvienne à maîtriser les grandes variations de V.

On en est réduit à recenser des échantillons du corpus le plus étendu.

Page 18: Eléments de statistique et de visualisations pour l’analyse textuelle

RAPPORT DE V ET DE N.

En l’occurrence, si l’on prend plusieurs tranches de 335 000 mots extraites du Monde diplomatique, on obtient un résultat « V » toujours supérieur au V de SGAR.

Exemples :

SGAR N = 336 246 V = 23 264

Mondiplo1 N = 332 214 V = 25 982 (1980)

Mondiplo2 N = 334 135 V = 25 188 (1986)

Mondiplo3 N = 334 064 V = 27 977 (1998)

Mais Le Vicomte de Bragelonne, de Dumas père :

N = 690 111 V = 25 417 !

Page 19: Eléments de statistique et de visualisations pour l’analyse textuelle

RAPPORT DE V ET DE N.

Quelles conclusions (ne pas) en tirer ?

Certains linguistes ont considéré qu’il s’agissait d’un indice d’étendue du lexique sous-jacent.

Le terme de « richesse » va dans le sens d’un jugement de valeur et a minima d’un jugement stylistique.

En réalité, le rapport de V à N renvoie à plusieurs facteurs que seules des analyses plus poussées peuvent espérer discriminer.

Page 20: Eléments de statistique et de visualisations pour l’analyse textuelle

LOI DE ZIPF

Liée aux théories de l’information (Shannon, Mandelbrot), c’est une loi statistique applicable aux dépouillements lexique-fréquence dans les langues naturelles.

Rang décroissant et effectif sont liés : grosso modo, le produit d’un rang par l’effectif correspondant à ce rang est constant.

(plus exactement : où f est l’effectif et K une constante)

La relation des logarithmes du rang et de l’effectif correspondant donne lieu à un nuage de points typiquements alignés.

Page 21: Eléments de statistique et de visualisations pour l’analyse textuelle

LOI DE ZIPF

Vocabulaire de SGAR en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

Page 22: Eléments de statistique et de visualisations pour l’analyse textuelle

LOI DE ZIPF

Vocabulaire de Mondiplo en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10 12 14

Page 23: Eléments de statistique et de visualisations pour l’analyse textuelle

LOI DE ZIPF

Vocabulaire de La Comédie humaine en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12

Page 24: Eléments de statistique et de visualisations pour l’analyse textuelle

LOI DE ZIPF

Vocabulaire d’ Illusions perdues en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Page 25: Eléments de statistique et de visualisations pour l’analyse textuelle

LOI DE ZIPF

Vocabulaire du Vicomte de Bragelonne en formes graphiques ramenées au bas de casse - abscisse log(rang), ordonnée log(effectif) -

0

2

4

6

8

10

12

0 2 4 6 8 10 12

Page 26: Eléments de statistique et de visualisations pour l’analyse textuelle

GAMMES DE FREQUENCES

0

0,5

1

1,5

2

2,5

1 2 3 4 5 6 7 8 9 10

2 ANS (N=1 729 312 V=55 663)

0

0,5

1

1,5

2

2,5

1 2 3 4 5 6 7 8 9 10

TOTAL (N= 17 662 550 V=182 190) 10 ANS (N=8 522 268 V=1220174)

6 MOIS (N=415 266 V=28 085)

0

0,5

1

1,5

2

2,5

1 2 3 4 5 6 7 8 9 10

0

0,5

1

1,5

2

2,5

1 2 3 4 5 6 7 8 9 10

0

0,5

1

1,5

2

2,5

1 2 3 4 5 6 7 8 9 10

MD

SGAR

Page 27: Eléments de statistique et de visualisations pour l’analyse textuelle

GAMMES DE FREQUENCES

COMEDIE HUMAINE (N=4 104 853 V=66 108)

ILLUSIONS (N=236 208 V=18 287)

BALZAC

DUMAS

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1 2 3 4 5 6 7 8 9 10

0

0,5

1

1,5

2

2,5

1 2 3 4 5 6 7 8 9 10

BRAGELONNE (N=690 111 V=25 417)

0

0,5

1

1,5

2

1 2 3 4 5 6 7 8 9 10

Page 28: Eléments de statistique et de visualisations pour l’analyse textuelle

2. Probabilités

Page 29: Eléments de statistique et de visualisations pour l’analyse textuelle

La majorité des tests statistiques employés dans l’étude des textes sont de nature probabiliste.

La probabilité affectée à un événement dans un cadre spatio-temporel défini est un quotient :

Le dénominateur est le nombre total de configurations envisageables de tous les facteurs efficaces contenus dans le cadre défini

Le numérateur est le nombre de configurations produisant cet événement.

Page 30: Eléments de statistique et de visualisations pour l’analyse textuelle

Ainsi, la probabilité de tirer un Roi dans un jeu de 32 cartes classique neuf et normal, non marqué, en prenant une seule carte est de 4/32 (il existe 4 configurations favorables pour un total de 32).

On comprend que p a pour bornes 0 et 1.

Une probabilité peut être inférée des paramètres du cadre (exemples : un dé à six faces) ou (cas le plus fréquent) de l’observation prolongée du cadre (sexe de l’enfant à naître, météorologie, voire astrologie…).

Page 31: Eléments de statistique et de visualisations pour l’analyse textuelle

La distinction est importante.

Le modèle théorique d’un dé à six faces, conduit à prêter à chacun des six résultats possibles d’un lancer simple une probabilité égale (équiprobabilité).

Mais on peut tester un dé « réel », qui peut ne pas être équilibré.

Il faut alors le lancer un « certain » nombre de fois afin de vérifier si les résultats sont conformes aux prédictions du modèle. Si le dé est mal équilibré, l’expérience permet à un tricheur de détenir un modèle non équiprobable susceptible de lui permettre un système de paris gagnants.

Page 32: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du lancer de dés :

un seul lancer

Chaque résultat est « équiprobable »

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6

Le total des probabilités est 1.

Chaque probabilité est comprise entre 0 et 1

Page 33: Eléments de statistique et de visualisations pour l’analyse textuelle

Un dé « pipé », lancé 1000 fois.

Résultats de 1000 lancers :

Modèle probabiliste de ce dé :

050

100150200250300

1 2 3 4 5 6

00,050,1

0,150,2

0,250,3

1 2 3 4 5 6

Page 34: Eléments de statistique et de visualisations pour l’analyse textuelle

Contraste des deux modèles :

00,050,1

0,150,2

0,250,3

1 2 3 4 5 6

Permet de spéculer sur le(s) facteur(s) d’une telle déviation.

Ici, une masse plus dense entre le centre du dé et la face « 6 » ?

Page 35: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du lancer de dés :

un seul lancer

Additivité

Le total des probabilités reste 1.

Chaque probabilité est comprise entre 0 et 1, ces bornes comprises

00,10,20,30,40,50,6

pair impair zéro >6

Sér ie1

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6

Page 36: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du lancer de dés : deux lancers

Composition exemple A

Le total des probabilités reste 1.

Attention à l’opérateur « ET »

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6

0

0,01

0,02

0,03

0,04

0,05

0,06

1et1

2et1

2et2

3et1

3et2

3et3

4et1

4et2

4et3

4et4

5et1

5et2

5et3

5et4

5et5

6et1

6et2

6et3

6et4

6et5

6et6

Page 37: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du lancer de dés : deux lancers

Composition exemple B

Le total des probabilités reste 1.

Attention à l’opérateur « PUIS »

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6

0

0,005

0,01

0,015

0,02

0,025

0,03

Page 38: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du lancer de dés : deux lancers

Composition exemple C

Le total des probabilités reste 1.

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6 7 8 9 10 11 12

Page 39: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du jeu de cartes

Les tirages ne sont plus indépendants les uns des autres

Exemple 1 : on tire une seule carte.

Le total des probabilités reste 1.

0

0,05

0,1

0,15

7 8 9 10 V D R AS

00,050,1

0,150,2

0,250,3

CŒUR CARREAU PIQUE TREFLE

Page 40: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du jeu de cartes

Les tirages ne sont plus indépendants les uns des autres

Exemple 1 : on tire deux cartes SANS REMETTRE LA 1ère.

Les probabilités concernant la 2ème carte sont modifiées par le tirage de la 1ère carte.

Si je tire un Roi, il reste alors 3 rois sur 31 cartes.

La probabilité combinée de tirer SIMULTANEMENT 2 rois se calcule ainsi :

4/32 * 3/31 = 0.0121

(si l’on remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait :

4/32 * 4/32 = 0.0156

Page 41: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du jeu de cartes

Les tirages ne sont plus indépendants les uns des autresLa différence de 0.0121 à 0.0156 peut paraître minime…

Mais si je tire 4 cartes dans l’espoir d’obtenir 4 Rois :

La probabilité combinée de tirer SIMULTANEMENT 4 rois

(un « carré de rois » ) se calcule ainsi :

4/32 * 3/31 * 2/30 * 1/29 = 28 pour UN MILLION (noté 2.78 E-05)

(si l’on remettait la carte et rebattait le jeu, la probabilité de tirer SUCCESSIVEMENT 2 rois serait :

4/32 * 4/32 * 4/32 * 4/32 = 244 pour un million (noté 2.44 E-04)

SOIT 9 FOIS PLUS.

Page 42: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du jeu de cartes

En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle

(« sans remise »)

Exemple : si je compare le vocabulaire d’un article de journal à celui de la collection complète de ce journal, c’est « comme si » je tirais SIMULTANEMENT

d’un immense jeu de (mettons) 40 millions de cartes

une « poignée » de (mettons) 5000 cartes

Si je veux calculer la probabilité que cette « poignée » comporte (mettons) 50 « cartes » marquées « je », je devrai tenir compte du fait que le « stock » total de cartes « je » est limité et épuisable.

Page 43: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du jeu de cartes

En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle

(« sans remise »)

REMARQUE ECLAIRANTE :

Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ?

Page 44: Eléments de statistique et de visualisations pour l’analyse textuelle

Modèle du jeu de cartes

En pratique, on se souviendra que la plupart des calculs en statistique lexicale se font sur ce modèle

(« sans remise »)

REMARQUE ECLAIRANTE :

Quelle est la probabilité de tirer SIMULTANEMENT 5 rois en 5 cartes dans un jeu de 32 cartes ordinaire ?

Cette probabilité est NULLE.

On le montre aisément par le calcul :

p = 4/32 * 3/31 * 2/30 * 1/29 * 0/28 = 0

Il en va de même pour l’hypothèse de rencontrer 51 occurrences de « je » dans un article si la collection complète n’en comporte que 50.

Page 45: Eléments de statistique et de visualisations pour l’analyse textuelle

Fréquence et probabilitéSi l’on « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique

est égale à la fréquence de cette forme dans le corpus

(Fréquence et probabilité sont également bornées par 0 et 1)

[ DANS LE MODELE LEXICAL D’EQUIPROBABILITE ]

qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes

(STOCHASTIQUES)

Page 46: Eléments de statistique et de visualisations pour l’analyse textuelle

Fréquence et probabilitéSi l’on « prend » (« tire ») un mot au hasard dans la suite des mots du corpus, la probabilité que ce mot soit une occurrence de telle ou telle forme graphique

est égale à la fréquence de cette forme dans le corpus

(Fréquence et probabilité sont également bornées par 0 et 1)

[ DANS LE MODELE LEXICAL D’EQUIPROBABILITE ]

qui permettra, par contraste avec les observations réelles, de connaître certaines contraintes

(STOCHASTIQUES)

Page 47: Eléments de statistique et de visualisations pour l’analyse textuelle

StochastiqueOn laissera ici de côté la combinatoire syntaxique proprement dite (impossibilité linguistique de la suite « de je », fréquence de la suite « de la » bien supérieure à sa probabilité calculée mot par mot).

Combinatoire « lexicale ».

Exemple de la séquence « conseil général ».

Dans SGAR, la fréquence de « conseil » est 9.57 E-04, celle de « général » de 6.22 E-04. La probabilité de les trouver dans cet ordre est 5.05 E-07 (0.6 pour 1 million).

Or, la fréquence de « conseil général » parmi les 336 245 « bi-formes » du corpus est 2.17 E-04, soit à peine plus faible que celle de ses constituants !

Page 48: Eléments de statistique et de visualisations pour l’analyse textuelle

Conclusion partielleFace à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type :

« je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages »

on calcule quelle était la probabilité de ce résultat « avant qu’il ait eu lieu », c’est-à-dire la probabilité a posteriori de se tromper en affirmant qu’il est dû au hasard (ou l’inverse, de parier qu’il va se reproduire, p.ex.)

Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et c’est

ce qui valorise – ou non – l’événement.

Page 49: Eléments de statistique et de visualisations pour l’analyse textuelle

Conclusion partielleFace à un événement, produit « naturellement » ou provoqué « artificiellement » (on le nomme un résultat), du type :

« je dénombre 8 occurrences de démocratie dans une page de ce livre, qui en compte 355 pour 220 pages »

on calcule quelle était la probabilité de ce résultat « avant qu’il ait eu lieu », c’est-à-dire la probabilité a posteriori de se tromper en affirmant qu’il est dû au hasard (ou l’inverse, de parier qu’il va se reproduire, p.ex.)

Les « lois » de distribution (binomiale, normale, de Poisson) expriment directement la probabilité de ce qui est observé, comme si elles avaient à le prévoir, et c’est

ce qui valorise – ou non – l’événement.

Page 50: Eléments de statistique et de visualisations pour l’analyse textuelle

Conclusion partielleLe calcul de l’écart-réduit d’une observation à sa valeur calculée dans le modèle de l’équidistribution substitue un indice « désincarné », épuré d’attributs accidentels, à l’effectif dénombré. Et c’est lui, l’écart-réduit, qui répond de sa probabilité « d’être dû au hasard ». Pour ceux qui le pratiquent, il a incorporé l’échelle statistique (on dit « un écart-réduit de 3, un écart-réduit « du feu de Dieu »).

Page 51: Eléments de statistique et de visualisations pour l’analyse textuelle

3. DistributionsEvaluation en probabilité

Page 52: Eléments de statistique et de visualisations pour l’analyse textuelle

Espérance mathématique.Si un mot quelconque a une probabilité connue d’être

l’occurrence d’une forme donnée,

on peut calculer un nombre « théorique » d’occurrences de cette forme dans un ensemble de n mots.

C’est ce que la théorie des jeux appelle l’espérance mathématique.

La formule en est

En d’autres termes, si l’on prend pour norme la fréquence d’une forme dans un (vaste) corpus de référence (p) , on

« s’attend » à en trouver, dans un corpus de travail comprenant n mots, p*n occurrences .

Page 53: Eléments de statistique et de visualisations pour l’analyse textuelle

Effectif « théorique » ou calculé.En d’autres termes encore, si l’on prend pour norme

l’effectif (X) d’une forme dans un (vaste) corpus de référence comprenant N mots, on « s’attend » à en

trouver, dans un corpus de travail comprenant n mots, X*n/N occurrences .

L’ « espérance mathématique » est un effectif (un nombre d’occurrences). On parle plutôt d’effectif théorique, et

mieux encore d’effectif calculé (vs effectif mesuré), que d’ « espérance mathématique »

Sa formule nous laisse entrevoir qu’il n’a pas de borne supérieure* et prendra le plus souvent

l’aspect d’un nombre « avec décimales ».

* Si ce n’est n, au cas où p=1…

Page 54: Eléments de statistique et de visualisations pour l’analyse textuelle

Cas n°1 : norme exogène

Le corpus de travail ne fait pas partie du corpus de référence.

Exemple : corpus de travail Monde Diplo , corpus de référence Frantext 19ème-20ème siècles.

Dans Frantext, la forme « production » a une fréquence de 1.953 E-04 (195 pour un million).

Le n de Mondiplo étant 17 662 550, l’effectif calculé de « production » y est de

17 662 550 * 1.953 E-04 = 3408.87

Page 55: Eléments de statistique et de visualisations pour l’analyse textuelle

Cas n°1 : norme exogène

Le corpus de travail ne fait pas partie du corpus de référence.

Exemple : corpus de travail Monde Diplo , corpus de référence Frantext 19ème-20ème siècles.

Dans Frantext, la forme « production » a une fréquence de 1.953 E-04 (195 pour un million).

Le N de Mondiplo étant 17 662 550, l’effectif calculé de « production » y est de

17 662 550 * 1.953 E-04 = 3408.87

L’effectif mesuré (« réel ») est 8199.

On note donc un excédent, un suremploi. On verra plus loin comment évaluer cet excédent.

Page 56: Eléments de statistique et de visualisations pour l’analyse textuelle

Cas n°2 : norme endogène

Le corpus de travail sert de norme aux sous-ensembles qu’on veut y étudier (on cherche à étudier les structures

lexicales du corpus)

Exemple : corpus de travail Monde Diplo , sous-ensemble année 2000.

Dans Monde Diplo , la forme « production » a une fréquence de 4.642 E-04 (464 pour un million).

Le n de 2000 étant 649 762, l’effectif calculé de « production » y est de

649 762 * 4.642 E-04 = 301.62

Page 57: Eléments de statistique et de visualisations pour l’analyse textuelle

Cas n°2 : norme endogène

Le corpus de travail sert de norme aux sous-ensembles qu’on veut y étudier (on cherche à étudier les structures lexicales du corpus)

Exemple : corpus de travail Monde Diplo , sous-ensemble année 2000.Dans Monde Diplo , la forme « production » a une fréquence de 4.642 E-04

(464 pour un million).Le n de 2000 étant 649 762, l’effectif calculé de « production » y est de

649 762 * 4.642 E-04 = 301.62

L’effectif mesuré (« réel ») est 181.

On note donc un déficit, un sous-emploi. On verra plus loin comment évaluer ce déficit.

Page 58: Eléments de statistique et de visualisations pour l’analyse textuelle

Récapitulons :Le Monde Diplomatique emploie PLUS que la norme de

Frantext la forme « production ».

En 2000, le Monde Diplomatique emploie MOINS que la norme de sa collection 1980-2000 la forme « production ».

Excédents et déficits entrent dans une même catégorie : les écarts à l’équirépartition.

On parle tout d’abord d’écart absolu; c’est une soustraction simple.

Dans le premier cas, l’écart est de 8199-3409 = +4790

Dans le second cas, il est de 181-301.6 = -120.6

Page 59: Eléments de statistique et de visualisations pour l’analyse textuelle

Vue d’ensemble sur les effectifs mesurés (en bleu) et calculés (en rouge) de « production » dans les 21 années du corpus.

0

100

200

300

400

500

600

700

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 60: Eléments de statistique et de visualisations pour l’analyse textuelle

Evaluation des écarts à la norme endogène.

L’existence d’écarts entre effectifs mesurés et calculés est normale.

L’absence d’écarts, ou de très faibles écarts, signaleraient des objets fabriqués artificiellement (règle de parité H/F

par exemple).

On doit évaluer les écarts afin de décider s’ils sont ou non significatifs (par exemple, si l’histogramme vu

précédemment représente une baisse tendancielle significative).

Page 61: Eléments de statistique et de visualisations pour l’analyse textuelle

Une unité de mesure pertinenteExcédents et déficits sont exprimés en effectifs, en

nombre d’individus.

Ils ne sont comme tels pas comparables entre eux, car plus le corpus est grand, plus des écarts absolus « normaux », non significatifs, vont pouvoir être

importants.

Ils ne peuvent pas non plus être évalués en pourcentage (excédent de 10%, etc), car ce sont alors les petits corpus qui exprimeront artificieusement des écarts importants.

On va chercher une unité de mesure pertinente pour exprimer les écarts indépendamment de la taille du

corpus. Une mesure d’écart pouvant être rapportée à une échelle universelle, et être ainsi évaluée.

Page 62: Eléments de statistique et de visualisations pour l’analyse textuelle

L’écart-type.Dans l’observation de variables, on nomme écart-type une

déviation « moyenne » (en réalité, la racine carrée de la moyenne des carrés des déviations).

Cette déviation est la plus probable dans le cadre d’expériences multiples. Par exemple, voici une suite de 200 lancers simultanés de

5 dés, exprimée en total de points.

0

5

10

15

20

25

30

Page 63: Eléments de statistique et de visualisations pour l’analyse textuelle

L’écart-type.

0

5

10

15

20

25

30

35

40

_7 _10 _11 _12 _13 _14 _15 _16 _17 _18 _19 _20 _21 _22 _23 _24 _26

0

5

10

15

20

25

30

35

40

0_32

5

0_67

5

1_32

5

1_67

5

2_32

5

2_67

5

3_32

5

3_67

5

4_32

5

4_67

5

5_32

5

5_67

5

6_32

5

6_67

5

7_32

5

8_67

5

10_3

25

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0_32

5

0_67

5

1_32

5

1_67

5

2_32

5

2_67

5

3_32

5

3_67

5

4_32

5

4_67

5

5_32

5

5_67

5

6_32

5

6_67

5

7_32

5

8_67

5

10_3

25

Page 64: Eléments de statistique et de visualisations pour l’analyse textuelle

L’écart-type.Moyenne des carrés des déviations (variance) : 10.01

Racine carrée de la variance (écart-type) : 3.16

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0_32

5

0_67

5

1_32

5

1_67

5

2_32

5

2_67

5

3_32

5

3_67

5

4_32

5

4_67

5

5_32

5

5_67

5

6_32

5

6_67

5

7_32

5

8_67

5

10_3

25

Fréquence cumulée des tirages présentant un écart absolu inférieur à 3.16 :

0.17 + 0.095 + 0.115 + 0.125 + 0.07 + 0.065 = 0.64

Fréquence cumulée des tirages présentant un écart absolu inférieur à 6.32 :0.64 + 0.055 + 0.08 + 0.075 + 0.04 + 0.03 + 0.02 = 0.94

Page 65: Eléments de statistique et de visualisations pour l’analyse textuelle

L’écart-type.La fréquence (probabilité, pour un tirage ultérieur dans

les mêmes conditions), d’un résultat supérieur à

moyenne + 2 écarts-types (17.325 + 6.32, soit 23.645)

ou inférieur à

moyenne + 2 écarts-types (17.325 - 6.32, soit 11.005)

est de l’ordre de 6 %.

Page 66: Eléments de statistique et de visualisations pour l’analyse textuelle

Calcul de l’écart-type.Dans le cas où on n’observe pas des variables aléatoires, mais des distributions réelles (notre cas), on est amené à

calculer un écart-type dit « théorique », à partir des paramètres précis du problème étudié.

Entrent en jeu :● le nombre total de mots du corpus de référence (N)

● le nombre total de mots du sous-ensemble considéré (n)● le nombre total d’occurrences de la forme dont on observe la

distribution(X)

On calcule d’abord la variance théorique, selon la formule

NB : est une variante du produit pq où q = 1-p

Page 67: Eléments de statistique et de visualisations pour l’analyse textuelle

Calcul de l’écart-type.L’écart-type théorique est la racine carrée de la variance

théorique, sa formule est donc :

NB : est une variante du produit pq où q = 1-p.

Le produit pq est d’autant plus élevé que p s’approche de la valeur « centrale » 0.5

0

0,05

0,1

0,15

0,2

0,25

0,3

0*1

0,1*

0,9

0,2*

0,8

0,3*

0,7

0,4*

0,6

0,5*

0,5

0,6*

0,4

0,7*

0,3

0,8*

0,2

0,9*

0,1

1*0

Page 68: Eléments de statistique et de visualisations pour l’analyse textuelle

Calcul de l’écart-type.

0

0,05

0,1

0,15

0,2

0,25

0,3

0*1

0,1*

0,9

0,2*

0,8

0,3*

0,7

0,4*

0,6

0,5*

0,5

0,6*

0,4

0,7*

0,3

0,8*

0,2

0,9*

0,1

1*0

Si l’on observe les effectifs d’un collège français de 1000 élèves, si le caractère étudié divise la population par moitié (le sexe), l’écart-type est de 15.8. Si le caractère étudié divise la population selon une proportion 5%/95% (enfants d’immigrés non naturalisés), l’écart-type est de 6.9.

Une répartition réelle de 530 filles et 470 garçons sera peu significative d’un facteur discriminant, avec un écart de 30 à la norme donc.

En revanche, un même écart absolu, la norme « prévoyant » 50/950, donnera un effectif réel d’enfants d’immigrés non naturalisés de 20 ou de 80, ce qui dans les 2 cas signale un ou plusieurs facteurs sociaux manifestes (la déviation contient plus de 4 écarts-types, voir interprétation plus bas).

Page 69: Eléments de statistique et de visualisations pour l’analyse textuelle

Calcul de l’écart-type.

Dans le cas envisagé plus haut (estimation du déficit de « production » dans l’année 2000 de Mondiplo sur norme endogène – corpus Mondiplo 80-2000), les valeurs sont

les suivantes :

ce qui donne = 17.04

Page 70: Eléments de statistique et de visualisations pour l’analyse textuelle

Emploi de l’écart-type ; l’écart-réduit.

On se souvient que le déficit était de 115.6

Il contient donc 120.6 / 17.04, soit environ 7.1 fois l’écart-type.

L’écart-réduit est le nombre d’écarts-types contenus dans l’écart absolu, affecté du signe + ou du signe -.

Ici, l’écart-réduit est -7.08

La probabilité d’un tel écart-réduit dans une distribution aléatoire est infinitésimale.

Tableau d’interprétation :z p

0.5 0.617

1 0.317

1.5 0.134

2 0.046

2.5 0.012

3 0.002 7

3.5 0.000 48

4 0.000 06

4.5 0.000 006

z = écart réduitp = probabilité d’atteindre ou dépasser

un tel écart-réduit

Page 71: Eléments de statistique et de visualisations pour l’analyse textuelle

0

100

200

300

400

500

600

700

_1980 _1981 _1982 _1983 _1984 _1985 _1986 _1987 _1988 _1989 _1990 _1991 _1992 _1993 _1994 _1995 _1996 _1997 _1998 _1999 _2000

Vue d’ensemble sur les déficits et excédents de « production » dans les 21 années du corpus, vus en écarts-réduits.

-15

-10

-5

0

5

10

15

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 72: Eléments de statistique et de visualisations pour l’analyse textuelle

Evaluation d’une distribution en probabilité

S’il est intéressant d’étudier une déviation individuelle, il l’est plus encore d’étudier l’ensemble des déviations

d’une distribution donnée.

L’histogramme précédent est significatif au premier regard, mais comment lui attribuer directement et

assurément un indice précis ?

Comment discriminer les distributions, dans le même cadre, de dizaines de formes ?

Page 73: Eléments de statistique et de visualisations pour l’analyse textuelle

Evaluation d’une distribution en probabilité Comment, par exemple, évaluer la distribution figurée ci-

dessous (forme « choix », 3769 occurrences)

-2

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 74: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ² Soit le tableau de valeurs : Lui correspondent des valeurs calculées

selon le modèle d’équirépartition :

choix AUTRES TOTAL

214 900941 901414

183 827482 827898

192 872337 872744

172 854688 855140

199 861408 861899

172 856161 856625

165 817190 817626

199 815599 815998

198 855621 856019

198 856526 856905

160 828356 828733

186 851668 852068

167 878405 878811

169 869885 870322

182 855482 855846

173 849403 849766

176 848174 848526

173 845546 845973

173 820421 820853

181 839510 839981

137 649422 649763

choix AUTRES TOTAL

192,348224

900970,767 901414

176,661012

827490,916 827898

186,230476

872314,865 872744

182,474046

854719,521 855140

183,916316

861475,197 861899

182,790923 856203,79 856625

174,469122

817223,966 817626

174,121731

815596,767 815998

182,661612

855598,088 856019

182,850671

856483,653 856905

176,839189

828325,505 828733

181,818528

851649,031 852068

187,525083

878378,881 878811

185,713657

869894,055 870322

182,624696

855425,173 855846

181,327315

849348,163 849766

181,062718

848108,773 848526

180,517946

845557,028 845973

175,157715 820449,38 820853

179,239343

839567,974 839981

138,649676

649443,506 649763

Page 75: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ² Soit le tableau de valeurs : Lui correspondent des valeurs calculées

selon le modèle d’équirépartition :

choix AUTRES TOTAL

214 900941 901414

183 827482 827898

192 872337 872744

172 854688 855140

199 861408 861899

172 856161 856625

165 817190 817626

199 815599 815998

198 855621 856019

198 856526 856905

160 828356 828733

186 851668 852068

167 878405 878811

169 869885 870322

182 855482 855846

173 849403 849766

176 848174 848526

173 845546 845973

173 820421 820853

181 839510 839981

137 649422 649763

choix AUTRES TOTAL

192,348224

900970,767 901414

176,661012

827490,916 827898

186,230476

872314,865 872744

182,474046

854719,521 855140

183,916316

861475,197 861899

182,790923 856203,79 856625

174,469122

817223,966 817626

174,121731

815596,767 815998

182,661612

855598,088 856019

182,850671

856483,653 856905

176,839189

828325,505 828733

181,818528

851649,031 852068

187,525083

878378,881 878811

185,713657

869894,055 870322

182,624696

855425,173 855846

181,327315

849348,163 849766

181,062718

848108,773 848526

180,517946

845557,028 845973

175,157715 820449,38 820853

179,239343

839567,974 839981

138,649676

649443,506 649763

o c

Page 76: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ²

Pour chaque cellule du tableau (sauf la marge « TOTAL »), on calcule :

(o – c)² / c (= variance théorique cf supra)

Le X² est la somme de ces calculs.

Exemple cellule « A1 » : (214 – 192.35)² / 192.35 = 2.437

Page 77: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ² Tableau de valeurs : modèle d’équirépartition : Résultats en X² :

(somme : 18.32)

choix AUTRES TOTAL

214 900941 901414

183 827482 827898

192 872337 872744

172 854688 855140

199 861408 861899

172 856161 856625

165 817190 817626

199 815599 815998

198 855621 856019

198 856526 856905

160 828356 828733

186 851668 852068

167 878405 878811

169 869885 870322

182 855482 855846

173 849403 849766

176 848174 848526

173 845546 845973

173 820421 820853

181 839510 839981

137 649422 649763

choix AUTRES TOTAL

192,348224

900970,767 901414

176,661012

827490,916 827898

186,230476

872314,865 872744

182,474046

854719,521 855140

183,916316

861475,197 861899

182,790923 856203,79 856625

174,469122

817223,966 817626

174,121731

815596,767 815998

182,661612

855598,088 856019

182,850671

856483,653 856905

176,839189

828325,505 828733

181,818528

851649,031 852068

187,525083

878378,881 878811

185,713657

869894,055 870322

182,624696

855425,173 855846

181,327315

849348,163 849766

181,062718

848108,773 848526

180,517946

845557,028 845973

175,157715 820449,38 820853

179,239343

839567,974 839981

138,649676

649443,506 649763

2,4372 0,0010

0,2275 0,0001

0,1787 0,0006

0,6012 0,0012

1,2371 0,0052

0,6370 0,0021

0,5139 0,0014

3,5546 0,0000

1,2880 0,0006

1,2551 0,0021

1,6035 0,0011

0,0962 0,0004

2,2465 0,0008

1,5042 0,0001

0,0021 0,0038

0,3824 0,0035

0,1416 0,0050

0,3131 0,0001

0,0266 0,0010

0,0173 0,0040

0,0196 0,0007

Page 78: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ² Résultats en X² (somme : 18.32) pour « choix »

choix AUTRES TOTAL

214 900941 901414

183 827482 827898

192 872337 872744

172 854688 855140

199 861408 861899

172 856161 856625

165 817190 817626

199 815599 815998

198 855621 856019

198 856526 856905

160 828356 828733

186 851668 852068

167 878405 878811

169 869885 870322

182 855482 855846

173 849403 849766

176 848174 848526

173 845546 845973

173 820421 820853

181 839510 839981

137 649422 649763

20 « degrés de liberté »

Page 79: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ²

Page 80: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ² pour « production »Tableau de valeurs : modèle d’équirépartition : Résultats en X² :

(somme : 1103.63)productio

n AUTRES TOTAL

662 900941 901414

717 827482 827898

626 872337 872744

488 854688 855140

414 861408 861899

526 856161 856625

574 817190 817626

299 815599 815998

427 855621 856019

406 856526 856905

318 828356 828733

330 851668 852068

333 878405 878811

315 869885 870322

320 855482 855846

287 849403 849766

250 848174 848526

261 845546 845973

259 820421 820853

201 839510 839981

186 649422 649763

production AUTRES TOTAL

418,430111

900970,767 901414

384,304495

827490,916 827898

405,121696

872314,865 872744

396,950042

854719,521 855140

400,087522

861475,197 861899

397,639368 856203,79 856625

379,536304

817223,966 817626

378,780597

815596,767 815998

397,358067

855598,088 856019

397,769342

856483,653 856905

384,692096

828325,505 828733

395,524041

851649,031 852068

407,937955

878378,881 878811

403,99742869894,05

5 870322

397,277762

855425,173 855846

394,455468

849348,163 849766

393,879869

848108,773 848526

392,694784

845557,028 845973

381,034255 820449,38 820853

389,913339

839567,974 839981

301,615466

649443,506 649763

141,7830 0,0010

288,0172 0,0001

120,4261 0,0006

20,8845 0,0012

0,4838 0,0052

41,4357 0,0021

99,6377 0,0014

16,8038 0,0000

2,2112 0,0006

0,1703 0,0021

11,5621 0,0011

10,8550 0,0004

13,7661 0,0008

19,6054 0,0001

15,0319 0,0038

29,2724 0,0035

52,5577 0,0050

44,1654 0,0001

39,0840 0,0010

91,5287 0,0040

44,3178 0,0007

Page 81: Eléments de statistique et de visualisations pour l’analyse textuelle

Test de Pearson, ou Χ² Résultats en X² (somme : 1103.63) pour « production »

20 « degrés de liberté »production AUTRES TOTAL

662 900941 901414

717 827482 827898

626 872337 872744

488 854688 855140

414 861408 861899

526 856161 856625

574 817190 817626

299 815599 815998

427 855621 856019

406 856526 856905

318 828356 828733

330 851668 852068

333 878405 878811

315 869885 870322

320 855482 855846

287 849403 849766

250 848174 848526

261 845546 845973

259 820421 820853

201 839510 839981

186 649422 649763

Page 82: Eléments de statistique et de visualisations pour l’analyse textuelle

Limites du X²

Le X² ne peut s’employer que pour comparer des distributions en effectifs, et (comme l’écart-réduit, dont il est parent), lorsque les effectifs « calculés » ne sont pas

inférieurs à un seuil de pertinence (5, 10…)Surtout, le X² a les propriétés de son modèle (la

distribution aléatoire).Son interprétation dans l’étude des distributions lexicales est fiable pour un « nombre de tirages » ‘raisonnable’. Au-

delà (par exemple, de 100 000 occurrences), même des items comme « de » ou « le » prennent des valeurs dont la « probabilité » selon le modèle aléatoire est infinitésimale

(ainsi en va-t-il de l’organisation textuelle…)Le résultat est « juste », mais non interprétable.

Page 83: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangs

Revenons au cas de « production » dans Mondiplo. Cette forme a un profil qui semble fort caractéristique : emploi

décroissant en diachronie.Nous voyons que le X² de cette distribution est très élevé

(le 4ème au total de tout le vocabulaire du corpus).En complément, un test simple et rapide permet de valider

l’impression visuelle (qui peut être trompeuse).

-15

-10

-5

0

5

10

15_1

980

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 84: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn range les années du corpus par écart-réduit croissant

à l’équidistribution (on leur attribue un rang) ANNEE DEVIATION RANG

_1999 -11,5154 1

_1996 -9,5477 2

_1997 -8,8278 3

_1998 -8,3434 4

_1995 -7,7129 5

_2000 -7,0764 6

_1993 -6,5311 7

_1987 -6,0913 8

_1990 -6,0420 9

_1994 -5,7233 10

_1992 -5,5330 11

_1991 -5,4903 12

_1984 -2,8751 13

_1989 -2,3527 14

_1988 -1,9727 15

_1983 0,8258 16

_1985 4,4912 17

_1982 6,4654 18

_1986 6,8573 19

_1980 7,7067 20

_1981 12,9421 21

Page 85: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn range les années du corpus par écart-réduit croissant

à l’équidistribution (on leur attribue un rang) ANNEE DEVIATION RANG

_1999 -11,5154 1

_1996 -9,5477 2

_1997 -8,8278 3

_1998 -8,3434 4

_1995 -7,7129 5

_2000 -7,0764 6

_1993 -6,5311 7

_1987 -6,0913 8

_1990 -6,0420 9

_1994 -5,7233 10

_1992 -5,5330 11

_1991 -5,4903 12

_1984 -2,8751 13

_1989 -2,3527 14

_1988 -1,9727 15

_1983 0,8258 16

_1985 4,4912 17

_1982 6,4654 18

_1986 6,8573 19

_1980 7,7067 20

_1981 12,9421 21

ANNEE

DEVIATION

RANG

DIACHRONIE (R-D)²

_1980 7,7067 20 1 361

_1981 12,9421 21 2 361

_1982 6,4654 18 3 225

_1983 0,8258 16 4 144

_1984 -2,8751 13 5 64

_1985 4,4912 17 6 121

_1986 6,8573 19 7 144

_1987 -6,0913 8 8 0

_1988 -1,9727 15 9 36

_1989 -2,3527 14 10 16

_1990 -6,0420 9 11 4

_1991 -5,4903 12 12 0

_1992 -5,5330 11 13 4

_1993 -6,5311 7 14 49

_1994 -5,7233 10 15 25

_1995 -7,7129 5 16 121

_1996 -9,5477 2 17 225

_1997 -8,8278 3 18 225

_1998 -8,3434 4 19 225

_1999 -11,5154 1 20 361

_2000 -7,0764 6 21 225

      Σ d² 2936

On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² -)

Page 86: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn range les années du corpus par écart-réduit croissant

à l’équidistribution (on leur attribue un rang) ANNEE DEVIATION RANG

_1999 -11,5154 1

_1996 -9,5477 2

_1997 -8,8278 3

_1998 -8,3434 4

_1995 -7,7129 5

_2000 -7,0764 6

_1993 -6,5311 7

_1987 -6,0913 8

_1990 -6,0420 9

_1994 -5,7233 10

_1992 -5,5330 11

_1991 -5,4903 12

_1984 -2,8751 13

_1989 -2,3527 14

_1988 -1,9727 15

_1983 0,8258 16

_1985 4,4912 17

_1982 6,4654 18

_1986 6,8573 19

_1980 7,7067 20

_1981 12,9421 21

ANNEE

DEVIATION

RANG

DIACHRONIE

(R-D)²

_1980 7,7067 20 1 361

_1981 12,9421 21 2 361

_1982 6,4654 18 3 225

_1983 0,8258 16 4 144

_1984 -2,8751 13 5 64

_1985 4,4912 17 6 121

_1986 6,8573 19 7 144

_1987 -6,0913 8 8 0

_1988 -1,9727 15 9 36

_1989 -2,3527 14 10 16

_1990 -6,0420 9 11 4

_1991 -5,4903 12 12 0

_1992 -5,5330 11 13 4

_1993 -6,5311 7 14 49

_1994 -5,7233 10 15 25

_1995 -7,7129 5 16 121

_1996 -9,5477 2 17 225

_1997 -8,8278 3 18 225

_1998 -8,3434 4 19 225

_1999 -11,5154 1 20 361

_2000 -7,0764 6 21 225

      TOTAL 2936

On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² -)n est le nombre de lignes comparées.

ρ (rho) est un indice dont les bornes sont -1 et +1.

Page 87: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn range les années du corpus par écart-réduit croissant

à l’équidistribution (on leur attribue un rang) ANNEE DEVIATION RANG

_1999 -11,5154 1

_1996 -9,5477 2

_1997 -8,8278 3

_1998 -8,3434 4

_1995 -7,7129 5

_2000 -7,0764 6

_1993 -6,5311 7

_1987 -6,0913 8

_1990 -6,0420 9

_1994 -5,7233 10

_1992 -5,5330 11

_1991 -5,4903 12

_1984 -2,8751 13

_1989 -2,3527 14

_1988 -1,9727 15

_1983 0,8258 16

_1985 4,4912 17

_1982 6,4654 18

_1986 6,8573 19

_1980 7,7067 20

_1981 12,9421 21

ANNEE

DEVIATION

RANG

DIACHRONIE

(R-D)²

_1980 7,7067 20 1 361

_1981 12,9421 21 2 361

_1982 6,4654 18 3 225

_1983 0,8258 16 4 144

_1984 -2,8751 13 5 64

_1985 4,4912 17 6 121

_1986 6,8573 19 7 144

_1987 -6,0913 8 8 0

_1988 -1,9727 15 9 36

_1989 -2,3527 14 10 16

_1990 -6,0420 9 11 4

_1991 -5,4903 12 12 0

_1992 -5,5330 11 13 4

_1993 -6,5311 7 14 49

_1994 -5,7233 10 15 25

_1995 -7,7129 5 16 121

_1996 -9,5477 2 17 225

_1997 -8,8278 3 18 225

_1998 -8,3434 4 19 225

_1999 -11,5154 1 20 361

_2000 -7,0764 6 21 225

      TOTAL 2936

On calcule les écarts entre les rangs selon les 2 ordres (on les porte au carré et on les totalise – Σ d² -)n est le nombre de lignes comparées.

ρ (rho) est un indice dont les bornes sont -1 et +1.Ici, le résultat est

+ 0.906

Page 88: Eléments de statistique et de visualisations pour l’analyse textuelle
Page 89: Eléments de statistique et de visualisations pour l’analyse textuelle

Corrélation négative de probabilité infinitésimale.

Page 90: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsMêmes données et calculs pour « femmes »

ANNEE

DEVIATION

RANG

DIACHRONIE

(R-D)²

_1980 -3,7600 11 1 100

_1981 -8,6900 1 2 1

_1982 -6,9800 3 3 0

_1983 -4,5700 7 4 9

_1984 -1,8500 13 5 64

_1985 -5,5600 4 6 4

_1986 -8,1500 2 7 25

_1987 -5,4500 5 8 9

_1988 -1,1200 14 9 25

_1989 -4,0800 10 10 0

_1990 -4,4600 8 11 9

_1991 -4,2300 9 12 9

_1992 -5,2900 6 13 49

_1993 -2,2000 12 14 4

_1994 0,3800 15 15 0

_1995 3,0700 16 16 0

_1996 6,2100 17 17 0

_1997 17,7600 20 18 4

_1998 19,7400 21 19 4

_1999 11,9900 19 20 1

_2000 10,9200 18 21 9

      X² TOTAL 326

ρ = - 0.788Corrélation positive de probabilité infinitésimale.

Page 91: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn peut aussi comparer 2 profils distributionnels particuliers

Exemple :

république

et

démocratie

-8

-6

-4

-2

0

2

4

6

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

-10

-8

-6

-4

-2

0

2

4

6

8

10

12

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 92: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsrépublique et démocratie

ρ = - 0.643Corrélation positive de très basse probabilité.

ANNEE

DEMOCRATIE

REPUBLIQUE (R-D)²

_1980 8 10 4

_1981 4 7 9

_1982 5 6 1

_1983 7 9 4

_1984 2 2 0

_1985 1 1 0

_1986 3 4 1

_1987 6 15 81

_1988 11 8 9

_1989 16 13 9

_1990 20 18 4

_1991 21 11 100

_1992 18 17 1

_1993 19 14 25

_1994 17 12 25

_1995 14 19 25

_1996 15 20 25

_1997 13 16 9

_1998 9 5 16

_1999 10 21 121

_2000 12 3 81

    X² TOTAL 550

Page 93: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn peut aussi comparer 2 profils distributionnels particuliers

Exemple :

internationale

et

mort

-6

-4

-2

0

2

4

6

8

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

-5

-4

-3

-2

-1

0

1

2

3

4

5

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 94: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsInternationale et mort

ρ = + 0.543Corrélation négative de basse probabilité.

ANNEEinternation

ale mort (R-D)²

_1980 21 1 400

_1981 20 2 324

_1982 7 13 36

_1983 11 4 49

_1984 5 5 0

_1985 15 7 64

_1986 13 19 36

_1987 14 8 36

_1988 8 15 49

_1989 6 21 225

_1990 4 18 196

_1991 3 10 49

_1992 12 11 1

_1993 16 6 100

_1994 2 16 196

_1995 10 20 100

_1996 9 12 9

_1997 1 14 169

_1998 18 9 81

_1999 17 17 0

_2000 19 3 256

    X² TOTAL 2376

Page 95: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangsOn peut aussi comparer 2 profils distributionnels particuliers

Contre-exemple :

chef

et

manière

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

-5

-4

-3

-2

-1

0

1

2

3

4

5

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 96: Eléments de statistique et de visualisations pour l’analyse textuelle

La corrélation des rangschef et manière

ρ = - 0.245Corrélation positive banale, sans signification.

ANNEE chef manière (R-D)²

_1980 8 1 49

_1981 12 4 64

_1982 14 3 121

_1983 21 2 361

_1984 9 13 16

_1985 5 8 9

_1986 6 14 64

_1987 3 6 9

_1988 2 7 25

_1989 1 15 196

_1990 10 5 25

_1991 4 11 49

_1992 7 10 9

_1993 11 12 1

_1994 17 17 0

_1995 20 9 121

_1996 16 20 16

_1997 15 18 9

_1998 19 19 0

_1999 18 21 9

_2000 13 16 9

    X² TOTAL 1162

Page 97: Eléments de statistique et de visualisations pour l’analyse textuelle

4. DistributionsGénéralisations et synthèses

Classifications

Page 98: Eléments de statistique et de visualisations pour l’analyse textuelle

Profil distributionnel.Dans les études précédentes, nous avons vu de nombreux

histogrammes d’écarts-réduits à l’équi-distribution.

Ce sont des images, calculées, de la propriété statistique majeure des unités textuelles, corrélat de leurs fonctions linguistiques,

fondement de leur sémantisme : l’irrégularité de leur distribution.

Cet autre histogramme, celui de tiers-monde, en dit plus long que bien des phrases sur le discours de la presse anti-mondialiste, sur

celui du monde dominant, sur leurs idéologies respectives, sur leurs rapports mutuels.

-15

-10

-5

0

5

10

15

20

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 99: Eléments de statistique et de visualisations pour l’analyse textuelle

Profil distributionnel.On nommera ces histogrammes et ce qu’ils figurent des profils

distributionnels.

-15

-10

-5

0

5

10

15

20

_198

0

_198

1

_198

2

_198

3

_198

4

_198

5

_198

6

_198

7

_198

8

_198

9

_199

0

_199

1

_199

2

_199

3

_199

4

_199

5

_199

6

_199

7

_199

8

_199

9

_200

0

Page 100: Eléments de statistique et de visualisations pour l’analyse textuelle

Profil distributionnel.Nous les avons comparés à une norme idéale (tirages

aléatoires), à un ordre de référence (diachronie), et entre eux deux à deux.

Mais nous n’avons pas la vision synthétique promise en échange de l’emploi fastidieux des méthodes statistiques.

Même si notre intuition nous mène à de brillantes ouvertures, et si la validation individuelle nous y conforte,

il nous manque les calculs d’ensemble qui seuls nous permettraient de nous orienter en nous élevant au-dessus

du substrat.

Page 101: Eléments de statistique et de visualisations pour l’analyse textuelle

Profil distributionnel.Cette « hauteur de vue », nous allons la chercher dans les méthodes de comparaison générale des profils, que nous

appellerons méthodes classificatoires.

Elles sont de 3 ordres (imbriqués et cousins) :

Classifications hiérarchiques (ascendante – CHA – ou descendante – CHD)

Calcul de distances + visualisations arborées

Analyse Factorielle des Correspondances (AFC)

Page 102: Eléments de statistique et de visualisations pour l’analyse textuelle

Profil distributionnel.Classifications hiérarchiques (ascendante – CHA – ou

descendante – CHD)Il s’agit de former des « clusters » (grappes) dans un ensemble de variables,

formalisées en un nuage de points, qui représentent des classes et des sous-classes.

La CHA (CAH) est la plus connue, et procède par fusions successives de clusters déjà existants.

La CHD (CDH) procède à l’inverse par segmentation progessive.

Toutes deux supposent une définition et une méthode de calcul des « distances » entre points déterminés par l’algèbre d’une matrice de données.

Il s’agit de méthodes et de visualisations dichotomiques. Même si des méthodes en aval rétablissent des ponts, les classes formées

sont exclusives et étanches. Elles mettent en valeur des points de rupture et peuvent être « piégées » par des structures de données où plusieurs

« chemins » (bifurcations) sont proches en termes de pertinence (c’est souvent le cas des données textuelles).

Page 103: Eléments de statistique et de visualisations pour l’analyse textuelle

Profil distributionnel.Distances et représentations arborées

Hyperbase contient ces fonctions.

On calcule, par exemple, la distance de Jaccard pour chaque paire de variables selon un critère déterminé (par exemple, distribution des formes

graphiques, de traits grammaticaux…), et on dispose les résultats dans une matrice « carrée » (réduite ou non, avec ou sans diagonale).

Puis, l’analyse arborée consiste à construire un graphe « arbre », où chaque variable est une feuille, où les feuilles se regroupent en rameaux, branches et troncs, de manière à figurer des clusters, mais surtout à ce que la longueur

totale de tous les chemins entre feuilles (paire à paire), soit proportionnelle à la distance indiquée dans la matrice.

Cette méthodologie est particulièrement indiquée pour visualiser les similarités et dissimilarités; elle représente un compromis entre une

approche dichotomique/hiérarchique et une approche visant au continuum, ce qu’est l’AFC.

Page 104: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Soit le tableau de distribution suivant

(avec ses « marges ») :

  80-83 84-87 88-91 92-95 96-2000 TOTAL

développement 3254 2785 2457 2116 1986 12598

gouvernement 4041 3038 2445 2779 3136 15439

guerre 2968 2993 3372 3241 3723 16297

marché 1770 1804 2338 2305 2410 10627

société 2025 1698 2150 2065 2899 10837

tiers-monde 1599 1385 1006 488 203 4681

travail 2056 1836 1768 2077 2911 10648

production 2493 1813 1481 1255 1157 8199

TOTAL 20206 17352 17017 16326 18425 89326

Page 105: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.On peut lui confronter un tableau « d’indépendance », où les valeurs sont

calculées dans l’hypothèse d’équirépartition

  80-83 84-87 88-91 92-95 96-2000 TOTAL

développement 2849,73 2447,22 2399,97 2302,52 2598,55 12598

gouvernement 3492,38 2999,1 2941,2 2821,77 3184,56 15439

guerre 3686,47 3165,77 3104,65 2978,58 3361,53 16297

marché 2403,88 2064,35 2024,49 1942,28 2192 10627

société 2451,39 2105,14 2064,5 1980,66 2235,31 10837

tiers-monde 1058,87 909,306 891,751 855,54 965,536 4681

travail 2408,63 2068,42 2028,49 1946,12 2196,33 10648

production 1854,66 1592,69 1561,95 1498,52 1691,18 8199

TOTAL 20206 17352 17017 16326 18425 89326

  80-83 84-87 88-91 92-95 96-2000 TOTAL

développement 3254 2785 2457 2116 1986 12598

gouvernement 4041 3038 2445 2779 3136 15439

guerre 2968 2993 3372 3241 3723 16297

marché 1770 1804 2338 2305 2410 10627

société 2025 1698 2150 2065 2899 10837

tiers-monde 1599 1385 1006 488 203 4681

travail 2056 1836 1768 2077 2911 10648

production 2493 1813 1481 1255 1157 8199

TOTAL 20206 17352 17017 16326 18425 89326

contingence

« correspondance »

indépendance

Page 106: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.On peut lui confronter un tableau « d’indépendance », où les valeurs sont

calculées dans l’hypothèse d’équirépartition

  80-83 84-87 88-91 92-95 96-2000 TOTAL

développement 3254 2785 2457 2116 1986 12598

gouvernement 4041 3038 2445 2779 3136 15439

guerre 2968 2993 3372 3241 3723 16297

marché 1770 1804 2338 2305 2410 10627

société 2025 1698 2150 2065 2899 10837

tiers-monde 1599 1385 1006 488 203 4681

travail 2056 1836 1768 2077 2911 10648

production 2493 1813 1481 1255 1157 8199

TOTAL2020

61735

21701

71632

6 18425 89326

contingence

indépendance

  80-83 84-87 88-91 92-95 96-2000 TOTAL

développement 2849,73 2447,22 2399,97 2302,52 2598,55 12598

gouvernement 3492,38 2999,10 2941,20 2821,77 3184,56 15439

guerre 3686,47 3165,77 3104,65 2978,58 3361,53 16297

marché 2403,88 2064,35 2024,49 1942,28 2192,00 10627

société 2451,39 2105,14 2064,50 1980,66 2235,31 10837

tiers-monde 1058,87 909,31 891,75 855,54 965,54 4681

travail 2408,63 2068,42 2028,49 1946,12 2196,33 10648

production 1854,66 1592,69 1561,95 1498,52 1691,18 8199

TOTAL 20206 17352 17017 16326 18425 89326

  80-83 84-87 88-91 92-95 96-2000

développement 404,27 337,78 57,03 -186,52 -612,55

gouvernement 548,62 38,90 -496,20 -42,77 -48,56

guerre -718,47 -172,77 267,35 262,42 361,47

marché -633,88 -260,35 313,51 362,72 218,00

société -426,39 -407,14 85,50 84,34 663,69

tiers-monde 540,13 475,69 114,25 -367,54 -762,54

travail -352,63 -232,42 -260,49 130,88 714,67

production 638,34 220,31 -80,95 -243,52 -534,18

On en déduit un tableau des écarts :

Page 107: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.On va travailler sur le tableau des écarts, dit « T1 »

  80-83 84-87 88-91 92-95 96-2000

développement 404,27 337,78 57,03 -186,52 -612,55

gouvernement 548,62 38,90 -496,20 -42,77 -48,56

guerre -718,47 -172,77 267,35 262,42 361,47

marché -633,88 -260,35 313,51 362,72 218,00

société -426,39 -407,14 85,50 84,34 663,69

tiers-monde 540,13 475,69 114,25 -367,54 -762,54

travail -352,63 -232,42 -260,49 130,88 714,67

production 638,34 220,31 -80,95 -243,52 -534,18

On cherche quelles marges pourraient, par multiplication, donner un tablea aussi approchant que possible

Page 108: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Une sorte de tableau d’indépendance « dérivé » …

On considère chaque valeur du vecteur C comme coordonnée du point ligne correspondant sur un axe bi-orienté, et chaque valeur du vecteur L comme coordonnée du point colonne correspondant :

  80-83 84-87 88-91 92-95 96-2000 VECTEUR C

développement 297,56693 217,98981 -10,57413 -177,32007 -364,67200 -13,91846

gouvernement 109,11482 79,93468 -3,87743 -65,02149 -133,72157 -5,10376

guerre -221,14491 -162,00502 7,85845 131,78020 271,01586 10,34388

marché -307,77042 -225,46461 10,93672 183,40032 377,17650 14,39572

société -363,99370 -266,65233 12,93463 216,90376 446,07884 17,02552

tiers-monde 1079,48704 790,80417 -38,35990 -643,26608 -1322,92489 -50,49216

travail -341,71262 -250,32979 12,14286 203,62647 418,77310 15,98334

production 484,56141 354,97710 -17,21904 -288,75003 -593,83607 -22,66498

VECTEUR L -21,37930 -15,66192 0,75972 12,73992 26,20060  

Page 109: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.L’AFC est algorithme itératif.

La passe n°2 consiste à confronter T1 au tableau « calculé »

T1

Calculé d’après T1

On en déduit un tableau des écarts …. : ….

  80-83 84-87 88-91 92-95 96-2000

développement 404,27 337,78 57,03 -186,52 -612,55

gouvernement 548,62 38,90 -496,20 -42,77 -48,56

guerre -718,47 -172,77 267,35 262,42 361,47

marché -633,88 -260,35 313,51 362,72 218,00

société -426,39 -407,14 85,50 84,34 663,69

tiers-monde 540,13 475,69 114,25 -367,54 -762,54

travail -352,63 -232,42 -260,49 130,88 714,67

production 638,34 220,31 -80,95 -243,52 -534,18

  80-83 84-87 88-91 92-95 96-2000

développement 106,70076 119,78882 67,59914 -9,20045 -247,87881

gouvernement 439,50409 -41,03380 -492,32069 22,25500 85,16641

guerre -497,32019 -10,76468 259,49062 130,63773 90,45194

marché -326,11157 -34,88064 302,57255 179,31633 -159,17519

société -62,39136 -140,48642 72,56871 -132,56854 217,60641

tiers-monde -539,35328 -315,11067 152,60860 275,72563 560,38938

travail -10,91967 17,90519 -272,63419 -72,74796 295,89661

production 153,78268 -134,67182 -63,72690 45,22918 59,65350

  80-83 84-87 88-91 92-95 96-2000

développement 297,56693 217,98981 -10,57413 -177,32007 -364,67200

gouvernement 109,11482 79,93468 -3,87743 -65,02149 -133,72157

guerre -221,14491 -162,00502 7,85845 131,78020 271,01586

marché -307,77042 -225,46461 10,93672 183,40032 377,17650

société -363,99370 -266,65233 12,93463 216,90376 446,07884

tiers-monde 1079,48704 790,80417 -38,35990 -643,26608 -1322,92489

travail -341,71262 -250,32979 12,14286 203,62647 418,77310

production 484,56141 354,97710 -17,21904 -288,75003 -593,83607

Page 110: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.… sur lequel on va appliquer la même recherche des marges permettant la

meilleure approximation  80-83 84-87 88-91 92-95 96-2000

développement 106,70076 119,78882 67,59914 -9,20045 -247,87881

gouvernement 439,50409 -41,03380 -492,32069 22,25500 85,16641

guerre -497,32019 -10,76468 259,49062 130,63773 90,45194

marché -326,11157 -34,88064 302,57255 179,31633 -159,17519

société -62,39136 -140,48642 72,56871 -132,56854 217,60641

tiers-monde -539,35328 -315,11067 152,60860 275,72563 560,38938

travail -10,91967 17,90519 -272,63419 -72,74796 295,89661

production 153,78268 -134,67182 -63,72690 45,22918 59,65350

  80-83 84-87 88-91 92-95 96-2000 VECTEUR C

développement -89,09875 26,01999 143,50418 21,15767 -78,05996 5,5216

gouvernement 341,03313 -99,59375 -549,27460 -80,98279 298,78124 -21,1344

guerre -208,92120 61,01239 336,49255 49,61108 -183,03716 12,9472

marché -363,69187 106,21090 585,76920 86,36341 -318,63270 22,5386

société 43,39723 -12,67353 -69,89643 -10,30524 38,02059 -2,6894

tiers-monde -313,38180 91,51858 504,73882 74,41662 -274,55573 19,4208

travail 276,51335 -80,75169 -445,35779 -65,66172 242,25506 -17,136

production 144,78546 -42,28248 -233,19428 -34,38121 126,84744 -8,9726

VECTEUR L -16,13640 4,71240 25,98960 3,83180 -14,13720  

Page 111: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Une sorte de 2ème tableau d’indépendance « dérivé » …

On effectue la même projection qu’en 1, sur un 2ème axe, orthogonal au 1er :

  80-83 84-87 88-91 92-95 96-2000 VECTEUR C

développement -89,09875 26,01999 143,50418 21,15767 -78,05996 5,5216

gouvernement 341,03313 -99,59375 -549,27460 -80,98279 298,78124 -21,1344

guerre -208,92120 61,01239 336,49255 49,61108 -183,03716 12,9472

marché -363,69187 106,21090 585,76920 86,36341 -318,63270 22,5386

société 43,39723 -12,67353 -69,89643 -10,30524 38,02059 -2,6894

tiers-monde -313,38180 91,51858 504,73882 74,41662 -274,55573 19,4208

travail 276,51335 -80,75169 -445,35779 -65,66172 242,25506 -17,136

production 144,78546 -42,28248 -233,19428 -34,38121 126,84744 -8,9726

VECTEUR L -16,13640 4,71240 25,98960 3,83180 -14,13720  

Page 112: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Un système de coordonnées sur un plan de 2 « facteurs »

Page 113: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Un système de coordonnées sur un plan de 2 « facteurs »

Page 114: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Autant d’itérations (de « facteurs ») que le tableau comporte de colonnes (ou de lignes, s’il y a moins de lignes que de colonnes) – en comptant le Facteur 0, qui correspond au tableau T0 de départ.

Chaque itération extrait une part décroissante de l’information totale du tableau d’origine (le total des « pourcentages d’inertie » est 100%.

Page 115: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Un système de coordonnées sur un plan de 2 « facteurs »

Page 116: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.Un système de coordonnées sur un plan de 2 « facteurs »Mais ici, avec 244 lignes et 21 colonnes, il y a 2O facteurs, dont l’histogramme indique la « décroissance » en % d’information.Le 3ème facteur mériterait d’être visualisé.Nous en reparlerons plus loin.

Page 117: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.

Tout tableau de données comportant • des lignes décrivant des classes d’occurrences du corpus• des colonnes décrivant des variables recouvrant une partie du corpus• des cellules « intersections » rendant compte d’effectifs

peut être soumis à l’AFC.

Celle-ci classe les profils de lignes par parentés, chaque facteur extrayant successivement l’information résiduelle ; et les profils de colonnes de même, en assurant la correspondane entre les lignes et les colonnes.

Moyennant certaines précautions, il s’agit de la visualisation synthétique la plus fidèle des informations dominantes d’une matrice de données de cet ordre.

Le résultat de l’AFC est un (double) nuage de points, chaque point ayant ses coordonnées sur N axes orthogonaux (dans un espace à N dimensions), autant qu’il y a de facteurs.

Page 118: Eléments de statistique et de visualisations pour l’analyse textuelle

L’analyse factorielle des correspondances.

Les applications sont nombreuses et variées.En statistique lexicale et plus largement : textuelle, les lignes sont généralement des types, formes graphiques, lemmes, indices grammaticaux, codes sémantiques attribués…les colonnes peuvent renvoyer à des partitions linéaires (chapitres d’ouvrages, tranches diachroniques, des auteurs/locuteurs, des classes d’auteurs, des rubriques de presse, des CSP… classiquement des critères considérés comme non textuels, « exogènes ».

Mais Max Reinert, avec Alceste, avait déjà institué en colonnes des unités vraiment textuelles (UT), constituées de phrases ou de membres de phrases (le tableau avait alors un très grand nombre de colonnes, et Alceste procédait à un classification hiérarchique avant de se risquer à une AFC sur des données simplifiées).

Viprey (1996) a proposé de constituer des tableaux « carrés », constitués de colonnes identiques aux lignes. A l’intersection, le nombre de co-occurrences entre deux formes, deux lemmes… dans un empan cotextuel paramétrable.

Page 119: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

Exemple : 12 formes fréquentes dans Mondiplo culture 5194

dollars 9691

élections 4402

fonds 3991

liberté 4385

libertés 1176

parti 12814

production 8199

ressources 3557

social 5197

société 10837

sociétés 4714

Balayage de l’ensemble du corpus à la recherche des cooccurrences entre ces 12 formes, dans les limites de 15 mots à gauche et à droite, et dans les limites de la phrase (ponctuation forte)

  culture dollars élections fonds liberté libertés parti partis production ressources social société sociétés

culture 358 7 1 15 32 11 18 15 42 13 39 129 32

dollars 7 1598 4 181 4 1 15 11 91 46 12 57 57

élections 1 4 84 6 18 12 357 132 1 5 6 12 1

fonds 15 181 6 154 4 0 21 10 26 63 45 24 32

liberté 32 4 18 4 376 38 55 18 4 11 21 55 18

libertés 11 1 12 0 38 44 11 5 0 0 12 18 2

parti 18 15 357 21 55 11 1566 242 18 17 114 141 5

partis 15 11 132 10 18 5 242 146 6 4 26 54 4

production 42 91 1 26 4 0 18 6 306 62 49 87 77

ressources 13 46 5 63 11 0 17 4 62 60 19 37 26

social 39 12 6 45 21 12 114 26 49 19 82 90 40

société 129 57 12 24 55 18 141 54 87 37 90 426 56

sociétés 32 57 1 32 18 2 5 4 77 26 40 56 158

Page 120: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

  culture dollars élections fonds liberté libertés parti partis production ressources social société sociétés

culture 0,0000 -4,1619 -5,7677 -2,0373 4,0435 1,8438 -5,8313 -2,9481 3,0365 -1,1214 2,2954 13,6626 2,6713

dollars -4,1138 0,0000 -6,3436 26,1306 -3,9473 -2,6466 -8,0158 -5,0032 9,2681 4,5638 -4,3563 -0,4877 5,6788

élections -5,6659 -6,3045 0,0000 -5,4651 -1,4844 0,6354 30,1856 12,6993 -6,5914 -4,4091 -5,8780 -7,3452 -5,6298

fonds -2,0243 26,2676 -5,5278 0,0000 -3,5873 -2,8003 -6,4969 -4,6319 -1,1713 9,3082 2,1514 -4,2788 1,5607

liberté 4,0702 -4,0198 -1,5210 -3,6341 0,0000 14,8675 1,4158 -1,2846 -3,8726 -0,7754 -0,1248 3,6982 0,5285

libertés 1,8826 -2,7338 0,6604 -2,8774 15,0805 0,0000 -1,8658 -1,5283 -3,0058 -2,3978 1,2372 1,2400 -1,7676

parti -5,4862 -7,6296 28,9093 -6,1516 1,3233 -1,7193 0,0000 17,2584 -6,9917 -4,8229 4,1535 1,3945 -7,1811

partis -2,9033 -4,9849 12,7313 -4,5909 -1,2568 -1,4742 18,0658 0,0000 -5,5923 -4,4464 -2,4210 -1,5378 -4,9145

production 3,0076 9,2870 -6,6459 -1,1676 -3,8106 -2,9159 -7,3607 -5,6243 0,0000 8,3426 2,2761 4,1252 10,0786

ressources -1,1263 4,6376 -4,5082 9,4094 -0,7737 -2,3589 -5,1490 -4,5349 8,4602 0,0000 -0,9655 -0,1306 2,1281

social 2,2715 -4,3614 -5,9213 2,1427 -0,1227 1,1992 4,3689 -2,4327 2,2741 -0,9513 0,0000 4,3256 2,5427

société 13,1711 -0,4757 -7,2081 -4,1513 3,5418 1,1708 1,4289 -1,5053 4,0151 -0,1254 4,2139 0,0000 1,9331

sociétés 2,6722 5,7472 -5,7329 1,5712 0,5252 -1,7319 -7,6355 -4,9920 10,1791 2,1194 2,5703 2,0059 0,0000

Ecarts à l’indépendance (tableau T1)

La diagonale est neutralisée

Page 121: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

Comparaison des profils cooccurrentiels de élections et parti

-10

-5

0

5

10

15

20

25

30

35

cultu

re

dolla

rs

élec

tions

fond

s

liber

liber

tés

part

i

part

is

prod

uctio

n

ress

ourc

es

soci

al

soci

été

soci

étés

électionsparti

Page 122: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

Comparaison des profils cooccurrentiels de liberté et culture

-10

-5

0

5

10

15

20

cultu

re

dolla

rs

élec

tions

fond

s

liber

liber

tés

part

i

part

is

prod

uctio

n

ress

ourc

es

soci

al

soci

été

soci

étés

cultureliberté

Page 123: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

Comparaison des profils cooccurrentiels de dollars et parti

-10

-5

0

5

10

15

20

25

30

35

cultu

re

dolla

rs

élec

tions

fond

s

liber

liber

tés

part

i

part

is

prod

uctio

n

ress

ourc

es

soci

al

soci

été

soci

étés

dollarsparti

Page 124: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

Plan des 2 premiers facteurs

Page 125: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

244 formes lexicales les plus fréquentes, empan 15g/15d limite de phrase.

Plan des 2 premiers facteurs (23 % de l’inertie).

Page 126: Eléments de statistique et de visualisations pour l’analyse textuelle

AFC des cooccurrences

244 formes lexicales les plus fréquentes, empan 15g/15d limite de phrase

Inerties cumulées des facteurs 1 et 2 : 23 %

Visualiser l’ensemble des 3 premiers facteurs donnerait une meilleure approximation (Cibois 1994:85)

Nuage très enchevêtré

Centre du nuage encombré de points

Page 127: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

On visualise classiquement le plan de 2 facteurs (1/2, 1/3, 2/3..)Les tentatives « 3D », « MacSpin »… aboutissent à des visualisations erronées (et non plus « approximatives » ! nuage vu de l’extérieur avec des superpositions trompeuses)

Rappel : en AFC, tous les axes représentant les facteurs sont orthogonaux (dans certaines autres méthodes, ils peuvent présenter des angles différents).

Donc, si l’on prend pour point de départ le plan des 2 premiers facteurs, on conçoit aisément que l’axe du 3ème facteur coupe celui-ci à angle droit, « verticalement », de part en part.Ensemble, les 3 axes orthogonaux constituent un repère « sphérique »Le nuage s’inscrit dans une boule.

Une boule ne peut être représentée sur le plan d’une feuille de papier ou d’un écran que par un planisphère.

Page 128: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Une boule ne peut être représentée sur le plan d’une feuille de papier ou d’un écran que par un planisphère.

Inertie cumulée visualisée : 31%

Page 129: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Une boule ne peut être représentée sur le plan d’une feuille de papier ou d’un écran que par un planisphère.

Inertie cumulée visualisée : 31%

Page 130: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Zoom « régional »

Page 131: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Les fortes contributions au facteur 1 :

Page 132: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Les fortes contributions au facteur 2 :

Page 133: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Les fortes contributions au facteur 3 :

Page 134: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Marquage des formes excédentaires en 1980 :

Page 135: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Marquage des formes excédentaires (bleu) et déficitaires (rouge) en 1980 :

Page 136: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Marquage des formes excédentaires (bleu) et déficitaires (rouge) en 2000 :

Page 137: Eléments de statistique et de visualisations pour l’analyse textuelle

Visualisation des 3 premiers facteurs

Marquage des formes excédentaires sur 80-84 (rouge), 85-89 (magenta), 90-94 (bleu), 95-2000 (vert) :

Page 138: Eléments de statistique et de visualisations pour l’analyse textuelle

Retour à la 1ère application

Marquage des formes excédentaires sur CBLP (rouge), CPTP (magenta), CGSR (bleu), PPOCO (vert) :

Page 139: Eléments de statistique et de visualisations pour l’analyse textuelle

Conclusions

Les statistiques lexicales offrent deux voies qui peuvent diverger fortement ou au contraire être maintenues parallèles par l’effort de l’analyste.

Démarche hypothético-déductive, où l’on cherche à valider et raffiner une hypothèse par test(s) probatoire(s), oui/non

Démarche exploratoire, où la seule « hypothèse » est au fond qu’un discours dans son organisation textuelle s’écarte en tous points des modalités de l’aléatoire et de l’équidistribution.

Page 140: Eléments de statistique et de visualisations pour l’analyse textuelle

Conclusions

L’essentiel de cette démarche consiste à mesurer des écarts, locaux, régionaux, globaux, individuels et/ou corrélés, à deux modèles : aléatoire, equidistributif.

Une fois mesurés, ils sont pondérés et rapportés pour l’essentiel à des probabilités (donc, à des issues diverses pour l’interprétation et à des poursuites bifurcantes).

C’est pourquoi, même si en droit certaines techniques et formules ne peuvent être dites probabilistes, l’ensemble qu’elles forment autour des objets textuels pour éclairer le discours est une démarche probabiliste.