Download - Méthodes des sciences sociales - cours complet

1

UNIVERSITE VERSAILLES SAINT-QUENTIN

M1 SCIENCES POLITIQUES – 2010/2011.

COURS DE NICOLAS KACIAF

Méthodes des sciences sociales 2.

La quantification du monde social

INTRODUCTION GENERALE :

Les mystères de la quantification

§1. L’omniprésence des « chiffres »

Indicateurs statistiques, mesures chiffrées et autres sondages d’opinion sont aujourd’hui

omniprésents dans le débat public. La liste est longue de ces données qui peuplent les comptes-

rendus médiatiques et qui servent de socle aux arguments échangés entre acteurs politiques : taux

de chômage, points de croissance du produit intérieur brut, évolution de la mortalité sur les

routes, popularité du président de la République et de ses ministres, « chiffres » de la délinquance,

position des Universités françaises dans le classement de Shanghai ou dans tous les autres ranking

évaluant la performance des systèmes éducatifs, taux d’inflation, indicateurs d’évolution du

« pouvoir d’achat », part des Français sous le seuil de pauvreté, âge moyen du premier rapport

sexuel, pourcentages d’audience respectives des chaînes de télévision, palmarès des hôpitaux les

plus sûrs, distribution des prénoms les plus fréquemment donnés chaque année, etc.

Mais les données statistiques ne servent pas seulement à nourrir les discussions politiques.

Elles sont au cœur de l’activité de travail de très nombreux secteurs économiques. Dans les

entreprises privées, les services et les salariés sont ainsi évalués à partir d’indicateurs qui mesurent

leur performance (productivité, valeur ajoutée, marge opérationnelle, etc.). Mais cette évaluation

quantitative de l’activité concerne également de plus en plus le secteur public. Aujourd’hui,

chaque service administratif doit satisfaire un certain nombre d’objectifs chiffrés, précisés dans le

projet de loi de finances (à travers les indicateurs de la LOLF - Loi organique relative aux lois de

finance), et qui peuvent servir d’instruments de comparaison de l’efficacité du travail mené et de

2

la bonne utilisation de l’argent public. Cette omniprésence des données chiffrées semble traduire

une tendance actuelle à « gouverner par les nombres ».

Une première question se pose alors : pourquoi les « chiffres » sont-il à ce point

omniprésents dans le débat public et dans un nombre croissant de secteurs sociaux ? Pour le dire

autrement, sur quoi repose la force du chiffre ? Quatre hypothèses, convergentes, peuvent être

soulevées :

(1) La force des « chiffres » tout d’abord, c’est leur apparente impartialité, neutralité,

objectivité, scientificité. D’un point de vue politique, l’utilisation récurrente de telles données

s’articule bien avec l’idée que, désormais, l’Etat (ou tout autre institution) doit être gouverné

de façon apolitique, sans idéologie mais avec pragmatisme, avec pour seul objectif de

produire du « résultat » et d’être donc « performant », ce que des indicateurs chiffrés

pourraient objectivement mesurer.

(2) Deuxièmement, l’autre avantage des « chiffres », c’est leur communicabilité qui tient

notamment à leur apparente simplicité. Pour les médias, un pourcentage constitue une

information courte, lisible et utile pour « cadrer » un article (« Le chômage baisse de 3 % », « la

délinquance recule de 9 % », « X % des enfants quittent le primaire sans savoir ni lire ni écrire »). De la

même manière, tableaux, graphiques et autres infographies chiffrées offrent une commodité

de lecture précieuse pour les dirigeants dans les mondes politiques, administratifs,

économiques qui souhaitent disposer d’informations rapides à lire et à mémoriser. Ou

encore, comme le souligne la politiste Isabelle Bruno, le « chiffre » est utile dans un espace

comme l’Union européenne : il facilite la communication entre des interlocuteurs parlant une

vingtaine de langues différentes.

(3) Un troisième avantage des « chiffres », c’est leur comparabilité. En effet, les données

chiffrées permettent assez facilement la comparaison dans l’espace (entre pays, entre

départements, entre salariés, entre services, etc.) ou dans le temps (évolutions).

(4) Enfin, et c’est sans doute le point le plus important, un dernier avantage des « chiffres »

réside dans leur capacité à rendre visible ce qui est invisible à l’œil nu. Je vais y revenir.

§2. Des données qui ne vont pas de soi

Pour ces différentes raisons, les données quantitatives sont désormais incontournables sur

n’importe quel sujet, dans n’importe quel secteur. Mais si les indicateurs sont omniprésents, ils

sont aussi fréquemment critiqués ou contestés. On ne compte plus en effet les controverses

relatives aux « chiffres » officiels et à leur utilisation par le pouvoir politique. Cf. quelques

exemples connus et sur lesquels vous aurez l’occasion de travailler, notamment en TD : les

3

statistiques du chômage ; les « chiffres » de la délinquance ; l’évolution du pouvoir d’achat des

ménages ; la fixation du seuil de pauvreté ; les sondages mesurant la popularité des mesures

gouvernementales ; la mesure des discriminations face à l’interdiction de collecter des

informations sur l’origine « ethnique » des individus ; la comparaison internationale des systèmes

éducatifs ou des performances de la recherche ; etc. Les critiques adressées aux sondages

d’opinion ou aux statistiques officielles sont utiles parce qu’elles rappellent qu’il ne faut pas être

naïf face à des données et ne pas les prendre pour argent comptant. Mais elles posent souvent

problèmes parce qu’elles sont mal formulées. En effet, on entend souvent dire que « les

statistiques du chômage sont fausses », que « les chiffres de la délinquance sont truqués » ou encore

qu’« on peut tout faire dire aux chiffres »… Si on prend l’exemple du chômage, cette critique

laisse entendre qu’il existerait un vrai nombre de chômeurs et que les statistiques ne donneraient

pas ce vrai chiffre. Bien sûr qu’il y a des cas flagrants de manipulations politiques. Bien sûr

également que les statisticiens font parfois des erreurs grossières.

Mais il faut adopter un autre point de vue. La bonne perspective face aux statistiques du

chômage, ce n’est pas seulement de se demander si elles sont vraies ou fausses comme s’il existait

dans la nature un vrai nombre de chômeurs que l’on pourrait cueillir comme on cueille une

pomme sur un arbre. La bonne perspective, c’est plutôt de se demander : qu’est-ce que ces

données veulent dire ? Qu’est-ce que ces données reflètent et qu’est-ce qu’elles ne reflètent pas ?

Qu’est-ce qu’elles donnent à voir et qu’est-ce qu’elles laissent dans l’ombre ? Que peut-on donc

en déduire ? Cela suppose donc de soulever un autre type de problèmes : comment les données

ont-elles été recueillies ? Quelle a été la méthode ? Qu’est-ce qui est effectivement mesuré ? Qui a

effectué cette mesure (un service administratif, des chercheurs, un cabinet d’audit, etc.) ? Et dans

quel intérêt ? Ainsi, pour reprendre l’exemple des statistiques du chômage, les « chiffres » les plus

couramment donnés dans les médias n’indiquent pas réellement le nombre de personnes sans

emploi mais le nombre d’inscrits au Pôle emploi dans une catégorie donnée, ce qui est

sensiblement différent. De la même manière, les données fournies par le ministère de l’Intérieur

en matière de délinquance n’indiquent pas le niveau de « délinquance » mais elles indiquent le

nombre de faits supposément délictueux ou criminels constatés par les services de police. Je suis

schématique ici car ces comptages sont un peu plus complexes – on y reviendra.

Autrement dit, l’une des postures légitimes face à cette avalanche de « chiffres » est

d’opérer un travail de déconstruction. En effet, ces données sont naturalisées, au sens où il paraît

naturel aujourd’hui de disposer du taux de chômage mensuel sur l’ensemble du territoire national,

où il paraît naturel de disposer de la mesure de la « délinquance » (comme s’il y avait une « chose »

homogène qui s’appelait la délinquance et qui regrouperait des infractions routières, des vols, des

4

viols, des meurtres, des détentions de produits stupéfiants, etc.), où il paraît naturel de mesurer

chaque mois la popularité du Président de la République dans l’opinion publique (au singulier).

Dire qu’elles sont naturalisées, cela signifie qu’on s’y habitue au point de croire que le niveau de

chômage, la délinquance ou la popularité du Président existeraient indépendamment de leur

mesure (je répète : dans cette perspective, la mesure ne ferait que « cueillir » ce qui existe dans la

réalité). Or ces données, ces « chiffres », ces mesures ne vont pas de soi ! Elles reposent sur des

constructions, des constructions méthodologiques et intellectuelles.

- D’abord des constructions méthodologiques. Toute quantification suppose la mise en place

d’instruments de mesure. Et pour que les résultats soient scientifiquement solides, qu’ils aient une

certaine pertinence, il faut une véritable rigueur méthodologique : rigueur dans le recueil des

informations (ce sont les techniques d’enquête comme les techniques d’échantillonnage), rigueur

dans le traitement statistique des informations (ce sont les outils mathématiques qu’utilisent les

statisticiens), rigueur dans l’analyse des résultats et dans les conclusions (ce sont les théories

sociologiques qui rendent les résultats significatifs).

- Les données quantitatives soulèvent donc plus que de simples problèmes techniques. En effet,

elles reposent aussi sur des constructions intellectuelles. Cela ne va pas de soi de tout vouloir

mesurer, compter et réduire à quelques indicateurs.

• Par exemple, cela ne pas de soi, idéologiquement parlant, d’évaluer et de comparer

la qualité des systèmes éducatifs en s’appuyant sur des indicateurs chiffrés comme le taux de

lecture à l’entrée dans le secondaire, le niveau en mathématique, le nombre d’enfants qui

sortent du système sans diplôme, etc. La généralisation des classements ou du benchmarking

est le produit d’un contexte social et politique particulier : ce n’est pas une évolution

nécessaire de l’espère humaine !

• Cela ne va pas de soi non plus de mesurer l’opinion publique en faisant la somme

des opinions individuelles et en acceptant que l’opinion d’un grand bourgeois vaut autant

que l’opinion d’un prolétaire. Pour accepter ce principe d’équivalence généralisé (tous les

individus ont la même valeur, statistiquement parlant), il a fallu plusieurs siècles de

démocratisation. Une telle convention intellectuelle serait par exemple impensable dans une

société organisée en caste ou dans des sociétés traditionnelles dans lesquelles le chef de

famille peut parler au nom de l’ensemble de sa maisonnée.

Les techniques d’enquête et les manières de compter ne sont donc pas « neutres » : elles

traduisent un point de vue sur le monde.

5

§3. Les objectifs du cours

Ce cours de « méthode des sciences sociales » repose alors sur deux problématiques qui

reflètent l’ambiguïté de la quantification :

- D’un côté, on considère ici les outils statistiques comme de formidables outils de description

et d’analyse scientifique du monde social (à condition d’avoir été rigoureusement. La

quantification est souvent un instrument indispensable pour déchiffrer le monde qui nous

entoure et pour rendre visible une réalité invisible par l’observation humaine (ne sont visibles que

des cas individuels). Les données statistiques sont des représentations qui donnent à voir un autre

niveau de réalité que la réalité expérimentée par chaque individu. On y reviendra dans le premier

chapitre.

- D’un autre côté, on considère aussi la production statistique comme une ressource de pouvoir

et de domination. D’ailleurs, étymologiquement, la « statistique » est issue du mot « Etat »

(Staat¸State). Historiquement, la statistique publique est née dans un contexte de centralisation

étatique : c’est un instrument de pouvoir, un instrument de contrôle de l’Etat sur la société. De la

même manière, les enquêtes marketing, ce sont des instruments décisifs dans les mains des

entreprises privées. On reviendra sur cette question des usages de la quantification dans le

chapitre trois.

D’un point de vue pédagogique, ce cours vise donc à satisfaire trois objectifs :

(1) D’abord, le premier objectif est pratique. Puisqu’il s’agit d’un cours de méthodes des

sciences sociales consacré plus précisément aux méthodes dites « quantitatives », le premier enjeu

est de vous apporter un certain nombre de « ficelles » (H. Becker) pour vous permettre d’élaborer

une enquête statistique, de participer à son élaboration ou d’être capable de prendre de la distance

et d’évaluer la pertinence scientifique d’une enquête que vous aurez sous les yeux. Évidemment, il

est impossible en si peu de temps d’entrer dans les détails techniques. Il n’est pas non plus

judicieux de vous apprendre à appliquer mécaniquement un catalogue de recettes toutes faites

(parce que, je répète, les méthodes ne sont pas neutres). De toute façon, seule une minorité

d’entre vous se destine à la recherche et / ou à une activité professionnelle qui vous amène à

devoir produire vous-même des données statistiques. L’enjeu n’est donc pas de faire de vous des

« techniciens » du questionnaire, des sondages ou des calculs mathématiques. En revanche, il est

fort probable que vous allez tous être confrontés à des données « quanti » dans votre vie

professionnelle. Si vous êtes journalistes, communicants, fonctionnaires dans une collectivité

locale, assistant d’élu, etc., vous risquez d’avoir affaire en permanence à des données chiffrées. Et

le but du jeu, c’est que vous soyez capable de les comprendre et de savoir si elles reposent sur des

6

enquêtes scientifiquement « solides ». D’où le terme de « ficelles », c’est-à-dire quelques réflexes

intellectuels, quelques « trucs » méthodologiques à garder en tête pour au moins savoir lire une

étude, interpréter un sondage, bricoler quelques calculs statistiques, bref ne pas être démuni face

à des statisticiens, des chercheurs ou des prestataires plus aguerris !

(2) Ensuite, le deuxième objectif est de vous apporter un regard critique sur les données

quantitatives. Critiquer ne signifie pas remettre en cause, mais être capable de discerner les limites

et les apports d’une enquête, en tant que professionnel certes, mais aussi en tant que citoyen.

L’enjeu est de rappeler qu’au-delà de la plus ou moins grande rigueur méthodologique, chaque

technique de recueil d’informations comporte un certain nombre de limites indépassables qu’il

faut connaître pour ne pas faire de mauvaises interprétations des données. Quelles sont donc les

deux principales limites des méthodes quantitatives ?

• Premièrement, il faut avoir en tête que toute quantification appelle une

simplification du réel, un appauvrissement de la diversité du réel. Par exemple, si vous voulez

mesurer le nombre de chômeurs, à un moment donné, vous devez définir qui est chômeur et qui

ne l’est pas, donc établir des frontières fixes, alors que dans la réalité, vous avez une multitude de

cas de figure. Est-ce que les personnes qui travaillent à temps partiel mais qui souhaiteraient

travailler à temps plein sont des chômeurs ? Est-ce que les personnes qui ont arrêté de chercher

du travail parce qu’elles sont découragées ou très proches de la retraite sont des chômeurs ? Etc.

Autrement dit, toute quantification suppose de faire rentrer les personnes, les situations, les

opinions, les pratiques dans un nombre restreint de « cases », de « catégories ».

• La deuxième limite déjà évoquée, c’est que le résultat dépend toujours en partie de

l’instrument d’observation, d’enquête, de mesure. Chaque technique tend à se « focaliser » sur un

aspect particulier de la réalité. Selon les méthodes choisies, vous ne mettez pas en évidence la

même chose. Pour illustrer ce point crucial pour l’ensemble des sciences, prenons l’exemple de

l’observation. Selon le niveau d’observation, vous ne découvrez pas les mêmes phénomènes :

particules élémentaires, atomes, molécules, cellules, organes, corps humain, interactions

familiales, occupation de l’espace (géographie), plaques tectoniques (géologie), planète, système

solaire, galaxie, amas, univers. Pour revenir à la quantification du monde social à partir d’un

exemple trivial, il va de soi que la représentation de la « délinquance » est différente si elle est

étayée par la mesure de l’activité policière ou si elle s’appuie sur des enquêtes de victimisation (cf.

textes de Bruno Aubusson dans le livret de TD), si elle est mesurée à partir de statistiques

recueillies à l’échelle internationale ou étudiée à partir d’une enquête de terrain dans un quartier

donné. Autrement dit, il faut toujours garder en tête que les données ne sont pas naturelles mais

qu’elles sont en permanence construites par l’enquêteur et par ses choix de méthodes.

7

(3) Le troisième objectif est d’analyser les enjeux politiques et sociaux sous-jacents à la

production statistique. Cela suppose donc de déplacer le regard et de ne plus seulement

considérer la statistique comme un instrument de connaissance du monde mais aussi comme un

domaine à explorer, un « objet » de sociologie politique, un « fait social » et « historique ». Il s’agit

donc de s’arrêter sur les usages de la quantification, afin notamment de comprendre l’émergence

et la généralisation de ces techniques de gouvernement. Que signifie compter dans nos sociétés

démocratiques ? Qui est le commanditaire d’une enquête, quel est son intérêt et comment peut-il

influer ou non sur les résultats. Le problème majeur des enquêtes quantitatives, c’est souvent leur

coût énorme. Donc les financeurs de ces enquêtes sont le plus souvent des institutions

dominantes dans la société (les institutions publiques bien sûr, mais également les très grandes

entreprises, les principales entreprises médiatiques, les grosses associations ou lobbies). Par

conséquent, les enquêteurs s’adaptent aux attentes et aux présupposés de ceux qui les financent.

Or pourquoi les élites politiques, économiques, administratives ont-elles besoin de ces données

chiffrées sur la population, sur la société, sur l’économie, sur les opinions ? Qu’en font-elles ? En

quoi ces données participent-elles de leur autorité ? En quoi l’omniprésence des statistiques, des

sondages ou du benchmarking modifient-ils les manières de gouverner ? Je vous renvoie aux

travaux de Michel Foucault ou d’Alain Desrosières sur la naissance des statistiques en Europe.

Ainsi, les problèmes statistiques (et leurs problèmes méthodologiques sous-jacents) sont presque

toujours des problèmes politiques. Les résultats des recensements ont des incidences

considérables sur les manières d’aborder les politiques publiques. Par exemple, pour des

problèmes de méthodes, le nombre de jeunes Noirs sont souvent sous-estimés dans les

recensements aux Etats-Unis ; par conséquent, il y a une surestimation de la proportion de Noirs

dans les statistiques de la délinquance, ce qui peut engendrer une focalisation de l’activité policière

et judiciaire sur cette population.

8

Chapitre 1 – L’objectivation statistique

Section 1. L’objectivation statistique et la rupture avec les fausses

évidences

Le sociologue américain d’origine autrichienne Paul Lazarsfeld (1901-1976) a bien montré

dans quelle mesure des enquêtes par questionnaires, en s’appuyant sur un grand nombre de cas,

pouvaient remettre en cause bien des idées reçues ou des fausses évidences. Dans un article

célèbre, il livre ainsi six affirmations qui, spontanément, ne susciteraient aucune contestation.

1. Les individus dotés d’un niveau d’instruction élevé présentent plus de symptômes psychonévrotiques que ceux qui ont un faible niveau d’instruction.

2. Pendant leur service militaire, les ruraux ont, d’ordinaire, meilleur moral que les citadins.

3. Les soldats originaires du sud des Etats-Unis supportent mieux le climat chaud des îles du Pacifique que les soldats du Nord.

4. Les simples soldats de race blanche sont davantage portés à devenir sous-officiers que les soldats de race noire.

5. Les Noirs du Sud préfèrent les officiers blancs du Sud à ceux du Nord.

6. Les soldats américains étaient plus impatients d’être rapatriés pendant que l’on combattait qu’après la reddition allemande.

Tout cela n’est-il pas à ce point évident qu’il ne servirait à rien de dépenser de l’argent dans des

enquêtes pour aboutir à de telles conclusions ? Or Lazarsfeld prend aussitôt son lecteur à contre-

pied : toutes ces propositions sont fausses ou, plus précisément, toutes ces propositions sont

invalidées par des enquêtes empiriques réalisées auprès de soldats américains. Parmi les

différentes techniques d’enquêtes en sciences sociales, les recherches quantitatives ont pour

intérêt de tester la solidité des croyances et des représentations spontanées sur le monde social.

Rigoureusement menées, elles peuvent contribuer à « chasser les mythes » (Norbert Elias) ou

remettre en cause les « prénotions » (Émile Durkheim).

§1. Le « choix » du conjoint

Dans nos sociétés modernes où la formation des couples ne relèvent plus (ou presque

plus) d’arrangements familiaux, comment expliquer le choix du/de la conjoint(e) ? Les

justifications spontanées tendent à mettre l’accent sur le hasard (hasard d’une rencontre, « coup

de foudre » qui ne s’explique pas). L’argumentation mobilise aussi le répertoire de la « liberté »,

via l’invocation de l’attirance, du goût. Individuellement, ces raisons sont certainement valables :

9

en l’absence d’injonctions familiales ou d’obligations légales à épouser untel ou unetelle, il est

difficile de nier la part de « choix » dans la constitution des couples. Mais lorsqu’on se place non

plus à l’échelle individuelle mais à l’échelle collective, les statistiques permettent de montrer un

autre mécanisme. Elles mettent en évidence l’importance de l’homogamie sociale, c’est-à-dire le

fait que les individus ont statistiquement tendance à épouser des personnes qui leur ressemblent

socialement parlant (voir Bozon et Héran, La Formation du couple).

Distribution des groupes socioprofessionnels des femmes, selon le groupe socioprofessionnel de leur mari (cadre ou ouvrier) – couples dont les membres ont entre 25 et 59 ans

Groupe socioprofessionnel de la femme Ensemble femmes

(%)

Femmes dont mari cadre (%)

Femmes dont mari ouvrier (%)

Cadre 6,4 24,2 1 Profession intermédiaire 15,2 21,3 8,5

Employé 30 16,7 35,3 Ouvrier 8,5 1,4 16,7

Retraité / inactif 34 34,6 36,8 Autre (agriculteurs, commerçants, etc.) 5,9 1,8 1,7

TOTAL 100 100 100

Distribution des groupes socioprofessionnels des hommes, selon le groupe socioprofessionnel de leur femme (cadre ou ouvrière) – couples dont les membres ont entre 25 et 59 ans

Groupe socioprofessionnel de l’homme Ensemble hommes

(%)

Hommes dont femme cadre

(%)

Hommes dont femme ouvrière

(%) Cadre 15,2 57,3 2,5

Profession intermédiaire 21 19,5 13,1 Employé 8,3 3,2 7 Ouvrier 31,8 5 62,1

Retraité / inactif 10,7 4,1 8 Autre (agriculteurs, commerçants, etc.) 13 10,9 9,8

TOTAL 100 100 100

Source : Insee, enquête FQP 1993

Ces tableaux mettent en évidence que, heureusement, l’homogamie sociale n’est pas totale

(elle le serait si, par exemple, 100 % des maris de femmes cadres étaient eux-mêmes des cadres –

en l’occurrence, ils ne sont « que » 57,3 %) : il n’y a pas de détermination absolue. Mais

l’homogamie est malgré tout fortement marquée. En effet, si la formation des couples reposait

effectivement sur le « hasard », on retrouverait la même proportion de cadres parmi les hommes

qui vivent avec une femme cadre que parmi l’ensemble des hommes vivant en couple (soit 15,2

% et non 57,3 %). Comment expliquer ce phénomène ? Plusieurs hypothèses peuvent être

formulées, qui renvoient à différentes grilles d’analyse sociologiques :

10

- L’explication la plus simple réside sans doute dans tout ce qui fait qu’une rencontre est

possible. Les individus s’inscrivent dans des réseaux sociaux plus ou moins hermétiques les uns

aux autres en raison des cercles de connaissances des parents, des lieux d’habitation, des

établissements scolaires fréquentés, des activités sportives ou culturelles pratiquées, etc.

L’ensemble de ces expériences dessine d’une certaine manière les frontières des rencontres

possibles, statistiquement parlant – on l’exprime alors en termes de « chances ».

- Ensuite, l’homogamie sociale résulte sans doute aussi des processus de construction

sociale des goûts. Après tout, à l’image des goûts en matière artistique ou culinaire (voir Pierre

Bourdieu, La Distinction), les goûts en matière « sexuelle », et donc les probabilités de « coup de

foudre », sont certainement conditionnés par le milieu social d’origine.

- Il est également possible que l’homogamie sociale tienne en partie à l’anticipation de la

réaction des proches. On tend à s’ajuster à ce qu’on estime être attendu par son entourage. Dès

lors, même si on éprouve des sentiments pour une personne, il peut s’avérer délicat d’aller loin

dans une relation lorsque cette personne est rejetée par nos proches en raison de ses origines, ses

caractéristiques sociales, etc.

- Enfin, la question de l’ajustement des valeurs se pose. En effet, il est possible de sortir

ensemble sans être nécessairement « proches » mais, pour fonder un foyer, il y a une relative

nécessité de s’accorder et d’accorder ses dispositions en termes de conception du rôle de la

femme et de l’homme, de règles relatives à l’intimité, etc.

§2. Corrélations statistiques et liens de dépendance

Quoiqu’il en soit, ces statistiques ne nous permettent pas, en elles-mêmes, d’expliquer

l’homogamie sociale. Ces données se contentent (et c’est déjà beaucoup) de mettre à jour une

corrélation statistique entre deux variables.

Une variable, c’est une « caractéristique susceptible de prendre plusieurs formes

différentes » (Philippe Alonzo). Ici, quelles sont les deux variables ? Il s’agit du « groupe

professionnel de la femme » et du « groupe professionnel de l’homme ». Ici, le constat

d’homogamie signifie que ces variables sont corrélées, autrement dit qu’elles présentent un lien

de dépendance entre elles. À l’inverse, si le groupe professionnel de la femme et le groupe

professionnel de l’homme n’avaient aucun lien statistique et que la formation des couples

reposeraient sur le hasard, on dirait que ces variables sont indépendantes (c’est le cas, pour

prendre un exemple totalement fictif, entre deux variables – « PIB de la France » et « résultats de

l’équipe de France de basket » – dont aucune ne dépend de l’autre).

11

S’il y avait indépendance, une femme cadre aurait 15,2 % de chances d’épouser un

homme cadre, 21 % un homme profession intermédiaire, 8,3 % un homme employé, etc. Or les

statistiques nous montrent que ce n’est pas le cas : la formation des couples ne repose pas sur le

hasard. Une femme cadre a statistiquement une probabilité importante d’épouser un homme

cadre (57,3 %), en tout cas une probabilité beaucoup plus importante que si la formation des

couples reposait sur le hasard. On dit alors, pour décrire ces tableaux, qu’il y a écart à

l’indépendance (synonyme de corrélations statistiques).

Ce constat statistique a une certaine robustesse, une certaine solidité parce qu’il est établi

à partir d’une enquête de l’INSEE, enquête réalisée auprès d’un très vaste échantillon de

population (environ 40 000 personnes). On peut donc en tirer des conclusions générales sur la

société française, c’est-à-dire des enseignements sociologiques. Cette enquête met à jour des

régularités. Ce terme est important car il a un double sens : il évoque non seulement l’idée de

fréquence (l’homogamie sociale est fréquente) mais également l’idée de règle extérieure qui

s’impose aux individus (l’homogamie sociale n’est pas le produit d’une volonté individuelle).

Ça ne veut pas dire que les individus se trompent ou mentent lorsqu’ils disent être tombés

amoureux par hasard ou par coup de foudre : c’est leur point de vue, compte tenu de leur position.

C’est une interprétation, un regard subjectif sur la réalité et qui ne peut réaliser à quel point l’espace

des possibles est restreint. Dans cet espace, il y a bien liberté, situation de choix et part du hasard :

mais c’est une réalité qui n’a de valeur qu’à l’échelle individuelle. À l’inverse, en étudiant un très

grand nombre de cas, les statistiques permettent d’accéder à un autre niveau de réalité. Elles

rendent visibles ce qui est invisibles à l’échelle de chaque individu (même si on peut en avoir

l’intuition à partir de ses expériences). Elles mettent à jour des régularités, c’est-à-dire des

phénomènes objectifs.

- Ces phénomènes sont objectifs parce qu’ils ne dépendent pas des « impressions » de

l’observateur mais reposent sur une méthode d’administration de la preuve scientifiquement

fondée (avec les mêmes données, tout le monde arrive aux mêmes conclusions).

- Ces phénomènes sont objectifs aussi parce qu’ils sont établis à partir d’instruments de

mesure identiques pour tous (cf. la classification des « groupes socioprofessionnels » ne

dépendent pas de la perception de chacun). – De même que le médecin établit son diagnostic en

s’appuyant sur une évaluation « objective » de l’état de santé du patient (via la mesure du pouls ou

de la tension) plus qu’en s’appuyant sur l’évaluation « subjective » établie par le patient lui-même.

- Ces phénomènes sont objectifs enfin parce qu’ils ne dépendent pas de la volonté de

quelques uns qui auraient « inventé » l’homogamie sociale ou qui auraient pleinement « choisi » ce

12

mode de vie (« choisi » au sens où ils se seraient retrouvés dans une véritable situation d’arbitrage

avec de réelles marges de manœuvre).

§3. L’objectivation des faits sociaux

En mettant à jour des régularités objectives, ces statistiques opèrent donc un travail

d’objectivation du monde social. L’objectivation, c’est une démarche scientifique consistant à

saisir le caractère « objectif » des faits étudiés (en l’occurrence ici la formation des couples). En

utilisant les statistiques, donc en s’appuyant sur la « loi des grands nombres », le sociologue

montre que les faits étudiés sont des phénomènes collectifs qui s’imposent aux personnes, qui

répondent à une certaine logique, qui ne se réduisent pas à des cas individuels, qui ne sont pas

seulement le résultat de l’imagination du chercheur. Par ce souci d’objectivation de la réalité

sociale, le sociologue respecte le précepte du sociologue Émile Durkheim (1858-1917) lorsque

celui-ci invite à étudier les « faits sociaux » comme des « choses ».

Définition : Fait social = « ils consistent en des manières d’agir, de penser et de sentir, extérieures à l’individu, et qui sont douées d’un pouvoir de coercition en vertu duquel ils s’imposent à lui. » (Durkheim, Les Règles de la méthode sociologique, p. 5) ; « toute manière de faire qui est générale dans l’étendue d’une société donnée tout en ayant une existence propre, indépendamment de ses manifestations individuelles » (ibidem, p. 14)

D’ailleurs c’est à partir d’une démarche de quantification que Durkheim va mettre en

application ses règles de la méthode sociologique et pouvoir montrer à quel point le suicide

constitue un « fait social » qui ne s’explique que par d’autres faits sociaux (par exemple l’anomie).

Cet objet d’études est intéressant car, à première vue, le suicide constitue une pratique totalement

liée à des facteurs psychologiques, donc individuels. Et pourtant, dès que l’analyse se penche, non

plus sur des cas individuels, mais sur un grand nombre de cas, on découvre que le suscite peut

être analysé comme un « fait social ». En effet, en étudiant les statistiques du suicide (qui se

suicide ? à quelle période ? dans quelles circonstances ?), on observe des régularités, des

corrélations entre différentes variables (le fait d’habiter en ville ou à la campagne, le fait d’être

isolé ou d’avoir une famille, le fait d’être catholique ou protestant, etc.), ce qui lui permet de

distinguer différents types de suicide. Autrement dit, le suicide peut s’expliquer non pas

seulement par les caractéristiques psychologiques ou personnelles des suicidés mais par des

caractéristiques sociales. Je cite Durkheim : « Si au lieu de n’y voir que des événements

particuliers, isolés les uns des autres et qui demandent à être examinés chacun à part, on

considère l’ensemble des suicides commis dans une société donnée pendant une unité de temps

donnée, on constate que le total ainsi obtenu n’est pas une simple somme d’unités indépendantes

13

(…) mais qu’il constitue par lui-même un fait nouveau, qui a son unité et son individualité, sa

nature propre par conséquent et que, de plus, cette nature est éminemment sociale. » Cette

approche est en partie critiquable. Nous y reviendrons.

À condition d’être rigoureusement recueillies d’un point de vue sociologique et

méthodologique, les statistiques permettent de décrire scientifiquement de nombreux aspects du

monde social. Elles permettent notamment de mettre en évidence que des individus qui ne se

connaissent pas, et même ne se voient pas, se ressemblent. Du fait de milieux d’appartenance

similaires ou voisins, ils partagent un ensemble de préférences en matière vestimentaire,

culturelle, politique, etc. Dans son article, Guy Desplanques souligne ainsi l’ensemble des

relations objectives entre le « choix » du prénom, le contexte historique et l’identité

socioprofessionnelle des individus (cf. livret de TD) : les régularités qu’il met en avant indiquent

ainsi à quel point la distribution des prénoms constitue un « fait social » qui échappe fortement à

la volonté des parents (même lorsque ces derniers savent qu’un prénom est connoté socialement

et choisissent de façon stratégique : ils ne décident pas des « connotations » associées à un

prénom mais s’y adaptent ; ils ne décident pas non plus d’appartenir à une époque où l’originalité

n’est plus bannie mais recherchée et où la loi ne définit plus le stock autorisé de prénoms). De la

même manière, Patrick Lehingue montre comment les nombreuses recherches quantitatives en

sociologie électorale permettent d’invalider un grand nombre d’affirmations relatives à

l’« électorat » Front national : son enracinement géographie, son lien avec l’électorat communiste,

son lien avec la personnalité charismatique de son leader, sa focalisation sur les seules questions

d’immigration, etc. (cf. livret de TD).

Enfin dernier exemple de l’utilité d’une démarche d’objectivation et qui rejoint la question

de l’homogamie sociale : c’est la mesure de la « mobilité sociale ». Il s’agit là en effet d’un enjeu

politique majeur. À la différence des sociétés de castes dans lesquelles les individus occupent une

position en fonction du statut assigné à la naissance, les sociétés démocratiques se présentent

comme des sociétés « mobiles » où la position sociale occupée par chacun est supposée corrélée à

l’utilité sociale, c’est-à-dire au « talent » ou au « mérite » personnel à l’école ou dans le monde du

travail. Cette conception résulte d’un double héritage idéologique : l’héritage républicain d’un côté

(valorisant l’absence de privilèges), l’héritage libéral de l’autre (valorisant la concurrence libre et

non faussée) reposent tous les deux sur la notion d’égalité des chances à l’école ou sur le marché

du travail. Les catégories sociales dominantes peuvent ainsi légitimer leur situation, en mettant

avant leur « mérite » (celui d’avoir mieux ou davantage travaillé que les autres) et / ou leur

« chance ». S’il y a égalité des chances, cela doit signifier que la position sociale d’un individu n’est

pas déterminée par la position de ses parents : les deux variables devraient être strictement

14

indépendantes, leur relation organisée par le seul hasard statistique. Or ce que montrent les

enquêtes de mobilité sociale, c’est que les destins des individus ne tiennent pas à leur seul mérite

mais sont relativement corrélés à leurs milieux sociaux d’origine : il n’y en effet pas

d’indépendance en France entre « le groupe socioprofessionnel des hommes de 40 ans et plus » et

le « groupe socioprofessionnel de leur père ». Pour ne prendre qu’un exemple, en 2003, 53,9 %

des fils de cadres, âgés de 40 ans et plus, sont eux-mêmes cadres (alors que les cadres ne

représentent que 19,9 % des hommes âgés de 40 ans et plus). A l’inverse, 45,4 % des fils

d’ouvriers, âgés de 40 ans sont eux-mêmes ouvriers (alors que les ouvriers représentent 31,3 %

des hommes âgés de 40 ans et plus).

Section 2. De la problématique aux indicateurs

§1. Répondre à des questions

Les sciences sociales ont pour objectif de développer la connaissance du monde social, en

mettant notamment en évidence les logiques ou les mécanismes qui gouvernent l’organisation des

sociétés et les relations entre individus. Elles articulent donc une ambition descriptive

(comment ça marche ?) et une ambition explicative (pourquoi ça marche comme ça et pas

autrement ?). Mais à la différence d’approches qui se focaliseraient sur un cas ou sur un

événement donné, les sciences sociales visent à produire des énoncés (ou des affirmations) qui

ont une certaine prétention à la généralité : en tant que sciences, elles ont une ambition

nomologique (= « prétention à étudier les lois qui président aux phénomènes naturels » ; ici,

prétention à étudier les logiques qui président aux phénomènes sociaux).

Par conséquent, les scientifiques n’ont pas la prétention d’offrir une improbable

description exhaustive du réel. La littérature réaliste du XIXe siècle a bien montré les apories

d’une telle ambition : il faudrait des encyclopédies infinies pour mener à bien un tel travail, si bien

que le gain d’intelligibilité serait quasi-nul. Aussi les recherches scientifiques ont-elles

principalement pour objectif de répondre à des questions, à des intrigues ou encore à des

problématiques dont l’intérêt se limite rarement à des enjeux de pure connaissance. S’il y a

problématisation, c’est souvent parce qu’il y a l’ambition d’analyser des phénomènes érigés en

problèmes sociaux (voir Rémi Lenoir, « Objet sociologique et problème social » dans Patrick

Champagne et al., Introduction à la pratique sociologique). Par exemple, si les chercheurs mettent en

relation les variables « groupe socioprofessionnel des hommes de 40 ans et plus » et « groupe

socioprofessionnel des pères des hommes de 40 ans et plus », c’est afin d’apporter des éléments

15

de réponse empirique à la question de la « mobilité sociale » et notamment à l’interrogation suivante

(qui présente un caractère politique évident) : les positions sociales et les ressources accumulées

relèvent-elles du mérite ? Ou bien assiste-t-on à des phénomènes de reproduction sociale ?

On l’a vu, les statistiques sont souvent considérées comme l’outil le plus adéquat pour

répondre à cette question, puisqu’elles offrent la possibilité d’objectiver la « mobilité sociale ».

Une fois les données recueillies, il est possible de mesurer le « taux de mobilité sociale » (il suffit

d’additionner l’ensemble des hommes de 40 ans et plus appartenant à un groupe

socioprofessionnel distinct de celui de son père, soit 64,9 % de mobiles en 1993 et 63,8 % en

2003). On peut alors établir différentes conclusions selon le questionnement initial : « près de 2/3

des Français de plus de 40 ans connaissent une situation de mobilité sociale » ou bien « la

mobilité sociale en France a peu évolué entre 1993 et 2003 » ou bien encore, si l’on dispose de

données équivalentes pour d’autres pays, « la mobilité sociale est plus importante en France qu’au

Royaume Uni mais moins importante qu’au Danemark » (données OCDE, 2007).

Ces conclusions sont recevables, à condition d’admettre que l’on peut établir la « position

sociale » d’un individu en s’intéressant uniquement à son « groupe socioprofessionnel »,

autrement dit admettre que la « stratification sociale » repose principalement sur la place des

individus dans le monde du travail. Certes, cette variable mêle différentes dimensions puisqu’elle

identifie la place des individus dans la division du travail, sur les plans horizontal et vertical. Mais,

pour étudier la mobilité sociale, les sociologues pourraient utiliser d’autres outils d’objectivation,

autrement d’autres indices empiriques. Par exemple, dans l’enquête citée plus haut de l’OCDE,

c’est le « revenu » qui sert à établir la position sociale. On pourrait même imaginer d’autres

indices, sans doute plus difficile à recueillir : la réputation ou le prestige respectif des individus, le

niveau de diplômes, l’accès aux biens culturels, etc. Dans cet exemple, il peut donc y avoir débat

pour savoir quel est le meilleur moyen de mettre à jour empiriquement la stratification sociale.

Mais que l’on retienne la variable « groupe professionnel » ou la variable « revenu », le lien entre

cette variable et l’objet de recherche, en l’occurrence ici la « position sociale » ou la « stratification

sociale » n’est pas trop contestable : il n’est donc pas trop difficile ici d’objectiver statistiquement

ce phénomène social.

§2. Convertir des concepts en indicateurs

Mais souvent, il n’est pas simple d’opérer ce travail d’objectivation. Pourquoi ? Parce qu’il

n’est pas toujours évident d’apporter des éléments de réponse empiriques à une question, c’est-à-

dire de traduire une question en objets de recherche qui puissent être observés et mesurés, bref

16

qui puissent renvoyer à un terrain d’enquête précis. Autrement dit, il est souvent délicat de

convertir un concept en indicateur.

D’abord, qu’est-ce qu’un concept ? C’est une « Représentation mentale générale et

abstraite d’un objet » (Le Robert). Pour le dire autrement, c’est un terme ou une expression utilisée

pour catégoriser, c’est-à-dire pour regrouper, sous une même désignation, une pluralité de cas, de

personnes, de choses, d’événements ou de situation. Dans leur activité de questionnement et

d’analyse du monde social, les sciences sociales ont recours à un nombre considérable de

concepts : l’homogamie sociale, la mobilité sociale, la stratification sociale, les inégalités sociales, la violence, la

violence symbolique, la déviance, la marginalité, la pauvreté, la richesse, la précarité, la précarisation,

l’immigration, la mondialisation, la bourgeoisie, la classe ouvrière, la productivité, la flexibilité, la bureaucratie, la

bureaucratisation, la démocratie, la démocratisation, la professionnalisation, la participation politique, l’exode

rural, le libéralisme, le néo-libéralisme, la libéralisation, le conservatisme, la religiosité, la contestation, la

révolution, etc. Certains de ces termes relèvent uniquement du vocabulaire scientifique : ils

désignent des objets de recherche à part entière. Mais la plupart d’entre eux sont utilisés aussi

dans d’autres circonstances que dans un souci de description scientifique du monde. Et de fait, la

conceptualisation ou l’utilisation de concepts est un acte de tous les jours ! Tout le monde

raisonne en permanence par l’intermédiaire de concepts parce qu’il est indispensable, pour se

repérer et agir, de classer les choses, les personnes, les événements (ce que Peter Berger et

Thomas Luckmann qualifient de « typification »). Les concepts sont essentiels pour raisonner

car, sans eux, tout ne serait que cas singuliers : il n’y aurait aucun appui sur l’expérience pour agir !

La démarche d’objectivation statistique repose donc sur la traduction d’un concept en

mesure quantifiée, bref sur la transformation d’un concept en indicateur. Un indicateur, c’est la

« Manifestation multidimensionnelle quantifiable et mesurable d’un concept » (Philippe Alonzo).

Il s’agit du regroupement d’une ou plusieurs variables qui offre un résumé d’informations. Un

indicateur, c’est donc un indice : ce n’est pas la réalité mais une représentation quantifiée de la

réalité qui permet d’établir des échelles et ainsi de comparer et classer les cas étudiés. Dès lors,

certains concepts peuvent être assez facilement convertis en indicateurs. Par exemple, la

« richesse » peut être représentée par un indicateur regroupant deux variables quantitatives (le

revenu et le patrimoine), ce qui permet de comparer l’ensemble des individus ou des ménages à

partir d’une unité de mesure commune (en l’occurrence ici, l’unité monétaire du pays).

Mais cette opération apparaît beaucoup plus délicate pour d’autres concept, du fait de leur

caractère plus abstrait ou équivoque (i.e. dont la signification est variable selon les individus).

Prenons l’exemple de l’intelligence que l’on pourrait mesurer à partir de tests supposément

universels et qui suscitent de fortes controverses. Ou encore prenons l’exemple du bonheur.

17

Différents chercheurs (économistes notamment) se sont efforcés de construire des indicateurs

censés mesurer le « bonheur » d’un peuple, afin de concurrencer le Produit National Brut (jugé

trop focalisé sur les richesses matérielles et ne prenant pas suffisamment en compte les impacts

négatifs d’une forte croissance, par exemple sur l’environnement ou la santé) par le Bonheur

national brut. Comment mesurer le bonheur et espérer ainsi classer les pays à l’aune de cet

indice ? Quelles variables faut-il retenir pour construire l’indicateur ? Quatre dimensions (qui

elles-mêmes en comprennent plusieurs autres) ont été retenues par les promoteurs de l’indice : la

croissance et le développement économique ; la conservation et promotion de la culture ; la

sauvegarde de l'environnement et utilisation durable des ressources ; la bonne gouvernance

responsable. Or dans quelle mesure ces critères sont-ils pertinents pour évaluer le bonheur ? Et

comment convertir chacun d’entre eux en mesure ? On le voit, le problème est délicat, si bien que

le lien entre le concept « bonheur » et sa mesure repose sur des conventions arbitraires qui ne

suscitent pas de consensus dans la communauté scientifique.

Deux problèmes sont soulevés dans cette opération de traduction d’un concept en

indicateur.

(1) Tout d’abord, on vient de le voir, il n’est pas toujours aisé de déterminer une unité de

mesure qui traduirait sans ambiguïté au concept en question ou à l’une de ses dimensions.

Par exemple, le classement de Shanghai des universités mondiales s’appuie sur un

indicateur supposé représenter « l’excellence » respective des différentes institutions. Or

comment exprimer cette « excellence » ? Ce concept est lui-même décliné en quatre

critères (qualité de l’enseignement, qualité de l’institution, publications, taille de

l’institution) qui sont mesurés à partir de six variables quantitatives. Premier problème

donc : toutes les dimensions de la vie sociale sont-elles mesurables, c’est-à-dire

convertibles en données chiffrées ? C’est ici la tendance à la « quantophrénie » qui pose

question.

Critères Variables Pondération

Qualité de l'enseignement Nombre de prix Nobel et de médailles Fields parmi les anciens élèves

10 %

Nombre de prix Nobel et de médailles Fields parmi les chercheurs

20 % Qualité de l'institution

Nombre de chercheurs les plus cités dans leurs disciplines

20 %

Articles publiés dans Nature et Science entre 2000 et 2004

20 % Publications

Articles indexés dans Science Citation Index, et Arts & Humanities Citation Index

20 %

Taille de l'institution Performance académique au regard de la taille de l'institution

10 %

18

(2) Le deuxième problème a déjà été évoqué et sera développé plus en détail dans la troisième

section : c’est celui soulevé par la catégorisation. Pour objectiver le concept de

« chômage », étudier son évolution et établir des comparaisons (internationales

notamment), les statisticiens disposent d’un indicateur élémentaire car nourri d’une seule

variable : le taux de chômage. Celui-ci consiste à établir simplement la proportion de

chômeurs dans la population active. Mais pour mesurer le nombre de chômeurs, il faut

alors définir précisément qui est chômeur et qui ne l’est pas, autrement dit inscrire les

individus dans des « cases » aux frontières rigides, alors même que la réalité du rapport au

travail est constituée d’une infinie diversité de situations. Cette opération de conversion

des informations dans des modalités prédéfinies constitue une opération de codage.

Intellectuellement, elle repose sur un double principe d’anonymisation (les cas « réels »

sont inscrits dans les cases, généralement symbolisés par des chiffres ou des lettres pour

permettre le traitement statistique : 0/1/2/3) et de mie en équivalence (par

convention, on considère que les individus regroupés dans une même catégorie sont

interchangeables).

§3. Définir pour mesurer, mesurer pour définir

Les exemples de « l’excellence » universitaire ou du « chômage » montrent que la

conversion d’un concept en indicateur statistique repose en premier lieu sur une étape de

définition du concept. L’enjeu n’est évidemment pas de produire la définition la plus sophistiquée

possible mais de déterminer les caractéristiques ou les dimensions du concept les plus pertinentes

pour la recherche. Il s’agit donc d’identifier les traits qui se prêteront le mieux à l’observation, à

l’expérimentation ou à la mesure scientifique.

Prenons l’exemple d’une recherche d’Olivier Fillieule dont certains aspects

méthodologiques sont restitués dans l’article « Archives policières, sources de presse et

manifestations de rue » (cf. livret de TD). Ses travaux s’inscrivent dans les domaines de la

sociologie de l’action collective et de la sociologie des mouvements sociaux, c’est-à-dire qu’il

s’intéresse aux formes de protestation collective dans l’espace public. Plus précisément, il cherche

à répondre aux intrigues suivantes : quelles sont les principales évolutions des modes d’action

collective en France depuis plusieurs décennies ? Quels sont les groupes qui ont le plus

fréquemment recours à l’expression publique de leurs revendications ? La France se singularise-t-

elle à l’égard des autres pays ? Y a-t-il des spécificités territoriales dans le pays ? Etc. Répondre à

ces question suppose de disposer de données chiffrées qui permettront une objectivation

statistique du phénomène. Pour désigner son objet de recherche, il ne reprend pas les termes plus

19

classiques de « contestation » ou de « manifestation » : « contestation » est trop flou,

« manifestation » trop restrictif. Il privilégie le terme d’« événements protestataires ».

Mais pour identifier et recenser ces « événements protestataires », il lui faut définir ce

concept et notamment trouver les critères qui lui permettront de dire si tel événement doit être

retenu dans l’analyse ou pas. Car, dès lors que le chercheur ambitionne d’utiliser l’outil statistique

pour étayer sa démonstration, il est contraint d’établir précisément les frontières de son objet.

- Critère 1 = plus d’une personne

- Critère 2 = présence dans l’espace public (pas une conspiration, pas une réunion, etc.) donc

critère d’expressivité

- Critère 3 = nature politique de l’action (avoir des revendications : pas fête de village)

- Critère 4 = pas une manifestation organisée par les autorités politiques (caractère protestataire)

- Critère 5 = ne pas se limiter aux seules manifestations : inclure sit in, les rassemblements, les

barrages routiers, les occupations d’administration, etc.

Le cumul de ces cinq critères lui permet ensuite de proposer la définition suivante : « Tout

événement consistant en l’occupation momentanée par un acteur non gouvernemental d’un lieu

ouvert public ou privé, et qui comporte directement ou indirectement l’expression d’opinions

politiques. » C’est à partir de cette définition que Olivier Fillieule va ensuite pouvoir se plonger

dans ses « sources » (archives de presse et archives policières notamment) pour d’abord recenser

les événements protestataires et ensuite les analyser au regard de ses questions de recherche

(nombre de participants, modalités d’action, intervention ou non des forces de l’ordre, présence

ou non d’un service d’ordre, nature des revendications, identité des groupes mobilisés, etc.)

Cette étape de la définition peut être aussi qualifiée d’étape de « construction de

l’objet ». Elle est indispensable car c’est elle qui sert de chaînon entre la partie théorique et la

partie empirique du travail de recherche.

- D’abord, c’est à partir de la définition que vous allez pouvoir déterminer la méthode

d’investigation (travail sur archives, production de questionnaire, utilisation des données

statistiques ou des sondages existants, etc.) et la nature de votre terrain d’enquête (quelles

archives ? à quelle population adresser le questionnaire ? etc.). Par exemple, selon votre

définition de la délinquance et / ou de la criminalité, les méthodes d’identification des actes

délictueux ou criminels et de leurs auteurs peuvent considérablement changer. D’un côté, si

vous concevez les actes délinquants ou criminels comme l’ensemble des actes définis comme

des « délits » ou des « crimes » par la loi et découverts par les services de police, vous allez être

amenés à principalement étudier les statistiques policières, avec le risque de davantage mesurer

20

l’activité policières et les priorités politiques assignées à la police que la « réalité » des pratiques

délictueuses ou criminelles. Il est ainsi probable que vous ayez le sentiment d’une soudaine

augmentation de la « délinquance routière », alors que l’augmentation des délits recensés renvoie

seulement à un accroissement des effectifs policiers affectés au contrôle des routes. De la même

manière, vous risquez d’avoir le sentiment que les délinquants ou les criminels appartiennent

surtout aux catégories sociales dominées, si la police tend à se désintéresser de la « délinquance

en col blanc » ! D’un autre côté, si vous adoptez une conception plus extensive, à savoir « tous

les actes définis comme des “délits” ou des “crimes” par la loi », il vous faudra imaginer d’autres

méthodes d’investigation et notamment s’efforcer de croiser différents terrains (cumuler

examen des statistiques policières, enquêtes de victimation, enquêtes de voisinage, etc.). On le

voit, il serait naïf de croire que la définition précède l’interrogation sur le terrain d’enquête : bien

souvent, la définition est élaborée en ayant en tête le terrain d’enquête.

- Ensuite, l’étape de construction / définition de l’objet est déterminante car elle participe du

travail de problématisation. En effet, la définition du concept reflète le cadre théorique, c’est-à-

dire le point de vue adopté sur l’objet. La définition ne soulève donc pas seulement des

problèmes « techniques ». Elle contient une dimension idéologique indéniable : il faut en avoir

conscience pour ne pas la subir ! Reprenons l’exemple de la « stratification sociale », en

s’appuyant sur le texte de Louis Chauvel (« La dynamique de la stratification sociale »). D’un

côté, la stratification pourrait être définie à partir du critère de la richesse, ce qui se justifierait

par la centralité des aspects financiers dans la vie collective (pour le dire vite, l’argent permet

d’accéder aux biens « rares » et convoités ; de maintenir une position dominante via l’accès à

l’éducation privée et la sécurisation contre les aléas professionnels ; d’obtenir la reconnaissance

des autres). De cette définition, découle un indicateur qui cumule deux variables (revenus et

patrimoine) et qui permet de construire une échelle (mesure par décile ou centile). D’un autre

côté, la stratification sociale pourrait se définir à partir de la position des individus dans le

monde du travail, via la variable « groupe socioprofessionnel ». Cette définition tient compte du

fait que la position sociale ne constitue pas seulement un problème de revenu mais aussi un

problème de statut et de prestige que garantit principalement l’intégration dans le monde du

travail.

Or, derrière ce débat apparemment technique, se niche en réalité deux visions distinctes de la

société. D’une part, une vision « continue » pour qui les inégalités s’évaluent en termes de

quantités de ressources (principalement financières) : il est alors difficile d’identifier précisément

d’éventuels clivages entre différents groupes (sauf si l’on observait une très forte polarisation de

la distribution des richesses). D’autre part, une vision « discontinue » pour qui les inégalités

21

renvoient davantage à des logiques de domination, mettant en opposition des groupes sociaux

relativement hermétiques les uns aux autres. Les individus ne se différencient donc pas seulement

en termes de gradation mais plutôt en termes d’appartenance durable à des catégories

potentiellement en situation de conflits (jusqu’au modèle de la lutte des classes).

Pour conclure, il faut rappeler que les choix méthodologiques constituent aussi des choix

théoriques (même s’ils échappent parfois à leur auteur). Les résultats et, par conséquent, les

phénomènes sociaux mis à jour dépendent toujours en partie de l’instrument de mesure. Selon les

méthodes choisies, on n’objective pas exactement la même chose. Il importe donc de ne jamais

chercher à « mesurer » un phénomène sans l’avoir défini et identifié les implications théoriques

d’une telle définition.

Section 3. La catégorisation et les dangers de l’objectivisme

§1. Variables quantitatives et variables qualitatives

Qu’il s’agisse de décrire une population ou de rechercher d’éventuelles corrélations entre

variables, le travail statistique consiste à étudier un grand nombre de cas, à partir d’informations

standardisées par des procédures de codages. Qu’il s’agisse de personnes, de ménages, de

groupes, d’entreprises, de pays, d’événements protestataires, etc., chaque cas est qualifié d’« unité

statistique » ou d’« individu ». L’ensemble des « unités statistiques » sur lesquels porte l’enquête

forment la population. Chaque individu est donc soumis aux mêmes questions, chacune des

questions correspondant à une variable. Le recueil des informations permet alors de remplir le

tableau suivant : celui-ci indique, pour chaque individu, les « formes » de chacune des variables de

l’enquête.

Variable 1 = sexe ? Variable 2 = âge ? Variable 3 = statut

d’activité ? Variable 4 =

revenus ? Individu 1 H 35 Salarié privé 2500 Individu 2 F 56 Chômeur 800 Individu 3 H 32 Salarié privé 1200 Individu 4 H 18 Étudiant 300 Individu 5 F 78 Retraité 1100 Individu 6 H 23 Salarié public 1700 Individu 7 F 29 Femme au foyer 0 Individu 8 F 54 Salarié public 2250 Individu 9 H 49 Indépendant 3600

Or il existe deux types de variables :

22

- D’abord, les variables quantitatives sont des « variables qui s’expriment sous la forme d’une

valeur métrique » (Philippe Alonzo), autrement dit la variable s’exprime sous une forme

numérique, le nombre constituant la valeur de la variable (valeur rapportée à une unité de

mesure). L’âge, le revenu, le taux de chômage, le produit intérieur brut, l’indice des prix ou encore

le nombre d’enfants sont des variables quantitatives.

- Ensuite, les variables qualitatives sont des « variables dont les différentes formes sont des

attributs ou des catégories » (Philippe Alonzo), autrement dit des « qualités ». Les différentes

formes d’une variable qualitatives constituent les modalités de la variable. Par exemple, la

variable « sexe » comprend deux modalités : homme ou femme. La variable « statut d’activité »

comprend ici sept modalités : salarié du privé, salarié du public, indépendant, chômeur, retraité,

étudiant / lycéen, femme au foyer. Il existe plus précisément deux types de variables qualitatives :

* les variables ordinales sont des variables dans laquelle les modalités

peuvent être hiérarchisées sur une échelle. C’est le cas, par exemple, des

variables qui correspondent aux questions d’opinion où les interviewés sont

invités à juger une personnalité à partir d’une échelle où les quatre modalités

sont hiérarchisées de « tout à fait favorable » à « pas du tout favorable ». De la

même manière, les notes à un examen peuvent être retenues en tant que

variables ordinales (dans la mesure où ces nombres pourraient être remplacés

par des lettres).

* les variables nominales sont des variables qui ne fait que « nommer les

individus qu’elle décrit. Qu’il s’agisse du « sexe », du « groupe

socioprofessionnel », de la « région de l’interviewé », l’ordre des modalités

importe peu. Cela n’empêche pas qu’il est possible, pour l’analyse, d’opérer des

regroupements et ainsi modifier les modalités de la variable (par exemple,

regrouper « ouvriers » et « employés » pour obtenir la modalité « catégories

populaires »).

Tandis que les variables quantitatives posent le problème de la qualité de la mesure (et de

la pertinence de l’instrument de mesure), les variables qualitatives soulèvent, quant à elles, deux

difficultés : la pertinence des catégories utilisées (ont-elles un sens ? correspondent-elles à des

catégories existant dans la réalité ?) et l’arbitraire du classement (par exemple, dans une étude de

science politique opérant une comparaison de différents Etats, où placer la frontière entre

« démocratique » et « non démocratique » ? De même, dans une enquête sur le logement en

France, quels critères permettent d’attribuer à un appartement la qualité de « bonne » ou

« mauvaise » qualité ?).

23

§2. Catégories instituées et catégories spontanées

La catégorisation constitue donc une opération indispensable mais problématique. En

effet, quelles catégories le sociologue peut-il utiliser pour décrire sa population ? En labellisant et

en classant les individus, le chercheur ne prend-il pas le risque d’opérer des regroupements

abusifs ? Ne risque-t-il pas de créer, d’homogénéiser et d’opposer des groupes fictifs ? Bref, n’y a-

t-il pas un danger d’entretenir certains stéréotypes et ainsi de mettre à mal l’ambition de « rupture

épistémologique » qu’évoquent Gaston Bachelard (1884-1962) et Émile Durkheim ? Cet obstacle

est plus ou moins prononcé selon le type de variables qui intéressent le chercheur.

1. Catégories instituées. François Héran rappelle en effet qu’il existe un premier

ensemble de catégories : les « variables d’Etat » qui sont des « variables établies », « tributaires de

l’état civil ou certifiées sur l’ensemble du territoire national ». Par exemple, personne en France ne

remettrait en cause la validité de la césure opposant une personne mariée et une personne

célibataire : cette opposition repose en effet sur une institution codifiée par l’Etat, valable sur

l’ensemble du territoire national : le mariage. Dès lors que le maire signe le document et déclare

« vous êtes mari et femme », les individus changent soudainement de statuts et deviennent,

objectivement, aux yeux de tous, maris et femmes. Toutes les catégories déterminées dans le

droit sont « objectivées juridiquement » ou « instituées » : leur délimitation repose sur des

critères juridiques, déterminés par la puissance publique souveraine, qui rendent les catégories

« objectives », c’est-à-dire ici socialement incontestables. Comme le rappelle Héran, « tout l’effort

du droit revient à fixer des seuils dans le continuum social », à produire des coupures

« arbitraires ».

L’institution du diplôme constitue aussi un bon exemple : appartenir à la catégorie des

« diplômés du supérieur », c’est détenir un diplôme dont la valeur est fixée par l’Etat. En France,

personne ne remettrait en cause votre appartenance à cette catégorie, tandis que, dans d’autres

contextes géographiques ou historiques, il peut y avoir une opposition quant à la valeur de ce

bout de papier qualifié « diplôme ». De la même manière, les variables d’indications

géographiques sont elles aussi « objectivées » juridiquement et ne suscitent aucune contestation :

vous appartenez à des villes, des départements et des régions dont l’existence et le découpage ne

suscitent aucune remise en question (ce qui n’est pas le cas, par exemple, lorsqu’il y a un conflit

entre deux Etats pour savoir à qui appartient un territoire et quel nom lui donner). On pourrait

multiplier les exemples : la nationalité (c’est l’État qui détermine qui est Français et qui ne l’est

pas, l’appartenance à cette catégorie étant par ailleurs « objectivée » par la Carte d’identité), le

24

statut d’adulte (c’est l’État qui fixe la frontière entre une personne mineure et une personne

majeure, la validité du passage d’une catégorie à l’autre étant assurée par l’acte de naissance, lui-

même établi par les agents de l’État), etc. Enfin, le statut socioprofessionnel d’un individu

s’inscrit dans des catégories objectivées par des conventions collectives (ouvriers, techniciens,

cadres, etc.) dont la légalité est déterminée par la certification étatique : à ces « titres » de poste

dans les entreprises correspond des différences de statuts, de salaires, etc. qui, elles, peuvent être

davantage remises en cause, puisque l’universalité de ces catégories sur le territoire national est

moins « établie » que pour les variables d’état civil précédemment citées. Pour conclure, on peut

donc admettre avec Héran qu’« Un phénomène social se laisse d’autant mieux objectiver [et

mesurer statistiquement] qu’il l’est déjà dans le monde social ».

2. Catégories « fluides ». Mais d’autres formes de classement ne bénéficient pas du

même degré d’institutionnalisation : toutes les catégories ne sont pas autant « objectivées » dans le

monde social. La plupart de celles que nous mobilisons au quotidien reposent ainsi sur des

représentations spontanées, des impressions, des critères informels… En effet, chaque jour, nous

utilisons des principes de catégorisation pour distinguer les personnes « grandes » des « petites »,

les « belles » des « moches », les « douées » des « maladroites », les « jeunes » des « vieux », les

« sévères » des « indulgentes », les « intolérantes » des « tolérantes », etc. Or, pour chacune de ces

échelles de classement, il paraît difficile d’identifier des critères objectifs pour distinguer les

individus et définir ces catégories.

S’il est possible de mesurer une personne (la taille constitue une variable quantitative dont

la valeur s’exprime en cm), est-il aussi évident de caractériser cette taille à partir d’une variable

qualitative ? Quel critère permettrait de différencier objectivement et universellement une personne

« grande » d’une personne « moyenne » ? Dans Les Ficelles du métier, Howard Becker souligne bien

les difficultés d’établir un tel constat, alors même « la taille [est] la donnée la plus concrète que

l’on [peut] espérer jamais pouvoir connaître au sujet de quiconque. » Il faut alors garder en tête

que chaque catégorie n’a de signification que « relationnellement » : on n’est grand que par

rapport à une moyenne, que par rapport à des personnes plus petites. Une même personne peut être

définie comme « grande » par son entourage mais « petite » par ses partenaires de basket. La taille

moyenne varie selon les époques et selon les milieux sociaux, bref selon les contextes.

Cette « ficelle » peut ainsi être généralisée à l’ensemble des qualités utilisées pour

cataloguer les individus : pour être pertinentes, elles doivent être (1) rapportées au contexte

spatial et historique dans lequel s’inscrivent les individus (on est jugé « grand » dans un

contexte donné) et (2) replacées dans un système de relations (on est jugé « grand » par

25

rapport à des personnes plus petites). Pour prendre un autre exemple, être « pauvre » en France

en 2010, ce n’est évidemment pas la même chose qu’être pauvre en Inde en 2010 ou qu’être

pauvre en France en 1810. En valeur absolue, les « pauvres » en France aujourd’hui peuvent

accéder à davantage de biens (alimentaires, vestimentaires, etc.) que les « pauvres » d’autres

contextes sociohistoriques. Pour autant, il paraîtrait incongru de refuser de qualifier de

« pauvres » les ménages qui vivent sous le « seuil de pauvreté » : il est de toute façon des individus

« plus pauvres » que d’autres et des individus appartenant aux 10 %, 20 % ou 50 % « les plus

pauvres ». Il faut donc admettre le caractère « relatif » de la pauvreté : celle-ci ne s’évalue que dans

le cadre d’une société donnée, au regard de la richesse médiane (le seuil de pauvreté est fixé à 50

% des revenus médians), et non en termes absolus (par exemple, au regard de la capacité à

acquérir tels biens ou tels services). Autre exemple soulignant l’idée que les catégories n’ont de

significations que dans un contexte donné. Par exemple, l’adolescence n’a de sens que dans

une société marquée par l’élévation générale du niveau scolaire (et donc le recul de l’entrée dans la

vie active et dans la vie matrimoniale). De la même manière, la notion de chômeur n’a de sens

que dans une société dominée par le salariat. Enfin, en sociologie politique, les notions de

« gauche » et de « droite » ne renvoient pas exactement aux mêmes réalités selon les pays et selon

les époques. Mieux : dans un même pays, à une même époque, les frontières entre la « gauche » et

la « droite » ne sont pas équivalentes dans la tête de tous les individus. Pour certains militants

d’extrême gauche, le Parti socialiste est envisagé comme un parti de « droite » depuis que son

programme n’entend plus remettre en cause les fondements de l’économie de marché.

Il apparaît donc délicat d’entreprendre des comparaisons dans le temps ou dans

l’espace, en faisant comme si un même mot désignait la même réalité partout. Il serait, par

exemple, naïf d’étudier la situation des pays selon le nom des partis qui les dirigent : si le Sénégal

dispose, comme en France, de partis qui se revendiquent « socialistes » ou « libéraux », ces

formations reposent sur un socle idéologique bien différent de celui établi en France. Il serait

également tout aussi naïf de vouloir étudier la population des « délinquants » comme s’il s’agissait

d’une catégorie objective et identique dans le temps : en effet, le statut de « délinquant » dépend

des qualifications juridiques en vigueur à un moment donné. Or, du jour au lendemain, un acte

autorisé peut devenir un délit (et vice versa) : siffler l’hymne national peut suffire aujourd’hui à

vous faire devenir un délinquant. Analyser la catégorie dans le temps renvoie donc autant aux

évolutions de la loi qu’aux évolutions sociologiques de ceux qui la transgressent.

26

§3. La catégorisation comme enjeu des luttes symboliques

On vient de le voir, il est délicat d’inscrire un individu dans une catégorie donnée du fait

de son caractère relatif et de l’absence de consensus quant à la pertinence d’une telle désignation.

Pour reprendre les exemples déjà donnés, où placer la frontière entre « Etats démocratiques » et

« Etats non démocratiques » ? Comment distinguer les « jeunes » des autres ? Y a-t-il des critères

permettant de différencier objectivement les personnes « de gauche » et celles de « droite » ? Mais

cette difficulté tient aussi et surtout au fait que peu de catégories sont dénotées et n’impliquent

aucun jugement de valeurs. Pour le dire autrement, la plupart des labels utilisées pour classer

les individus sont socialement connotés, soit positivement, soit négativement. Bref, les

mots sont rarement neutres !

C’est ce que montre très bien le sociologue américain Everett Hughes (1897-1983) au

sujet des noms de métier (« Le travail et le soi », 1951). Il rappelle en effet que ces noms

fonctionnent comme des « étiquettes » (au double sens d’étiquettes de prix et de cartes de visite).

Ils servent donc à indiquer la « valeur » et le « statut » d’une personne, bref une identité qui peut

être plus ou moins valorisante. Puisque le métier d’un homme constitue aujourd’hui l’une des

« composantes les plus importantes de son identité sociale, de son moi et de son destin », Hughes

souligne les stratégies mises en œuvre par certains métiers pour bénéficier de la désignation la

plus favorable et ainsi être positivement reconnus. Quelques exemples récents permettent de se

rendre compte de ces jeux autour des désignations : « techniciens de surface » et non « homme de

ménage », « hôtesse d’accueil » et non « standardiste », « agriculteur » et non « paysan » (mais la

Confédération paysanne s’est justement battue pour opérer le mouvement inverse), « demandeur

d’emploi » et non « chômeur », etc. De la même manière, les universitaires peuvent

stratégiquement modifier l’intitulé de leur métier selon leur public : « enseignant », « chercheur »,

« enseignant-chercheur », etc.

Mais les acteurs sociaux ne s’efforcent pas seulement de modifier les noms ou les

connotations qui y sont associées : ils luttent aussi pour déplacer les frontières des groupes,

modifier les découpages, bref faire bouger les nomenclatures. Hughes évoque en effet aussi les

efforts menés par les infirmières américaines pour se rapprocher symboliquement du corps

médical et s’éloigner inversement des aides-soignantes : leur enjeu est de modifier les

représentations qui différencient médecins et autres personnels d’hôpitaux. Les classements

sociaux sont en permanence l’objet de luttes symboliques dont l’enjeu est d’imposer des

visions du monde. Longtemps sociologues à l’INSEE, Alain Desrosières et Laurent Thévenot

(Les Catégories socioprofessionnelles) ont bien montré comment l’élaboration des nomenclatures

socioprofessionnelles met aux prises de très nombreux groupes d’intérêt, chacun cherchant à

27

orienter le classement dans un sens favorable. Ainsi, la catégorie « cadres » ne constitue

aucunement une catégorie naturelle et évidente : pour preuve, il est bien délicat d’identifier une

catégorie équivalente dans les autres pays occidentaux (aux Etats-Unis, par exemple, les « cadres »

sont souvent divisés en « managers » et « professionnels »). Au contraire, c’est une construction

historique à laquelle Luc Boltanski a consacré un passionnant ouvrage (Les Cadres). Il ne s’agit ni

d’un groupe homogène, ni d’une pure fiction : mais bien du produit d’un travail de mobilisation,

d’identification, d’institutionnalisation, bref de représentation, mené dans un contexte singulier (à

partir des années 1930) par des groupes d’individus désireux d’imposer sur la scène politique des

valeurs et des intérêts singuliers : défendre l’identité des « cadres », c’est défendre une vision

« moderne » de la société qui vise au dépassement de la lutte des classes. Les porte-parole des

« cadres » vont se définir comme les représentants d’une nouvelle élite dont la position se justifie

non plus au nom de la détention du capital mais au nom d’une compétence technique et

managériale.

C’est ici que le terme de représentation est précieux : puisqu’il désigne à la fois les

« images mentales » (qui témoignent du caractère plus ou moins évident de l’existence d’un

groupe) et les mécanismes de « délégation » (ce sont souvent les porte-parole qui font exister un

groupe puisqu’ils le font parler, le structurent via des mouvements supposés représentatifs, lui

donnent une image, expriment des revendications… bref, ils le personnifient, notamment dans le

cadre de conflits sociaux). On pourrait prendre l’exemple des efforts visant à promouvoir

l’existence d’une « classe moyenne » et à en dessiner de larges contours : la plupart des partis de

gouvernement (PS / UMP) se désignent comme représentants des « classes moyennes », ce qui

leur offre l’avantage d’élargir leur base électorale supposée.

Il s’agit là souvent d’un acte performatif, « acte de magie sociale » dit Pierre Bourdieu

(« La force de la représentation », in Ce que parler veut dire, p. 140) qui contribue donc au sentiment

d’existence objective et éternelle du groupe. C’est ce qu’à bien montré l’historien britannique

Edward Thompson (1924-93) au sujet de La Formation de la classe ouvrière anglaise (1963). La « classe

ouvrière » qui émerge aux XIXe rassemble, certes, des individus qui se ressemblent, partageant la

même condition objective de prolétaire, soumis aux cadences infernales des usines et à la misère.

Mais pour exister et s’imposer dans les représentations comme un groupe à part entière et distinct

des autres, la classe ouvrière ne devait pas seulement posséder les traits d’une « classe en soi »

mais devenir une « classe pour soi », c’est-à-dire consciente de son existence et organisée dans

une lutte commune. Pour cela, il a fallu qu’un certain nombre d’intellectuels, ouvriers, hommes

politiques, mènent un véritable travail de représentation pour parler au nom de la classe ouvrière

et faire accepter qu’ils parlaient au nom de groupes souvent isolés les uns des autres. Thompson

28

rappelle cette distinction déjà établie par Marx. Mais il va plus loin en montrant que cette notion

de « classe ouvrière » n’a pu émerger que dans un jeu d’opposition et de différenciation avec

d’autres groupes sociaux. La classe ouvrière n’existe donc pas en soi : elle n’existe qu’au sein d’un

système économique particulier (dominé par le capitalisme industriel) et en rapport avec d’autres

classes ou groupes (patrons, cadres, techniciens et contremaîtres, etc.).

Mais au-delà des seules catégories socioprofessionnelles, c’est l’ensemble des

catégories identitaires dont il faut dénaturaliser l’apparente existence « objective » (au

sens de naturelle et d’éternelle). Aucune catégorisation n’est totalement naturelle : même la

division a priori évidente entre « hommes » et « femmes » peut poser problème. D’abord,

comment classer les transsexuels, travestis, trisomiques XXY et autres queers qui refusent une telle

assignation. Ensuite, sexe biologique et genre social ne se recouvrent pas automatiquement : dans

de nombreuses sociétés, il peut y avoir une déconnexion entre ces formes d’appartenance. Par

exemple, la sexualité dans la Rome antique n’est pas tant fondée sur la division entre « hommes »

et « femmes » qu’entre « pénétrants » et « pénétrés », autrement dit entre « dominants » et

« dominés » socialement (Géraldine Puccini-Delbey, in La Vie sexuelle à Rome, 2007). Si même le

sexe suscite l’interrogation, cela montre bien qu’aucune catégorie ne va de soi et ne correspond à

un groupe clos, homogène et distinct des autres. Il faut donc admettre que toutes les catégories

sont le produit d’une construction sociale et historique : elles sont construites par un travail

de définition juridique par les institutions, d’imposition performative par certaines autorités

désireuses de mobiliser en désignant les alliés et les ennemis, le « nous » et le « eux ». Elles sont

construites dans la tête des gens : c’est l’importance de la croyance (subjective) dans l’objectivité

d’un groupe qui lui confère cette objectivité !

Il faut donc se méfier des lectures essentialistes des catégories et des identités. Ces

lectures entretiennent en effet la croyance en l’existence de groupes qui seraient immuables,

homogènes et éternels (des « essences » dans le langage philosophique). Dans une perspective

essentialiste, les individus appartiennent pour toujours à une catégorie donnée, du fait de ses

gênes, de sa « culture » de naissance, de son état civil, bref de critères supposément « objectifs » et

qui caractériseraient une fois pour toute une personne (et le distingueraient des autres). A

l’inverse, les sociologues des identités (tels Claude Dubar, dans La Crise des identités ou Jean-

François Bayart dans L’Illusion identitaire) revendiquent une position nominaliste : ce qui existe,

ce sont des noms de catégories, des labels qui servent à désigner ou à identifier. Mais il n’y a pas

d’essence éternelle. Tout est soumis au changement : l’identité d’une personne dépend de

l’époque considérée et du point de vue adopté. Les catégories utilisées dépendent du système de

mots en usage dans un contexte donné. Ces modes d’identification sont historiquement et

29

géographiquement variables parce qu’elles sont historiquement et géographiquement

construites et objectivées par certaines institutions et certains acteurs politiques. Il n’y a pas de

différences infranchissables et éternelles entre individus, même si certains peuvent en avoir

l’intime conviction ! Il y a en revanche des sentiments d’appartenance à certaines catégories (et

d’assignation des Autres dans d’autres catégories).

Or, d’une part, ces sentiments sont historiquement changeants. Par exemple, les

nations ont une histoire : elles n’existent pas depuis toujours. Elles forment des « communautés

imaginées », selon la formule de Benedict Anderson, qui ont émergé à l’époque moderne sous

l’effet notamment du développement des technologies de communication et des efforts de

centralisation des Etats. D’autre part, ces sentiments sont généralement pluriels mais ils sont

plus ou moins intenses (et donc significatifs) selon les contextes. En effet, les individus disposent

tous d’une diversité d’identités, au sens ici d’identifications par soi-même (appartenance) et par

les autres (attribution, reconnaissance). Mais ces identités ne servent véritablement à

caractériser une personne que lorsque celle-ci entre en interaction avec les autres. On se

sent homme au contact avec une femme, on se sent « jeune » au contact des personnes plus

âgées, on se sent « riche » au contact avec des personnes moins fortunées, on se sent Français au

contact avec des étrangers, on se sent « rural » au contact avec des urbains. Autrement dit, c’est

aux frontières que se construisent les sentiments d’appartenance identitaire et que se forgent les

outils de désignation et de classement des individus. C’est donc en situation que les identités

s’avèrent plus ou moins mobilisables : on ne peut enfermer un individu une fois pour toutes dans

une catégorie dont les attributs seraient figés, comme si celle-ci suffisait à caractériser son identité

et sa personnalité. Une telle perspective, « fixiste », constitue l’écueil principal des pensées

culturalistes et, pour certaines, xénophobes ou racistes.

Le maniement des catégories constitue donc l’une des principales difficultés des sciences

sociales puisque ces sciences ont pour objectif de décrire un monde social déjà en permanence

ordonné et catégorisé par les termes des institutions et les agents sociaux. Les sciences sociales

se trouvent donc confrontées à un objet déjà fortement balisé par le « langage ordinaire ».

Il est souvent difficile de se rappeler que les notions apparemment les plus évidentes et les plus

ordinaires sont le produit, banalisé, d’une intense activité de construction symbolique du monde

social. Il est souvent difficile de résister à la tentation d’utiliser sociologiquement la notion de

« jeunes » et de se souvenir qu’elle désigne une population extrêmement hétérogène sur le plan

des conditions d’existence. Ces obstacles, on l’a vu, sont plus particulièrement délicats dans le

cadre des méthodes quantitatives puisque celles-ci ont pour principe d’inscrire les unités

30

statistiques dans des modalités prédéfinies et strictement délimitées. Puisqu’on ne peut pas se

passer des catégories, il faut être vigilant sur leur construction et leur utilisation. Il faut

notamment fuir toute perspective objectiviste. Celle-ci consiste à déterminer de l’extérieur, à

partir des instruments d’observation du monde social, quelques traits unifiant a priori

« objectivement » un groupe : le lieu de résidence géographique, les catégories objectivées par

l’état civil, l’âge mais aussi le nom de famille (utilisé frauduleusement en guise de détermination

de l’origine ethnique puisque cette variable ne peut figurer dans les enquêtes de recensement),

l’apparence physique (cf. critères d’identification des personnes par la criminologie, discipline qui

émerge au XIXe siècle).

Le danger d’une telle perspective, c’est l’arbitraire du classement, c’est-à-dire l’utilisation

de critères qui n’ont aucune signification sociologique dans la mesure où ils segmentent des

groupes qui, socialement, ne font sens pour personne. Ce caractère arbitraire s’observe dans la

construction des classes d’âge : après tout, pourquoi réunir dans un même groupe les 18-24 ans et

décider qu’à 24 ans, l’ensemble des individus changeraient de catégories ? De même, quel sens y

a-t-il de s’appuyer sur la catégorie « immigré » (au sens de né étranger à l’étranger) sachant qu’un

tel ensemble regroupe des populations issues de pays aux situations extrêmement contrastées et

dotées de statuts légaux très variables (quoi de commun en effet, en terme de parcours de vie,

entre un « immigré » belge et un « immigré » issu d’Afrique subsaharienne) ?

Dans ses versions les plus rigides, une telle démarche peut être qualifiée

d’« objectivisme », dans la mesure elle considère comme « objectives » (c’est-à-dire ici stables,

évidentes, naturelles, éternelles, etc.) des frontières qui, dans la réalité, sont socialement

construites, changeantes et enjeux de débats. Les écueils de l’« objectivisme » renvoient

notamment aux prétentions positivistes de nombreux savants du XIXe siècle qui prétendaient

étudier les phénomènes sociaux à partir des outils et des modes de raisonnement issus des

sciences naturelles. L’« objectivisme » s’observe en particulier dans les efforts mis en œuvre pour

classer les langues, les races, les peuples, les croyances, etc. à partir de critères d’observation

supposément objectifs et universels mais avant tout fondés sur des impressions mal maîtrisées.

De même que l’impression tend à montrer que le soleil tourne autour de la terre, de même que

les impressions premières donnent à voir des « races » aux frontières intangibles ! À chaque

groupe mis en évidence est alors rattaché un certain nombre de traits présentés comme naturels

et universels. Pour ne prendre qu’un exemple, voici quelques extraits d’un ouvrage fondateur de

la criminologie, Le Crime politique et les révolutions par Cesare Lombroso : « Parmi les facteurs

anthropologiques des crimes politiques, le premier qui se présente à nous est la race ; cela ressort

avec évidence de la comparaison de l’esprit révolutionnaire très accentué dans certains pays, avec

31

l’apathie absolue que l’on rencontre en d’autres, même à égales conditions de climat et

d’organisation sociale. Nous en aurions une preuve (…) dans les caractères spéciaux qui

distinguent, en France, les populations selon la prédominance du type brachycéphale ou du type

dolichocéphale : le premier est frugal, laborieux, prudent, attaché aux traditions et aimant

l’uniformité ; le second a de grands besoins et travaille pour les satisfaire ; (…). Ainsi, sur 89

grands novateurs et révolutionnaires, (…) vingt brachycéphales (Pascal, Mirabeau, Marat,

Desmoulins), contre 69 dolichocéphales (Racine, Voltaire, Lavoisier, Diderot, Rousseau, […]). »

Ces perspectives prêteraient à sourire si elles n’avaient pas servi de légitimation

scientifique aux entreprises racistes et, parfois, génocidaires. Ainsi, au Rwanda, avant le génocide

de 1994, l’État imposait sur la carte d’identité les mentions « Tutsis » ou « Hutus » comme s’il

s’agissait de populations racialement ou ethniquement ou culturellement distinctes. Or, au-delà

même de la question des mariages mixtes qui rendent les frontières flottantes, ces catégories ne

reposent pas historiquement sur une distinction d’ordre culturelle (Tutsis et Hutus parlent la

même langue et partagent les mêmes religions). Il ne s’agit pas non plus d’une distinction

géographique : les deux groupes sont présents conjointement sur l’ensemble du territoire

rwandais et burundais. Il s’agit encore moins d’une opposition fondée des critères

« biologiques » : malgré certaines théories cherchant à démontrer les origines ethniques

respectives de ces deux peuples, aucun argument solide n’a pu étayer cette hypothèse

sociobiologique. Enfin la distinction n’est pas historiquement liée à la position sociale des

personnes : si le pouvoir politique était dominé par certains Tutsis avant et pendant la période

coloniale, cela ne concernait pas tous les Tutsis (la plupart d’entre eux n’occupaient pas de

positions élevées socialement). À rebours de ces visions cherchant à démontrer le caractère

objectif et éternel de cette division, les historiens ont au contraire montré que celle-ci est

principalement le produit d’une construction politique qui s’est progressivement imposée lors de

la colonisation belge. Il ne s’agit évidemment pas d’une pure invention : ces catégories « Tutsis »

et « Hutus » existaient dans le Rwanda précolonial. Elles reposaient entre autre sur une

opposition entre pasteur semi-nomade (Tutsis) et cultivateurs sédentaires mais elles ne s’y

arrêtaient pas. Ensuite, ces catégories s’avéraient relativement fluides : les familles n’y étaient pas

enfermées une fois pour toutes. Enfin, elles ne constituaient que l’un des critères de

différenciation sociale (au même titre que les lignages ou les appartenances géographiques). Or,

animés d’une approche scientiste des « races » humaines, porteurs d’une vision religieuse qui les

prédisposaient à rechercher les enfants de Cham aux bords du Nil (qui seront identifiés aux

Tutsis) et, surtout, mus par des intérêts politiques, les colons ont considéré la distinction entre

32

Hutus et Tutsis comme une différenciation ethno-raciale « objective » et éternelle qui justifiait que

le pouvoir administratif et les privilèges sociaux soient octroyés à ce peuple appréhendé comme

« supérieur » : le peuple « Tutsis ». La démarcation a donc été durcie non seulement par la

politique coloniale mais également par les revendications indépendantistes des leaders Hutus qui

ont cherché à la fois à s’affranchir de la tutelle belge et à obtenir la démocratisation du pays

(puisque les Hutus étaient majoritaires).

Pour aller plus loin :

- Chrétien Jean-Pierre, Le défi de l'ethnisme : Rwanda et Burundi, 1990-1996, Paris : Karthala, 1997.

- Franche Dominique, Généalogie du génocide rwandais, Paris : Tribord, 2004.

- Vidal Claudine, « Situations ethniques au Rwanda », in Amselle Jean-Louis et M’Bokolo Elikia,

Au cœur de l’ethnie, Paris : La Découverte, 1985.

33

Chapitre 2 – La production statistique

Section 1. Population et échantillons

§1. De la population à l’échantillon

On l’a vu, toute recherche quantitative repose sur l’analyse d’une population composée

d’individus ou d’unités statistiques. Si l’enjeu est de tirer des enseignements généraux sur la

population, il est, la plupart du temps, impossible de réaliser une enquête exhaustive auprès de

l’ensemble des individus d’une population. Deux raisons expliquent cet obstacle : d’abord, une

enquête exhaustive s’avèrerait souvent trop coûteuse (en termes d’argent, de temps, de formation

des enquêteurs, etc.) ; ensuite, le risque d’erreur augmente à mesure que le nombre de cas étudié

augmente. La plupart des recherches quantitatives travaillent donc à partir d’un

échantillon, ce qui suppose de contrôler le choix des individus soumis à l’enquête. Il s’agit

d’enquêtes par sondage, c’est-à-dire des « enquêtes sur une fraction de situations choisies parmi

toutes les situations possibles » (le terme de sondage pouvant également être défini en tant que

« prélèvement d’un échantillon d’une population », Philippe Alonzo). Comme le rappelle Patrick

Lehingue dans Subunda, ce terme vient des sciences naturelles : il fait référence à la « sonde »

sous-marine chargée, à partir d’un point de mesure, de déterminer la profondeur d’une zone

donnée.

Les principes théoriques des méthodes d’échantillonnage viennent des mathématiques

probabilistes. Celles-ci indiquent que, pour connaître les événements qui peuvent survenir dans

une population donnée, il est possible de n’étudier qu’une petite partie de celle-ci, à condition de

respecter des règles rigoureuses de sélection de cette fraction de population. Si cet échantillon est

bien construit, il est possible de généraliser : les informations recueillies auprès de l’échantillon

sont supposées généralisables à l’ensemble de la population. C’est un principe d’induction ou

d’inférence statistique qui commande le passage du particulier (l’échantillon) au général (la

population). Or comment construire un échantillon pertinent ? Cette question sous-entend qu’il

faut faire face à deux obstacles principaux :

- Un obstacle théorique : la représentativité des échantillons. Un échantillon est dit représentatif (1)

quand il possède la même structure que la population de référence ; (2) quand tous les

membres de la population ont la même probabilité de faire partie de l’échantillon (cf. §2 et 3).

- Un obstacle pratique : l’accès aux individus (cf. §4).

34

Il existe donc différentes techniques pour constituer un échantillon qui soit

scientifiquement pertinent. On en retiendra deux.

§2. Les sondages aléatoires

Les échantillons aléatoires sont des échantillons qui s’obtiennent par tirage au sort. Ils

reposent sur le seul hasard pour n’introduire aucun biais. D’un côté, les sondages aléatoires sont

les plus pertinents d’un point de vue méthodologique. De l’autre, il s’agit des enquêtes les plus

délicates à réaliser. Pourquoi ?

- Pour pouvoir tirer au sort, il faut d’abord disposer d’une liste exhaustive de la

population (c’est-à-dire une « base de sondage »). Seul l’INSEE possède un fichier de l’ensemble

des résidents en France grâce au recensement de la population. Mais il n’est pas tenu à jour entre

deux recensements (qui désormais s’opèrent par « tranches » géographiques). Du fait des

nécessaires contraintes juridiques de protection des données individuelles (Loi « Informatique et

liberté »), l’accessibilité à ces données (et plus généralement à tout fichier recensant une

population) est strictement réglementé. Or il n’existe pas d’autres fichiers exhaustifs des ménages.

Pendant longtemps, l’annuaire téléphonique a pu être considéré comme une « base de sondage »

adéquate pour entreprendre un tirage au sort aléatoire. Mais aujourd’hui, cette perspective est

remise en cause : en 2006, seuls 83 % des foyers sont abonnés à un téléphone fixe (parmi ceux-ci,

14 % ne s’en servent que pour naviguer sur internet et entre 15 % et 20 % figurent sur liste

rouge). Or cette population n’est pas représentative de l’ensemble des personnes résidant en

France. En revanche, pour étudier certaines pratiques électorales, les listes électorales peuvent

servir de « base de sondage », quoiqu’elles ne contiennent pas les coordonnées des personnes.

→ Il s’agit donc d’une méthode judicieuse pour étudier les membres d’un groupe dont l’existence

est instituée (c’est-à-dire objectivée par une institution comme les étudiants d’une école, les

adhérents d’une association, etc.).

- Deuxième difficulté : il est nécessaire de respecter absolument le tirage aléatoire. Si une

personne est tirée au sort, il est impossible statistiquement d’aller voir son voisin. Pourquoi ?

Tout simplement parce que si on n’interrogeait que les personnes présentes, l’échantillon serait

biaisé car constitué avant tout des personnes présentes chez eux à un moment T, ce qui implique

que ces personnes disposent d’un « profil » sociologique particulier. On retrouve la même

problématique avec les refus de répondre : les « sans réponses » ne sont pas distribués

aléatoirement dans la population. Ils correspondent à des catégories sociales particulières dont les

contours varient évidemment selon le type d’enquête : les plus âgés et notamment les femmes

35

âgées, les personnes les moins diplômées, les personnes en situation d’exclusion, etc. La méthode

aléatoire suppose donc de multiplier les relances.

Malgré ces difficultés, cette méthode présente deux avantages majeurs. Le premier

avantage, c’est que cette méthode ne présuppose aucune connaissance préalable de la

structure sociologique de la population. Le deuxième avantage du sondage aléatoire, c’est la

possibilité de mesurer mathématiquement la qualité des résultats, c’est-à-dire la marge

d’erreur. Le résultat est une estimation dont les écarts à la « vraie valeur » peuvent être mesurés à

partir de l’équation suivante :

Estimation – marge < vraie valeur < estimation + marge

Cette équation est vraie avec une avec une probabilité p, c’est-à-dire pour une part p des

échantillons testés. Cette probabilité p, c’est ce qu’on appelle « le niveau de confiance » ou « le

seuil de confiance » : la probabilité que le vrai résultat se situe dans cet intervalle. Généralement,

le niveau de confiance privilégié par les statisticiens est de 95 %. Donc quand certains sondeurs

évoquent une marge d’erreur de 2 %, ils oublient généralement de dire qu’il y a 95 % de chances

que l’estimation soit située à plus ou moins 2 % de la vraie valeur dans la population.

Les sondages aléatoires reposent donc sur un raisonnement probabiliste, théorisé entre

autres par le mathématicien allemand Carl Gauss (1777-1855). Celui-ci montre que la qualité des

résultats ne dépend pas (ou très peu) de la taille de la population, ni de ce qu’on appelle le « taux

de sondage » (rapport entre l’échantillon et la population). Bref, que 10 %, 1% ou 0,1 % de la

population ait été sondée ne change rien (ou presque) au problème. En revanche, ce qui

compte, c’est la taille de l’échantillon ! Pour le comprendre, il suffit de penser au lancer de dés

dont on sait que chaque face a théoriquement 1/6e de chance d’être tiré. Pour que la distribution

obtenue se rapproche de la distribution théorique (16,66 % pour chaque face), il faut multiplier

les lancés et ainsi s’immerger dans la « loi des grands nombres ». La marge d’erreur évolue

également selon la « vraie » distribution : plus on se rapproche d’une proportion de 50 % des

sondés, plus la marge d’erreur est importante.

Pour conclure sur ce point, il faut souligner les sérieuses difficultés méthodologiques

lorsque certains enquêteurs (comme les instituts de sondage) s’autorisent à utiliser des

échantillons numériquement faibles et le justifient par la petitesse de la population. Or, que l’on

interroge 1000 personnes pour représenter la France entière ou pour représenter l’agglomération

de Saint-Quentin-en-Yvelines, la marge d’erreur est (quasiment) la même. De la même manière,

dès qu’un sondage est réalisé auprès de 1000 personnes, l’analyse des résultats au sein des sous-

échantillons (les « cadres », les 18-25 ans, les sympathisants du Front national, etc.) est souvent

36

problématique, du fait de ces faibles effectifs. Cela explique pourquoi, par exemple, les opinions

mesurées de façon barométrique (c’est-à-dire régulièrement) auprès des personnes qui se disent

sympathisants du Front national évoluent souvent de façon erratique.

Tables la loi statistique (extrait d’une table de Gauss – seuil de confiance de 95 %)

Taille de l’échantillon 100 400 800 1000 1600 2000 10 000

% dans l’échantillon

2 % 2,8 1,4 1 0,9 0,7 0,6 0,3

10 % 6 3 2,1 1,9 1,5 1,3 0,6

20 % 8 4 2,8 2,5 2 1,8 0,8

33 % 9,4 4,7 3,3 3 2,4 2,1 0,9

50 % 10 5 3,5 3,2 2,5 2,2 1

§3. Les échantillons empiriques ou par quotas

Les échantillons par quotas sont, quant à eux, des échantillons qui respectent des

critères de composition ou de structure. Ces échantillons ne reposent plus sur le hasard mais

sur une construction raisonnée qui s’appuie sur le principe suivant : si un échantillon est identique

à la population totale en ce qui concerne la distribution statistique d’un certain nombre de

critères, il ne sera pas différent en ce qui concerne la distribution des caractères inconnus que l’on

cherche à connaître. C’est une méthode qui n’a pas de justification théorique : elle ne repose pas

sur une loi mathématique mais seulement sur l’expérience, d’où le terme d’échantillon

« empirique ». Empiriquement, certains enquêteurs se sont rendu compte que cette méthode

« marchait », c’est-à-dire donnait des résultats assez proches de ceux obtenus par un

échantillonnage aléatoire. C’est donc avant tout pour des raisons pratiques que cette méthode est

fréquemment utilisée, notamment par les instituts de sondages français. Elle permet en effet de

contourner les contraintes des échantillons aléatoires. Cependant, elle souffre d’un obstacle

important : il n’existe pas d’outils statistiques permettant de mesurer la « qualité » des

résultats. C’est uniquement par convention que certains instituts français fournissent des marges

d’erreurs : d’un point de vue mathématique, ça ne repose sur rien, sinon sur l’expérience.

En contrepartie, cette technique permet aux enquêteurs de savoir en temps réel quels sont

les critères de recrutement des interviewés. Donc ils peuvent interviewer n’importe qui, pourvu

que ces personnes appartiennent aux catégories dont les quotas n’ont pas encore été

comblés. Cette méthode suppose deux choses. Premièrement, elle implique un fort contrôle des

37

enquêteurs pour s’assurer qu’ils ne trichent pas pour respecter leurs quotas. Deuxièmement, elle

suppose au préalable de connaître la composition sociale de la population, du moins ses

principales caractéristiques, c’est-à-dire les variables considérées comme les plus discriminantes,

les plus prédictives de l’opinion des sondés. Pour la majeure partie des enquêtes par sondages

réalisés auprès d’un échantillon représentatif de la population française (ou de l’une de ses

composantes), les variables les plus fréquemment utilisées sont le sexe, l’âge et le groupe

socioprofessionnel du chef de ménage (souvent arbitrairement considéré comme le mari).

Quotas utilisés dans la majorité des sondages pour construire un échantillon « représentatif » de la population française des 18 ans et plus (en 2006)

PROFESSION CHEF DE FAMILLE

Agriculteur 2 %

AGE

Artisan, commerçant, chef d’entre. 5 %

18-24 ans 12 % Cadre, profession intellectuelle sup. 11 %

25-34 ans 18 % Profession intermédiaire 14 %

SEXE

35-49 ans 28 % Employé 10 %

Homme 48 % 50-64 ans 21 % Ouvrier 22 %

Femme 52 % 65 ans et plus 21 % Inactif, retraité 36 %

TOTAL 100 % TOTAL 100 % TOTAL 100 %

Par ailleurs, les échantillons sont généralement stratifiés en fonction de la région et

de la catégorie d’agglomération. L’enjeu est d’avoir un échantillon qui « ressemble » le plus

fortement possible à la population mère. Par exemple, il y a relativement peu d’habitants dans la

région « Limousin » (1,2 % de la population française). Si l’on recherchait une proportionnalité

parfaite sur un échantillon de 1000 personnes, cela impliquerait à peine 12 interviewés du

Limousin, avec le risque qu’ils présentent des caractéristiques spécifiques. Pour répondre à ce

problème, les enquêteurs interviewent un peu plus d’habitants du Limousin (une vingtaine) puis

effectuent un redressement, c’est-à-dire qu’ils rétablissent ensuite, par calcul, la proportionnalité.

Plus généralement, le redressement est souvent utilisé pour respecter les quotas (en fin de

sondages, lorsqu’il manque des représentants de certaines catégories). Le redressement repose sur

un travail de pondération : on affecte aux catégories un coefficient appelé « coefficient de

redressement » pour que les résultats finaux respectent les proportions de la population mère

(selon les principes d’un « calcul en croix »).

38

L’utilisation des quotas, surtout dans le cadre de sondages « industriels », soulève une

difficulté déjà entrevue : le « flou » des catégories mobilisées dans les quotas. Ainsi, « remplir » les

quotas suffit-il à établir que cet échantillon est représentatif ? C’est ainsi l’argument mobilisé

aujourd’hui par certains sondeurs pour défendre la pratique du sondage en ligne. Or avoir un

échantillon composé de 22 % d’individu appartenant à un ménage dont le « chef » est ouvrier

suffit-il à établir que cet échantillon est représentatif ? Une telle perspective oublie qu’une

catégorie aussi vaste que la catégorie des « ouvriers » n’est en rien homogène et qu’elle est

traversée d’importants clivages. S’il y a bien la même proportion d’ouvriers dans l’échantillon que

dans la population, cela ne garantit en rien que les ouvriers interviewés soient, eux, représentatifs

de la population ouvrière dans son ensemble. Dans une enquête réalisée par Daniel Gaxie et son

équipe à la fin des années 1980, 1000 habitants de la Somme ont été interviewés sur des questions

relatives à la politique de protection sociale. Parmi ceux-ci, on compte 270 ouvriers.

Théoriquement, pour respecter la structure de la population du département, il y aurait dû y avoir

148 ouvriers qualifiés et 121 non qualifiés. Or, dans les faits, il y eut 183 qualifiés et 87 non

qualifiés. Autrement dit, l’enquête est marquée par une surreprésentation des ouvriers les mieux

payés, les plus dotés en capital culturel, les moins fragilisés par les transformations

socioéconomiques, etc. Or ces critères des capitaux économiques, culturels et professionnels

clivent fortement la classe ouvrière et sont susceptibles d’avoir des effets sur la distribution des

opinions et, plus généralement, sur la propension même à émettre publiquement des opinions sur

des questions complexes comme celles relatives à la protection sociale. La non-représentativité en

termes de structure peut affecter la représentativité des opinions ou des pratiques mesurées dans

l’enquête.

De la même manière, la catégorie « cadres et profession intellectuelles supérieures »

rassemble des individus au statut d’activité disparate : managers, médecins indépendants, des

avocats et des enseignants du secondaire, etc. Pour les années 2002-06 (baromètre mensuel TNS

Sofres-SIG), ces derniers sont en moyenne salariés du secteur privé (31 %), salariés du secteur

public (29 %), inactifs (dans le cas de conjoint[e]s de cadres qui ne travailleraient pas ou qui

seraient déjà à la retraite, 22 %), travailleurs indépendants (10 %) et chômeurs (8 %). Or dès lors

qu’on mesure des variations dans la distribution des « opinions » exprimées par les interviewés de

cette catégorie (qui représente 12 % des échantillons lorsque la population est l’ensemble des

Français de 18 ans et plus), il est délicat de savoir si ces variations sont imputables à l’évolution

des représentations sociopolitiques des « cadres » ou à des évolutions dans la composition des

échantillons : il arrive fréquemment que la répartition, dans cette catégorie, entre « salariés du

public », « salariés du privé » et « travailleurs indépendants » ne corresponde pas à la répartition

39

moyenne. De telles variations sont susceptibles d’avoir un impact certain sur les résultats, tant on

sait que, sur de nombreux enjeux politiques et sociaux, les points de vue exprimés par les « cadres

du privé » et les « cadres du public » peuvent être, en moyenne, relativement distincts.

Ce constat peut être fait au sujet de l’ensemble des modalités des variables utilisées pour

les quotas. Pour prendre un dernier exemple, les 18-24 ans comprennent environ 53 % de jeunes

actifs et 47 % de jeunes scolarisés. Selon les échantillons, cette proportion peut singulièrement

varier, rendant les résultats recueillis auprès de cette catégorie potentiellement problématiques.

Plus généralement, il faut se souvenir que la « qualité » des résultats dépend du nombre

d’interviewés : par conséquent, l’examen des résultats recueillis auprès des sous-échantillons (par

exemple, les seuls 18-24 ans qui représentent 12 % de l’ensemble des Français de 18 ans et plus,

soit 120 interviewés lorsque l’échantillon comprend 1000 individus) doit prendre en compte cette

faiblesse numérique pour éviter toute surinterprétation.

§4. Les absents et le refus de répondre

Au-delà des problèmes d’échantillonnage (aléatoire / quotas), se pose plus généralement

le problème de l’accès aux personnes et de l’acceptation à répondre aux enquêtes. Cette

difficulté se pose évidemment dès lors qu’il s’agit d’atteindre des populations itinérantes ou

« marginales » (cf. le texte du livret de TD : LABERGE Danielle, ROY Shirley, « Les enquêtes

auprès ou à propos des populations marginales »), de groupes aux frontières suffisamment floues

pour ne bénéficier d’aucune comptabilisation statistique (les « juifs » sur lesquels travaille Sylvie

Strudel) ou, dans le cas français, de minorités ethniques dont il est interdit d’opérer le

recensement.

Mais ces difficultés d’accès aux individus concernent également les enquêtes par

sondage réalisées auprès d’échantillons représentatifs de plus de 30 ans aux Etats-Unis et depuis

près de vingt ans en France. Il est cependant difficile d’établir avec précision quel est l’ampleur de

ce refus. Pour les instituts de sondage, c’est en effet un « secret industriel » puisque leur raison

d’être est fondée sur leur rigueur méthodologique, elle-même déterminée par la représentativité

de leurs échantillons. Dans une interview déjà ancienne, l’ex-président de la SOFRES évoquait

plus de 50 % de refus. Il existe toutefois une enquêté réalisée en 2000 qui s’est efforcé de

recueillir des données sur ce phénomène (voir GRUMBERG Gérard et al. (dir.), La Démocratie à

l'épreuve : une nouvelle approche de l'opinion des Français, Paris : Presses de la FNSP, 2002). Cette

enquête par sondage a été réalisée par la SOFRES pour le compte du laboratoire de recherche

CEVIPOF. Sur 8 305 appels, les enquêteurs ont dénombré 473 faux numéros, 1 283 non-

réponses (i.e. absence), 3510 refus, 750 impossibilités (car hors quotas) et 141 questionnaires

40

incomplets. Au final, il n’y a donc eu que 2148 questionnaires validés, soit un taux d’acceptation

de 46 % (3039 sur les 6549 personnes présentes chez eux) et un taux de réponses brut de 26 %

(2148 sur 8305). Cette proportion est d’ailleurs sans doute plus forte que, dans la plupart des

autres enquêtes, puisqu’il y a eu dans celle-ci jusqu’à 10 appels pour un même numéro en cas

d’absence.

Au-delà des absences qui s’expliquent aussi par les difficultés d’accès aux personnes

(présence sur liste rouge, pas de possession de téléphone fixe, digicodes à l’entrée des immeubles,

sécurisation des résidences privées, insécurité dans certains quartiers qui dissuade les enquêteurs

de s’y rendre, etc.), comment comprendre ce refus de répondre ? Quelles en sont les raisons ? A

cette question, on peut juste suggérer quelques hypothèses puisque si les interviewés ne

souhaitent pas répondre, on ne peut leur demander pourquoi ! Ces hypothèses sont notamment

regroupées par Patrick Lehingue (dans Subunda, pp. 92-93) :

− Exaspération par rapport au télémarketing (dont les opérateurs se présentent de plus en plus

souvent comme des enquêteurs)

− Peur du fichage, des intrusions, de l’interrogation scolaire ou administrative

− Manque de temps ou de disponibilité : il est coûteux de répondre à un sondage, alors qu’on

n’obtient rien en échange sinon la satisfaction d’avoir donné son avis ou raconté sa vie (sauf

dans certaines enquêtes en ligne ou enquêtes dites « qualitatives » pour lesquels les enquêtés

peuvent être rémunérés – ce qui pose là des questions d’ordre éthique ou politique :

comment justifier la rémunération de citoyens dans l’exercice de leur rôle politique [ie. Participer

à une enquête d’opinion dont les sondeurs louent les vertus démocratiques d’expression populaire] ?)

− Généralisation du sentiment d’être manipulé, que les sondeurs sont des menteurs, etc.

Pour conclure, il ne faudrait pas penser que ces difficultés d’accès et d’acceptation

constituent seulement des obstacles pratiques (augmentation du temps donc du coût des

enquêtes, etc.). Elles constituent, au contraire, des problèmes méthodologiques majeurs

puisqu’elles mettent en jeu la pertinence même des résultats recueillis. En effet, face à de tels taux

d’absence et de refus de répondre, on peut mettre en doute la représentativité de nombreux

échantillons. Être accessible et accepter de répondre aux enquêtes forment ainsi deux

caractéristiques inégalement partagées dans l’espace social : la population des répondants effectifs

est une population non représentative de l’ensemble des résidents français. On constate ainsi une

sous-représentation des groupes sociaux situés aux deux pôles de la pyramide sociale ; les

répondants aux enquêtes par sondage disposent en moyenne d’un niveau d’études supérieur à au

niveau moyen enregistré sur l’ensemble de la population en France.

41

Comparaison entre les niveaux de diplôme des interviewés et les niveaux de diplôme de la population française

Population non scolarisée

de 15 ans ou plus (2007) Cumul des vagues du baromètre

SOFRES-SIG (2002-2005) Différence

Sans diplôme + CEP 31,5 % 22 % -9,5 %

BEPC, CAP, BEP 30,2 % 35 % +4,8 %

Bac 15,3 % 16 % -0,7 %

Ens. Supérieur 22,9 % 27 % +4,1 %

TOTAL 100 % 100 %

Les sondeurs utilisent souvent la métaphore picturale : ils disent dresser un « portrait » des

Français, un « cliché » de l’opinion publique... Or on constate ici que leur cliché est flou ! Pour

reprendre une formule de Patrick Lehingue : dans la photo de famille, il manque le cousin de

province !

Section 2. La collecte des données : archives et questionnaires

Une fois les techniques d’échantillonnage définies, les chercheurs peuvent entreprendre

l’investigation empirique, le travail « de terrain ». Or, si les enquêtes qualitatives reposent

principalement sur des matériaux « de première main » (c’est-à-dire collectés par le chercheur lui-

même ou par son équipe), les enquêtes quantitatives peuvent reposer sur des données

hétérogènes. En effet, le travail statistique peut s’appuyer sur des données recueillies par

l’enquêteur (à travers le questionnaire) mais il peut aussi s’appuyer sur des données collectées par

d’autres institutions, et notamment les institutions administratives (archives). Dans tous les cas, le

chercheur doit être extrêmement sceptique et rigoureux dans cette opération de collecte des

données. Leur recueil ne va pas de soi (administrer un questionnaire ne constitue pas un acte

anodin et ordinaire). Aussi faut-il toujours se demander si les dispositifs de collecte et

d’agrégation des données ne tendent pas à produire des effets sur les résultats eux-mêmes.

§1. L’impact des conditions de production statistique : biais et artefacts

Il faut, dans un premier temps, s’arrêter sur ces données statistiques que les chercheurs

utilisent sans avoir eux-mêmes présidés à leur collecte. De nombreuses institutions archivent le

42

produit de leur activité et/ou s’appuient sur des instruments statistiques pour exercer leurs

missions. C’est notamment le cas des administrations publiques qui se nourrissent d’une pluralité

d’indicateurs pour décrire et évaluer leur action sur leurs secteurs respectifs (police, justice,

éducation, logement, santé, etc.). Économistes et sociologues peuvent alors s’emparer de ces

données statistiques pour répondre à leurs questions de recherche. Or la difficulté

méthodologique, c’est que ces institutions recueillent rarement des informations pour des raisons

purement scientifiques. Si le chercheur s’appuie sur de telles sources, il doit alors prendre en

considération les procédures mises en œuvre pour recueillir les informations, afin de ne pas

considérer que ce matériau lui livre « la » vérité. Autrement dit, les sciences sociales doivent ici

s’emparer de la même prudence que l’historien face à ses archives : c’est une critique des

statistiques « officielles » qu’il faut entreprendre.

1. L’exemple du suicide. A quels types d’obstacles les chercheurs peuvent-ils faire face ?

Pour répondre à cette question, appuyons-nous sur l’exemple des analyses quantitatives du

suicide. Cette illustration est judicieuse, puisque c’est sur un tel objet qu’Émile Durkheim a écrit

l’un des ouvrages fondateurs de la sociologie française et notamment dans son versant quantitatif

(Le Suicide). Il y met en application la démarche intellectuelle et méthodologique exposée dans Les

Règles de la méthode sociologique. Aussi de très nombreux chercheurs ont opéré un diagnostic critique

du Suicide pour mettre à l’épreuve la validité des thèses durkheimiennes : si les données posent

problème, c’est tout l’édifice sociologique qui menace de s’effondrer. On ne compte donc plus les

recherches ayant réinvesti les statistiques du suicide afin de mettre en cause ou de défendre le

travail de Durkheim. L’autre intérêt de cet exemple, c’est de rappeler que même un acte aussi

intime que le suicide peut être appréhendé comme un fait social dont l’explication n’est pas

réductible ni à des facteurs psychologiques, ni à une analyse purement individuelle (cf. chapitre 1,

section 1). Le suicide répond à des logiques sociologiques (Durkheim parle de « lois ») que les

statistiques permettent de mettre à jour. Il s’empare alors des statistiques administratives

collectées dans différents pays, sur une longue période, afin de mettre en évidence des

corrélations régulières : ses données montrent que certaines situations, cultures ou positions

sociales prédisposeraient au suicide. Il existe alors différents types de suicides qui résultent soit

d’un excès (altruiste) ou d’un défaut (égoïste) d’intégration sociale, soit d’un excès (fataliste) ou

d’un défaut (fataliste) de régulation sociale.

Mais sa thèse a été fortement mise en question du fait des nombreux défauts des sources

statistiques utilisées : si ses données laissent à désirer, alors ses conclusions ne peuvent être

valables ! Effectivement, Durkheim a conscience de certaines limites : il admet notamment que

43

les sources statistiques s’imposent de façon négative : il est impossible d’utiliser d’autres

méthodes d’investigation puisque, par principe, s’il y a suicide, l’individu ne peut être interrogé.

Mais hormis quelques petites remarques en note, il ne va pas beaucoup plus loin dans l’analyse

critique des conditions pratiques de production des statistiques. En formulant d’ailleurs

l’hypothèse de la comparabilité des données dans le temps et dans l’espace, il postule

implicitement l’homogénéité des procédures de recueil et d’agrégation de l’information. Selon

Christian Baudelot et Roger Establet (Durkheim et le suicide), trois critiques ont été plus

précisément adressées aux données collectées par Durkheim :

a) Bien qu’il prenne soin d’apporter une définition proprement sociologique, il ne s’assure

pas que les données qu’il utilise ont été collectées conformément à sa définition. Par exemple, la

définition inclut les cas de sacrifice personnel commis par certains soldats héroïques (il va ainsi à

l’encontre des prénotions qui définissent ces morts comme des sacrifices vertueux). Or jamais les

institutions ne considèreront une telle mort comme un suicide (cela lui ferait perdre tout

prestige). Plus généralement, les préoccupations des instances qui qualifient la mort n’est pas

d’ordre scientifique mais, selon les cas, d’ordre médical ou judiciaire. Il y a des enjeux lourds :

faut-il que la police enquête ? Pourra-t-il y avoir versement d’une assurance vie ? Néanmoins les

écarts liés à la divergence entre définition sociologique et définitions pratiques sont bien

moindres que pour d’autres phénomènes beaucoup moins accessibles (actes de délinquance par

exemple).

2. La comptabilité du suicide est affectée par le phénomène de la dissimulation. Qui plus

est, comme la dissimulation est plus marquée dans certains milieux sociaux, les statistiques

révèlent davantage l’inégale capacité à dissimuler que l’inégale propension au suicide. Cette

critique est cependant partiellement invalidée par Baudelot et Establet qui rappellent le chaînage

administratif aboutissant à l’attribution de la cause « suicide » dans les données d’état-civil. Le

nombre d’intermédiaires impliqués dans cette procédure d’enregistrement rend peu probable un

phénomène de dissimulation massif et spécifique à certains milieux sociaux.

3. Les différentes sources statistiques ne coïncident pas entre elles. Baudelot et Establet

confirment que les données collectées par la source « État civil – INSERM – INSEE » (causes

médicales de décès) ne sont pas équivalentes à celles collectées par l’administration judiciaire.

Mieux, la police et la gendarmerie ne gèrent pas les dossiers de la même manière : il est alors

probable que le constat d’un nombre plus important de décès dans les petites communes que

dans les grandes agglomérations tient à ces procédures différentes d’enregistrement (la police

tend à moins transmettre à l’INSERM les causes de décès en cas de mort violente que la

gendarmerie). Dès lors, il faut admettre que la comparaison internationale est encore plus

44

problématique puisque chaque pays dispose de ses propres traditions en matière d’enregistrement

et de comptabilité des causes de décès.

Comme le souligne Dominique Merllié (cf. texte du livret de TD) : « Du suicide à son

inscription statistique, il y a divers intermédiaires qui sont susceptibles de défaillances et que la

question de la “qualité” ou de “l’exactitude” des données ne retentit pas seulement sur

l’évaluation d’ensemble du phénomène (le nombre de suicides dans un pays) mais aussi sur la

signification de ses variations statistiques. » L’exemple du suicide permet de distinguer deux types

d’« erreurs » liés soit à la production des données, soit à une mauvaise interprétation des données

2. Les biais sont des « formes d’erreurs systématiques imputables à l’instrument » de

mesure (Merllié, p. 126). Par exemple, l’insuffisante transmission à l’INSERM des causes de

morts violentes par la police constitue un biais pour tout chercheur qui souhaiterait analyser le

suicide à partir de cette source statistique.

On considère généralement que les statisticiens travaillent « à biais constant », c’est-à-dire

que, tant que le mode de recueil des informations et les principes de catégorisation ne varient pas,

les « erreurs » sont globalement toujours les mêmes. Autrement dit, les écarts observables d’une

vague d’enquête à l’autre ne sont pas ou peu affectés par les problèmes méthodologiques car ces

derniers sont a priori identiques à chaque vague. Par exemple, dans le cas de la mesure du suicide,

les procédures de « comptage » des morts et de leur cause restent les mêmes pendant de longues

périodes dans chaque pays. Dans ce cas, les biais liés à l’attribution des causes ne changent pas ou

peu, si bien que les évolutions observées dans un même pays peuvent être analysées comme des

évolutions dans la pratique du suicide !

Autre exemple, les sondeurs ne parviennent pas à connaître avec exactitude la proportion

de sondés qui se disent « proches » du Front national ou qui avouent avoir récemment voté pour

le FN. C’est un biais inévitable dans la mesure où le FN suscite de très fortes critiques dans

l’espace public : il est alors difficile d’assumer publiquement son « goût » pour un tel parti. Mais

ce biais n’est pas trop dommageable dans la mesure où il est a priori le même à chaque sondage.

Ce n’est évidemment pas le cas dans des conjonctures au cours desquelles le FN n’occupe plus

exactement la même position dans l’espace partisan. Sa présence au second tour de l’élection

présidentielle en 2002 rend sans doute plus dicible, en tout cas moins illégitime, l’expression de

cette préférence partisane. De même, le changement de leadership à la tête du parti en 2011 peut

entraîner certains changements en matière de discrédit associé à l’énonciation publique d’une

proximité au FN. Toujours est-il qu’en dehors de ces séquences problématiques pour les

45

sondeurs, toute évolution significative dans la proportion de personnes se déclarant « proche » du

FN peut alors s’interpréter comme une évolution proprement politique.

3. On parle d’artefacts « lorsque les variations de la mesure sont imputables plus aux

caractéristiques de l’instrument qu’à celles de l’objet mesuré ». Par exemple, il peut y avoir artefact

dans les écarts entre les taux de suicides de différents pays si les procédures de comptage et

d’attribution des causes de la mort divergent sensiblement. Face à des résultats qui évoluent, le

danger est alors de croire à l’évolution du fait social lui-même, alors qu’il s’agit simplement d’une

évolution dans les conditions de la production statistique : c’est la manière de mesurer qui a

changé et qui automatiquement modifie la mesure. Dans le cas du suicide, il est impossible de

savoir si les différences observées tiennent à ces divergences méthodologiques ou bien à des

rapports différenciés au suicide. Autre exemple d’artefact déjà souligné : les fortes variations des

« opinions » des interviewés regroupés dans la catégorie « sympathisants FN » d’une vague

d’enquête. Enfin, dernier exemple, enquêtes internationales sur le niveau scolaire (exercices

traduits de l’Anglais – pas mêmes rythmes d’apprentissage selon les pays – etc.)

Attention cependant : à se focaliser sur les biais et les artefacts, on pourrait être tenté de

tomber dans une sorte de purisme méthodologique qui laisserait entendre qu’il existerait de

« vrais » chiffres que la science pourrait collecter en améliorant ses procédures de recueil

d’information et de comptage. Or ne perdons pas de vue le constat suivant : les phénomènes

collectifs et autres faits sociaux n’existent qu’à travers les instruments qui permettent de les

mesurer. S’il y a partout des actes de délinquance, la délinquance en tant que fait social propre à

une société donnée n’a pas de consistance tant qu’aucun instrument ne cherche à la mesurer et à

lui donner une certaine figure.

§2. La construction du questionnaire

De nombreuses recherches ne peuvent s’appuyer sur des données existantes. Le

chercheur doit alors lui-même recueillir les données, à partir d’un questionnaire visant à convertir

le questionnement (c’est-à-dire la problématique) en questions. Le questionnaire regroupe l’ensemble

des questions qui seront posées aux enquêtés et qui correspondent aux variables que l’on cherche

à étudier. François de Singly explique que le rôle d’un questionnaire, c’est d’ « expliquer ce que les

acteurs font par ce qu’ils sont ». On pourrait évidemment ajouter : expliquer ce que les acteurs

pensent par ce qu’ils sont. Autrement dit, les questionnaires visent à mettre en évidence des

« faits sociaux », des régularités, des tendances objectives : il s’agit ici d’établir la fréquence de

46

certaines pratiques, le partage de certaines opinions, etc. Mais ils ont aussi et surtout pour objectif

d’identifier les facteurs qui expliquent les pratiques et les représentations, c’est-à-dire les facteurs

qui prédisposent les individus à faire telle ou telle chose ou à penser telle ou telle chose

(prédisposer au sens de rendre statistiquement probable). Par conséquent, indépendamment du

mode de passation (face à face, autoadministré, téléphone, etc.), tout questionnaire doit intégrer

deux types de questions, deux types de variables

- Des variables relatives à l’objet étudié (par exemple, les comportements

politiques, le rapport aux institutions, à l’environnement ou à l’école, les

représentations du travail ou de l’ordre social, les pratiques en matière de vacances,

de santé ou de sexualité, etc.). L’enjeu ici est alors de trouver des questions

méthodologiquement pertinentes pour objectiver les pratiques et les attitudes des

individus sur les thématiques de l’enquête.

- Des variables sociologiques, c’est-à-dire des variables qui caractérisent

sociologiquement les individus (sexe, âge, position sociale, capital scolaire, salaire,

évaluation subjective de sa position sociale, religion, position dans la famille,

environnement géographique, etc.). Ces questions appelées « renseignements

signalétiques » sont méthodologiquement pertinentes si le découpage des catégories

est entrepris de façon judicieuse (cf. chapitre 1, section 3).

A. L’artificialité de la situation d’enquête. Les enquêtes par questionnaire sont

fondées sur une interaction entre un enquêteur et un enquêté. Cette interaction peut être directe

(dans le cas du face-à-face), médiatisée (dans le cas du téléphone) ou simplement imaginée (dans

le cas de questionnaires auto-administrés en ligne). Il n’en demeure pas moins que, comme tout

contexte d’action, la situation de recueil des informations est susceptible d’avoir un impact sur les

réponses recueillies.

D’une part, comme dans toute situation, les participants en négocient la définition (G.

Bateson) : de cette définition découlent les rôles qu’ils sont supposés endosser légitimement

(ceux d’enquêteurs et d’enquêtés). Ici, la négociation est souvent à l’avantage de l’enquêteur

puisque l’enquêté n’a d’autre choix que de se soumettre à la règle du jeu (du jeu de rôles !) ou de

ne pas jouer (via des stratégies d’exit telles que le refus de répondre). L’enquêteur impose donc

non seulement les principes de l’interaction (« je pose des questions / vous répondez ») mais

également son contenu (« vous devez répondre aux questions que je me pose, en choisissant l’une

des modalités de réponse que je vous suggère »). Dans le cas de sondages industriels, l’enjeu des

commanditaires de l’enquête est d’ailleurs de brider au maximum la latitude des interlocuteurs et,

47

par conséquent, la teneur des interactions : l’enquêteur est tenu de lire un synopsis dont il ne peut

s’écarter (officiellement, pour ne pas « orienter » les réponses ; officieusement, pour garantir la

rapidité de passation du questionnaire). Or cette situation, artificielle, peut être vécue par certains

interviewés comme un rappel de situations plus familières comme celles rencontrées à l’école ou

face à des agents administratifs. Tandis que certains vivent la saisie du questionnaire sur un mode

plutôt ludique ou sympathique, d’autres considèrent qu’il s’agit d’une situation violente

symboliquement et/ou anxiogène (notamment pour ceux qui ont vécu douloureusement leur

scolarité ou leurs expériences face à l’administration). Dans tous les cas, ce qui caractérise avant

tout l’attitude des enquêtés dans la situation d’enquête, c’est un souci de ne pas « perdre la

face » vis-à-vis de son interlocuteur (plus que de dire la vérité ou de répondre en son for

intérieur). Les interviewés engagent alors différentes stratégies (souvent intuitives) pour satisfaire

cet objectif de conserver la face. On ne peut donc analyser les résultats d’une enquête sans lire les

réponses sous ce prisme-là !

D’autre part, comme dans toute situation, les enquêtes par questionnaire mettent en

relation des individus qui ne se résument pas à ces rôles endossés dans le contexte d’enquête. Les

personnes sont également positionnées, chacune, dans l’échelle sociale. Elles sont inégalement

dotées en ressources (notamment éducatives et culturelles). Elles sont porteuses de dispositions

liées au passé social des individus et de leur famille, à la socialisation, aux expériences accumulées,

à la trajectoire sociale. Autrement dit, dès lors qu’il y a face-à-face (ou, dans une moindre mesure,

interaction téléphonique), les relations d’enquête sont aussi et avant tout des relations

sociales au cours desquelles chacun tend à typifier son interlocuteur (c’est-à-dire à se le

représenter socialement, à le faire entrer dans des catégories), à se positionner à son égard

(souvent dans un rapport hiérarchique, par exemple « homme > femme », « vieux > jeune »,

« Français de souche > immigré », « CSP + > CSP – », etc.) et à agir selon ces typifications. Or les

situations d’enquête sont potentiellement asymétriques, dès lors que l’interviewé se vit en

situation d’infériorité sociale face à l’intervieweur (sentiment d’être culturellement dominé). Dans

ces situations, ne pas perdre la face signifie « faire bonne figure » et « donner la bonne réponse »,

c’est-à-dire celle dont on peut avoir le sentiment qu’elle est attendue par l’enquêteur ou bien celle

dont on sait qu’elle n’est pas socialement illégitime (comme peut l’être l’inclinaison pour le Front

national) ou bien encore celle qui est a priori peu coûteuse car plus facile à justifier (les réponses

« modales » servent souvent de réponses « refuges »). C’est le cas par exemple, de

l’autopositionnement sur une échelle en 7 modalités incarnant l’axe droite-gauche : beaucoup des

choix 4 ne correspondent pas à un authentique positionnement « centriste » mais à une incapacité

à se positionner.

48

Cette tentation de vouloir donner « la bonne réponse » concerne donc principalement les

catégories de la population les plus démunies socialement ou culturellement parlant.

- Soit elles s’avèrent effectivement « incompétentes », c’est-à-dire effectivement

incapables de répondre à la question posée parce que cette dernière serait trop

complexe dans sa formulation ou dans son contenu, trop ésotérique ou trop

éloignée de l’expérience vécue.

- Soit elles se sentent illégitimes ou incompétences, parce qu’habituellement peu

autorisée à parler en leur nom propre et à exprimer leurs propres opinions.

B. Des ficelles rédactionnelles. Il faut donc être particulièrement vigilant dans la

construction du questionnaire. Le propre des enquêtes quantitatives de première main (c’est-à-

dire des enquêtes qui ne travaillent pas ni sur des données déjà recueillies, ni sur un corpus

documentaire existant) est de reposer sur un questionnaire standardisé : il ne peut y avoir

d’exploitation statistique des résultats que si les enquêtés ont été soumis au même questionnaire

(principe d’équivalence précédemment exposé). Par conséquent, la principale difficulté des

enquêtes par questionnaire, c’est que celui-ci est fixé une fois pour toute (on ne peut plus revenir

en arrière) et qu’il est censé être soumis aux enquêtés dans un laps de temps relativement court

(sinon les enquêtés ne sont plus équivalents : la variable du temps intervient comme facteur

explicatif supplémentaire des variations, ce qui complique l’analyse des données). C’est là que

réside l’une des différences majeures avec les enquêtes par entretiens : le guide d’entretien peut,

lui, être amélioré au fur et à mesure des interviews car celles-ci ne sont pas mises en équivalence

et codées sous une forme statistique.

La qualité des résultats dépend donc étroitement de la pertinence du questionnaire.

Malheureusement, il est difficile de dire « dans l’absolu » ce qu’est un bon questionnaire. La

pertinence d’un questionnaire dépend fortement de la problématique, de l’identité des interviewés

(selon leur capital culturel ou leur proximité avec le sujet de l’enquête) et des conditions de

passation du questionnaire (par téléphone, en face-à-face ou sur un mode auto-administré). Ici

l’enjeu est donc à nouveau d’identifier les éventuels obstacles méthodologiques plutôt que de

donner des réponses toutes faites.

La première des interrogations à se poser est de savoir s’il vaut mieux privilégier

questions ouvertes (qui laissent l’interviewé répondre librement, par ses propres mots) ou

questions fermées (qui encadrent la réponse de l’interviewé dans des modalités prédéterminées

49

par l’enquêteur). Pour y répondre, demandons-nous d’abord pourquoi les questions fermées sont,

à ce point, prédominantes dans les enquêtes par questionnaire :

(a) Elles coûtent moins chères (en termes de temps, de complexité, de finance). En effet, le

traitement statistique des réponses aux questions fermées est simple puisque les modalités

possibles sont en nombre limité et surtout sont précodées. À l’inverse, les questions ouvertes

génèrent souvent des réponses tellement hétérogènes et dispersées qu’elles en deviennent

inexploitables.

(b) Comme le codage est fixé à l’avance, il y a moins de risque d’erreurs de la part des enquêteurs

(mauvaise retranscription des propos liée à la prise de note rapide), ainsi que moins d’arbitraire

dans le regroupement des réponses à des fins de traitement statistique. Dès lors qu’il y a une

pluralité d’enquêteurs, il risque toujours d’y avoir une pluralité d’interprétations des réponses.

Mais derrière ces réels avantages pratiques, les questions fermées sont souvent

critiquables sur un plan intellectuel. Face à elles, les questions ouvertes présentent en effet deux

qualités majeures :

(a) Elles permettent de privilégier les catégories à travers lesquelles les individus eux-mêmes

perçoivent et classent le monde social. Si l’enjeu de l’enquête est de travailler sur les

représentations et les systèmes de valeurs, les mots utilisés par les interviewés ne sont

évidemment ni anodins, ni interchangeables !

(b) Elles permettent de diversifier les perspectives de codage des informations. Le codage est

alors effectué a posteriori, une fois que les réponses ont été recueillies. Ce sont ces dernières (leur

fréquence, leur distribution, leur diversité) qui peuvent amener l’enquêteur à établir les modes de

classement les plus pertinents au regard de la problématique de l’enquête. A ce titre, les questions

ouvertes peuvent s’avérer plus particulièrement utiles dans une phase exploratoire. Par exemple,

si l’enjeu de la recherche est de comprendre les modalités de construction des opinions publiques,

il peut être plus judicieux, dans un premier temps, de laisser s’exprimer les interviewés (sur les

personnes qui ont compté dans la formation de leurs idées ou les propositions de campagne qui

les ont intéressées). Ces réponses exploratoires pourront ensuite être utilisées pour élaborer le

questionnaire et tester les arguments suggérés par les interviewés (et non imposés par les

enquêteurs à partir de leurs propres points de vue). Les questions ouvertes sont ici précieuses

pour construire des hypothèses qui pourront être (in)validées par l’enquête quantitative

proprement dite.

Face à cette ambivalence, François de Singly invite à une position de compromis.

Premièrement, il est possible (et souvent judicieux) de mêler l’ouvert et le fermé pour un même

ordre de questions. Par exemple, dans un questionnaire sur la participation aux activités

50

associatives, on peut d’abord demander aux interviewés : « Participez-vous à la vie associative ? »,

puis « Si oui, dans quelle mesure ? ». Deuxièmement, dans une question fermée invitant les

interviewés à choisir une ou plusieurs modalités de réponses prédéfinies, il faut toujours prévoir

une catégorie « Autre » et laisser la personne s’exprimer si elle retient cette modalité.

Au-delà de l’alternative entre ouvert et fermé, il existe quelques ficelles pour faire face aux

deux difficultés majeures de toute enquête par questionnaires : minimiser l’imposition de

problématiques et favoriser l’expression personnelle. En somme, l’enjeu est d’atténuer le risque

d’artefacts, c’est-à-dire les effets associés à l’enquête. Les enquêteurs font face en effet au

paradoxe de l’observateur : celui-ci doit découvrir comment les gens parlent et agissent quand on

ne les observe pas, mais la seule façon de le découvrir, c’est de les observer. Douze

recommandations peuvent ainsi être formulées1.

1. Garantir la protection des personnes : il faut toujours souligner l’anonymat et faire en sorte

que l’exercice n’apparaisse pas scolaire ou administratif.

2. Ne pas livrer immédiatement la problématique de l’enquête. Par exemple, s’il s’agit d’un

questionnaire sur l’éducation, il peut être utile de débuter par une question invitant les enquêtés à

hiérarchiser leurs sujets de préoccupations (l’éducation étant « noyée » parmi de nombreux

thèmes). De la sorte, la mesure de l’intérêt de l’enquêté peut être étudié en comparaison avec

d’autres centres potentiels d’intérêt (et non comme si seul ce sujet pouvait le préoccuper).

3. Toujours inclure une option « sans réponse » (et le suggérer). C’est utile à la fois pour

améliorer la construction du questionnaire (s’il y a une trop forte proportion de sans-réponses,

cela peut indiquer que la formulation des questions est trop complexe), pour étudier les sans-

réponses elles-mêmes (qui sont-ils ?) et pour n’analyser les résultats que sur les personnes qui

s’expriment.

4. Établir un équilibre entre modalités positives et modalités négatives (en nombre et en

qualité). Comme les questionnaires sont souvent vécus comme la passation d’un examen, cela

permet de ne pas indiquer par le choix des mots quelle pourrait être la « bonne » réponse.

5. Être vigilant sur le choix des mots (et notamment les mots introductifs). En cas de doute, il

ne faut pas hésiter à utiliser la technique du split, c’est-à-dire diviser l’échantillon en plusieurs

sous-échantillons auxquels on soumet différentes versions de questions afin de voir si la

formulation elle-même ne produit pas d’effets sur les réponses recueillies. Pour ne prendre qu’un

1 Ces recommandations sont principalement inspirées de l’ouvrage de François de SINGLY : L’Enquête et ses méthodes : le questionnaire (Paris : Nathan, 1992).

51

exemple, on ne recueille pas exactement les mêmes réponses si la question porte sur

l’acceptation de l’« autorisation » ou de l’« interdiction » des discours racistes.

6. Autoriser les doubles ou les triples réponses. Il faut faire en sorte que le questionnaire

ressemble le moins possible à un problème scolaire : il n’y a pas une « bonne » réponse ! Par

ailleurs, cela permet aux interviewés de présenter plusieurs facettes de leur personnalité et

d’assumer des pratiques moins légitimes (qu’on n’oserait pas forcément avouer s’il fallait ne

retenir qu’une réponse). Enfin, au niveau de l’exploitation des résultats, cela permet de croiser les

réponses et de savoir à quoi on par ailleurs répondu ceux qui ont choisi telle ou telle modalité.

7. Être attentif à l’ordre des réponses. Il faut privilégier la présentation aléatoire dans l’ordre

des modalités, ainsi que la rotation des items lorsque la même question est posée pour différentes

situations. Il faut notamment se méfier de deux effets potentiels, susceptibles d’affecter le recueil

des informations. Souvent peu engagés dans la relation d’enquête, les interviewés ont en effet

tendance à retenir la dernière modalité citée par l’enquêteurs (hypothèse de la réponse en écho)

mais ils ont surtout tendance à retenir la première modalité citée (hypothèse du primary effect lié

aux difficultés de mémorisation ou au sentiment que les premières réponses suggérées seraient les

plus légitimes).

« Selon vous, quels sont les deux problèmes les plus graves ? » (Jean-Paul Grémy, 1988).

Ordre direct Ordre inverse Différence

- Le chômage - Le terrorisme - La faim dans le monde - La guerre - La surpopulation du monde - Le racisme - Le non-respect des droits de l'homme - L'insuffisante formation professionnelle des jeunes - La délinquance

34 8,5 21 15 1,5 5 8 1 1

19 7

18 18 2

8,5 10 6 8

-15 -1,5 -3 +3

+0,5 +3,5 +2 +5 +7

Cependant, il faut parfois respecter un ordre fixe dans la présentation des modalités. En effet,

lorsqu’il s’agit de questionner les individus sur le temps qu’ils consacrent aux pratiques culturelles,

il faut placer la télévision en tête. Comme toutes les enquêtes montrent que la télévision occupe

plusieurs heures par jour, la placer en milieu ou en fin de liste risquerait d’amener les interviewés

à sous-estimer le temps qu’ils lui consacrent pour rester cohérent avec les autres réponses.

8. Être attentif à l’ordre des questions. Il convient de garantir une cohérence globale dans le

questionnaire.

o Cela signifie d’abord qu’il faut placer les questions les plus impersonnelles avant

questions les plus personnelles. Autrement dit, il faut mettre en tête les questions

52

les moins intimes, celles dont les réponses sont souvent publiques ou faciles à

énoncer publiquement. Comme pour toute relation, l’enjeu est de gagner la

confiance de l’interviewé pour l’amener à être sincère. On ne peut donc pas

l’amener immédiatement à livrer ses facettes les plus intimes ou les moins

légitimes socialement.

o Ensuite, les interviewés sont souvent soucieux de produire de la cohérence dans

leurs réponses. Ils sont donc sensibles au contexte engendré par le questionnaire

(effet de halo). Par exemple, aux Etats-Unis au milieu des années 1980, une affaire

d’espionnage soviétique mené par de supposés journalistes occupe l’actualité du

pays. Dans un sondage, seuls 44 % des Américains interviewés disent « accepter la

présence de journalistes soviétiques sur le sol américain ». Toutefois, une enquête

relativement similaire est proposée à un autre échantillon. On demande d’abord

aux interviewés s’ils acceptent la présence de journalistes américains sur le sol

soviétique (la quasi-totalité adhère à cette proposition). Puis, on leur demande s’ils

acceptent la présence de journalistes soviétiques sur le sol américain : 70 % sont

désormais favorables à cette présence !

o Le questionnaire produit enfin des « effets de connaissance ». Par exemple, une

enquête consacrée aux relations parents-enfants interroge un échantillon de

parents sur les activités qu’ils ont avec leur(s) enfant(s). La question est ouverte et

ceux-ci mentionnent très rarement la discussion en tant qu’activité. Lorsque la

même enquête, reproduite quelques temps plus tard, demande d’abord aux

parents s’ils ont des conversations avec leurs enfants (question fermée), une

majorité d’entre eux incluent alors spontanément la discussion parmi les

« activités » qu’ils ont avec leurs enfants.

9. Ne mettre qu’une question par question. Les résultats ne sont interprétables que si la

question est la plus compréhensible et univoque possible. Par exemple, dans une enquête

consacrée à la sécurité routière, figure la question suivante : « Êtes-vous pour le port de la

ceinture à l’arrière ? » Cette question pose problème car on ne peut savoir précisément à quoi les

interviewés ont répondu :

- Êtes-vous pour le port de la ceinture (tout court) ?

- Êtes-vous pour le port de la ceinture (tout court) ?

10. Ménager la mémoire. Cela signifie, notamment dans des passations par téléphone, qu’il faut

limiter le nombre de modalités pour chaque question.

53

11. Éviter les négations (ou pire les double négations). Un exemple caricatural : « Ne pensez-

vous pas qu’il aurait mieux valu que la France ne participe pas à la guerre du Golfe ? »

12. Inclure des réponses centristes dans les échelles d’attitude. Il faut souvent éviter de

placer les interviewés face à une alternative tranchée (pour / contre), même si un tel

questionnement peut ressembler à une procédure référendaire (où l’enjeu est seulement d’obtenir

des majorités). Il convient alors de suggérer des réponses « modales » (échelle en quatre

comprenant des réponses modales). C’est le cas, par exemple, de cette question très ancienne du

baromètre TNS Sofres / Le Figaro Magazine : « Faites-vous tout à fait confiance, plutôt confiance,

plutôt pas confiance ou pas du tout confiance à Nicolas Sarkozy pour résoudre les problèmes qui

se posent en France actuellement ? ». Voici les réponses de la vague d’octobre :

- Tout à fait confiance 5 %

- Plutôt confiance 25 %

Sous-total confiance 30 %

- Plutôt pas confiance 24 %

- Pas du tout confiance 42 %

Sous-total pas confiance 66 %

L’intérêt d’une échelle en quatre modalités est d’offrir une interprétation plus riche des résultats.

D’un côté, il est possible de regrouper les « confiants » et les « pas confiants » pour mesurer la

popularité effective du chef de l’État. Mais il peut être tout aussi intéressant de comparer les

réponses intenses (tout à fait / pas du tout : 47 %, contre 39 % pour François Fillon) avec les

réponses à faible intensité (plutôt / plutôt pas : 42 %, contre 55 % pour F. Fillon). Toutefois, les

réponses modales pouvant servir de réponses refuges, le questionnaire doit permettre aux

interviewés de ne pas se positionner. Il faut donc suggérer la possibilité de ne pas répondre (règle

n°3).

§3. La consistance des opinions

A. Les spécificités de l’opinion publique « sondagière ». Les questionnaires sont

précieux pour mesurer les pratiques sociales. Mais ils servent également à saisir des valeurs,

croyances, représentations, convictions. S’agit-il donc d’une méthode adéquate pour appréhender

des opinions ? Et par conséquent, les enquêtes quantitatives (au premier rang desquelles figurent

les sondages d’opinion publiés dans la presse) peuvent-elles permettre de mesurer « l’opinion

publique » ? Mais qu’est-ce que l’opinion publique ? Partons tout d’abord d’une boutade attribuée

au fondateur du premier institut de sondage américain, Georges Gallup qui, en 1936, a pu

54

prouver l’efficacité de sa méthode en prédisant la victoire de F.D. Roosevelt lors de l’élection

présidentielle américaine :

Q : Docteur Gallup, quelle définition donneriez-vous d’un sondage d’opinion ?

R : Un instrument de mesure de l’opinion publique.

Q : Oui, mais qu’entendez-vous par opinion publique ?

R : Tout simplement ce que mesurent les sondages.

Les sondages d’opinion prétendent donc mesurer l’opinion publique. Seulement, si tout

le monde s’empare de ce terme, il est bien délicat de le définir. Et surtout cette assimilation entre

opinion publique et résultats des sondages n’est acceptée que depuis quelques décennies. En

effet, historiquement, le concept d’opinion publique ne correspond pas à ce que mesurent les

sondages. Le terme est assez ancien mais sa conception positive apparaît au milieu du XVIIIe

siècle, dans le cadre de la lutte contre l’absolutisme, contre l’arbitraire royal. L’un des premiers à

concevoir positivement cette notion, c’est Jean-Jacques Rousseau. Initialement, l’opinion

publique, c’est une opinion restreinte, celle des élites éclairées. C’est le produit d’une discussion

critique, au cours de laquelle des particuliers font un usage public de la raison : ce n’est pas le sens

commun qui relève dans ce cas du « vulgaire ». Le XIXe siècle est toutefois marqué par un

processus de démocratisation qui résulte de l’« entrée des masses » dans la vie publique et

politique. L’opinion publique devient une opinion populaire. Mais elle est publique parce qu’elle

est exprimée publiquement (à travers les manifestations, les mobilisations collectives ou lors d’un

scrutin par exemple). Elle est donc démonstrative, volontaire et collective. Or les sondages

reposent sur une conception différente de l’opinion publique, une conception évidemment en

lien avec l’évolution des systèmes politiques. Il faut donc analyser quelles sont les conceptions de

l’opinion publique sous-jacentes à la pratique des sondages (et différentes des anciennes

conceptions) :

− La première différence, c’est que les opinions sont sollicitées. Ce ne sont donc pas des opinions

publiques mais des réponses privées. La formule récurrente de nombreux sondeurs (« Les Français

nous disent que... ») est problématique. En réalité, ils devraient dire : « Les personnes

extrêmement différentes que nous avons sollicitées ont accepté de répondre aux questions que

nous leur avons posées et de choisir les modalités que nous leur avons imposées ! ». Bien

souvent, il s’agit de questions qu’ils ne s’étaient pas forcément posées ou alors des opinions qu’ils

n’avaient pas cherché à rendre publique. Bref, la situation d’enquête par sondage est une situation

artificielle : il s’agit d’une interaction fugitive entre deux personnes qui ne se connaissent pas mais

qui adoptent des rôles d’enquêteur et d’enquêté (cf. § précédent). Cette situation transforme des

réponses privées en opinions publiques.

55

− La deuxième différence, c’est que les opinions sont recueillies individuellement : il ne s’agit pas d’une

expression collective comme dans le cadre d’une manifestation, ou bien d’une opinion qui

émerge d’un rapport de forces ou d’une discussion, ou bien d’une opinion qui s’élabore

progressivement dans un contexte de débat. Ici, l’opinion est préconstruite puisqu’elle est censée

s’exprimer à travers des cases prédéfinies par l’enquêteur et prélevée individuellement, en dehors

des situations habituelles d’expression des opinions. Or on sait que, selon le type de situations,

l’expression des opinions varie. Par exemple, nos opinions peuvent varier selon que l’on est

conducteur d’automobile ou piéton ! De même, on ne s’exprime pas de la même façon devant ses

parents, ses collègues, ses amis ou ses supérieurs hiérarchiques. Or là, on isole la personne de son

environnement social : cette situation n’a pas d’équivalent socialement parlant... Il est difficile de

dire à quoi correspondent ces opinions : s’agit-il du for intérieur des individus ? Mais dans la

« vraie vie », dans quelles circonstances émet-on de telles opinions ? Habituellement, les opinions

s’expriment dans des situations d’interaction. Ici, les opinions sont atomisées.

− La troisième différence, c’est que l’opinion publique est simplement considérée comme une agrégation, la

somme de toutes les opinions individuelles. Elle n’est publique que parce qu’elle est plurielle. Or,

cela amène à placer tous les individus sur le même plan, indépendamment de leur « poids » social

respectif, ou de leur maîtrise du sujet de l’enquête, ou encore de leur intérêt personnel pour le

sujet de l’enquête. Il y a un principe de mise en équivalence : tous les individus sont considérés

comme équivalents face à l’enquête. Donc cela ne permet pas réellement de mesurer le potentiel

de mobilisation ou d’opposition : cela tend à niveler les attitudes.

Pour résumer, on peut dire que l’un des principaux problèmes soulevés par les sondages

d’opinion est de convertir des principes d’ordre politique en principes d’ordre méthodologique.

Comme pour le vote, on considère qu’un homme = une voix. Comme pour le vote, la procédure

retenue (choix de la question et des modalités de réponse) est fixée par les commanditaires du

sondage et non par les individus eux-mêmes. Donc de ce point de vue, il est souvent difficile de

dire si les opinions sont publiques. Il est même difficile de dire s’il s’agit d’opinions ! Le problème

réside donc à la fois d’un point de vue individuel (quelle est la consistance des opinions

recueillies, c’est-à-dire quel est le statut des réponses ?) et d’un point de vue collectif (quel est le

statut des résultats agrégés ?).

B. Des postulats contestables. Dans un article célèbre (1972), Pierre Bourdieu remet

en cause de manière radicale cette prétention des sondeurs à mesurer « l’opinion publique ». Pour

lui, « l’opinion publique saisie lors des enquêtes par sondage n’existe pas » : il s’agit d’un pur

artifice. Pour étayer sa démonstration, il s’efforce de montrer le caractère contestable des trois

56

postulats qui justifient la pratique sondagière : (1) tout le monde peut avoir une opinion ; (2)

toutes les opinions se valent ; (3) il y a un accord sur les questions qui méritent d’être posées.

(1) Tout le monde peut avoir une opinion. Il ne s’agit pas ici de considérer que les

individus sont des idiots culturels. Mais plutôt d’indiquer que tout le monde n’a évidemment pas

d’opinions sur tous les sujets : la connaissance d’un sujet et la capacité à opiner personnellement

sur ce sujet n’est pas universellement partagée. Or il est souvent difficile d’identifier la proportion

d’interviewés dont les réponses renvoient à des opinions « solides », c’est-à-dire préexistantes à

l’enquête et justifiables. D’une part, on l’a vu, pour faire « bonne figure », certains enquêtés

peuvent avoir la tentation de répondre même dans les cas où le sujet leur est inconnu ou peu

compréhensible : il peut s’agir de ne pas passer pour un ignare ou bien de vouloir faire plaisir à

son interlocuteur… D’autre part, les enquêteurs eux-mêmes ont souvent tendance à minimiser les

sans-réponses. C’est notamment le cas des instituts de sondages : le faible taux de sans-réponse /

NSP constitue paradoxalement un argument commercial : ils peuvent se présenter face à leurs

clients comme ayant bien rempli leur rôle. Or, c’est un paradoxe parce que, au contraire, les

résultats deviennent moins significatifs puisqu’on agrège des réponses motivées et des réponses

hasardeuses.

Exemple incongru : à la question « Trouvez-vous que les chercheurs français remplissent leur mission très

bien, plutôt bien, plutôt mal, très mal ? » (CSA, avril 2006), seuls 2 % se placent dans les sans-réponses.

Les instituts mobilisent différents moyens pour réduire les sans-réponses : la multiplication des

consignes de relance ; l’absence de la modalité « Je n’ai pas d’opinion » ; la présence dans la

question d’un rappel précédé de « vous savez que... » (sous-entendu potentiellement « violent »

symboliquement : vous êtes supposé savoir !) ; l’absence de questions préalables qui demandent

aux personnes s’ils savent de quoi il s’agit et quelles compréhensions ils ont du sujet.

Or, si tout le monde ne comprend pas les questions, ceux qui les comprennent ne les

comprennent pas toujours de la même façon. C’est notamment le cas lorsque les questionnaires

utilisent des termes complexes, flous ou équivoques. Non seulement les interviewés risquent

d’être heurtés par cette complexité, mais en plus l’agrégation des réponses s’avèrera précaire

puisque tout le monde n’aura pas choisi la même modalité pour les mêmes raisons (car tous

n’auront pas compris la même chose !).

Exemple trivial : sondage CSA / Marianne, 23 novembre 2005 Question 1. Pensez-vous que la France devrait… ? - Changer de modèle social 46 % - Préserver et renforcer le modèle social existant 51 % - Ne se prononcent pas 3 %

57

Ici, jamais l’enquêteur ne demande aux sondés s’ils savent ce qu’est le modèle social français et ce

qu’ils entendent par modèle social français. Au-delà de cet exemple évident, il faut même

admettre que c’est l’ensemble des termes les plus couramment utilisés par les élites (et

notamment par les élites administratives) qui posent problème.

Exemple donné par Daniel Gaxie à partir d’une enquête par questionnaire réalisée en

1986 auprès d’un échantillon d’interviewés picards, établi selon la méthode des quotas. Dans ce

dense questionnaire, on peut d’abord citer une question liée au contexte politique du moment et

donc apparemment évidente : « Certains disent que, pour s’en sortir, il faut introduire plus de libéralisme

dans la société français. Êtes-vous tout à fait d’accord, plutôt d’accord, plutôt pas d’accord, pas du tout d’accord,

sans réponse ? » 28 % ne répondent pas (modalité explicite), 48 % sont d’accord, 24 % ne sont pas

d’accord. Or, quelques questions plus loin, on demande à ceux qui ont accepté de répondre à

cette 1ère question : « Dites-moi ce que représente le libéralisme pour vous ? » C’est une question ouverte :

− 29 % ne répondent pas

− 28 % assimilent libéralisme à liberté (faire ce que l’on veut, circuler plus librement, pouvoir

dire ce qu’on pense)

− 11 % se placent sur un terrain éthique (se prendre en main, être moins égoïste)

− 7 % opèrent une confusion avec d’autres termes

− seulement 25 % fournissent une réponse qui cadre bien au débat politique du moment (laisser

plus de place au libre marché, réduire les impôts, la bureaucratie, la réglementation, etc.).

Une autre expérience réalisée en 1988 et citée par Patrick Lehingue vient confirmer ce problème

de consistance des opinions. Il s’agit d’un sondage commandé par Le Monde qui soumet aux

sondés une vingtaine de mots très fréquemment utilisés dans les débats politiques du moment et

qui leur demande ensuite de définir ces termes. La question est donc ouverte. Le taux de sans-

réponse est très élevé pour certains termes : protectionnisme (24 %), alternance (26%),

déréglementation (36 %), État-providence (42 %), etc., ce qui n’implique pas nécessairement

incompétence mais, pour certains, sentiment d’incompétence (peur de dire des bêtises, sentiment

d’illégitimité, etc.). L’un de ses mots, « cohabitation », suscite à l’inverse seulement 8 % de sans

réponse mais seuls 31 % donnent à ce mot un caractère politique et parmi ceux-ci seuls 10 %

disent « le président d’un bord, le Premier ministre de l’autre ». Sans surprise, l’expérience n’a

jamais été renouvelée dans la presse !

(2) Toutes les opinions se valent. La critique de ce postulat par Bourdieu comprend là

encore une dimension politique : en effet, Bourdieu reproche aux sondages d’accorder le même

poids aux personnes directement concernées par les questions du sondage avec des personnes qui

y sont indifférentes. De même, le sondage rend équivalent les individus explicitement mobilisés et

58

qui s’expriment dans l’espace public et ceux qui n’interviennent pas. Les sondages tendent à

oublier que les enjeux sociaux reposent sur des rapports de forces entre des collectifs et non sur

une simple agrégation d’opinions individuelles. C’est une critique déjà formulée par les marxistes

contre le vote : le vote joue une fonction conservatrice puisqu’il fait appel aux majorités

silencieuses, peu politisées et manipulables, à partir d’une procédure extrêmement pauvre.

Sur un plan méthodologique, cette critique invite à être vigilant sur les contours de la

population enquêtée et donc de l’échantillon. Qui doit être interviewé ? Cela a-t-il du sens

d’agréger des populations extrêmement disparates du point de vue de leur proximité au sujet, de

leurs expériences, de leur connaissance, de leur potentiel de mobilisation ? Les résultats ont-ils

alors une signification ? Ou ne s’agit-il pas de données purement artificielles qui rassemblent des

chèvres et des choux ?

Sondage IFOP-Acteurs publics (juillet 2006) : « Diriez-vous que vous êtes plutôt d’accord ou plutôt pas d’accord avec la proposition suivante ? Il faut augmenter la durée légale du travail. » Ensemble de la population Retraités Actifs − Plutôt d’accord 48 % 62 % 40 % − Plutôt pas d’accord 52 % 38 % 60 % − NSP 0 % 0 % 0 %

En tout cas, si vous souhaitez recueillir l’opinion de l’ensemble de la population, il faut

systématiquement penser à ajouter des variables permettant de trier l’échantillon en fonction de

leur proximité au sujet. Par exemple, tout questionnaire sur l’école doit être accompagné dans la

partie « renseignements signalétiques » de questions relatives à la fréquentation du système

scolaire (parent d’élèves scolarisés public / privé, niveau d’études, etc.).

De la même manière, il faut être vigilant sur les questions relatives à des pratiques (soit

pratiques effectives, soit pratiques potentielles). Prenons d’abord les sondages préélectoraux : ces

derniers n’ont de réelle valeur que peu de temps avant le scrutin. Les sondages réalisés un an

auparavant posent problème car la majeure partie des sondés ne se sont pas encore investis dans

l’élection et placés en situation de choix : il ne s’agit donc pas d’intention, au sens où le sondeur

ne ferait qu’enregistrer des choix motivés. Donc le sondeur met en équivalence des attitudes qui

divergent fortement. C’est la même chose concernant le potentiel protestataire. Il existe de

nombreux sondages qui demandent aux personnes si elles seraient prêtes à manifester, faire

grève, etc. Cela permet notamment de connaître le profil de ceux qui jugent ces attitudes légitimes

(ou en tout cas qui ne les jugent pas illégitimes) mais cela ne permet pas de connaître le profil de

ceux qui réellement manifestent ou font grève. Une enquête pertinente sur le sujet doit donc

s’opérer non pas auprès d’un échantillon représentatif de l’ensemble de la population mais « sur

le terrain », c’est-à-dire lors des manifestations.

59

(3) Il y a un accord sur les questions qui méritent d’être posées. Comment savoir

que les questions posées sont des questions que se posent réellement les personnes interrogées ?

Ce qui est en revanche sûr, c’est que les questions posées sont les questions qui intéressent les

commanditaires. L’outil n’est donc pas neutre socialement et politiquement aux yeux de Bourdieu : les

problématiques qui sont proposées par les sondages d’opinion sont subordonnées à des intérêts

politiques, et cela commande à la fois la signification des réponses et la signification qui est

donnée à la publication des résultats. Les sondages peuvent donc être analysés comme des

instruments proprement politiques dont la fonction consiste à imposer l’illusion qu’il existe une

opinion publique comme sommation d’opinions individuelles, qu’il existe quelque chose qui

serait la moyenne des opinions ou l’opinion moyenne. Le caractère artificiel du pourcentage a

pour fonction de dissimuler le fait que l’état de l’opinion est le un système de forces : ce n’est pas

une sommation mais une opposition. Le rôle politique des sondages s’observe particulièrement

lorsque les hommes politiques s’appuient sur les données d’enquête pour dire : « l’opinion

publique est avec nous ». Le problème des sondages réside alors dans cette confusion entre des

opinions constituées, mobilisées et des dispositions qui ne sont pas des opinions (= discours qui

peut se formuler avec une certaine prétention à la cohérence). C’est cette opinion-là (celle admise

implicitement par ceux qui font des sondages d’opinion) qui n’existe pas. Bourdieu critique donc

ce postulat pour des raisons politiques : il dénonce la capacité d’imposition de problématiques des

commanditaires des sondages. D’une certaine manière, il dénonce la capacité des acteurs

dominants à définir quels sont les enjeux qui comptent et quelle est la manière de « cadrer » le

débat autour de ces enjeux. On retrouve là encore une critique équivalente à celles formulées

contre le vote : la procédure est extrêmement pauvre (juste un bulletin dans l’urne, pas de mandat

impératif) et les électeurs sont soumis aux alternatives proposés par les organisateurs du scrutin.

Dès lors, la présentation de l’enjeu tend bien souvent à suggérer une réponse évidente

(parce que les arguments en présence dans le débat ne sont pas tous suggérés) : il y a un effet de

cadrage de la problématique. Souvent, cet effet se produit lorsque on soumet les sondés à une

alternative binaire qui oublie d’autres positions éventuelles.

Sondage IFOP – Métro (juin 2007) : Vous personnellement, si vous en aviez le choix, que préféreriez-vous ? - Gagner moins d’argent et avoir plus de temps libre 35 % - Gagner plus d’argent et avoir moins de temps libre 63 % - NSP 2 %

Or la question aurait pu être formulée de la sorte : « Gagner plus d’argent et avoir moins de

temps libre vs. Avoir plus de temps libre et gagner moins d’argent » ou bien « Gagner plus

d’argent et consacrer moins de temps à sa famille vs. Gagner moins d’argent et consacrer plus de

temps à sa famille ».

60

Enfin, les modalités proposées (c’est-à-dire les réponses) tendent elles aussi à conditionner l’avis

des personnes. Il y a notamment de grandes différences entre les deux enquêtes suivantes :

Sondage BVA-Le Figaro : « Les syndicats de la SNCF et de la RATP appellent à une journée de grève le jeudi 18 octobre pour protester contre la réforme des régimes spéciaux de retraite. Vous-même pensez-vous que ce mouvement est tout à fait justifié, plutôt justifié, pas vraiment justifié ou bien pas justifié du tout ? » − Tout à fait justifié 18 % − Plutôt justifié 25 % − Pas vraiment justifié 24 % − Pas du tout justifié 31 % − NSP 4 % Sondage CSA-L’Humanité : « Vous savez que plusieurs syndicats de la SNCF, de la RATP, d’EDF-GDF, de l’ANPE, de l’UNEDIC, de l’Éducation nationale appellent à une journée nationale d’action et de grève le 18 octobre prochain, notamment sur l’avenir du système de retraite et des régimes spéciaux. Quelle est votre attitude à l’égard de ce mouvement ? Le soutien, la sympathie, l’indifférence, l’opposition, et enfin l’hostilité » − Soutien 39 % − Sympathie 15 % − Indifférence 17 % − Opposition 18 % − Hostilité 8 % − NSP 3 %

C. Mesurer la consistance des opinions. Ces exemples confirment que les réponses

recueillies dépendent beaucoup de la nature du questionnaire et de la manière dont les individus

vivent la situation d’enquête (se vivent-ils en situation d’élève qui doit apporter de bonnes

réponses, c’est-à-dire des réponses jugées publiquement ou socialement dicibles ? Ou au contraire

profitent-ils du relatif anonymat de l’interview pour énoncer des opinions qu’ils n’oseraient pas

livrer dans d’autres circonstances ?).

Mais comment parvenir à mesurer cette consistance des réponses, notamment lorsque les

questionnaires invitent les interviewés à exprimer leurs opinions ou à révéler des comportements

« privés » ou secrets (vote, pratiques sexuelles, actes illégitimes ou illicites, etc.). Depuis les années

1980, un certain nombre de recherches s’efforcent de répondre à ces questions. Pour cela, elles

reposent sur un protocole expérimental. Mener une expérience consiste à comparer deux

événements que seule une dimension distingue. Il s’agit de faire varier une variable (« toutes

choses égales par ailleurs ») et d’observer si cette variation pèse sur les résultats. En l’occurrence,

en matière d’enquêtes par questionnaire, ces expériences peuvent être de deux natures :

− Soit elles portent sur les effets des conditions dans lesquelles l’enquête se déroule (lieu de

l’entretien, identité de l’enquêteur, etc.). Par exemple, l’enquêteur doit-il être le plus effacé

possible ou au contraire doit-il être très actif ?

− Soit elles portent sur les effets du questionnaire lui-même (l’ordre des questions ou leur

libellé).

61

Ces recherches reposent sur la méthode du split. Le principe est de diviser l’échantillon en deux

ou trois sous-échantillons dont la composition est identique. Chaque échantillon se voit proposer

une version différente du questionnaire ou alors une situation d’enquête spécifique.

(1) Les enquêtes de Jean-Paul Grémy réalisées en 1988 ont ainsi pu mettre à jour

l’importante proportion de « répondants flottants » : ils répondent mais sans disposer d’un avis

véritablement « solide » sur le sujet de l’enquête. Deux expériences permettent de le mettre à jour.

→ Le problème de la réponse médiane. Face à une même question, un premier échantillon

dispose de deux modalités (plus / moins) tandis que le second échantillon dispose de trois

modalités (plus / autant / moins).

« L’État devrait verser aux écoles libres plus d’argent qu’actuellement, [autant d’argent qu’actuellement] ou moins

d’argent qu’actuellement ? »

- Plus 48 % 33,5 %

- Autant - 32 %

- Moins 19 % 14 %

- Sans avis 33 % 21 %

Cette expérience soulève le problème de l’intensité de l’opinion exprimée. Les chercheurs sont

généralement partagés sur l’idée d’introduire une réponse médiane comme celle-ci. D’un côté,

sans réponse médiane, les interviewés sont soumis à une alternative binaire qui incite les hésitants

à répondre « sans avis ». De l’autre, les réponses médianes peuvent être retenues par des

interviewés sincèrement convaincus du bien-fondé de l’actuelle distribution d’argent public et

d’autres indifférents ou qui n’ont pas d’opinions préexistantes à l’enquête : en somme, répondre

« autant » est peu engageant (ça ne mange pas de pain !). Il faut toutefois noter qu’il n’y a pas de

modification de la distribution des réponses signifiantes (on reste dans les deux cas dans un

rapport de 70/30 entre les « plus » et les « moins »).

→ La réponse sans avis. L’expérience consiste ici à soumettre un premier échantillon à la même

question que précédemment et placer un second échantillon face à une question préalable

demandant si les personnes ont un avis sur la question (question filtre).

« [En ce qui concerne l’argent que l’Etat verse aux écoles libres, avez-vous un avis sur la question ? Si oui,]

l’État devrait verser aux écoles libres plus d’argent qu’actuellement, autant d’argent qu’actuellement ou moins

d’argent qu’actuellement ? »

- Plus 34 % 18 %

- Autant 31,5 % 21 %

- Moins 13 % 10 %

62

- Sans avis 22 % (pas de sans avis) 51 % (en filtre)

La majorité des chercheurs est favorable soit à l’utilisation d’un tel filtre, soit à la présentation

explicite de la possibilité de ne pas répondre, afin de diminuer le stress du répondant. A nouveau,

si la distribution des réponses signifiantes évolue (de 34/13 à 18/10), leur rapport varie peu (de

72/28 à 64/36).

Ces expériences montrent toutefois qu’au regard des 48 % d’interviewés supposés

attendre de l’État davantage de moyens pour les écoles publiques, l’ajout d’un filtre et d’une

réponse médiane fait chuter cette proportion à 18 %. Au-delà de l’idée que les sondages

reposeraient sur des bases peu solides, il est surtout intéressant de constater que ces « répondants

flottants » ne se recrutent pas aléatoirement dans l’espace social : ils se distinguent des autres par

quelques traits sociologiques et notamment un plus faible niveau d’instruction. On peut alors se

demander, c’est l’hypothèse de Grémy, si la réponse « plus d’argent » n’est pas survalorisée car

apparaissant la plus conforme aux normes sociales (indépendamment du sujet en question).

(2) L’enquête menée par le CEVIPOF en 2000 porte sur l’attitude des Français à l’égard

de la démocratie. Mais cette enquête répond également à des enjeux méthodologiques : parvenir à

mesurer la « consistance » des opinions exprimées par les interviewés soumis au questionnaire.

Trois types d’expériences, inspirées de travaux américains, sont menés et présentées par Nonna

Mayer (cf. article du livret) :

- Des expériences de mise en scène. L’enjeu est d’éviter d’utiliser des notions

abstraites et décontextualisées. Il faut plutôt raconter des « petites histoires » qui mettent en scène

les pouvoirs publics face aux problèmes du moment puis de décliner ces histoires en plusieurs

versions différentes. L’expérience consiste alors à tester si les individus s’orientent en fonction de

« grands principes » ou en fonction d’un contexte. Par exemple, s’agissant de l’enseignement de

certains cours en langues étrangères, les Français se prononcent-ils sur l’apprentissage de langues

différentes en général ou bien leur opinion varie-t-elle selon les langues en question ? Ici, c’est la

seconde hypothèse qui est la bonne : en effet, une majorité trouve normal que de tels cours

existent en breton (71 %), corse (66 %) ou portugais (54 %) mais c’est une minorité qui adhère à

la même mesure lorsqu’il s’agit de l’arabe (43 %).

- Des expériences d’argumentation ou de contre-argumentation. L’enjeu ici

est de s’écarter de la neutralité habituelle et de fournir des arguments tirés des débats du moment

pour tester le degré de conviction du répondant. Il existe plusieurs variantes dans ce type

d’expériences. L’une d’entre elle consiste à poser une première question puis, une fois la réponse

recueillie, à soumettre l’interviewé à une contre-argumentation. Pour tester la solidité des

63

convictions, l’échantillon est à nouveau segmenté : une première moitié fait face à un argument

« vide » (si l’interviewé change alors d’avis, c’est uniquement par soumission à l’enquêteur) tandis

que l’autre moitié fait face à un argument « plein » (si l’interviewé change d’avis, c’est soit par

soumission, soit par adhésion à la contre-argumentation : on est alors davantage dans une

situation réelle de formation et de construction des opinions, fondées sur l’échange d’arguments

et parfois l’imposition d’une « vérité » qui soumet les autres au silence)

« Certains disent qu'il faudrait augmenter le montant des indemnités de chômage. Vous-même, êtes-

vous plutôt d'accord ou pas d'accord du tout avec cette opinion ? »

− D'accord 54 % − Pas d'accord 46 %

A ceux qui ont répondu « d'accord » :

D'accord Pas d'accord SR

Si les indemnités de chômage sont trop confortables, les chômeurs ne seront pas encouragés à chercher du travail (puis reprise de la question de départ)

60 37 3

Si on pense à tous les problèmes que ça pose puis reprise de la question de départ)

81 15 4

A ceux qui ont répondu « pas d'accord » :

D'accord Pas d'accord SR

Avec les indemnités actuelles, il y a trop de familles qui n'arrivent pas à s'en sortir (puis reprise de la question de départ)

29 66 5

Si on pense à tous les problèmes que ça pose puis reprise de la question de départ)

13 84 3

Ici, 37 % de ceux qui étaient favorables à une augmentation des allocations chômage changent

d’avis face à un argument contraire. Mais il faut surtout noter que ce changement d’avis est

fortement lié au capital culturel, au niveau de diplôme : ils sont 45 % chez ceux qui n’ont pas le

bac et 25 % chez ceux qui ont le bac.

On observe toutefois que l’ampleur de ces variations d’opinion dépend du sujet testé.

Ainsi, face à une question relative à l’acceptation du port du voile islamique à l’école, la

distribution des réponses demeure systématiquement identique (autour de 70 / 30),

indépendamment des arguments utilisés pour justifier l’une ou l’autre des positions.

- Des expériences incitatives. L’expérience dite de la « pommade » enfin sert à

tester le degré d’enracinement des opinions. L’enjeu est à nouveau de quitter l’habituelle

neutralité et faire en sorte que l’interviewé se sente suffisamment en confiance pour oser livrer

des préjugés souvent indicibles...

64

Version sans pommade : « Nous arrivons à la fin de l'entretien. Je voulais vous poser une dernière question. Pensez-vous qu'il y a − trop de liberté en France ? − trop de démocratie en France ? »

Version avec pommade : « Nous arrivons à la fin de l'entretien. Je voulais vous dire que j'ai beaucoup apprécié cet entretien et que vos réponses nous serons très utiles. Finalement, ne pensez-vous pas, contrairement à ce que l'on entend souvent dire, que le vrai problème en France, c'est qu'il y a : − trop de liberté ? − trop de démocratie ? »

Sans « pommade » Avec « pommade » Écart

Liberté - Trop - Pas trop

28 70

40 57

+12 -14

Démocratie - Trop - Pas trop

16 81

31 65

+15 -16

Le problème ici, c’est qu’il est difficile d’interpréter les écarts. En effet, certaines personnes sont-

elles mises en confiance par la pommade et expriment-elles alors des opinions qu’elles ne

revendiqueraient pas publiquement dans d’autres circonstances ? Ou bien certaines personnes

cherchent-elles à faire plaisir à un interlocuteur qui sous-tend manifestement que la bonne

réponse est « oui, il y a trop de liberté » ? Cet exemple est néanmoins intéressant car il rappelle

qu’une expérience ne peut permettre de valider qu’une hypothèse que si elle respecte la règle d’or

du protocole expérimental : ne faire varier qu’un seul facteur !

Section 3. L’analyse des données statistiques

La production de données chiffrées ne suffit évidemment pas à garantir la scientificité

d’une enquête. Les statistiques n’ont en effet de valeur scientifique qu’à condition d’être articulées

à un raisonnement sociologique (qui ne se réduit pas à des problèmes purement techniques !).

Trois dimensions distinguent les approches sociologiques des simples comptages administratifs :

- D’abord, c’est un rappel, le raisonnement sociologique implique une distance critique

par rapport aux données. Il faut étudier les conditions dans lesquelles elles ont été

recueillies, déterminer ce que les indicateurs mesurent réellement, etc.

- Ensuite, le raisonnement sociologique ne s’arrête pas à la description d’un fait (par

exemple, le taux de chômage aujourd’hui). Il s’articule à des questions, si bien que le

travail prend un caractère scientifique quand les données permettent d’étudier des

évolutions (le taux de chômage dans le temps), d’effectuer des comparaisons (le taux

65

de chômage dans différents pays), de distinguer des corrélations entre variables (le taux

de chômage des différentes PCS). Les statistiques ont un potentiel descriptif certain

mais elles ont aussi la capacité de mettre à jour les relations « objectives » entre

phénomènes sociaux (par exemple, niveau de diplôme et profession des parents, âge et

vote, etc.) : elles ont à ce titre un potentiel explicatif.

- Enfin, le raisonnement sociologique ne se limite pas à la simple mesure statistique,

même lorsque celle-ci repose sur des outils mathématiques complexes. Car si les

données quantitatives permettent de mettre à jour des régularités ou d’établir des

corrélations, elles ne permettent pas en elles-mêmes d’interpréter ces régularités ou de

comprendre ces corrélations. Pour formuler des conclusions sociologiquement

pertinentes, il faut, le plus souvent, accompagner les éléments chiffrés de modèles

théoriques et d’enquêtes de terrain de nature qualitative. On ne peut faire dire aux

données plus que ce qu’elles mettent à jour !

§1. La description des variables

La première étape dans l’analyse des données statistiques consiste toujours à décrire les

résultats pour chacune des variables étudiées : l’enjeu est d’identifier les informations les plus

significatives, au regard notamment de la problématique de l’enquête. Par exemple, dans un

sondage ou une enquête par questionnaire, cela veut dire étudier la distribution des réponses à

chaque question. Mais les principes de description varient selon la nature des variables.

(1) Principes de description des variables quantitatives. Rappelons que les variables

quantitatives sont des « variables qui s’expriment sous la forme d’une valeur métrique » (Philippe

Alonzo), autrement dit la variable s’exprime sous une forme numérique, le nombre constituant la

valeur de la variable (valeur rapportée à une unité de mesure). L’âge, le revenu, le taux de

chômage (exprimé en pourcentage), le produit intérieur brut, l’indice des prix ou encore le

nombre d’enfants par femmes sont des variables quantitatives. Voici un exemple relativement

simple : l’âge des étudiants du master qui ont répondu à l’enquête « Les étudiants, les élections et

la politique » (SPEL / CNRS / UPJV / UVSQ). Le corpus comprend 28 questionnaires remplis.

A cette question de l’âge, seuls 24 interviewés ont correctement rempli le questionnaire. L’âge

(mesurable à partir du mois et de l’année de naissance) constitue la seule variable quantitative du

questionnaire.

66

Âges Effectifs % brut % croissants % décroissants

21 5 20,8% 20,8% 100,0% 22 5 20,8% 41,7% 79,2% 23 5 20,8% 62,5% 58,3% 24 3 12,5% 75,0% 37,5% 25 3 12,5% 87,5% 25,0% 28 1 8,3% 95,8% 12,5% 36 1 4,2% 100,0% 4,2%

Total 24 100,0% - -

Tableau. Répartition des interviewés selon l’âge

Comment décrire les données du tableau ?

D’abord, lorsque la dispersion des valeurs est importante et nuit à la lisibilité du tableau et

à l’identification des informations, il est possible d’opérer des regroupements et d’établir des

classes d’âge. Ici, la variable « âge » ne comprenant que 7 valeurs, cette opération ne paraît pas

indispensable (sauf, à la rigueur, en regroupant les valeurs les plus élevées 28 et 36 ans dans une

classe « 28 ans et plus »).

Ensuite, il est souvent précieux de transformer les données brutes en pourcentages. La

fréquence relative de chaque valeur dans la population apparaît alors de façon plus marquante

(car le poids en valeur absolu est peu significatif : « 5 sur 28 » parle moins que « 21 % ». Les

pourcentages permettent eux aussi d’opérer des regroupements. Parmi les regroupements

possibles, il peut être utile de cumuler les pourcentages de façon croissante ou décroissante : par

exemple, 62 % des étudiants ont 23 ans et moins et 58 % ont 23 ans et plus. Établir les

pourcentages permet notamment de faciliter la représentation graphique des données. Le choix

du graphique dépend là encore des hypothèses et de la problématique. Selon les cas, il peut être

plus utile de constituer des histogrammes, des courbes ou des « aires » (camembert)… :

67

Il existe ensuite d’autres outils de description des données :

- Le mode = la valeur la plus fréquemment distribuée. Ici, c’est 21, 22 et 23 ans.

- La moyenne = la valeur obtenue en divisant la somme des valeurs par le nombre d’individus.

Ici, c’est 23,7 ans. Souvent, les moyennes sont biaisées par deux paramètres. D’abord, la variable

« âge » est discrète et non continue (on n’a que les années et non les années et les mois – il est

possible que les 23 ans soient plus proches de leur 24e anniversaire que de leur 23e). Ensuite, il est

fréquent que les individus qui s’écartent trop de la « norme » soient regroupés dans une seule

catégorie (par exemple, mettre les 28 ans et plus ensemble !), ce qui ne permet pas d’établir leur

âge exact.

- La médiane = « tendance centrale pour laquelle exactement la moitié des données se situent

au-dessus tandis que l’autre moitié lui est inférieure. » Ici, c’est également 23 ans.

Pourquoi faut-il distinguer moyenne et médiane ? Parce que, comme le soulignent les

statisticiens de l’INSEE, de nombreuses grandeurs économiques sont limitées vers le bas et non

vers le haut. Par exemple, le salaire horaire est limité vers le bas par le SMIC alors que certains

salaires peuvent être très élevés. La moyenne est tirée vers le haut par les salaires élevés, même

s’ils sont peu nombreux, et elle est pour cette raison généralement supérieure à la médiane.

Par ailleurs, l'incertitude qui affecte les valeurs extrêmes, en particulier les valeurs élevées, se

reporte sur la moyenne mais n'affecte pas la médiane. Celle-ci est de ce point de vue un indicateur

plus fiable. Par exemple, en France en 2008, le revenu disponible moyen mensuel par ménage est

de 2871 euros, tandis que le revenu disponible médian mensuel par ménage est de 2380 euros. En

France en 2008, le revenu moyen mensuel par individu est de 1842 euros, tandis que le revenu

68

médian mensuel par individu est de 1582 euros (source : INSEE). De la même manière, en 2000,

la moyenne des patrimoines des ménages français est de 100 000 euros, alors que le patrimoine

médian est de 78 000 euros.

De telles disparités peuvent jouer un rôle certain dans le débat public : selon le champ de

référence (individu ou ménage ; revenus avant ou après impôts ; etc.) et le type de mesure

(moyenne, médiane), il est possible de légitimer telle ou telle mesure pour son caractère

« juste » ou « correspondant à la moyenne » ! Les débats autour de la taxation du patrimoine ou

des successions mettent régulièrement en scène de tels affrontements.

- La variance = écart moyen entre la moyenne et les résultats. V = (|moy-X1| + |moy-X2| +

|moy-X3| +...)/N. En l’occurrence, la variance est ici de 2,13. Il est important en effet de ne pas

se préoccuper seulement de la moyenne ou de la médiane. Une même moyenne peut en effet

renvoyer à des réalités disparates. D’un côté, les valeurs peuvent être toutes proches de la

moyenne et dessiner une population homogène. De l’autre, la population peut être extrêmement

hétérogène, la moyenne tendant à masquer ces divergences ! L’étude de la variance est

notamment utile dans les études sur les revenus : elles peuvent fournir une première indication

sur l’état des inégalités.

- Les « quantiles » : en plus de la médiane, il est souvent précieux d’identifier les quantiles, c’est-

à-dire les « valeurs qui divisent un ensemble d’observations en X parties égales ». Les quartiles

impliquent 4 parties égales, les déciles 10 parties égales, les centiles 100 parties égales, etc. Chaque

groupe contient alors 25 %, 10 % ou 1 % des données. Ici, les bornes des quartiles sont 21-22

ans / 22-23 ans / 23-24,25 ans / 24,25-36 ans. Ce repérage des quartiles confirment la

concentration des individus autour des valeurs 22-24,25 ans !

Mais les « quantiles » sont surtout utiles pour saisir les inégalités de richesse et comparer

leurs évolutions. Par exemple, étudions les revenus de l’ensemble des foyers et divisons ces foyers

en dix groupes de taille égale. D’après l’INSEE, en 2006, les 10 % des ménages les moins riches

déclarent moins de 1018 € de revenus par mois (après impôts et prestations sociales). A l’inverse,

les 10 % des ménages les plus riches déclarent plus de 4690 € de revenus par mois. Le rapport

entre les deux est de 4690/1018 = 4,6. Il est alors possible d’étudier l’évolution de ce rapport

dans le temps ou bien entre pays afin d’étudier l’évolution des inégalités des revenus. Il est

également possible de comparer les rapports inter-déciles entre eux pour identifier où réside la

principale « cassure » sociale. En l’occurrence, en France aujourd’hui, cette cassure réside

principalement entre le 9e et le 10e décile : les 8 premières bornes sont beaucoup plus proches les

69

unes des autres que la 9e ! Thomas Piketty montre d’ailleurs que les inégalités sont encore plus

marquées si l’étude s’intéresse non plus aux déciles mais aux centiles (c’est d’ailleurs les foyers

appartenant aux derniers centiles qui ont connu la plus nette envolée des revenus depuis la

dernière décennie : les 0,01 % des plus hauts salaires ont augmenté de 69 % entre 1998 et 2006,

soit un bonus mensuel de 34 000 euros en l’espace de huit ans, cf. les travaux de Camille

Landais.).

Revenus délimitant chaque décile (en €)

Différences entre déciles (en €)

Rapports inter-déciles

Part du groupe dans la richesse nationale

10 % 1018 3,6 % 20 % 1308 290 0,65 5,3 % 30 % 1593 285 1,22 6,3 % 40 % 1913 320 1,2 7,2 % 50 % 2263 350 1,18 8,1 % 60 % 2641 378 1,17 9 % 70 % 3051 410 1,15 10,1 % 80 % 3648 597 1,2 11,6 % 90 % 4690 1042 1,29 14,1 % 95 % 5974 - - -

100 % - - - 24,70%

Tableau. Revenus mensuels des ménages (en euros, après impôts et prestations sociales). Source, INSEE, 2006.

Enfin, plutôt que sur les bornes inter-déciles, le calcul peut porter sur les revenus moyens au sein

de chacune des 10 fractions de population. Cela permet notamment de dessiner la courbe de

Lorenz : plus elle s’écarte de la diagonale et prend une forme exponentielle, plus les inégalités

sont prononcées.

Courbe de Lorenz des revenus français (2006)

70

Il est alors possible de mesurer le rapport entre les revenus moyens des deux fractions de

population aux marges de l’espace social ou bien d’observer l’évolution dans le temps de la part

du revenu des 10 % les mieux rémunérés dans le revenu national.

N.B. : Les indicateurs quantitatifs soulèvent un problème spécifique : celui de la

pondération. En effet, les indicateurs agrègent des données différentes. Dans le cas de la

richesse, il est assez simple d’agréger « revenus du travail » et « patrimoine » qui se cumulent

effectivement dans la vie de chacun. Parfois cependant, les différents éléments qui composent un

indicateur ne « pèsent » pas la même chose, rendant délicat la constitution et la mesure de

l’indicateur. Prenons deux exemples :

- La visibilité médiatique : Chercheurs et spécialistes en communication analysent régulièrement

la médiatisation des événements, des mouvements sociaux ou des personnalités. L’analyse peut

être qualitative, étudiant les « cadrages » de l’actualité et les appréciations positives ou négatives

adressées aux protagonistes de la vie politique. Mais l’analyse peut également être strictement

quantitative, évaluant la visibilité des acteurs dans les médias. Seulement, comment mesurer cette

visibilité ? Dix secondes à la radio valent-elles une interview pleine page dans les journaux ? Il est

possible d’affecter à chaque mention d’une personnalité un coefficient correspondant à l’audience

moyenne du média. Chaque évocation est donc rapportée à son « poids » en termes d’ampleur du

public. Mais comment différencier les mentions dans la presse écrite selon qu’elles figurent en

« une » ou au cœur d’un article ? Selon qu’elles concernent tout un article ou une petite référence

dans une brève ? C’est là qu’intervient l’arbitraire du coefficient : on ne peut fixer de principes de

pondération objectifs au sens d’universellement acceptés.

- L’indice des prix à la consommation : L'indice des prix à la consommation (IPC) est un

instrument de mesure de l'inflation élaboré par l’INSEE. Il permet d'estimer, entre deux périodes

données, la variation moyenne des prix des produits consommés par les ménages. C'est une

mesure synthétique de l'évolution de prix des produits, à qualité constante. Publié chaque mois au

Journal Officiel, il joue un rôle politique et social majeur puisqu’il sert à indexer de nombreux

contrats privés, des pensions alimentaires, des rentes viagères et aussi à revaloriser le SMIC.

L'indice retenu pour le SMIC est celui des « ménages urbains dont le chef est ouvrier ou employé,

hors tabac ». La constitution de cet indice est donc fondamental et suscite de nombreuses

crispations, notamment parce qu’il n’est pas un indice du coût de la vie. Beaucoup le juge

inadapté. Pourquoi ?

Pour répondre à cette question, il faut d’abord revenir sur les méthodes retenues par

l’INSEE. « Le plan de sondage est stratifié selon trois types de critères. (1) Géographique : les

71

relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants dispersées sur le

territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ; (2) type de

produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est défini

pour tenir compte de l'hétérogénéité des produits au sein des postes. La variété est le niveau de

base pour le suivi des produits et le calcul de l'indice ; (3) type de point de vente : un échantillon

de 27 000 points de vente, stratifié par forme de vente, a été constitué pour représenter la

diversité des produits et modes d'achat des consommateurs et prendre en compte des variations

de prix différenciées selon les formes de vente. Le croisement de ces différents critères aboutit à

suivre un peu plus de 140 000 séries (produits précis dans un point de vente donné) donnant lieu

à près de 160 000 relevés mensuels. A ces chiffres s'ajoutent environ 30 000 séries de type "tarif"

collectées de façon centralisée. L'échantillon est mis à jour annuellement pour tenir compte de

l'évolution des comportements de consommation et, notamment, introduire des produits

nouveaux. Outre la composition de l'échantillon, les pondérations utilisées pour agréger les 21

000 indices élémentaires (croisement variétés x agglomération dans le cas général) sont également

mises à jour chaque année. Ces pondérations représentent la part des dépenses associées à

l'agrégat concerné au sein de l'ensemble des dépenses de consommation des ménages couvertes

par l'indice. Elles sont obtenues, pour la plupart, à partir des évaluations annuelles des dépenses

de consommation des ménages réalisées par la Comptabilité Nationale. Des traitements

spécifiques sont effectués pour les produits frais, les autres variétés saisonnières, les variétés

tarifaires et pour déterminer des évolutions de prix "pures", à qualité constante, lorsqu'un produit

disparu est remplacé en cours d'année par un autre. Les promotions et soldes offerts à tous les

consommateurs sont pris en compte. L'IPC couvre l'ensemble des biens et services marchands

consommés sur le territoire, par les ménages résidents et non-résidents (comme les touristes).

Son champ théorique se définit comme celui de la consommation finale effective marchande

monétaire des ménages. Les principaux défauts de couverture portent encore sur certains types

d'assurances, les services hospitaliers privés, les jeux de hasard et l'assurance vie. » (INSEE)

Fonctions de consommation Pondération

en 2009 (en %)

PRODUITS ALIMENTAIRES ET BOISSONS NON ALCOOLISÉES

14,99

BOISSONS ALCOOLISÉES ET TABAC 3,27 HABILLEMENT ET CHAUSSURES 4,93 AMEUBLEMENT, ÉQUIPEMENT MÉNAGER ET ENTRETIEN COURANT DE LA MAISON 6,17

SANTE 9,96 COMMUNICATIONS 2,99 LOISIRS ET CULTURE 9,20 EDUCATION 0,24 HÔTELLERIE, CAFÉS, RESTAURATION 6,78

72

AUTRES BIENS ET SERVICES 11,58 LOGEMENT, EAU, GAZ, ÉLECTRICITÉ ET AUTRES COMBUSTIBLES 16,32 TRANSPORT 13,57 ENSEMBLE 100

Chaque bien est affecté d’un coefficient qui correspond à sa part dans le budget des ménages. La

controverse tient à ce que cette proportion n’est pas la même pour tout le monde : tout le monde

ne consomme pas la même chose et dans les mêmes proportions. Pour un ménage modeste, la

part du logement dans le budget est beaucoup plus élevé que pour les ménages plus riches (plus

de 30 % pour les 20 % les plus pauvres, contre moins de 10 % pour les 20 % les plus riches).

L’indice des prix à la consommation ne peut donc servir à évaluer l’évolution du pouvoir d’achat.

Un tel usage aurait d’autant moins de sens que les problèmes de pouvoir d’achat tiennent, d’une

part, autant à la question de l’évolution des revenus qu’à celle de l’évolution des prix et que,

d’autre part, ces difficultés concernent avant tout certaines catégories de la population : cela a-t-il

un sens de mesurer une évolution moyenne du pouvoir d’achat ?

(2) Principes de description des variables nominales.

Professions et catégories

sociales (PCS) Nombre (en milliers)

Proportion (pour mille

actifs)

Agriculteurs exploitants 1 475 63 ‰

Artisans, commerçants et

chefs d'entreprise 1 835 78 ‰

Cadres et professions

intellectuelles supérieures 1 895 81 ‰

Professions intermédiaires 3 971 169 ‰

Employés 6 247 265 ‰

Ouvriers 7 749 329 ‰

Chômeurs n'ayant jamais

travaillé 353 15 ‰

Population active 23 525 1 000 ‰

Tableau 1. Structure de la population active en 1982.

73

§2. L’identification des corrélations statistiques

Jusqu’ici, nous avons analysé chaque variable isolément afin d’en dégager les informations

principales. Mais l’intérêt de l’objectivation statistique est aussi de mettre en relation deux

variables et de voir s’il y a ou non « corrélation » ou encore lien d’interdépendance. Prenons un

exemple fictif : une enquête menée auprès d’un échantillon d’étudiants français dont l’enjeu serait

notamment de saisir les liens entre le type de baccalauréat (Variable 1) et le type d’études

supérieures (Variables 2). Ces deux variables sont nominales et comprennent chacune trois

modalités : il y a donc neuf « croisements » possibles. 1000 étudiants sont interviewés : tous sont

issus soit d’un bac « général », soit d’un bac techno. Le tableau croisé ci-dessous indique la

distribution des interviewés pour chaque variable.

Classe prépa IUT / BTS Université Ensemble

Bac S 40 20 40 100 Bac ES – L 50 190 160 400 Bac techno 10 90 400 500

Ensemble 100 300 600 1000

74

Tableau 1. Distribution de la population étudiante selon le baccalauréat et la filière de l'enseignement supérieur (données fictives)

Comment identifier et mesurer les éventuelles corrélations entre ces deux variables ? L’une des

solutions consiste à établir ce que serait la distribution s’il y avait indépendance entre variables,

autrement dit si l’affectation des étudiants reposait sur le seul hasard et non sur leur bac d’origine.

Ainsi, parmi les 100 interviewés qui intègrent une classe préparatoire, il faut retrouver la même

distribution de bac d’origine que pour l’ensemble de la population. Les bac techno forment la

moitié des interviewés (500/1000) : ils doivent alors former la moitié des étudiants de classe

prépa, soit 50/100. 50=100*(500/1000) ou 50=500*(100/1000).


Bac S 10 30 60 100

Bac ES – L 40 120 240 400

Bac techno 50 150 300 500

Ensemble 100 300 600 1000

Tableau 2. Distribution théorique selon l'hypothèse d'indépendance des variables (données fictives)

Sans surprise, les résultats des tableaux 1 et 2 divergent sensiblement : il y a « écart à

l’indépendance » donc lien de dépendance donc corrélation statistique entre variables.


Bac S +30 -10 -20 0

Bac ES – L +10 +70 -80 0

Bac techno -40 -60 +100 0

Ensemble 0 0 0 0

Tableau 3. Écarts à la distribution théorique (données fictives)

Comment lire ces écarts et convertir ces informations chiffrées en informations

sociologiques ? Une lecture possible consiste à dire que « les titulaires du baccalauréat S sont

statistiquement surreprésentés parmi les étudiants des classes préparatoires, alors qu’à l’inverse ils

sont sous-représentés parmi les étudiants des filières courtes ou des filières universitaires. » Une

autre lecture possible consiste à dire « les titulaires du baccalauréat S ont statistiquement plus de

75

chances d’accéder aux classes préparatoires que les étudiants des autres baccalauréats. » Deux

petites remarques supplémentaires :

- D’abord, ce n’est pas une surreprésentation « dans l’absolu » : ils sont par

exemple moins nombreux que les titulaires des Bac ES et L. C’est une

surreprésentation par rapport à leur effectif total.

- Ensuite, les résultats n’ont de sens que dans la comparaison, que dans une

perspective relationnelle : les titulaires du Bac S sont surreprésentés par

rapport aux titulaires d’autres bac.

Le tableau 3 permet de mettre en évidence un lien de dépendances entre les deux variables : l’une

dépend statistiquement de l’autre. Les études suivies dépendent du type de bac. Variables

indépendante (type de baccalauréat) → variables dépendantes (étude choisie). Ici, le lien de

corrélation est de type causal : l’un détermine l’autre car l’un est antérieur à l’autre.

Le tableau 3 n’est qu’un point de départ. En l’état, on ne peut rien dire de plus que

constater cette corrélation. Le travail doit être poursuivi. D’une part, il faudrait mobiliser des

outils mathématiques plus sophistiqués pour établir quelle est l’ampleur de la corrélation (analyses

de régression ou analyses factorielles). D’autre part, il faut essayer d’expliquer ou d’interpréter ce

lien entre les deux variables, c’est-à-dire suggérer des hypothèses sociologiques et les vérifier.

§3. L’interprétation des corrélations

Comment expliquer ces liens statistiques entre « baccalauréat » et « études » ? D’un côté,

la relation est directe : les personnes chargées de recruter les élèves en classes prépa ou dans les

filières courtes s’appuient explicitement sur le critère du bac. Ce n’est pas le seul pris en compte

mais il est souvent déterminant. L’effet de la variable indépendante sur la variable dépendante est

ici direct ! Mais d’un autre côté, la variable « type de baccalauréat » dépend elle aussi de nombreux

facteurs sociaux (il n’y a pas non plus de hasard sociologique dans l’affectation des élèves au

lycée). Elle « dissimule » d’autres variables susceptibles d’expliquer l’orientation dans les études :

le milieu social d’origine, le sexe, le capital culturel des parents, etc. A travers ce deuxième registre

explicatif, la relation entre les deux variables est indirectes : elles sont toutes deux déterminées par

une même cause.

L’exemple choisi ici est simple. Mais il renvoie à un problème régulier et souvent plus

complexe à résoudre : comment expliquer ou interpréter les corrélations statistiques mises à

jour ? Il n’est pas toujours aisé de déterminer quelle variable est dépendante de l’autre ! Il y a en

fait trois principaux scénarios explicatifs :

76

- Causalité : « Une variable agit directement sur la seconde variable et produit un

effet » (Philippe Alonzo).

- Concomitance ou cooccurrence : « Nature du lien entre deux variables

présentant un rapport de simultanéité, souvent sous l’influence d’une troisième variable ».

(Philippe Alonzo) Autrement dit, les deux variables ont une même cause. Pour prendre des

exemples triviaux mais parlants, pensons au lien entre sexualité après 65 ans et espérance

de vie : toutes deux sont déterminées par une tierce variable : la bonne santé. Autre

exemple trivial : la corrélation après 1945 entre consommation de bière en Californie et la

mortalité infantile au japon (la variable cachée est ici un front caniculaire sur le Nord

Pacifique). Enfin exemple plus sérieux : le lien entre race et QI aux États-Unis. En fait, la

variable « race » masque une variable autrement discriminante : la position dans l’espace

social… A ce titre, l’indicateur du QI lui-même est problématique parce qu’il détermine

non pas ce que serait objectivement l’intelligence mais la capacité à résoudre des problèmes

qui figurent dans les programmes scolaires (définis donc par les catégories dominantes).

- Interdépendance : Nature du lien entre deux variables dont les variations s’auto-

entretiennent. Un exemple assez simple : la conversion réciproque entre capital

économique et capital culturel.

Il faut donc être particulièrement vigilant dans l’interprétation de corrélations

apparemment évidentes. Les trois exemples suivants renvoient à trois difficultés récurrentes.

(1) La corrélation entre âge et suicide : effet d’âge ou effet de génération ?

Le premier exemple est à nouveau emprunté à Émile Durkheim. Celui-ci met en relation

deux variables : le taux de suicide des hommes célibataire en France entre 1889 et 1891 et l’âge.

Pourquoi indique-t-il une proportion (nombre de suicides pour un million de célibataires) plutôt

que le nombre de suicidés par classe d’âge en valeur absolue ? Tout simplement parce que les

classes d’âges ne sont pas homogènes en taille. La conversion du nombre brut en proportion

permet de neutraliser l’effet de cette hétérogénéité.

77

Tableau 6. Taux de suicide moyen selon l'âge (hommes célibataires, France 1889-91).

(source : Émile Durkheim, Le Suicide, 1987)

La lecture du tableau met en évidence un effet évident de l’âge sur le taux de suicide des hommes

célibataires. Ce taux progresse de façon continue (sauf pour la dernière classe d’âge). Mais

lorsqu’on convertit ce tableau en graphique émerge une autre représentation de la corrélation

entre âge et taux de suicide des hommes célibataires : la progression du taux de suicide avec l’âge

n’est pas seulement régulière, elle est linéaire !

Schéma 2. Taux de suicide moyen selon l'âge (hommes célibataires, France 1889-91). (source : Émile Durkheim, Le Suicide, 1987)

Comment interpréter ce graphique ? A première vue, cela paraît mettre en évidence un

« effet d’âge ». Pourtant il pourrait y avoir une seconde interprétation : il pourrait s’agir d’un

« effet de génération », c’est-à-dire que ce n’est pas tant l’âge qui serait déterminant mais la date

de naissance. Chaque génération naît et grandit dans un contexte singulier ; les principes éducatifs

évoluent ; les perspectives sociales également. Autrement dit, la plus ou moins grande

perméabilité au suicide pourrait résulter de socialisations spécifiques : le taux de suicide d’une

même génération ne varierait alors pas ou peu dans le temps.

Comment résoudre ce dilemme ? Il faudrait opérer la même étude sur une autre période.

Les dates d’observation ne seraient plus 1889-91 mais 1910-12 par exemple. Soit la corrélation est

inchangée et les deux graphiques sont très ressemblants : dans ce cas, c’est clairement l’effet d’âge

qui prédomine. Soit les deux courbes sont parallèles (du moins sur les générations vivants aux

deux périodes d’enregistrement) : dans ce cas, c’est clairement l’effet de génération qui

prédomine. Il faudrait d’ailleurs s’assurer que le lien entre âge et taux de suicide se vérifie dans

d’autres configurations sociohistoriques. Si c’est le cas, il est possible d’établir une théorie

78

générale. Sinon, c’est une théorie « régionale » qui peut être établie : l’âge ne pèse sur la

probabilité de se suicider que dans un contexte donné (il y a donc congruence de facteurs).

(2) La présence au but comme variable « écran »

Le deuxième exemple est fictif. Imaginez une équipe de football dans laquelle l’ensemble

des joueurs « tournent » au poste de gardien. Or, dès que l’un des joueurs est gardien, l’équipe de

ne prend plus de but. Pourquoi ? La raison la plus gratifiante pour ce joueur est de considérer

qu’il est le meilleur gardien de l’équipe. Toutefois, une seconde hypothèse est moins glorieuse

pour lui : il n’est plus sur le terrain et ne handicape plus son équipe.

Pour déterminer laquelle des deux hypothèses est la plus pertinente et ainsi interpréter la

corrélation, il faudrait élargir l’espace d’observation et inclure d’autres variables comme le nombre

de tirs au but de l’adversaire. Si celui-ci est inchangé voire augmente, c’est alors clairement

l’hypothèse des qualités du gardien qu’il faut retenir. Si celui-ci diminue, c’est l’autre interprétation

qui semble la plus juste. On pourrait aussi imaginer un dispositif expérimental et voir comment

les choses se déroulent lorsque le joueur n’est ni sur le terrain, ni dans les buts. Soit l’équipe se

prend toujours régulièrement des buts : dans ce cas, c’est la qualité du gardien qui est la variable

explicative. Soit elle ne se prend plus (ou moins) de buts : dans ce cas, c’est sa présence dans le

jeu qui est la variable explicative.

(3) Salaires du public et salaires du privé : les effets de structure

Une corrélation suscite fréquemment de vigoureuses polémiques : le lien entre statut

d’activité (variable 1) et salaire (variable 2). Ainsi, il semble apparemment établi que les salariés du

secteur public gagnent plus que leurs collègues du privé. En 2006, le salaire net annuel moyen de

l’ensemble de la fonction publique d’État était de 26 182 euros (soit un peu de moins de 2200

euros par mois), tandis que l’équivalent pour les salariés du privé était de 23 261 euros (soit un

peu plus de 1900 euros par mois). Le réflexe est alors d’identifier un lien de causalité : la cause

d’un tel écart résulterait simplement du fait qu’ « on est mieux payé dans le privé que dans le

public ». Quel est le problème d’une telle interprétation ?

En fait, la comparaison de ces salaires moyens n’a pas beaucoup d’intérêt. D’une part,

parce que la moyenne, on l’a vu, ne nous dit pas grand-chose de la distribution des salaires.

D’autre part, parce qu’on ne compare pas ici des populations identiques ! Les écarts tiennent en

fait à un « effet de structure » : la structure des deux populations n’est pas la même au regard de

deux variables déterminantes sur le salaire :

79

- Le niveau de qualification moyen est bien plus élevé dans la fonction publique

d’État que dans l’ensemble du secteur privé : les emplois proposés sont alors

plus qualifiés. C’est donc à niveau de diplôme égal ou à catégorie

socioprofessionnel égal qu’il faudrait opérer la comparaison.

- L’âge moyen est plus élevé dans la fonction publique d’État que dans le

secteur privé. Idem : comparaison pertinente à classe d’âge. (Voir graphiques)

Autrement dit, si l’on souhaite revenir sur une comparaison globale des salariés du public et du

privé, celle-ci n’est possible qu’à condition que « toutes choses soient égales par ailleurs ». Il faut

donc faire comme si la structure des deux était identique, afin d’éliminer le « bruit » (le bruit étant

ici les divergences dans la distribution des âges et des niveaux de qualification).