1
UNIVERSITE VERSAILLES SAINT-QUENTIN
M1 SCIENCES POLITIQUES – 2010/2011.
COURS DE NICOLAS KACIAF
Méthodes des sciences sociales 2.
La quantification du monde social
INTRODUCTION GENERALE :
Les mystères de la quantification
§1. L’omniprésence des « chiffres »
Indicateurs statistiques, mesures chiffrées et autres sondages d’opinion sont aujourd’hui
omniprésents dans le débat public. La liste est longue de ces données qui peuplent les comptes-
rendus médiatiques et qui servent de socle aux arguments échangés entre acteurs politiques : taux
de chômage, points de croissance du produit intérieur brut, évolution de la mortalité sur les
routes, popularité du président de la République et de ses ministres, « chiffres » de la délinquance,
position des Universités françaises dans le classement de Shanghai ou dans tous les autres ranking
évaluant la performance des systèmes éducatifs, taux d’inflation, indicateurs d’évolution du
« pouvoir d’achat », part des Français sous le seuil de pauvreté, âge moyen du premier rapport
sexuel, pourcentages d’audience respectives des chaînes de télévision, palmarès des hôpitaux les
plus sûrs, distribution des prénoms les plus fréquemment donnés chaque année, etc.
Mais les données statistiques ne servent pas seulement à nourrir les discussions politiques.
Elles sont au cœur de l’activité de travail de très nombreux secteurs économiques. Dans les
entreprises privées, les services et les salariés sont ainsi évalués à partir d’indicateurs qui mesurent
leur performance (productivité, valeur ajoutée, marge opérationnelle, etc.). Mais cette évaluation
quantitative de l’activité concerne également de plus en plus le secteur public. Aujourd’hui,
chaque service administratif doit satisfaire un certain nombre d’objectifs chiffrés, précisés dans le
projet de loi de finances (à travers les indicateurs de la LOLF - Loi organique relative aux lois de
finance), et qui peuvent servir d’instruments de comparaison de l’efficacité du travail mené et de
2
la bonne utilisation de l’argent public. Cette omniprésence des données chiffrées semble traduire
une tendance actuelle à « gouverner par les nombres ».
Une première question se pose alors : pourquoi les « chiffres » sont-il à ce point
omniprésents dans le débat public et dans un nombre croissant de secteurs sociaux ? Pour le dire
autrement, sur quoi repose la force du chiffre ? Quatre hypothèses, convergentes, peuvent être
soulevées :
(1) La force des « chiffres » tout d’abord, c’est leur apparente impartialité, neutralité,
objectivité, scientificité. D’un point de vue politique, l’utilisation récurrente de telles données
s’articule bien avec l’idée que, désormais, l’Etat (ou tout autre institution) doit être gouverné
de façon apolitique, sans idéologie mais avec pragmatisme, avec pour seul objectif de
produire du « résultat » et d’être donc « performant », ce que des indicateurs chiffrés
pourraient objectivement mesurer.
(2) Deuxièmement, l’autre avantage des « chiffres », c’est leur communicabilité qui tient
notamment à leur apparente simplicité. Pour les médias, un pourcentage constitue une
information courte, lisible et utile pour « cadrer » un article (« Le chômage baisse de 3 % », « la
délinquance recule de 9 % », « X % des enfants quittent le primaire sans savoir ni lire ni écrire »). De la
même manière, tableaux, graphiques et autres infographies chiffrées offrent une commodité
de lecture précieuse pour les dirigeants dans les mondes politiques, administratifs,
économiques qui souhaitent disposer d’informations rapides à lire et à mémoriser. Ou
encore, comme le souligne la politiste Isabelle Bruno, le « chiffre » est utile dans un espace
comme l’Union européenne : il facilite la communication entre des interlocuteurs parlant une
vingtaine de langues différentes.
(3) Un troisième avantage des « chiffres », c’est leur comparabilité. En effet, les données
chiffrées permettent assez facilement la comparaison dans l’espace (entre pays, entre
départements, entre salariés, entre services, etc.) ou dans le temps (évolutions).
(4) Enfin, et c’est sans doute le point le plus important, un dernier avantage des « chiffres »
réside dans leur capacité à rendre visible ce qui est invisible à l’œil nu. Je vais y revenir.
§2. Des données qui ne vont pas de soi
Pour ces différentes raisons, les données quantitatives sont désormais incontournables sur
n’importe quel sujet, dans n’importe quel secteur. Mais si les indicateurs sont omniprésents, ils
sont aussi fréquemment critiqués ou contestés. On ne compte plus en effet les controverses
relatives aux « chiffres » officiels et à leur utilisation par le pouvoir politique. Cf. quelques
exemples connus et sur lesquels vous aurez l’occasion de travailler, notamment en TD : les
3
statistiques du chômage ; les « chiffres » de la délinquance ; l’évolution du pouvoir d’achat des
ménages ; la fixation du seuil de pauvreté ; les sondages mesurant la popularité des mesures
gouvernementales ; la mesure des discriminations face à l’interdiction de collecter des
informations sur l’origine « ethnique » des individus ; la comparaison internationale des systèmes
éducatifs ou des performances de la recherche ; etc. Les critiques adressées aux sondages
d’opinion ou aux statistiques officielles sont utiles parce qu’elles rappellent qu’il ne faut pas être
naïf face à des données et ne pas les prendre pour argent comptant. Mais elles posent souvent
problèmes parce qu’elles sont mal formulées. En effet, on entend souvent dire que « les
statistiques du chômage sont fausses », que « les chiffres de la délinquance sont truqués » ou encore
qu’« on peut tout faire dire aux chiffres »… Si on prend l’exemple du chômage, cette critique
laisse entendre qu’il existerait un vrai nombre de chômeurs et que les statistiques ne donneraient
pas ce vrai chiffre. Bien sûr qu’il y a des cas flagrants de manipulations politiques. Bien sûr
également que les statisticiens font parfois des erreurs grossières.
Mais il faut adopter un autre point de vue. La bonne perspective face aux statistiques du
chômage, ce n’est pas seulement de se demander si elles sont vraies ou fausses comme s’il existait
dans la nature un vrai nombre de chômeurs que l’on pourrait cueillir comme on cueille une
pomme sur un arbre. La bonne perspective, c’est plutôt de se demander : qu’est-ce que ces
données veulent dire ? Qu’est-ce que ces données reflètent et qu’est-ce qu’elles ne reflètent pas ?
Qu’est-ce qu’elles donnent à voir et qu’est-ce qu’elles laissent dans l’ombre ? Que peut-on donc
en déduire ? Cela suppose donc de soulever un autre type de problèmes : comment les données
ont-elles été recueillies ? Quelle a été la méthode ? Qu’est-ce qui est effectivement mesuré ? Qui a
effectué cette mesure (un service administratif, des chercheurs, un cabinet d’audit, etc.) ? Et dans
quel intérêt ? Ainsi, pour reprendre l’exemple des statistiques du chômage, les « chiffres » les plus
couramment donnés dans les médias n’indiquent pas réellement le nombre de personnes sans
emploi mais le nombre d’inscrits au Pôle emploi dans une catégorie donnée, ce qui est
sensiblement différent. De la même manière, les données fournies par le ministère de l’Intérieur
en matière de délinquance n’indiquent pas le niveau de « délinquance » mais elles indiquent le
nombre de faits supposément délictueux ou criminels constatés par les services de police. Je suis
schématique ici car ces comptages sont un peu plus complexes – on y reviendra.
Autrement dit, l’une des postures légitimes face à cette avalanche de « chiffres » est
d’opérer un travail de déconstruction. En effet, ces données sont naturalisées, au sens où il paraît
naturel aujourd’hui de disposer du taux de chômage mensuel sur l’ensemble du territoire national,
où il paraît naturel de disposer de la mesure de la « délinquance » (comme s’il y avait une « chose »
homogène qui s’appelait la délinquance et qui regrouperait des infractions routières, des vols, des
4
viols, des meurtres, des détentions de produits stupéfiants, etc.), où il paraît naturel de mesurer
chaque mois la popularité du Président de la République dans l’opinion publique (au singulier).
Dire qu’elles sont naturalisées, cela signifie qu’on s’y habitue au point de croire que le niveau de
chômage, la délinquance ou la popularité du Président existeraient indépendamment de leur
mesure (je répète : dans cette perspective, la mesure ne ferait que « cueillir » ce qui existe dans la
réalité). Or ces données, ces « chiffres », ces mesures ne vont pas de soi ! Elles reposent sur des
constructions, des constructions méthodologiques et intellectuelles.
- D’abord des constructions méthodologiques. Toute quantification suppose la mise en place
d’instruments de mesure. Et pour que les résultats soient scientifiquement solides, qu’ils aient une
certaine pertinence, il faut une véritable rigueur méthodologique : rigueur dans le recueil des
informations (ce sont les techniques d’enquête comme les techniques d’échantillonnage), rigueur
dans le traitement statistique des informations (ce sont les outils mathématiques qu’utilisent les
statisticiens), rigueur dans l’analyse des résultats et dans les conclusions (ce sont les théories
sociologiques qui rendent les résultats significatifs).
- Les données quantitatives soulèvent donc plus que de simples problèmes techniques. En effet,
elles reposent aussi sur des constructions intellectuelles. Cela ne va pas de soi de tout vouloir
mesurer, compter et réduire à quelques indicateurs.
• Par exemple, cela ne pas de soi, idéologiquement parlant, d’évaluer et de comparer
la qualité des systèmes éducatifs en s’appuyant sur des indicateurs chiffrés comme le taux de
lecture à l’entrée dans le secondaire, le niveau en mathématique, le nombre d’enfants qui
sortent du système sans diplôme, etc. La généralisation des classements ou du benchmarking
est le produit d’un contexte social et politique particulier : ce n’est pas une évolution
nécessaire de l’espère humaine !
• Cela ne va pas de soi non plus de mesurer l’opinion publique en faisant la somme
des opinions individuelles et en acceptant que l’opinion d’un grand bourgeois vaut autant
que l’opinion d’un prolétaire. Pour accepter ce principe d’équivalence généralisé (tous les
individus ont la même valeur, statistiquement parlant), il a fallu plusieurs siècles de
démocratisation. Une telle convention intellectuelle serait par exemple impensable dans une
société organisée en caste ou dans des sociétés traditionnelles dans lesquelles le chef de
famille peut parler au nom de l’ensemble de sa maisonnée.
Les techniques d’enquête et les manières de compter ne sont donc pas « neutres » : elles
traduisent un point de vue sur le monde.
5
§3. Les objectifs du cours
Ce cours de « méthode des sciences sociales » repose alors sur deux problématiques qui
reflètent l’ambiguïté de la quantification :
- D’un côté, on considère ici les outils statistiques comme de formidables outils de description
et d’analyse scientifique du monde social (à condition d’avoir été rigoureusement. La
quantification est souvent un instrument indispensable pour déchiffrer le monde qui nous
entoure et pour rendre visible une réalité invisible par l’observation humaine (ne sont visibles que
des cas individuels). Les données statistiques sont des représentations qui donnent à voir un autre
niveau de réalité que la réalité expérimentée par chaque individu. On y reviendra dans le premier
chapitre.
- D’un autre côté, on considère aussi la production statistique comme une ressource de pouvoir
et de domination. D’ailleurs, étymologiquement, la « statistique » est issue du mot « Etat »
(Staat¸State). Historiquement, la statistique publique est née dans un contexte de centralisation
étatique : c’est un instrument de pouvoir, un instrument de contrôle de l’Etat sur la société. De la
même manière, les enquêtes marketing, ce sont des instruments décisifs dans les mains des
entreprises privées. On reviendra sur cette question des usages de la quantification dans le
chapitre trois.
D’un point de vue pédagogique, ce cours vise donc à satisfaire trois objectifs :
(1) D’abord, le premier objectif est pratique. Puisqu’il s’agit d’un cours de méthodes des
sciences sociales consacré plus précisément aux méthodes dites « quantitatives », le premier enjeu
est de vous apporter un certain nombre de « ficelles » (H. Becker) pour vous permettre d’élaborer
une enquête statistique, de participer à son élaboration ou d’être capable de prendre de la distance
et d’évaluer la pertinence scientifique d’une enquête que vous aurez sous les yeux. Évidemment, il
est impossible en si peu de temps d’entrer dans les détails techniques. Il n’est pas non plus
judicieux de vous apprendre à appliquer mécaniquement un catalogue de recettes toutes faites
(parce que, je répète, les méthodes ne sont pas neutres). De toute façon, seule une minorité
d’entre vous se destine à la recherche et / ou à une activité professionnelle qui vous amène à
devoir produire vous-même des données statistiques. L’enjeu n’est donc pas de faire de vous des
« techniciens » du questionnaire, des sondages ou des calculs mathématiques. En revanche, il est
fort probable que vous allez tous être confrontés à des données « quanti » dans votre vie
professionnelle. Si vous êtes journalistes, communicants, fonctionnaires dans une collectivité
locale, assistant d’élu, etc., vous risquez d’avoir affaire en permanence à des données chiffrées. Et
le but du jeu, c’est que vous soyez capable de les comprendre et de savoir si elles reposent sur des
6
enquêtes scientifiquement « solides ». D’où le terme de « ficelles », c’est-à-dire quelques réflexes
intellectuels, quelques « trucs » méthodologiques à garder en tête pour au moins savoir lire une
étude, interpréter un sondage, bricoler quelques calculs statistiques, bref ne pas être démuni face
à des statisticiens, des chercheurs ou des prestataires plus aguerris !
(2) Ensuite, le deuxième objectif est de vous apporter un regard critique sur les données
quantitatives. Critiquer ne signifie pas remettre en cause, mais être capable de discerner les limites
et les apports d’une enquête, en tant que professionnel certes, mais aussi en tant que citoyen.
L’enjeu est de rappeler qu’au-delà de la plus ou moins grande rigueur méthodologique, chaque
technique de recueil d’informations comporte un certain nombre de limites indépassables qu’il
faut connaître pour ne pas faire de mauvaises interprétations des données. Quelles sont donc les
deux principales limites des méthodes quantitatives ?
• Premièrement, il faut avoir en tête que toute quantification appelle une
simplification du réel, un appauvrissement de la diversité du réel. Par exemple, si vous voulez
mesurer le nombre de chômeurs, à un moment donné, vous devez définir qui est chômeur et qui
ne l’est pas, donc établir des frontières fixes, alors que dans la réalité, vous avez une multitude de
cas de figure. Est-ce que les personnes qui travaillent à temps partiel mais qui souhaiteraient
travailler à temps plein sont des chômeurs ? Est-ce que les personnes qui ont arrêté de chercher
du travail parce qu’elles sont découragées ou très proches de la retraite sont des chômeurs ? Etc.
Autrement dit, toute quantification suppose de faire rentrer les personnes, les situations, les
opinions, les pratiques dans un nombre restreint de « cases », de « catégories ».
• La deuxième limite déjà évoquée, c’est que le résultat dépend toujours en partie de
l’instrument d’observation, d’enquête, de mesure. Chaque technique tend à se « focaliser » sur un
aspect particulier de la réalité. Selon les méthodes choisies, vous ne mettez pas en évidence la
même chose. Pour illustrer ce point crucial pour l’ensemble des sciences, prenons l’exemple de
l’observation. Selon le niveau d’observation, vous ne découvrez pas les mêmes phénomènes :
particules élémentaires, atomes, molécules, cellules, organes, corps humain, interactions
familiales, occupation de l’espace (géographie), plaques tectoniques (géologie), planète, système
solaire, galaxie, amas, univers. Pour revenir à la quantification du monde social à partir d’un
exemple trivial, il va de soi que la représentation de la « délinquance » est différente si elle est
étayée par la mesure de l’activité policière ou si elle s’appuie sur des enquêtes de victimisation (cf.
textes de Bruno Aubusson dans le livret de TD), si elle est mesurée à partir de statistiques
recueillies à l’échelle internationale ou étudiée à partir d’une enquête de terrain dans un quartier
donné. Autrement dit, il faut toujours garder en tête que les données ne sont pas naturelles mais
qu’elles sont en permanence construites par l’enquêteur et par ses choix de méthodes.
7
(3) Le troisième objectif est d’analyser les enjeux politiques et sociaux sous-jacents à la
production statistique. Cela suppose donc de déplacer le regard et de ne plus seulement
considérer la statistique comme un instrument de connaissance du monde mais aussi comme un
domaine à explorer, un « objet » de sociologie politique, un « fait social » et « historique ». Il s’agit
donc de s’arrêter sur les usages de la quantification, afin notamment de comprendre l’émergence
et la généralisation de ces techniques de gouvernement. Que signifie compter dans nos sociétés
démocratiques ? Qui est le commanditaire d’une enquête, quel est son intérêt et comment peut-il
influer ou non sur les résultats. Le problème majeur des enquêtes quantitatives, c’est souvent leur
coût énorme. Donc les financeurs de ces enquêtes sont le plus souvent des institutions
dominantes dans la société (les institutions publiques bien sûr, mais également les très grandes
entreprises, les principales entreprises médiatiques, les grosses associations ou lobbies). Par
conséquent, les enquêteurs s’adaptent aux attentes et aux présupposés de ceux qui les financent.
Or pourquoi les élites politiques, économiques, administratives ont-elles besoin de ces données
chiffrées sur la population, sur la société, sur l’économie, sur les opinions ? Qu’en font-elles ? En
quoi ces données participent-elles de leur autorité ? En quoi l’omniprésence des statistiques, des
sondages ou du benchmarking modifient-ils les manières de gouverner ? Je vous renvoie aux
travaux de Michel Foucault ou d’Alain Desrosières sur la naissance des statistiques en Europe.
Ainsi, les problèmes statistiques (et leurs problèmes méthodologiques sous-jacents) sont presque
toujours des problèmes politiques. Les résultats des recensements ont des incidences
considérables sur les manières d’aborder les politiques publiques. Par exemple, pour des
problèmes de méthodes, le nombre de jeunes Noirs sont souvent sous-estimés dans les
recensements aux Etats-Unis ; par conséquent, il y a une surestimation de la proportion de Noirs
dans les statistiques de la délinquance, ce qui peut engendrer une focalisation de l’activité policière
et judiciaire sur cette population.
8
Chapitre 1 – L’objectivation statistique
Section 1. L’objectivation statistique et la rupture avec les fausses
évidences
Le sociologue américain d’origine autrichienne Paul Lazarsfeld (1901-1976) a bien montré
dans quelle mesure des enquêtes par questionnaires, en s’appuyant sur un grand nombre de cas,
pouvaient remettre en cause bien des idées reçues ou des fausses évidences. Dans un article
célèbre, il livre ainsi six affirmations qui, spontanément, ne susciteraient aucune contestation.
1. Les individus dotés d’un niveau d’instruction élevé présentent plus de symptômes psychonévrotiques que ceux qui ont un faible niveau d’instruction.
2. Pendant leur service militaire, les ruraux ont, d’ordinaire, meilleur moral que les citadins.
3. Les soldats originaires du sud des Etats-Unis supportent mieux le climat chaud des îles du Pacifique que les soldats du Nord.
4. Les simples soldats de race blanche sont davantage portés à devenir sous-officiers que les soldats de race noire.
5. Les Noirs du Sud préfèrent les officiers blancs du Sud à ceux du Nord.
6. Les soldats américains étaient plus impatients d’être rapatriés pendant que l’on combattait qu’après la reddition allemande.
Tout cela n’est-il pas à ce point évident qu’il ne servirait à rien de dépenser de l’argent dans des
enquêtes pour aboutir à de telles conclusions ? Or Lazarsfeld prend aussitôt son lecteur à contre-
pied : toutes ces propositions sont fausses ou, plus précisément, toutes ces propositions sont
invalidées par des enquêtes empiriques réalisées auprès de soldats américains. Parmi les
différentes techniques d’enquêtes en sciences sociales, les recherches quantitatives ont pour
intérêt de tester la solidité des croyances et des représentations spontanées sur le monde social.
Rigoureusement menées, elles peuvent contribuer à « chasser les mythes » (Norbert Elias) ou
remettre en cause les « prénotions » (Émile Durkheim).
§1. Le « choix » du conjoint
Dans nos sociétés modernes où la formation des couples ne relèvent plus (ou presque
plus) d’arrangements familiaux, comment expliquer le choix du/de la conjoint(e) ? Les
justifications spontanées tendent à mettre l’accent sur le hasard (hasard d’une rencontre, « coup
de foudre » qui ne s’explique pas). L’argumentation mobilise aussi le répertoire de la « liberté »,
via l’invocation de l’attirance, du goût. Individuellement, ces raisons sont certainement valables :
9
en l’absence d’injonctions familiales ou d’obligations légales à épouser untel ou unetelle, il est
difficile de nier la part de « choix » dans la constitution des couples. Mais lorsqu’on se place non
plus à l’échelle individuelle mais à l’échelle collective, les statistiques permettent de montrer un
autre mécanisme. Elles mettent en évidence l’importance de l’homogamie sociale, c’est-à-dire le
fait que les individus ont statistiquement tendance à épouser des personnes qui leur ressemblent
socialement parlant (voir Bozon et Héran, La Formation du couple).
Distribution des groupes socioprofessionnels des femmes, selon le groupe socioprofessionnel de leur mari (cadre ou ouvrier) – couples dont les membres ont entre 25 et 59 ans
Groupe socioprofessionnel de la femme Ensemble femmes
(%)
Femmes dont mari cadre (%)
Femmes dont mari ouvrier (%)
Cadre 6,4 24,2 1 Profession intermédiaire 15,2 21,3 8,5
Employé 30 16,7 35,3 Ouvrier 8,5 1,4 16,7
Retraité / inactif 34 34,6 36,8 Autre (agriculteurs, commerçants, etc.) 5,9 1,8 1,7
TOTAL 100 100 100
Distribution des groupes socioprofessionnels des hommes, selon le groupe socioprofessionnel de leur femme (cadre ou ouvrière) – couples dont les membres ont entre 25 et 59 ans
Groupe socioprofessionnel de l’homme Ensemble hommes
(%)
Hommes dont femme cadre
(%)
Hommes dont femme ouvrière
(%) Cadre 15,2 57,3 2,5
Profession intermédiaire 21 19,5 13,1 Employé 8,3 3,2 7 Ouvrier 31,8 5 62,1
Retraité / inactif 10,7 4,1 8 Autre (agriculteurs, commerçants, etc.) 13 10,9 9,8
TOTAL 100 100 100
Source : Insee, enquête FQP 1993
Ces tableaux mettent en évidence que, heureusement, l’homogamie sociale n’est pas totale
(elle le serait si, par exemple, 100 % des maris de femmes cadres étaient eux-mêmes des cadres –
en l’occurrence, ils ne sont « que » 57,3 %) : il n’y a pas de détermination absolue. Mais
l’homogamie est malgré tout fortement marquée. En effet, si la formation des couples reposait
effectivement sur le « hasard », on retrouverait la même proportion de cadres parmi les hommes
qui vivent avec une femme cadre que parmi l’ensemble des hommes vivant en couple (soit 15,2
% et non 57,3 %). Comment expliquer ce phénomène ? Plusieurs hypothèses peuvent être
formulées, qui renvoient à différentes grilles d’analyse sociologiques :
10
- L’explication la plus simple réside sans doute dans tout ce qui fait qu’une rencontre est
possible. Les individus s’inscrivent dans des réseaux sociaux plus ou moins hermétiques les uns
aux autres en raison des cercles de connaissances des parents, des lieux d’habitation, des
établissements scolaires fréquentés, des activités sportives ou culturelles pratiquées, etc.
L’ensemble de ces expériences dessine d’une certaine manière les frontières des rencontres
possibles, statistiquement parlant – on l’exprime alors en termes de « chances ».
- Ensuite, l’homogamie sociale résulte sans doute aussi des processus de construction
sociale des goûts. Après tout, à l’image des goûts en matière artistique ou culinaire (voir Pierre
Bourdieu, La Distinction), les goûts en matière « sexuelle », et donc les probabilités de « coup de
foudre », sont certainement conditionnés par le milieu social d’origine.
- Il est également possible que l’homogamie sociale tienne en partie à l’anticipation de la
réaction des proches. On tend à s’ajuster à ce qu’on estime être attendu par son entourage. Dès
lors, même si on éprouve des sentiments pour une personne, il peut s’avérer délicat d’aller loin
dans une relation lorsque cette personne est rejetée par nos proches en raison de ses origines, ses
caractéristiques sociales, etc.
- Enfin, la question de l’ajustement des valeurs se pose. En effet, il est possible de sortir
ensemble sans être nécessairement « proches » mais, pour fonder un foyer, il y a une relative
nécessité de s’accorder et d’accorder ses dispositions en termes de conception du rôle de la
femme et de l’homme, de règles relatives à l’intimité, etc.
§2. Corrélations statistiques et liens de dépendance
Quoiqu’il en soit, ces statistiques ne nous permettent pas, en elles-mêmes, d’expliquer
l’homogamie sociale. Ces données se contentent (et c’est déjà beaucoup) de mettre à jour une
corrélation statistique entre deux variables.
Une variable, c’est une « caractéristique susceptible de prendre plusieurs formes
différentes » (Philippe Alonzo). Ici, quelles sont les deux variables ? Il s’agit du « groupe
professionnel de la femme » et du « groupe professionnel de l’homme ». Ici, le constat
d’homogamie signifie que ces variables sont corrélées, autrement dit qu’elles présentent un lien
de dépendance entre elles. À l’inverse, si le groupe professionnel de la femme et le groupe
professionnel de l’homme n’avaient aucun lien statistique et que la formation des couples
reposeraient sur le hasard, on dirait que ces variables sont indépendantes (c’est le cas, pour
prendre un exemple totalement fictif, entre deux variables – « PIB de la France » et « résultats de
l’équipe de France de basket » – dont aucune ne dépend de l’autre).
11
S’il y avait indépendance, une femme cadre aurait 15,2 % de chances d’épouser un
homme cadre, 21 % un homme profession intermédiaire, 8,3 % un homme employé, etc. Or les
statistiques nous montrent que ce n’est pas le cas : la formation des couples ne repose pas sur le
hasard. Une femme cadre a statistiquement une probabilité importante d’épouser un homme
cadre (57,3 %), en tout cas une probabilité beaucoup plus importante que si la formation des
couples reposait sur le hasard. On dit alors, pour décrire ces tableaux, qu’il y a écart à
l’indépendance (synonyme de corrélations statistiques).
Ce constat statistique a une certaine robustesse, une certaine solidité parce qu’il est établi
à partir d’une enquête de l’INSEE, enquête réalisée auprès d’un très vaste échantillon de
population (environ 40 000 personnes). On peut donc en tirer des conclusions générales sur la
société française, c’est-à-dire des enseignements sociologiques. Cette enquête met à jour des
régularités. Ce terme est important car il a un double sens : il évoque non seulement l’idée de
fréquence (l’homogamie sociale est fréquente) mais également l’idée de règle extérieure qui
s’impose aux individus (l’homogamie sociale n’est pas le produit d’une volonté individuelle).
Ça ne veut pas dire que les individus se trompent ou mentent lorsqu’ils disent être tombés
amoureux par hasard ou par coup de foudre : c’est leur point de vue, compte tenu de leur position.
C’est une interprétation, un regard subjectif sur la réalité et qui ne peut réaliser à quel point l’espace
des possibles est restreint. Dans cet espace, il y a bien liberté, situation de choix et part du hasard :
mais c’est une réalité qui n’a de valeur qu’à l’échelle individuelle. À l’inverse, en étudiant un très
grand nombre de cas, les statistiques permettent d’accéder à un autre niveau de réalité. Elles
rendent visibles ce qui est invisibles à l’échelle de chaque individu (même si on peut en avoir
l’intuition à partir de ses expériences). Elles mettent à jour des régularités, c’est-à-dire des
phénomènes objectifs.
- Ces phénomènes sont objectifs parce qu’ils ne dépendent pas des « impressions » de
l’observateur mais reposent sur une méthode d’administration de la preuve scientifiquement
fondée (avec les mêmes données, tout le monde arrive aux mêmes conclusions).
- Ces phénomènes sont objectifs aussi parce qu’ils sont établis à partir d’instruments de
mesure identiques pour tous (cf. la classification des « groupes socioprofessionnels » ne
dépendent pas de la perception de chacun). – De même que le médecin établit son diagnostic en
s’appuyant sur une évaluation « objective » de l’état de santé du patient (via la mesure du pouls ou
de la tension) plus qu’en s’appuyant sur l’évaluation « subjective » établie par le patient lui-même.
- Ces phénomènes sont objectifs enfin parce qu’ils ne dépendent pas de la volonté de
quelques uns qui auraient « inventé » l’homogamie sociale ou qui auraient pleinement « choisi » ce
12
mode de vie (« choisi » au sens où ils se seraient retrouvés dans une véritable situation d’arbitrage
avec de réelles marges de manœuvre).
§3. L’objectivation des faits sociaux
En mettant à jour des régularités objectives, ces statistiques opèrent donc un travail
d’objectivation du monde social. L’objectivation, c’est une démarche scientifique consistant à
saisir le caractère « objectif » des faits étudiés (en l’occurrence ici la formation des couples). En
utilisant les statistiques, donc en s’appuyant sur la « loi des grands nombres », le sociologue
montre que les faits étudiés sont des phénomènes collectifs qui s’imposent aux personnes, qui
répondent à une certaine logique, qui ne se réduisent pas à des cas individuels, qui ne sont pas
seulement le résultat de l’imagination du chercheur. Par ce souci d’objectivation de la réalité
sociale, le sociologue respecte le précepte du sociologue Émile Durkheim (1858-1917) lorsque
celui-ci invite à étudier les « faits sociaux » comme des « choses ».
Définition : Fait social = « ils consistent en des manières d’agir, de penser et de sentir, extérieures à l’individu, et qui sont douées d’un pouvoir de coercition en vertu duquel ils s’imposent à lui. » (Durkheim, Les Règles de la méthode sociologique, p. 5) ; « toute manière de faire qui est générale dans l’étendue d’une société donnée tout en ayant une existence propre, indépendamment de ses manifestations individuelles » (ibidem, p. 14)
D’ailleurs c’est à partir d’une démarche de quantification que Durkheim va mettre en
application ses règles de la méthode sociologique et pouvoir montrer à quel point le suicide
constitue un « fait social » qui ne s’explique que par d’autres faits sociaux (par exemple l’anomie).
Cet objet d’études est intéressant car, à première vue, le suicide constitue une pratique totalement
liée à des facteurs psychologiques, donc individuels. Et pourtant, dès que l’analyse se penche, non
plus sur des cas individuels, mais sur un grand nombre de cas, on découvre que le suscite peut
être analysé comme un « fait social ». En effet, en étudiant les statistiques du suicide (qui se
suicide ? à quelle période ? dans quelles circonstances ?), on observe des régularités, des
corrélations entre différentes variables (le fait d’habiter en ville ou à la campagne, le fait d’être
isolé ou d’avoir une famille, le fait d’être catholique ou protestant, etc.), ce qui lui permet de
distinguer différents types de suicide. Autrement dit, le suicide peut s’expliquer non pas
seulement par les caractéristiques psychologiques ou personnelles des suicidés mais par des
caractéristiques sociales. Je cite Durkheim : « Si au lieu de n’y voir que des événements
particuliers, isolés les uns des autres et qui demandent à être examinés chacun à part, on
considère l’ensemble des suicides commis dans une société donnée pendant une unité de temps
donnée, on constate que le total ainsi obtenu n’est pas une simple somme d’unités indépendantes
13
(…) mais qu’il constitue par lui-même un fait nouveau, qui a son unité et son individualité, sa
nature propre par conséquent et que, de plus, cette nature est éminemment sociale. » Cette
approche est en partie critiquable. Nous y reviendrons.
À condition d’être rigoureusement recueillies d’un point de vue sociologique et
méthodologique, les statistiques permettent de décrire scientifiquement de nombreux aspects du
monde social. Elles permettent notamment de mettre en évidence que des individus qui ne se
connaissent pas, et même ne se voient pas, se ressemblent. Du fait de milieux d’appartenance
similaires ou voisins, ils partagent un ensemble de préférences en matière vestimentaire,
culturelle, politique, etc. Dans son article, Guy Desplanques souligne ainsi l’ensemble des
relations objectives entre le « choix » du prénom, le contexte historique et l’identité
socioprofessionnelle des individus (cf. livret de TD) : les régularités qu’il met en avant indiquent
ainsi à quel point la distribution des prénoms constitue un « fait social » qui échappe fortement à
la volonté des parents (même lorsque ces derniers savent qu’un prénom est connoté socialement
et choisissent de façon stratégique : ils ne décident pas des « connotations » associées à un
prénom mais s’y adaptent ; ils ne décident pas non plus d’appartenir à une époque où l’originalité
n’est plus bannie mais recherchée et où la loi ne définit plus le stock autorisé de prénoms). De la
même manière, Patrick Lehingue montre comment les nombreuses recherches quantitatives en
sociologie électorale permettent d’invalider un grand nombre d’affirmations relatives à
l’« électorat » Front national : son enracinement géographie, son lien avec l’électorat communiste,
son lien avec la personnalité charismatique de son leader, sa focalisation sur les seules questions
d’immigration, etc. (cf. livret de TD).
Enfin dernier exemple de l’utilité d’une démarche d’objectivation et qui rejoint la question
de l’homogamie sociale : c’est la mesure de la « mobilité sociale ». Il s’agit là en effet d’un enjeu
politique majeur. À la différence des sociétés de castes dans lesquelles les individus occupent une
position en fonction du statut assigné à la naissance, les sociétés démocratiques se présentent
comme des sociétés « mobiles » où la position sociale occupée par chacun est supposée corrélée à
l’utilité sociale, c’est-à-dire au « talent » ou au « mérite » personnel à l’école ou dans le monde du
travail. Cette conception résulte d’un double héritage idéologique : l’héritage républicain d’un côté
(valorisant l’absence de privilèges), l’héritage libéral de l’autre (valorisant la concurrence libre et
non faussée) reposent tous les deux sur la notion d’égalité des chances à l’école ou sur le marché
du travail. Les catégories sociales dominantes peuvent ainsi légitimer leur situation, en mettant
avant leur « mérite » (celui d’avoir mieux ou davantage travaillé que les autres) et / ou leur
« chance ». S’il y a égalité des chances, cela doit signifier que la position sociale d’un individu n’est
pas déterminée par la position de ses parents : les deux variables devraient être strictement
14
indépendantes, leur relation organisée par le seul hasard statistique. Or ce que montrent les
enquêtes de mobilité sociale, c’est que les destins des individus ne tiennent pas à leur seul mérite
mais sont relativement corrélés à leurs milieux sociaux d’origine : il n’y en effet pas
d’indépendance en France entre « le groupe socioprofessionnel des hommes de 40 ans et plus » et
le « groupe socioprofessionnel de leur père ». Pour ne prendre qu’un exemple, en 2003, 53,9 %
des fils de cadres, âgés de 40 ans et plus, sont eux-mêmes cadres (alors que les cadres ne
représentent que 19,9 % des hommes âgés de 40 ans et plus). A l’inverse, 45,4 % des fils
d’ouvriers, âgés de 40 ans sont eux-mêmes ouvriers (alors que les ouvriers représentent 31,3 %
des hommes âgés de 40 ans et plus).
Section 2. De la problématique aux indicateurs
§1. Répondre à des questions
Les sciences sociales ont pour objectif de développer la connaissance du monde social, en
mettant notamment en évidence les logiques ou les mécanismes qui gouvernent l’organisation des
sociétés et les relations entre individus. Elles articulent donc une ambition descriptive
(comment ça marche ?) et une ambition explicative (pourquoi ça marche comme ça et pas
autrement ?). Mais à la différence d’approches qui se focaliseraient sur un cas ou sur un
événement donné, les sciences sociales visent à produire des énoncés (ou des affirmations) qui
ont une certaine prétention à la généralité : en tant que sciences, elles ont une ambition
nomologique (= « prétention à étudier les lois qui président aux phénomènes naturels » ; ici,
prétention à étudier les logiques qui président aux phénomènes sociaux).
Par conséquent, les scientifiques n’ont pas la prétention d’offrir une improbable
description exhaustive du réel. La littérature réaliste du XIXe siècle a bien montré les apories
d’une telle ambition : il faudrait des encyclopédies infinies pour mener à bien un tel travail, si bien
que le gain d’intelligibilité serait quasi-nul. Aussi les recherches scientifiques ont-elles
principalement pour objectif de répondre à des questions, à des intrigues ou encore à des
problématiques dont l’intérêt se limite rarement à des enjeux de pure connaissance. S’il y a
problématisation, c’est souvent parce qu’il y a l’ambition d’analyser des phénomènes érigés en
problèmes sociaux (voir Rémi Lenoir, « Objet sociologique et problème social » dans Patrick
Champagne et al., Introduction à la pratique sociologique). Par exemple, si les chercheurs mettent en
relation les variables « groupe socioprofessionnel des hommes de 40 ans et plus » et « groupe
socioprofessionnel des pères des hommes de 40 ans et plus », c’est afin d’apporter des éléments
15
de réponse empirique à la question de la « mobilité sociale » et notamment à l’interrogation suivante
(qui présente un caractère politique évident) : les positions sociales et les ressources accumulées
relèvent-elles du mérite ? Ou bien assiste-t-on à des phénomènes de reproduction sociale ?
On l’a vu, les statistiques sont souvent considérées comme l’outil le plus adéquat pour
répondre à cette question, puisqu’elles offrent la possibilité d’objectiver la « mobilité sociale ».
Une fois les données recueillies, il est possible de mesurer le « taux de mobilité sociale » (il suffit
d’additionner l’ensemble des hommes de 40 ans et plus appartenant à un groupe
socioprofessionnel distinct de celui de son père, soit 64,9 % de mobiles en 1993 et 63,8 % en
2003). On peut alors établir différentes conclusions selon le questionnement initial : « près de 2/3
des Français de plus de 40 ans connaissent une situation de mobilité sociale » ou bien « la
mobilité sociale en France a peu évolué entre 1993 et 2003 » ou bien encore, si l’on dispose de
données équivalentes pour d’autres pays, « la mobilité sociale est plus importante en France qu’au
Royaume Uni mais moins importante qu’au Danemark » (données OCDE, 2007).
Ces conclusions sont recevables, à condition d’admettre que l’on peut établir la « position
sociale » d’un individu en s’intéressant uniquement à son « groupe socioprofessionnel »,
autrement dit admettre que la « stratification sociale » repose principalement sur la place des
individus dans le monde du travail. Certes, cette variable mêle différentes dimensions puisqu’elle
identifie la place des individus dans la division du travail, sur les plans horizontal et vertical. Mais,
pour étudier la mobilité sociale, les sociologues pourraient utiliser d’autres outils d’objectivation,
autrement d’autres indices empiriques. Par exemple, dans l’enquête citée plus haut de l’OCDE,
c’est le « revenu » qui sert à établir la position sociale. On pourrait même imaginer d’autres
indices, sans doute plus difficile à recueillir : la réputation ou le prestige respectif des individus, le
niveau de diplômes, l’accès aux biens culturels, etc. Dans cet exemple, il peut donc y avoir débat
pour savoir quel est le meilleur moyen de mettre à jour empiriquement la stratification sociale.
Mais que l’on retienne la variable « groupe professionnel » ou la variable « revenu », le lien entre
cette variable et l’objet de recherche, en l’occurrence ici la « position sociale » ou la « stratification
sociale » n’est pas trop contestable : il n’est donc pas trop difficile ici d’objectiver statistiquement
ce phénomène social.
§2. Convertir des concepts en indicateurs
Mais souvent, il n’est pas simple d’opérer ce travail d’objectivation. Pourquoi ? Parce qu’il
n’est pas toujours évident d’apporter des éléments de réponse empiriques à une question, c’est-à-
dire de traduire une question en objets de recherche qui puissent être observés et mesurés, bref
16
qui puissent renvoyer à un terrain d’enquête précis. Autrement dit, il est souvent délicat de
convertir un concept en indicateur.
D’abord, qu’est-ce qu’un concept ? C’est une « Représentation mentale générale et
abstraite d’un objet » (Le Robert). Pour le dire autrement, c’est un terme ou une expression utilisée
pour catégoriser, c’est-à-dire pour regrouper, sous une même désignation, une pluralité de cas, de
personnes, de choses, d’événements ou de situation. Dans leur activité de questionnement et
d’analyse du monde social, les sciences sociales ont recours à un nombre considérable de
concepts : l’homogamie sociale, la mobilité sociale, la stratification sociale, les inégalités sociales, la violence, la
violence symbolique, la déviance, la marginalité, la pauvreté, la richesse, la précarité, la précarisation,
l’immigration, la mondialisation, la bourgeoisie, la classe ouvrière, la productivité, la flexibilité, la bureaucratie, la
bureaucratisation, la démocratie, la démocratisation, la professionnalisation, la participation politique, l’exode
rural, le libéralisme, le néo-libéralisme, la libéralisation, le conservatisme, la religiosité, la contestation, la
révolution, etc. Certains de ces termes relèvent uniquement du vocabulaire scientifique : ils
désignent des objets de recherche à part entière. Mais la plupart d’entre eux sont utilisés aussi
dans d’autres circonstances que dans un souci de description scientifique du monde. Et de fait, la
conceptualisation ou l’utilisation de concepts est un acte de tous les jours ! Tout le monde
raisonne en permanence par l’intermédiaire de concepts parce qu’il est indispensable, pour se
repérer et agir, de classer les choses, les personnes, les événements (ce que Peter Berger et
Thomas Luckmann qualifient de « typification »). Les concepts sont essentiels pour raisonner
car, sans eux, tout ne serait que cas singuliers : il n’y aurait aucun appui sur l’expérience pour agir !
La démarche d’objectivation statistique repose donc sur la traduction d’un concept en
mesure quantifiée, bref sur la transformation d’un concept en indicateur. Un indicateur, c’est la
« Manifestation multidimensionnelle quantifiable et mesurable d’un concept » (Philippe Alonzo).
Il s’agit du regroupement d’une ou plusieurs variables qui offre un résumé d’informations. Un
indicateur, c’est donc un indice : ce n’est pas la réalité mais une représentation quantifiée de la
réalité qui permet d’établir des échelles et ainsi de comparer et classer les cas étudiés. Dès lors,
certains concepts peuvent être assez facilement convertis en indicateurs. Par exemple, la
« richesse » peut être représentée par un indicateur regroupant deux variables quantitatives (le
revenu et le patrimoine), ce qui permet de comparer l’ensemble des individus ou des ménages à
partir d’une unité de mesure commune (en l’occurrence ici, l’unité monétaire du pays).
Mais cette opération apparaît beaucoup plus délicate pour d’autres concept, du fait de leur
caractère plus abstrait ou équivoque (i.e. dont la signification est variable selon les individus).
Prenons l’exemple de l’intelligence que l’on pourrait mesurer à partir de tests supposément
universels et qui suscitent de fortes controverses. Ou encore prenons l’exemple du bonheur.
17
Différents chercheurs (économistes notamment) se sont efforcés de construire des indicateurs
censés mesurer le « bonheur » d’un peuple, afin de concurrencer le Produit National Brut (jugé
trop focalisé sur les richesses matérielles et ne prenant pas suffisamment en compte les impacts
négatifs d’une forte croissance, par exemple sur l’environnement ou la santé) par le Bonheur
national brut. Comment mesurer le bonheur et espérer ainsi classer les pays à l’aune de cet
indice ? Quelles variables faut-il retenir pour construire l’indicateur ? Quatre dimensions (qui
elles-mêmes en comprennent plusieurs autres) ont été retenues par les promoteurs de l’indice : la
croissance et le développement économique ; la conservation et promotion de la culture ; la
sauvegarde de l'environnement et utilisation durable des ressources ; la bonne gouvernance
responsable. Or dans quelle mesure ces critères sont-ils pertinents pour évaluer le bonheur ? Et
comment convertir chacun d’entre eux en mesure ? On le voit, le problème est délicat, si bien que
le lien entre le concept « bonheur » et sa mesure repose sur des conventions arbitraires qui ne
suscitent pas de consensus dans la communauté scientifique.
Deux problèmes sont soulevés dans cette opération de traduction d’un concept en
indicateur.
(1) Tout d’abord, on vient de le voir, il n’est pas toujours aisé de déterminer une unité de
mesure qui traduirait sans ambiguïté au concept en question ou à l’une de ses dimensions.
Par exemple, le classement de Shanghai des universités mondiales s’appuie sur un
indicateur supposé représenter « l’excellence » respective des différentes institutions. Or
comment exprimer cette « excellence » ? Ce concept est lui-même décliné en quatre
critères (qualité de l’enseignement, qualité de l’institution, publications, taille de
l’institution) qui sont mesurés à partir de six variables quantitatives. Premier problème
donc : toutes les dimensions de la vie sociale sont-elles mesurables, c’est-à-dire
convertibles en données chiffrées ? C’est ici la tendance à la « quantophrénie » qui pose
question.
Critères Variables Pondération
Qualité de l'enseignement Nombre de prix Nobel et de médailles Fields parmi les anciens élèves
10 %
Nombre de prix Nobel et de médailles Fields parmi les chercheurs
20 % Qualité de l'institution
Nombre de chercheurs les plus cités dans leurs disciplines
20 %
Articles publiés dans Nature et Science entre 2000 et 2004
20 % Publications
Articles indexés dans Science Citation Index, et Arts & Humanities Citation Index
20 %
Taille de l'institution Performance académique au regard de la taille de l'institution
10 %
18
(2) Le deuxième problème a déjà été évoqué et sera développé plus en détail dans la troisième
section : c’est celui soulevé par la catégorisation. Pour objectiver le concept de
« chômage », étudier son évolution et établir des comparaisons (internationales
notamment), les statisticiens disposent d’un indicateur élémentaire car nourri d’une seule
variable : le taux de chômage. Celui-ci consiste à établir simplement la proportion de
chômeurs dans la population active. Mais pour mesurer le nombre de chômeurs, il faut
alors définir précisément qui est chômeur et qui ne l’est pas, autrement dit inscrire les
individus dans des « cases » aux frontières rigides, alors même que la réalité du rapport au
travail est constituée d’une infinie diversité de situations. Cette opération de conversion
des informations dans des modalités prédéfinies constitue une opération de codage.
Intellectuellement, elle repose sur un double principe d’anonymisation (les cas « réels »
sont inscrits dans les cases, généralement symbolisés par des chiffres ou des lettres pour
permettre le traitement statistique : 0/1/2/3) et de mie en équivalence (par
convention, on considère que les individus regroupés dans une même catégorie sont
interchangeables).
§3. Définir pour mesurer, mesurer pour définir
Les exemples de « l’excellence » universitaire ou du « chômage » montrent que la
conversion d’un concept en indicateur statistique repose en premier lieu sur une étape de
définition du concept. L’enjeu n’est évidemment pas de produire la définition la plus sophistiquée
possible mais de déterminer les caractéristiques ou les dimensions du concept les plus pertinentes
pour la recherche. Il s’agit donc d’identifier les traits qui se prêteront le mieux à l’observation, à
l’expérimentation ou à la mesure scientifique.
Prenons l’exemple d’une recherche d’Olivier Fillieule dont certains aspects
méthodologiques sont restitués dans l’article « Archives policières, sources de presse et
manifestations de rue » (cf. livret de TD). Ses travaux s’inscrivent dans les domaines de la
sociologie de l’action collective et de la sociologie des mouvements sociaux, c’est-à-dire qu’il
s’intéresse aux formes de protestation collective dans l’espace public. Plus précisément, il cherche
à répondre aux intrigues suivantes : quelles sont les principales évolutions des modes d’action
collective en France depuis plusieurs décennies ? Quels sont les groupes qui ont le plus
fréquemment recours à l’expression publique de leurs revendications ? La France se singularise-t-
elle à l’égard des autres pays ? Y a-t-il des spécificités territoriales dans le pays ? Etc. Répondre à
ces question suppose de disposer de données chiffrées qui permettront une objectivation
statistique du phénomène. Pour désigner son objet de recherche, il ne reprend pas les termes plus
19
classiques de « contestation » ou de « manifestation » : « contestation » est trop flou,
« manifestation » trop restrictif. Il privilégie le terme d’« événements protestataires ».
Mais pour identifier et recenser ces « événements protestataires », il lui faut définir ce
concept et notamment trouver les critères qui lui permettront de dire si tel événement doit être
retenu dans l’analyse ou pas. Car, dès lors que le chercheur ambitionne d’utiliser l’outil statistique
pour étayer sa démonstration, il est contraint d’établir précisément les frontières de son objet.
- Critère 1 = plus d’une personne
- Critère 2 = présence dans l’espace public (pas une conspiration, pas une réunion, etc.) donc
critère d’expressivité
- Critère 3 = nature politique de l’action (avoir des revendications : pas fête de village)
- Critère 4 = pas une manifestation organisée par les autorités politiques (caractère protestataire)
- Critère 5 = ne pas se limiter aux seules manifestations : inclure sit in, les rassemblements, les
barrages routiers, les occupations d’administration, etc.
Le cumul de ces cinq critères lui permet ensuite de proposer la définition suivante : « Tout
événement consistant en l’occupation momentanée par un acteur non gouvernemental d’un lieu
ouvert public ou privé, et qui comporte directement ou indirectement l’expression d’opinions
politiques. » C’est à partir de cette définition que Olivier Fillieule va ensuite pouvoir se plonger
dans ses « sources » (archives de presse et archives policières notamment) pour d’abord recenser
les événements protestataires et ensuite les analyser au regard de ses questions de recherche
(nombre de participants, modalités d’action, intervention ou non des forces de l’ordre, présence
ou non d’un service d’ordre, nature des revendications, identité des groupes mobilisés, etc.)
Cette étape de la définition peut être aussi qualifiée d’étape de « construction de
l’objet ». Elle est indispensable car c’est elle qui sert de chaînon entre la partie théorique et la
partie empirique du travail de recherche.
- D’abord, c’est à partir de la définition que vous allez pouvoir déterminer la méthode
d’investigation (travail sur archives, production de questionnaire, utilisation des données
statistiques ou des sondages existants, etc.) et la nature de votre terrain d’enquête (quelles
archives ? à quelle population adresser le questionnaire ? etc.). Par exemple, selon votre
définition de la délinquance et / ou de la criminalité, les méthodes d’identification des actes
délictueux ou criminels et de leurs auteurs peuvent considérablement changer. D’un côté, si
vous concevez les actes délinquants ou criminels comme l’ensemble des actes définis comme
des « délits » ou des « crimes » par la loi et découverts par les services de police, vous allez être
amenés à principalement étudier les statistiques policières, avec le risque de davantage mesurer
20
l’activité policières et les priorités politiques assignées à la police que la « réalité » des pratiques
délictueuses ou criminelles. Il est ainsi probable que vous ayez le sentiment d’une soudaine
augmentation de la « délinquance routière », alors que l’augmentation des délits recensés renvoie
seulement à un accroissement des effectifs policiers affectés au contrôle des routes. De la même
manière, vous risquez d’avoir le sentiment que les délinquants ou les criminels appartiennent
surtout aux catégories sociales dominées, si la police tend à se désintéresser de la « délinquance
en col blanc » ! D’un autre côté, si vous adoptez une conception plus extensive, à savoir « tous
les actes définis comme des “délits” ou des “crimes” par la loi », il vous faudra imaginer d’autres
méthodes d’investigation et notamment s’efforcer de croiser différents terrains (cumuler
examen des statistiques policières, enquêtes de victimation, enquêtes de voisinage, etc.). On le
voit, il serait naïf de croire que la définition précède l’interrogation sur le terrain d’enquête : bien
souvent, la définition est élaborée en ayant en tête le terrain d’enquête.
- Ensuite, l’étape de construction / définition de l’objet est déterminante car elle participe du
travail de problématisation. En effet, la définition du concept reflète le cadre théorique, c’est-à-
dire le point de vue adopté sur l’objet. La définition ne soulève donc pas seulement des
problèmes « techniques ». Elle contient une dimension idéologique indéniable : il faut en avoir
conscience pour ne pas la subir ! Reprenons l’exemple de la « stratification sociale », en
s’appuyant sur le texte de Louis Chauvel (« La dynamique de la stratification sociale »). D’un
côté, la stratification pourrait être définie à partir du critère de la richesse, ce qui se justifierait
par la centralité des aspects financiers dans la vie collective (pour le dire vite, l’argent permet
d’accéder aux biens « rares » et convoités ; de maintenir une position dominante via l’accès à
l’éducation privée et la sécurisation contre les aléas professionnels ; d’obtenir la reconnaissance
des autres). De cette définition, découle un indicateur qui cumule deux variables (revenus et
patrimoine) et qui permet de construire une échelle (mesure par décile ou centile). D’un autre
côté, la stratification sociale pourrait se définir à partir de la position des individus dans le
monde du travail, via la variable « groupe socioprofessionnel ». Cette définition tient compte du
fait que la position sociale ne constitue pas seulement un problème de revenu mais aussi un
problème de statut et de prestige que garantit principalement l’intégration dans le monde du
travail.
Or, derrière ce débat apparemment technique, se niche en réalité deux visions distinctes de la
société. D’une part, une vision « continue » pour qui les inégalités s’évaluent en termes de
quantités de ressources (principalement financières) : il est alors difficile d’identifier précisément
d’éventuels clivages entre différents groupes (sauf si l’on observait une très forte polarisation de
la distribution des richesses). D’autre part, une vision « discontinue » pour qui les inégalités
21
renvoient davantage à des logiques de domination, mettant en opposition des groupes sociaux
relativement hermétiques les uns aux autres. Les individus ne se différencient donc pas seulement
en termes de gradation mais plutôt en termes d’appartenance durable à des catégories
potentiellement en situation de conflits (jusqu’au modèle de la lutte des classes).
Pour conclure, il faut rappeler que les choix méthodologiques constituent aussi des choix
théoriques (même s’ils échappent parfois à leur auteur). Les résultats et, par conséquent, les
phénomènes sociaux mis à jour dépendent toujours en partie de l’instrument de mesure. Selon les
méthodes choisies, on n’objective pas exactement la même chose. Il importe donc de ne jamais
chercher à « mesurer » un phénomène sans l’avoir défini et identifié les implications théoriques
d’une telle définition.
Section 3. La catégorisation et les dangers de l’objectivisme
§1. Variables quantitatives et variables qualitatives
Qu’il s’agisse de décrire une population ou de rechercher d’éventuelles corrélations entre
variables, le travail statistique consiste à étudier un grand nombre de cas, à partir d’informations
standardisées par des procédures de codages. Qu’il s’agisse de personnes, de ménages, de
groupes, d’entreprises, de pays, d’événements protestataires, etc., chaque cas est qualifié d’« unité
statistique » ou d’« individu ». L’ensemble des « unités statistiques » sur lesquels porte l’enquête
forment la population. Chaque individu est donc soumis aux mêmes questions, chacune des
questions correspondant à une variable. Le recueil des informations permet alors de remplir le
tableau suivant : celui-ci indique, pour chaque individu, les « formes » de chacune des variables de
l’enquête.
Variable 1 = sexe ? Variable 2 = âge ? Variable 3 = statut
d’activité ? Variable 4 =
revenus ? Individu 1 H 35 Salarié privé 2500 Individu 2 F 56 Chômeur 800 Individu 3 H 32 Salarié privé 1200 Individu 4 H 18 Étudiant 300 Individu 5 F 78 Retraité 1100 Individu 6 H 23 Salarié public 1700 Individu 7 F 29 Femme au foyer 0 Individu 8 F 54 Salarié public 2250 Individu 9 H 49 Indépendant 3600
Or il existe deux types de variables :
22
- D’abord, les variables quantitatives sont des « variables qui s’expriment sous la forme d’une
valeur métrique » (Philippe Alonzo), autrement dit la variable s’exprime sous une forme
numérique, le nombre constituant la valeur de la variable (valeur rapportée à une unité de
mesure). L’âge, le revenu, le taux de chômage, le produit intérieur brut, l’indice des prix ou encore
le nombre d’enfants sont des variables quantitatives.
- Ensuite, les variables qualitatives sont des « variables dont les différentes formes sont des
attributs ou des catégories » (Philippe Alonzo), autrement dit des « qualités ». Les différentes
formes d’une variable qualitatives constituent les modalités de la variable. Par exemple, la
variable « sexe » comprend deux modalités : homme ou femme. La variable « statut d’activité »
comprend ici sept modalités : salarié du privé, salarié du public, indépendant, chômeur, retraité,
étudiant / lycéen, femme au foyer. Il existe plus précisément deux types de variables qualitatives :
* les variables ordinales sont des variables dans laquelle les modalités
peuvent être hiérarchisées sur une échelle. C’est le cas, par exemple, des
variables qui correspondent aux questions d’opinion où les interviewés sont
invités à juger une personnalité à partir d’une échelle où les quatre modalités
sont hiérarchisées de « tout à fait favorable » à « pas du tout favorable ». De la
même manière, les notes à un examen peuvent être retenues en tant que
variables ordinales (dans la mesure où ces nombres pourraient être remplacés
par des lettres).
* les variables nominales sont des variables qui ne fait que « nommer les
individus qu’elle décrit. Qu’il s’agisse du « sexe », du « groupe
socioprofessionnel », de la « région de l’interviewé », l’ordre des modalités
importe peu. Cela n’empêche pas qu’il est possible, pour l’analyse, d’opérer des
regroupements et ainsi modifier les modalités de la variable (par exemple,
regrouper « ouvriers » et « employés » pour obtenir la modalité « catégories
populaires »).
Tandis que les variables quantitatives posent le problème de la qualité de la mesure (et de
la pertinence de l’instrument de mesure), les variables qualitatives soulèvent, quant à elles, deux
difficultés : la pertinence des catégories utilisées (ont-elles un sens ? correspondent-elles à des
catégories existant dans la réalité ?) et l’arbitraire du classement (par exemple, dans une étude de
science politique opérant une comparaison de différents Etats, où placer la frontière entre
« démocratique » et « non démocratique » ? De même, dans une enquête sur le logement en
France, quels critères permettent d’attribuer à un appartement la qualité de « bonne » ou
« mauvaise » qualité ?).
23
§2. Catégories instituées et catégories spontanées
La catégorisation constitue donc une opération indispensable mais problématique. En
effet, quelles catégories le sociologue peut-il utiliser pour décrire sa population ? En labellisant et
en classant les individus, le chercheur ne prend-il pas le risque d’opérer des regroupements
abusifs ? Ne risque-t-il pas de créer, d’homogénéiser et d’opposer des groupes fictifs ? Bref, n’y a-
t-il pas un danger d’entretenir certains stéréotypes et ainsi de mettre à mal l’ambition de « rupture
épistémologique » qu’évoquent Gaston Bachelard (1884-1962) et Émile Durkheim ? Cet obstacle
est plus ou moins prononcé selon le type de variables qui intéressent le chercheur.
1. Catégories instituées. François Héran rappelle en effet qu’il existe un premier
ensemble de catégories : les « variables d’Etat » qui sont des « variables établies », « tributaires de
l’état civil ou certifiées sur l’ensemble du territoire national ». Par exemple, personne en France ne
remettrait en cause la validité de la césure opposant une personne mariée et une personne
célibataire : cette opposition repose en effet sur une institution codifiée par l’Etat, valable sur
l’ensemble du territoire national : le mariage. Dès lors que le maire signe le document et déclare
« vous êtes mari et femme », les individus changent soudainement de statuts et deviennent,
objectivement, aux yeux de tous, maris et femmes. Toutes les catégories déterminées dans le
droit sont « objectivées juridiquement » ou « instituées » : leur délimitation repose sur des
critères juridiques, déterminés par la puissance publique souveraine, qui rendent les catégories
« objectives », c’est-à-dire ici socialement incontestables. Comme le rappelle Héran, « tout l’effort
du droit revient à fixer des seuils dans le continuum social », à produire des coupures
« arbitraires ».
L’institution du diplôme constitue aussi un bon exemple : appartenir à la catégorie des
« diplômés du supérieur », c’est détenir un diplôme dont la valeur est fixée par l’Etat. En France,
personne ne remettrait en cause votre appartenance à cette catégorie, tandis que, dans d’autres
contextes géographiques ou historiques, il peut y avoir une opposition quant à la valeur de ce
bout de papier qualifié « diplôme ». De la même manière, les variables d’indications
géographiques sont elles aussi « objectivées » juridiquement et ne suscitent aucune contestation :
vous appartenez à des villes, des départements et des régions dont l’existence et le découpage ne
suscitent aucune remise en question (ce qui n’est pas le cas, par exemple, lorsqu’il y a un conflit
entre deux Etats pour savoir à qui appartient un territoire et quel nom lui donner). On pourrait
multiplier les exemples : la nationalité (c’est l’État qui détermine qui est Français et qui ne l’est
pas, l’appartenance à cette catégorie étant par ailleurs « objectivée » par la Carte d’identité), le
24
statut d’adulte (c’est l’État qui fixe la frontière entre une personne mineure et une personne
majeure, la validité du passage d’une catégorie à l’autre étant assurée par l’acte de naissance, lui-
même établi par les agents de l’État), etc. Enfin, le statut socioprofessionnel d’un individu
s’inscrit dans des catégories objectivées par des conventions collectives (ouvriers, techniciens,
cadres, etc.) dont la légalité est déterminée par la certification étatique : à ces « titres » de poste
dans les entreprises correspond des différences de statuts, de salaires, etc. qui, elles, peuvent être
davantage remises en cause, puisque l’universalité de ces catégories sur le territoire national est
moins « établie » que pour les variables d’état civil précédemment citées. Pour conclure, on peut
donc admettre avec Héran qu’« Un phénomène social se laisse d’autant mieux objectiver [et
mesurer statistiquement] qu’il l’est déjà dans le monde social ».
2. Catégories « fluides ». Mais d’autres formes de classement ne bénéficient pas du
même degré d’institutionnalisation : toutes les catégories ne sont pas autant « objectivées » dans le
monde social. La plupart de celles que nous mobilisons au quotidien reposent ainsi sur des
représentations spontanées, des impressions, des critères informels… En effet, chaque jour, nous
utilisons des principes de catégorisation pour distinguer les personnes « grandes » des « petites »,
les « belles » des « moches », les « douées » des « maladroites », les « jeunes » des « vieux », les
« sévères » des « indulgentes », les « intolérantes » des « tolérantes », etc. Or, pour chacune de ces
échelles de classement, il paraît difficile d’identifier des critères objectifs pour distinguer les
individus et définir ces catégories.
S’il est possible de mesurer une personne (la taille constitue une variable quantitative dont
la valeur s’exprime en cm), est-il aussi évident de caractériser cette taille à partir d’une variable
qualitative ? Quel critère permettrait de différencier objectivement et universellement une personne
« grande » d’une personne « moyenne » ? Dans Les Ficelles du métier, Howard Becker souligne bien
les difficultés d’établir un tel constat, alors même « la taille [est] la donnée la plus concrète que
l’on [peut] espérer jamais pouvoir connaître au sujet de quiconque. » Il faut alors garder en tête
que chaque catégorie n’a de signification que « relationnellement » : on n’est grand que par
rapport à une moyenne, que par rapport à des personnes plus petites. Une même personne peut être
définie comme « grande » par son entourage mais « petite » par ses partenaires de basket. La taille
moyenne varie selon les époques et selon les milieux sociaux, bref selon les contextes.
Cette « ficelle » peut ainsi être généralisée à l’ensemble des qualités utilisées pour
cataloguer les individus : pour être pertinentes, elles doivent être (1) rapportées au contexte
spatial et historique dans lequel s’inscrivent les individus (on est jugé « grand » dans un
contexte donné) et (2) replacées dans un système de relations (on est jugé « grand » par
25
rapport à des personnes plus petites). Pour prendre un autre exemple, être « pauvre » en France
en 2010, ce n’est évidemment pas la même chose qu’être pauvre en Inde en 2010 ou qu’être
pauvre en France en 1810. En valeur absolue, les « pauvres » en France aujourd’hui peuvent
accéder à davantage de biens (alimentaires, vestimentaires, etc.) que les « pauvres » d’autres
contextes sociohistoriques. Pour autant, il paraîtrait incongru de refuser de qualifier de
« pauvres » les ménages qui vivent sous le « seuil de pauvreté » : il est de toute façon des individus
« plus pauvres » que d’autres et des individus appartenant aux 10 %, 20 % ou 50 % « les plus
pauvres ». Il faut donc admettre le caractère « relatif » de la pauvreté : celle-ci ne s’évalue que dans
le cadre d’une société donnée, au regard de la richesse médiane (le seuil de pauvreté est fixé à 50
% des revenus médians), et non en termes absolus (par exemple, au regard de la capacité à
acquérir tels biens ou tels services). Autre exemple soulignant l’idée que les catégories n’ont de
significations que dans un contexte donné. Par exemple, l’adolescence n’a de sens que dans
une société marquée par l’élévation générale du niveau scolaire (et donc le recul de l’entrée dans la
vie active et dans la vie matrimoniale). De la même manière, la notion de chômeur n’a de sens
que dans une société dominée par le salariat. Enfin, en sociologie politique, les notions de
« gauche » et de « droite » ne renvoient pas exactement aux mêmes réalités selon les pays et selon
les époques. Mieux : dans un même pays, à une même époque, les frontières entre la « gauche » et
la « droite » ne sont pas équivalentes dans la tête de tous les individus. Pour certains militants
d’extrême gauche, le Parti socialiste est envisagé comme un parti de « droite » depuis que son
programme n’entend plus remettre en cause les fondements de l’économie de marché.
Il apparaît donc délicat d’entreprendre des comparaisons dans le temps ou dans
l’espace, en faisant comme si un même mot désignait la même réalité partout. Il serait, par
exemple, naïf d’étudier la situation des pays selon le nom des partis qui les dirigent : si le Sénégal
dispose, comme en France, de partis qui se revendiquent « socialistes » ou « libéraux », ces
formations reposent sur un socle idéologique bien différent de celui établi en France. Il serait
également tout aussi naïf de vouloir étudier la population des « délinquants » comme s’il s’agissait
d’une catégorie objective et identique dans le temps : en effet, le statut de « délinquant » dépend
des qualifications juridiques en vigueur à un moment donné. Or, du jour au lendemain, un acte
autorisé peut devenir un délit (et vice versa) : siffler l’hymne national peut suffire aujourd’hui à
vous faire devenir un délinquant. Analyser la catégorie dans le temps renvoie donc autant aux
évolutions de la loi qu’aux évolutions sociologiques de ceux qui la transgressent.
26
§3. La catégorisation comme enjeu des luttes symboliques
On vient de le voir, il est délicat d’inscrire un individu dans une catégorie donnée du fait
de son caractère relatif et de l’absence de consensus quant à la pertinence d’une telle désignation.
Pour reprendre les exemples déjà donnés, où placer la frontière entre « Etats démocratiques » et
« Etats non démocratiques » ? Comment distinguer les « jeunes » des autres ? Y a-t-il des critères
permettant de différencier objectivement les personnes « de gauche » et celles de « droite » ? Mais
cette difficulté tient aussi et surtout au fait que peu de catégories sont dénotées et n’impliquent
aucun jugement de valeurs. Pour le dire autrement, la plupart des labels utilisées pour classer
les individus sont socialement connotés, soit positivement, soit négativement. Bref, les
mots sont rarement neutres !
C’est ce que montre très bien le sociologue américain Everett Hughes (1897-1983) au
sujet des noms de métier (« Le travail et le soi », 1951). Il rappelle en effet que ces noms
fonctionnent comme des « étiquettes » (au double sens d’étiquettes de prix et de cartes de visite).
Ils servent donc à indiquer la « valeur » et le « statut » d’une personne, bref une identité qui peut
être plus ou moins valorisante. Puisque le métier d’un homme constitue aujourd’hui l’une des
« composantes les plus importantes de son identité sociale, de son moi et de son destin », Hughes
souligne les stratégies mises en œuvre par certains métiers pour bénéficier de la désignation la
plus favorable et ainsi être positivement reconnus. Quelques exemples récents permettent de se
rendre compte de ces jeux autour des désignations : « techniciens de surface » et non « homme de
ménage », « hôtesse d’accueil » et non « standardiste », « agriculteur » et non « paysan » (mais la
Confédération paysanne s’est justement battue pour opérer le mouvement inverse), « demandeur
d’emploi » et non « chômeur », etc. De la même manière, les universitaires peuvent
stratégiquement modifier l’intitulé de leur métier selon leur public : « enseignant », « chercheur »,
« enseignant-chercheur », etc.
Mais les acteurs sociaux ne s’efforcent pas seulement de modifier les noms ou les
connotations qui y sont associées : ils luttent aussi pour déplacer les frontières des groupes,
modifier les découpages, bref faire bouger les nomenclatures. Hughes évoque en effet aussi les
efforts menés par les infirmières américaines pour se rapprocher symboliquement du corps
médical et s’éloigner inversement des aides-soignantes : leur enjeu est de modifier les
représentations qui différencient médecins et autres personnels d’hôpitaux. Les classements
sociaux sont en permanence l’objet de luttes symboliques dont l’enjeu est d’imposer des
visions du monde. Longtemps sociologues à l’INSEE, Alain Desrosières et Laurent Thévenot
(Les Catégories socioprofessionnelles) ont bien montré comment l’élaboration des nomenclatures
socioprofessionnelles met aux prises de très nombreux groupes d’intérêt, chacun cherchant à
27
orienter le classement dans un sens favorable. Ainsi, la catégorie « cadres » ne constitue
aucunement une catégorie naturelle et évidente : pour preuve, il est bien délicat d’identifier une
catégorie équivalente dans les autres pays occidentaux (aux Etats-Unis, par exemple, les « cadres »
sont souvent divisés en « managers » et « professionnels »). Au contraire, c’est une construction
historique à laquelle Luc Boltanski a consacré un passionnant ouvrage (Les Cadres). Il ne s’agit ni
d’un groupe homogène, ni d’une pure fiction : mais bien du produit d’un travail de mobilisation,
d’identification, d’institutionnalisation, bref de représentation, mené dans un contexte singulier (à
partir des années 1930) par des groupes d’individus désireux d’imposer sur la scène politique des
valeurs et des intérêts singuliers : défendre l’identité des « cadres », c’est défendre une vision
« moderne » de la société qui vise au dépassement de la lutte des classes. Les porte-parole des
« cadres » vont se définir comme les représentants d’une nouvelle élite dont la position se justifie
non plus au nom de la détention du capital mais au nom d’une compétence technique et
managériale.
C’est ici que le terme de représentation est précieux : puisqu’il désigne à la fois les
« images mentales » (qui témoignent du caractère plus ou moins évident de l’existence d’un
groupe) et les mécanismes de « délégation » (ce sont souvent les porte-parole qui font exister un
groupe puisqu’ils le font parler, le structurent via des mouvements supposés représentatifs, lui
donnent une image, expriment des revendications… bref, ils le personnifient, notamment dans le
cadre de conflits sociaux). On pourrait prendre l’exemple des efforts visant à promouvoir
l’existence d’une « classe moyenne » et à en dessiner de larges contours : la plupart des partis de
gouvernement (PS / UMP) se désignent comme représentants des « classes moyennes », ce qui
leur offre l’avantage d’élargir leur base électorale supposée.
Il s’agit là souvent d’un acte performatif, « acte de magie sociale » dit Pierre Bourdieu
(« La force de la représentation », in Ce que parler veut dire, p. 140) qui contribue donc au sentiment
d’existence objective et éternelle du groupe. C’est ce qu’à bien montré l’historien britannique
Edward Thompson (1924-93) au sujet de La Formation de la classe ouvrière anglaise (1963). La « classe
ouvrière » qui émerge aux XIXe rassemble, certes, des individus qui se ressemblent, partageant la
même condition objective de prolétaire, soumis aux cadences infernales des usines et à la misère.
Mais pour exister et s’imposer dans les représentations comme un groupe à part entière et distinct
des autres, la classe ouvrière ne devait pas seulement posséder les traits d’une « classe en soi »
mais devenir une « classe pour soi », c’est-à-dire consciente de son existence et organisée dans
une lutte commune. Pour cela, il a fallu qu’un certain nombre d’intellectuels, ouvriers, hommes
politiques, mènent un véritable travail de représentation pour parler au nom de la classe ouvrière
et faire accepter qu’ils parlaient au nom de groupes souvent isolés les uns des autres. Thompson
28
rappelle cette distinction déjà établie par Marx. Mais il va plus loin en montrant que cette notion
de « classe ouvrière » n’a pu émerger que dans un jeu d’opposition et de différenciation avec
d’autres groupes sociaux. La classe ouvrière n’existe donc pas en soi : elle n’existe qu’au sein d’un
système économique particulier (dominé par le capitalisme industriel) et en rapport avec d’autres
classes ou groupes (patrons, cadres, techniciens et contremaîtres, etc.).
Mais au-delà des seules catégories socioprofessionnelles, c’est l’ensemble des
catégories identitaires dont il faut dénaturaliser l’apparente existence « objective » (au
sens de naturelle et d’éternelle). Aucune catégorisation n’est totalement naturelle : même la
division a priori évidente entre « hommes » et « femmes » peut poser problème. D’abord,
comment classer les transsexuels, travestis, trisomiques XXY et autres queers qui refusent une telle
assignation. Ensuite, sexe biologique et genre social ne se recouvrent pas automatiquement : dans
de nombreuses sociétés, il peut y avoir une déconnexion entre ces formes d’appartenance. Par
exemple, la sexualité dans la Rome antique n’est pas tant fondée sur la division entre « hommes »
et « femmes » qu’entre « pénétrants » et « pénétrés », autrement dit entre « dominants » et
« dominés » socialement (Géraldine Puccini-Delbey, in La Vie sexuelle à Rome, 2007). Si même le
sexe suscite l’interrogation, cela montre bien qu’aucune catégorie ne va de soi et ne correspond à
un groupe clos, homogène et distinct des autres. Il faut donc admettre que toutes les catégories
sont le produit d’une construction sociale et historique : elles sont construites par un travail
de définition juridique par les institutions, d’imposition performative par certaines autorités
désireuses de mobiliser en désignant les alliés et les ennemis, le « nous » et le « eux ». Elles sont
construites dans la tête des gens : c’est l’importance de la croyance (subjective) dans l’objectivité
d’un groupe qui lui confère cette objectivité !
Il faut donc se méfier des lectures essentialistes des catégories et des identités. Ces
lectures entretiennent en effet la croyance en l’existence de groupes qui seraient immuables,
homogènes et éternels (des « essences » dans le langage philosophique). Dans une perspective
essentialiste, les individus appartiennent pour toujours à une catégorie donnée, du fait de ses
gênes, de sa « culture » de naissance, de son état civil, bref de critères supposément « objectifs » et
qui caractériseraient une fois pour toute une personne (et le distingueraient des autres). A
l’inverse, les sociologues des identités (tels Claude Dubar, dans La Crise des identités ou Jean-
François Bayart dans L’Illusion identitaire) revendiquent une position nominaliste : ce qui existe,
ce sont des noms de catégories, des labels qui servent à désigner ou à identifier. Mais il n’y a pas
d’essence éternelle. Tout est soumis au changement : l’identité d’une personne dépend de
l’époque considérée et du point de vue adopté. Les catégories utilisées dépendent du système de
mots en usage dans un contexte donné. Ces modes d’identification sont historiquement et
29
géographiquement variables parce qu’elles sont historiquement et géographiquement
construites et objectivées par certaines institutions et certains acteurs politiques. Il n’y a pas de
différences infranchissables et éternelles entre individus, même si certains peuvent en avoir
l’intime conviction ! Il y a en revanche des sentiments d’appartenance à certaines catégories (et
d’assignation des Autres dans d’autres catégories).
Or, d’une part, ces sentiments sont historiquement changeants. Par exemple, les
nations ont une histoire : elles n’existent pas depuis toujours. Elles forment des « communautés
imaginées », selon la formule de Benedict Anderson, qui ont émergé à l’époque moderne sous
l’effet notamment du développement des technologies de communication et des efforts de
centralisation des Etats. D’autre part, ces sentiments sont généralement pluriels mais ils sont
plus ou moins intenses (et donc significatifs) selon les contextes. En effet, les individus disposent
tous d’une diversité d’identités, au sens ici d’identifications par soi-même (appartenance) et par
les autres (attribution, reconnaissance). Mais ces identités ne servent véritablement à
caractériser une personne que lorsque celle-ci entre en interaction avec les autres. On se
sent homme au contact avec une femme, on se sent « jeune » au contact des personnes plus
âgées, on se sent « riche » au contact avec des personnes moins fortunées, on se sent Français au
contact avec des étrangers, on se sent « rural » au contact avec des urbains. Autrement dit, c’est
aux frontières que se construisent les sentiments d’appartenance identitaire et que se forgent les
outils de désignation et de classement des individus. C’est donc en situation que les identités
s’avèrent plus ou moins mobilisables : on ne peut enfermer un individu une fois pour toutes dans
une catégorie dont les attributs seraient figés, comme si celle-ci suffisait à caractériser son identité
et sa personnalité. Une telle perspective, « fixiste », constitue l’écueil principal des pensées
culturalistes et, pour certaines, xénophobes ou racistes.
Le maniement des catégories constitue donc l’une des principales difficultés des sciences
sociales puisque ces sciences ont pour objectif de décrire un monde social déjà en permanence
ordonné et catégorisé par les termes des institutions et les agents sociaux. Les sciences sociales
se trouvent donc confrontées à un objet déjà fortement balisé par le « langage ordinaire ».
Il est souvent difficile de se rappeler que les notions apparemment les plus évidentes et les plus
ordinaires sont le produit, banalisé, d’une intense activité de construction symbolique du monde
social. Il est souvent difficile de résister à la tentation d’utiliser sociologiquement la notion de
« jeunes » et de se souvenir qu’elle désigne une population extrêmement hétérogène sur le plan
des conditions d’existence. Ces obstacles, on l’a vu, sont plus particulièrement délicats dans le
cadre des méthodes quantitatives puisque celles-ci ont pour principe d’inscrire les unités
30
statistiques dans des modalités prédéfinies et strictement délimitées. Puisqu’on ne peut pas se
passer des catégories, il faut être vigilant sur leur construction et leur utilisation. Il faut
notamment fuir toute perspective objectiviste. Celle-ci consiste à déterminer de l’extérieur, à
partir des instruments d’observation du monde social, quelques traits unifiant a priori
« objectivement » un groupe : le lieu de résidence géographique, les catégories objectivées par
l’état civil, l’âge mais aussi le nom de famille (utilisé frauduleusement en guise de détermination
de l’origine ethnique puisque cette variable ne peut figurer dans les enquêtes de recensement),
l’apparence physique (cf. critères d’identification des personnes par la criminologie, discipline qui
émerge au XIXe siècle).
Le danger d’une telle perspective, c’est l’arbitraire du classement, c’est-à-dire l’utilisation
de critères qui n’ont aucune signification sociologique dans la mesure où ils segmentent des
groupes qui, socialement, ne font sens pour personne. Ce caractère arbitraire s’observe dans la
construction des classes d’âge : après tout, pourquoi réunir dans un même groupe les 18-24 ans et
décider qu’à 24 ans, l’ensemble des individus changeraient de catégories ? De même, quel sens y
a-t-il de s’appuyer sur la catégorie « immigré » (au sens de né étranger à l’étranger) sachant qu’un
tel ensemble regroupe des populations issues de pays aux situations extrêmement contrastées et
dotées de statuts légaux très variables (quoi de commun en effet, en terme de parcours de vie,
entre un « immigré » belge et un « immigré » issu d’Afrique subsaharienne) ?
Dans ses versions les plus rigides, une telle démarche peut être qualifiée
d’« objectivisme », dans la mesure elle considère comme « objectives » (c’est-à-dire ici stables,
évidentes, naturelles, éternelles, etc.) des frontières qui, dans la réalité, sont socialement
construites, changeantes et enjeux de débats. Les écueils de l’« objectivisme » renvoient
notamment aux prétentions positivistes de nombreux savants du XIXe siècle qui prétendaient
étudier les phénomènes sociaux à partir des outils et des modes de raisonnement issus des
sciences naturelles. L’« objectivisme » s’observe en particulier dans les efforts mis en œuvre pour
classer les langues, les races, les peuples, les croyances, etc. à partir de critères d’observation
supposément objectifs et universels mais avant tout fondés sur des impressions mal maîtrisées.
De même que l’impression tend à montrer que le soleil tourne autour de la terre, de même que
les impressions premières donnent à voir des « races » aux frontières intangibles ! À chaque
groupe mis en évidence est alors rattaché un certain nombre de traits présentés comme naturels
et universels. Pour ne prendre qu’un exemple, voici quelques extraits d’un ouvrage fondateur de
la criminologie, Le Crime politique et les révolutions par Cesare Lombroso : « Parmi les facteurs
anthropologiques des crimes politiques, le premier qui se présente à nous est la race ; cela ressort
avec évidence de la comparaison de l’esprit révolutionnaire très accentué dans certains pays, avec
31
l’apathie absolue que l’on rencontre en d’autres, même à égales conditions de climat et
d’organisation sociale. Nous en aurions une preuve (…) dans les caractères spéciaux qui
distinguent, en France, les populations selon la prédominance du type brachycéphale ou du type
dolichocéphale : le premier est frugal, laborieux, prudent, attaché aux traditions et aimant
l’uniformité ; le second a de grands besoins et travaille pour les satisfaire ; (…). Ainsi, sur 89
grands novateurs et révolutionnaires, (…) vingt brachycéphales (Pascal, Mirabeau, Marat,
Desmoulins), contre 69 dolichocéphales (Racine, Voltaire, Lavoisier, Diderot, Rousseau, […]). »
Ces perspectives prêteraient à sourire si elles n’avaient pas servi de légitimation
scientifique aux entreprises racistes et, parfois, génocidaires. Ainsi, au Rwanda, avant le génocide
de 1994, l’État imposait sur la carte d’identité les mentions « Tutsis » ou « Hutus » comme s’il
s’agissait de populations racialement ou ethniquement ou culturellement distinctes. Or, au-delà
même de la question des mariages mixtes qui rendent les frontières flottantes, ces catégories ne
reposent pas historiquement sur une distinction d’ordre culturelle (Tutsis et Hutus parlent la
même langue et partagent les mêmes religions). Il ne s’agit pas non plus d’une distinction
géographique : les deux groupes sont présents conjointement sur l’ensemble du territoire
rwandais et burundais. Il s’agit encore moins d’une opposition fondée des critères
« biologiques » : malgré certaines théories cherchant à démontrer les origines ethniques
respectives de ces deux peuples, aucun argument solide n’a pu étayer cette hypothèse
sociobiologique. Enfin la distinction n’est pas historiquement liée à la position sociale des
personnes : si le pouvoir politique était dominé par certains Tutsis avant et pendant la période
coloniale, cela ne concernait pas tous les Tutsis (la plupart d’entre eux n’occupaient pas de
positions élevées socialement). À rebours de ces visions cherchant à démontrer le caractère
objectif et éternel de cette division, les historiens ont au contraire montré que celle-ci est
principalement le produit d’une construction politique qui s’est progressivement imposée lors de
la colonisation belge. Il ne s’agit évidemment pas d’une pure invention : ces catégories « Tutsis »
et « Hutus » existaient dans le Rwanda précolonial. Elles reposaient entre autre sur une
opposition entre pasteur semi-nomade (Tutsis) et cultivateurs sédentaires mais elles ne s’y
arrêtaient pas. Ensuite, ces catégories s’avéraient relativement fluides : les familles n’y étaient pas
enfermées une fois pour toutes. Enfin, elles ne constituaient que l’un des critères de
différenciation sociale (au même titre que les lignages ou les appartenances géographiques). Or,
animés d’une approche scientiste des « races » humaines, porteurs d’une vision religieuse qui les
prédisposaient à rechercher les enfants de Cham aux bords du Nil (qui seront identifiés aux
Tutsis) et, surtout, mus par des intérêts politiques, les colons ont considéré la distinction entre
32
Hutus et Tutsis comme une différenciation ethno-raciale « objective » et éternelle qui justifiait que
le pouvoir administratif et les privilèges sociaux soient octroyés à ce peuple appréhendé comme
« supérieur » : le peuple « Tutsis ». La démarcation a donc été durcie non seulement par la
politique coloniale mais également par les revendications indépendantistes des leaders Hutus qui
ont cherché à la fois à s’affranchir de la tutelle belge et à obtenir la démocratisation du pays
(puisque les Hutus étaient majoritaires).
Pour aller plus loin :
- Chrétien Jean-Pierre, Le défi de l'ethnisme : Rwanda et Burundi, 1990-1996, Paris : Karthala, 1997.
- Franche Dominique, Généalogie du génocide rwandais, Paris : Tribord, 2004.
- Vidal Claudine, « Situations ethniques au Rwanda », in Amselle Jean-Louis et M’Bokolo Elikia,
Au cœur de l’ethnie, Paris : La Découverte, 1985.
33
Chapitre 2 – La production statistique
Section 1. Population et échantillons
§1. De la population à l’échantillon
On l’a vu, toute recherche quantitative repose sur l’analyse d’une population composée
d’individus ou d’unités statistiques. Si l’enjeu est de tirer des enseignements généraux sur la
population, il est, la plupart du temps, impossible de réaliser une enquête exhaustive auprès de
l’ensemble des individus d’une population. Deux raisons expliquent cet obstacle : d’abord, une
enquête exhaustive s’avèrerait souvent trop coûteuse (en termes d’argent, de temps, de formation
des enquêteurs, etc.) ; ensuite, le risque d’erreur augmente à mesure que le nombre de cas étudié
augmente. La plupart des recherches quantitatives travaillent donc à partir d’un
échantillon, ce qui suppose de contrôler le choix des individus soumis à l’enquête. Il s’agit
d’enquêtes par sondage, c’est-à-dire des « enquêtes sur une fraction de situations choisies parmi
toutes les situations possibles » (le terme de sondage pouvant également être défini en tant que
« prélèvement d’un échantillon d’une population », Philippe Alonzo). Comme le rappelle Patrick
Lehingue dans Subunda, ce terme vient des sciences naturelles : il fait référence à la « sonde »
sous-marine chargée, à partir d’un point de mesure, de déterminer la profondeur d’une zone
donnée.
Les principes théoriques des méthodes d’échantillonnage viennent des mathématiques
probabilistes. Celles-ci indiquent que, pour connaître les événements qui peuvent survenir dans
une population donnée, il est possible de n’étudier qu’une petite partie de celle-ci, à condition de
respecter des règles rigoureuses de sélection de cette fraction de population. Si cet échantillon est
bien construit, il est possible de généraliser : les informations recueillies auprès de l’échantillon
sont supposées généralisables à l’ensemble de la population. C’est un principe d’induction ou
d’inférence statistique qui commande le passage du particulier (l’échantillon) au général (la
population). Or comment construire un échantillon pertinent ? Cette question sous-entend qu’il
faut faire face à deux obstacles principaux :
- Un obstacle théorique : la représentativité des échantillons. Un échantillon est dit représentatif (1)
quand il possède la même structure que la population de référence ; (2) quand tous les
membres de la population ont la même probabilité de faire partie de l’échantillon (cf. §2 et 3).
- Un obstacle pratique : l’accès aux individus (cf. §4).
34
Il existe donc différentes techniques pour constituer un échantillon qui soit
scientifiquement pertinent. On en retiendra deux.
§2. Les sondages aléatoires
Les échantillons aléatoires sont des échantillons qui s’obtiennent par tirage au sort. Ils
reposent sur le seul hasard pour n’introduire aucun biais. D’un côté, les sondages aléatoires sont
les plus pertinents d’un point de vue méthodologique. De l’autre, il s’agit des enquêtes les plus
délicates à réaliser. Pourquoi ?
- Pour pouvoir tirer au sort, il faut d’abord disposer d’une liste exhaustive de la
population (c’est-à-dire une « base de sondage »). Seul l’INSEE possède un fichier de l’ensemble
des résidents en France grâce au recensement de la population. Mais il n’est pas tenu à jour entre
deux recensements (qui désormais s’opèrent par « tranches » géographiques). Du fait des
nécessaires contraintes juridiques de protection des données individuelles (Loi « Informatique et
liberté »), l’accessibilité à ces données (et plus généralement à tout fichier recensant une
population) est strictement réglementé. Or il n’existe pas d’autres fichiers exhaustifs des ménages.
Pendant longtemps, l’annuaire téléphonique a pu être considéré comme une « base de sondage »
adéquate pour entreprendre un tirage au sort aléatoire. Mais aujourd’hui, cette perspective est
remise en cause : en 2006, seuls 83 % des foyers sont abonnés à un téléphone fixe (parmi ceux-ci,
14 % ne s’en servent que pour naviguer sur internet et entre 15 % et 20 % figurent sur liste
rouge). Or cette population n’est pas représentative de l’ensemble des personnes résidant en
France. En revanche, pour étudier certaines pratiques électorales, les listes électorales peuvent
servir de « base de sondage », quoiqu’elles ne contiennent pas les coordonnées des personnes.
→ Il s’agit donc d’une méthode judicieuse pour étudier les membres d’un groupe dont l’existence
est instituée (c’est-à-dire objectivée par une institution comme les étudiants d’une école, les
adhérents d’une association, etc.).
- Deuxième difficulté : il est nécessaire de respecter absolument le tirage aléatoire. Si une
personne est tirée au sort, il est impossible statistiquement d’aller voir son voisin. Pourquoi ?
Tout simplement parce que si on n’interrogeait que les personnes présentes, l’échantillon serait
biaisé car constitué avant tout des personnes présentes chez eux à un moment T, ce qui implique
que ces personnes disposent d’un « profil » sociologique particulier. On retrouve la même
problématique avec les refus de répondre : les « sans réponses » ne sont pas distribués
aléatoirement dans la population. Ils correspondent à des catégories sociales particulières dont les
contours varient évidemment selon le type d’enquête : les plus âgés et notamment les femmes
35
âgées, les personnes les moins diplômées, les personnes en situation d’exclusion, etc. La méthode
aléatoire suppose donc de multiplier les relances.
Malgré ces difficultés, cette méthode présente deux avantages majeurs. Le premier
avantage, c’est que cette méthode ne présuppose aucune connaissance préalable de la
structure sociologique de la population. Le deuxième avantage du sondage aléatoire, c’est la
possibilité de mesurer mathématiquement la qualité des résultats, c’est-à-dire la marge
d’erreur. Le résultat est une estimation dont les écarts à la « vraie valeur » peuvent être mesurés à
partir de l’équation suivante :
Estimation – marge < vraie valeur < estimation + marge
Cette équation est vraie avec une avec une probabilité p, c’est-à-dire pour une part p des
échantillons testés. Cette probabilité p, c’est ce qu’on appelle « le niveau de confiance » ou « le
seuil de confiance » : la probabilité que le vrai résultat se situe dans cet intervalle. Généralement,
le niveau de confiance privilégié par les statisticiens est de 95 %. Donc quand certains sondeurs
évoquent une marge d’erreur de 2 %, ils oublient généralement de dire qu’il y a 95 % de chances
que l’estimation soit située à plus ou moins 2 % de la vraie valeur dans la population.
Les sondages aléatoires reposent donc sur un raisonnement probabiliste, théorisé entre
autres par le mathématicien allemand Carl Gauss (1777-1855). Celui-ci montre que la qualité des
résultats ne dépend pas (ou très peu) de la taille de la population, ni de ce qu’on appelle le « taux
de sondage » (rapport entre l’échantillon et la population). Bref, que 10 %, 1% ou 0,1 % de la
population ait été sondée ne change rien (ou presque) au problème. En revanche, ce qui
compte, c’est la taille de l’échantillon ! Pour le comprendre, il suffit de penser au lancer de dés
dont on sait que chaque face a théoriquement 1/6e de chance d’être tiré. Pour que la distribution
obtenue se rapproche de la distribution théorique (16,66 % pour chaque face), il faut multiplier
les lancés et ainsi s’immerger dans la « loi des grands nombres ». La marge d’erreur évolue
également selon la « vraie » distribution : plus on se rapproche d’une proportion de 50 % des
sondés, plus la marge d’erreur est importante.
Pour conclure sur ce point, il faut souligner les sérieuses difficultés méthodologiques
lorsque certains enquêteurs (comme les instituts de sondage) s’autorisent à utiliser des
échantillons numériquement faibles et le justifient par la petitesse de la population. Or, que l’on
interroge 1000 personnes pour représenter la France entière ou pour représenter l’agglomération
de Saint-Quentin-en-Yvelines, la marge d’erreur est (quasiment) la même. De la même manière,
dès qu’un sondage est réalisé auprès de 1000 personnes, l’analyse des résultats au sein des sous-
échantillons (les « cadres », les 18-25 ans, les sympathisants du Front national, etc.) est souvent
36
problématique, du fait de ces faibles effectifs. Cela explique pourquoi, par exemple, les opinions
mesurées de façon barométrique (c’est-à-dire régulièrement) auprès des personnes qui se disent
sympathisants du Front national évoluent souvent de façon erratique.
Tables la loi statistique (extrait d’une table de Gauss – seuil de confiance de 95 %)
Taille de l’échantillon 100 400 800 1000 1600 2000 10 000
% dans l’échantillon
2 % 2,8 1,4 1 0,9 0,7 0,6 0,3
10 % 6 3 2,1 1,9 1,5 1,3 0,6
20 % 8 4 2,8 2,5 2 1,8 0,8
33 % 9,4 4,7 3,3 3 2,4 2,1 0,9
50 % 10 5 3,5 3,2 2,5 2,2 1
§3. Les échantillons empiriques ou par quotas
Les échantillons par quotas sont, quant à eux, des échantillons qui respectent des
critères de composition ou de structure. Ces échantillons ne reposent plus sur le hasard mais
sur une construction raisonnée qui s’appuie sur le principe suivant : si un échantillon est identique
à la population totale en ce qui concerne la distribution statistique d’un certain nombre de
critères, il ne sera pas différent en ce qui concerne la distribution des caractères inconnus que l’on
cherche à connaître. C’est une méthode qui n’a pas de justification théorique : elle ne repose pas
sur une loi mathématique mais seulement sur l’expérience, d’où le terme d’échantillon
« empirique ». Empiriquement, certains enquêteurs se sont rendu compte que cette méthode
« marchait », c’est-à-dire donnait des résultats assez proches de ceux obtenus par un
échantillonnage aléatoire. C’est donc avant tout pour des raisons pratiques que cette méthode est
fréquemment utilisée, notamment par les instituts de sondages français. Elle permet en effet de
contourner les contraintes des échantillons aléatoires. Cependant, elle souffre d’un obstacle
important : il n’existe pas d’outils statistiques permettant de mesurer la « qualité » des
résultats. C’est uniquement par convention que certains instituts français fournissent des marges
d’erreurs : d’un point de vue mathématique, ça ne repose sur rien, sinon sur l’expérience.
En contrepartie, cette technique permet aux enquêteurs de savoir en temps réel quels sont
les critères de recrutement des interviewés. Donc ils peuvent interviewer n’importe qui, pourvu
que ces personnes appartiennent aux catégories dont les quotas n’ont pas encore été
comblés. Cette méthode suppose deux choses. Premièrement, elle implique un fort contrôle des
37
enquêteurs pour s’assurer qu’ils ne trichent pas pour respecter leurs quotas. Deuxièmement, elle
suppose au préalable de connaître la composition sociale de la population, du moins ses
principales caractéristiques, c’est-à-dire les variables considérées comme les plus discriminantes,
les plus prédictives de l’opinion des sondés. Pour la majeure partie des enquêtes par sondages
réalisés auprès d’un échantillon représentatif de la population française (ou de l’une de ses
composantes), les variables les plus fréquemment utilisées sont le sexe, l’âge et le groupe
socioprofessionnel du chef de ménage (souvent arbitrairement considéré comme le mari).
Quotas utilisés dans la majorité des sondages pour construire un échantillon « représentatif » de la population française des 18 ans et plus (en 2006)
PROFESSION CHEF DE FAMILLE
Agriculteur 2 %
AGE
Artisan, commerçant, chef d’entre. 5 %
18-24 ans 12 % Cadre, profession intellectuelle sup. 11 %
25-34 ans 18 % Profession intermédiaire 14 %
SEXE
35-49 ans 28 % Employé 10 %
Homme 48 % 50-64 ans 21 % Ouvrier 22 %
Femme 52 % 65 ans et plus 21 % Inactif, retraité 36 %
TOTAL 100 % TOTAL 100 % TOTAL 100 %
Par ailleurs, les échantillons sont généralement stratifiés en fonction de la région et
de la catégorie d’agglomération. L’enjeu est d’avoir un échantillon qui « ressemble » le plus
fortement possible à la population mère. Par exemple, il y a relativement peu d’habitants dans la
région « Limousin » (1,2 % de la population française). Si l’on recherchait une proportionnalité
parfaite sur un échantillon de 1000 personnes, cela impliquerait à peine 12 interviewés du
Limousin, avec le risque qu’ils présentent des caractéristiques spécifiques. Pour répondre à ce
problème, les enquêteurs interviewent un peu plus d’habitants du Limousin (une vingtaine) puis
effectuent un redressement, c’est-à-dire qu’ils rétablissent ensuite, par calcul, la proportionnalité.
Plus généralement, le redressement est souvent utilisé pour respecter les quotas (en fin de
sondages, lorsqu’il manque des représentants de certaines catégories). Le redressement repose sur
un travail de pondération : on affecte aux catégories un coefficient appelé « coefficient de
redressement » pour que les résultats finaux respectent les proportions de la population mère
(selon les principes d’un « calcul en croix »).
38
L’utilisation des quotas, surtout dans le cadre de sondages « industriels », soulève une
difficulté déjà entrevue : le « flou » des catégories mobilisées dans les quotas. Ainsi, « remplir » les
quotas suffit-il à établir que cet échantillon est représentatif ? C’est ainsi l’argument mobilisé
aujourd’hui par certains sondeurs pour défendre la pratique du sondage en ligne. Or avoir un
échantillon composé de 22 % d’individu appartenant à un ménage dont le « chef » est ouvrier
suffit-il à établir que cet échantillon est représentatif ? Une telle perspective oublie qu’une
catégorie aussi vaste que la catégorie des « ouvriers » n’est en rien homogène et qu’elle est
traversée d’importants clivages. S’il y a bien la même proportion d’ouvriers dans l’échantillon que
dans la population, cela ne garantit en rien que les ouvriers interviewés soient, eux, représentatifs
de la population ouvrière dans son ensemble. Dans une enquête réalisée par Daniel Gaxie et son
équipe à la fin des années 1980, 1000 habitants de la Somme ont été interviewés sur des questions
relatives à la politique de protection sociale. Parmi ceux-ci, on compte 270 ouvriers.
Théoriquement, pour respecter la structure de la population du département, il y aurait dû y avoir
148 ouvriers qualifiés et 121 non qualifiés. Or, dans les faits, il y eut 183 qualifiés et 87 non
qualifiés. Autrement dit, l’enquête est marquée par une surreprésentation des ouvriers les mieux
payés, les plus dotés en capital culturel, les moins fragilisés par les transformations
socioéconomiques, etc. Or ces critères des capitaux économiques, culturels et professionnels
clivent fortement la classe ouvrière et sont susceptibles d’avoir des effets sur la distribution des
opinions et, plus généralement, sur la propension même à émettre publiquement des opinions sur
des questions complexes comme celles relatives à la protection sociale. La non-représentativité en
termes de structure peut affecter la représentativité des opinions ou des pratiques mesurées dans
l’enquête.
De la même manière, la catégorie « cadres et profession intellectuelles supérieures »
rassemble des individus au statut d’activité disparate : managers, médecins indépendants, des
avocats et des enseignants du secondaire, etc. Pour les années 2002-06 (baromètre mensuel TNS
Sofres-SIG), ces derniers sont en moyenne salariés du secteur privé (31 %), salariés du secteur
public (29 %), inactifs (dans le cas de conjoint[e]s de cadres qui ne travailleraient pas ou qui
seraient déjà à la retraite, 22 %), travailleurs indépendants (10 %) et chômeurs (8 %). Or dès lors
qu’on mesure des variations dans la distribution des « opinions » exprimées par les interviewés de
cette catégorie (qui représente 12 % des échantillons lorsque la population est l’ensemble des
Français de 18 ans et plus), il est délicat de savoir si ces variations sont imputables à l’évolution
des représentations sociopolitiques des « cadres » ou à des évolutions dans la composition des
échantillons : il arrive fréquemment que la répartition, dans cette catégorie, entre « salariés du
public », « salariés du privé » et « travailleurs indépendants » ne corresponde pas à la répartition
39
moyenne. De telles variations sont susceptibles d’avoir un impact certain sur les résultats, tant on
sait que, sur de nombreux enjeux politiques et sociaux, les points de vue exprimés par les « cadres
du privé » et les « cadres du public » peuvent être, en moyenne, relativement distincts.
Ce constat peut être fait au sujet de l’ensemble des modalités des variables utilisées pour
les quotas. Pour prendre un dernier exemple, les 18-24 ans comprennent environ 53 % de jeunes
actifs et 47 % de jeunes scolarisés. Selon les échantillons, cette proportion peut singulièrement
varier, rendant les résultats recueillis auprès de cette catégorie potentiellement problématiques.
Plus généralement, il faut se souvenir que la « qualité » des résultats dépend du nombre
d’interviewés : par conséquent, l’examen des résultats recueillis auprès des sous-échantillons (par
exemple, les seuls 18-24 ans qui représentent 12 % de l’ensemble des Français de 18 ans et plus,
soit 120 interviewés lorsque l’échantillon comprend 1000 individus) doit prendre en compte cette
faiblesse numérique pour éviter toute surinterprétation.
§4. Les absents et le refus de répondre
Au-delà des problèmes d’échantillonnage (aléatoire / quotas), se pose plus généralement
le problème de l’accès aux personnes et de l’acceptation à répondre aux enquêtes. Cette
difficulté se pose évidemment dès lors qu’il s’agit d’atteindre des populations itinérantes ou
« marginales » (cf. le texte du livret de TD : LABERGE Danielle, ROY Shirley, « Les enquêtes
auprès ou à propos des populations marginales »), de groupes aux frontières suffisamment floues
pour ne bénéficier d’aucune comptabilisation statistique (les « juifs » sur lesquels travaille Sylvie
Strudel) ou, dans le cas français, de minorités ethniques dont il est interdit d’opérer le
recensement.
Mais ces difficultés d’accès aux individus concernent également les enquêtes par
sondage réalisées auprès d’échantillons représentatifs de plus de 30 ans aux Etats-Unis et depuis
près de vingt ans en France. Il est cependant difficile d’établir avec précision quel est l’ampleur de
ce refus. Pour les instituts de sondage, c’est en effet un « secret industriel » puisque leur raison
d’être est fondée sur leur rigueur méthodologique, elle-même déterminée par la représentativité
de leurs échantillons. Dans une interview déjà ancienne, l’ex-président de la SOFRES évoquait
plus de 50 % de refus. Il existe toutefois une enquêté réalisée en 2000 qui s’est efforcé de
recueillir des données sur ce phénomène (voir GRUMBERG Gérard et al. (dir.), La Démocratie à
l'épreuve : une nouvelle approche de l'opinion des Français, Paris : Presses de la FNSP, 2002). Cette
enquête par sondage a été réalisée par la SOFRES pour le compte du laboratoire de recherche
CEVIPOF. Sur 8 305 appels, les enquêteurs ont dénombré 473 faux numéros, 1 283 non-
réponses (i.e. absence), 3510 refus, 750 impossibilités (car hors quotas) et 141 questionnaires
40
incomplets. Au final, il n’y a donc eu que 2148 questionnaires validés, soit un taux d’acceptation
de 46 % (3039 sur les 6549 personnes présentes chez eux) et un taux de réponses brut de 26 %
(2148 sur 8305). Cette proportion est d’ailleurs sans doute plus forte que, dans la plupart des
autres enquêtes, puisqu’il y a eu dans celle-ci jusqu’à 10 appels pour un même numéro en cas
d’absence.
Au-delà des absences qui s’expliquent aussi par les difficultés d’accès aux personnes
(présence sur liste rouge, pas de possession de téléphone fixe, digicodes à l’entrée des immeubles,
sécurisation des résidences privées, insécurité dans certains quartiers qui dissuade les enquêteurs
de s’y rendre, etc.), comment comprendre ce refus de répondre ? Quelles en sont les raisons ? A
cette question, on peut juste suggérer quelques hypothèses puisque si les interviewés ne
souhaitent pas répondre, on ne peut leur demander pourquoi ! Ces hypothèses sont notamment
regroupées par Patrick Lehingue (dans Subunda, pp. 92-93) :
− Exaspération par rapport au télémarketing (dont les opérateurs se présentent de plus en plus
souvent comme des enquêteurs)
− Peur du fichage, des intrusions, de l’interrogation scolaire ou administrative
− Manque de temps ou de disponibilité : il est coûteux de répondre à un sondage, alors qu’on
n’obtient rien en échange sinon la satisfaction d’avoir donné son avis ou raconté sa vie (sauf
dans certaines enquêtes en ligne ou enquêtes dites « qualitatives » pour lesquels les enquêtés
peuvent être rémunérés – ce qui pose là des questions d’ordre éthique ou politique :
comment justifier la rémunération de citoyens dans l’exercice de leur rôle politique [ie. Participer
à une enquête d’opinion dont les sondeurs louent les vertus démocratiques d’expression populaire] ?)
− Généralisation du sentiment d’être manipulé, que les sondeurs sont des menteurs, etc.
Pour conclure, il ne faudrait pas penser que ces difficultés d’accès et d’acceptation
constituent seulement des obstacles pratiques (augmentation du temps donc du coût des
enquêtes, etc.). Elles constituent, au contraire, des problèmes méthodologiques majeurs
puisqu’elles mettent en jeu la pertinence même des résultats recueillis. En effet, face à de tels taux
d’absence et de refus de répondre, on peut mettre en doute la représentativité de nombreux
échantillons. Être accessible et accepter de répondre aux enquêtes forment ainsi deux
caractéristiques inégalement partagées dans l’espace social : la population des répondants effectifs
est une population non représentative de l’ensemble des résidents français. On constate ainsi une
sous-représentation des groupes sociaux situés aux deux pôles de la pyramide sociale ; les
répondants aux enquêtes par sondage disposent en moyenne d’un niveau d’études supérieur à au
niveau moyen enregistré sur l’ensemble de la population en France.
41
Comparaison entre les niveaux de diplôme des interviewés et les niveaux de diplôme de la population française
Population non scolarisée
de 15 ans ou plus (2007) Cumul des vagues du baromètre
SOFRES-SIG (2002-2005) Différence
Sans diplôme + CEP 31,5 % 22 % -9,5 %
BEPC, CAP, BEP 30,2 % 35 % +4,8 %
Bac 15,3 % 16 % -0,7 %
Ens. Supérieur 22,9 % 27 % +4,1 %
TOTAL 100 % 100 %
Les sondeurs utilisent souvent la métaphore picturale : ils disent dresser un « portrait » des
Français, un « cliché » de l’opinion publique... Or on constate ici que leur cliché est flou ! Pour
reprendre une formule de Patrick Lehingue : dans la photo de famille, il manque le cousin de
province !
Section 2. La collecte des données : archives et questionnaires
Une fois les techniques d’échantillonnage définies, les chercheurs peuvent entreprendre
l’investigation empirique, le travail « de terrain ». Or, si les enquêtes qualitatives reposent
principalement sur des matériaux « de première main » (c’est-à-dire collectés par le chercheur lui-
même ou par son équipe), les enquêtes quantitatives peuvent reposer sur des données
hétérogènes. En effet, le travail statistique peut s’appuyer sur des données recueillies par
l’enquêteur (à travers le questionnaire) mais il peut aussi s’appuyer sur des données collectées par
d’autres institutions, et notamment les institutions administratives (archives). Dans tous les cas, le
chercheur doit être extrêmement sceptique et rigoureux dans cette opération de collecte des
données. Leur recueil ne va pas de soi (administrer un questionnaire ne constitue pas un acte
anodin et ordinaire). Aussi faut-il toujours se demander si les dispositifs de collecte et
d’agrégation des données ne tendent pas à produire des effets sur les résultats eux-mêmes.
§1. L’impact des conditions de production statistique : biais et artefacts
Il faut, dans un premier temps, s’arrêter sur ces données statistiques que les chercheurs
utilisent sans avoir eux-mêmes présidés à leur collecte. De nombreuses institutions archivent le
42
produit de leur activité et/ou s’appuient sur des instruments statistiques pour exercer leurs
missions. C’est notamment le cas des administrations publiques qui se nourrissent d’une pluralité
d’indicateurs pour décrire et évaluer leur action sur leurs secteurs respectifs (police, justice,
éducation, logement, santé, etc.). Économistes et sociologues peuvent alors s’emparer de ces
données statistiques pour répondre à leurs questions de recherche. Or la difficulté
méthodologique, c’est que ces institutions recueillent rarement des informations pour des raisons
purement scientifiques. Si le chercheur s’appuie sur de telles sources, il doit alors prendre en
considération les procédures mises en œuvre pour recueillir les informations, afin de ne pas
considérer que ce matériau lui livre « la » vérité. Autrement dit, les sciences sociales doivent ici
s’emparer de la même prudence que l’historien face à ses archives : c’est une critique des
statistiques « officielles » qu’il faut entreprendre.
1. L’exemple du suicide. A quels types d’obstacles les chercheurs peuvent-ils faire face ?
Pour répondre à cette question, appuyons-nous sur l’exemple des analyses quantitatives du
suicide. Cette illustration est judicieuse, puisque c’est sur un tel objet qu’Émile Durkheim a écrit
l’un des ouvrages fondateurs de la sociologie française et notamment dans son versant quantitatif
(Le Suicide). Il y met en application la démarche intellectuelle et méthodologique exposée dans Les
Règles de la méthode sociologique. Aussi de très nombreux chercheurs ont opéré un diagnostic critique
du Suicide pour mettre à l’épreuve la validité des thèses durkheimiennes : si les données posent
problème, c’est tout l’édifice sociologique qui menace de s’effondrer. On ne compte donc plus les
recherches ayant réinvesti les statistiques du suicide afin de mettre en cause ou de défendre le
travail de Durkheim. L’autre intérêt de cet exemple, c’est de rappeler que même un acte aussi
intime que le suicide peut être appréhendé comme un fait social dont l’explication n’est pas
réductible ni à des facteurs psychologiques, ni à une analyse purement individuelle (cf. chapitre 1,
section 1). Le suicide répond à des logiques sociologiques (Durkheim parle de « lois ») que les
statistiques permettent de mettre à jour. Il s’empare alors des statistiques administratives
collectées dans différents pays, sur une longue période, afin de mettre en évidence des
corrélations régulières : ses données montrent que certaines situations, cultures ou positions
sociales prédisposeraient au suicide. Il existe alors différents types de suicides qui résultent soit
d’un excès (altruiste) ou d’un défaut (égoïste) d’intégration sociale, soit d’un excès (fataliste) ou
d’un défaut (fataliste) de régulation sociale.
Mais sa thèse a été fortement mise en question du fait des nombreux défauts des sources
statistiques utilisées : si ses données laissent à désirer, alors ses conclusions ne peuvent être
valables ! Effectivement, Durkheim a conscience de certaines limites : il admet notamment que
43
les sources statistiques s’imposent de façon négative : il est impossible d’utiliser d’autres
méthodes d’investigation puisque, par principe, s’il y a suicide, l’individu ne peut être interrogé.
Mais hormis quelques petites remarques en note, il ne va pas beaucoup plus loin dans l’analyse
critique des conditions pratiques de production des statistiques. En formulant d’ailleurs
l’hypothèse de la comparabilité des données dans le temps et dans l’espace, il postule
implicitement l’homogénéité des procédures de recueil et d’agrégation de l’information. Selon
Christian Baudelot et Roger Establet (Durkheim et le suicide), trois critiques ont été plus
précisément adressées aux données collectées par Durkheim :
a) Bien qu’il prenne soin d’apporter une définition proprement sociologique, il ne s’assure
pas que les données qu’il utilise ont été collectées conformément à sa définition. Par exemple, la
définition inclut les cas de sacrifice personnel commis par certains soldats héroïques (il va ainsi à
l’encontre des prénotions qui définissent ces morts comme des sacrifices vertueux). Or jamais les
institutions ne considèreront une telle mort comme un suicide (cela lui ferait perdre tout
prestige). Plus généralement, les préoccupations des instances qui qualifient la mort n’est pas
d’ordre scientifique mais, selon les cas, d’ordre médical ou judiciaire. Il y a des enjeux lourds :
faut-il que la police enquête ? Pourra-t-il y avoir versement d’une assurance vie ? Néanmoins les
écarts liés à la divergence entre définition sociologique et définitions pratiques sont bien
moindres que pour d’autres phénomènes beaucoup moins accessibles (actes de délinquance par
exemple).
2. La comptabilité du suicide est affectée par le phénomène de la dissimulation. Qui plus
est, comme la dissimulation est plus marquée dans certains milieux sociaux, les statistiques
révèlent davantage l’inégale capacité à dissimuler que l’inégale propension au suicide. Cette
critique est cependant partiellement invalidée par Baudelot et Establet qui rappellent le chaînage
administratif aboutissant à l’attribution de la cause « suicide » dans les données d’état-civil. Le
nombre d’intermédiaires impliqués dans cette procédure d’enregistrement rend peu probable un
phénomène de dissimulation massif et spécifique à certains milieux sociaux.
3. Les différentes sources statistiques ne coïncident pas entre elles. Baudelot et Establet
confirment que les données collectées par la source « État civil – INSERM – INSEE » (causes
médicales de décès) ne sont pas équivalentes à celles collectées par l’administration judiciaire.
Mieux, la police et la gendarmerie ne gèrent pas les dossiers de la même manière : il est alors
probable que le constat d’un nombre plus important de décès dans les petites communes que
dans les grandes agglomérations tient à ces procédures différentes d’enregistrement (la police
tend à moins transmettre à l’INSERM les causes de décès en cas de mort violente que la
gendarmerie). Dès lors, il faut admettre que la comparaison internationale est encore plus
44
problématique puisque chaque pays dispose de ses propres traditions en matière d’enregistrement
et de comptabilité des causes de décès.
Comme le souligne Dominique Merllié (cf. texte du livret de TD) : « Du suicide à son
inscription statistique, il y a divers intermédiaires qui sont susceptibles de défaillances et que la
question de la “qualité” ou de “l’exactitude” des données ne retentit pas seulement sur
l’évaluation d’ensemble du phénomène (le nombre de suicides dans un pays) mais aussi sur la
signification de ses variations statistiques. » L’exemple du suicide permet de distinguer deux types
d’« erreurs » liés soit à la production des données, soit à une mauvaise interprétation des données
2. Les biais sont des « formes d’erreurs systématiques imputables à l’instrument » de
mesure (Merllié, p. 126). Par exemple, l’insuffisante transmission à l’INSERM des causes de
morts violentes par la police constitue un biais pour tout chercheur qui souhaiterait analyser le
suicide à partir de cette source statistique.
On considère généralement que les statisticiens travaillent « à biais constant », c’est-à-dire
que, tant que le mode de recueil des informations et les principes de catégorisation ne varient pas,
les « erreurs » sont globalement toujours les mêmes. Autrement dit, les écarts observables d’une
vague d’enquête à l’autre ne sont pas ou peu affectés par les problèmes méthodologiques car ces
derniers sont a priori identiques à chaque vague. Par exemple, dans le cas de la mesure du suicide,
les procédures de « comptage » des morts et de leur cause restent les mêmes pendant de longues
périodes dans chaque pays. Dans ce cas, les biais liés à l’attribution des causes ne changent pas ou
peu, si bien que les évolutions observées dans un même pays peuvent être analysées comme des
évolutions dans la pratique du suicide !
Autre exemple, les sondeurs ne parviennent pas à connaître avec exactitude la proportion
de sondés qui se disent « proches » du Front national ou qui avouent avoir récemment voté pour
le FN. C’est un biais inévitable dans la mesure où le FN suscite de très fortes critiques dans
l’espace public : il est alors difficile d’assumer publiquement son « goût » pour un tel parti. Mais
ce biais n’est pas trop dommageable dans la mesure où il est a priori le même à chaque sondage.
Ce n’est évidemment pas le cas dans des conjonctures au cours desquelles le FN n’occupe plus
exactement la même position dans l’espace partisan. Sa présence au second tour de l’élection
présidentielle en 2002 rend sans doute plus dicible, en tout cas moins illégitime, l’expression de
cette préférence partisane. De même, le changement de leadership à la tête du parti en 2011 peut
entraîner certains changements en matière de discrédit associé à l’énonciation publique d’une
proximité au FN. Toujours est-il qu’en dehors de ces séquences problématiques pour les
45
sondeurs, toute évolution significative dans la proportion de personnes se déclarant « proche » du
FN peut alors s’interpréter comme une évolution proprement politique.
3. On parle d’artefacts « lorsque les variations de la mesure sont imputables plus aux
caractéristiques de l’instrument qu’à celles de l’objet mesuré ». Par exemple, il peut y avoir artefact
dans les écarts entre les taux de suicides de différents pays si les procédures de comptage et
d’attribution des causes de la mort divergent sensiblement. Face à des résultats qui évoluent, le
danger est alors de croire à l’évolution du fait social lui-même, alors qu’il s’agit simplement d’une
évolution dans les conditions de la production statistique : c’est la manière de mesurer qui a
changé et qui automatiquement modifie la mesure. Dans le cas du suicide, il est impossible de
savoir si les différences observées tiennent à ces divergences méthodologiques ou bien à des
rapports différenciés au suicide. Autre exemple d’artefact déjà souligné : les fortes variations des
« opinions » des interviewés regroupés dans la catégorie « sympathisants FN » d’une vague
d’enquête. Enfin, dernier exemple, enquêtes internationales sur le niveau scolaire (exercices
traduits de l’Anglais – pas mêmes rythmes d’apprentissage selon les pays – etc.)
Attention cependant : à se focaliser sur les biais et les artefacts, on pourrait être tenté de
tomber dans une sorte de purisme méthodologique qui laisserait entendre qu’il existerait de
« vrais » chiffres que la science pourrait collecter en améliorant ses procédures de recueil
d’information et de comptage. Or ne perdons pas de vue le constat suivant : les phénomènes
collectifs et autres faits sociaux n’existent qu’à travers les instruments qui permettent de les
mesurer. S’il y a partout des actes de délinquance, la délinquance en tant que fait social propre à
une société donnée n’a pas de consistance tant qu’aucun instrument ne cherche à la mesurer et à
lui donner une certaine figure.
§2. La construction du questionnaire
De nombreuses recherches ne peuvent s’appuyer sur des données existantes. Le
chercheur doit alors lui-même recueillir les données, à partir d’un questionnaire visant à convertir
le questionnement (c’est-à-dire la problématique) en questions. Le questionnaire regroupe l’ensemble
des questions qui seront posées aux enquêtés et qui correspondent aux variables que l’on cherche
à étudier. François de Singly explique que le rôle d’un questionnaire, c’est d’ « expliquer ce que les
acteurs font par ce qu’ils sont ». On pourrait évidemment ajouter : expliquer ce que les acteurs
pensent par ce qu’ils sont. Autrement dit, les questionnaires visent à mettre en évidence des
« faits sociaux », des régularités, des tendances objectives : il s’agit ici d’établir la fréquence de
46
certaines pratiques, le partage de certaines opinions, etc. Mais ils ont aussi et surtout pour objectif
d’identifier les facteurs qui expliquent les pratiques et les représentations, c’est-à-dire les facteurs
qui prédisposent les individus à faire telle ou telle chose ou à penser telle ou telle chose
(prédisposer au sens de rendre statistiquement probable). Par conséquent, indépendamment du
mode de passation (face à face, autoadministré, téléphone, etc.), tout questionnaire doit intégrer
deux types de questions, deux types de variables
- Des variables relatives à l’objet étudié (par exemple, les comportements
politiques, le rapport aux institutions, à l’environnement ou à l’école, les
représentations du travail ou de l’ordre social, les pratiques en matière de vacances,
de santé ou de sexualité, etc.). L’enjeu ici est alors de trouver des questions
méthodologiquement pertinentes pour objectiver les pratiques et les attitudes des
individus sur les thématiques de l’enquête.
- Des variables sociologiques, c’est-à-dire des variables qui caractérisent
sociologiquement les individus (sexe, âge, position sociale, capital scolaire, salaire,
évaluation subjective de sa position sociale, religion, position dans la famille,
environnement géographique, etc.). Ces questions appelées « renseignements
signalétiques » sont méthodologiquement pertinentes si le découpage des catégories
est entrepris de façon judicieuse (cf. chapitre 1, section 3).
A. L’artificialité de la situation d’enquête. Les enquêtes par questionnaire sont
fondées sur une interaction entre un enquêteur et un enquêté. Cette interaction peut être directe
(dans le cas du face-à-face), médiatisée (dans le cas du téléphone) ou simplement imaginée (dans
le cas de questionnaires auto-administrés en ligne). Il n’en demeure pas moins que, comme tout
contexte d’action, la situation de recueil des informations est susceptible d’avoir un impact sur les
réponses recueillies.
D’une part, comme dans toute situation, les participants en négocient la définition (G.
Bateson) : de cette définition découlent les rôles qu’ils sont supposés endosser légitimement
(ceux d’enquêteurs et d’enquêtés). Ici, la négociation est souvent à l’avantage de l’enquêteur
puisque l’enquêté n’a d’autre choix que de se soumettre à la règle du jeu (du jeu de rôles !) ou de
ne pas jouer (via des stratégies d’exit telles que le refus de répondre). L’enquêteur impose donc
non seulement les principes de l’interaction (« je pose des questions / vous répondez ») mais
également son contenu (« vous devez répondre aux questions que je me pose, en choisissant l’une
des modalités de réponse que je vous suggère »). Dans le cas de sondages industriels, l’enjeu des
commanditaires de l’enquête est d’ailleurs de brider au maximum la latitude des interlocuteurs et,
47
par conséquent, la teneur des interactions : l’enquêteur est tenu de lire un synopsis dont il ne peut
s’écarter (officiellement, pour ne pas « orienter » les réponses ; officieusement, pour garantir la
rapidité de passation du questionnaire). Or cette situation, artificielle, peut être vécue par certains
interviewés comme un rappel de situations plus familières comme celles rencontrées à l’école ou
face à des agents administratifs. Tandis que certains vivent la saisie du questionnaire sur un mode
plutôt ludique ou sympathique, d’autres considèrent qu’il s’agit d’une situation violente
symboliquement et/ou anxiogène (notamment pour ceux qui ont vécu douloureusement leur
scolarité ou leurs expériences face à l’administration). Dans tous les cas, ce qui caractérise avant
tout l’attitude des enquêtés dans la situation d’enquête, c’est un souci de ne pas « perdre la
face » vis-à-vis de son interlocuteur (plus que de dire la vérité ou de répondre en son for
intérieur). Les interviewés engagent alors différentes stratégies (souvent intuitives) pour satisfaire
cet objectif de conserver la face. On ne peut donc analyser les résultats d’une enquête sans lire les
réponses sous ce prisme-là !
D’autre part, comme dans toute situation, les enquêtes par questionnaire mettent en
relation des individus qui ne se résument pas à ces rôles endossés dans le contexte d’enquête. Les
personnes sont également positionnées, chacune, dans l’échelle sociale. Elles sont inégalement
dotées en ressources (notamment éducatives et culturelles). Elles sont porteuses de dispositions
liées au passé social des individus et de leur famille, à la socialisation, aux expériences accumulées,
à la trajectoire sociale. Autrement dit, dès lors qu’il y a face-à-face (ou, dans une moindre mesure,
interaction téléphonique), les relations d’enquête sont aussi et avant tout des relations
sociales au cours desquelles chacun tend à typifier son interlocuteur (c’est-à-dire à se le
représenter socialement, à le faire entrer dans des catégories), à se positionner à son égard
(souvent dans un rapport hiérarchique, par exemple « homme > femme », « vieux > jeune »,
« Français de souche > immigré », « CSP + > CSP – », etc.) et à agir selon ces typifications. Or les
situations d’enquête sont potentiellement asymétriques, dès lors que l’interviewé se vit en
situation d’infériorité sociale face à l’intervieweur (sentiment d’être culturellement dominé). Dans
ces situations, ne pas perdre la face signifie « faire bonne figure » et « donner la bonne réponse »,
c’est-à-dire celle dont on peut avoir le sentiment qu’elle est attendue par l’enquêteur ou bien celle
dont on sait qu’elle n’est pas socialement illégitime (comme peut l’être l’inclinaison pour le Front
national) ou bien encore celle qui est a priori peu coûteuse car plus facile à justifier (les réponses
« modales » servent souvent de réponses « refuges »). C’est le cas par exemple, de
l’autopositionnement sur une échelle en 7 modalités incarnant l’axe droite-gauche : beaucoup des
choix 4 ne correspondent pas à un authentique positionnement « centriste » mais à une incapacité
à se positionner.
48
Cette tentation de vouloir donner « la bonne réponse » concerne donc principalement les
catégories de la population les plus démunies socialement ou culturellement parlant.
- Soit elles s’avèrent effectivement « incompétentes », c’est-à-dire effectivement
incapables de répondre à la question posée parce que cette dernière serait trop
complexe dans sa formulation ou dans son contenu, trop ésotérique ou trop
éloignée de l’expérience vécue.
- Soit elles se sentent illégitimes ou incompétences, parce qu’habituellement peu
autorisée à parler en leur nom propre et à exprimer leurs propres opinions.
B. Des ficelles rédactionnelles. Il faut donc être particulièrement vigilant dans la
construction du questionnaire. Le propre des enquêtes quantitatives de première main (c’est-à-
dire des enquêtes qui ne travaillent pas ni sur des données déjà recueillies, ni sur un corpus
documentaire existant) est de reposer sur un questionnaire standardisé : il ne peut y avoir
d’exploitation statistique des résultats que si les enquêtés ont été soumis au même questionnaire
(principe d’équivalence précédemment exposé). Par conséquent, la principale difficulté des
enquêtes par questionnaire, c’est que celui-ci est fixé une fois pour toute (on ne peut plus revenir
en arrière) et qu’il est censé être soumis aux enquêtés dans un laps de temps relativement court
(sinon les enquêtés ne sont plus équivalents : la variable du temps intervient comme facteur
explicatif supplémentaire des variations, ce qui complique l’analyse des données). C’est là que
réside l’une des différences majeures avec les enquêtes par entretiens : le guide d’entretien peut,
lui, être amélioré au fur et à mesure des interviews car celles-ci ne sont pas mises en équivalence
et codées sous une forme statistique.
La qualité des résultats dépend donc étroitement de la pertinence du questionnaire.
Malheureusement, il est difficile de dire « dans l’absolu » ce qu’est un bon questionnaire. La
pertinence d’un questionnaire dépend fortement de la problématique, de l’identité des interviewés
(selon leur capital culturel ou leur proximité avec le sujet de l’enquête) et des conditions de
passation du questionnaire (par téléphone, en face-à-face ou sur un mode auto-administré). Ici
l’enjeu est donc à nouveau d’identifier les éventuels obstacles méthodologiques plutôt que de
donner des réponses toutes faites.
La première des interrogations à se poser est de savoir s’il vaut mieux privilégier
questions ouvertes (qui laissent l’interviewé répondre librement, par ses propres mots) ou
questions fermées (qui encadrent la réponse de l’interviewé dans des modalités prédéterminées
49
par l’enquêteur). Pour y répondre, demandons-nous d’abord pourquoi les questions fermées sont,
à ce point, prédominantes dans les enquêtes par questionnaire :
(a) Elles coûtent moins chères (en termes de temps, de complexité, de finance). En effet, le
traitement statistique des réponses aux questions fermées est simple puisque les modalités
possibles sont en nombre limité et surtout sont précodées. À l’inverse, les questions ouvertes
génèrent souvent des réponses tellement hétérogènes et dispersées qu’elles en deviennent
inexploitables.
(b) Comme le codage est fixé à l’avance, il y a moins de risque d’erreurs de la part des enquêteurs
(mauvaise retranscription des propos liée à la prise de note rapide), ainsi que moins d’arbitraire
dans le regroupement des réponses à des fins de traitement statistique. Dès lors qu’il y a une
pluralité d’enquêteurs, il risque toujours d’y avoir une pluralité d’interprétations des réponses.
Mais derrière ces réels avantages pratiques, les questions fermées sont souvent
critiquables sur un plan intellectuel. Face à elles, les questions ouvertes présentent en effet deux
qualités majeures :
(a) Elles permettent de privilégier les catégories à travers lesquelles les individus eux-mêmes
perçoivent et classent le monde social. Si l’enjeu de l’enquête est de travailler sur les
représentations et les systèmes de valeurs, les mots utilisés par les interviewés ne sont
évidemment ni anodins, ni interchangeables !
(b) Elles permettent de diversifier les perspectives de codage des informations. Le codage est
alors effectué a posteriori, une fois que les réponses ont été recueillies. Ce sont ces dernières (leur
fréquence, leur distribution, leur diversité) qui peuvent amener l’enquêteur à établir les modes de
classement les plus pertinents au regard de la problématique de l’enquête. A ce titre, les questions
ouvertes peuvent s’avérer plus particulièrement utiles dans une phase exploratoire. Par exemple,
si l’enjeu de la recherche est de comprendre les modalités de construction des opinions publiques,
il peut être plus judicieux, dans un premier temps, de laisser s’exprimer les interviewés (sur les
personnes qui ont compté dans la formation de leurs idées ou les propositions de campagne qui
les ont intéressées). Ces réponses exploratoires pourront ensuite être utilisées pour élaborer le
questionnaire et tester les arguments suggérés par les interviewés (et non imposés par les
enquêteurs à partir de leurs propres points de vue). Les questions ouvertes sont ici précieuses
pour construire des hypothèses qui pourront être (in)validées par l’enquête quantitative
proprement dite.
Face à cette ambivalence, François de Singly invite à une position de compromis.
Premièrement, il est possible (et souvent judicieux) de mêler l’ouvert et le fermé pour un même
ordre de questions. Par exemple, dans un questionnaire sur la participation aux activités
50
associatives, on peut d’abord demander aux interviewés : « Participez-vous à la vie associative ? »,
puis « Si oui, dans quelle mesure ? ». Deuxièmement, dans une question fermée invitant les
interviewés à choisir une ou plusieurs modalités de réponses prédéfinies, il faut toujours prévoir
une catégorie « Autre » et laisser la personne s’exprimer si elle retient cette modalité.
Au-delà de l’alternative entre ouvert et fermé, il existe quelques ficelles pour faire face aux
deux difficultés majeures de toute enquête par questionnaires : minimiser l’imposition de
problématiques et favoriser l’expression personnelle. En somme, l’enjeu est d’atténuer le risque
d’artefacts, c’est-à-dire les effets associés à l’enquête. Les enquêteurs font face en effet au
paradoxe de l’observateur : celui-ci doit découvrir comment les gens parlent et agissent quand on
ne les observe pas, mais la seule façon de le découvrir, c’est de les observer. Douze
recommandations peuvent ainsi être formulées1.
1. Garantir la protection des personnes : il faut toujours souligner l’anonymat et faire en sorte
que l’exercice n’apparaisse pas scolaire ou administratif.
2. Ne pas livrer immédiatement la problématique de l’enquête. Par exemple, s’il s’agit d’un
questionnaire sur l’éducation, il peut être utile de débuter par une question invitant les enquêtés à
hiérarchiser leurs sujets de préoccupations (l’éducation étant « noyée » parmi de nombreux
thèmes). De la sorte, la mesure de l’intérêt de l’enquêté peut être étudié en comparaison avec
d’autres centres potentiels d’intérêt (et non comme si seul ce sujet pouvait le préoccuper).
3. Toujours inclure une option « sans réponse » (et le suggérer). C’est utile à la fois pour
améliorer la construction du questionnaire (s’il y a une trop forte proportion de sans-réponses,
cela peut indiquer que la formulation des questions est trop complexe), pour étudier les sans-
réponses elles-mêmes (qui sont-ils ?) et pour n’analyser les résultats que sur les personnes qui
s’expriment.
4. Établir un équilibre entre modalités positives et modalités négatives (en nombre et en
qualité). Comme les questionnaires sont souvent vécus comme la passation d’un examen, cela
permet de ne pas indiquer par le choix des mots quelle pourrait être la « bonne » réponse.
5. Être vigilant sur le choix des mots (et notamment les mots introductifs). En cas de doute, il
ne faut pas hésiter à utiliser la technique du split, c’est-à-dire diviser l’échantillon en plusieurs
sous-échantillons auxquels on soumet différentes versions de questions afin de voir si la
formulation elle-même ne produit pas d’effets sur les réponses recueillies. Pour ne prendre qu’un
1 Ces recommandations sont principalement inspirées de l’ouvrage de François de SINGLY : L’Enquête et ses méthodes : le questionnaire (Paris : Nathan, 1992).
51
exemple, on ne recueille pas exactement les mêmes réponses si la question porte sur
l’acceptation de l’« autorisation » ou de l’« interdiction » des discours racistes.
6. Autoriser les doubles ou les triples réponses. Il faut faire en sorte que le questionnaire
ressemble le moins possible à un problème scolaire : il n’y a pas une « bonne » réponse ! Par
ailleurs, cela permet aux interviewés de présenter plusieurs facettes de leur personnalité et
d’assumer des pratiques moins légitimes (qu’on n’oserait pas forcément avouer s’il fallait ne
retenir qu’une réponse). Enfin, au niveau de l’exploitation des résultats, cela permet de croiser les
réponses et de savoir à quoi on par ailleurs répondu ceux qui ont choisi telle ou telle modalité.
7. Être attentif à l’ordre des réponses. Il faut privilégier la présentation aléatoire dans l’ordre
des modalités, ainsi que la rotation des items lorsque la même question est posée pour différentes
situations. Il faut notamment se méfier de deux effets potentiels, susceptibles d’affecter le recueil
des informations. Souvent peu engagés dans la relation d’enquête, les interviewés ont en effet
tendance à retenir la dernière modalité citée par l’enquêteurs (hypothèse de la réponse en écho)
mais ils ont surtout tendance à retenir la première modalité citée (hypothèse du primary effect lié
aux difficultés de mémorisation ou au sentiment que les premières réponses suggérées seraient les
plus légitimes).
« Selon vous, quels sont les deux problèmes les plus graves ? » (Jean-Paul Grémy, 1988).
Ordre direct Ordre inverse Différence
- Le chômage - Le terrorisme - La faim dans le monde - La guerre - La surpopulation du monde - Le racisme - Le non-respect des droits de l'homme - L'insuffisante formation professionnelle des jeunes - La délinquance
34 8,5 21 15 1,5 5 8 1 1
19 7
18 18 2
8,5 10 6 8
-15 -1,5 -3 +3
+0,5 +3,5 +2 +5 +7
Cependant, il faut parfois respecter un ordre fixe dans la présentation des modalités. En effet,
lorsqu’il s’agit de questionner les individus sur le temps qu’ils consacrent aux pratiques culturelles,
il faut placer la télévision en tête. Comme toutes les enquêtes montrent que la télévision occupe
plusieurs heures par jour, la placer en milieu ou en fin de liste risquerait d’amener les interviewés
à sous-estimer le temps qu’ils lui consacrent pour rester cohérent avec les autres réponses.
8. Être attentif à l’ordre des questions. Il convient de garantir une cohérence globale dans le
questionnaire.
o Cela signifie d’abord qu’il faut placer les questions les plus impersonnelles avant
questions les plus personnelles. Autrement dit, il faut mettre en tête les questions
52
les moins intimes, celles dont les réponses sont souvent publiques ou faciles à
énoncer publiquement. Comme pour toute relation, l’enjeu est de gagner la
confiance de l’interviewé pour l’amener à être sincère. On ne peut donc pas
l’amener immédiatement à livrer ses facettes les plus intimes ou les moins
légitimes socialement.
o Ensuite, les interviewés sont souvent soucieux de produire de la cohérence dans
leurs réponses. Ils sont donc sensibles au contexte engendré par le questionnaire
(effet de halo). Par exemple, aux Etats-Unis au milieu des années 1980, une affaire
d’espionnage soviétique mené par de supposés journalistes occupe l’actualité du
pays. Dans un sondage, seuls 44 % des Américains interviewés disent « accepter la
présence de journalistes soviétiques sur le sol américain ». Toutefois, une enquête
relativement similaire est proposée à un autre échantillon. On demande d’abord
aux interviewés s’ils acceptent la présence de journalistes américains sur le sol
soviétique (la quasi-totalité adhère à cette proposition). Puis, on leur demande s’ils
acceptent la présence de journalistes soviétiques sur le sol américain : 70 % sont
désormais favorables à cette présence !
o Le questionnaire produit enfin des « effets de connaissance ». Par exemple, une
enquête consacrée aux relations parents-enfants interroge un échantillon de
parents sur les activités qu’ils ont avec leur(s) enfant(s). La question est ouverte et
ceux-ci mentionnent très rarement la discussion en tant qu’activité. Lorsque la
même enquête, reproduite quelques temps plus tard, demande d’abord aux
parents s’ils ont des conversations avec leurs enfants (question fermée), une
majorité d’entre eux incluent alors spontanément la discussion parmi les
« activités » qu’ils ont avec leurs enfants.
9. Ne mettre qu’une question par question. Les résultats ne sont interprétables que si la
question est la plus compréhensible et univoque possible. Par exemple, dans une enquête
consacrée à la sécurité routière, figure la question suivante : « Êtes-vous pour le port de la
ceinture à l’arrière ? » Cette question pose problème car on ne peut savoir précisément à quoi les
interviewés ont répondu :
- Êtes-vous pour le port de la ceinture (tout court) ?
- Êtes-vous pour le port de la ceinture (tout court) ?
10. Ménager la mémoire. Cela signifie, notamment dans des passations par téléphone, qu’il faut
limiter le nombre de modalités pour chaque question.
53
11. Éviter les négations (ou pire les double négations). Un exemple caricatural : « Ne pensez-
vous pas qu’il aurait mieux valu que la France ne participe pas à la guerre du Golfe ? »
12. Inclure des réponses centristes dans les échelles d’attitude. Il faut souvent éviter de
placer les interviewés face à une alternative tranchée (pour / contre), même si un tel
questionnement peut ressembler à une procédure référendaire (où l’enjeu est seulement d’obtenir
des majorités). Il convient alors de suggérer des réponses « modales » (échelle en quatre
comprenant des réponses modales). C’est le cas, par exemple, de cette question très ancienne du
baromètre TNS Sofres / Le Figaro Magazine : « Faites-vous tout à fait confiance, plutôt confiance,
plutôt pas confiance ou pas du tout confiance à Nicolas Sarkozy pour résoudre les problèmes qui
se posent en France actuellement ? ». Voici les réponses de la vague d’octobre :
- Tout à fait confiance 5 %
- Plutôt confiance 25 %
Sous-total confiance 30 %
- Plutôt pas confiance 24 %
- Pas du tout confiance 42 %
Sous-total pas confiance 66 %
L’intérêt d’une échelle en quatre modalités est d’offrir une interprétation plus riche des résultats.
D’un côté, il est possible de regrouper les « confiants » et les « pas confiants » pour mesurer la
popularité effective du chef de l’État. Mais il peut être tout aussi intéressant de comparer les
réponses intenses (tout à fait / pas du tout : 47 %, contre 39 % pour François Fillon) avec les
réponses à faible intensité (plutôt / plutôt pas : 42 %, contre 55 % pour F. Fillon). Toutefois, les
réponses modales pouvant servir de réponses refuges, le questionnaire doit permettre aux
interviewés de ne pas se positionner. Il faut donc suggérer la possibilité de ne pas répondre (règle
n°3).
§3. La consistance des opinions
A. Les spécificités de l’opinion publique « sondagière ». Les questionnaires sont
précieux pour mesurer les pratiques sociales. Mais ils servent également à saisir des valeurs,
croyances, représentations, convictions. S’agit-il donc d’une méthode adéquate pour appréhender
des opinions ? Et par conséquent, les enquêtes quantitatives (au premier rang desquelles figurent
les sondages d’opinion publiés dans la presse) peuvent-elles permettre de mesurer « l’opinion
publique » ? Mais qu’est-ce que l’opinion publique ? Partons tout d’abord d’une boutade attribuée
au fondateur du premier institut de sondage américain, Georges Gallup qui, en 1936, a pu
54
prouver l’efficacité de sa méthode en prédisant la victoire de F.D. Roosevelt lors de l’élection
présidentielle américaine :
Q : Docteur Gallup, quelle définition donneriez-vous d’un sondage d’opinion ?
R : Un instrument de mesure de l’opinion publique.
Q : Oui, mais qu’entendez-vous par opinion publique ?
R : Tout simplement ce que mesurent les sondages.
Les sondages d’opinion prétendent donc mesurer l’opinion publique. Seulement, si tout
le monde s’empare de ce terme, il est bien délicat de le définir. Et surtout cette assimilation entre
opinion publique et résultats des sondages n’est acceptée que depuis quelques décennies. En
effet, historiquement, le concept d’opinion publique ne correspond pas à ce que mesurent les
sondages. Le terme est assez ancien mais sa conception positive apparaît au milieu du XVIIIe
siècle, dans le cadre de la lutte contre l’absolutisme, contre l’arbitraire royal. L’un des premiers à
concevoir positivement cette notion, c’est Jean-Jacques Rousseau. Initialement, l’opinion
publique, c’est une opinion restreinte, celle des élites éclairées. C’est le produit d’une discussion
critique, au cours de laquelle des particuliers font un usage public de la raison : ce n’est pas le sens
commun qui relève dans ce cas du « vulgaire ». Le XIXe siècle est toutefois marqué par un
processus de démocratisation qui résulte de l’« entrée des masses » dans la vie publique et
politique. L’opinion publique devient une opinion populaire. Mais elle est publique parce qu’elle
est exprimée publiquement (à travers les manifestations, les mobilisations collectives ou lors d’un
scrutin par exemple). Elle est donc démonstrative, volontaire et collective. Or les sondages
reposent sur une conception différente de l’opinion publique, une conception évidemment en
lien avec l’évolution des systèmes politiques. Il faut donc analyser quelles sont les conceptions de
l’opinion publique sous-jacentes à la pratique des sondages (et différentes des anciennes
conceptions) :
− La première différence, c’est que les opinions sont sollicitées. Ce ne sont donc pas des opinions
publiques mais des réponses privées. La formule récurrente de nombreux sondeurs (« Les Français
nous disent que... ») est problématique. En réalité, ils devraient dire : « Les personnes
extrêmement différentes que nous avons sollicitées ont accepté de répondre aux questions que
nous leur avons posées et de choisir les modalités que nous leur avons imposées ! ». Bien
souvent, il s’agit de questions qu’ils ne s’étaient pas forcément posées ou alors des opinions qu’ils
n’avaient pas cherché à rendre publique. Bref, la situation d’enquête par sondage est une situation
artificielle : il s’agit d’une interaction fugitive entre deux personnes qui ne se connaissent pas mais
qui adoptent des rôles d’enquêteur et d’enquêté (cf. § précédent). Cette situation transforme des
réponses privées en opinions publiques.
55
− La deuxième différence, c’est que les opinions sont recueillies individuellement : il ne s’agit pas d’une
expression collective comme dans le cadre d’une manifestation, ou bien d’une opinion qui
émerge d’un rapport de forces ou d’une discussion, ou bien d’une opinion qui s’élabore
progressivement dans un contexte de débat. Ici, l’opinion est préconstruite puisqu’elle est censée
s’exprimer à travers des cases prédéfinies par l’enquêteur et prélevée individuellement, en dehors
des situations habituelles d’expression des opinions. Or on sait que, selon le type de situations,
l’expression des opinions varie. Par exemple, nos opinions peuvent varier selon que l’on est
conducteur d’automobile ou piéton ! De même, on ne s’exprime pas de la même façon devant ses
parents, ses collègues, ses amis ou ses supérieurs hiérarchiques. Or là, on isole la personne de son
environnement social : cette situation n’a pas d’équivalent socialement parlant... Il est difficile de
dire à quoi correspondent ces opinions : s’agit-il du for intérieur des individus ? Mais dans la
« vraie vie », dans quelles circonstances émet-on de telles opinions ? Habituellement, les opinions
s’expriment dans des situations d’interaction. Ici, les opinions sont atomisées.
− La troisième différence, c’est que l’opinion publique est simplement considérée comme une agrégation, la
somme de toutes les opinions individuelles. Elle n’est publique que parce qu’elle est plurielle. Or,
cela amène à placer tous les individus sur le même plan, indépendamment de leur « poids » social
respectif, ou de leur maîtrise du sujet de l’enquête, ou encore de leur intérêt personnel pour le
sujet de l’enquête. Il y a un principe de mise en équivalence : tous les individus sont considérés
comme équivalents face à l’enquête. Donc cela ne permet pas réellement de mesurer le potentiel
de mobilisation ou d’opposition : cela tend à niveler les attitudes.
Pour résumer, on peut dire que l’un des principaux problèmes soulevés par les sondages
d’opinion est de convertir des principes d’ordre politique en principes d’ordre méthodologique.
Comme pour le vote, on considère qu’un homme = une voix. Comme pour le vote, la procédure
retenue (choix de la question et des modalités de réponse) est fixée par les commanditaires du
sondage et non par les individus eux-mêmes. Donc de ce point de vue, il est souvent difficile de
dire si les opinions sont publiques. Il est même difficile de dire s’il s’agit d’opinions ! Le problème
réside donc à la fois d’un point de vue individuel (quelle est la consistance des opinions
recueillies, c’est-à-dire quel est le statut des réponses ?) et d’un point de vue collectif (quel est le
statut des résultats agrégés ?).
B. Des postulats contestables. Dans un article célèbre (1972), Pierre Bourdieu remet
en cause de manière radicale cette prétention des sondeurs à mesurer « l’opinion publique ». Pour
lui, « l’opinion publique saisie lors des enquêtes par sondage n’existe pas » : il s’agit d’un pur
artifice. Pour étayer sa démonstration, il s’efforce de montrer le caractère contestable des trois
56
postulats qui justifient la pratique sondagière : (1) tout le monde peut avoir une opinion ; (2)
toutes les opinions se valent ; (3) il y a un accord sur les questions qui méritent d’être posées.
(1) Tout le monde peut avoir une opinion. Il ne s’agit pas ici de considérer que les
individus sont des idiots culturels. Mais plutôt d’indiquer que tout le monde n’a évidemment pas
d’opinions sur tous les sujets : la connaissance d’un sujet et la capacité à opiner personnellement
sur ce sujet n’est pas universellement partagée. Or il est souvent difficile d’identifier la proportion
d’interviewés dont les réponses renvoient à des opinions « solides », c’est-à-dire préexistantes à
l’enquête et justifiables. D’une part, on l’a vu, pour faire « bonne figure », certains enquêtés
peuvent avoir la tentation de répondre même dans les cas où le sujet leur est inconnu ou peu
compréhensible : il peut s’agir de ne pas passer pour un ignare ou bien de vouloir faire plaisir à
son interlocuteur… D’autre part, les enquêteurs eux-mêmes ont souvent tendance à minimiser les
sans-réponses. C’est notamment le cas des instituts de sondages : le faible taux de sans-réponse /
NSP constitue paradoxalement un argument commercial : ils peuvent se présenter face à leurs
clients comme ayant bien rempli leur rôle. Or, c’est un paradoxe parce que, au contraire, les
résultats deviennent moins significatifs puisqu’on agrège des réponses motivées et des réponses
hasardeuses.
Exemple incongru : à la question « Trouvez-vous que les chercheurs français remplissent leur mission très
bien, plutôt bien, plutôt mal, très mal ? » (CSA, avril 2006), seuls 2 % se placent dans les sans-réponses.
Les instituts mobilisent différents moyens pour réduire les sans-réponses : la multiplication des
consignes de relance ; l’absence de la modalité « Je n’ai pas d’opinion » ; la présence dans la
question d’un rappel précédé de « vous savez que... » (sous-entendu potentiellement « violent »
symboliquement : vous êtes supposé savoir !) ; l’absence de questions préalables qui demandent
aux personnes s’ils savent de quoi il s’agit et quelles compréhensions ils ont du sujet.
Or, si tout le monde ne comprend pas les questions, ceux qui les comprennent ne les
comprennent pas toujours de la même façon. C’est notamment le cas lorsque les questionnaires
utilisent des termes complexes, flous ou équivoques. Non seulement les interviewés risquent
d’être heurtés par cette complexité, mais en plus l’agrégation des réponses s’avèrera précaire
puisque tout le monde n’aura pas choisi la même modalité pour les mêmes raisons (car tous
n’auront pas compris la même chose !).
Exemple trivial : sondage CSA / Marianne, 23 novembre 2005 Question 1. Pensez-vous que la France devrait… ? - Changer de modèle social 46 % - Préserver et renforcer le modèle social existant 51 % - Ne se prononcent pas 3 %
57
Ici, jamais l’enquêteur ne demande aux sondés s’ils savent ce qu’est le modèle social français et ce
qu’ils entendent par modèle social français. Au-delà de cet exemple évident, il faut même
admettre que c’est l’ensemble des termes les plus couramment utilisés par les élites (et
notamment par les élites administratives) qui posent problème.
Exemple donné par Daniel Gaxie à partir d’une enquête par questionnaire réalisée en
1986 auprès d’un échantillon d’interviewés picards, établi selon la méthode des quotas. Dans ce
dense questionnaire, on peut d’abord citer une question liée au contexte politique du moment et
donc apparemment évidente : « Certains disent que, pour s’en sortir, il faut introduire plus de libéralisme
dans la société français. Êtes-vous tout à fait d’accord, plutôt d’accord, plutôt pas d’accord, pas du tout d’accord,
sans réponse ? » 28 % ne répondent pas (modalité explicite), 48 % sont d’accord, 24 % ne sont pas
d’accord. Or, quelques questions plus loin, on demande à ceux qui ont accepté de répondre à
cette 1ère question : « Dites-moi ce que représente le libéralisme pour vous ? » C’est une question ouverte :
− 29 % ne répondent pas
− 28 % assimilent libéralisme à liberté (faire ce que l’on veut, circuler plus librement, pouvoir
dire ce qu’on pense)
− 11 % se placent sur un terrain éthique (se prendre en main, être moins égoïste)
− 7 % opèrent une confusion avec d’autres termes
− seulement 25 % fournissent une réponse qui cadre bien au débat politique du moment (laisser
plus de place au libre marché, réduire les impôts, la bureaucratie, la réglementation, etc.).
Une autre expérience réalisée en 1988 et citée par Patrick Lehingue vient confirmer ce problème
de consistance des opinions. Il s’agit d’un sondage commandé par Le Monde qui soumet aux
sondés une vingtaine de mots très fréquemment utilisés dans les débats politiques du moment et
qui leur demande ensuite de définir ces termes. La question est donc ouverte. Le taux de sans-
réponse est très élevé pour certains termes : protectionnisme (24 %), alternance (26%),
déréglementation (36 %), État-providence (42 %), etc., ce qui n’implique pas nécessairement
incompétence mais, pour certains, sentiment d’incompétence (peur de dire des bêtises, sentiment
d’illégitimité, etc.). L’un de ses mots, « cohabitation », suscite à l’inverse seulement 8 % de sans
réponse mais seuls 31 % donnent à ce mot un caractère politique et parmi ceux-ci seuls 10 %
disent « le président d’un bord, le Premier ministre de l’autre ». Sans surprise, l’expérience n’a
jamais été renouvelée dans la presse !
(2) Toutes les opinions se valent. La critique de ce postulat par Bourdieu comprend là
encore une dimension politique : en effet, Bourdieu reproche aux sondages d’accorder le même
poids aux personnes directement concernées par les questions du sondage avec des personnes qui
y sont indifférentes. De même, le sondage rend équivalent les individus explicitement mobilisés et
58
qui s’expriment dans l’espace public et ceux qui n’interviennent pas. Les sondages tendent à
oublier que les enjeux sociaux reposent sur des rapports de forces entre des collectifs et non sur
une simple agrégation d’opinions individuelles. C’est une critique déjà formulée par les marxistes
contre le vote : le vote joue une fonction conservatrice puisqu’il fait appel aux majorités
silencieuses, peu politisées et manipulables, à partir d’une procédure extrêmement pauvre.
Sur un plan méthodologique, cette critique invite à être vigilant sur les contours de la
population enquêtée et donc de l’échantillon. Qui doit être interviewé ? Cela a-t-il du sens
d’agréger des populations extrêmement disparates du point de vue de leur proximité au sujet, de
leurs expériences, de leur connaissance, de leur potentiel de mobilisation ? Les résultats ont-ils
alors une signification ? Ou ne s’agit-il pas de données purement artificielles qui rassemblent des
chèvres et des choux ?
Sondage IFOP-Acteurs publics (juillet 2006) : « Diriez-vous que vous êtes plutôt d’accord ou plutôt pas d’accord avec la proposition suivante ? Il faut augmenter la durée légale du travail. » Ensemble de la population Retraités Actifs − Plutôt d’accord 48 % 62 % 40 % − Plutôt pas d’accord 52 % 38 % 60 % − NSP 0 % 0 % 0 %
En tout cas, si vous souhaitez recueillir l’opinion de l’ensemble de la population, il faut
systématiquement penser à ajouter des variables permettant de trier l’échantillon en fonction de
leur proximité au sujet. Par exemple, tout questionnaire sur l’école doit être accompagné dans la
partie « renseignements signalétiques » de questions relatives à la fréquentation du système
scolaire (parent d’élèves scolarisés public / privé, niveau d’études, etc.).
De la même manière, il faut être vigilant sur les questions relatives à des pratiques (soit
pratiques effectives, soit pratiques potentielles). Prenons d’abord les sondages préélectoraux : ces
derniers n’ont de réelle valeur que peu de temps avant le scrutin. Les sondages réalisés un an
auparavant posent problème car la majeure partie des sondés ne se sont pas encore investis dans
l’élection et placés en situation de choix : il ne s’agit donc pas d’intention, au sens où le sondeur
ne ferait qu’enregistrer des choix motivés. Donc le sondeur met en équivalence des attitudes qui
divergent fortement. C’est la même chose concernant le potentiel protestataire. Il existe de
nombreux sondages qui demandent aux personnes si elles seraient prêtes à manifester, faire
grève, etc. Cela permet notamment de connaître le profil de ceux qui jugent ces attitudes légitimes
(ou en tout cas qui ne les jugent pas illégitimes) mais cela ne permet pas de connaître le profil de
ceux qui réellement manifestent ou font grève. Une enquête pertinente sur le sujet doit donc
s’opérer non pas auprès d’un échantillon représentatif de l’ensemble de la population mais « sur
le terrain », c’est-à-dire lors des manifestations.
59
(3) Il y a un accord sur les questions qui méritent d’être posées. Comment savoir
que les questions posées sont des questions que se posent réellement les personnes interrogées ?
Ce qui est en revanche sûr, c’est que les questions posées sont les questions qui intéressent les
commanditaires. L’outil n’est donc pas neutre socialement et politiquement aux yeux de Bourdieu : les
problématiques qui sont proposées par les sondages d’opinion sont subordonnées à des intérêts
politiques, et cela commande à la fois la signification des réponses et la signification qui est
donnée à la publication des résultats. Les sondages peuvent donc être analysés comme des
instruments proprement politiques dont la fonction consiste à imposer l’illusion qu’il existe une
opinion publique comme sommation d’opinions individuelles, qu’il existe quelque chose qui
serait la moyenne des opinions ou l’opinion moyenne. Le caractère artificiel du pourcentage a
pour fonction de dissimuler le fait que l’état de l’opinion est le un système de forces : ce n’est pas
une sommation mais une opposition. Le rôle politique des sondages s’observe particulièrement
lorsque les hommes politiques s’appuient sur les données d’enquête pour dire : « l’opinion
publique est avec nous ». Le problème des sondages réside alors dans cette confusion entre des
opinions constituées, mobilisées et des dispositions qui ne sont pas des opinions (= discours qui
peut se formuler avec une certaine prétention à la cohérence). C’est cette opinion-là (celle admise
implicitement par ceux qui font des sondages d’opinion) qui n’existe pas. Bourdieu critique donc
ce postulat pour des raisons politiques : il dénonce la capacité d’imposition de problématiques des
commanditaires des sondages. D’une certaine manière, il dénonce la capacité des acteurs
dominants à définir quels sont les enjeux qui comptent et quelle est la manière de « cadrer » le
débat autour de ces enjeux. On retrouve là encore une critique équivalente à celles formulées
contre le vote : la procédure est extrêmement pauvre (juste un bulletin dans l’urne, pas de mandat
impératif) et les électeurs sont soumis aux alternatives proposés par les organisateurs du scrutin.
Dès lors, la présentation de l’enjeu tend bien souvent à suggérer une réponse évidente
(parce que les arguments en présence dans le débat ne sont pas tous suggérés) : il y a un effet de
cadrage de la problématique. Souvent, cet effet se produit lorsque on soumet les sondés à une
alternative binaire qui oublie d’autres positions éventuelles.
Sondage IFOP – Métro (juin 2007) : Vous personnellement, si vous en aviez le choix, que préféreriez-vous ? - Gagner moins d’argent et avoir plus de temps libre 35 % - Gagner plus d’argent et avoir moins de temps libre 63 % - NSP 2 %
Or la question aurait pu être formulée de la sorte : « Gagner plus d’argent et avoir moins de
temps libre vs. Avoir plus de temps libre et gagner moins d’argent » ou bien « Gagner plus
d’argent et consacrer moins de temps à sa famille vs. Gagner moins d’argent et consacrer plus de
temps à sa famille ».
60
Enfin, les modalités proposées (c’est-à-dire les réponses) tendent elles aussi à conditionner l’avis
des personnes. Il y a notamment de grandes différences entre les deux enquêtes suivantes :
Sondage BVA-Le Figaro : « Les syndicats de la SNCF et de la RATP appellent à une journée de grève le jeudi 18 octobre pour protester contre la réforme des régimes spéciaux de retraite. Vous-même pensez-vous que ce mouvement est tout à fait justifié, plutôt justifié, pas vraiment justifié ou bien pas justifié du tout ? » − Tout à fait justifié 18 % − Plutôt justifié 25 % − Pas vraiment justifié 24 % − Pas du tout justifié 31 % − NSP 4 % Sondage CSA-L’Humanité : « Vous savez que plusieurs syndicats de la SNCF, de la RATP, d’EDF-GDF, de l’ANPE, de l’UNEDIC, de l’Éducation nationale appellent à une journée nationale d’action et de grève le 18 octobre prochain, notamment sur l’avenir du système de retraite et des régimes spéciaux. Quelle est votre attitude à l’égard de ce mouvement ? Le soutien, la sympathie, l’indifférence, l’opposition, et enfin l’hostilité » − Soutien 39 % − Sympathie 15 % − Indifférence 17 % − Opposition 18 % − Hostilité 8 % − NSP 3 %
C. Mesurer la consistance des opinions. Ces exemples confirment que les réponses
recueillies dépendent beaucoup de la nature du questionnaire et de la manière dont les individus
vivent la situation d’enquête (se vivent-ils en situation d’élève qui doit apporter de bonnes
réponses, c’est-à-dire des réponses jugées publiquement ou socialement dicibles ? Ou au contraire
profitent-ils du relatif anonymat de l’interview pour énoncer des opinions qu’ils n’oseraient pas
livrer dans d’autres circonstances ?).
Mais comment parvenir à mesurer cette consistance des réponses, notamment lorsque les
questionnaires invitent les interviewés à exprimer leurs opinions ou à révéler des comportements
« privés » ou secrets (vote, pratiques sexuelles, actes illégitimes ou illicites, etc.). Depuis les années
1980, un certain nombre de recherches s’efforcent de répondre à ces questions. Pour cela, elles
reposent sur un protocole expérimental. Mener une expérience consiste à comparer deux
événements que seule une dimension distingue. Il s’agit de faire varier une variable (« toutes
choses égales par ailleurs ») et d’observer si cette variation pèse sur les résultats. En l’occurrence,
en matière d’enquêtes par questionnaire, ces expériences peuvent être de deux natures :
− Soit elles portent sur les effets des conditions dans lesquelles l’enquête se déroule (lieu de
l’entretien, identité de l’enquêteur, etc.). Par exemple, l’enquêteur doit-il être le plus effacé
possible ou au contraire doit-il être très actif ?
− Soit elles portent sur les effets du questionnaire lui-même (l’ordre des questions ou leur
libellé).
61
Ces recherches reposent sur la méthode du split. Le principe est de diviser l’échantillon en deux
ou trois sous-échantillons dont la composition est identique. Chaque échantillon se voit proposer
une version différente du questionnaire ou alors une situation d’enquête spécifique.
(1) Les enquêtes de Jean-Paul Grémy réalisées en 1988 ont ainsi pu mettre à jour
l’importante proportion de « répondants flottants » : ils répondent mais sans disposer d’un avis
véritablement « solide » sur le sujet de l’enquête. Deux expériences permettent de le mettre à jour.
→ Le problème de la réponse médiane. Face à une même question, un premier échantillon
dispose de deux modalités (plus / moins) tandis que le second échantillon dispose de trois
modalités (plus / autant / moins).
« L’État devrait verser aux écoles libres plus d’argent qu’actuellement, [autant d’argent qu’actuellement] ou moins
d’argent qu’actuellement ? »
- Plus 48 % 33,5 %
- Autant - 32 %
- Moins 19 % 14 %
- Sans avis 33 % 21 %
Cette expérience soulève le problème de l’intensité de l’opinion exprimée. Les chercheurs sont
généralement partagés sur l’idée d’introduire une réponse médiane comme celle-ci. D’un côté,
sans réponse médiane, les interviewés sont soumis à une alternative binaire qui incite les hésitants
à répondre « sans avis ». De l’autre, les réponses médianes peuvent être retenues par des
interviewés sincèrement convaincus du bien-fondé de l’actuelle distribution d’argent public et
d’autres indifférents ou qui n’ont pas d’opinions préexistantes à l’enquête : en somme, répondre
« autant » est peu engageant (ça ne mange pas de pain !). Il faut toutefois noter qu’il n’y a pas de
modification de la distribution des réponses signifiantes (on reste dans les deux cas dans un
rapport de 70/30 entre les « plus » et les « moins »).
→ La réponse sans avis. L’expérience consiste ici à soumettre un premier échantillon à la même
question que précédemment et placer un second échantillon face à une question préalable
demandant si les personnes ont un avis sur la question (question filtre).
« [En ce qui concerne l’argent que l’Etat verse aux écoles libres, avez-vous un avis sur la question ? Si oui,]
l’État devrait verser aux écoles libres plus d’argent qu’actuellement, autant d’argent qu’actuellement ou moins
d’argent qu’actuellement ? »
- Plus 34 % 18 %
- Autant 31,5 % 21 %
- Moins 13 % 10 %
62
- Sans avis 22 % (pas de sans avis) 51 % (en filtre)
La majorité des chercheurs est favorable soit à l’utilisation d’un tel filtre, soit à la présentation
explicite de la possibilité de ne pas répondre, afin de diminuer le stress du répondant. A nouveau,
si la distribution des réponses signifiantes évolue (de 34/13 à 18/10), leur rapport varie peu (de
72/28 à 64/36).
Ces expériences montrent toutefois qu’au regard des 48 % d’interviewés supposés
attendre de l’État davantage de moyens pour les écoles publiques, l’ajout d’un filtre et d’une
réponse médiane fait chuter cette proportion à 18 %. Au-delà de l’idée que les sondages
reposeraient sur des bases peu solides, il est surtout intéressant de constater que ces « répondants
flottants » ne se recrutent pas aléatoirement dans l’espace social : ils se distinguent des autres par
quelques traits sociologiques et notamment un plus faible niveau d’instruction. On peut alors se
demander, c’est l’hypothèse de Grémy, si la réponse « plus d’argent » n’est pas survalorisée car
apparaissant la plus conforme aux normes sociales (indépendamment du sujet en question).
(2) L’enquête menée par le CEVIPOF en 2000 porte sur l’attitude des Français à l’égard
de la démocratie. Mais cette enquête répond également à des enjeux méthodologiques : parvenir à
mesurer la « consistance » des opinions exprimées par les interviewés soumis au questionnaire.
Trois types d’expériences, inspirées de travaux américains, sont menés et présentées par Nonna
Mayer (cf. article du livret) :
- Des expériences de mise en scène. L’enjeu est d’éviter d’utiliser des notions
abstraites et décontextualisées. Il faut plutôt raconter des « petites histoires » qui mettent en scène
les pouvoirs publics face aux problèmes du moment puis de décliner ces histoires en plusieurs
versions différentes. L’expérience consiste alors à tester si les individus s’orientent en fonction de
« grands principes » ou en fonction d’un contexte. Par exemple, s’agissant de l’enseignement de
certains cours en langues étrangères, les Français se prononcent-ils sur l’apprentissage de langues
différentes en général ou bien leur opinion varie-t-elle selon les langues en question ? Ici, c’est la
seconde hypothèse qui est la bonne : en effet, une majorité trouve normal que de tels cours
existent en breton (71 %), corse (66 %) ou portugais (54 %) mais c’est une minorité qui adhère à
la même mesure lorsqu’il s’agit de l’arabe (43 %).
- Des expériences d’argumentation ou de contre-argumentation. L’enjeu ici
est de s’écarter de la neutralité habituelle et de fournir des arguments tirés des débats du moment
pour tester le degré de conviction du répondant. Il existe plusieurs variantes dans ce type
d’expériences. L’une d’entre elle consiste à poser une première question puis, une fois la réponse
recueillie, à soumettre l’interviewé à une contre-argumentation. Pour tester la solidité des
63
convictions, l’échantillon est à nouveau segmenté : une première moitié fait face à un argument
« vide » (si l’interviewé change alors d’avis, c’est uniquement par soumission à l’enquêteur) tandis
que l’autre moitié fait face à un argument « plein » (si l’interviewé change d’avis, c’est soit par
soumission, soit par adhésion à la contre-argumentation : on est alors davantage dans une
situation réelle de formation et de construction des opinions, fondées sur l’échange d’arguments
et parfois l’imposition d’une « vérité » qui soumet les autres au silence)
« Certains disent qu'il faudrait augmenter le montant des indemnités de chômage. Vous-même, êtes-
vous plutôt d'accord ou pas d'accord du tout avec cette opinion ? »
− D'accord 54 % − Pas d'accord 46 %
A ceux qui ont répondu « d'accord » :
D'accord Pas d'accord SR
Si les indemnités de chômage sont trop confortables, les chômeurs ne seront pas encouragés à chercher du travail (puis reprise de la question de départ)
60 37 3
Si on pense à tous les problèmes que ça pose puis reprise de la question de départ)
81 15 4
A ceux qui ont répondu « pas d'accord » :
D'accord Pas d'accord SR
Avec les indemnités actuelles, il y a trop de familles qui n'arrivent pas à s'en sortir (puis reprise de la question de départ)
29 66 5
Si on pense à tous les problèmes que ça pose puis reprise de la question de départ)
13 84 3
Ici, 37 % de ceux qui étaient favorables à une augmentation des allocations chômage changent
d’avis face à un argument contraire. Mais il faut surtout noter que ce changement d’avis est
fortement lié au capital culturel, au niveau de diplôme : ils sont 45 % chez ceux qui n’ont pas le
bac et 25 % chez ceux qui ont le bac.
On observe toutefois que l’ampleur de ces variations d’opinion dépend du sujet testé.
Ainsi, face à une question relative à l’acceptation du port du voile islamique à l’école, la
distribution des réponses demeure systématiquement identique (autour de 70 / 30),
indépendamment des arguments utilisés pour justifier l’une ou l’autre des positions.
- Des expériences incitatives. L’expérience dite de la « pommade » enfin sert à
tester le degré d’enracinement des opinions. L’enjeu est à nouveau de quitter l’habituelle
neutralité et faire en sorte que l’interviewé se sente suffisamment en confiance pour oser livrer
des préjugés souvent indicibles...
64
Version sans pommade : « Nous arrivons à la fin de l'entretien. Je voulais vous poser une dernière question. Pensez-vous qu'il y a − trop de liberté en France ? − trop de démocratie en France ? »
Version avec pommade : « Nous arrivons à la fin de l'entretien. Je voulais vous dire que j'ai beaucoup apprécié cet entretien et que vos réponses nous serons très utiles. Finalement, ne pensez-vous pas, contrairement à ce que l'on entend souvent dire, que le vrai problème en France, c'est qu'il y a : − trop de liberté ? − trop de démocratie ? »
Sans « pommade » Avec « pommade » Écart
Liberté - Trop - Pas trop
28 70
40 57
+12 -14
Démocratie - Trop - Pas trop
16 81
31 65
+15 -16
Le problème ici, c’est qu’il est difficile d’interpréter les écarts. En effet, certaines personnes sont-
elles mises en confiance par la pommade et expriment-elles alors des opinions qu’elles ne
revendiqueraient pas publiquement dans d’autres circonstances ? Ou bien certaines personnes
cherchent-elles à faire plaisir à un interlocuteur qui sous-tend manifestement que la bonne
réponse est « oui, il y a trop de liberté » ? Cet exemple est néanmoins intéressant car il rappelle
qu’une expérience ne peut permettre de valider qu’une hypothèse que si elle respecte la règle d’or
du protocole expérimental : ne faire varier qu’un seul facteur !
Section 3. L’analyse des données statistiques
La production de données chiffrées ne suffit évidemment pas à garantir la scientificité
d’une enquête. Les statistiques n’ont en effet de valeur scientifique qu’à condition d’être articulées
à un raisonnement sociologique (qui ne se réduit pas à des problèmes purement techniques !).
Trois dimensions distinguent les approches sociologiques des simples comptages administratifs :
- D’abord, c’est un rappel, le raisonnement sociologique implique une distance critique
par rapport aux données. Il faut étudier les conditions dans lesquelles elles ont été
recueillies, déterminer ce que les indicateurs mesurent réellement, etc.
- Ensuite, le raisonnement sociologique ne s’arrête pas à la description d’un fait (par
exemple, le taux de chômage aujourd’hui). Il s’articule à des questions, si bien que le
travail prend un caractère scientifique quand les données permettent d’étudier des
évolutions (le taux de chômage dans le temps), d’effectuer des comparaisons (le taux
65
de chômage dans différents pays), de distinguer des corrélations entre variables (le taux
de chômage des différentes PCS). Les statistiques ont un potentiel descriptif certain
mais elles ont aussi la capacité de mettre à jour les relations « objectives » entre
phénomènes sociaux (par exemple, niveau de diplôme et profession des parents, âge et
vote, etc.) : elles ont à ce titre un potentiel explicatif.
- Enfin, le raisonnement sociologique ne se limite pas à la simple mesure statistique,
même lorsque celle-ci repose sur des outils mathématiques complexes. Car si les
données quantitatives permettent de mettre à jour des régularités ou d’établir des
corrélations, elles ne permettent pas en elles-mêmes d’interpréter ces régularités ou de
comprendre ces corrélations. Pour formuler des conclusions sociologiquement
pertinentes, il faut, le plus souvent, accompagner les éléments chiffrés de modèles
théoriques et d’enquêtes de terrain de nature qualitative. On ne peut faire dire aux
données plus que ce qu’elles mettent à jour !
§1. La description des variables
La première étape dans l’analyse des données statistiques consiste toujours à décrire les
résultats pour chacune des variables étudiées : l’enjeu est d’identifier les informations les plus
significatives, au regard notamment de la problématique de l’enquête. Par exemple, dans un
sondage ou une enquête par questionnaire, cela veut dire étudier la distribution des réponses à
chaque question. Mais les principes de description varient selon la nature des variables.
(1) Principes de description des variables quantitatives. Rappelons que les variables
quantitatives sont des « variables qui s’expriment sous la forme d’une valeur métrique » (Philippe
Alonzo), autrement dit la variable s’exprime sous une forme numérique, le nombre constituant la
valeur de la variable (valeur rapportée à une unité de mesure). L’âge, le revenu, le taux de
chômage (exprimé en pourcentage), le produit intérieur brut, l’indice des prix ou encore le
nombre d’enfants par femmes sont des variables quantitatives. Voici un exemple relativement
simple : l’âge des étudiants du master qui ont répondu à l’enquête « Les étudiants, les élections et
la politique » (SPEL / CNRS / UPJV / UVSQ). Le corpus comprend 28 questionnaires remplis.
A cette question de l’âge, seuls 24 interviewés ont correctement rempli le questionnaire. L’âge
(mesurable à partir du mois et de l’année de naissance) constitue la seule variable quantitative du
questionnaire.
66
Âges Effectifs % brut % croissants % décroissants
21 5 20,8% 20,8% 100,0% 22 5 20,8% 41,7% 79,2% 23 5 20,8% 62,5% 58,3% 24 3 12,5% 75,0% 37,5% 25 3 12,5% 87,5% 25,0% 28 1 8,3% 95,8% 12,5% 36 1 4,2% 100,0% 4,2%
Total 24 100,0% - -
Tableau. Répartition des interviewés selon l’âge
Comment décrire les données du tableau ?
D’abord, lorsque la dispersion des valeurs est importante et nuit à la lisibilité du tableau et
à l’identification des informations, il est possible d’opérer des regroupements et d’établir des
classes d’âge. Ici, la variable « âge » ne comprenant que 7 valeurs, cette opération ne paraît pas
indispensable (sauf, à la rigueur, en regroupant les valeurs les plus élevées 28 et 36 ans dans une
classe « 28 ans et plus »).
Ensuite, il est souvent précieux de transformer les données brutes en pourcentages. La
fréquence relative de chaque valeur dans la population apparaît alors de façon plus marquante
(car le poids en valeur absolu est peu significatif : « 5 sur 28 » parle moins que « 21 % ». Les
pourcentages permettent eux aussi d’opérer des regroupements. Parmi les regroupements
possibles, il peut être utile de cumuler les pourcentages de façon croissante ou décroissante : par
exemple, 62 % des étudiants ont 23 ans et moins et 58 % ont 23 ans et plus. Établir les
pourcentages permet notamment de faciliter la représentation graphique des données. Le choix
du graphique dépend là encore des hypothèses et de la problématique. Selon les cas, il peut être
plus utile de constituer des histogrammes, des courbes ou des « aires » (camembert)… :
67
Il existe ensuite d’autres outils de description des données :
- Le mode = la valeur la plus fréquemment distribuée. Ici, c’est 21, 22 et 23 ans.
- La moyenne = la valeur obtenue en divisant la somme des valeurs par le nombre d’individus.
Ici, c’est 23,7 ans. Souvent, les moyennes sont biaisées par deux paramètres. D’abord, la variable
« âge » est discrète et non continue (on n’a que les années et non les années et les mois – il est
possible que les 23 ans soient plus proches de leur 24e anniversaire que de leur 23e). Ensuite, il est
fréquent que les individus qui s’écartent trop de la « norme » soient regroupés dans une seule
catégorie (par exemple, mettre les 28 ans et plus ensemble !), ce qui ne permet pas d’établir leur
âge exact.
- La médiane = « tendance centrale pour laquelle exactement la moitié des données se situent
au-dessus tandis que l’autre moitié lui est inférieure. » Ici, c’est également 23 ans.
Pourquoi faut-il distinguer moyenne et médiane ? Parce que, comme le soulignent les
statisticiens de l’INSEE, de nombreuses grandeurs économiques sont limitées vers le bas et non
vers le haut. Par exemple, le salaire horaire est limité vers le bas par le SMIC alors que certains
salaires peuvent être très élevés. La moyenne est tirée vers le haut par les salaires élevés, même
s’ils sont peu nombreux, et elle est pour cette raison généralement supérieure à la médiane.
Par ailleurs, l'incertitude qui affecte les valeurs extrêmes, en particulier les valeurs élevées, se
reporte sur la moyenne mais n'affecte pas la médiane. Celle-ci est de ce point de vue un indicateur
plus fiable. Par exemple, en France en 2008, le revenu disponible moyen mensuel par ménage est
de 2871 euros, tandis que le revenu disponible médian mensuel par ménage est de 2380 euros. En
France en 2008, le revenu moyen mensuel par individu est de 1842 euros, tandis que le revenu
68
médian mensuel par individu est de 1582 euros (source : INSEE). De la même manière, en 2000,
la moyenne des patrimoines des ménages français est de 100 000 euros, alors que le patrimoine
médian est de 78 000 euros.
De telles disparités peuvent jouer un rôle certain dans le débat public : selon le champ de
référence (individu ou ménage ; revenus avant ou après impôts ; etc.) et le type de mesure
(moyenne, médiane), il est possible de légitimer telle ou telle mesure pour son caractère
« juste » ou « correspondant à la moyenne » ! Les débats autour de la taxation du patrimoine ou
des successions mettent régulièrement en scène de tels affrontements.
- La variance = écart moyen entre la moyenne et les résultats. V = (|moy-X1| + |moy-X2| +
|moy-X3| +...)/N. En l’occurrence, la variance est ici de 2,13. Il est important en effet de ne pas
se préoccuper seulement de la moyenne ou de la médiane. Une même moyenne peut en effet
renvoyer à des réalités disparates. D’un côté, les valeurs peuvent être toutes proches de la
moyenne et dessiner une population homogène. De l’autre, la population peut être extrêmement
hétérogène, la moyenne tendant à masquer ces divergences ! L’étude de la variance est
notamment utile dans les études sur les revenus : elles peuvent fournir une première indication
sur l’état des inégalités.
- Les « quantiles » : en plus de la médiane, il est souvent précieux d’identifier les quantiles, c’est-
à-dire les « valeurs qui divisent un ensemble d’observations en X parties égales ». Les quartiles
impliquent 4 parties égales, les déciles 10 parties égales, les centiles 100 parties égales, etc. Chaque
groupe contient alors 25 %, 10 % ou 1 % des données. Ici, les bornes des quartiles sont 21-22
ans / 22-23 ans / 23-24,25 ans / 24,25-36 ans. Ce repérage des quartiles confirment la
concentration des individus autour des valeurs 22-24,25 ans !
Mais les « quantiles » sont surtout utiles pour saisir les inégalités de richesse et comparer
leurs évolutions. Par exemple, étudions les revenus de l’ensemble des foyers et divisons ces foyers
en dix groupes de taille égale. D’après l’INSEE, en 2006, les 10 % des ménages les moins riches
déclarent moins de 1018 € de revenus par mois (après impôts et prestations sociales). A l’inverse,
les 10 % des ménages les plus riches déclarent plus de 4690 € de revenus par mois. Le rapport
entre les deux est de 4690/1018 = 4,6. Il est alors possible d’étudier l’évolution de ce rapport
dans le temps ou bien entre pays afin d’étudier l’évolution des inégalités des revenus. Il est
également possible de comparer les rapports inter-déciles entre eux pour identifier où réside la
principale « cassure » sociale. En l’occurrence, en France aujourd’hui, cette cassure réside
principalement entre le 9e et le 10e décile : les 8 premières bornes sont beaucoup plus proches les
69
unes des autres que la 9e ! Thomas Piketty montre d’ailleurs que les inégalités sont encore plus
marquées si l’étude s’intéresse non plus aux déciles mais aux centiles (c’est d’ailleurs les foyers
appartenant aux derniers centiles qui ont connu la plus nette envolée des revenus depuis la
dernière décennie : les 0,01 % des plus hauts salaires ont augmenté de 69 % entre 1998 et 2006,
soit un bonus mensuel de 34 000 euros en l’espace de huit ans, cf. les travaux de Camille
Landais.).
Revenus délimitant chaque décile (en €)
Différences entre déciles (en €)
Rapports inter-déciles
Part du groupe dans la richesse nationale
10 % 1018 3,6 % 20 % 1308 290 0,65 5,3 % 30 % 1593 285 1,22 6,3 % 40 % 1913 320 1,2 7,2 % 50 % 2263 350 1,18 8,1 % 60 % 2641 378 1,17 9 % 70 % 3051 410 1,15 10,1 % 80 % 3648 597 1,2 11,6 % 90 % 4690 1042 1,29 14,1 % 95 % 5974 - - -
100 % - - - 24,70%
Tableau. Revenus mensuels des ménages (en euros, après impôts et prestations sociales). Source, INSEE, 2006.
Enfin, plutôt que sur les bornes inter-déciles, le calcul peut porter sur les revenus moyens au sein
de chacune des 10 fractions de population. Cela permet notamment de dessiner la courbe de
Lorenz : plus elle s’écarte de la diagonale et prend une forme exponentielle, plus les inégalités
sont prononcées.
Courbe de Lorenz des revenus français (2006)
70
Il est alors possible de mesurer le rapport entre les revenus moyens des deux fractions de
population aux marges de l’espace social ou bien d’observer l’évolution dans le temps de la part
du revenu des 10 % les mieux rémunérés dans le revenu national.
N.B. : Les indicateurs quantitatifs soulèvent un problème spécifique : celui de la
pondération. En effet, les indicateurs agrègent des données différentes. Dans le cas de la
richesse, il est assez simple d’agréger « revenus du travail » et « patrimoine » qui se cumulent
effectivement dans la vie de chacun. Parfois cependant, les différents éléments qui composent un
indicateur ne « pèsent » pas la même chose, rendant délicat la constitution et la mesure de
l’indicateur. Prenons deux exemples :
- La visibilité médiatique : Chercheurs et spécialistes en communication analysent régulièrement
la médiatisation des événements, des mouvements sociaux ou des personnalités. L’analyse peut
être qualitative, étudiant les « cadrages » de l’actualité et les appréciations positives ou négatives
adressées aux protagonistes de la vie politique. Mais l’analyse peut également être strictement
quantitative, évaluant la visibilité des acteurs dans les médias. Seulement, comment mesurer cette
visibilité ? Dix secondes à la radio valent-elles une interview pleine page dans les journaux ? Il est
possible d’affecter à chaque mention d’une personnalité un coefficient correspondant à l’audience
moyenne du média. Chaque évocation est donc rapportée à son « poids » en termes d’ampleur du
public. Mais comment différencier les mentions dans la presse écrite selon qu’elles figurent en
« une » ou au cœur d’un article ? Selon qu’elles concernent tout un article ou une petite référence
dans une brève ? C’est là qu’intervient l’arbitraire du coefficient : on ne peut fixer de principes de
pondération objectifs au sens d’universellement acceptés.
- L’indice des prix à la consommation : L'indice des prix à la consommation (IPC) est un
instrument de mesure de l'inflation élaboré par l’INSEE. Il permet d'estimer, entre deux périodes
données, la variation moyenne des prix des produits consommés par les ménages. C'est une
mesure synthétique de l'évolution de prix des produits, à qualité constante. Publié chaque mois au
Journal Officiel, il joue un rôle politique et social majeur puisqu’il sert à indexer de nombreux
contrats privés, des pensions alimentaires, des rentes viagères et aussi à revaloriser le SMIC.
L'indice retenu pour le SMIC est celui des « ménages urbains dont le chef est ouvrier ou employé,
hors tabac ». La constitution de cet indice est donc fondamental et suscite de nombreuses
crispations, notamment parce qu’il n’est pas un indice du coût de la vie. Beaucoup le juge
inadapté. Pourquoi ?
Pour répondre à cette question, il faut d’abord revenir sur les méthodes retenues par
l’INSEE. « Le plan de sondage est stratifié selon trois types de critères. (1) Géographique : les
71
relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants dispersées sur le
territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ; (2) type de
produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est défini
pour tenir compte de l'hétérogénéité des produits au sein des postes. La variété est le niveau de
base pour le suivi des produits et le calcul de l'indice ; (3) type de point de vente : un échantillon
de 27 000 points de vente, stratifié par forme de vente, a été constitué pour représenter la
diversité des produits et modes d'achat des consommateurs et prendre en compte des variations
de prix différenciées selon les formes de vente. Le croisement de ces différents critères aboutit à
suivre un peu plus de 140 000 séries (produits précis dans un point de vente donné) donnant lieu
à près de 160 000 relevés mensuels. A ces chiffres s'ajoutent environ 30 000 séries de type "tarif"
collectées de façon centralisée. L'échantillon est mis à jour annuellement pour tenir compte de
l'évolution des comportements de consommation et, notamment, introduire des produits
nouveaux. Outre la composition de l'échantillon, les pondérations utilisées pour agréger les 21
000 indices élémentaires (croisement variétés x agglomération dans le cas général) sont également
mises à jour chaque année. Ces pondérations représentent la part des dépenses associées à
l'agrégat concerné au sein de l'ensemble des dépenses de consommation des ménages couvertes
par l'indice. Elles sont obtenues, pour la plupart, à partir des évaluations annuelles des dépenses
de consommation des ménages réalisées par la Comptabilité Nationale. Des traitements
spécifiques sont effectués pour les produits frais, les autres variétés saisonnières, les variétés
tarifaires et pour déterminer des évolutions de prix "pures", à qualité constante, lorsqu'un produit
disparu est remplacé en cours d'année par un autre. Les promotions et soldes offerts à tous les
consommateurs sont pris en compte. L'IPC couvre l'ensemble des biens et services marchands
consommés sur le territoire, par les ménages résidents et non-résidents (comme les touristes).
Son champ théorique se définit comme celui de la consommation finale effective marchande
monétaire des ménages. Les principaux défauts de couverture portent encore sur certains types
d'assurances, les services hospitaliers privés, les jeux de hasard et l'assurance vie. » (INSEE)
Fonctions de consommation Pondération
en 2009 (en %)
PRODUITS ALIMENTAIRES ET BOISSONS NON ALCOOLISÉES
14,99
BOISSONS ALCOOLISÉES ET TABAC 3,27 HABILLEMENT ET CHAUSSURES 4,93 AMEUBLEMENT, ÉQUIPEMENT MÉNAGER ET ENTRETIEN COURANT DE LA MAISON 6,17
SANTE 9,96 COMMUNICATIONS 2,99 LOISIRS ET CULTURE 9,20 EDUCATION 0,24 HÔTELLERIE, CAFÉS, RESTAURATION 6,78
72
AUTRES BIENS ET SERVICES 11,58 LOGEMENT, EAU, GAZ, ÉLECTRICITÉ ET AUTRES COMBUSTIBLES 16,32 TRANSPORT 13,57 ENSEMBLE 100
Chaque bien est affecté d’un coefficient qui correspond à sa part dans le budget des ménages. La
controverse tient à ce que cette proportion n’est pas la même pour tout le monde : tout le monde
ne consomme pas la même chose et dans les mêmes proportions. Pour un ménage modeste, la
part du logement dans le budget est beaucoup plus élevé que pour les ménages plus riches (plus
de 30 % pour les 20 % les plus pauvres, contre moins de 10 % pour les 20 % les plus riches).
L’indice des prix à la consommation ne peut donc servir à évaluer l’évolution du pouvoir d’achat.
Un tel usage aurait d’autant moins de sens que les problèmes de pouvoir d’achat tiennent, d’une
part, autant à la question de l’évolution des revenus qu’à celle de l’évolution des prix et que,
d’autre part, ces difficultés concernent avant tout certaines catégories de la population : cela a-t-il
un sens de mesurer une évolution moyenne du pouvoir d’achat ?
(2) Principes de description des variables nominales.
Professions et catégories
sociales (PCS) Nombre (en milliers)
Proportion (pour mille
actifs)
Agriculteurs exploitants 1 475 63 ‰
Artisans, commerçants et
chefs d'entreprise 1 835 78 ‰
Cadres et professions
intellectuelles supérieures 1 895 81 ‰
Professions intermédiaires 3 971 169 ‰
Employés 6 247 265 ‰
Ouvriers 7 749 329 ‰
Chômeurs n'ayant jamais
travaillé 353 15 ‰
Population active 23 525 1 000 ‰
Tableau 1. Structure de la population active en 1982.
73
§2. L’identification des corrélations statistiques
Jusqu’ici, nous avons analysé chaque variable isolément afin d’en dégager les informations
principales. Mais l’intérêt de l’objectivation statistique est aussi de mettre en relation deux
variables et de voir s’il y a ou non « corrélation » ou encore lien d’interdépendance. Prenons un
exemple fictif : une enquête menée auprès d’un échantillon d’étudiants français dont l’enjeu serait
notamment de saisir les liens entre le type de baccalauréat (Variable 1) et le type d’études
supérieures (Variables 2). Ces deux variables sont nominales et comprennent chacune trois
modalités : il y a donc neuf « croisements » possibles. 1000 étudiants sont interviewés : tous sont
issus soit d’un bac « général », soit d’un bac techno. Le tableau croisé ci-dessous indique la
distribution des interviewés pour chaque variable.
Classe prépa IUT / BTS Université Ensemble
Bac S 40 20 40 100 Bac ES – L 50 190 160 400 Bac techno 10 90 400 500
Ensemble 100 300 600 1000
74
Tableau 1. Distribution de la population étudiante selon le baccalauréat et la filière de l'enseignement supérieur (données fictives)
Comment identifier et mesurer les éventuelles corrélations entre ces deux variables ? L’une des
solutions consiste à établir ce que serait la distribution s’il y avait indépendance entre variables,
autrement dit si l’affectation des étudiants reposait sur le seul hasard et non sur leur bac d’origine.
Ainsi, parmi les 100 interviewés qui intègrent une classe préparatoire, il faut retrouver la même
distribution de bac d’origine que pour l’ensemble de la population. Les bac techno forment la
moitié des interviewés (500/1000) : ils doivent alors former la moitié des étudiants de classe
prépa, soit 50/100. 50=100*(500/1000) ou 50=500*(100/1000).
Classe prépa IUT / BTS Université Ensemble
Bac S 10 30 60 100
Bac ES – L 40 120 240 400
Bac techno 50 150 300 500
Ensemble 100 300 600 1000
Tableau 2. Distribution théorique selon l'hypothèse d'indépendance des variables (données fictives)
Sans surprise, les résultats des tableaux 1 et 2 divergent sensiblement : il y a « écart à
l’indépendance » donc lien de dépendance donc corrélation statistique entre variables.
Classe prépa IUT / BTS Université Ensemble
Bac S +30 -10 -20 0
Bac ES – L +10 +70 -80 0
Bac techno -40 -60 +100 0
Ensemble 0 0 0 0
Tableau 3. Écarts à la distribution théorique (données fictives)
Comment lire ces écarts et convertir ces informations chiffrées en informations
sociologiques ? Une lecture possible consiste à dire que « les titulaires du baccalauréat S sont
statistiquement surreprésentés parmi les étudiants des classes préparatoires, alors qu’à l’inverse ils
sont sous-représentés parmi les étudiants des filières courtes ou des filières universitaires. » Une
autre lecture possible consiste à dire « les titulaires du baccalauréat S ont statistiquement plus de
75
chances d’accéder aux classes préparatoires que les étudiants des autres baccalauréats. » Deux
petites remarques supplémentaires :
- D’abord, ce n’est pas une surreprésentation « dans l’absolu » : ils sont par
exemple moins nombreux que les titulaires des Bac ES et L. C’est une
surreprésentation par rapport à leur effectif total.
- Ensuite, les résultats n’ont de sens que dans la comparaison, que dans une
perspective relationnelle : les titulaires du Bac S sont surreprésentés par
rapport aux titulaires d’autres bac.
Le tableau 3 permet de mettre en évidence un lien de dépendances entre les deux variables : l’une
dépend statistiquement de l’autre. Les études suivies dépendent du type de bac. Variables
indépendante (type de baccalauréat) → variables dépendantes (étude choisie). Ici, le lien de
corrélation est de type causal : l’un détermine l’autre car l’un est antérieur à l’autre.
Le tableau 3 n’est qu’un point de départ. En l’état, on ne peut rien dire de plus que
constater cette corrélation. Le travail doit être poursuivi. D’une part, il faudrait mobiliser des
outils mathématiques plus sophistiqués pour établir quelle est l’ampleur de la corrélation (analyses
de régression ou analyses factorielles). D’autre part, il faut essayer d’expliquer ou d’interpréter ce
lien entre les deux variables, c’est-à-dire suggérer des hypothèses sociologiques et les vérifier.
§3. L’interprétation des corrélations
Comment expliquer ces liens statistiques entre « baccalauréat » et « études » ? D’un côté,
la relation est directe : les personnes chargées de recruter les élèves en classes prépa ou dans les
filières courtes s’appuient explicitement sur le critère du bac. Ce n’est pas le seul pris en compte
mais il est souvent déterminant. L’effet de la variable indépendante sur la variable dépendante est
ici direct ! Mais d’un autre côté, la variable « type de baccalauréat » dépend elle aussi de nombreux
facteurs sociaux (il n’y a pas non plus de hasard sociologique dans l’affectation des élèves au
lycée). Elle « dissimule » d’autres variables susceptibles d’expliquer l’orientation dans les études :
le milieu social d’origine, le sexe, le capital culturel des parents, etc. A travers ce deuxième registre
explicatif, la relation entre les deux variables est indirectes : elles sont toutes deux déterminées par
une même cause.
L’exemple choisi ici est simple. Mais il renvoie à un problème régulier et souvent plus
complexe à résoudre : comment expliquer ou interpréter les corrélations statistiques mises à
jour ? Il n’est pas toujours aisé de déterminer quelle variable est dépendante de l’autre ! Il y a en
fait trois principaux scénarios explicatifs :
76
- Causalité : « Une variable agit directement sur la seconde variable et produit un
effet » (Philippe Alonzo).
- Concomitance ou cooccurrence : « Nature du lien entre deux variables
présentant un rapport de simultanéité, souvent sous l’influence d’une troisième variable ».
(Philippe Alonzo) Autrement dit, les deux variables ont une même cause. Pour prendre des
exemples triviaux mais parlants, pensons au lien entre sexualité après 65 ans et espérance
de vie : toutes deux sont déterminées par une tierce variable : la bonne santé. Autre
exemple trivial : la corrélation après 1945 entre consommation de bière en Californie et la
mortalité infantile au japon (la variable cachée est ici un front caniculaire sur le Nord
Pacifique). Enfin exemple plus sérieux : le lien entre race et QI aux États-Unis. En fait, la
variable « race » masque une variable autrement discriminante : la position dans l’espace
social… A ce titre, l’indicateur du QI lui-même est problématique parce qu’il détermine
non pas ce que serait objectivement l’intelligence mais la capacité à résoudre des problèmes
qui figurent dans les programmes scolaires (définis donc par les catégories dominantes).
- Interdépendance : Nature du lien entre deux variables dont les variations s’auto-
entretiennent. Un exemple assez simple : la conversion réciproque entre capital
économique et capital culturel.
Il faut donc être particulièrement vigilant dans l’interprétation de corrélations
apparemment évidentes. Les trois exemples suivants renvoient à trois difficultés récurrentes.
(1) La corrélation entre âge et suicide : effet d’âge ou effet de génération ?
Le premier exemple est à nouveau emprunté à Émile Durkheim. Celui-ci met en relation
deux variables : le taux de suicide des hommes célibataire en France entre 1889 et 1891 et l’âge.
Pourquoi indique-t-il une proportion (nombre de suicides pour un million de célibataires) plutôt
que le nombre de suicidés par classe d’âge en valeur absolue ? Tout simplement parce que les
classes d’âges ne sont pas homogènes en taille. La conversion du nombre brut en proportion
permet de neutraliser l’effet de cette hétérogénéité.
77
Tableau 6. Taux de suicide moyen selon l'âge (hommes célibataires, France 1889-91).
(source : Émile Durkheim, Le Suicide, 1987)
La lecture du tableau met en évidence un effet évident de l’âge sur le taux de suicide des hommes
célibataires. Ce taux progresse de façon continue (sauf pour la dernière classe d’âge). Mais
lorsqu’on convertit ce tableau en graphique émerge une autre représentation de la corrélation
entre âge et taux de suicide des hommes célibataires : la progression du taux de suicide avec l’âge
n’est pas seulement régulière, elle est linéaire !
Schéma 2. Taux de suicide moyen selon l'âge (hommes célibataires, France 1889-91). (source : Émile Durkheim, Le Suicide, 1987)
Comment interpréter ce graphique ? A première vue, cela paraît mettre en évidence un
« effet d’âge ». Pourtant il pourrait y avoir une seconde interprétation : il pourrait s’agir d’un
« effet de génération », c’est-à-dire que ce n’est pas tant l’âge qui serait déterminant mais la date
de naissance. Chaque génération naît et grandit dans un contexte singulier ; les principes éducatifs
évoluent ; les perspectives sociales également. Autrement dit, la plus ou moins grande
perméabilité au suicide pourrait résulter de socialisations spécifiques : le taux de suicide d’une
même génération ne varierait alors pas ou peu dans le temps.
Comment résoudre ce dilemme ? Il faudrait opérer la même étude sur une autre période.
Les dates d’observation ne seraient plus 1889-91 mais 1910-12 par exemple. Soit la corrélation est
inchangée et les deux graphiques sont très ressemblants : dans ce cas, c’est clairement l’effet d’âge
qui prédomine. Soit les deux courbes sont parallèles (du moins sur les générations vivants aux
deux périodes d’enregistrement) : dans ce cas, c’est clairement l’effet de génération qui
prédomine. Il faudrait d’ailleurs s’assurer que le lien entre âge et taux de suicide se vérifie dans
d’autres configurations sociohistoriques. Si c’est le cas, il est possible d’établir une théorie
78
générale. Sinon, c’est une théorie « régionale » qui peut être établie : l’âge ne pèse sur la
probabilité de se suicider que dans un contexte donné (il y a donc congruence de facteurs).
(2) La présence au but comme variable « écran »
Le deuxième exemple est fictif. Imaginez une équipe de football dans laquelle l’ensemble
des joueurs « tournent » au poste de gardien. Or, dès que l’un des joueurs est gardien, l’équipe de
ne prend plus de but. Pourquoi ? La raison la plus gratifiante pour ce joueur est de considérer
qu’il est le meilleur gardien de l’équipe. Toutefois, une seconde hypothèse est moins glorieuse
pour lui : il n’est plus sur le terrain et ne handicape plus son équipe.
Pour déterminer laquelle des deux hypothèses est la plus pertinente et ainsi interpréter la
corrélation, il faudrait élargir l’espace d’observation et inclure d’autres variables comme le nombre
de tirs au but de l’adversaire. Si celui-ci est inchangé voire augmente, c’est alors clairement
l’hypothèse des qualités du gardien qu’il faut retenir. Si celui-ci diminue, c’est l’autre interprétation
qui semble la plus juste. On pourrait aussi imaginer un dispositif expérimental et voir comment
les choses se déroulent lorsque le joueur n’est ni sur le terrain, ni dans les buts. Soit l’équipe se
prend toujours régulièrement des buts : dans ce cas, c’est la qualité du gardien qui est la variable
explicative. Soit elle ne se prend plus (ou moins) de buts : dans ce cas, c’est sa présence dans le
jeu qui est la variable explicative.
(3) Salaires du public et salaires du privé : les effets de structure
Une corrélation suscite fréquemment de vigoureuses polémiques : le lien entre statut
d’activité (variable 1) et salaire (variable 2). Ainsi, il semble apparemment établi que les salariés du
secteur public gagnent plus que leurs collègues du privé. En 2006, le salaire net annuel moyen de
l’ensemble de la fonction publique d’État était de 26 182 euros (soit un peu de moins de 2200
euros par mois), tandis que l’équivalent pour les salariés du privé était de 23 261 euros (soit un
peu plus de 1900 euros par mois). Le réflexe est alors d’identifier un lien de causalité : la cause
d’un tel écart résulterait simplement du fait qu’ « on est mieux payé dans le privé que dans le
public ». Quel est le problème d’une telle interprétation ?
En fait, la comparaison de ces salaires moyens n’a pas beaucoup d’intérêt. D’une part,
parce que la moyenne, on l’a vu, ne nous dit pas grand-chose de la distribution des salaires.
D’autre part, parce qu’on ne compare pas ici des populations identiques ! Les écarts tiennent en
fait à un « effet de structure » : la structure des deux populations n’est pas la même au regard de
deux variables déterminantes sur le salaire :
79
- Le niveau de qualification moyen est bien plus élevé dans la fonction publique
d’État que dans l’ensemble du secteur privé : les emplois proposés sont alors
plus qualifiés. C’est donc à niveau de diplôme égal ou à catégorie
socioprofessionnel égal qu’il faudrait opérer la comparaison.
- L’âge moyen est plus élevé dans la fonction publique d’État que dans le
secteur privé. Idem : comparaison pertinente à classe d’âge. (Voir graphiques)
Autrement dit, si l’on souhaite revenir sur une comparaison globale des salariés du public et du
privé, celle-ci n’est possible qu’à condition que « toutes choses soient égales par ailleurs ». Il faut
donc faire comme si la structure des deux était identique, afin d’éliminer le « bruit » (le bruit étant
ici les divergences dans la distribution des âges et des niveaux de qualification).
Top Related