La statistique, une science au service de la science et...

32
Les cahiers des leçons inaugurales La statistique, une science au service de la science et des organisations François Bellavance Professeur titulaire 17 mars 2009

Transcript of La statistique, une science au service de la science et...

Page 1: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

Les cahiers des leçons inaugurales

La statistique, une scienceau service de la scienceet des organisations

François BellavanceProfesseur titulaire

17 mars 2009

Page 2: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

COPYRIGHT, ©, mars 2009, François Bellavance

François Bellavance Titulaire d’un doctorat (1994) et d’une maîtrise (1987) en statistique et d’un baccalauréat en mathématiques, option statistique (1985) de l’Université de Montréal, François Bellavance est professeur titulaire au Service de l’enseignement des méthodes quantitatives de gestion. Il dirige également le Laboratoire sur la sécurité des transports du Centre interuniversitaire de recherche sur les réseaux d’entreprise, la logistique et le transport (CIRRELT). Ses recherches portent principalement sur les méthodes d’analyse de données provenant de devis expérimentaux, de bases de données administratives et de problématiques en sécurité routière. Promus titulaires, les professeurs de HEC Montréal sont invités à donner un discours inaugural, appelé leçon inaugurale, à l’intention de la communauté universitaire. Dans le cadre de cette leçon, les professeurs font part de leurs réflexions sur leur carrière et sur la pratique de la gestion.

Page 3: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,
Page 4: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

LA STATISTIQUE, UNE SCIENCE AU SERVICE DES

SCIENCES ET DES ORGANISATIONS

TABLE DES MATIÈRES

Introduction .......................................................................................................... 5

I. Bref historique de la statistique ............................................................. 7

A. Définition de la statistique ................................................................. 7

B. La collecte de données pour aider à la gouvernance des États ........... 9

C. La statistique mathématique .............................................................. 10

II. De consultant en statistique à cochercheur dans des équipes

multidisciplinaires de recherche ............................................................ 14

A. L’expérience de consultation en statistique ....................................... 14

B. La recherche appliquée en statistique motivée par les projets de

consultation ......................................................................................... 15

C. Le passage de consultant à cochercheur ........................................... 18

III. La recherche en sécurité routière .......................................................... 22

A. La problématique de la sécurité routière ............................................. 22

B. L’exemple du téléphone cellulaire au volant et le risque d’accident .. 23

Conclusion ........................................................................................................... 28

Bibliographie ....................................................................................................... 30

Page 5: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

5

Introduction

Je dois admettre d’entrée de jeu que j’ai pensé longuement avant de trouver un titre

pour cette leçon inaugurale. Après mûre réflexion, « La statistique, une science au service

des sciences » résume en peu de mots ma carrière à ce jour. En effet, la majorité de mes

publications sont des articles scientifiques écrits en collaboration avec des collègues

chercheurs dans divers domaines autres que la statistique. Mon rôle comme statisticien dans

ces contributions est de participer activement à la planification et à la rédaction des

protocoles de recherche et des demandes de subventions, et de superviser la gestion des

données et les analyses statistiques. Finalement, je participe activement à la rédaction des

rapports de recherche et des articles. La présence d’un statisticien dans une équipe de

recherche multidisciplinaire a pour objectif d’assurer, dans la mesure du possible, que les

méthodes les plus appropriées sont utilisées pour analyser les données recueillies et que

l’interprétation des résultats obtenus est juste. Cela permet également de publier assez

régulièrement dans les meilleures revues scientifiques. Aussi, mes quelques articles

méthodologiques en statistique ont été motivés par des problèmes que j’ai éprouvés lors de

projets de consultation ou de recherches en collaboration. Je m’intéresse plus

particulièrement dans ces cas à la mise au point de nouvelles méthodes statistiques, surtout

lorsque celles existantes pour analyser un ensemble de données ont d’importantes limites

d’application.

J’ai ajouté par la suite au titre « et des organisations » pour les raisons suivantes.

Premièrement, la statistique s’est beaucoup développée au cours de l’histoire, pas

seulement à cause des besoins méthodologiques des autres sciences, mais aussi en raison

des besoins d’innovation des entreprises et de l’évolution de la société en général.

Deuxièmement, plusieurs étudiants que j’ai encadrés aux cycles supérieurs en statistique ou

en intelligence d’affaires travaillent maintenant dans des entreprises et des organisations où

ils utilisent les méthodes d’analyse de données pour l’aide à la décision et à l’innovation.

Troisièmement, le principal objectif que je poursuis lorsque je donne le cours obligatoire de

statistique au programme de M.B.A. est que les étudiants retiennent que la statistique, si

Page 6: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

6

elle est utilisée correctement, peut constituer un puissant allié dans la prise de décisions

éclairées dans leur future carrière de gestionnaire. Quatrièmement, les projets de recherche

dans lesquels je suis engagé en sécurité routière sont souvent proposés et financés en partie

par des organisations comme la Société de l’assurance automobile du Québec (SAAQ), le

ministère des Transports du Québec (MTQ) et Transport Canada (TC), qui ont besoin des

résultats pour l’élaboration ou l’évaluation de programmes ou de politiques. Il en est de

même pour le projet sur les indicateurs de gestion dans le milieu municipal, projet dirigé

par notre collègue Michel Guindon, et principalement financé par le ministère des Affaires

municipales et des Régions (MAMR) et l’Union des municipalités du Québec (UMQ).

J’ai donc l’intention de vous faire part dans cette leçon de mon parcours de chercheur

universitaire, de quelques réflexions au passage en faveur de la collaboration dans la

recherche multidisciplinaire (ou transversale, en référence à l’atelier stratégique de

recherche transversale), et du besoin continuel de concevoir de nouvelles méthodes

statistiques pour répondre adéquatement aux questions de recherche posées par les projets

dans les différents domaines scientifiques.

Page 7: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

7

I. Bref historique de la statistique

A. Définition de la statistique

Dans Le Petit Robert, on lit que le mot « statistique » est dérivé du latin moderne

statisticus, qui signifie « relatif à l’État », et de l’italien statista, qui veut dire « homme

d’État ». La définition est la suivante : « Étude méthodique des faits sociaux, par des

procédés numériques (classements, dénombrements, inventaires chiffrés, recensements),

destinée à renseigner et aider les gouvernements. » Cette définition fait référence à l’origine

du terme statistik qui aurait été introduit en 1749 par un statisticien et politicologue

allemand, Gottfried Achenwall1

Ronald A. Fisher, un des pionniers de la statistique mathématique, écrit dans son livre

Statistical Methods for Research Workers, publié en 1925, que « la statistique peut être vue

comme (i) l’étude des populations (en référence à l’origine et à la signification du mot), (ii)

l’étude de la variabilité et (iii) l’étude des méthodes pour la réduction des données »

(traduction libre). J’apprécie particulièrement comme définition de la statistique « l’étude

, pour désigner l’analyse de données afin de décrire les

caractéristiques sociales, politiques et économiques d’un État.

Le Petit Robert donne aussi comme deuxième définition du mot statistique : « Branche

des mathématiques appliquées qui utilise le calcul des probabilités pour établir des

hypothèses à partir d’événements réels et faire des prévisions concernant des circonstances

analogues. » Au début du premier cours, je demande toujours aux étudiants de me dire ce

qu’est, selon eux, la statistique. La majorité a déjà suivi au moins un cours d’introduction à

la statistique, et on me donne des définitions qui sont analogues à celle du dictionnaire, où

reviennent les termes « probabilités », « échantillon », « analyse de données » et

« généraliser à l’ensemble de la population ».

1 The Columbia Encyclopedia, 6e édition, 2008, [En ligne], Encyclopedia.com, http://www.encyclopedia.com/doc/1E1-Achenwall.html (Page consultée le 28 février 2009).

Page 8: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

8

de la variabilité », et c’est cette définition que j’aime donner et que je tente d’expliquer aux

étudiants. L’étude de la variabilité est l’objectif fondamental de l’ensemble des sciences.

Les scientifiques observent les différents phénomènes qui nous entourent et tentent de les

expliquer. Par exemple, certains individus ou certaines organisations réussissent bien,

d’autres moins bien, et on se demande alors quels facteurs expliquent cette variabilité dans

le degré de réussite. Évidemment, il faut pouvoir définir, évaluer et mesurer la réussite pour

être en mesure d’étudier sa variabilité. Il s’agit d’un exemple en apparence simple d’un

phénomène qui bien souvent s’avère complexe. En médecine ainsi que dans plusieurs

autres domaines scientifiques, incluant les sciences administratives, on utilise souvent le

terme « facteurs de risque » pour désigner les caractéristiques d’un individu ou d’une

entreprise qui sont associées au phénomène à l’étude, par exemple le développement d’une

maladie comme le diabète ou le cancer. L’hérédité, l’alimentation et les autres habitudes de

vie sont autant de facteurs de risque associés à ces maladies.

La troisième composante de la définition de Fisher a trait au besoin de réduire de

grands volumes de données à quelques quantités numériques qui résument bien

l’information contenue dans la masse de données. Tout chercheur qui a procédé de façon

méthodique et rigoureuse à l’étude de phénomènes et à la collecte d’observations sur le

terrain est familier avec le besoin de ramener l’ensemble des renseignements recueillis à un

nombre plus restreint de valeurs qui résument l’information. Il est plutôt difficile pour

l’homme, aussi intelligent soit-il, de considérer dans son intégralité une quantité

considérable de données brutes et de les interpréter. La science de la statistique a comme

objectif de répondre à ce besoin pratique d’extraire toute l’information pertinente contenue

dans la masse de données et de la synthétiser en quelques indicateurs numériques, comme

une moyenne et un écart type, un tableau de fréquences ou encore un modèle mathématique

plus ou moins complexe avec quelques paramètres qui captent l’essentiel du phénomène

observé.

Un survol de l’historique de la statistique montre que cette dernière s’est développée

d’abord en vue d’aider à l’organisation et à la gouvernance des États, avant de devenir

Page 9: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

9

définitivement une science basée sur les mathématiques et la théorie des probabilités et de

connaître des développements importants au début du XXe

En fait, la collecte de données est une activité qui remonte très loin dans le temps.

Deux mille ans avant Jésus-Christ, en Chine, l’empereur organisait le recensement des

productions agricoles. À l’époque de l’Empire romain, le recensement permettait de

connaître les ressources humaines pouvant être mobilisées; d’autre part, les résultats étaient

utilisés pour montrer publiquement la puissance et l’ampleur de la domination romaine.

Aujourd’hui, des organismes comme Statistique Canada ou l’Institut de la statistique du

Québec collectent et analysent des données sur toutes les facettes de la société. Ces

organismes, et leurs cousins partout dans le monde, ont pour mandat de « recueillir,

compiler, analyser, dépouiller et publier des renseignements statistiques portant sur les

activités commerciales, industrielles, financières, sociales, économiques et générales

siècle.

B. La collecte de données pour aider à la gouvernance des États

2

Au XVII

» des

habitants qui relèvent de leur compétence. En plus de fournir des renseignements pour aider

à la prise de décision et à l’élaboration et à l’évaluation des politiques publiques, un certain

nombre de personnes dans ces organismes travaillent à améliorer les méthodologies

statistiques servant aux enquêtes. D’ailleurs, Statistique Canada, qui est un leader mondial

en ce qui a trait à la méthodologie d’enquête, publie depuis plus de 25 ans la revue

scientifique avec comité de lecture Techniques d’enquête qui est reconnue

internationalement.

e

2 Statistique Canada Mandats, responsabilité et objectifs [En ligne], http://www.statcan.gc.ca/about-apercu/mandate-mandat-fra.htm (Page consultée le 9 mars 2009).

siècle, William Petty, médecin, mathématicien, parlementaire, fonctionnaire

et hommes d’affaires anglais qui est surtout connu pour ses écrits en économie, a introduit

les statistiques hebdomadaires sur les décès à Londres. Il a systématisé par la suite les

données sur les naissances, sur le nombre d’individus par ménage, etc. En 1693,

l’astronome et mathématicien anglais Edmond Halley a publié un article dans lequel il

Page 10: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

10

tentait d’estimer le prix des rentes viagères à partir de l’analyse des statistiques sur l’âge au

moment du décès des citoyens de la ville de Berlau en Pologne. Condorcet, philosophe,

mathématicien et politicien français, écrivait dans l’Encyclopédie méthodique de 17843 :

« Les usages qu’on a tirés des registres baptistaires et mortuaires sont si grands, que cela

devrait engager non seulement à les perfectionner, en marquant, par exemple, l'âge, la

condition, le tempérament, le genre de mort, etc., mais aussi à en faire de plusieurs autres

événements, que l’on dit très mal à propos être l’effet du hasard; c’est ainsi que l’on

pourrait former des tables qui marqueraient combien d’incendies arrivent dans un certain

temps, combien de maladies épidémiques se sont fait sentir en certains espaces de temps,

combien de navires, etc., ce qui deviendrait très commode pour résoudre une infinité de

questions utiles, et donnerait aux jeunes gens attentifs toute l’expérience des vieillards. »

C. La statistique mathématique

Les fondements mathématiques de la statistique ont été mis en place au XVIIe et au

XVIIIe siècle avec l’élaboration de la théorie des probabilités. Au début du XIXe siècle,

Legendre et Gauss ont établi indépendamment, en étudiant le mouvement de corps célestes,

la méthode des moindres carrés pour minimiser l’impact des erreurs de mesure. Mais c’est

vers la fin du XIXe

3 Cité dans « Histoire de la statistique », http://dutarte.club.fr/Sitestat/HISTOIRE%20STATISTIQUE%201.htm (Page consultée le 28 février 2009).

siècle que le développement de la statistique mathématique a vraiment

pris son essor avec Francis Galton, géographe et biologiste, cousin de Charles Darwin.

Galton s’intéressait à des questions statistiques dans le cadre de la génétique, de l’hérédité

biologique et du comportement humain. Sa principale contribution en statistique est la

corrélation et sa mesure par un indicateur. En analysant la relation entre la taille des enfants

et celle des parents, il a observé une régression vers la taille moyenne. En effet, chez les

parents de grande taille, la taille des enfants est, en moyenne, plus petite, alors que chez les

parents de petite taille, la taille des enfants est, en moyenne, plus grande. Galton n’était pas

un mathématicien, et c’est Karl Pearson qui, en s’inspirant de ses travaux, a élaboré le

coefficient de corrélation.

Page 11: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

11

Le développement de l’inférence statistique s’est accéléré au début du XXe

siècle

principalement à cause du besoin de généraliser à l’ensemble d’une population les résultats

observés à partir d’échantillons de plus ou moins petite taille. La motivation à créer ce

développement était d’abord liée à des domaines d’applications dans des laboratoires de

recherche en agronomie et dans les industries, principalement en Angleterre et aux États-

Unis. Les techniques statistiques ainsi créées pour des besoins particuliers trouveront avec

le temps des applications dans plusieurs autres disciplines scientifiques. Je me plais

d’ailleurs souvent à dire que, peu importe le domaine (médecine, biologie, psychologie,

marketing, économie, finance, etc.), les outils statistiques utilisés sont essentiellement les

mêmes; seul le nom des variables change. Évidemment, il faut nuancer quelque peu ces

propos, car chaque champ d’application a ses particularités, et il faut adapter les techniques

d’analyse en conséquence; toutefois, fondamentalement la méthodologie à la base est la

même.

En vrac, voici quelques-unes des principales techniques statistiques qui ont vu le jour

au cours du dernier siècle.

William Gosset, qui a passé sa carrière dans les brasseries Guinness à Dublin, puis à

Londres, s’intéressait à la statistique dans ses temps libres en vue d’améliorer la production.

Il a publié en 1908, sous le nom de plume « Student », un article intitulé « L’erreur

probable de la moyenne » (traduction libre), où il proposait sa statistique qui allait devenir,

avec la collaboration de Ronald Fisher quelques années plus tard, le test « t » pour une

moyenne. C’est à Ronald Fisher, qui a entre autres travaillé dans une station agricole

expérimentale en Angleterre, que l’on doit la méthode d’estimation du maximum de

vraisemblance. Aussi, les nombreuses expériences pour la recherche en agriculture qu’ils

avaient à mener et le temps important que cela prenait avant de pouvoir obtenir des

résultats ont conduit Fisher à établir les méthodes des plans d’expérience avec

randomisation afin de tirer le maximum de renseignements utiles du minimum

d’observations. Il a publié en 1935 un livre intitulé The Design of Experiments. Ces

méthodes sont toujours abondamment utilisées aujourd’hui dans plusieurs domaines

Page 12: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

12

scientifiques. Fisher s’est aussi beaucoup intéressé à la génétique, ce qui l’a amené à se lier

d’amitié avec Leonard Darwin, fils de Charles. Ses recherches et ses réflexions en

génétique ont été consignées dans un livre paru en 1930 et intitulé The Genetical Theory of

Natural Selection. Selon certains spécialistes de la théorie de l’évolution, ce livre serait le

deuxième en importance après le livre de Charles Darwin. Depuis quelques années, la

statistique génétique est un domaine de recherche en pleine évolution.

De ce côté-ci de l’Atlantique, Walter Shewhart, qui travaillait pour la Bell Telephone

Company, a proposé en 1924 la méthode des cartes de contrôle pour assurer la qualité des

processus de production. Il s’agit de définir statistiquement des limites de contrôle de

certains paramètres de la production telles que si, au cours d’un échantillonnage fait à

différents intervalles, ces limites sont dépassées, la production doit être temporairement

arrêtée et des correctifs doivent être apportés. Les succès économiques qu’a connus le

Japon après la Deuxième Guerre mondiale sont en bonne partie dus à William Edwards

Deming, un élève de Shewhart, qui a été invité par les chefs d'entreprises japonaises à

enseigner les méthodes qu’il avait mises au point sur le contrôle de qualité. Son influence a

été si importante dans ce pays que le Japon décerne chaque année le prix Deming à une

entreprise pour souligner l’excellence dans le domaine de la qualité.

Le statisticien américain Abraham Wald a proposé le concept d'analyse séquentielle

pour répondre au besoin de méthodes plus efficaces et rapides de contrôle de qualité dans la

production industrielle de guerre. Cette méthode consiste à répéter l’analyse des données

chaque fois qu’une nouvelle observation est recueillie dans l’échantillon.

L’expérimentation ou la production s’arrête lorsque les résultats des analyses sont

concluants. Ces méthodes d’analyse séquentielle ont été perfectionnées au fil des ans et

sont largement utilisées aujourd’hui dans la recherche médicale où, en général, les sujets

sont recrutés progressivement dans le temps pour participer à des études qui ont pour but

d’évaluer l’efficacité de nouveaux traitements. Pour des raisons éthiques, si on s’aperçoit,

en analysant les données séquentiellement, au fur et à mesure qu’elles sont recueillies dans

le temps, que le nouveau traitement est plus efficace que le traitement standard, l’étude sera

Page 13: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

13

alors arrêtée, et tous les sujets qui recevaient le traitement standard pourront recevoir le

nouveau traitement et bénéficier de ses effets.

Un autre domaine important de la statistique inférentielle est l’étude de la fiabilité ou

des durées de vie des matériaux et des biens que nous consommons. Le Suédois Wallodi

Weibull était inventeur et ingénieur-conseil pour de nombreuses sociétés suédoises et

allemandes, dont SAAB. Il s’intéressait au problème de la résistance des matériaux. Il a

ainsi proposé en 1939 une distribution de probabilité qui porte son nom, la distribution de

Weibull, pour l’analyse des durées de vie, telles que la durée de vie des différentes

composantes d’une voiture, d’un ordinateur, etc. Cette distribution a rapidement trouvé des

applications dans de nombreux domaines, notamment les industries automobile,

aérospatiale, électronique, médicale et pharmaceutique.

Toutes ces méthodes statistiques ont par la suite été perfectionnées ou généralisées,

bien souvent par des statisticiens mathématiciens, et de nombreux autres développements

importants ont suivi dans les 40 dernières années, plusieurs d’entre eux étant redevables

aux technologies de l’information et aux capacités toujours plus grandes des ordinateurs.

Ce bref historique des méthodes statistiques à ce jour montre bien comment cette science

s’est développée dans le but de favoriser l’avancement des connaissances dans plusieurs

autres domaines scientifiques, en plus d’aider des entreprises à être plus performantes.

Pour avoir été membre du comité d’évaluation des demandes de subventions en

statistique du Conseil de recherches en sciences naturelles et en génie (CRSNG) du Canada

au cours des trois dernières années, je peux affirmer que la majorité des projets de

recherche proposés en statistique mathématique sont motivés par des problématiques

provenant d’une multitude de domaines, les plus en vogue étant la finance mathématique, la

biostatistique, la statistique génétique, la psychométrie et les méthodes d’exploitation de

grands ensembles de données (data mining).

Page 14: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

14

II. De consultant en statistique à cochercheur dans des équipes

multidisciplinaires de recherche

A. L’expérience de consultation en statistique

Dès la fin de mon baccalauréat en mathématiques avec spécialisation en statistique, j’ai

eu la possibilité de travailler comme consultant auprès des chercheurs à l’Institut de

recherches cliniques de Montréal (IRCM). J’étais affecté au département d’informatique et

de biostatistique. Il y avait une demi-douzaine d’employés dans ce département, soit des

informaticiens, une secrétaire, et moi, seul statisticien de formation et sans expérience,

engagé à temps partiel pour aider des chercheurs expérimentés et reconnus mondialement

pour leurs travaux. Malgré le nom du département, la biostatistique était bien peu

représentée. Le directeur du département avait un doctorat en informatique, et comme

plusieurs bons chercheurs, il avait aussi une connaissance appréciable de la statistique

appliquée pour avoir suivi quelques cours et aidé les chercheurs de l’IRCM dans l’analyse

de leurs données. Mais à cause de ses tâches de gestionnaire du réseau informatique à

l’IRCM et de la demande d’aide plus importante et complexe en statistique, il faisait appel

depuis quelques années à un étudiant des cycles supérieurs en statistique pour accomplir ce

travail. J’avais donc été recruté pour remplacer un doctorant en statistique à l’Université de

Montréal qui effectuait ce travail de consultation depuis quelques années et qui laissait

celui-ci pour se consacrer à plein temps à la rédaction de sa thèse.

La majorité des projets de consultation à l’IRCM que j’ai eu à traiter concernaient

l’analyse de données provenant de devis expérimentaux avec mesures répétées.

Évidemment, je n’avais jamais vu la manière d’analyser ce type de données dans mes cours

de statistique théorique ou même appliquée. La consultation fut donc un excellent moyen

d’apprendre davantage dans mon domaine d’expertise, et d’apprendre vite car le client-

chercheur avait besoin sans tarder de résultats pour écrire son résumé et le soumettre en vue

d’une conférence avant la date limite ou pour motiver une demande de subvention de

recherche. Au moins, avec la formation rigoureuse que j’avais reçue, je possédais les outils

Page 15: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

15

de base nécessaires pour comprendre les articles ou les livres qui traitaient des méthodes

statistiques plus avancées dont j’avais besoin pour analyser les données des différents

projets de consultation.

Un des devis expérimentaux que les chercheurs utilisaient abondamment à l’IRCM, et

qu’ils utilisent sûrement encore d’ailleurs, est le devis à deux facteurs contrôlés dont un

seul, le temps, est à mesures répétées. Par exemple, pour tester l’effet d’un nouveau

médicament sur la pression artérielle, un groupe de souris souffrant d’hypertension est

divisé aléatoirement en deux groupes, à savoir un groupe qui recevra le nouveau

médicament et l’autre groupe qui recevra un placebo. Pour évaluer l’effet du médicament,

on mesure la pression artérielle à des moments déterminés à l’avance par le chercheur,

généralement avant l’injection du médicament et à plusieurs reprises après celle-ci. Une des

particularités de l’analyse des données issues de ces devis est la présence d’une corrélation

entre les mesures répétées pour un même sujet. Même si le chercheur ne s’intéresse pas à

cette corrélation, il doit la prendre en considération dans les analyses statistiques afin

d’obtenir des résultats valides pour évaluer l’efficacité du médicament. En fait, une

préoccupation importante des statisticiens dans l’élaboration et l’application de méthodes

d’analyse de données, est de s’assurer que les données recueillies satisfont aux conditions

d’application des modèles et tests statistiques qui sont utilisés pour répondre aux questions

de recherche. Dans le cas où ces conditions ne sont pas respectées, et cela est plutôt la

norme en pratique, il est essentiel de s’interroger sur la robustesse des modèles et des tests,

et de proposer des ajustements ou des méthodes d’analyse plus appropriées. Notre collègue

Debbie Dupuis nous a fait part dans sa leçon l’an dernier de préoccupations similaires dans

d’autres contextes.

B. La recherche appliquée en statistique motivée par les projets de

consultation

Étant donné la récurrence des projets de consultation à l’IRCM utilisant le devis à deux

facteurs contrôlés dont un est à mesures répétées, j’ai choisi comme sujet de mémoire de

Page 16: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

16

maîtrise l’étude des différentes méthodes statistiques pour analyser les données issues d’un

tel devis ainsi que leurs conditions respectives d’application pour leur validité et leur

robustesse relativement à la violation de ces différentes conditions. La connaissance

approfondie des propriétés (c’est-à-dire des forces et des limites) des méthodes d’analyse

de données utilisées en pratique permet bien souvent de minimiser les erreurs dans

l’interprétation des résultats.

Le sujet de ma thèse de doctorat a également été motivé par des projets de consultation

à l’IRCM. Afin de comparer deux ou plusieurs traitements, il est possible de choisir parmi

un vaste nombre de plans expérimentaux. Les plans croisés font partie de ce nombre, et leur

popularité est sans cesse grandissante, principalement dans la recherche clinique et

pharmaceutique. On les rencontre aussi dans d’autres domaines de recherche, notamment

en marketing. Dans un plan croisé, chaque unité expérimentale reçoit une séquence de

traitements. Ainsi, ce qui distingue les plans croisés des plans expérimentaux plus

conventionnels est que chaque sujet fournit plusieurs mesures pour différents traitements.

Le plan croisé le plus simple est le plan croisé 2 x 2. Dans ce plan, les unités

expérimentales sont affectées au hasard à deux groupes recevant deux traitements, soit A et

B. Un groupe recevra le traitement A en premier, suivi après une certaine période de temps

préétablie du traitement B. L’autre groupe de sujets recevra les traitements dans l’ordre

inverse, soit le traitement B en premier, suivi du traitement A. Un plan croisé peut être

beaucoup plus complexe que le plan à deux traitements, deux périodes et deux séquences.

En effet, il peut avoir plusieurs périodes et séquences pour permettre de comparer plusieurs

traitements. Par exemple, avec trois périodes, il est possible de construire un plan croisé

pour comparer les effets des traitements A, B et C à l’aide des séquences ACB, BAC, CBA,

ABC, BCA et CAB. Il est aisé de constater qu’il existe une multitude de plans croisés

possibles pour comparer un nombre donné de traitements.

L’avantage des plans croisés réside dans le fait qu’ils permettent d’obtenir une

comparaison plus directe de l’efficacité des traitements en utilisant la variabilité intra-sujet,

comparativement à l’utilisation de la variabilité inter-sujet souvent beaucoup plus grande

dans les plans expérimentaux traditionnels où chaque sujet reçoit un seul traitement. Ainsi,

Page 17: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

17

un plus petit nombre de sujets est requis afin de détecter de façon statistiquement

significative une différence entre les effets des traitements à l’étude. De plus, le recours à

plusieurs séquences de traitements permet de faire la distinction entre l’effet de traitement

et l’effet de période. Si tous les sujets recevaient le traitement A à la première période et le

traitement B à la seconde période, la différence entre les effets dus aux deux traitements

serait confondue avec celle entre les effets dus aux deux périodes. Les essais cliniques

concernant l’asthme constituent un exemple où l’effet de période peut s’avérer important. Il

est connu que les conditions climatiques influent sur la gravité des symptômes de l’asthme;

si le premier traitement est donné pendant l’été et le second durant l’automne ou l’hiver, il

est fort probable qu’il y aura des différences entre les mesures des symptômes simplement à

cause d’un changement de saison. L’effet d'apprentissage ou de fatigue au cours de la

passation d’une batterie de tests psychologiques ou de questionnaires représente un autre

exemple où l’on est susceptible de constater des effets nuisibles de période qui peuvent

invalider ou biaiser les résultats si nous les ignorons dans la planification du devis et

l’analyse des résultats.

Bien que le but premier des plans croisés soit de comparer les effets de deux ou

plusieurs traitements, il faut tenir compte d’autres paramètres dans le modèle. Outre l’effet

de période déjà décrit, il est possible qu’un traitement soit encore présent à la période

suivante. Par exemple, les sujets recevant la séquence de traitements AB peuvent, au

moment de recevoir le traitement B à la seconde période, être encore sous l’influence du

premier traitement si ce dernier n’a pu être complètement éliminé après la première

période. Le traitement A aura donc un effet rémanent de premier ordre. Si le plan croisé est

formé de plus de deux périodes, il est aussi possible que certains traitements soient encore

présents pendant plusieurs périodes après qu’ils ont été donnés. Il faudra alors inclure des

effets rémanents d’ordre supérieur dans le modèle. Pour éviter ces effets rémanents, il est

souvent utile de planifier une période de repos entre deux périodes de traitement. Ce n’est

cependant pas toujours possible pour des raisons d'ordre éthique, surtout au cours d’essais

cliniques.

Page 18: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

18

Mes recherches sur les plans croisés suivent les traces de mes travaux à la maîtrise et

consistent essentiellement à étudier les présupposés sous-jacents à la validité de leur

analyse et à suggérer des méthodes plus robustes lorsque les conditions ne sont pas

remplies pour la validité des tests existants. Ainsi, un premier article démontre que la

méthode des moindres carrés ordinaire demeure exacte pour vérifier les hypothèses

d’égalité des effets de traitement et des effets rémanents dans les plans croisés, sous le

présupposé d’une structure de covariance beaucoup plus générale que la structure d’équi-

corrélation ou d’indépendance des observations provenant d’un même sujet (voir

Bellavance et Tardif, 2005). Il y est également démontré que tous les résultats d’optimalité

concernant les plans croisés et qui ont été obtenus sous les présupposés d’indépendance

demeurent valides sous cette nouvelle structure.

Bien que l’inférence statistique concernant les plans croisés soit valide dans une

structure de covariance beaucoup plus générale, il n’en demeure pas moins qu’en pratique il

est fort probable, et même presque certain, que la structure de corrélation présente dans les

données sera tout autre. Deux autres articles comparent et évaluent la robustesse de

différentes approches existantes et nouvelles pour vérifier les hypothèses d’intérêt sous

différentes conditions qui violent les conditions de validité des tests usuels (voir

Bellavance, Tardif et Stephens, 1996; Correa et Bellavance, 2001). Enfin, deux autres

articles proposent une approche non paramétrique, donc robuste quant à la distribution

sous-jacente des observations, pour vérifier les hypothèses concernant les effets rémanents

et les effets de traitement pour certains plans croisés (voir Bellavance et Tardif, 1995;

Tardif, Bellavance et van Eeden, 2005).

C. Le passage de consultant à cochercheur

Parallèlement à mes travaux de recherche sur les plans croisés pour ma thèse, j’ai

poursuivi mon travail de consultant à temps partiel à l’IRCM jusqu’en 1990, puis de 1990 à

1994 à l’Université Simon Fraser (SFU) où j’étais chargé du service de consultation

statistique. Mes clients à la SFU étaient presque exclusivement des étudiants de maîtrise et

Page 19: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

19

de doctorat dans diverses disciplines à l’université, la majorité venant des départements de

biologie et de kinésiologie.

En tant que consultant, notre première rencontre avec le client-chercheur a souvent lieu

après la collecte des données, lorsque le chercheur ne sait trop comment procéder pour les

analyser ou veut être rassuré sur le test statistique à utiliser pour répondre à ses questions de

recherche. De même, j’ai régulièrement constaté des cas où la rencontre arrive après que le

chercheur a reçu les rapports d’évaluation des arbitres à la suite d’une soumission à une

revue avec comité de lecture. Généralement, on réussit à bien s’en tirer et à répondre

adéquatement aux demandes et aux critiques des arbitres, surtout si le chercheur est

expérimenté, si la méthodologie utilisée est rigoureuse et appropriée pour répondre à la

question de recherche et si les données recueillies sont de qualité. Par contre, il arrive

parfois qu’au mieux on puisse répondre à une question de recherche modifiée a posteriori

(ce n’est vraiment pas l’idéal) ou qu’on ne puisse absolument rien faire pour aider à

répondre à la question de recherche étant donné la nature des données collectées. Comme

l’a si bien dit Fisher en 1938, « consulter un statisticien après que l’expérimentation est

terminée revient souvent à demander une autopsie. Le statisticien peut peut-être déterminer

la cause de la mort de l’expérience » (traduction libre). La plus grande satisfaction que j’ai

éprouvée dans mon travail de consultant à la SFU s’est produite lorsque systématiquement,

après une année ou deux en poste, tous les étudiants d’un laboratoire en biologie venaient

me consulter au début avec leur question de recherche pour planifier leur expérience. Le

travail d’éducation avec les étudiants les premières années avait porté des fruits et le mot

s’était passé entre eux dans le laboratoire : « Va voir François avant de procéder à la

collecte de ta première observation »! Lorsqu’ils revenaient me voir quelques mois plus

tard avec leurs données, le travail d’analyse était souvent beaucoup plus facile à faire, en

comparaison des autres projets de consultation; en outre, les résultats obtenus

correspondaient beaucoup plus souvent aux attentes, au point que je me demandais parfois

si je ne faisais pas une erreur, car tout allait trop bien.

En tant que consultant dans les environnements que je viens de décrire, il est plutôt rare

de participer de façon importante à l’écriture des rapports de recherche et des articles

Page 20: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

20

scientifiques. Les rencontres avec le client-chercheur sont peu nombreuses et ponctuelles,

et les interventions se limitent souvent à suggérer au chercheur les analyses appropriées à

faire et à le guider dans l’interprétation des résultats. Dans ces circonstances, le nom du

consultant se retrouve généralement dans les remerciements.

Mes premières publications comme collaborateur apparaissent vers la fin de mon séjour

à l’IRCM et sont le résultat de quelques années de travail avec le docteur Pavel Hamet et

son équipe. Comme je l’ai décrit précédemment, mon rôle en tant que statisticien dans ces

projets était plus important : en plus d’aider à la planification des expériences et de faire les

analyses statistiques, j’ai participé activement à l’écriture des articles.

Avec mon doctorat en poche en 1994, j’ai été engagé comme biostatisticien dans le

département nouvellement créé d’épidémiologie clinique et d’études communautaires au

Centre hospitalier de St. Mary, affilié à l’Université McGill. J’étais aussi professeur adjoint

au département d’épidémiologie et de biostatistique de l’Université McGill. C’est à partir

de ce moment que ma carrière de chercheur-collaborateur dans des équipes de recherche

multidisciplinaire a pris son essor. J’ai apporté ma contribution à de nombreux projets de

recherche, à partir de leur conception dans les demandes de subventions jusqu’à la

supervision des analyses des données, qui sont généralement faites par des professionnels

de recherche avec une formation de deuxième cycle en statistique ou biostatistique, et à

l’écriture des manuscrits. Les chances d’obtenir une subvention de recherche des grands

organismes subventionnaires, comme les Instituts de recherches en santé du Canada, pour

des projets en épidémiologie ou pour les essais cliniques sont presque nulles s’il n’y a

aucun biostatisticien comme cochercheur dans l’équipe de recherche.

On retrouve ce modèle d’équipes de recherche transversale à une plus petite échelle ici,

à HEC Montréal. Un des ateliers stratégiques de l’École, auquel d’ailleurs plusieurs

collègues en méthodes quantitatives participent en formant des équipes de recherche avec

des collègues dans les autres services d’enseignement, favorise la formation de ce type

d’équipe de recherche. La formation de véritables équipes de recherche transversale est à

Page 21: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

21

mon avis un moyen efficace d’augmenter le nombre de publications dans les revues

classées A.

Page 22: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

22

III. La recherche en sécurité routière

Dès mon arrivée à HEC Montréal en 1998, Gilbert Laporte m’a invité à me joindre au

Centre de recherche sur les transports (CRT, maintenant Centre interuniversitaire de

recherche sur les réseaux d’entreprises, la logistique et le transport - CIRRELT), et plus

particulièrement, étant donné mes antécédents, à l’équipe de chercheurs du Laboratoire sur

la sécurité des transports dirigé par la Dre Claire Laberge-Nadeau, médecin et

épidémiologiste attachée au département de médecine sociale et préventive de l’Université

de Montréal. La Dre Laberge-Nadeau et Urs Maag, professeur de statistique au département

de mathématiques et de statistique de l’Université de Montréal, venaient tout juste d’obtenir

une subvention de recherche du Fonds pour la Formation de chercheurs et l’aide à la

recherche (FCAR), du ministère des Transports du Québec (MTQ) et de la Société de

l’assurance automobile du Québec (SAAQ), dans le cadre du programme de recherche

universitaire en sécurité routière, pour étudier l’utilisation du téléphone cellulaire/mobile en

conduisant et le risque d’accident. Avant de vous fournir plus de détails sur cette étude et

sur les défis méthodologiques qu’elle comporte, j’aimerais vous donner un aperçu de la

problématique de la sécurité routière.

A. La problématique de la sécurité routière

Selon l’Organisation mondiale de la santé (OMS), 1,2 million de personnes meurent

chaque année des suites d’un accident routier et 50 millions sont blessées ou handicapées

(voir Toroyan et Peden, 2007). Cela représente plus de 3 000 décès par jour. Les accidents

de la route sont aussi l’une des principales causes de décès, sinon la première cause, chez

les jeunes de 16-24 ans. Beaucoup de progrès ont été accomplis au cours des 30 dernières

années. Ainsi, en 1979, on comptait près de 1 800 décès sur les routes au Québec et un peu

plus de 8 200 blessés graves (SAAQ, 2004). En 2007, le nombre de décès était de 608 et le

nombre de blessés graves, de 2 866 (SAAQ, 2008). Cette importante amélioration du bilan

routier s’est faite malgré une exposition accrue, c’est-à-dire une augmentation importante

du nombre de titulaires de permis de conduire (3,2 millions en 1979, comparativement à 4,9

Page 23: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

23

millions en 2007) et du nombre de véhicules en circulation (2,9 millions en 1979,

comparativement à 5,5 millions en 2007). Plusieurs facteurs ont contribué à cette

diminution, dont les campagnes et les lois contre l’alcool au volant et pour le port

obligatoire de la ceinture de sécurité, l’accès graduel à la conduite pour les nouveaux

conducteurs, la fabrication de voitures plus sécuritaires, les primes différenciées selon le

nombre de points d’inaptitude accumulés ou encore l’aménagement des routes. Certaines

mesures relativement simples, comme le port de la ceinture de sécurité et une forte

sensibilisation de la population aux dangers de l’alcool au volant, ont eu un effet bénéfique

sur le bilan, et ce, assez rapidement. Mais depuis le début des années 2000, le nombre de

décès au Québec varie de 600 à 700 et le nombre de blessés graves, de 3 000 à 4 000. C’est

comme si nous avions atteint un plateau dans ce domaine, et il faudra consentir des efforts

importants pour obtenir de nouveau une amélioration du bilan routier. La vitesse et l’alcool

demeurent les causes d’un très grand nombre de collisions, mais d’autres facteurs, comme

la fatigue, les distractions à l’intérieur et à l’extérieur des véhicules, l’inexpérience et la

prise de risque des nouveaux conducteurs qui sont aussi majoritairement plus jeunes ainsi

que la perte progressive d’autonomie chez les conducteurs plus âgés, constituent des

facteurs de risque non négligeable.

B. L’exemple du téléphone cellulaire au volant et le risque d’accident

Une distraction interne potentielle en conduisant est l’utilisation du téléphone

cellulaire. La première étude épidémiologique importante sur le téléphone cellulaire au

volant et le risque d’accident a été réalisée à Toronto en 1994 et 1995 par le Dr Donald A.

Redelmeier, médecin et épidémiologiste, et Robert J. Tibshirani, un brillant statisticien. Les

résultats de leur étude ont été publiés en 1997 dans la prestigieuse revue The New England

Journal of Medicine. Pour estimer le risque, ils ont utilisé une méthodologie nouvellement

proposée dans la littérature, le devis « cas en chassé-croisé » (voir Maclure, 1991). Cette

méthode d’analyse d’une série de cas a été mise au point pour évaluer l’effet d’une brève

exposition à un facteur de risque transitoire sur la survenue d’un événement rare. Dans ce

cas-ci, l’événement rare est un accident, et le facteur de risque transitoire est une

Page 24: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

24

conversation téléphonique en conduisant. À l’époque de l’étude, la durée moyenne d’un

appel au téléphone cellulaire était de 2,3 minutes, et 76 % des appels avaient une durée de

deux minutes ou moins. Le devis « cas en chassé-croisé » ressemble un peu à un plan croisé

non randomisé avec données rétrospectives. Comme pour les plans croisés, un avantage

important de ce devis est que chaque sujet est utilisé comme son propre contrôle, c’est-à-

dire que les habitudes de conduite d’un individu ne varient pas beaucoup, du moins sur une

courte période de temps, ce qui élimine, ou à tout le moins minimise, la possibilité d’un

biais de sélection.

Les auteurs de l’étude ont donc recruté 699 conducteurs, propriétaires d’un téléphone

cellulaire et qui ont eu un accident avec dommages matériels seulement. Ils ont aussi

obtenu de la part des participants une copie de leurs factures de téléphone cellulaire pour

pouvoir disposer des renseignements concernant les appels faits et reçus le jour de

l’accident et les jours précédents (date, heure et durée des appels ainsi que les appels

d’urgence au 911, par exemple). Le jour de l’accident, 157 conducteurs étaient en

conversation téléphonique dans l’intervalle de 10 minutes avant l’heure de l’accident

inscrite dans le rapport de police, et ces mêmes conducteurs n’avaient pas utilisé leur

téléphone dans la période de contrôle qui correspond à la même période de 10 minutes le

jour précédent. Aussi, 24 conducteurs étaient au téléphone durant la période de contrôle,

mais pas pendant la période de 10 minutes avant l’heure de l’accident. Enfin, 505 des 699

conducteurs de l’échantillon n’ont pas utilisé le téléphone ni dans la période avant l’heure

de l’accident, ni dans la période de contrôle, et les 13 conducteurs restants l’ont utilisé dans

ces deux périodes. Avec ces renseignements, et après avoir effectué un ajustement pour

tenir compte du fait que les conducteurs dans l’échantillon n’étaient pas tous au volant

pendant la période de contrôle le jour précédent, les auteurs estiment que le conducteur a un

risque qui est quatre fois plus grand d’avoir un accident lorsqu’il utilise son téléphone

cellulaire au volant. Ce risque est passablement élevé, et avec la croissance fulgurante du

nombre d’utilisateurs du téléphone cellulaire dans les années 2000, le nombre d’accidents

liés à son usage est susceptible d’avoir un impact important sur le bilan routier.

Page 25: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

25

L’approche méthodologique adoptée dans notre étude sur le téléphone cellulaire est

très différente (voir Laberge-Nadeau et coll., 2003). En bref, nous avons envoyé par la

poste 175 000 questionnaires à des détenteurs de permis de conduire au Québec. Nous

avons reçu plus de 36 000 questionnaires remplis, dont les participants ont accepté que

soient divulgués les renseignements figurant dans leur dossier de conduite de la SAAQ;

dans le cas des quelque 12 000 participants qui possédaient un téléphone cellulaire, ils nous

ont permis d’obtenir les renseignements sur l’utilisation de leur téléphone cellulaire (date,

heure et durée des appels faits et reçus) directement de leur fournisseur de service.

L’analyse des réponses au questionnaire montre que les utilisateurs du téléphone cellulaire

sont plus exposés à avoir une collision tout simplement parce qu’ils sont plus actifs : ils

parcourent en moyenne plus de kilomètres annuellement; ils conduisent plus souvent dans

le cadre de leur travail et le soir après 20 heures; ils ont en moyenne un niveau de scolarité

plus élevé; et ils manipulent plus souvent la radio. En jumelant les données des différentes

sources d’information, et en faisant un ajustement dans notre modèle statistique pour les

différences entre les caractéristiques des utilisateurs et celles des non-utilisateurs du

téléphone cellulaire, nous constatons que les détenteurs d’un permis de conduire qui se

servent d’un téléphone cellulaire courent un risque de 10 % à 20 % plus élevé d’avoir un

accident dans une année que ceux qui n’ont pas de téléphone cellulaire. Nous observons

aussi que le risque augmente avec la fréquence d’utilisation, soit jusqu’à 2,5 fois plus pour

les plus grands utilisateurs du téléphone cellulaire.

Les deux études que je viens de vous décrire montrent qu’il y a un « sur-risque » non

négligeable d’accident lié à l’utilisation du téléphone cellulaire. Il y a par contre une

différence très importante dans l’interprétation des risques dans ces deux études. Dans la

deuxième étude, nous comparons les taux d’accidents de deux groupes de conducteurs,

ceux qui possèdent un téléphone cellulaire et ceux qui n’en ont pas, et nous tentons de faire

un ajustement à l’aide d’un modèle statistique pour les autres caractéristiques qui diffèrent

entre les deux groupes et qui ont un impact sur les taux d’accidents, comme le nombre de

kilomètres parcourus. Nous indiquons alors, après un ajustement qui n’est sûrement pas

parfait, que les utilisateurs ont des taux d’accidents plus élevés que les non-utilisateurs. Il

existe donc un lien significatif, mais pas nécessairement une relation de cause à effet,

Page 26: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

26

malgré que la logique nous porte à le déduire. Dans la première étude avec la méthodologie

« cas en chassé-croisé », nous sommes beaucoup plus près de montrer directement la

relation de cause à effet, puisque nous vérifions si le conducteur était au téléphone juste

avant l’accident. Un de mes anciens étudiants à la maîtrise dans l’option intelligence

d’affaires a montré à l’aide de simulations que cette méthodologie donne des résultats

fiables et sans biais lorsque nous sommes en présence de données très précises, ce qui n’est

pas le cas dans cette étude (voir Bourhattas, 2002). En effet, les données sur l’heure et la

durée de la conversation téléphonique sont exactes, mais l’heure de l’accident dans le

rapport du policier est approximative. Une analyse des données des appels faits au numéro

d’urgence 911 dans notre étude indique que dans 61 % des cas l’heure de début de l’appel

précède l’heure de l’accident dans le rapport du policier. Sachant que les gens qui ont un

téléphone cellulaire font généralement quelques appels immédiatement après l’accident, et

pas nécessairement au service d’urgence en premier lieu lorsqu’il y a seulement des

dommages matériels, il y de fortes chances qu’un certain nombre d’appels faits après

l’accident soient considérés comme ayant été faits juste avant celui-ci, et que cela contribue

à biaiser à la hausse l’estimation du risque. D’un autre côté, la valeur de l’estimation du

risque varie en fonction de la longueur de la fenêtre d’exposition examinée, qui est de 10

minutes dans l’exemple. Plus cette fenêtre est grande et s’éloigne de l’heure de

l’événement, plus l’estimation du risque diminuera. Le choix d’une durée de 10 minutes est

arbitraire ici et dépasse nettement la durée moyenne d’un appel, ce qui peut donc être

envisagé comme un choix conservateur dans le sens où il sous estime le risque réel. Quel

est donc le vrai niveau de risque?

Cet exemple illustre quelques-uns des défis méthodologiques auxquels les chercheurs

sont confrontés dans leurs travaux, et l’attention particulière qu’il faut porter à

l’interprétation et aux limites des résultats. De nombreuses autres études sur le téléphone

cellulaire au volant ont été menées, principalement des expériences contrôlées sur

simulateurs de conduite ou avec des véhicules instrumentés sur route en circuits fermés.

Elles montrent presque toutes que l’utilisation du téléphone en conduisant augmente le

risque d’être impliqué dans un accident, et que ce « sur-risque » est similaire avec un

dispositif mains libres. Bien qu’il soit difficile d’estimer avec précision le risque, les

Page 27: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

27

résultats de toutes les études convergent. C’est pourquoi, dans son premier rapport de

recommandations, publié en juin 20074

4 « Pour améliorer le bilan routier », premier rapport de recommandations de la Table québécoise de la sécurité routière, juin 2007, [En ligne], http://www.securite-routiere.qc.ca/table2007rapport.pdf (Page consultée le 28 février 2009).

, la Table québécoise de la sécurité routière est

« favorable à l'introduction d'une nouvelle législation visant à contrôler l'usage du

téléphone cellulaire au volant » sans égard au dispositif, mains libres ou combiné.

Nous connaissons la suite, seul le combiné est maintenant interdit dans le Code de la

sécurité routière au Québec, laissant sous-entendre que le dispositif mains libres est

sécuritaire. Il y a eu pénurie temporaire de dispositifs mains libres, dans les magasins, dans

les jours qui ont suivi l’entrée en vigueur de la loi. La croyance des législateurs, avec l’aide

du lobby de certains groupes influents, a eu gain de cause sur l’évidence scientifique quant

au risque que représente aussi le dispositif mains libres.

Page 28: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

28

Conclusion

L’histoire de la statistique montre qu’elle est, depuis ses origines, au cœur du

développement et de la gouvernance des États et des organisations. Elle est aussi un outil

indispensable à la découverte de connaissances dans de nombreux domaines scientifiques,

incluant évidemment les sciences administratives.

Dans la préface de son livre, Statistical Methods for Research Workers, Fisher écrit

« La statistique est l’étude de populations, ou d’ensembles d’individus plutôt que

d’individus. Les théories scientifiques concernant les propriétés de grands ensembles

d’individus, et pas nécessairement les caractéristiques des individus eux-mêmes, …, sont

essentiellement des arguments statistiques; et courent le risque d’une interprétation erronée

aussitôt qu’on perd de vue la nature statistique de l’argument. Les méthodes statistiques

sont essentielles aux études sociales, et c’est principalement avec l’aide de ces méthodes

que ces études peuvent être élevées au rang de science. »

J’ai mentionné plus tôt que les grands organismes subventionnaires de la recherche

favorisent la formation d’équipes multidisciplinaires. Un autre exemple est l’annonce, en

janvier dernier, par quatre importants organismes de financement de la recherche, le Joint

Information Systems Committee, du Royaume Uni, le National Endowment for the

Humanities et la Fondation nationale des sciences des États-Unis, et le Conseil de

recherches en sciences humaines du Canada, d’un concours international intitulé « Digging

into Data Challenge » 5

5 Conseil de recherches en sciences humaines du Canada, Quoi de neuf - Communiqué de presse, « D’importants organismes de financement de la recherche annoncent le lancement de Digging into Data Challenge, un nouveau concours international » [En ligne], http://www.sshrc-crsh.gc.ca/site/whatsnew-quoi_neuf/pr-communiques/2009/digging_data-fra.aspx (Page consultée le 16 février 2009).

. Ce concours vise à former des équipes de chercheurs qui « devront

montrer en quoi les outils d’exploration et d’analyse de données actuellement utilisés dans

le domaine des sciences peuvent aider à améliorer la recherche en sciences humaines.

L’objectif du concours consiste à faire en sorte que les projets subventionnés servent

d’exemples dans le domaine … ».

Page 29: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

29

Aujourd’hui nous vivons dans un environnement de plus en plus spécialisé où les

connaissances, ainsi que les problématiques, augmentent tant en volume qu’en complexité.

En général, il y a une forte tendance naturelle chez l’être humain à protéger son territoire, à

engager ou à s’associer avec des gens qui ont une formation similaire, d’où le proverbe bien

connu « qui se ressemble s’assemble ». Nos institutions et nos entreprises ont

majoritairement une structure organisationnelle formée d’entités fonctionnelles

relativement homogènes ce qui rend plus difficile la « transversalité ». Mais pour se

démarquer, pour pousser plus loin les frontières du savoir, ou tout simplement pour être

plus efficace dans la gestion quotidienne des opérations d’une organisation, et trouver des

solutions innovantes, nous avons besoin de regrouper des gens avec des connaissances et

des compétences différentes et complémentaires. C’est pourquoi nous assistons depuis

quelques décennies à l’émergence d’équipes multidisciplinaires où l’expertise en méthodes

quantitatives est de plus en plus sollicitée, et apporte une contribution significative.

J’ai été impliqué dans de nombreux projets multidisciplinaires de recherche jusqu’à

maintenant, plusieurs au cours des dernières années avec des collègues et des étudiants à

HEC Montréal. À mon avis, cela fait partie du rôle d’un professeur de méthodes

quantitatives de collaborer, avec des collègues et des étudiants des autres services

d’enseignement, pour aider à améliorer la qualité et la quantité de recherches produites. Je

souhaite poursuivre ces collaborations, en plus de mes autres projets en sécurité routière et

en statistique, et ainsi contribuer, bien modestement, au cercle vertueux d’une science, la

statistique, qui aide les sciences et les organisations à se développer, et qui à leur tour

expriment de nouvelles problématiques nécessitant la mise au point de nouvelles méthodes

d’analyse.

Page 30: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

30

Bibliographie Bellavance, F. et S. Tardif. « A nonparametric approach for the analysis of three treatment

three-period crossover designs », Biometrika, vol. 82, no

4, 1995, p. 865-875.

Bellavance, F., S. Tardif et M.A. Stephens. « Tests for the analysis of variance of crossover designs with correlated errors », Biometrics, vol. 52, no

2, 1996, p. 607-612.

Bellavance, F. et S. Tardif. « Conditions for the validity of F-ratio tests for treatment and carryover effects in crossover designs », dans Pierre Duchesne et Bruno Rémillard (dir.), Statistical Modeling and Analysis for Complex Data Problems, Springer, 2005, chap. 4, p. 59-73.

Bourhattas, M. Estimation du risque relatif avec le devis cas-chassé-croisé : étude de

simulations pour le cas du téléphone mobile au volant et le risque d’accidents, Mémoire de maîtrise, HEC Montréal, 2002.

Correa, J.A. et F. Bellavance. « Power comparison of robust approximate and nonparametric

tests for the analysis of crossover trials », Statistics in Medicine, vol. 20, 2001, p. 1185-1196.

Fisher, R.A. Statistical Methods for Research Workers, Édimbourg, Oliver & Boyd, 1925. Fisher, R.A. The Genetical Theory of Natural Selection, Oxford, Oxford University Press,

1930. Fisher, R.A. The Design of Experiments, Édimbourg, Oliver & Boyd, 1935. Laberge-Nadeau, C., U. Maag, F. Bellavance, S.D. Lapierre, D. Desjardins, S. Messier et

A. Saïdi. « Wireless telephones and the risk of road crashes », Accident Analysis and Prevention, vol. 35, no

5, 2003, p. 649-660.

Maclure, M. « The case-crossover design : A method for studying transient effects on the risk of acute events », American Journal of Epidemiology, vol. 133, 1991, p. 144-53.

McEvoy, S.P., M.R. Stevenson, A.T. McCartt, M. Woodward, C. Haworth, P. Palamara et

R. Cercarelli. « Role of mobile phones in motor vehicle crashes resulting in hospital attendance : A case-crossover study », British Medical Journal, doi : 10.1136/bmj38537.397512.55 (publié le 12 juillet 2005).

Page 31: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

31

Redelmeier, D.A. et R.J. Tibshirani. « Association between cellular-telephone calls and motor vehicle collisions », New England Journal of Medicine, vol. 336, 1997, p. 453-458.

Toroyan, T. et M. Peden, (Editeurs). Les jeunes et la sécurité routière, Genève,

Organisation mondiale de la Santé, 2007. Société de l’assurance automobile du Québec (SAAQ). Le Bilan 2003 : accidents, parc

automobile et permis de conduire, avril 2004. Société de l’assurance automobile du Québec (SAAQ). Le Bilan 2007 : accidents, parc

automobile et permis de conduire, mai 2008. Student. « The probable error of a mean », Biometrika, no

6, 1908, p. 1-25.

Tardif, S., F. Bellavance et C. van Eeden. « A nonparametric procedure for the analysis of balanced crossover designs », The Canadian Journal of Statistics, vol. 33, no 4, 2005, p. 471-488.

Page 32: La statistique, une science au service de la science et ...biblos.hec.ca/biblio/lecons/Cahier_Bellavance... · Ronald A. Fisher, un des pionniers de la statistique mathématique,

HEC Montréal3000, chemin de la Côte-Sainte-CatherineMontréal (Québec) H3T 2A7

www.hec.ca

100%

HEC Montréal – Campus durable est un mouve-ment qui mobilise l’ensemble de la communauté universitaire autour de trois axes principaux : enseignement, recherche et milieu de vie.

Soucieuse de l’environnement, HEC Montréal privilégie l’utilisation de papier recyclé fabriqué au Québec dans le respect de normes environne-mentales reconnues.