Analyse de la validité prédictive d’une épreuve

265
Analyse de la validité prédictive d’une épreuve standardisée de langue française chez des étudiants locuteurs natifs francophones inscrits dans des programmes de formation en enseignement : le cas du TFLM Mémoire Romain Schmitt Maîtrise en linguistique – didactique des langues Maître ès arts (M.A.) Québec, Canada © Romain Schmitt, 2015

Transcript of Analyse de la validité prédictive d’une épreuve

Page 1: Analyse de la validité prédictive d’une épreuve

Analyse de la validité prédictive d’une épreuve

standardisée de langue française chez des étudiants locuteurs

natifs francophones inscrits dans des programmes de

formation en enseignement : le cas du TFLM

Mémoire

Romain Schmitt

Maîtrise en linguistique – didactique des langues

Maître ès arts (M.A.)

Québec, Canada

© Romain Schmitt, 2015

Page 2: Analyse de la validité prédictive d’une épreuve
Page 3: Analyse de la validité prédictive d’une épreuve

III

RÉSUMÉ

Cette étude analyse la validité prédictive d’un test de langue française aux enjeux

critiques pour les candidats francophones à l’admission dans les programmes de

formation en enseignement (PFE) d’universités francophones canadiennes, ce que peu

d’études ont accompli (Romainville, 1997; Blais, 2001). L’étude de type mixte

convergent en trois phases analyse les données recueillies auprès de 145 sujets à

l’Université Laval, Québec en adoptant la Matrice de Messick (1980) et le modèle des

caractéristiques des tâches (Bachman & Palmer, 1996). L’analyse statistique (régression

multiple, t-test, ANOVA) indique l’incapacité du test à prédire la réussite dans les PFE.

Les résultats complémentaires suggèrent que les scores au test ne sont pas valides pour

placer les étudiants dans les cours correctifs reliés au test. Ces derniers n’aident pas les

étudiants à améliorer leurs performances significativement. La triangulation des données

confirme l’incapacité du test à mesurer les habiletés langagières

académiques/professionnelles requises dans les PFE.

Page 4: Analyse de la validité prédictive d’une épreuve
Page 5: Analyse de la validité prédictive d’une épreuve

V

ABSTRACT

This study investigates the predictive validity of a high-stakes French language

admission test for francophone applicants to four teacher-training programs (TTPs) in

Canadian francophone universities. Few studies have examined the predictive validity of

admission tests measuring candidates’ L1 (Romainville, 1997; Blais, 2001). Adopting

Messick’s Matrix (1980) and Bachman & Palmer’s Model of Task Characteristics (1996),

this study uses a mixed-method convergent approach to data collection and analysis. The

data is gathered from 145 students at Université Laval in three phases. The statistical

analysis of data (multiple regression, paired t-test, ANOVA) indicates that the test does

not predict success in TTPs. Further results suggest that the test scores are not valid for

placing the students in remedial French courses linked to the test. The courses did not

help the students to significantly improve their performance. Data triangulation further

confirms that the test does not measure academic/professional language abilities required

in TTPs.

Page 6: Analyse de la validité prédictive d’une épreuve
Page 7: Analyse de la validité prédictive d’une épreuve

VII

TABLE DES MATIÈRES

Résumé .................................................................................................................. III

Abstract ...................................................................................................................V

Table des matières ................................................................................................ VII

Liste des tableaux .................................................................................................. IX

Liste des figures ..................................................................................................XIII

Annexes ................................................................................................................ XV

Remerciements .................................................................................................. XVII

Note au lecteur ................................................................................................... XIX

INTRODUCTION................................................................................................... 1

CHAPITRE I : PROBLÉMATIQUE ...................................................................... 5

1.1 Historique de la création du TFLM ........................................................... 5

1.2 Contexte spécifique de l’étude ................................................................ 15

1.3 Objectifs et usage du TFLM .................................................................... 20

1.4 Modalités, contenu et tâches ................................................................... 21

1.5 Questions de recherche ............................................................................ 27

CHAPITRE II : CADRE THÉORIQUE ............................................................... 29

2.1 Définition de la validité : Approche traditionnelle .................................. 29

2.2 Évolution historique du concept de validité ............................................ 37

2.3 Le modèle de l’utilité des tests ................................................................ 43

2.4 Le concept de compétence communicative ............................................. 53

2.5 Conception de la validité retenue pour cette recherche ........................... 60

CHAPITRE III : RECENSION DES ÉCRITS ..................................................... 63

3.1 Études de type quantitatif ........................................................................ 64

3.2 Études de type mixte : données quantitatives et qualitatives .................. 77

Page 8: Analyse de la validité prédictive d’une épreuve

VIII

3.3 Conclusions générales ............................................................................. 87

CHAPITRE IV : MÉTHODOLOGIE ................................................................... 91

4.1 Conception de la recherche ..................................................................... 91

4.2 Participants .............................................................................................. 92

4.3 Les instruments de cueillette des données ............................................... 93

4.4 Procédures d’analyse des données .......................................................... 98

CHAPITRE V : PRÉSENTATION DES RÉSULTATS ET DISCUSSION ...... 101

5.1 Analyse des tâches du TFLM par rapport aux tâches des contextes TLU

du contexte ............................................................................................ 102

5.2 Résultats de l’analyse des données quantitatives .................................. 123

5.3 Résultats de l’analyse des données qualitatives .................................... 141

CHAPITRE VI : CONCLUSIONS ET IMPLICATIONS .................................. 155

LISTE DES RÉFÉRENCES ............................................................................... 169

ANNEXES .......................................................................................................... 183

Annexe A ............................................................................................................ 185

Annexe B ............................................................................................................. 187

Annexe C ............................................................................................................. 189

Annexe D ............................................................................................................ 227

Annexe E ............................................................................................................. 233

Annexe F ............................................................................................................. 245

Page 9: Analyse de la validité prédictive d’une épreuve

IX

LISTE DES TABLEAUX

Tableau I.1 Cheminement régulier des étudiants du baccalauréat en

enseignement du français langue seconde, Université

Laval, Québec, automne 2014.

p.19

Tableau I.2 Modalités du TFLM et dispositif selon la note obtenue dans

deux universités québécoises utilisant le test

p.22

Tableau I.3 Contenu du TFLM p.23

Tableau II.1 Facettes de la validité (Messick, 1989, p. 20) p.40

Tableau II.2 Summary of contrasts between past and current

conceptions of validation, Chapelle (1999, p. 258)

p.42

Tableau II.3 Récapitulatif des qualités des tests (modèle de Bachman &

Palmer, 1996) &

p.52

Tableau II.4 Areas of language knowledge, Bachman & Palmer (2010,

p. 45)

p.55

Tableau II.5 Areas of metacognitive strategies use, Bachman & Palmer

(2010, p. 49)

p.55

Tableau IV.1 Données quantitatives recueillies p.96

Tableau IV.2 Données statistiques analysées et codage p.99

Tableau V.1 Analyse comparée des buts, des tâches du TFLM, des cours

du programme du BEFLS (TLU1), des cours de mise à

niveau FRN-1902, FRN-1903 et FRN-1904 (TLU2),

p.104

Page 10: Analyse de la validité prédictive d’une épreuve

X

Université Laval, hiver 2014, et des tâches du contexte de

la profession enseignante (TLU3)

Tableau V.2 Tableau V.2 : Analyse comparée des composantes de la

composante langagière des tâches du TFLM, des cours du

programme du BEFLS ((TLU1), des cours de mise à

niveau FRN-1902, FRN-1903 et FRN-1904, Université

Laval, hiver 2014 (TLU2), et des tâches du contexte de la

profession enseignante (TLU3).

p.107

Tableau V.3 Analyse comparée des caractéristiques des tâches du

TFLM, des cours du programme du BEFLS (TLU1), des

cours de mise à niveau FRN-1902, FRN-1903 et FRN-1904

Université Laval, hiver 2014 (TLU2), et des tâches du

contexte de la profession enseignante (TLU3)

p.108

Tableau V.4 Corrélation scores TFLM et GPA finale, tous sujets

confondus (ANOVA)

p.124

Tableau V.5 Corrélation scores TFLM et GPA finale, tous sujets

confondus (récapitulatif des modèles)

p.124

Tableau V.6 Corrélation scores TFLM et GPA finale, tous sujets

confondus (coefficients)

p.125

Tableau V.7 Corrélation scores TFLM et GPA finale pour les sujets du

groupe HIGH (ANOVA)

p. 125

Tableau V.8 Corrélation scores TFLM et GPA finale pour les sujets du

groupe MID (ANOVA)

p.126

Page 11: Analyse de la validité prédictive d’une épreuve

XI

Tableau V.9 Corrélation scores TFLM et GPA finale pour les sujets du

groupe LOW (ANOVA)

p. 126

Tableau V.10 Corrélation entre la GPA après cours de mise à niveau 2 et

GPA finale, groupe LOW (ANOVA)

p.130

Tableau V.11 Corrélation entre la GPA après cours de mise à niveau 2 et

GPA finale, groupe LOW (récapitulatif des modèles)

p.130

Tableau V.12 Corrélation entre la GPA après cours de mise à niveau 2 et

GPA finale, groupe LOW (coefficients)

p.131

Tableau V.13 Corrélation entre la GPA après cours de mise à niveau 2 et

GPA finale (ANOVA)

p.131

Tableau V.14 Corrélation entre la GPA après cours de mise à niveau 2 et

GPA finale (récapitulatif des modèles)

p.132

Tableau V.15 Corrélation entre la GPA après cours de mise à niveau 2 et

GPA finale (coefficients)

p.132

Tableau V.16 Statistiques des échantillons appariés étudiants des groupes

LOW et MID

p.134

Tableau V.17 Test des échantillons appariés étudiants des groupes LOW

et MID

p.134

Tableau V.18 Test des échantillons appariés étudiants des groupes LOW

et MID

p.135

Tableau V.19 Différences entre moyennes transitoires (après session 1)

entre les 3 groupes LOW, MID et HIGH (ANOVA)

p.136

Tableau V.20 Analyse comparative multiple, GPA transitoires (session 1) p.137

Page 12: Analyse de la validité prédictive d’une épreuve

XII

et GPA finale, tous les groupes

Tableau V.21 Test de l’effet interne, GPA transitoires (session 1) et GPA

finale, tous les groupes

p.137

Tableau V.22 Différences entre GPA finales, tous les groupes (ANOVA) p.138

Tableau V.23 Analyse comparative multiple, GPA, tous les groupes p.138

Tableau V.24 Statistiques des échantillons appariés, tous les groupes,

GPA transitoire après session 1et GPA finale

p.139

Tableau V.25 Test des échantillons appariés, tous les groupes, GPA

transitoire après session 1 et GPA finale

p.140

Tableau V.26 Réponses des répondants au sujet du contenu du TFLM et

de son impact

p.143

Tableau V.27 Perceptions de la compétence en français des répondants p.144

Tableau V.28 Opinion des répondants relative aux mécanismes

d’admission dans les programmes de formation en

enseignement (test d’admission et cours correctifs de

français)

p.150

Page 13: Analyse de la validité prédictive d’une épreuve

XIII

LISTE DES FIGURES

Figure 2.1 L’utilité des tests (Bachman & Palmer, 1996, p. 18) p.43

Figure 2.2 Fidélité (Bachman & Palmer, 1996, p. 20) p.45

Figure 2.3 Authenticité (Bachman & Palmer, 1996. p. 23) p.47

Figure 2.4 Interactivité (Bachman & Palmer, 1996, p. 26) p.49

Figure 2.5 Impact (Bachman & Palmer, 1996, p. 30) p.51

Figure 2.6 Faisabilité (Bachman & Palmer, 1996, p. 36) p.51

Page 14: Analyse de la validité prédictive d’une épreuve
Page 15: Analyse de la validité prédictive d’une épreuve

XV

ANNEXES

Annexe A Conditions d’admission au baccalauréat en enseignement du

FLS, Université Laval, A-2013

p.185

Annexe B Composition (maquette) des cours obligatoires et optionnels

du baccalauréat en enseignement du FLS, Université Laval,

A-2013

p.187

Annexe C Plans de cours des cours de mise à niveau (FRN-1902, FRN-

1903, FRN-1904), Université Laval, automne 2013

p.189

Annexe D Questionnaire présenté aux étudiants sous forme

électronique

p.227

Annexe E Réponses aux questionnaires p.233

Annexe F Questions composant l’entrevue avec un des concepteurs du

TFLM

p.245

Page 16: Analyse de la validité prédictive d’une épreuve
Page 17: Analyse de la validité prédictive d’une épreuve

XVII

REMERCIEMENTS

Je tiens à remercier tout particulièrement ma directrice de recherche, la

Professeure Shahrzad Saif pour ses judicieux conseils, sa ténacité, son expertise, et

surtout, sa disponibilité. Thank you for all these « impromptu » meetings, thank you for

always being available, thank you for the tips, thank you for keeping high standards in

everything you do and thank you for believing in this project, sometimes more than

myself!

Un remerciement tout particulier au professeur Mohammad Rahimi, de

l’Université du Québec à Montréal, qui a énormément contribué à ce mémoire en

vérifiant toutes les données et opérations statistiques. Merci aussi à Aurélien Nicosi, du

service de consultation statistique de l’Université Laval, pour ses conseils et suggestions.

Merci aussi aux professeures Sabrina Priego et Sonia El Euch pour leur apport en

tant que membres du jury, pour leur regard neuf et leurs conseils toujours pertinents.

Merci à vous, ma famille en Europe qui, de loin, avez toujours soutenu ce travail

de longue haleine.

Finalement, merci à mon épouse, Meghan, et à nos enfants, Thomas, Charlotte et

Emily. Meghan, merci pour tes encouragements ; Tom, Charlie et Em, merci pour vos

sourires, vos jeux et vos bêtises : ils m’ont énormément aidé!

Page 18: Analyse de la validité prédictive d’une épreuve
Page 19: Analyse de la validité prédictive d’une épreuve

XIX

NOTE AU LECTEUR

Il a été décidé, dans le cadre de la rédaction de ce mémoire, de conserver toutes les

citations, figures et tableaux dans leur langue d’origine, soit l’anglais.

Page 20: Analyse de la validité prédictive d’une épreuve
Page 21: Analyse de la validité prédictive d’une épreuve

1

INTRODUCTION

Depuis le milieu des années 1980, au Canada (et partout dans les pays

industrialisés), l’accès aux études postsecondaires a connu une augmentation

impressionnante. Dans un document rédigé par la Conférence des Recteurs et des

Principaux des Universités du Québec1 (CRÉPUQ, aujourd’hui appelée le Bureau de

Coopération Interuniversitaire, ou BCI) en 2006, l’accès aux études universitaires en

particulier a été favorisé et le nombre d’étudiants admis dans les universités québécoises

a explosé : en vingt ans, soit de 1985 à 2005, le nombre de diplômés universitaires (tous

cycles confondus) au Québec seulement a augmenté de plus de 45%. Cette forte

augmentation du nombre de diplômés, si elle a de quoi réjouir la société en général à

cause des répercussions qu’elle a sur la population (plus compétente, plus instruite, mieux

rémunérée, plus productive, etc.) est accompagnée de problématiques importantes pour

les institutions d’enseignement supérieur. Un afflux important d’étudiants dans les

universités exige plus de ressources, plus d’enseignants, plus d’infrastructures, plus de

personnel de soutien, bref, plus d’argent. Étant donné les ressources limitées en termes de

budget, de temps ou de ressources humaines, en particulier académiques, cette équation,

c’est-à-dire plus d’étudiants pour autant de ressources, a fait naître dans les universités le

besoin d’un système de sélection pour différents programmes afin d’optimiser les

ressources disponibles et donner de meilleures chances aux étudiants admis de réussir

dans les programmes choisis. Ce processus de sélection peut prendre différentes formes :

on trouve des processus de sélection « sur dossier » qui permettent aux candidats

1 http://www.crepuq.qc.ca/img/pdf/indicateurs-2.pdf

Page 22: Analyse de la validité prédictive d’une épreuve

2

d’accéder au programme de leur choix simplement à partir des notes qu’ils ont obtenues à

la fin de leurs études pré-universitaires ou selon une mesure uniforme chez tous les

candidats d’une région ou d’un système scolaire (la cote de rendement scolaire, ou cote

R, au Québec, par exemple, les résultats au Canadian Aptitude Test dans le reste du

Canada ou le Scholastic Assessment Test aux États-Unis). On observe aussi des

sélections par entrevues qui s’ajoutent à l’examen du dossier du candidat afin de

départager ceux qui auraient pu présenter des résultats similaires. Enfin, l’utilisation de

tests ou d’épreuves d’admission est aussi une pratique très répandue, car facilitante et

« objective » : l’idée est d’évaluer tous les candidats dans les mêmes conditions et se

baser sur le résultat à une même épreuve, censée les placer sur un pied d’égalité.

Les types de tests utilisés dans les procédures d’admission sont très variés : tests

de culture générale, comme c’est le cas en Belgique, par exemple (Romainville, 1997),

tests psychométriques, ou encore tests de langue, seconde ou première (Elder, 1993). De

ces tests langagiers, il revient de distinguer deux sous-catégories : les tests censés être

ancrés dans la réalité du domaine, c’est-à-dire qui reflètent, d’une façon ou d’une autre,

les éléments langagiers nécessaires à la réussite dans le domaine choisi par le candidat.

On parle alors de langue à objectif spécifique (Language for Specific Purposes, ou LSP)

ou des tests de compétence langagière plus générale. Ces derniers ont pour objectif de

poser un diagnostic sur les compétences linguistiques ou langagières générales des

candidats et pouvoir, le cas échéant, les aiguiller au mieux vers des cours ou des

formations supplémentaires afin de les accompagner dans leur cheminement et les aider à

obtenir leur diplôme.

Page 23: Analyse de la validité prédictive d’une épreuve

3

Si le choix du type d’évaluation peut parfois être discutable, le principe même de

tenter d’évaluer le potentiel des candidats à connaitre le réussite dans un programme

donné s’appuie sur des écrits théoriques solides et qui ont fait l’objet d’une attention

particulière par de nombreux chercheurs, que ce soit en psychologie (Cronbach & Meehl,

1955), en éducation (Messick, 1980) ou en évaluation des langues (Bachman, 1990 ;

Chapelle, 1999). Le concept clé de validité est au cœur des discussions depuis près de 60

ans et, dans notre cas, la validité prédictive, une des composantes du concept unifié de la

validité (concept qui sera défini dans notre cadre théorique) prend une place de choix

dans les préoccupations des responsables d’établissements d’enseignement. Il s’agit donc

de prédire, à travers un test choisi, le potentiel de réussite des candidats à partir du

résultat obtenu au test sélectionné comme critère d’admission. Ce pouvoir prédictif peut

être analysé de différentes manières et l’a d’ailleurs été pour de nombreux tests

standardisés, tels que le Test of English as a Foreign Language (TOEFL), le First

Certificate in English (FCE) ou le International English Language Testing System

(IELTS), et ce, dans de nombreux contextes (pays, candidats, objectifs). Comme nous le

verrons en détail au cours de cette étude, les recherches entreprises afin d’évaluer le

pouvoir prédictif de ces tests ont donné des résultats mitigés. Il est donc nécessaire de

pousser encore dans cette voie afin d’arriver à des conclusions plus significatives et plus

tranchées.

Au Québec, les directions de nombreux programmes universitaires ont opté pour

un test de compétence langagière dans leur processus d’admission. On assiste alors à un

double processus : une première sélection sur dossier (cote R ou autre) suivie d’un test

diagnostique pour évaluer les compétences langagières des candidats à suivre les cours

Page 24: Analyse de la validité prédictive d’une épreuve

4

offerts tout au long de la formation (avec des mécanismes de mise à niveau, au besoin).

Parmi ces programmes, ceux de formation initiale à l’enseignement, tous niveaux

confondus (primaire, secondaire ou autre), ont mis en place des exigences d’admission

qui incluent une épreuve de français pour tous les nouveaux admis.

Au Québec, les programmes de formation à l’enseignement sont des programmes

universitaires de quatre années qui connaissent énormément de succès auprès des

diplômés collégiaux et des personnes désireuses de réorienter leur carrière.

L’enseignement apparait comme un milieu riche, épanouissant et qui permet une certaine

liberté d’action (en plus d’une sécurité d’emploi relative). Cet engouement pour la

profession, au départ très encourageant, a vite montré ses limites : certains candidats ne

semblaient pas posséder le niveau de compétence langagière requis pour enseigner dans

les écoles de la province, mais il n’existait pas de test utilisable à des fins de sélection de

candidats à l’entrée des programmes d’enseignement. C’est pour cela qu’au début des

années 1990, les directions de différentes universités du Québec ont décidé d’instaurer

une réelle politique concernant l’usage du français2. Cette politique a alors posé les

premiers jalons d’une épreuve de compétence langagière comme test d’admission dans

les universités québécoises francophones à l’entrée de nombreux programmes, dont ceux

de formation à l’enseignement. De ces universités, deux universités majeures,

l’Université Laval et l’Université de Montréal, ont choisi de construire leur propre test :

le Test de Français Laval Montréal (TFLM). L’objectif de la présente recherche est de

déterminer dans quelle mesure le TFLM peut prédire la réussite académique des étudiants

inscrits dans quatre programmes de formation initiale en enseignement.

2 Dispositions relatives à l’application de la politique sur l’usage du français à l’Université Laval,

http://www.ulaval.ca/sg/reg/Politiques/Dispositions_relatives_application_Politique.pdf

Page 25: Analyse de la validité prédictive d’une épreuve

5

CHAPITRE I : PROBLÉMATIQUE

Dans ce chapitre, nous décrirons le contexte général dans lequel s’inscrit notre

recherche en plus d’éléments contextuels justifiant le choix d’entreprendre une telle

étude. Nous commencerons par décrire en détail les raisons qui ont conduit à la création

du TFLM, sa genèse et dans quelle optique il a été créé. Ensuite, nous verrons que

l’utilisation du TFLM est censée répondre à des besoins spécifiques pour les programmes

qui nous intéressent, c’est-à-dire les programmes de formation en enseignement au

Québec. Finalement, nous présenterons nos questions de recherche, questions qui

devraient en principe permettre de trouver des preuves concrètes qui permettraient de

prendre des décisions éclairées et améliorer la situation actuelle.

1.1 Historique de la création du TFLM

Afin d’obtenir des précisions sur la genèse du TFLM et le contexte dans lequel

cette genèse s’est faite, nous avons eu l’occasion de discuter avec des acteurs clés

appartenant au milieu, soit certains enseignants des programmes visés, les administrateurs

des programmes, ainsi qu’un des concepteurs du TFLM, avec qui une entrevue a été

conduite (annexe F). Le but de cette entrevue était d’obtenir des renseignements d’ordre

général sur la genèse du TFLM, les personnes qui ont participé à sa conception, les buts

qu’il était censé atteindre et les raisons qui ont poussé les administrateurs des facultés

concernées à poser un tel geste. L’entrevue s’est déroulée de manière informelle, les

réponses recueillies n’ont pas été codées et n’ont servi qu’à situer le TFLM dans son

contexte. Les renseignements suivants nous ont donc été fournis par une personne

impliquée dans la conception du TFLM ainsi que sa mise en œuvre dès les premiers

moments.

Page 26: Analyse de la validité prédictive d’une épreuve

6

Au début et au milieu des années 1990, et selon leurs dires, certains responsables

de plusieurs facultés et programmes universitaires au Québec ont réalisé que le niveau de

compétence langagière et linguistique de beaucoup de nouveaux admis tendait à

diminuer. Cette question de la qualité de la langue chez les candidats à l’admission à des

programmes universitaires était aussi au centre des préoccupations du ministère de

l’Éducation de l’époque (MEQ, aujourd’hui ministère de l’Éducation, du Loisir et du

Sport, MELS) et l’institution gouvernementale a tenté d’y répondre par la création et

l’application de l’Épreuve Uniforme de Français (EUF) à la fin des niveaux secondaire

(MELS, 1994) et collégial (MELS, 1996). Ces épreuves, en particulier l’épreuve

sanctionnant le niveau collégial, étaient destinées principalement à assurer un niveau

minimal de connaissance de la langue française chez les candidats universitaires.

Malheureusement, au vu des enseignants et des responsables de plusieurs facultés à

travers la province du Québec, elles ne semblaient pas en mesure de remplir la mission

qui était la sienne et des moyens alternatifs donc ont été mis en place par différentes

facultés des universités québécoises. Deux de ces universités, l’Université Laval et

l’Université de Montréal, ont décidé de créer un outil destiné à vérifier le niveau de

compétence chez les nouveaux admis de programmes variés : le Test de Français Laval

Montréal.

Le Test de Français Laval Montréal (TFLM) est le fruit d’une collaboration

étroite entre divers spécialistes de l’Université Laval et de l’Université de Montréal. Le

mandat de la création du TFLM avait été donné à la faculté des Lettres de l’Université

Laval. Le comité de conception responsable du contenu du TFLM était composé de

personnes de diverses spécialisations (grammairiens, didacticiens, responsables de

Page 27: Analyse de la validité prédictive d’une épreuve

7

formation pratique, professeurs, chargés de cours) des deux universités, ainsi que de la

responsable de la vérification psychométrique et statistique des évaluations à l’Université

de Montréal. Un premier exemplaire du test a donc été conçu dans lequel chaque item

était considéré comme matrice et point de départ pour d’autres énoncés subséquents. La

tâche a alors été donnée à des chargés de cours, principalement de l’École des Langues de

l’Université Laval (anciennement École des langues vivantes) de produire des énoncés

similaires à chaque énoncé matrice déterminé par le comité de conception responsable du

contenu3. Par la suite, les différentes versions du test (sept en tout, dont une a été égarée

depuis) ont été mises à l’épreuve par des volontaires « cobayes » payés. Des

comparaisons et corrélations statistiques par item ont été effectuées entre les différentes

versions. Les participants cobayes ont aussi dû rédiger un texte structuré de type « essai »

afin de vérifier la fidélité entre les notes obtenues au test et la compétence langagière en

production écrite des candidats.

Le TFLM et sa mise en œuvre adhèrent aux principes mis de l’avant, quelques

années après sa mise en place, lors des États généraux de la langue française au Québec

(2001) qui mettaient l’accent sur l’urgence de poser des balises claires afin d’améliorer la

qualité de la langue parlée et écrite au Québec. Un des mémoires, déposé par

l’Association Québécoise des Professeures et Professeurs de Français (AQPF) lors de

cette assemblée générale, insistait sur la nécessité de placer la qualité de la langue

française au premier plan de la formation des maîtres. La partie concernant la formation

initiale des maîtres commence d’ailleurs de la façon suivante :

3 Ces informations nous ont été données par un des concepteurs du TFLM lors d’entrevues réalisées entre

2012 et 2014, voir annexe F.

Page 28: Analyse de la validité prédictive d’une épreuve

8

Nous réaffirmons haut et fort l’obligation absolue, pour toutes celles et

ceux qui œuvrent en éducation, d’avoir acquis une excellente maîtrise du

français ; elles et ils doivent être des modèles, au quotidien, d’une langue

de qualité, d’une langue qui respecte la norme du français québécois.

(AQPF, 2001, p. 21)

Cependant, cette citation, bien que claire dans son objectif, est immédiatement

suivie par les mots suivants, par les mêmes auteurs : « Encore faudra-t-il cependant que

quelqu’un définisse un jour cette norme et en fixe les principales balises » (2001, p. 21).

Nous nous retrouvons donc devant une situation délicate : la langue est mise de

l’avant par les acteurs principaux du monde de l’éducation, les enseignants, mais eux-

mêmes avouent qu’ils ne sont pas en mesure de déterminer l’objet visé. En d’autres

termes, les enseignants recommandent la mise en place de procédures destinées à

améliorer la qualité de la langue française chez les enseignants en fonction ou en

formation mais n’offrent aucun point de repère, balise ou objectif à atteindre qui

pourraient aider d’abord à déterminer puis à atteindre cette norme linguistique. À noter

qu’il s’agit ici d’évaluer et d’améliorer la compétence langagière de locuteurs natifs

puisque la très grande majorité des candidats à l’admission des programmes de formation

en enseignement dans le contexte visé est francophone. Il s’agit donc pour les universités,

dans ce contexte, de mesurer premièrement la compétence langagière de locuteurs natifs

du français et deuxièmement de déterminer les caractéristiques spécifiques de la langue

dont les enseignants ont besoin pour exceller dans leur profession.

Pour répondre à cette double nécessité, l’Université Laval et l’Université de

Montréal ont mis au point le TFLM. Il faut souligner cependant que la dimension

spécifique de la langue nécessaire aux enseignants n’a pas été considérée pendant le

processus de création. En effet, le TFLM reste un test de compétence langagière générale

Page 29: Analyse de la validité prédictive d’une épreuve

9

qui ne touche pas à des éléments que l’on pourrait définir comme spécifiques à la

profession enseignante. À partir de ce constat, il s’agirait donc d’effectuer une évaluation

des besoins langagiers (needs assessment) des enseignants dans l’exercice de leurs

fonctions pour pouvoir fournir des éléments de réponse. De nombreux auteurs ont tenté

de définir cette langue spécifique aux enseignants (Paquay, 1998, 2004 ; Wegener-Soled,

1995) mais jusqu’à présent, ces tentatives et les suggestions qu’elles renfermaient n’ont

soit pas été entendues, soit ont été simplement ignorées. Le problème de la qualité de la

langue attendue chez les enseignants reste donc sans réponse pour le moment, ce qui

ouvre certes de nombreuses perspectives de recherche dans le domaine.

Outre la maîtrise de la langue française, les auteurs du mémoire de l’AQPF

mettent de l’avant deux autres aspects importants qui devraient faire partie de la

procédure d’admission aux programmes de formation en enseignement. Ainsi, on peut

lire :

Le profil d’entrée à l’université devrait être clairement défini et on devrait

s’assurer de l’état de la maîtrise de la langue des candidats et candidates

ainsi que de leur niveau de culture générale. On devrait aussi s’assurer

qu’ils et qu’elles possèdent les qualités personnelles nécessaires pour

remplir leur fonction adéquatement. (2001, p. 22)

Cette triple recommandation de l’association québécoise des professeurs de

français, soit la langue, la culture et les qualités personnelles, est bien entendu très

difficile à appliquer. Les exigences avancées par l’AQPF nécessiteraient une étude

complète et détaillée des besoins linguistiques, culturels et psychologiques nécessaires

aux enseignants dans l’exercice de leurs fonctions. Si le premier volet, comme nous

l’avons vu, reste encore à déterminer, les deux suivants, soit la culture générale et les

qualités personnelles, soulèvent encore plus de questions. Quels aspects de la culture

Page 30: Analyse de la validité prédictive d’une épreuve

10

générale s’attend-on à retrouver chez un enseignant? Quelles qualités personnelles est-on

en droit d’exiger chez ce dernier? Le mémoire ne répond aucunement à ces deux

questions, et il semble, à la vue des exigences d’admission des programmes de formation

à l’enseignement, qu’elles aient été complètement et simplement abandonnées par les

universités. En effet, au contraire d’autres programmes (médecine4, par exemple), les

programmes de formation initiale en enseignement ne disposent pas (ou plus, pour être

précis) de dispositif d’entrevues ou de questionnaires censés mesurer, de quelque façon

que ce soit, les qualités personnelles ou interpersonnelles des candidats. En fait, les

directions des programmes en enseignement de la faculté des Sciences de l’éducation de

l’Université Laval avaient tenté, à la fin des années 1990, d’implanter un dispositif basé

sur des entrevues et des mises en situation à des fins d’admission dans leurs programmes.

Ce dispositif, appelé l’Appréciation Par Simulation (APS, Alem, 2003) a cependant vite

été abandonné à cause des contraintes de temps et des difficultés à développer un système

fiable de sélection à partir d’outils dont la validité aurait été démontrée.

En ce qui concerne la culture générale, exigence mentionnée par l’Association

Québécoise des Professeurs de Français pendant les États généraux de la langue au

Québec (2001), aucun indice n’est formulé dans le mémoire, même de manière vague, sur

le niveau de culture générale attendu, ni d’ailleurs sur les éléments qui composent la

culture générale attendue chez les enseignants du Québec. Le mémoire, donc, n’apporte

aucune précision sur aucun des éléments ni aucune des recommandations qu’il avance, ni

sur la qualité de la langue visée, ni sur les qualités personnelles des enseignants, ni sur

leur culture générale attendue. De plus, le rapport n’offre pas de pistes claires, que ce soit

4 http://www.fmed.ulaval.ca/site_fac/fileadmin/doc/faculte/publication/rapport/Rafmed_2007-2008.pdf

page 20

Page 31: Analyse de la validité prédictive d’une épreuve

11

en ce qui concerne les aspects linguistiques censés être nécessaires à la profession

enseignante ou les aspects culturels que l’on devrait s’attendre à retrouver chez les

enseignants québécois. Cependant, lors de la conception du TFLM, les concepteurs se

sont penchés sur les éléments qu’on s’attendrait à retrouver chez les futurs enseignants et

ont décidé d’inclure dans les items langagiers une certaine dimension culturelle présente

principalement dans les items relevant de la connaissance des expressions idiomatiques

de la langue française5. L’idée derrière cette manœuvre était qu’une connaissance

approfondie des expressions figées et du vocabulaire pouvait être considérée comme un

indice relativement concret et observable d’une certaine culture générale chez les

candidats. Cette orientation nous a été confirmée par un des concepteurs du TFLM lors

d’une entrevue accordée dans le cadre de la recherche présentée ici (annexe F).

À noter que, depuis 2001, le MELS s’est doté d’un document de référence relatif à

la formation des enseignants et au développement professionnel des compétences

professionnelles des enseignants en exercice. Le document en question catalogue douze

compétences professionnelles que tout enseignant en poste doit maîtriser. Ces

compétences professionnelles, classées en quatre groupes (fondements, acte d’enseigner,

contexte scolaire et social et identité professionnelle) sont conçues pour toucher à tous les

aspects du travail des enseignants au Québec aujourd’hui, leur savoir, leurs savoir-faire et

leurs savoir-être, et constituent la base même de la formation des enseignants, toutes

disciplines confondues. De ces douze compétences, deux semblent faire écho aux

recommandations faites par l’AQPF la même année, soit les compétences

5 Cette information nous a été donnée lors d’une entrevue avec un des concepteurs du TFLM en 2013.

Page 32: Analyse de la validité prédictive d’une épreuve

12

professionnelles une et deux, qui composent à elles-seules la première partie du

référentiel, soit la partie « fondements » :

Compétence 1 : Agir en tant que professionnelle ou professionnel héritier,

critique et interprète d’objets de savoirs ou de culture dans l’exercice de

ses fonctions.

Compétence 2 : Communiquer clairement et correctement dans la langue

d’enseignement, à l’oral et à l’écrit, dans les divers contextes liés à la

profession enseignante. (MELS, 2001, p. 59)

La compétence 1 réfère à la capacité des enseignants professionnels à intégrer la

culture, en plus des savoirs disciplinaires, dans leur préparation de cours, mais aussi de

leur attitude vis-à-vis la culture en général. Il est donc établi que l’enseignant doit se

poser en modèle et posséder une culture disciplinaire et interdisciplinaire, faire preuve de

curiosité par rapport à la culture de l’autre et être en mesure de gérer les relations

interculturelles que génèrent les milieux pluriethniques de l’école québécoise.

La compétence 2, elle, tente d’établir la norme qualitative de la langue attendue

chez les enseignants de l’école québécoise dans toutes les dimensions de la sphère

professionnelle, c’est-à-dire dans la classe, dans les contacts avec les élèves, les parents,

les collègues, les membres de l’équipe pédagogique, etc., mais aussi de démontrer des

qualités oratoires lors de ses contacts avec les acteurs du monde de l’éducation.

L’expression n’est pas restreinte à l’écrit et le volet oral de la communication est aussi

abordé de manière précise et explicite (voir le libellé de la compétence ci-dessus).

Par l’élaboration de ce document référentiel, le Ministère s’est doté d’un outil

clair et indispensable, tant pour la formation des futurs enseignants que dans le cadre du

développement professionnel des enseignants en exercice. En effet, pour chacune des

compétences exposées dans le référentiel du MELS, les auteurs (chercheurs, didacticiens

Page 33: Analyse de la validité prédictive d’une épreuve

13

et enseignants) explicitent les composantes et sous-parties qui la composent. Pour

chacune de ces composantes, de nombreuses références scientifiques sont données et des

explications claires accompagnent le libellé de chaque composante. De plus, pour

chacune des compétences du référentiel, le profil de sortie à la fin de la formation est

présenté de manière brève et précise afin que les objectifs soient facilement compris et

évalués de manière objective par les responsables de formation dans les universités.

Grâce à ce document, nous pourrons comparer les tâches du TFLM aux compétences

professionnelles attendues chez les enseignants et établir dans quelle mesure elles

concordent.

Au vu de tous les éléments cités ci-dessus, il est nécessaire de déterminer si le

TFLM pourrait remplir la triple mission énoncée par l’AQPF tout en étant en mesure

d’évaluer les compétences établies par le MELS. Une analyse détaillée des tâches du

TFLM et des tâches du contexte enseignant (basées sur le référentiel du MELS, 2001) est

exposée dans la partie consacrée à la présentation des résultats (chapitre V). Nous verrons

alors si le TFLM a sa place comme partie intégrante du processus d’admission des deux

grandes universités francophones québécoises qui l’utilisent dans le but d’améliorer la

qualité de langue de ses diplômés.

S’il est clair qu’un des mandats du TFLM et des mécanismes de cours d’appoint

est d’améliorer le niveau de langue de tous les étudiants admis dans les programmes,

dont les enseignants en formation, l’épreuve pourrait aussi revêtir un deuxième rôle. En

effet, il faut savoir que depuis la réforme des programmes de formation en enseignement

instiguée par le Ministère de l’éducation du Québec (MEQ, aujourd’hui Ministère de

l’éducation, des loisirs et des sports, ou MELS) en 1994, les étudiants des programmes de

Page 34: Analyse de la validité prédictive d’une épreuve

14

formation à l’enseignement doivent effectuer un nombre précis d’heures de stage

pratique, soit sept-cents heures minimum (MELS, Comité conseil sur la formation du

personnel enseignant, 2006). Cette expérience pratique de terrain exige une organisation

administrative lourde pour les facultés impliquées (Sciences de l’Éducation ou Lettres,

selon les spécialités) et mobilise énormément de ressources humaines et financières. Cet

investissement requiert donc un processus de sélection plus rigoureux visant à recruter

uniquement les meilleurs candidats, car les sommes dépensées dans l’organisation des

stages ne peuvent être justifiées que lorsque les étudiants obtiennent leur diplôme après

avoir connu un succès relatif tout au long de leur formation. À cause de cet aspect

financier lié aux stages, il faut que le test d’admission, le TFLM, puisse revêtir un

caractère prédictif, c’est-à-dire que les administrateurs des facultés responsables des

programmes de formation en enseignement doivent être en mesure de prédire le potentiel

de réussite des futurs étudiants au cours de leur cheminement universitaire menant au

diplôme du baccalauréat à partir des résultats qu’ils ont obtenus au TFLM.

On comprend dès lors que l’outil TFLM est d’une importance cruciale pour les

directions des facultés chargées d’administrer les programmes de formation à

l’enseignement. On peut donc se demander pourquoi, malgré ce constat et depuis sa

création, qui date maintenant d’une vingtaine d’années, aucune étude du TFLM, et encore

moins de sa validité prédictive (predictive validity), n’a été effectuée. Pourtant, la validité

prédictive des tests d’admission, en particulier lorsqu’il s’agit de tests à enjeux élevés,

comme dans notre contexte, est chose courante dans la littérature scientifique et

spécialisée (nous expliciterons cet aspect dans notre recension des écrits, chapitre III).

Cette lacune scientifique justifie donc à elle-seule le désir de procéder à l’étude entreprise

Page 35: Analyse de la validité prédictive d’une épreuve

15

ici car, dans le contexte mentionné, il est primordial de s’assurer de la qualité intrinsèque

du test d’une part, mais plus important encore, de s’assurer de la solidité du jugement

porté par le test sur les compétences langagières qu’il évalue (ou est censé évaluer).

Comme il a été mentionné auparavant, les enjeux du test peuvent se révéler extrêmement

importants, tant pour les participants que pour la société en général. Nous parlons ici de la

formation et de la titularisation des futurs enseignants et donc du futur de nos écoles, de

nos enfants.

1.2 Contexte spécifique de l’étude

La présente étude a pour cadre l’Université Laval, au Québec. L’Université Laval

est la première université francophone du Québec. Cette université, située à Québec, la

capitale de la province du Québec, est la plus ancienne université francophone en

Amérique du Nord. Elle offre plus de 392 programmes d’études à quelque 44,000

étudiants inscrits dans 17 facultés. Elle emploie plus de 2500 professeurs et chargés de

cours et est très présente dans le monde avec plus de 600 ententes avec 443 universités

situées dans 64 pays6.

Les programmes qui nous intéressent, les programmes de formation initiale à

l’enseignement (baccalauréats) qui mènent à l’obtention du brevet en enseignement

délivré par le ministère de l’Éducation, sont au nombre de 10, sous la responsabilité de

deux facultés. La faculté des Sciences de l’éducation est responsable des baccalauréats en

enseignement de l’éducation sportive et de la santé, en enseignement du préscolaire et

primaire, en enseignement professionnel et technique, en enseignement français langue

d’enseignement (ou langue première), en enseignement des mathématiques, des sciences

6 http://www2.ulaval.ca/notre-universite.html

Page 36: Analyse de la validité prédictive d’une épreuve

16

et des technologies, en enseignement de l’univers social (volet histoire et géographie), en

enseignement de l’univers social et du développement personnel (volet histoire éthique et

culture religieuse), alors que la faculté des Lettres est responsable entre autres des

programmes de formation en enseignement du français langue seconde et de l’anglais

langue seconde. Dans ces programmes de quatre ans et de 120 crédits universitaires, une

partie des crédits est allouée à des cours disciplinaires obligatoires, une autre à des cours

optionnels disciplinaires, une troisième à des cours optionnels hors-discipline, et une

dernière partie est allouée à des stages pratiques en milieu d’enseignement. L’annexe B

illustre la composition d’un des programmes en question, le baccalauréat en

enseignement du français langue seconde, tel qu’il était offert à l’Université Laval à

l’automne 2013.

À noter que ce programme représente bien tous les programmes de formation en

enseignement du Québec tels qu’ils sont structurés dans les universités francophones. En

effet, tous les programmes de formation initiale en enseignement doivent respecter un

cahier des charges bien précis et dicté par le Comité d’Agrément des Programmes de

Formation en Enseignement (CAPFE). Ce cahier des charges, disponible sur le site du

CAPFE7, décrit tous les détails et exigences faites aux universités quant à la structure des

programmes de formation en enseignement. On peut donc dire avec assurance que tous

les programmes de formation initiale en enseignement dans les universités francophones

québécoises sont similaires dans leur organisation et leur structure, car elles doivent

toutes respecter le cahier des charges dicté par le CAPFE.

7 http://www.capfe.gouv.qc.ca/

Page 37: Analyse de la validité prédictive d’une épreuve

17

De plus, on peut considérer les étudiants des programmes de formation en

enseignement de l’Université Laval comme étant un échantillon représentatif de la

majorité des étudiants en éducation du Québec de par leur profil. En effet, le profil des

candidats montre une certaine homogénéité en ce qui touche le nombre de nouveaux

admis, leur origine (Cégep, étudiants provenant d’autres programmes de l’université,

candidats d’autres universités, candidats étrangers, candidats « adultes » (candidats

retournant aux études suite à une interruption de leurs études) ou de provenance mixte,

leur cote de rendement collégial (aussi appelée cote R), leur âge et leur sexe, comme il est

possible de lire dans le rapport d’état des lieux du programme en enseignement du

français langue seconde de 2011. À noter que la grande majorité des étudiants concernés

par le TFLM dans les programmes de formation en enseignement sont francophones ou

considérés comme tels. Si l’on devait dessiner un portrait général de l’étudiant en

enseignements au Québec aujourd’hui, nous aboutirions à l’image suivante : une

étudiante francophone âgée de 22 à 26 ans, dont l’inscription à un programme de

formation en enseignement est la première inscription à l’université et qui a reçu des

résultats satisfaisants pendant ses études collégiales avec une cote R située autour de 23.

À l’Université Laval, le TFLM est donc utilisé comme un test diagnostique

intégré au processus d’admission, c’est-à-dire que tous les étudiants désirant entrer dans

un programme de formation à l’enseignement sont obligés de le passer et que des cours

de mise à niveau leur sont imposés selon leurs résultats (voir annexe A, extrait des

exigences d’admission aux programmes de formation en enseignement, tiré du site Web

de l’université). Bien qu’un échec au test ne ferme pas les portes du programme aux

étudiants qui l’ont échoué, le TFLM n’en demeure pas moins un test à grands enjeux car,

Page 38: Analyse de la validité prédictive d’une épreuve

18

selon leur résultat, les participants devront rallonger leur cheminement universitaire de

une à deux sessions (selon les cas) en prenant des cours de mise à niveau obligatoires, ce

qui engendrera des coûts supplémentaires pour ces étudiants en plus de rallonger leur

cheminement.

Page 39: Analyse de la validité prédictive d’une épreuve

19

Tableau I.1 : Cheminement régulier des étudiants du baccalauréat en enseignement du français

langue seconde, Université Laval, Québec, automne 2014.

Date approximative

(à titre d’exemple)

Étapes du cheminement Numéro de session

Mars 2009 Demande d’admission Processus

d’admission

Avril – mai 2009 Offre d’admission

Mai 2009 Acceptation de l’offre par l’étudiant : session « répertoire » = première session d’inscription au programme

(ex : Automne 2009 = septembre 2009)

Août 2009

Passation du TFLM

Juste avant session

1

Dans les 24

premiers mois

suivant l’admission

sous peine

d’exclusion du

programme

(jusqu’à septembre

2011)

Résultat TFLM = 75% ou + : aucun

cours de mise à niveau nécessaire ;

cheminement « normal » (4 ans,

120 crédits)

Résultat TFLM = 60 à 75% : 1

cours de mise à niveau obligatoire

ET non contributoire

(cheminement alourdi : 120 crédits

+ 3 crédits de mise à niveau)

Résultat TFLM = 60% ou

moins : 2 cours de mise à

niveau obligatoires ET non

contributoires (cheminement

alourdi : 120 crédits + 6 crédits

de mise à niveau)

Session 1 à 4

Après réussite aux

cours de mise à

niveau éventuels

(septembre 2011 à

avril 2013)

Passation du TECFÉE : exigence

de diplomation ET obligatoire

avant de faire le stage III

Passation du TECFÉE : exigence

de diplomation ET obligatoire

avant de faire le stage III

Passation du TECFÉE :

exigence de diplomation ET

obligatoire avant de faire le

stage III

Session 5 à 8

Avril 2013 Diplomation Diplomation Diplomation Fin de

cheminement

(session 8)

Septembre 2013 Brevet du MELS et entrée sur le

marché du travail

Brevet du MELS et entrée sur le

marché du travail

Brevet du MELS et entrée sur

le marché du travail

Page 40: Analyse de la validité prédictive d’une épreuve

20

1.3 Objectifs et usage du TFLM

Le TFLM est une épreuve diagnostique de connaissance linguistique utilisée dans

le processus d’admission par de nombreux programmes de formation universitaire, dont

les programmes de formation initiale en enseignement. Tous les candidats à l’admission

dans un de ces programmes dans les deux universités québécoises qui utilisent le TFLM,

soient l’Université Laval et l’Université de Montréal (et ses établissements affiliés),

doivent s’y soumettre (voir annexe A pour les détails relatifs aux procédures de passation

du test stipulées dans les conditions d’admission de l’Université Laval, Québec). Dans les

programmes de formation initiale en enseignement de l’Université Laval, par exemple,

les étudiants doivent suivre un, deux, ou aucun cours de mise à niveau en français selon

leurs résultats au TFLM (voir tableau I.1, page 19, pour un aperçu du cheminement

régulier de tous les étudiants de ces programmes dans cette université). Dans le contexte

des programmes de formation initiale en enseignement, le TFLM a deux buts déclarés :

premièrement, sélectionner les meilleurs candidats et leur permettre de poursuivre le

cheminement régulier, et deuxièmement, diagnostiquer le niveau de français des

candidats les plus faibles, leur imposer des cours « correctifs », soit de mise à niveau,

selon leurs résultats, dans l’optique d’aider ces candidats moins performants à améliorer

leur compétence langagière et ainsi être en mesure de suivre et réussir les cours du

programme visé en plus de les préparer au Test de Certification en Français Écrit pour

l’Enseignement (TECFÉE) que tous les enseignants du Québec doivent réussir avant

d’obtenir leur brevet d’enseignement, décerné par le MELS.

Dans la partie suivante, nous présenterons les modalités matérielles, logistiques

ainsi que des exemples du contenu des tâches du TFLM.

Page 41: Analyse de la validité prédictive d’une épreuve

21

1.4 Modalités, contenu et tâches

Dans les lignes qui suivent, nous décrirons brièvement les modalités, le contenu et

les tâches du TFLM. Tous les renseignements qui suivent ont été recueillis dans les

documents officiels des universités concernées ou proviennent de documents internes

auxquels le chercheur a eu accès. Un des concepteurs du TFLM a aussi apporté

énormément, notamment en fournissant des exemples concrets d’items qui constituent le

TFLM (voir annexe F).

Les candidats au TFLM disposent de 90 minutes pour compléter l’épreuve. Aucun

document de référence (dictionnaire, Bescherelle, grammaire française) n’est autorisé

pendant l’épreuve.

Pour la plupart des programmes qui utilisent le TFLM, la note de passage est de

60%. Dans certains programmes de formation en enseignement à l’Université Laval, la

note de passage au test est de 75% (enseignement du français langue seconde ou

maternelle, éducation physique, musique, enseignement secondaire ou enseignement

préscolaire et primaire). Certaines différences sont apparues au cours des années afin de

refléter l’usage que les futurs enseignants devront faire de la langue. C’est pour cela, par

exemple, que la note de passage pour le baccalauréat en enseignement de l’anglais langue

seconde a été revue à la baisse (60%).

Page 42: Analyse de la validité prédictive d’une épreuve

22

Tableau I.2 : Modalités du TFLM et dispositif selon la note obtenue dans deux universités

québécoises utilisant le test

Éléments du TFLM Université Laval Université de Montréal

Nombre d’items du TFLM

65 66

Temps alloué pour le test

90 minutes 90 minutes

Note de passage 60% pour la majorité des programmes ;

75% pour les programmes de formation à

l’enseignement, sauf le baccalauréat en

enseignement de l’anglais langue

seconde.

60%, tous programmes

confondus

Dispositif si échec (pour les

programmes en enseignement)

Note obtenue comprise entre 60% et

74% : 1 cours correctif non contributoire

à réussir ;

Note obtenue inférieure ou égale à 59% :

2 cours correctifs de français non

contributoires à réussir.

Note obtenue inférieure ou

égale à 59% : 1 cours

correctif de français non

contributoire à réussir

À l’Université Laval, le test est composé de 65 questions à choix multiples. Il y en

a 66 à l’université de Montréal. Cette différence s’explique par le désir de l’Université

Laval d’éliminer les questions soulevées par certains résultats très proches de la note de

passage selon le nombre de réponses correctes et après la conversion en pourcentage. En

effet, si un candidat obtient un résultat de 39 réponses correctes sur 66, sa note sera de

59,05%, ce qui paraissait aux administrateurs du test un résultat trop proche de la note de

passage pour prendre une décision sans équivoque. En réduisant le test d’un item, le

problème disparait (39 réponses correctes sur 65 se convertit en 60%, donc la note de

Page 43: Analyse de la validité prédictive d’une épreuve

23

passage, alors qu’un résultat de 38 sur 65 devient 58,5%, moins sujet à discussion ou

réclamation de la part des candidats)8.

Chaque item est composé d’une question à choix multiple pour lequel le candidat

doit, selon la consigne, identifier l’énoncé correct ou l’énoncé incorrect. De plus, outre

les quatre choix de réponse offerts, chaque choix de réponses est complété par une

cinquième option (réponse E) qui stipule soit que tous les énoncés sont corrects, soit

qu’ils sont tous erronés.

Dans les deux universités qui l’utilisent, le contenu du test est divisé comme suit :

Tableau I.3 : Contenu du TFLM

Partie de l’épreuve Exemple de question

Contenu du test (note : dans une des

parties du TFLM à

l’Université de Montréal, il y a une

question de plus. Il

a été cependant impossible de

savoir laquelle).

Orthographe lexicale (orthographe et homonymes)

4 questions

Ex : Rayez l’énoncé incorrect :

A : Je marche rapidement.

B : Le chien aboie méchament. C : Mes parents m’encouragent allègrement.

D : Tu parles trop vite.

E : Tous les énoncés sont corrects.

Orthographe grammaticale (accord de

l’adjectif, accord des mots quelque, tout,

même et tel, accord du verbe et du participe passé)

24 questions

Rayez l’énoncé incorrect :

A : Marie a envoyé des fleurs à sa mère.

B : Les amis à qui Jean a parlés l’ont rappelé. C : les amis à qui Marie a parlé l’ont rappelée.

D : Mon chien a dévoré la perruche du voisin.

E : Tous les énoncés sont corrects.

Morphologie

(genre et pluriel de certains noms, conjugaison)

5 questions

Rayez l’énoncé incorrect :

A : Le loup hurle à la lune. B : Les amis de Jean lui envoyent des souhaits chaque année.

C : Je regrette, mais cela ne sera pas possible.

D : Vous connaissez cette personne? E : Tous les énoncés sont corrects.

Syntaxe

(emploi des auxiliaires, des modes et des

temps, emploi du pronom relatif et de la conjonction de subordination,

structure de la phrase, négation et

interrogation, ponctuation) 13 questions

Rayez l’énoncé incorrect :

A : Je suis monté à l’étage.

B : J’ai monté la télévision à l’étage. C : J’ai descendu à la cave.

D : J’ai descendu les escaliers.

E : Tous les énoncés sont corrects.

Vocabulaire

(anglicismes, mots-liens, emploi de la préposition,

connaissance du vocabulaire)

19 questions

Rayez l’énoncé incorrect :

A : Le chanteur a un rhume ; cependant, il a annulé son spectacle.

B : Le chanteur a un rhume ; il a malgré cela annulé son

spectacle. C : Le chanteur a un rhume ; il a donc annulé son spectacle.

D : Le chanteur a un rhume ; nonobstant, il a annulé son

spectacle. E : Tous les énoncés sont corrects.

8 Ces informations nous ont été confiées par un des concepteurs du TFLM lors d’entrevues réalisées entre

2012 et 2014.

Page 44: Analyse de la validité prédictive d’une épreuve

24

Dans les programmes de formation en enseignement des deux universités

concernées, la passation du TFLM doit se faire obligatoirement dans les vingt-quatre

mois qui suivent l’admission au programme (voir tableau I.1, page 19, pour une vue

d’ensemble du cheminement général des étudiants en enseignement). La plupart du

temps, cette passation a lieu avant la première session d’études afin de permettre à

l’étudiant d’ajuster son cheminement selon les résultats obtenus au test. En effet, comme

le tableau I.1 le montre bien, après leur passation du TFLM, les étudiants des

baccalauréats en enseignement se retrouvent dans trois catégories : dans la première se

trouvent les étudiants qui ont réussi le test avec un score supérieur à 75%. Pour ceux-là,

le cheminement reste inchangé et ils peuvent poursuivre leurs études selon le plan

original. La deuxième catégorie est composée des étudiants qui n’ont pas échoué le test à

proprement parler, mais qui n’ont pas obtenu le niveau seuil de 75% : ils ont donc obtenu

une note située entre 60% et 74%. Ces étudiants devront ajouter un cours non

contributoire à leur cheminement (soit le cours de français correctif FRN-1904 à

l’Université Laval) dans les 24 mois suivant leur admission au programme. À noter ici

que ce cours supplémentaire force les étudiants à parfois rallonger leur cheminement

d’une session et occasionne ainsi des dépenses supplémentaires en termes de frais de

scolarité, de crédits universitaires, d’ouvrages de référence, etc. Le troisième et dernier

cas de figure concerne les étudiants qui ont échoué le TFLM, c’est-à-dire ceux qui ont

obtenu une note inférieure ou égale à 59%. Ceux-là se voient imposer deux cours de mise

à niveaux en français, toujours avec l’obligation de les réussir dans les 24 mois suivant

leur admission, rallongeant d’autant plus leur cheminement et augmentant leurs dépenses.

Page 45: Analyse de la validité prédictive d’une épreuve

25

À noter qu’à l’Université de Montréal, la note de passage est fixée à 60% et que

les cours de mise à niveau ne s’adressent qu’aux étudiants qui n’ont pas atteint cette note

minimale. À l’Université Laval, le niveau considéré comme minimal est 75% dans les

programmes de formation en enseignement puisque les candidats qui obtiennent entre 60

et 74% doivent suivre un cours de mise à niveau.

Les questions qui composent le TFLM portent uniquement sur le code

linguistique. Les habiletés langagières orales ou écrites ne sont pas évaluées. Les

candidats ne doivent pas non plus prouver leur capacité d’analyse de texte, de

compréhension de l’information, de reformulation, d’organisation ni aucune compétence

reliée au discours, oral ou écrit. En fait, le TFLM est basé sur les acquis grammaticaux,

lexicaux et morphosyntaxiques que devrait posséder un élève titulaire de son diplôme

d’études secondaires du programme de l’école québécoise à l’époque de la conception du

TFLM (1990-1994). Ces objectifs ont été déterminés en prenant comme références les

contenus du programme de l’école québécoise au niveau secondaire en français langue

maternelle ainsi que plusieurs ouvrages de français langue maternelle utilisés dans les

écoles secondaires de la province à cette époque. Ainsi, les besoins langagiers particuliers

des diverses filières professionnelles auxquelles les formations visées correspondent, que

ce soit l’ingénierie, l’enseignement ou la médecine, n’ont pas été prises en compte lors de

la conception du TFLM. Aucune procédure d’évaluation des besoins langagiers

(language needs assessment) des étudiants dans les programmes de formation en

enseignement n’a été effectuée avant la conception du TFLM. Donc, au pire, les éléments

linguistiques incorporés au TFLM ont été choisis au hasard, et au mieux, les meilleures

estimations ont été retenues. Le contenu du TFLM ne correspond donc à aucun usage

Page 46: Analyse de la validité prédictive d’une épreuve

26

particulier de la langue cible (Target Language Use, ou TLU ci-après, Bachman, 1990)

ou à une langue à objectif spécifique (language for specific purposes, ci-après LSP).

Les tâches qui composent le TFLM ont été basées sur les acquis antérieurs

attendus chez étudiants qui postulent à l’entrée dans les programmes visés. Donc, et il est

important de le noter, le TFLM évalue seulement la compétence linguistique attendue au

début du cheminement des étudiants. Nonobstant ce constat, le fait que le test soit utilisé

comme test d’admission pour les programmes de formation initiale en enseignement, qui

constituent le contexte de notre étude, signifie que trois dimensions supplémentaires

devraient être reflétées dans les tâches qui composent le TFLM : d’une part, les contenus

linguistiques présents dans les contenus des cours qui composent les programmes qui

l’utilisent comme test d’admission devraient être évalués, car c’est bien de cet usage de la

langue dans un contexte particulier dont il est question pour les étudiants concernés ;

d’autre part, le test devrait correspondre aux exigences linguistiques de la profession

enseignante, dans une moindre mesure, peut-être, puisque le TECFÉE est censé

sanctionner cette compétence spécifique, mais l’usage de la langue cible dans son

contexte professionnel devrait tout de même constituer une partie significative de

l’épreuve d’admission utilisée pour les programmes de formation en enseignement.

Il est donc important d’examiner les contenus linguistiques des cours des

programmes de formation à l’enseignement et de les confronter aux tâches du TFLM,

puis il revient d’analyser et de définir les besoins langagiers de la tâche des enseignants

en exercice et de les comparer au contenu langagier présent dans les tâches qui

composent le TFLM. Finalement, étant donné les mécanismes mis en place et qui font

suite au TFLM selon les résultats obtenus pour chacun des candidats (cours de mise à

Page 47: Analyse de la validité prédictive d’une épreuve

27

niveau), il convient d’examiner les contenus de chacun de ces cours et de les comparer

aux tâches du TFLM. Cette quadruple analyse est décrite en détail dans le chapitre IV

(méthodologie) et les résultats sont présentés dans le chapitre V (présentation des

résultats et discussion).

1.5 Questions de recherche

Le but de la présente recherche est d’analyser la validité prédictive du TFLM

l’utilité réelle des mécanismes qui découlent des résultats au TFLM dans le contexte des

universités francophones québécoises afin de vérifier la pertinence de son utilisation

comme test d’admission à des programmes de formation en enseignement. En plus de ces

deux éléments, nous tenterons d’établir les perceptions qu’ont les étudiants au sujet du

TFLM. Afin d’atteindre ces objectifs, l’étude devra apporter des éléments de réponse

significatifs aux questions de recherche suivantes :

1. Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un

baccalauréat en enseignement dans les universités francophones du Québec?

2. Les cours de mise à niveau ont-ils un impact significatif sur la réussite des

étudiants obligés de les suivre selon le résultat obtenu au TFLM?

3. Comment les participants perçoivent-ils le TFLM et les cours de mise à

niveau?

Dans les prochains chapitres, nous présentons tout d’abord les théories sous-

jacentes à notre étude. Par la suite, nous décrivons un certain nombre d’études passées

qui traitent de la validité prédictive dans des contextes variés. Par la suite, nous

présentons la méthodologie de cette étude, puis les résultats obtenus par le biais de cette

méthodologie, lesquels résultats sont discutés immédiatement après. Finalement, nous

Page 48: Analyse de la validité prédictive d’une épreuve

28

apportons nos conclusions et établissons les limites de notre recherche. Le prochain

chapitre sera donc entièrement consacré à des explications théoriques et conceptuelles en

lien avec le domaine de l’évaluation des langues.

Page 49: Analyse de la validité prédictive d’une épreuve

29

CHAPITRE II : CADRE THÉORIQUE

L’objet d’étude de la présente recherche, soit la validité prédictive du TFLM, nous

amène à utiliser deux concepts particuliers expliqués dans deux cadres conceptuels

distincts, soit la théorie de la validité, premièrement, et le modèle de compétence

communicative, deuxièmement. Le concept de validité sera décortiqué et ses différentes

facettes expliquées tour à tour. Puis, l’évolution du concept au cours des cinquante

dernières années sera décrite. Ensuite, nous pourrons restreindre le concept de la validité

à son utilisation en évaluation des langues et définir la conception de la validité retenue

pour cette recherche au regard des écrits les plus récents. Cette définition nous amènera à

décrire plusieurs concepts supplémentaires importants et directement reliés à la

conception choisie, soit l’utilisation de la langue cible (Target Language Use (TLU)

context) ainsi que l’utilité des tests (test usefulness). Ces considérations théoriques nous

permettront de justifier la conception de validité retenue pour cette étude. Ensuite, nous

aborderons la théorie de la compétence communicative et décrirons plusieurs modèles

pour finalement spécifier celui que nous utiliserons afin de jeter la lumière sur les

éléments de compétence langagière générale mesurés par le TFLM par rapport aux

éléments qui devraient être mesurés par le biais d’un tel test.

2.1 Définition de la validité : Approche traditionnelle

Dans les Standards for Educational and Psychological Testing (ci-après,

Standards), le concept de la validité est défini de la manière suivante : « Validity refers to

the degree to which evidence and theory support the interpretations of test scores entailed

by proposed uses of tests. » (1999, p. 9). Cette définition renferme de nombreux éléments

importants qui seront définis et explicités dans les paragraphes suivants, mais à la lecture

Page 50: Analyse de la validité prédictive d’une épreuve

30

de cette dernière, on peut d’ores et déjà comprendre que la validité n’est pas un concept

simple ou unidimensionnel. Il faut donc se pencher en détail sur ce concept afin d’en

saisir toutes les dimensions. De plus, il est indiqué dans les Standards (p. 9) que la

validité est « the most fundamental consideration in developing and evaluating tests »,

soit l’aspect le plus important à prendre en considération lors de la conception d’un test et

qu’elle reste centrale dans tout processus d’évaluation de test.

L’idée avancée dans la définition fournie dans les Standards est qu’un certain

nombre de preuves liées à des aspects théoriques clairs soutiennent la justesse des

décisions prises sur la base des résultats à un test donné dans un contexte spécifique.

Dans la littérature spécialisée, que ce soit en mesure et évaluation psychologiques

(Cronbach & Meehl, 1955) ou langagières (Brown, 1983) (car le concept de validité est

applicable à tous les types de test, pas seulement les tests langagiers), on considère trois

types de preuves majeures et observables dans le processus de validation d’un test : les

preuves liées au(x) construit(s) du test (construct validity), les preuves liées au contenu

du test (content validity) et enfin les preuves liées à un critère externe au test (criterion-

related validity). Bien qu’elles aient évolué depuis, ce sont les conceptions traditionnelles

de ces trois types de preuves, formant ensemble une conception tripartite de la validité,

qui seront présentées à présent.

La validité de construit (ou conceptuelle, ou théorique) constitue un aspect

prépondérant dans la définition du concept. Il s’agit littéralement de la base du processus

de validation de tout test. Cronbach et Meehl (1955) définissent un construit comme un

attribut, une caractéristique, que l’on peut retrouver chez une personne et que le test est

censé mettre en relief. Messick (1975), de son côté, le définit selon les termes suivants :

Page 51: Analyse de la validité prédictive d’une épreuve

31

« A measure [that] estimates how much of something an individual displays or possesses.

The basic question [in construct validation] is: What is the nature of that something? » (p.

957, crochets ajoutés). Selon ces deux définitions, la validité de construit réfère donc à la

relation entre la manifestation opérationnelle d’un comportement et les concepts

théoriques sous-jacents à la manifestation du comportement. Sous cette définition

complexe se cache en fait un principe relativement simple : les traits, compétences,

habiletés ou connaissances recherchées (appelés généralement comportements) et

sollicités dans un test donné ne sont malheureusement pas toujours directement

observables, contrairement à d’autres qualités ou traits d’une personne et il n’est possible

de les déceler (et ainsi de les évaluer) qu’en provoquant leur mise en action par le biais de

tâches spécifiquement conçues dans cette optique. C’est donc en opérationnalisant les

théories qui déterminent ces comportements qu’il est possible de les évaluer. En d’autres

termes, pour être capable de mesurer un construit, il faut, par le biais d’une tâche

spécifique, faire en sorte que le sujet (participant) soit forcé d’utiliser ce construit. Le

degré de réussite à la tâche devrait ainsi permettre aux évaluateurs de mesurer

précisément la présence (ou l’absence) du construit ciblé. Pour imager les traits

mesurables ou non mesurables, pensons à un individu quelconque. Il est facile de mesurer

ou observer sa taille, son poids, sa pointure ou la couleur de ses yeux, mais il est

beaucoup plus difficile de mesurer son intelligence, son émotivité, son empathie, car ce

ne sont pas des qualités observables. Il s’agit donc de concevoir des tâches censées

permettre l’opérationnalisation de l’intelligence et donc sa mise en évidence mesurable.

En évaluation des langues, afin de mesurer la compétence de production orale, par

exemple, la tâche proposée dans le test doit provoquer les manifestations de la production

Page 52: Analyse de la validité prédictive d’une épreuve

32

orale, qui peuvent se diviser en une multitude d’indices (ou évidences) et qui attesteront

de la présence et du degré de compétence chez le sujet évalué en production orale. Il est

néanmoins important de souligner que les résultats au test devraient en principe donner

les informations nécessaires (et uniquement les informations nécessaires) à une mesure

juste et efficace.

À noter que la validité de construit est tributaire d’une multitude de variantes et

qu’elle doit être considérée en contexte. La validité de construit doit donc être évaluée en

tenant compte de toutes les caractéristiques qui entourent le test, soit les participants,

l’environnement, le but du test, les décisions qui seront prises à partir des résultats, etc.

Ces aspects seront repris et développés dans les pages suivantes, dans la partie décrivant

l’évolution du concept de validité. À noter aussi que cette conception tripartite de la

validité place la validité de construit au même rang que les deux autres types de validité,

soit la validité de contenu et la validité critérielle, définies tour à tour dans les lignes qui

suivent.

La validité de contenu (content validity), soit le deuxième type de validité dans

cette conception trichotomique, correspond au degré de représentativité des items du test

par rapport à la teneur des tâches visées dans le domaine visé par les tâches du test

(Bachman, 1990). Bachman (1990) distingue deux sous-catégories de validité de contenu,

soit la pertinence de contenu (content relevance) et la couverture de contenu (content

coverage).

La pertinence de contenu relève de la correspondance entre les items du test et les

tâches correspondant au domaine TLU dans lequel s’inscrit le test analysé. Messick

(1980) établit que l’étude de la pertinence de contenu exige « the specification of the

Page 53: Analyse de la validité prédictive d’une épreuve

33

behavioral domain in question and the attendant specification of the task or test domain »

(p. 1017). Pour étudier la pertinence de contenu, il faut donc circonscrire les éléments

nécessaires à l’accomplissement de la (ou les) tâche(s) qui correspondent au TLU visé.

Ceci signifie que les tâches d’un test doivent forcément correspondre à un certain

contexte, et donc qu’un test ne peut pas forcément être utilisé dans tous les contextes.

La couverture de contenu, elle, réfère au degré de représentativité des tâches

demandées : les tâches peuvent correspondre au domaine visé de manière suffisante, ce

qui est attendu, ou elles peuvent être sous- ou surreprésentées par les items du test. Dans

les deux derniers cas de figure, le test souffrira d’un manque de validité de contenu car

les tâches ne seront pas assez représentatives du domaine visé (Bachman, 1990). Par

exemple, un test censé évaluer les compétences d’un comptable devrait être constitué

d’un échantillon des tâches qu’un comptable aura à effectuer dans sa future profession.

Un examen pour les futurs pilotes devrait placer les candidats dans une situation plausible

pour un pilote, etc. Un test dont les items n’auraient que peu de lien avec les tâches

réelles souffrirait d’une validité de contenu faible, ce qui poserait alors de graves

questions sur l’usage qui en est fait dans un contexte spécifique. Dans le domaine de

l’évaluation des langues, il est d’autant plus difficile de définir complètement, de manière

exhaustive et sans ambiguïté, l’éventail des habiletés langagières nécessaires dans un

domaine donné. Il est de ce fait difficile, comme nous le rappelle Bachman (1990),

d’évaluer la validité de contenu des tests de langues, que ce soit au niveau de la

pertinence ou de la couverture. Il est aussi à noter que la validité de contenu correspond

aux tâches du test, et non aux réponses aux tâches, c’est-à-dire que la validité de contenu

a plus de liens avec la conception des tâches du test en question qu’avec les résultats (ou

Page 54: Analyse de la validité prédictive d’une épreuve

34

notes) des candidats à celui-ci. Afin de valider le contenu d’un test, la méthode

généralement utilisée est d’analyser les tâches individuellement, d’analyser ensuite

l’ensemble des tâches par des juges-experts, puis finalement de procéder à un accord

inter-juges (Hughes, 2003).

Pour récapituler, Brown (1983) présente les définitions suivantes pour les deux

types de validité décrites ci-dessus, soit la validité de construit et la validité de contenu :

Construct validity studies provide evidence as to the nature of the trait or

characteristics measured; thus they are appropriate when defining

construct or when a test is used as a sign. Content validity studies

determine whether the test items representatively sample the domain of

interest; thus they are appropriate when a test serves as sample. (p. 98)

Selon Brown, la validité de contenu établit donc le degré de correspondance

existant entre les tâches du test (test items) et les tâches qui caractérisent le domaine pour

lequel le test est utilisé. En fait, Brown parle d’échantillonnage du domaine TLU à travers

les tâches qui composent le test : si les tâches constituent un échantillon pertinent des

tâches du domaine, alors il est justifié d’utiliser ce test dans le contexte.

À ces définitions, Brown en ajoute immédiatement une troisième en deux parties :

« Criterion-related validity studies investigate how well test scores correlate with some

external behavior; thus they are appropriate when using a test as a predictor. » ce qui

signifie qu’une étude de la validité critérielle est basée sur une comparaison entre le test

et un critère extérieur. C’est en fait ce dernier type de preuve, les preuves liées à la

validité prédictive des tests, qui nous intéresse particulièrement, car il est l’objet de notre

étude. Bien que nous n’utilisions pas la conception tripartite de la validité (soit validité de

construit, de contenu et critérielle comme trois entités séparées), il est important de

Page 55: Analyse de la validité prédictive d’une épreuve

35

s’attarder quelques instants sur le concept tel qu’il était considéré par Brown (1983) ou

d’autres chercheurs de l’époque (Hughes, 1989 ; Oller, 1979).

La validité critérielle réfère donc à la comparaison statistique corrélationnelle

entre les résultats obtenus lors d’une épreuve cible et une autre source de données,

externe au test analysé, que l’on appelle le critère. À noter que si Brown ne touche qu’à

un seul type de validité critérielle (prédictive), il en existe pourtant deux (Henning,

1987) : la validité concourante (concurrent validity) et la validité prédictive (predictive

validity). La première, la validité concourante (ou plutôt les preuves qu’elle produit)

provient de la comparaison entre les résultats à un test et un critère simultané, c’est-à-dire

dont les résultats sont issus d’une autre mesure qui a lieu en même temps que l’épreuve

visée. On peut donc, par exemple, comparer le score à un test conçu et fabriqué par un

enseignant au score à un autre test passé à la même période et qui a déjà fait l’objet d’un

processus de validation. Comme l’explique Hughes (1989), les preuves de validité

concourante peuvent s’avérer très utiles dans certains cas où les modalités des tests sont

problématiques. Dans l’exemple qu’il décrit, il s’agit de réduire le temps dédié à un test

de production orale de 45 minutes à 10 minutes par candidat afin de faciliter la logistique

et l’organisation du test. La validité concourante est alors évaluée afin de s’assurer que la

version courte du test a conservé la validité de sa version intégrale en comparant les

résultats d’un échantillon de candidats aux deux versions. Si les résultats sont fortement

corrélés, on peut dire que les deux tests sont aussi valides l’un que l’autre. Si la version

courte produit des résultats radicalement différents de la version intégrale, cela signifie

que la validité critérielle n’est pas prouvée et qu’il se peut que d’autres types de validité

(de contenu, par exemple) aient été affectés par la transformation de la version intégrale.

Page 56: Analyse de la validité prédictive d’une épreuve

36

Hughes rappelle cependant que, bien que le critère puisse être totalement différent dans

sa forme de l’épreuve analysée (un jugement de la part d’un enseignant, par exemple), il

est primordial de s’assurer de la validité du critère avant de l’utiliser. Cela signifie que les

études de la validité critérielle, concourante ou prédictive, doivent obligatoirement suivre

un processus de vérification approfondi du critère utilisé (Hughes, 1989). Si cette

opération n’est pas rigoureusement accomplie et respectée, les résultats engendrés par

l’analyse critérielle ne peuvent pas être considérés assez solides pour une prise de

décision éclairée.

Quant au deuxième type de validité critérielle, soit la validité prédictive, il

implique l’analyse du degré de corrélation entre les résultats à un test précis et un critère

ultérieur. Par exemple, on peut comparer le score obtenu à un test à la note finale d’un

cours suivi après la passation du test, ou à la moyenne cumulative à la fin de la scolarité,

ou encore, à la réussite professionnelle des participants au test après plusieurs années. Le

critère est donc ultérieur au test, et si corrélation il y a, le test devient un moyen de

prédire le degré de réussite des candidats au critère ultérieur sélectionné. Ce type de

validité est souvent utilisé afin de valider un test d’admission à différents programmes

d’études ou de formation. Cependant, il faut agir avec beaucoup de précaution dans le

choix du critère : celui-ci doit déjà avoir subi une évaluation afin de vérifier sa validité,

sinon, la validité prédictive reposera sur des éléments dont la justesse et la validité sont

fragiles (Hughes, 1989). De plus, et cet aspect sera développé plus loin, une évaluation de

la validité prédictive seule n’est jamais suffisante à la validation d’un test, dans un

contexte donné. Malheureusement, et en particulier dans des situations où le coût des

tests est un enjeu important, la validité prédictive seule est souvent examinée, ce qui

Page 57: Analyse de la validité prédictive d’une épreuve

37

entraine une simplification des tests utilisés, ce qui à son tour a un effet sur le contenu du

test utilisé, pour finalement avoir une influence souvent néfaste sur sa validité globale.

Par ailleurs, comme le rappelle Hughes, les coefficients statistiques qui ressortent des

analyses corrélationnelles de la validité prédictive s’élèvent très rarement au-dessus de

0,4, ce qui représente un rapport de 20% seulement entre le test et le critère sélectionné,

ce qui peut paraitre bas (Hughes, 1989). On peut donc légitimement se poser la question

de savoir si des décisions prises sur la base de résultats aussi peu éclatants sont sages,

surtout si l’on considère que les décisions prises sur des bases aussi fragiles peuvent avoir

un impact important sur la vie des candidats : pensons à un test de placement, par

exemple, qui engendrerait des placements erronés pour les candidats de sorte qu’ils

abandonnent le programme entamé ou, encore plus grave, un test d’admission qui

refuserait des candidats qui auraient été aptes à réussir ou qui accepterait des candidats

qui n’ont que peu, voire aucune, chance de succès. De telles conséquences peuvent

s’avérer dévastatrices, autant pour les candidats que pour les institutions qui utilisent des

tests qui ne remplissent aucunement leur fonction de prédicteur, pourtant « confirmée »

par une analyse de validité prédictive erronée.

2.2 Évolution historique du concept de validité

D’un point de vue historique, le concept de validité remonte au début des

recherches dédiées à l’évaluation, en particulier dans le domaine de la mesure et de

l’évaluation en psychologie. Lorsque Lado (1961) a écrit : « Validity is essentially a

question of relevance. Is the test relevant to what it claims to measure? Does it measure

what it is supposed to measure? If it does, it is valid » (p. 321), l’auteur, considéré comme

un pionnier dans le domaine, a mis en lumière un point majeur propre à l’époque et qui a

Page 58: Analyse de la validité prédictive d’une épreuve

38

changé depuis : la validité était considérée comme une qualité inhérente au test. De plus,

le chercheur a associé la validité à un autre trait important (et qui a aussi connu de

nombreuses mutations), la fidélité (reliability), une qualité intrinsèque des tests mais

distincte et préalable à la validité. Cette perspective, longtemps discutée puis décriée

(Brown, 1983), a cependant été relayée au cours des années 1970 par de nombreux autres

chercheurs qui considéraient la fidélité comme une preuve de validité. Pour Oller (1979),

par exemple, le processus de validation devait forcément passer par des preuves de

fidélité en établissant des corrélations significatives entre les résultats d’un test donné et

les résultats d’un même échantillon à d’autres tests du même ordre. C’est effectivement

ce qu’il a avancé en 1979 en écrivant que « the ultimate criterion for the validity of

language tests is the extent to which they reliably assess the ability of examinees to

process discourse. » (p. 406, italiques ajoutées).

Cette conception « corrélationnelle » de la validité était d’usage tout au long des

années 1970. Vers la fin de la décennie et au tout début des années 1980, cependant,

certains chercheurs (Palmer et al, 1981, par exemple) ont commencé à se poser des

questions, donnant ainsi lieu à une réflexion plus générale, en particulier sur le processus

de validation et l’importance du construit dans ce processus.

Cette réflexion s’est développée dans les années 1980 par le biais de plusieurs

auteurs, chacun apportant sa contribution à un concept en mutation. De nouvelles facettes

liées au processus de validation de tests langagiers ont alors fait leur apparition, telles que

la validité de réponse (response validity) et la division de la validité critérielle en deux

parties selon un critère temporel lié au critère choisi (validité prédictive ou concourante)

par Henning (1987). Quand il écrit que « a test may be valid for some purposes but not

Page 59: Analyse de la validité prédictive d’une épreuve

39

for others » (1987, p. 89), Henning établit aussi que la validité peut être liée à des

éléments extérieurs au test lui-même, le contexte et les conséquences des décisions prises

à partir des résultats des participants, en particulier. Hughes (1989), suivi d’Alderson et

Wall (1993), entre autres, apporte quant à lui l’idée de Backwash910, soit l’influence que

le test peut avoir sur l’enseignement et l’apprentissage, alors que Canale (1987) se

concentre sur la dimension éthique de l’évaluation des langues, soit les conséquences

sociales qui découlent des tests et des décisions prises sur la base des scores à un test

donné.

Les années 1980 ont ainsi été fécondes en nouvelles pistes d’études et ont ouvert

la voie à des réflexions plus poussées et sophistiquées sur le concept de validité jusqu’à

un tournant décisif, à la toute fin de la décennie. En 1989, Messick publie son article

simplement intitulé « Validity » qui va bouleverser l’ordre plus ou moins établi. Le

concept de validité, jusque-là tripartite (de construit, de contenu et critérielle), devient un

concept unifié autour de l’idée de validité de construit et au sein duquel les deux autres

types de validité (de contenu et critérielle) deviennent des méthodes d’analyse adjuvant le

processus de validation. La validité de construit prend ainsi le pas sur les deux autres

types de validité comme aspect principal à considérer dans la conception et dans l’analyse

de tout test. Cette idée de prépondérance de la validité de construit est introduite dès 1980

et renforcée en 1989 par Messick lorsqu’il propose l’idée d’un cadre unifié de la validité :

[A unified framework of validity that] forestalls undue reliance of selected

forms of evidence, that highlights the important though subsidiary role of

9 Le terme washback est généralement utilisé dans la littérature spécialisée malgré l’invention du terme

Backwash par Hughes en 1989. 10 Dans cette étude, les termes « washback » et « impact » sont utilisés de manière interchangeable. Le

concept est considéré à l’intérieur de la notion théorique de validité de conséquence (consequential validity)

et comme faisant partie de la conception plus large et unifiée de la validité des tests (Messick, 1989, 1996)

Page 60: Analyse de la validité prédictive d’une épreuve

40

content- and criterion-related evidence in support of construct validity in

testing applications, and that formally brings considerations of value

implications and social consequences into the validity framework. (1989,

p. 20)

Dans cet article fondamental, Messick (1989) prône non seulement la

prépondérance et la position centrale de la validité de construit dans le processus de

validation, la plaçant au-dessus des deux autres types (validité de contenu et validité

critérielle), mais aussi soutient que les conséquences mêmes du test, soit les jugements de

valeur qui font suite au test et les conséquences sociales engendrées par les décisions

prises sur la base des résultats au test, font aussi partie intégrante de la validité de

construit et qu’elles doivent être considérées comme telles. Le processus de validation

d’un test ne doit donc pas se limiter à analyser le test pour lui-même uniquement, mais

plutôt à procéder en plus à une analyse des décisions prises au regard des résultats au test

dans un contexte spécifique et des conséquences de ces décisions pour tous les

participants ainsi que pour la société en général.

Le tableau II.1 récapitule la considération conceptuelle avancée par Messick dès

1980 et reprise en 1989. Dans ce tableau, il est clairement établi d’une part que la validité

de construit est la dimension centrale du processus de validation, et d’autre part que le

concept même de validité doit être compris comme une entité à facettes multiples.

Tableau II.1 : Facettes de la validité (Messick, 1989, p. 20)

Functions of outcome of testing

Source of justification Test interpretation Test use

Evidential basis Construct validity Construct validity +

relevance / utility

Consequential basis Construct validity + value

implications

Construct validity + relevance /

utility + value implications

Page 61: Analyse de la validité prédictive d’une épreuve

41

Cette définition de la validité est donc plus complexe et plus unifiée que la

conception traditionnelle trichotomique car non seulement elle tient compte des

caractéristiques du test lui-même et des décisions qui en découlent, mais aussi de ses

conséquences au sens plus large, soit les conséquences sociales et en termes de valeurs,

toujours liées au contexte dans lequel s’inscrit le test à valider. Messick intègre donc des

dimensions supplémentaires au processus de validation des tests, dimensions qui touchent

à la fois les utilisateurs des tests (candidats et décideurs) mais aussi la société en général,

ce qui élargit encore la portée et l’importance des jugements et décisions prises sur la

base de résultats obtenus aux tests. De plus, Messick établit son modèle comme une

« Matrice Progressive » (« Progressive Matrix ») et souligne que le processus doit être

perçu comme un processus continu (« on-going process ») dont l’objectif est de récolter

un maximum de preuves d’une multitude de sources différentes.

Dans son ouvrage de référence publié en 1990, Bachman reprend et explicite cette

idée que la validité est un concept unifié et qui doit être considéré comme une entité dont

les différentes composantes ne peuvent être avancées seules comme preuves uniques dans

un processus de validation. Selon Bachman, qui s’inspire fortement des théories énoncées

par Messick et qui en profite pour souvent les clarifier en utilisant un vocabulaire plus

accessible aux non-initiés, « it is only through the collection and interpretation of all

relevant types of information that validity can be demonstrated. » (Bachman, 1990, p.

237). D’après Bachman, il est donc clair que la validité doit être vue comme un tout,

défini par des éléments individuels, certes, mais qui ne peuvent supporter ni apporter la

preuve complète et suffisante de la validité lorsqu’ils sont isolés. Il faut donc, afin

d’évaluer la validité d’un test dans un contexte particulier, procéder à la recherche et à

Page 62: Analyse de la validité prédictive d’une épreuve

42

l’analyse de tous les types de preuves disponibles sans se limiter à un seul, sinon,

l’exercice n’est pas complet.

Dans sa contribution à l’Annual Review of Applied Linguistics, Chapelle (1999) a

tenté d’illustrer l’évolution du concept de validité dans un tableau dont la mission était de

mettre en lumière les contrastes vifs entre les conceptions passées de la validité et les

conceptions actuelles (tableau II.2). Les différences chronologiques présentées prennent

tout leur sens lorsque mises côte à côte, et la définition de la validité en sort clarifiée.

Tableau II.2 : Résumé des contrastes entre les conceptions passées et présentes de la validation,

Chapelle (1999, p. 258)

Past Current

Validity was considered a characteristic of a test:

the extent to which a test measures what it is

supposed to measure.

Validity is considered an argument concerning test

interpretation and use: the extent to which test

interpretations and uses can be justified.

Reliability was seen as distinct from and a

necessary condition for validity.

Reliability can be seen as one type of validity

evidence.

Validity was often established through correlations

of a test with other tests.

Validity is argued on the basis of a number of types

of rationales and evidence, including the

consequences of testing.

Construct validity was seen as one of three types of

validity (the three validities were content-,

criterion-related, and construct).

Validity is a unitary concept with construct validity

as central (content and criterion-related evidence

can be used as evidence about construct validity).

Establishing validity was considered within the

purview of testing researchers responsible for

developing large-scale, high-stakes tests.

Justifying the validity of test use is the

responsibility of all test users.

Chapelle résume parfaitement et très clairement les caractéristiques passées et

actuelles du concept de validité dans ce tableau. L’aspect le plus important à noter est le

fait que la validité est considérée aujourd’hui comme un concept unifié dont la validité de

construit est l’élément dominant, consolidée par les preuves amenées par les deux autres

facettes du concept, soit la validité de contenu et les validités critérielles (concourante et

Page 63: Analyse de la validité prédictive d’une épreuve

43

prédictive). De plus, Chapelle confirme les idées avancées par Messick en ce qui

concerne l’importance des conséquences que peut avoir un test aux niveaux individuel et

collectif.

Cette considération importante énoncée par Messick (1980 ; 1989) des

conséquences que peuvent engendrer les décisions prises à la suite des résultats à un test

fut reprise par Bachman et Palmer (1996) puis développée par les mêmes auteurs dans le

but de créer un cadre complet d’analyse des tests de langue, composé de six catégories et

formant ce que Bachman et Palmer appellent « l’utilité d’un test » (test usefulness). Les

six catégories sont : la fidélité (reliability), la validité de construit (construct validity),

l’authenticité (authenticity), l’interactivité (interactiveness), la faisabilité (practicality) et

l’impact (Doucet, 2001). Ce cadre est en fait l’adaptation pour le domaine de l’évaluation

des langues de la théorie de la validité de construit avancée par Messick, en particulier en

ce qui a trait à la qualité d’impact puisque celle-ci met directement en lumière les

conséquences individuelles et sociales que peut avoir un test. Selon les auteurs, ces

conséquences doivent donc être prises en compte lors du processus de validation et font

partie intégrante du test et de sa validité. Dans les lignes suivantes, nous allons expliquer

en détail chacune des six qualités du cadre d’analyse de l’utilité des tests.

2.3 Le modèle de l’utilité des tests

Le modèle de l’utilité des tests énoncé par Bachman et Palmer est composé de six

qualités, tel qu’illustré dans la figure 2.1 suivante :

Usefulness = Reliability + Construct Validity + Authenticity + Interactiveness + Impact

+ Practicality

Figure 2.1 : L’utilité des tests (Bachman & Palmer, 1996, p. 18)

Page 64: Analyse de la validité prédictive d’une épreuve

44

À noter qu’avant même de définir chacune des qualités qui construisent ensemble

le modèle d’utilité des tests, Bachman et Palmer énoncent trois principes de base à

considérer lorsque ce modèle sert de base à la validation d’un test précis. Les principes

sont les suivants : premièrement, c’est le degré d’utilité globale qu’il convient d’optimiser

plutôt que les différentes composantes individuellement. Le fait de bonifier une qualité ne

fera pas forcément en sorte que le test sera plus valide, et les six qualités sont à considérer

dans leur intégralité. Deuxièmement, on ne peut pas évaluer les différentes composantes

indépendamment; c’est l’aspect combinatoire qui doit faire l’objet de l’évaluation du test.

Ceci signifie que l’analyse individuelle de chacune des six qualités ne donnera que des

informations morcelées et qui ne reflèteront pas forcément le plein potentiel du test

évalué. Finalement, le degré d’utilité d’un test et le dosage pertinent des différentes

qualités ne s’énoncent pas en termes généraux, mais doivent être déterminés pour chaque

situation spécifique d’évaluation. Ce principe est primordial pour l’analyse et la

validation de tout test. En effet, un même test peut être « utile » dans un contexte

particulier, mais ce degré d’utilité peut décliner radicalement s’il est placé dans un

contexte différent. En somme, les qualités d’un test doivent toujours être observées et

évaluées dans le contexte dans lequel s’inscrit le test analysé. À noter que Bachman et

Palmer, en énonçant ce précepte, ne font que répéter ce qui a été avancé maintes fois par

d’autres chercheurs dans le domaine (Henning, 1987, entre autres).

Après avoir énoncé ces trois principes de base, indispensables à l’utilisation de

leur cadre d’analyse des tests, Bachman et Palmer explicitent chacune des six qualités qui

constituent ce cadre. Dans les lignes suivantes, nous nous efforcerons de définir chacune

d’entre elles.

Page 65: Analyse de la validité prédictive d’une épreuve

45

La première qualité des tests est la fidélité (reliability). Cette caractéristique,

souvent considérée comme la plus importante (Oller, 1979), « renvoie à un accord entre

des mesures similaires d’un même élément. » (Doucet, 2001). Cela signifie que, pour

évaluer la fidélité d’un test, on peut calculer la corrélation entre les scores obtenus à des

tests parallèles qui mesurent les mêmes traits (construits) et dont certaines

caractéristiques ont pu différer. On cherche donc à établir la constance de la mesure

(consistency of measurement), et en ces termes, la fidélité devient une caractéristique non

plus du test, mais des scores générés par le test. En d’autres mots, lorsqu’on cherche à

analyser la fidélité d’un test, on cherche d’abord à s’assurer que les tâches du test

remplissent la même fonction et ciblent les mêmes traits, les mêmes construits, et que les

scores obtenus par les tâches ne sont pas le produit d’éléments autres que les tâches elles-

mêmes : fatigue, familiarité avec le format du test, nervosité des candidats, etc. Un même

test devrait donc générer des résultats sensiblement identiques si l’on change ces

conditions extérieures, car les tâches, elles, provoquent la mise en œuvre des mêmes

construits et l’évaluation de ces construits doit être identique. Bachman et Palmer

illustrent cette qualité des tests en utilisant la figure 2.2 ci-dessous en considérant chaque

test comme un ensemble de tâches (tasks) dont les caractéristiques peuvent changer

sensiblement sans avoir une influence importante sur les scores obtenus par les candidats.

Scores on test tasks with

characteristics A

Reliability

Scores on test tasks with

characteristics A’

Figure 2.2 : Fidélité (Bachman & Palmer, 1996, p. 20)

Dans leur ouvrage de référence, Bachman et Palmer expliquent la figure 2.2 en

donnant plusieurs exemples de différences entre les caractéristiques des tâches des tests A

Page 66: Analyse de la validité prédictive d’une épreuve

46

et A’ : les environnements de passation (lieu, heure, moment de l’année, caractéristiques

des locaux d’examen, etc.) peuvent ne pas concorder, par exemple. La question des

correcteurs est aussi abordée : il est primordial, pour être fidèles, que les scores obtenus

ne soient pas tributaires de la personne qui évalue et détermine le score obtenu au test.

La seconde qualité des tests, la validité de construit (construct validity) est

fortement ancrée dans la conception unifiée de la validité de Messick (1989). Dans ce

chapitre, nous reviendrons en détail sur la conception de la validité retenue dans le cadre

de cette étude, mais il convient d’en énoncer ici les grandes lignes, ne serait-ce que par

souci de compléter le cadre de l’utilité des tests par Bachman et Palmer ici explicité. Tout

comme la fidélité, la validité de construit est une qualité liée aux scores obtenus à un test,

plus précisément aux interprétations que l’on fait sur la base des scores obtenus à un test

(Bachman & Palmer, 1996, p. 19). En ce sens, la conception de la validité de construit

telle que l’entendent Bachman et Palmer rejoint sensiblement la conception traditionnelle

que nous avons déjà décrite dans les lignes précédentes, mais à une différence près. Dans

leur ouvrage de 1996, Bachman et Palmer insistent fortement sur la base de la

justification des interprétations faites à partir des scores obtenus à un test, c’est-à-dire

l’exactitude du jugement fait sur la base des résultats aux tâches proposées dans le test

ciblé. Dans le cas des tests de langue, les jugements sont faits sur la base de résultats

engendrés par l’accomplissement de tâches spécifiques, et c’est sur ce point précis que

Bachman et Palmer s’arrêtent : les tâches que les candidats ont dû remplir dans le test

remplissent-elles adéquatement leur mission qui est de provoquer la mise en œuvre du

construit ciblé et uniquement de ce construit particulier? Deuxièmement, Bachman et

Palmer mettent l’accent sur une dimension extrêmement importante puisqu’il s’agit du

Page 67: Analyse de la validité prédictive d’une épreuve

47

domaine TLU dans lequel sont censées s’inscrire les tâches du test. En d’autres mots, non

seulement la validité de construit est-elle tributaire de la capacité des tâches à cibler le

construit (et uniquement le construit ciblé) de manière suffisante, mais les tâches du test

doivent aussi correspondre au domaine TLU spécifique de l’après-test. Rappelons que

Bachman et Palmer soulignent souvent l’importance des tests, bien entendu, mais aussi la

prépondérance de l’utilisation des tests dans leur contexte spécifique, que ce soit leur

environnement, leurs participants ou leur usage. Le TLU tient donc une place centrale

puisqu’il justifie a priori l’usage qui est fait d’un test. Cette mention particulière du TLU

nous renvoie à un autre aspect décrit par Bachman dès 1990 et qui fera l’objet d’une

description dans ce chapitre: le modèle de compétence communicative (communicative

competency model). Ce cadre classifie les différentes parties de la compétence langagière

et permet ainsi de cibler très précisément les traits (construits) que chaque tâche

évaluative peut mettre en évidence ainsi que les besoins du TLU. Ce modèle est la base

de la conception des tâches et du processus de validation des tests.

La troisième qualité des tests est l’authenticité (authenticity). Cette qualité établit,

de manière plus directe que la validité de construit, même si l’on pourrait croire qu’il y a

là doublon, le degré de correspondance qui existe entre les caractéristiques des tâches du

test et les caractéristiques des tâches du TLU visé. Bachman et Palmer illustrent

l’authenticité par la figure 2.3 suivante :

Characteristics of the TLU task Authenticity

Characteristics of the test task

Figure 2.3 : Authenticité (Bachman & Palmer, 1996. p. 23)

Dans leur description relativement brève et claire de l’authenticité, Bachman et

Palmer ajoutent une qualité qui peut avoir un impact majeur sur les résultats d’un

Page 68: Analyse de la validité prédictive d’une épreuve

48

candidat à un test. Il s’agit de la perception que l’utilisateur a d’un test, perception

directement liée au degré d’authenticité dont jouit le test en question. Il s’agit de la

question nommée traditionnellement validité apparente (face validity), validité

difficilement mesurable mais qui peut avoir des conséquences bénéfiques ou néfastes

pour un candidat. En d’autres mots, l’authenticité d’un test, soit le degré de

correspondance apparent entre ses tâches et les tâches du TLU, rend le test plus ou moins

crédible aux yeux du candidat au test. Si cette crédibilité est forte (validité apparente

élevée), le candidat est plus porté à prendre les tâches au sérieux, et donc ses chances

d’obtenir de meilleurs résultats s’en trouvent augmentées. Au contraire, si l’authenticité

ne renforce pas la validité apparente de la tâche, le candidat peut ne pas considérer cette

tâche comme pertinente, et donc le score risque d’en être affecté négativement. Comme

énoncé précédemment, il est difficile d’évaluer la validité apparente de manière tranchée

et objective, puisqu’il s’agit avant tout des perceptions des acteurs impliquées. Cette

question est néanmoins importante et nous présenterons dans la partie dédiée à la

méthodologie de cette recherche les moyens existants et que nous avons décidé d’utiliser

afin d’évaluer cette validité apparente dans notre contexte et ainsi répondre à notre

troisième question de recherche.

De plus, étant donné le lien mis en lumière par la qualité d’authenticité (tâches du

test vis-à-vis les tâches du domaine TLU), on peut dire que l’authenticité correspond,

d’une certaine manière, à la conception traditionnelle de la validité de contenu décrite

auparavant. Ainsi, on voit très clairement que la conception trichotomique de la validité

telle qu’elle était considérée par le passé est bien présente dans le cadre décrit par

Page 69: Analyse de la validité prédictive d’une épreuve

49

Bachman et Palmer. Elle prend seulement une forme différente, soit sous la forme de la

qualité d’authenticité.

La quatrième qualité des tests est l’interactivité. Cette qualité correspond au degré

et au type d’engagement des caractéristiques individuelles du candidat dans

l’accomplissement de la tâche (Bachman & Palmer, 1996). En effet, les caractéristiques

des candidats en termes de compétence langagière (connaissance de la langue, stratégies

métacognitives), de connaissances du sujet et de schémas affectifs sont, à un certain

degré, toujours engagées dans la réalisation de toute tâche, et l’interactivité établit ce

degré de relation entre ces caractéristiques individuelles et les tâches des tests.

Bachman et Palmer démontrent très clairement cette relation en l’illustrant par la

figure 2.4 ci-dessous.

Figure 2.4 : Interactivité (Bachman & Palmer, 1996, p. 26)

La figure 2.4 démontre bien les relations qui existent entre les tâches des tests et

les caractéristiques des candidats. Ces caractéristiques peuvent donc avoir une influence

importante sur les réponses fournies, et donc sur les résultats aux tâches. L’interactivité

est donc une qualité inhérente aux tâches des tests et du TLU correspondant. Ce qui

différencie l’interactivité de l’authenticité est que l’authenticité correspond à la relation

Page 70: Analyse de la validité prédictive d’une épreuve

50

entre les tâches du test et les tâches du domaine TLU. L’interactivité est la (ou les)

relation(s) existante(s) entre les tâches du test ou du domaine TLU et les caractéristiques

du candidat. À noter que l’interactivité, tout comme l’authenticité, ne peut être énoncée

en termes absolus. Au contraire, ces deux qualités ne peuvent être considérées que dans

leur relativité, c’est-à-dire que l’on dira que les tests sont « relativement authentiques »

ou « relativement interactives ». Ainsi, toute tâche sera authentique ou interactive, mais à

un certain degré seulement. On ne pourra pas dire d’une tâche qu’elle n’est pas

authentique ou interactive, seulement qu’elle est « peu authentique » ou « peu

interactive » (Bachman & Palmer, 1996, p. 29).

La cinquième qualité des tests est l’impact. Bachman et Palmer expliquent que les

tests ne sont que très rarement utilisés dans un contexte expérimental uniquement, et que

la plupart du temps, il y a une ou des conséquence(s) (ou impact) à deux niveaux : un

niveau « macro » et un niveau « micro ». Le niveau macro correspond aux systèmes

éducatifs et à la société dans lesquels se place le test analysé. Les auteurs en profitent

pour inclure le concept de washback dans leur qualité d’impact, car cet aspect, défini par

Hughes comme « the effect of testing on teaching and learning » (1989, p. 1), puis discuté

en détail par des chercheurs tels que Cohen (1994) ou Alderson et Wall (1993), ce qui

renforce l’idée que le modèle d’utilité des tests par Bachman et Palmer est bien le modèle

le plus complet, le plus abouti et le plus inclusif dont nous disposons à ce jour pour

l’analyse et la conception des tests.

L’impact est une conséquence de deux dimensions inhérentes aux tests :

premièrement, l’expérience même d’utilisateur d’un test change nos caractéristiques

d’apprenant, et deuxièmement, les décisions prises à partir des résultats aux tests ont des

Page 71: Analyse de la validité prédictive d’une épreuve

51

répercussions sur le futur des utilisateurs et de la société en général. L’impact est donc

une qualité à la fois du test lui-même et des décisions qui sont prises sur la base des

résultats. Bachman et Palmer illustrent la qualité d’impact grâce à la figure 2.5 ci-

dessous.

Test taking and use of test scores

Impact

Macro : society, education

system

Micro : individuals

Figure 2.5 : Impact (Bachman & Palmer, 1996, p. 30)

La sixième et dernière qualité des tests est la qualité de faisabilité (practicality).

Cette qualité, illustrée par la figure 2.6 suivante, est différente des cinq autres car elle

correspond non pas aux caractéristiques des tâches ou de l’usage qui sera fait des résultats

à un test donné, mais aux conditions dans lesquelles le test sera exécuté. Ce sont donc

bien les ressources disponibles, que ce soit en termes de temps, de personnel ou de

matériel, qui sont évaluées et décrétées suffisantes ou insuffisantes pour la mise en œuvre

optimale du test en question. Bachman et Palmer illustrent la qualité de faisabilité comme

un rapport entre les ressources nécessaires et les ressources disponibles. Si le ratio est

égal ou supérieur à 1, le test est faisable, ou pratique. Si ce ratio est inférieur à 1, le test

n’est pas pratique et des modifications sont à prévoir.

Practicality = Available resources

Required resources

If practicality ≥ 1, the test development and use is practical

If practicality < 1, the test development and use is not practical

Figure 2.6 : Faisabilité (Bachman & Palmer, 1996, p. 36)

Page 72: Analyse de la validité prédictive d’une épreuve

52

En résumé, le modèle d’utilité des tests développé et présenté en 1996 par

Bachman et Palmer reste le modèle d’analyse et de conception des tests le plus abouti et

le plus complet à ce jour. Tous les éléments abordés par les chercheurs les ayant précédés

sont inclus dans le modèle : la conception trichotomique traditionnelle de la validité a été

retravaillée afin d’y intégrer la conception unifiée avancée par Messick. De plus, des

éléments y ont été ajoutés afin de répondre aux exigences particulières des contextes

d’évaluation modernes. Ainsi, la qualité de faisabilité prend toute son importance, surtout

quand on observe les tests standardisés à vocation mondiale dont l’objectif principal est

justement d’être le plus pratique (et le moins coûteux) possible.

Le tableau II.3 ci-dessous récapitule les traits des six qualités de l’utilité des tests.

Tableau II.3 : Récapitulatif des qualités des tests (modèle de Bachman & Palmer, 1996)

Qualités de l’utilité des

tests, Bachman et Palmer

(1996)

Correspond à une qualité

de :

Correspondance établie /

recherchée par la qualité

Dans la conception

traditionnelle des

caractéristiques d’un « bon

test »

Fidélité Scores

Entre les scores à des tests

de même type, visant les

mêmes construits

Fidélité

Validité de construit Scores

Décisions qui sont prises sur

la base des résultats aux

scores par rapport aux

tâches du TLU

NA

Authenticité Tâches

Caractéristiques des tâches

du test par rapport aux

caractéristiques des tâches

du TLU

Validé de contenu

Interactivité Tâches

Caractéristiques des tâches

du test par rapport aux

caractéristiques du candidat

utilisateur

NA

Impact Décisions

Conséquences (macro et

micro)engendrées par

l’utilisation du test et les

résultats

NA

Faisabilité Conditions logistiques

Rapport entre les ressources

disponibles et les ressources

nécessaires

Faisabilité

Le tableau II.3 reprend les idées développées par Bachman et Palmer en 1996. Il

est ainsi pratique de voir la variété des types de preuves à recueillir afin d’évaluer l’utilité

Page 73: Analyse de la validité prédictive d’une épreuve

53

d’un test administré dans un contexte particulier et pour une population spécifique. Dans

la présente étude, nous analyserons le TFLM à la lumière des qualités des tests les plus

pertinentes dans notre contexte. Le concept suivant, le modèle de compétence

communicative, par Bachman et Palmer, nous donnera des pistes afin de mener cette

analyse comparative à bien.

2.4 Le concept de compétence communicative

Afin de déterminer si le TFLM, qui est un test à grands enjeux, est un prédicteur

de réussite valide dans les programmes de formation initiale en enseignement au Québec,

cette étude devra apporter des éléments de preuve faisant partie du processus de

validation (et donc de la validité de construit, puisqu’elle domine les autres types de

preuves, tel que l’a avancé Messick en 1989) du TFLM recueillis par le biais de différents

outils, car comme nous le rappellent Bachman et Palmer :

Construct validation is the on-going process of demonstrating that a

particular interpretation of test scores is justified, and involves, essentially,

building a logical case in support of a particular interpretation and

providing evidence justifying this interpretation. Several types of evidence

(for instance, content relevance and coverage, concurrent criterion

relatedness, predictive utility) can be provided in support of a particular

score interpretation, as part of the validation process. (1996, p. 22).

L’évaluation de la validité prédictive du TFLM n’est donc qu’une partie des

preuves nécessaires pour déclarer le TFLM comme valide ou invalide dans notre contexte

précis. Afin d’évaluer de manière plus complète la validité du TFLM, une considération

importante serait la correspondance entre les tâches qui composent le TFLM (test tasks)

et les tâches réelles qui composent l’activité censée être représentée par les tâches du test

(TLU tasks) ainsi que les habiletés langagières nécessaires à les remplir, ce qui, dans

notre cas, correspond aux besoins linguistiques des étudiants inscrits dans des

Page 74: Analyse de la validité prédictive d’une épreuve

54

programmes de formation initiale en enseignement au Québec dans l’optique de connaitre

la réussite tout au long de leur cheminement d’études et dans leur carrière en

enseignement par la suite (authenticité des tâches des tests). Un point primordial dans le

processus de choix ou de conception d’une épreuve de compétence langagière est donc de

cibler avec précision les besoins en termes d’habiletés langagières que la situation

d’utilisation de la langue imposera aux participants dans le contexte spécifique établi.

Afin d’établir ces besoins, Bachman et Palmer proposent un cadre théorique complet et

spécifique au domaine de l’évaluation des langues qui permet d’analyser les compétences

langagières de toute personne, que ce soit en langue première ou en langue seconde, et de

mettre ces compétences en parallèle avec les exigences du domaine d’utilisation de la

langue cible. Ce cadre (Bachman & Palmer, 2010), basé en premier lieu sur les travaux

de Hymes (1972) puis de Canale (1983), illustre les éléments de la compétence

communicative et est divisé en deux volets majeurs, soit les aspects liés à la connaissance

de la langue (areas of language knowledge) et les aspects liés aux stratégies

métacognitives (areas of metacognitive strategies use). Les tableaux II.4 et II.5 ci-

dessous illustrent la composition de chacun des deux volets.

Page 75: Analyse de la validité prédictive d’une épreuve

55

Tableau II.4 : Areas of language knowledge (Bachman & Palmer, 2010, p. 45)

Organizational

knowledge

Grammatical knowledge Knowledge of vocabulary

Knowledge of syntax

Knowledge of phonology / graphology

Textual knowledge Knowledge of cohesion

Knowledge of rhetorical or conversational

organization

Pragmatic knowledge Functional knowledge Knowledge of ideational functions

Knowledge of manipulative functions

Knowledge of heuristic functions

Knowledge of imaginative functions

Sociolinguistic

knowledge

Knowledge of genres

Knowledge of dialects / varieties

Knowledge of registers

Knowledge of natural or idiomatic expressions

Knowledge of cultural references or figures of speech

Tableau II.5 : Areas of metacognitive strategies use (Bachman & Palmer, 2010, p. 49)

Goal setting Identifying the language use or assessment tasks to be attempted

Choosing one or more tasks from a set of possible tasks

Deciding whether or not to complete the task(s) selected

Appraising Appraising the characteristics of the language use assessment task

to determine the desirability and feasibility of successfully

completing it and what resources are needed to complete it.

Appraising our own knowledge (topical, language) components to

see if relevant areas of knowledge are available for successfully

completing the language use or assessment task.

Appraising the degree to which the language use or assessment task

has been successfully completed

Planning Selecting elements from areas of topical knowledge and language

knowledge for successfully completing the assessment task

Formulating one or more plans for implementing these elements in

a response to the assessment task.

Selecting one plan for initial implementation as a response to the

assessment task

Page 76: Analyse de la validité prédictive d’une épreuve

56

Les tableaux ci-dessus exposent les différentes composantes de la compétence

langagière selon Bachman et Palmer (2010). Ceux-ci ont réussi à décomposer la

compétence langagière en ce qu’ils ont appelé les « connaissances », qui regroupent

chacune un aspect de la communication orale et/ou écrite. Selon les auteurs, on peut donc

découper la compétence communicative en sous-parties, soit la connaissance

organisationnelle d’un côté et la connaissance pragmatique de l’autre, chacune de ces

deux parties étant elle-même divisée en sous-composantes. Dans les lignes qui suivent,

nous allons définir chacun des termes utilisés pour chacune des sous-composantes de la

première partie, c’est-à-dire les connaissances de la langue elle-même. Nous avons décidé

de ne pas entrer dans les détails de la deuxième partie puisque le TFLM ne touche

absolument pas cette dimension de la langue, bien qu’elle soit inhérente à la maitrise

d’une langue, qu’elle soit première ou seconde. Pour une discussion complète sur ce

sujet, le lecteur pourra se référer à Bachman et Palmer (2010). Qui plus est, même si la

signification de certaines sous-composantes sera très facilement accessible, même pour

les lecteurs non-initiés, par souci de clarté, il convient de définir chacun des termes

présents dans le travail de Bachman et Palmer qui inspire les éléments abordés dans le

tableau II.4.

La connaissance organisationnelle (organizational knowledge) est composée de

deux sous-parties : la connaissance grammaticale et la connaissance textuelle. La

première, la connaissance grammaticale, comprend la connaissance du vocabulaire de la

L2 (le lexique), de la syntaxe (agencement des mots selon leur classe et le sens que l’on

souhaite donner à la production), et la connaissance de la phonologie et de la graphologie

(maitrise des sons de L2 et de leur transcription à l’écrit). Cette partie est donc reliée à

Page 77: Analyse de la validité prédictive d’une épreuve

57

tous les éléments propres au code linguistique, c’est-à-dire plus simplement à la

grammaire, l’orthographe et la syntaxe.

La connaissance textuelle (textual knowledge) correspond à la maitrise du

message, c’est-à-dire de la façon dont le locuteur transmet les informations. Cette partie

comprend la connaissance de la cohésion, c’est-à-dire l’utilisation des organisateurs

logiques appropriés, ainsi que la connaissance de l’organisation, de la rhétorique et de la

conversation, c’est-à-dire la capacité à élaborer un discours complexe, organiser ses

arguments de façon logique, illustrer avec des exemples, des figures de style, etc. Cette

dimension est bien plus liée au contenu qu’au contenant, au fond qu’à la forme. Dans

notre contexte, et si l’on fait un lien avec le référentiel du MELS (2001), cette sous-

composante est primordiale pour les enseignants car leur principale fonction est souvent

de vulgariser des concepts complexes afin de les rendre accessibles à leurs élèves ou

étudiants, quel que soit l’âge de ceux-ci.

La seconde dimension de la connaissance langagière, soit la connaissance

pragmatique (pragmatic knowledge), est composée de deux sous-composantes : la

connaissance fonctionnelle (functional knowledge) et la connaissance sociolinguistique

(sociolinguistic knowledge).

La première, la connaissance fonctionnelle (functional knowledge), correspond à

la fonction, donc l’objectif, que revêt un énoncé lorsqu’il est produit. On sait depuis

Hymes (1972) et son modèle SPEAKING que les énoncés peuvent avoir plus d’une

fonction ou un sens « caché » qui n’est pas forcément celui qui apparait d’emblée. On

parle alors du but de l’énoncé dans la situation de communication, et il faut accentuer le

fait que la fonction des énoncés n’est analysable que lorsqu’elle est conduite dans le

Page 78: Analyse de la validité prédictive d’une épreuve

58

cadre d’une situation de communication particulière. Par exemple, un énoncé peut être

teinté de sarcasme, ce qui changera complètement son sens réel, son objectif de

communication dans la situation d’interaction dans laquelle il est produit. On parle alors

de trois fonctions des énoncés, soient la fonction locutoire (sens apparent immédiat),

fonction illocutoire (sens caché réel) et la fonction perlocutoire (le résultat recherché par

le locuteur dans la formulation de l’énoncé). Bachman et Palmer considèrent la

connaissance sociolinguistique comme la deuxième sous-composante de la connaissance

pragmatique. La connaissance sociolinguistique relève de la connaissance culturelle liée à

une langue : la connaissance des variétés de langue soulève la question des différences

intrinsèques entre les différentes variétés d’une même langue. Par exemple, si l’on prend

l’exemple du français, le français métropolitain est très différent du français québécois ou

du français parlé en Afrique. La connaissance des variétés de langue fait état de ces

différences et permet au locuteur de reconnaitre ces variétés et, le cas échéant, les utiliser

à bon escient. La connaissance des variétés de registres, correspond au niveau de langue

utilisé selon la situation de communication (À qui parle-t-on? Quel est le but de la

production? Dans quel contexte se fait l’interaction?, etc.). Elle relève d’éléments

linguistiques tels que le lexique utilisé, la syntaxe appropriée à la situation de

communication, même les éléments de communication non verbaux qui peuvent être

utilisés pendant une interaction. Ces éléments normés appartiennent à chaque

communauté linguistique et peuvent différer selon la variété (voir ci-dessus) dans laquelle

elle s’insère. La connaissance d’énoncés idiomatiques ou naturels et dont le sens est

connu de toute une communauté linguistique. On peut penser aux proverbes ou aux

expressions figées utilisées tous les jours par les locuteurs d’une même langue, par

Page 79: Analyse de la validité prédictive d’une épreuve

59

exemple. Finalement, la connaissance d’énoncés culturels correspond aux énoncés qui

ont comme racine des événements communs à toute une communauté et ils sont

forcément ancrés dans la culture collective de cette communauté. Ces énoncés peuvent

par exemple être des segments de phrases repris par un personnage célèbre dans une

situation spécifique, ou encore faire référence à un événement marquant pour un groupe

de personnes. À noter que les proverbes, par exemple, ne font pas partie de cette sous-

composante et que l’on retrouve ces derniers dans la partie « énoncés idiomatiques ou

naturels ». Les énoncés culturels peuvent être connus par une partie d’une population qui

aurait en commun une connaissance culturelle générationnelle, par exemple, mais

inconnue du reste de la population. Le trait commun de ces énoncés reste donc le partage

d’une connaissance particulière et pas forcément accessible à tous les membres d’une

même communauté. Par exemple, l’expression « faire son Lac-à-l’épaule » est une

expression connue au Québec par une certaine tranche de la population à cause des

événements qui sont liés à ce lieu11 à un certain moment de l’histoire de la province, mais

elle ne signifie absolument rien dans le reste de la francophonie car la référence

historique y est totalement inconnue ou même pour des Québécois plus jeunes qui ne

connaissent pas l’événement relié à ce lieu.

Bachman et Palmer (2010) affirment qu’à partir des éléments qui figurent dans les

tableaux ci-dessus, il est possible d’identifier les besoins linguistiques précis de tout type

de domaines d’utilisation de la langue cible pour ensuite déterminer les tâches qui

devraient composer un test de compétence langagière censé mesurer les habiletés

11

http://www.oqlf.gouv.qc.ca/actualites/capsules_hebdo/actualites_terminolinguistique/luetentendu_lacalepa

ule_20050825.html

Page 80: Analyse de la validité prédictive d’une épreuve

60

linguistiques impliquées, soit les construits recherchés. La tâche, lors d’un processus de

validation, revient donc à vérifier la correspondance entre les tâches qui composent un

test particulier dans un contexte spécifique et les tâches qui attendent les participants au

même test après sa passation. On voit donc ici le lien fort existant entre les tâches du test

et le contexte dans lequel il s’inscrit, c’est-à-dire, le lien entre les éléments que

renferment le modèle de compétence communicative et le TLU.

La partie suivante établira donc les concepts retenus et la conception générale

sous-jacente à l’étude au complet.

2.5 Conception de la validité retenue pour cette recherche

À titre récapitulatif, la définition plus ou moins arrêtée de la validité, bien que

multidimensionnelle, représente le concept comme une entité unifiée et insécable sous la

domination constante de la validité de construit : « All validity is of one kind, namely

construct validity. Other so-called separate types of validity cannot stand alone in a

validity argument » (Messick, 1998, p. 37). Ainsi, la validité de construit est le type de

validité qui regroupe tous les autres types de validité considérés par le passé. Les validités

de contenu et critérielles ne sont que des éléments de preuves qui vont alimenter le

processus de validation des tests dont le centre reste la validité de construit et qui ne

peuvent pas être considérées seules comme des preuves suffisantes dans un processus

analytique des tests.

Le but de ce projet de recherche étant d’évaluer la validité prédictive du TFLM, la

conception de la validité proposée par Messick a été retenue, c’est-à-dire que la validité

est un concept unifié composé de différentes facettes. Notre cadre théorique sera le

modèle de Bachman et Palmer, l’utilité des tests et ses six qualités (1996) : validité,

Page 81: Analyse de la validité prédictive d’une épreuve

61

fidélité, interactivité, faisabilité, authenticité et impact, qui ont chacune été explicitée

précédemment. Le choix de cette conception est principalement motivé par le fait que

toutes les qualités du cadre de l’utilité des tests proposé par Bachman et Palmer sont

pertinentes dans notre contexte d’étude, plus particulièrement les conséquences sociales

entrainées par les résultats du TFLM, aspect cher à Messick et qui tient bonne place dans

la matrice présentée en 1989 (tableau II.1). Est-il nécessaire de le rappeler, l’étude porte

sur le processus d’admission des futurs enseignants au Québec, un sujet qui revêt toujours

de fortes connotations sociales et qui provoque généralement de nombreuses questions

liées à la valeur des candidats et aux orientations que nous souhaitons favoriser en tant

que société.

Le modèle de compétence communicative de Bachman et Palmer (2010) a de son

côté été retenu afin d’analyser les caractéristiques des tâches du test et de faire la lumière

sur les éléments linguistiques évalués par le TFLM. Il sera ainsi possible de comparer ce

qui est évalué avec ce qui devrait être évalué dans notre contexte particulier, soit les

études de premier cycle dans divers programmes, dont les programmes de formation

initiale en enseignement. Bachman et Palmer exposent les qualités de leur modèle en

2010 lorsqu’ils établissent que :

[It is] this combination of language knowledge and strategic competence

provides language users with the ability, or capacity, to create and interpret

discourse, either in responding to tasks in language assessment or in non-

assessment language use. (p. 44)

Ce modèle est donc préféré à d’autres modèles de compétence communicative (Canale,

1983 ; Canale & Swain, 1980 ; Celce-Murcia, Dornyei & Thurrell, 1995, entre autres) car

d’une part, il est un des plus récents (1990, puis revisité en 1996 et en 2010) et d’autre

part parce qu’il aborde tous les éléments spécifiques à notre contexte (test de compétence

Page 82: Analyse de la validité prédictive d’une épreuve

62

langagière) en plus d’incorporer des dimensions supplémentaires qui vont au-delà de la

compétence langagière seule (affective schemata, topical knowledge). De plus, comme

Bachman et Palmer l’expliquent, il permet d’extraire et d’obtenir des éléments de la

compétence communicative dans tous les contextes, production comme compréhension,

que ce soit en contexte d’évaluation ou non. Les autres modèles, cités ci-dessus, n’offrent

pas cette possibilité, ce qui les limite en comparaison au modèle de Bachman et Palmer.

Dans ce chapitre, nous avons décrit en détail notre cadre théorique et les

différentes influences qui l’ont inspiré. Dans le chapitre suivant, nous nous penchons sur

les études de la validité prédictive effectuées par le passé.

Page 83: Analyse de la validité prédictive d’une épreuve

CHAPITRE III : RECENSION DES ÉCRITS

Les études sur la validité prédictive des procédures de sélection sont nombreuses.

L’utilité et la pertinence des tests utilisés par différents milieux, que ce soit préscolaires

(Friend, Schmitt & Simpson, 2012), scolaires (Blais, 2001), universitaires (Bellingham,

1993 ; Romainville, 1997 ; Snowman & Simpson, 1980 ; Snyder et al, 1983) ou

professionnels (FAA, 1989) est au centre des préoccupations des responsables, directeurs

et administrateurs de divers programmes, institutions ou entreprises. Les enjeux liés à la

sélection des meilleurs candidats, dans n’importe quel milieu, est en effet une décision

importante et qui peut avoir des conséquences majeures, autant sur les individus que les

systèmes ou les sociétés dans lesquels sont utilisés les tests en question. Une sélection

basée sur des preuves peu valides représente un risque très important : les moyens et

outils de sélection doivent absolument permettre aux administrateurs d’éviter les choix

erronés, que ce soit une erreur positive (un candidat admis alors qu’il n’aurait pas dû

l’être) ou négative (un candidat est refusé alors qu’il aurait dû être admis). Ces enjeux

sont si importants que les analyses de la validité prédictive de différentes procédures de

sélection ont été menées à grande échelle depuis le tout début des années 1960 (Kaplan &

Jones, 1961 ; Sako & Fruchter, 1965) et tout au long des décennies suivantes (Cho &

Bridgeman, 2012 ; Elder, 1993 et 2001 ; Feast, 2002 ; Graham, 1987 ; Nolan & Jacobson,

1972). Aussi nombreuses soient-elles, il est cependant parfois un peu difficile pour le

chercheur qui entreprend une étude de la validité prédictive de faire ressortir des résultats

tranchés et sans équivoque. En effet, nous verrons dans les paragraphes suivants que les

études sur la validité prédictive entreprises dans les 50 dernières années ont été basées sur

Page 84: Analyse de la validité prédictive d’une épreuve

64

des méthodologies très différentes et, l’on pouvait s’y attendre, engendrent des résultats

très différents aussi.

Dans les lignes suivantes, nous procèderons à une rétrospective des études

entreprises jusqu’à maintenant en les classant en deux parties selon des critères

méthodologiques : d’une part, les études dont les résultats se basent sur des analyses de

données quantitatives uniquement, et d’autre part, les études qui tendent à analyser des

données à la fois quantitatives et qualitatives, donc qui optent pour une approche

méthodologique mixte. À noter que, bien entendu, qu’il ne nous est pas possible ici de

détailler de manière exhaustive toutes les études dont l’objet était d’évaluer la validité

prédictive de tests à grands enjeux. Néanmoins, il nous sera possible de décrire les

avancées scientifiques des études visant à établir la validité prédictive de tests depuis

cinquante ans et ainsi dresser un portrait global de l’état actuel du domaine pour

expliquer pourquoi il est justifié, au jour d’aujourd’hui, de procéder à notre étude.

3.1 Études de type quantitatif

Comme nous l’avons établi auparavant, de nombreuses études basées sur des

données quantitatives uniquement ont été entreprises ou menées depuis les années 1960.

Ces études ont eu comme but d’analyser la validité prédictive de nombreux types de tests,

maisons ou standardisés. Sako et Fruchter (1965), par exemple, ont analysé le potentiel

prédictif d’une batterie de tests « maison » utilisée par l’United States Air Force

Academy pour sélectionner ses candidats étrangers locuteurs non natifs de l’anglais pour

les programmes militaires offerts aux militaires de pays alliés. Les résultats des analyses

corrélationnelles effectuées ont poussé les administrateurs de ces programmes à changer

leur mode de recrutement en les simplifiant, car certains éléments de la batterie utilisée se

Page 85: Analyse de la validité prédictive d’une épreuve

65

sont révélés inutiles. Ici donc, la procédure a servi à améliorer les procédures de sélection

non seulement en les rendant plus pratiques (Bachman & Palmer, 1996) mais aussi plus

fiables car moins sujettes à fournir des informations erronées. Jones, Kaplan et Michael

(1964) ont procédé au même type d’étude à l’Université de South California (USC) en

analysant la batterie de sept prédicteurs alors utilisée afin de sélectionner les candidats

étrangers dont l’anglais était une langue seconde ou étrangère. De cette étude, il est

ressorti qu’au moins deux des sept prédicteurs étaient inutiles, voire dangereux dans leur

utilisation car ils donnaient des résultats erronés sur le potentiel des candidats à exceller

dans leurs cours subséquents. Là encore, des gestes ont été posés afin de remédier à la

situation et améliorer le système en place.

Les études de ce type sont nombreuses et abordent des tests variés, que ce soit des

tests « maisons » ou des tests standardisés à très grands enjeux utilisés mondialement. Les

outils et méthodologies quantitatives, les contextes, les sujets et les résultats varient

grandement selon la recherche entreprise, et comme nous l’avons mentionné auparavant,

il est difficile pour un chercheur qui entreprend une nouvelle étude de la validité

prédictive d’émettre une hypothèse solide tant les résultats obtenus dans les recherches

précédentes peuvent différer. Les contextes varient du niveau primaire (Blais, 2001 ;

Kettler, Elliot, Davies & Griffin, 2011 ; Sheppard, 1979 ; Webb & Patte, 1970) au niveau

universitaire dans différents pays (Akeju & Michael, 1970 ; Bayliss & Raymond, 2004 ;

Phakiti, 2008). Le nombre de sujets est aussi un critère qui tend à varier énormément :

dans les études que nous avons eu le loisir de lire et dont les auteurs avaient opté pour

une approche quantitative uniquement, le nombre de sujets oscille entre quarante-deux

(Alavi, 2012) et plus de 20,000 (Weiner & Kay, 1972) dans le cas d’études effectuées sur

Page 86: Analyse de la validité prédictive d’une épreuve

66

le terrain, et même jusqu’à plus de 82,000 sujets dans le cas de la méta analyse du

Graduate Record Examination (Kuncel, Hezlett & Ones, 2001). Les caractéristiques des

sujets eux-mêmes peuvent aussi varier de façon importante : l’âge, bien entendu, est une

des caractéristiques qui offre une grande variété, mais aussi l’origine (nationalité) des

sujets : Thaïlande (Gue & Holdaway, 1973), Bahreïn (Al-Musawi & Al-Ansari, 1999),

Vietnam (Huong, 2001), Mali (Lai et al, 2008), Chine (Hwang & Dizney, 1990 ; Yen et

Kuzma, 2009) ou un échantillon constitué de plusieurs nationalités mélangées (Cho &

Bridgeman, 2012 ; Sako & Fruchter, 1965). De même, on assiste dans ces recherches à

l’analyse d’un test imposé à tous les candidats, peu importe leur statut par rapport à la

langue du test analysé, langue maternelle ou langue seconde (Dooey, 1999 ; Lai et al,

2008 ; Morris & Cobb, 2003).

Un autre aspect spécifique des recherches de type quantitatif à observer avec soin

est le choix des données analysées par les chercheurs. Puisqu’il s’agit de recherches

visant à analyser la validité prédictive de différents outils et tests, maison ou standardisés,

toutes les études que nous avons lues jusqu’à présent sont basées sur les comparaisons ou

corrélations d’au moins un prédicteur (la variable indépendante) et d’un critère (variable

dépendante). S’il était attendu que les prédicteurs varieraient énormément (après tout, il

existe plus d’un test), il est tout de même étonnant de voir à quel point les critères

peuvent être nombreux. Bien entendu, ces derniers sont tributaires du contexte dans

lequel est située l’étude en question : il est ainsi parfaitement normal d’utiliser la

moyenne cumulative générale (Grade Point Average, GPA) ou des équivalents, comme

par exemple le Graduate Management Admission Test (GMAT) (Kuncel, Crede &

Thomas, 2007 ; Sirecci & Talento-Miller, 2006) au niveau universitaire (Black, 1991 ;

Page 87: Analyse de la validité prédictive d’une épreuve

67

Cope, 2011 ; Dooey & Oliver, 2002) alors que les études dont le contexte est un milieu

primaire analysent des critères plus spécifiques à ce contexte particulier, comme le First

Grade Screening Test (Webb & Patte, 1970). À noter cependant que la plupart des études

entreprises dans un contexte universitaire, et qui se rapprochent donc du contexte de la

présente recherche, utilisent la moyenne générale cumulative ou une variante de cette

moyenne comme critère externe. Ce choix est une constante à souligner dans la majorité

des études quantitatives de la validité prédictive des tests d’admission au niveau

universitaire, qu’il s’agisse d’évaluer la validité prédictive d’un test de langue ou de tests

d’aptitudes divers (voir les prédicteurs ci-dessous).

En termes de prédicteurs (variables indépendantes), les études que nous avons

recueillies et classées jusqu’à présent dans le cadre de cette étude mettent en scène la

majorité des tests de langue standardisés à grands enjeux les plus courants : ainsi, le Test

of English as a Foreign Language (TOEFL) (Al-Musawi & Al-Ansari, 1999 ; Gue et

Holdaway, 1973 ; Ayers & Peters, 1997) et sa version informatique, le TOEFL IBT (Cho

& Bridgeman, 2012), le International Student Admission Test (ISAT), très courant en

Australie (Lai et al, 2008), le Graduate Record Examination (GRE) (Kuncel, Hezlett &

Ones, 2001 ; Kuncel, Wee, Hezlett & Serafin, 2010 ; Sharon, 1972), le Scholastic

Assessment Test (SAT) (Pearson, 1993), le First Certificate in English (FCE) (Al-

Musawi & Al-Ansari, 1999) ou encore l’International English Language Test System

(IELTS) sont tous évalués dans les analyses de la validité prédictive lues jusqu’à présent.

Ce dernier a d’ailleurs fait l’objet de très nombreuses recherches (Breeze & Miller, 2012 ;

Dooey & Oliver, 2002 ; Fiocco, 1992 ; Huong, 2001 ; Oliver, Vanderford & Grotte, 2012

; Phakiti, 2008 ; Yen & Kuzma, 2009) et ses divers attributs sont réévalués régulièrement.

Page 88: Analyse de la validité prédictive d’une épreuve

68

Ainsi, on voit que le choix des prédicteurs est vaste et qu’un éventail étendu est offert aux

administrateurs parmi lequel ils peuvent choisir. En fait, à titre d’indication, Coley (1999)

a procédé à l’analyse de tous les indicateurs académiques utilisés par trente-sept

universités australiennes à des fins d’admission ou de classement des nouveaux

candidats, soit soixante-et-un prédicteurs en tout!

Comme nous l’avons mentionné auparavant, il est difficile de voir une tendance

prononcée en termes de résultats à travers toutes les études recensées jusqu’à présent.

Parmi ces études, force est de constater que les chercheurs sont parvenus à des résultats

contradictoires par rapports aux résultats de leurs prédécesseurs. Ainsi, certains

chercheurs arrivent à une réponse claire et tranchée appuyée sur des corrélations

significatives et importantes (Blais, 2001; Huong, 2001 ; Lai, Nankervis, Story, Hodgson,

Lewenberg & MacMahon-Ball, 2002), d’autres obtiennent des résultats qui démontrent

qu’il n’existe pas de corrélation entre le prédicteur analysé et le critère choisi (Gue &

Holdaway, 1973 ; Hwuang & Dizney, 1999 ; Phakiti, 2008) alors que, finalement, la

dernière catégorie de recherches mettent en valeur des résultats trop mitigés pour être

considérés solides (Alavi, 2012 ; Dooey, 1999 ; Feast, 2002). Parmi celles-ci, celle

effectuée par Morris et Cobb (2003) nous rejoint particulièrement à cause du contexte

dans lequel elle a été entreprise. En effet, les auteurs ont effectué cette recherche dans un

contexte qui se rapproche énormément du nôtre, c’est-à-dire dans une université

francophone du Québec, auprès de 122 étudiants, locuteurs natifs du français ou de

l’anglais, inscrits dans un programme de formation à l’enseignement d’une langue

seconde (baccalauréat en enseignement de l’anglais langue seconde). La question de

recherche était la suivante : « L’analyse d’un texte argumentatif produit par les candidats

Page 89: Analyse de la validité prédictive d’une épreuve

69

à l’entrée dans le baccalauréat en enseignement de l’anglais langue seconde en utilisant

VocabProfiler est-elle suffisante pour prendre une décision éclairée sur l’admission de

ces candidats? ». La méthodologie choisie par les chercheurs est basée sur la comparaison

et la corrélation entre l’analyse lexicale d’un essai de 500 mots rédigé en anglais (L1 ou

L2, selon les candidats) par les participants et les notes obtenues par ces participants à

deux cours de grammaire obligatoires dans leur cheminement. Les résultats de ces

corrélations, effectués en utilisant le coefficient de corrélation produit-moment de

Pearson (aussi appelé r de Pearson), indiquent qu’il y aurait une corrélation significative

modérée (0,37 étant le résultat le plus élevé entre les compétences lexicales, examinées

dans les essais analysés, et les notes des deux cours de grammaire visés). Un élément

important à souligner et à prendre en considération ici et pour l’interprétation des

résultats dans les études de type quantitatif en général est que le coefficient maximum de

corrélation obtenu semble plafonné à .3 (ou avoisinant). Ce chiffre peut paraitre bien bas,

mais comme l’avancent Alderson, Clapham et Wall : « ...in predictive validity studies, it

is common for test developers and researchers to be satisfied when they have achieved a

coefficient as low as 0.3! » (Alderson, Clapham & Wall, 1995, p. 182). Ce coefficient est

d’ailleurs considéré comme un mètre-étalon acceptable en termes de corrélation pour la

plupart des études de la validité prédictive recensées ici, ce qui fait écho à ce que nous

avons déjà mentionné dans notre cadre théorique (Brown, 1983).

À partir de ces résultats, les chercheurs avancent l’idée d’une correspondance

entre la connaissance lexicale et la réussite à un certain type de cours (cours

« procéduraux », selon les auteurs, c’est-à-dire étant évalués par des moyens plus

objectifs visant un contenu à apprendre). Cependant, les auteurs appuient le fait que ce

Page 90: Analyse de la validité prédictive d’une épreuve

70

type d’examen (test de vocabulaire) ne peut et ne doit pas être utilisé seul, mais intégré à

un ensemble de tests complet qui déterminera de manière plus sûre le potentiel des

candidats. Un aspect important que les chercheurs mettent en relief dans la discussion est

que les opérations statistiques utilisées dans leur étude n’incluaient que les résultats des

candidats qui avaient réussi le test de sélection. Les résultats des candidats les plus faibles

n’ont pas été observés ni analysés, ce qui limite grandement la portée des résultats

obtenus, toujours selon les chercheurs. Les analyses statistiques ont de plus été séparées

en deux parties, soit les candidats dont la langue maternelle était l’anglais et ceux dont

l’anglais était une L2. Cette différenciation a engendré des résultats mitigés ; dans notre

recherche, tous les candidats sont considérés comme locuteurs du français L1 car tous

doivent se soumettre au même test de compétence linguistique.

Blais (2011), de son côté, n’a pas eu à différencier ses sujets en deux groupes

puisqu’ils étaient tous locuteurs natifs, mais dans un contexte bien différent. Dans son

étude, l’auteur a voulu vérifier s’il y avait une corrélation significative entre les résultats

obtenus par les élèves du niveau primaire au test d’entrée à l’école secondaire, le

Canadian Achievement Test (CAT), censé mesurer les habiletés des élèves nouvellement

admis à l’école secondaire, et leurs résultats en neuvième année en mathématiques et en

anglais (langue maternelle des sujets). Blais a comparé les résultats obtenus au CAT par

les 120 élèves de trois programmes différents au sein d’une même école d’Edmonton et

les notes finales de neuvième année en utilisant le r de Pearson et a trouvé des

corrélations significatives entre certains volets du CAT et les résultats obtenus par les

sujets (soit les sections correspondant à la lecture, aux habiletés d’études, aux

mathématiques). Selon l’auteur, ces résultats signifient que les volets du CAT

Page 91: Analyse de la validité prédictive d’une épreuve

71

correspondant à la lecture, aux habiletés d’études et aux mathématiques peuvent être

utilisés comme prédicteurs de réussite scolaire définis en termes de résultats au cours des

années suivantes. Les résultats de cette étude ne sont cependant pas généralisables : le

chercheur a bien identifié les limites de sa recherche, soit les caractéristiques de

l’échantillon utilisé (nombre et provenance) et des conditions de passation du test (effet

de l’enseignant qui est aussi évaluateur unique, conditions logistiques de la passation,

etc.).

Usant d’un outil statistique différent mais avec les mêmes visées auprès d’une

clientèle universitaire de langue seconde, Al-Musawi et Al-Ansari (1999) ont tenté de

comparer deux tests de langue reconnus, soit le TOEFL et le FCE l’un par rapport à

l’autre, puis de comparer ces deux tests à la moyenne générale cumulative de quatre-

vingt-six (86) étudiants inscrits dans des cours de langue anglaise (langue seconde) à

l’Université de Bahreïn afin de savoir lequel, du TOEFL ou du FCE, est le meilleur

prédicteur de réussite pour cet échantillon. Pour cela, les chercheurs procèdent à la

corrélation des résultats entre les deux tests ciblés (TOEFL et FCE) et la moyenne

générale cumulative (GPA) en les soumettant à une analyse de la régression, puis à une

analyse linéaire multivariée de la régression. Les résultats favorisent le FCE, qui montre

une corrélation plus forte que le TOEFL, tout en étant peu significative. Dans ce cas, une

décision importante a été prise sur la base de résultats peu convaincants. Cette étude fait

donc ressortir l’importance de procéder à plusieurs études de validité prédictive dans un

contexte spécifique afin de pouvoir posséder des éléments probants et ainsi prendre une

décision éclairée. Cet aspect décisionnel est bien entendu sous-jacent à toute étude de

validité prédictive : il s’agit d’évaluer le potentiel d’un test à donner des informations

Page 92: Analyse de la validité prédictive d’une épreuve

72

utiles et pertinentes à une prise de décision importante qui aura un impact direct sur les

acteurs du contexte, l’institution et la société au sens plus large.

Bien qu’elle soit très vieille, l’étude de Gue et Holdaway (1973) reste une

recherche phare dans le domaine de l’étude de la validité prédictive des évaluations et

nombreux sont les chercheurs qui s’y réfèrent. Les chercheurs analysent la validité

prédictive d’un test standardisé à grands enjeux comme une partie du processus de

sélection de candidats de langue seconde à l’admission dans une université anglophone.

Le contexte de leur recherche est bien particulier : il s’agit des entrevues et des études de

dossiers de candidats asiatiques (dont l’anglais est la langue seconde) à un cours de

langue offert par une université d’Edmonton (Alberta) dans les années 1960 et 1970.

Dans ce contexte, les responsables administratifs devaient trouver un moyen de

sélectionner leurs futurs étudiants étrangers de manière fiable et surtout à des coûts peu

élevés. La solution choisie était d’utiliser le TOEFL (Test of English as a Foreign

Language) comme première étape dans le processus de sélection, suivi d’une entrevue

des candidats. Gue et Holdaway ont cherché à trouver des réponses aux questions

suivantes : 1) Est-ce que le TOEFL est un prédicteur fiable de la moyenne cumulative

finale pour l’échantillon d’étudiants thaïlandais sélectionné? 2) Quel est le meilleur

prédicteur dans ce contexte : l’entrevue multi-juges ou le TOEFL? Et 3) Quelle est

l’efficacité du programme d’été en anglais pour les étudiants thaïlandais? Pour répondre à

ces questions, les auteurs ont comparé plusieurs types de données, recueillis à différents

moments et sur une période de sept ans. Ils ont commencé par compiler les résultats de

cent-vingt-trois (123) enseignants thaïlandais candidats à un stage de formation en

enseignement dispensé pendant l’été par l’Université de l’Alberta, à Edmonton, Canada.

Page 93: Analyse de la validité prédictive d’une épreuve

73

Pour être sélectionnés, les candidats devaient passer deux tests de langue anglaise conçus

et organisés par leur responsable local, réussir ensuite le test de compétence langagière en

anglais (L2) sélectionné par le British Council en Thaïlande, puis finalement passer une

entrevue devant un panel de trois examinateurs, toujours en Thaïlande. À leur arrivée à

Edmonton, les candidats devaient passer une première fois le TOEFL, puis une autre fois,

trois mois après le début du programme. Les données correspondant à chaque partie et

pour chaque étudiant pendant une période de sept (7) ans sont corrélées en utilisant le

coefficient de Pearson (produit-moment).Une analyse de régression multiple pas à pas a

ensuite été effectuée afin de déterminer le meilleur prédicteur de la moyenne générale

cumulative : sous composantes du TOEFL, score général du TOEFL, tests passés en

Thaïlande, test du British Council, ou encore l’entrevue pré-départ.

Les résultats de cette étude montrent que, d’une part, l’analyse statistique ne met

pas en évidence une quelconque relation entre les résultats aux deux volets de la sélection

(TOEFL et entrevue), mais que, d’autre part, les résultats des postulants sélectionnés lors

de ce processus à la fin des cours d’été suivis en Alberta ne correspondent pas à ceux

obtenus lors de la sélection. Cette étude met alors en évidence l’impossibilité de se baser

sur des résultats, quels qu’ils soient, dans le but de prédire les performances futures d’un

apprenant à cause de la multitude des variables non contrôlées qui peuvent influencer les

résultats finaux des sujets, tels que les facteurs sociaux-affectifs, le dépaysement, le

déracinement culturel, les difficultés à s’adapter au mode de vie occidental pour les

étudiants sélectionnés, etc. Les auteurs émettent de plus de nombreuses réserves envers

l’utilisation du TOEFL comme moyen de recrutement ou de sélection (ce n’est pas le but

premier du test), mais aussi envers la mise en place d’un processus de recrutement par

Page 94: Analyse de la validité prédictive d’une épreuve

74

entrevues. Les chercheurs mettent de l’avant le caractère subjectif des évaluations qui ont

eu lieu alors, parfois effectuées par des évaluateurs non formés en langue seconde dans le

but de conserver les coûts au plus bas.

Ces conclusions sont renforcées par Romainville (1997) alors qu’il s’appuie sur

de nombreuses études pour démontrer qu’il n’existe pas de moyen infaillible de prédire la

réussite des étudiants de première année universitaire en Belgique. Il identifie plusieurs

types de facteurs (sociaux, cognitifs, etc.) pour mettre en relief la difficulté, voire

l’inutilité, de tenter d’avoir recours de manière systémique à un moyen prédéterminé de

mesurer le potentiel de réussite de nouveaux admis dans divers programmes. Une des

études qu’il cite (Romainville, 1992) met en lumière la possibilité d’évolution positive ou

négative des étudiants malgré leur profil initial, tributaire de leur origine linguistique, de

leur établissement d’origine, de leur cote, des résultats obtenus lors de l’examen terminal

de l’école secondaire, etc. Pour démontrer cela, Romainville met en parallèle les cotes à

l’entrée d’étudiants locuteurs natifs d’une des trois langues officielles de Belgique

(français, allemand et néerlandais), de divers domaines d’études et leur moyenne générale

en fin de cheminement universitaire. On remarque une complète absence de corrélation

significative, et ce dans n’importe quel domaine d’études.

Le problème identifié par Romainville est un trait propre à son contexte d’étude,

la Belgique, dont le système d’éducation ne possède pas de critère commun pour tous les

élèves finissant l’école secondaire, comme c’est le cas dans la majeure partie des pays

européens, en Amérique du Nord ou les pays développés. En effet, il est important ici de

souligner que la Belgique ne dispose pas d’un examen standardisé qui sanctionne la fin

des études secondaires, comme le fait le Baccalauréat Général en France, les examens du

Page 95: Analyse de la validité prédictive d’une épreuve

75

A-Level (Advanced Level) au Royaume-Uni, ou le Abitur de chaque Länder (région) en

Allemagne, qui sont tous des examens standardisés obligatoires qui sanctionnent la fin

des études secondaires et dont les participants ont un âge similaire (17 à 19 ans). En

Belgique, il revient à chaque école d’évaluer ses finissants, mais aucun test n’est fourni

par quelconque institution gouvernementale. Selon Romainville, la conséquence directe

de cette particularité est que les universités belges ne peuvent pas prendre en compte un

résultat issu d’un test commun à tous et s’en servir comme d’un mètre-talon pour porter

un jugement sur la capacité des nouveaux admis à réussir leur adaptation aux études

universitaires et, en fin de cheminement, obtenir leur diplôme. De nombreux candidats

sont donc admis à des programmes universitaires sans que les autorités sachent

réellement s’ils sont capables d’en suivre les cours avec un certain degré de succès.

Romainville fait ressortir une statistique impressionnante : le taux d’échec en première

année universitaire en Belgique est de près de 50%. De là, l’importance pour les

universités belges de trouver un moyen de porter un jugement sur leurs nouveaux admis

avant cet échec, et ce, le plus tôt possible, afin de pouvoir, au besoin, proposer aux

candidats les moins à même de réussir la première année des cours spécifiques avant ou

pendant leur première année d’étude et ainsi leur donner les outils nécessaires à la

réussite. Romainville pose donc les questions suivantes : 1) Peut-on prédire la réussite

d’une première année universitaire à partir des caractéristiques d’entrée (pré acquis,

histoire scolaire, etc.) des candidats? 2) Peut-on prédire la réussite universitaire à partir

des premières indications de leur adaptation académique à l’université? et 3) Peut-on

prédire, sur la base de la réussite universitaire, la réussite professionnelle? Pour répondre

à ces questions, Romainville compare premièrement la note ou cote de fin d’études

Page 96: Analyse de la validité prédictive d’une épreuve

76

secondaires de chaque candidat à trois programmes d’études à leur moyenne générale

cumulative (GPA) obtenue à la fin de la première année ; le chercheur compare ensuite

les scores obtenus par chaque étudiant à une épreuve diagnostique obligatoire au tout

début de la première année à la moyenne générale cumulative en fin de cheminement.

L’épreuve diagnostique en question est divisée en quatre parties. Deux de ces parties

concernent la compétence langagière des candidats (un test de connaissances du code

linguistique du français de type questionnaire à choix multiples (QCM) et un cloze test,

dans lequel les candidats doivent compléter un texte à trou selon la classe de mot

appropriée sans le contexte (Grotjahn, 2006 : Hughes, 1989 : Oller, 1973) et deux autres

parties qui visent à évaluer les connaissances générales des candidats à l’entrée à

l’université : un test de type QCM ciblant les préalables de repères chronologiques (dates

importantes de l’Histoire) qui devraient être connus par les étudiants universitaires et une

test (QCM) ciblant les connaissances en termes de repères géographiques attendus par

des étudiants de niveau universitaire).

Romainville arrive à la conclusion que non seulement il n’existe pas de

corrélation assez significative entre les résultats aux différentes sections du test d’entrée

et les résultats finaux des candidats (moyenne cumulative finale) pour être en mesure de

prédire la réussite à partir d’un des éléments cités ci-dessus, mais qu’il est aussi

primordial de prendre en considération d’autres types de facteurs (sociaux, cognitifs,

voire même contextuels et individuels) pour expliquer la réussite ou l’échec des étudiants

universitaires, tout comme l’avaient énoncé Gue et Holdaway en 1973. Quant à la

possibilité de prédire le succès professionnel à partir d’éléments tangibles, tels que la

moyenne générale cumulative, Romainville explique qu’avant même de se poser cette

Page 97: Analyse de la validité prédictive d’une épreuve

77

question, il faut définir clairement les critères qui déterminent la réussite professionnelle

au plan individuel et au plan social. Tel que nous l’avons mentionné précédemment, un

tel exercice nécessiterait une longue et coûteuse étude, et à notre connaissance, aucune

étude de ce type n’a été entreprise dans notre contexte. La dernière question de recherche

posée par Romainville anticipe les recommandations des membres de l’AQPF (2001),

sans toutefois y apporter de réponse. Cette lacune, mise en lumière par Romainville, ne

fait que souligner le besoin pressant pour une telle recherche auprès des professionnels de

l’enseignement en emploi.

3.2 Études de type mixte : données quantitatives et qualitatives

Les conclusions de Gue et Holdaway (1973), reprises par Romainville (1997)

dans ses études en Belgique ou Elder dans le contexte australien (1993 ; 2001),

influencent bien entendu les recherches subséquentes. Ainsi n’est-il pas surprenant de

trouver de plus en plus d’études visant l’analyse de la validité prédictive qui vont au-delà

de la simple analyse statistique et qui incorporent plus de facteurs dans leurs analyses.

Ces études s’appuient aussi souvent sur les conclusions apportées par Graham (1987) qui

identifie plusieurs faiblesses de l’approche quantitative uniquement. En effet, dans sa

recension des écrits, Graham (1987) établit plusieurs manquements, méthodologiques

pour la plupart, qui attestent de la complexité des études sur la validité prédictive d’une

épreuve langagière. Elle traite entre autres des problèmes liés au traitement statistique des

données recueillies, c’est-à-dire des différences énormes dans les indicateurs de

corrélation selon la méthode statistique utilisée. Dès lors, on peut se demander si tous les

résultats obtenus ne peuvent pas être mis en doute ou invalidés, uniquement à cause de

l’outil statistique choisi par le chercheur. Graham met ensuite en doute le choix du critère

Page 98: Analyse de la validité prédictive d’une épreuve

78

utilisé pour évaluer la validité prédictive, c’est-à-dire qu’elle met en garde les futurs

chercheurs contre l’utilisation de la moyenne générale cumulative, et insinue que, peut-

être, ce critère n’est pas un indicateur de réussite assez fiable et que, de ce fait, les

conclusions basées sur la corrélation avec ce critère peuvent s’avérer erronées. Cette

remarque importante concernant la validité du critère choisi doit donc être conservée en

tête dans toute analyse de la validité prédictive.

Ensuite, et toujours en s’appuyant sur des exemples concrets, Graham (1987)

présente les limites des épreuves de compétence langagière utilisées comme prédicteur.

La scientifique traite ici d’une question centrale pour toute personne impliquée en

évaluation, soit la pertinence de l’épreuve utilisée dans chacun des contextes dans lequel

elle est utilisée, son but, sa portée, les caractéristiques des participants, etc. En somme, sa

validité de construit. Graham pose aussi la question de la justesse de l’évaluation, à savoir

si l’on peut réellement se fier aux résultats d’une épreuve ponctuelle dans un contexte

particulier avec tout ce qu’elle entraine de stress et de nervosité, pour évaluer le niveau de

compétence langagière d’un sujet.

On voit alors émerger un nouveau « courant » méthodologique qui conjugue la

méthode quantitative traditionnelle et la méthode qualitative, explorant et multipliant

ainsi les outils de cueillette de données ainsi que le type de données recueillies. On note

une utilisation accrue d’outils de type questionnaires, par exemple, adressés aux sujets

afin d’obtenir des renseignements qualitatifs sur eux-mêmes et sur leurs perceptions

(Cotton & Conrow, 1998). Les entrevues dirigées ou semi-dirigées sont aussi de plus en

plus courantes (O’Loughlin, 2008). De même, on assiste de plus en plus à une cueillette

de données auprès des enseignants et des membres des facultés (administrateurs ou

Page 99: Analyse de la validité prédictive d’une épreuve

79

personnel de support) par le biais de questionnaires et d’entrevues afin de pouvoir croiser

ces données avec celles recueillies auprès des étudiants (Elder, 1993 ; Kerstjens & Nery,

2000 ; Woodrow, 2006) auxquelles s’ajoutent parfois des transcriptions et analyses

discursives des travaux des étudiants (Bayliss & Ingram, 2006) ou encore des études de

cas, très limitées par le nombre de sujets, mais dont les données quantitatives sont

développées à l’extrême (Paul, 2007).

En termes des tests analysés (prédicteurs), comme c’était le cas pour les

recherches de type quantitatif, la plupart des tests standardisés de grands enjeux sont

abordés. Ainsi sont passés au crible l’IELTS (Elder, 1993 ; 2001 ; Ferguson & White,

1998 ; Lloyd-Jones, Neame & Medaney, 2012) et le TOEFL (Hill, Storch & Lynch,

1999). D’autres tests, aussi à grands enjeux mais moins répandus sur la planète, font aussi

l’objet d’études approfondies et détaillées de leur potentiel prédictif : Fulcher (1997)

analyse le test utilisé par l’Université du Surrey pour évaluer les candidats locuteurs

natifs et non natifs ; Lee et Greene (2007) évaluent le test de placement « maison » d’une

grande université américaine ; Alderson, Clapham et Wall (1994) évaluent le test

« maison » utilisé à l’Université de Lancaster pour le placement des candidats dont

l’anglais est la langue seconde.

La recherche d’Elder (1993) est un bel exemple de cette approche mixte et met le

doigt sur plusieurs problèmes d’ordre méthodologique. Les arguments de la chercheure

nous poussent à nous poser des questions sur l’utilisation de la moyenne générale

cumulative comme critère dans les études de la validité prédictive des tests de langue.

Le contexte de l’étude entreprise par Elder est l’utilisation d’un test de

compétence langagière (IELTS, en l’occurrence) pour l’admission d’étudiants étrangers

Page 100: Analyse de la validité prédictive d’une épreuve

80

(et donc, d’anglais langue seconde) aux programmes de formation de deuxième cycle en

enseignement de six institutions d’enseignement différentes dans la région de Melbourne,

Australie. Les questions de recherche sont les suivantes : 1) Les performances des

étudiants étrangers au test IELTS sont-elles un bon indicateur de réussite dans des études

de deuxième cycle en éducation? 2) Quel est le degré de précision de l’IELTS par rapport

aux procédures de sélection de chaque institution? 3) Quel est le seuil de réussite optimal

de l’IELTS pour l’accès à des programmes de formation en enseignement? 4) Est-ce que

le degré de réussite aux différents volets de l’IELTS prédit les difficultés éprouvées par

les étudiants étrangers à accomplir les tâches dans les cours du programme? Et

finalement 5) Est-ce que l’exposition à la langue pendant la formation affecte le lien entre

les prédictions et les résultats en fin de cheminement? Les questions de recherche 1 et 4

ont pour objectif de prédire la réussite des sujets à partir d’un seul test administré en tout

début de cheminement. Les questions 2 et 3 ciblent le test IELTS et ses caractéristiques

par rapport à d’autres mécanismes disponibles. Quant à la question 5, elle aborde le sujet

de l’effet d’entrainement, c’est-à-dire, dans quelle mesure la familiarité des sujets avec le

test peut-elle expliquer les résultats obtenus?

Elder explique ensuite très clairement les limites de l’utilisation de la moyenne

générale cumulative car cette dernière prend en compte tous les cours suivis par

l’étudiant, ce qui signifie aussi les stages. Cette formation pratique faisant partie

intégrante de la formation des futurs enseignants (dans notre cas, les stages représentent

jusqu’à 25% du nombre total des crédits d’un programme de formation initiale en

enseignement), et si l’on considère les modalités d’évaluation de ces cours-stages (une

partie non négligeable de la note finale de ces stages, jusqu’à 50% dans certains cas,

Page 101: Analyse de la validité prédictive d’une épreuve

81

revient généralement à l’enseignant associé jumelé à l’étudiant évalué pendant le stage),

on se rend vite compte que cette note ne repose malheureusement pas sur des principes

d’évaluation assez fiables pour pouvoir être prise en considération. Il en résulte que la

moyenne générale de l’étudiant est potentiellement faussée par le regard d’un enseignant

trop strict ou trop laxiste. Selon Elder, utiliser la moyenne générale cumulative revient

donc à travailler avec des données corrompues dès le départ, ce qui constitue un problème

méthodologique quasiment impossible à contourner. À partir de cette prémisse, il est

facile de comprendre que toute tentative de corrélation entre les résultats à une épreuve

de compétence langagière d’entrée à un programme en enseignement qui comporte des

stages et la note de moyenne générale cumulative se résume à un exercice invalide

d’avance.

Malgré cette limite importante, Elder décide de poursuivre son étude et arrive à

des conclusions qui précèdent les conclusions avancées dans l’étude de Romainville

(1997). Sa cueillette de données s’est déroulée en deux volets : d’abord, Elder a comparé

les résultats obtenus à un test de compétence langagière (IELTS) imposé à 32 étudiants

étrangers (et dont l’anglais est la langue seconde) admis dans 6 universités australiennes

dans des programmes de formation en enseignement et les a comparés à la moyenne

générale cumulative pour chacun des sujets à la fin de chacun des deux semestres du

programme (mai et septembre). Ensuite, Elder a recueilli des données qualitatives par le

biais d’un questionnaire envoyé aux mêmes sujets dans le but d’établir la validité

apparente du test IELTS dans le contexte d’admission à des programmes de formation en

enseignement. Le questionnaire était composé de trois parties : la première partie était

destinée à connaitre l’opinion des sujets sur l’IELTS comme mesure de leur compétence

Page 102: Analyse de la validité prédictive d’une épreuve

82

langagière ; la deuxième partie devait établir leur exposition à la L2 suite à la passation

du test ; la dernière partie devait mettre en évidence les perceptions que les sujets avaient

au sujet de la difficulté des divers aspects des cours qui composaient le programme visé.

Il apparait que les corrélations, bien que peu élevées, soient significatives pour le

premier semestre (corrélation de 0,35 pour la note globale au test IELTS, quoique,

comme le répètent ad nauseam Clapham, Alderson et Wall (1995), ce chiffre semble

représenter le maximum que l’on peut espérer dans les recherches de la validité

prédictive), mais que cette corrélation s’atténue au deuxième semestre (0.14).

L’hypothèse avancée par Elder est que le niveau de compétence langagière a un fort

impact sur les performances des sujets au premier semestre, mais que cet impact tend à

diminuer au fur et à mesure que les sujets sont exposés à la langue seconde, qui est aussi

la langue d’enseignement. Ce sont alors d’autres facteurs qui prennent une plus grande

part dans les résultats obtenus par les étudiants. En somme, Elder avance que la

compétence langagière constitue un facteur de réussite plus important lorsque le niveau

de langue est moins élevé (débutant) et que d’autres facteurs ont une influence plus

importante sur la réussite que la compétence langagière. Cette idée n’est bien entendu

valable que dans le cas où les sujets sont des locuteurs non natifs de la langue-cible.

Cette relation ambiguë entre la compétence langagière et le succès académique

reste donc au centre des préoccupations à la fois des chercheurs et des administrateurs des

programmes universitaires pour qui le choix d’un prédicteur efficace est un enjeu

pécuniaire et financier (Lloyd-Jones, Neame & Medaney, 2012). Alderson, Clapham et

Wall (1994) abordent cette question importante dans leur analyse du test de placement

utilisé à l’Université de Lancaster (Royaume-Uni) mais ne se soucient pas simplement du

Page 103: Analyse de la validité prédictive d’une épreuve

83

potentiel prédictif du test « maison » créé à même l’université. Leur objectif est triple :

premièrement, les chercheurs ont voulu évaluer la validité du test en comparant son

contenu au contenu des cours que les sujets auront à suivre pendant leurs programmes

respectifs. Ensuite, la validité apparente (face validity) est évaluée par le biais d’un

questionnaire soumis aux sujets, tous étudiants dont l’anglais n’est pas la langue

maternelle. Troisièmement, la validité critérielle concourante est mesurée en comparant

les scores au test de placement maison aux autoévaluations faites par les sujets et par les

appréciations des enseignants pour chaque sujet. Finalement, les enseignants des cours de

mise à niveau en langue seconde (anglais) doivent se prononcer sur la justesse des

placements qui ont résulté des interprétations des scores au test de placement.

En tout, les chercheurs se sont appuyés sur les données recueillies pour un

échantillon de 130 sujets. Les outils sont de trois natures : le score des sujets au test de

placement, des entrevues avec les enseignants des divers cours (dont les cours de mise à

niveau), et les questionnaires remplis par les sujets. L’analyse de toutes ces données

semblent indiquer que le test maison, créé par l’Institute for English Language Education

(IELE) de l’Université de Lancaster, remplissait le mandat qui était le sien à l’époque où

la recherche a été entreprise.

Cette recherche, entreprise dans un cadre spécifique et sans la prétention d’être

généralisable à d’autres contextes, démontre parfaitement la tendance à a cueillette de

données mixtes, quantitatives et qualitatives, ainsi qu’au croisement de ces données.

Grâce à cette approche hybride, les chercheurs ont pu se baser sur des données ancrées

dans leur contexte particulier et ont pu transcender la simple interprétation de résultats

statistiques. L’apport des données qualitatives permet de moduler les interprétations et

Page 104: Analyse de la validité prédictive d’une épreuve

84

ainsi développer une réflexion plus complète et approfondie sur les changements

éventuels à apporter à l’utilisation des tests. Grâce à cette réflexion basée sur des preuves

aussi solides que multiples, il est possible de croire que les changements ne seront que

bénéfiques pour tous les acteurs impliqués : étudiants, enseignants, administrateurs, et de

manière plus large, la société en général.

Si l’étude par Alderson, Clapham et Wall (1994) se restreint à leur milieu

spécifique et au test maison utilisé à l’Université de Lancaster, l’étude suivante doit être

considérée comme une étude dont le contexte est beaucoup plus généralisable en plus

d’être d’un intérêt particulier pour notre propre recherche. Dans cette étude, Elder (2001)

a tenté de démontrer que la tâche de prédire la réussite des étudiants locuteurs natifs dans

un contexte de programme de formation initiale en enseignement est extrêmement

complexe et difficile. La chercheure porte en effet notre attention sur une autre

problématique chère à de nombreux chercheurs en mesure et évaluation et reprend les

idées développées par Bachman (1990) et Bachman et Palmer (1996) en parlant du

Target Language Use (TLU), soit le type de langue adapté à la situation réelle. Son

argument principal est qu’il est difficile, voire impossible, de mesurer les compétences

langagières des enseignants hors du contexte particulier de la classe, contexte qui

caractérise et définit la mission principale des enseignants et donc représente les

conditions d’utilisation de la langue cible propre à la profession. Cette remarque nous fait

nous questionner sur l’utilisation même d’un test de langue standardisé à l’extérieur du

contexte « classe » pour évaluer les compétences langagières d’un corps de métier si

particulier que le corps enseignant. En effet, les enseignants doivent composer avec

tellement d’impondérables dans les situations d’enseignement et d’apprentissage sans

Page 105: Analyse de la validité prédictive d’une épreuve

85

jamais cesser d’adapter leur discours à leur auditoire, ce qui rend l’extraction et

l’évaluation d’éléments appartenant à la langue spécialisée des enseignants quasi

impossible hors du cadre de la classe. Pour expliquer cette difficulté, l’auteure s’appuie

sur la définition d’un test de Language for Specific Purposes (LSP) par Douglas (2000) :

[A test] in which the test content and methods are derived from an analysis

of the characteristics of the specific target language use situation, is that

test tasks and content are authentically representative of the target

situation, allowing for an interaction between the test taker’s language

ability and specific purpose content knowledge, on the one hand, and the

task, on the other. Such a test allows us to make inferences about a test

taker’s capacity to use language in the specific purpose domain. (p. 19)

À partir de cette définition des tests de LSP, Elder passe en revue trois procédures

d’évaluation de la compétence langagière des enseignants en service ou en formation, à

savoir premièrement, un examen de sélection des enseignants formés à l’extérieur du

pays et dont l’anglais est la L2 (soit le Diploma of Education Oral Interview Test of

English, ou DOITE), deuxièmement, une série de supervisions visant les enseignants dont

l’anglais est la L2 pendant leur période de stage en milieu professionnel (le Classroom

Language Assessment Schedule, ou CLAsS) et finalement un test de compétence

langagière de la langue cible (italien ou japonais) pour les futurs enseignants de ces deux

langues secondes, le Language Proficiency Test for Teachers (LPTT). À travers l’étude

de ces trois mesures différentes, Elder souhaitait clarifier trois problèmes liés à

l’évaluation des LSP, le premier étant la spécificité, soit comment définir le domaine visé

(TLU) et comment le distinguer des autres TLU, le deuxième relié à l’authenticité, soit le

degré avec lequel les tâches du test reflètent adéquatement les exigences des situations

réelles du TLU et dans quelle mesure le participant est amené à utiliser la langue cible, et

finalement, le rôle des facteurs non verbaux, ou extralinguistiques, et dans quelle mesure

Page 106: Analyse de la validité prédictive d’une épreuve

86

ces facteurs devraient être pris en compte dans l’évaluation de la compétence langagière

des candidats ou des participants. Afin d’évaluer chacun des tests visés, Elder a utilisé un

cadre construit à partir des caractéristiques du TLU par Bachman et Palmer (1996) et qui

propose de comparer les quatre composantes suivantes entre les tâches du test et le TLU,

soient : les participants, le canal de l’input et de la réponse attendue et la nature de la

relation entre l’input et la réponse donnée. Malheureusement, Elder n’est pas parvenue à

obtenir des résultats concluants ou significatifs dans son étude, ce qui l’a amenée à

avancer que « the construct of teacher proficiency, as operationalized in these

performance-based measures of teacher proficiency, is clearly multidimensional, and this

poses the problem for the interpretation and reporting of performance » (Elder, 2001, p.

163). Même si Elder apporte une piste de solution éventuelle en la séparation des aspects

spécifiques et généraux de la langue utilisée par les enseignants le problème demeure à

explorer et de solutions vérifiées restent à trouver. De plus, Elder souligne

l’incompatibilité fondamentale entre deux dimensions de la langue spécifique aux

enseignants : d’un côté, on s’attend à une compétence langagière élevée de la part des

enseignants, démontrée par une utilisation de mots savants, par exemple, mais d’un autre

côté, la clarté et la simplicité doit aussi être au centre de leurs préoccupations dans le

contexte de la classe afin de véhiculer leurs messages de manière efficace. Le fait que les

évaluations n’aient pas bénéficié d’un accord inter-juges a renforcé cette incompatibilité

en pénalisant certains candidats concentrés sur un niveau élevé de langue, au détriment de

la clarté ou de la simplicité. Le contexte de la recherche d’Elder (2001) ainsi que ses

conclusions sont bien entendu terriblement proches de nos préoccupations puisqu’elles

rejoignent notre contexte de très près. Cette dernière recherche est certainement un

Page 107: Analyse de la validité prédictive d’une épreuve

87

modèle et une inspiration pour notre propre étude, plus particulièrement en termes de

méthodologie.

3.3 Conclusions générales

De toutes les études lues et analysées dans le cadre de cette recherche sur la

validité prédictive d’un test de langue, presque toutes ont comme objet d’étude un test de

langue anglaise comme langue seconde. Notre contexte est bien particulier et se

démarque donc des études publiées jusqu’à ce jour, puisque nous évaluons ici un test de

français langue première (L1) qui s’adresse à des locuteurs natifs du français. De plus, les

mesures de succès utilisées comme critères dans les études ici recensées sont toutes

limitées au succès académique seulement, c’est-à-dire la réussite des sujets dans leurs

programmes d’études respectifs, que ce soit secondaire (Blais, 2001), universitaire de

premier cycle (Huong, 2001 ; Lunneborg, Lunneborg & Greenmun, 1970) ou des cycles

supérieurs (Hackman, Wiggins & Bass, 1970 ; Sharon, 1972). Comme nous l’avons établi

précédemment, le contexte de notre recherche est différent de tout ce que nous avons pu

lire jusqu’à présent, c’est-à-dire un contexte dans lequel l’objet d’étude est un test de

langue qui vise à évaluer les compétences de locuteurs natifs francophones, dans leur

langue maternelle et dans un contexte de programme de formation initiale en

enseignement sanctionné par une autorité ministérielle, donc avec de grands enjeux

doubles très importants : l’accréditation des sujets par le ministère de l’éducation du

Québec (niveau individuel, les étudiants) et le niveau de maîtrise de la langue par les

futurs enseignants (niveau macro, la société québécoise et canadienne en général). Notre

étude se démarque donc par ces caractéristiques particulières, ce qui, dans un sens,

comble un manque dans la littérature scientifique du domaine de l’évaluation des langues.

Page 108: Analyse de la validité prédictive d’une épreuve

88

À travers les évolutions et les raffinements conceptuels, théoriques et

méthodologiques cités dans ce chapitre, nous pouvons clairement voir que la validité

prédictive est une caractéristique floue qui nous échappe encore. Cependant, lorsqu’on

procède à une rapide recherche documentaire dans le domaine, on voit parfaitement que

les enjeux sont de taille et qu’il est primordial de raffiner encore les procédures et outils

pour être en mesure, enfin, d’obtenir des réponses sans équivoque à cette question.

Malgré cette difficulté et les limites méthodologiques mentionnées par les auteurs

des recherches citées ci-dessus, il est plus que pertinent de procéder à l’étude du TFLM

dans notre contexte pour plusieurs raisons : premièrement, comme nous l’avons déjà

mentionné, il existe très peu de recherches dont l’objet est un test de langue utilisé dans

un contexte comme le nôtre : test de grands enjeux de langue française, imposé à une

clientèle francophone, dans des programmes de formation initiale en enseignement.

Deuxièmement, les enjeux correspondant aux décisions prises sur la base des

scores au TFLM sont assez importants pour qu’une étude longitudinale du TFLM soit

effectuée. Le test est relativement âgé (près de vingt ans) et, autre que pendant sa

conception, aucune étude n’a, à notre connaissance, été entreprise pour en vérifier la

validité.

Finalement, les enjeux financiers en termes de ressources sont non négligeables et

il s’agit de vérifier si les efforts nécessaires à l’organisation et à l’administration du

TFLM sont justifiés. S’ils ne l’étaient pas, la suppression du test dans notre contexte

constituerait une option à considérer.

En ce qui concerne la méthodologie choisie pour la présente étude, à la vue des

résultats peu probants des études de type qualitatif uniquement exposés ci-dessus, il a été

Page 109: Analyse de la validité prédictive d’une épreuve

89

décidé d’opter pour une méthodologie de type mixte qui permet d’analyser des données

de types quantitatif et qualitatif. De cette manière, il nous a été possible de récolter et

d’analyser des données riches et provenant de diverses sources et sur la base desquelles

nous avons pu tirer des conclusions probantes. Dans les pages suivantes, cette

méthodologie mixte sera décrite et exposée en détail : conception, instruments,

procédures et participants.

Page 110: Analyse de la validité prédictive d’une épreuve
Page 111: Analyse de la validité prédictive d’une épreuve

91

CHAPITRE IV : MÉTHODOLOGIE

Dans ce chapitre, nous exposerons tous les aspects relatifs à la méthodologie

choisie pour mener cette recherche à bien. Le contexte dans lequel l’étude est entreprise

étant défini en détail dans le chapitre I. Il s’agit simplement de se souvenir que l’étude a

été effectuée dans un contexte spécifique, soit une université francophone au Québec, et

plus particulièrement dans quatre programmes de formation initiale en enseignement qui

sont régis de la même manière. Dans la partie qui suit, nous décrirons le type de

recherche entrepris, les différents types de données recueillies, les instruments de

cueillette des données et les procédures de cueillette et d’analyse des données seront

exposés. Nous en profiterons pour répéter les trois questions de recherche qui sous-

tendent l’étude, ainsi qu’une courte mention des considérations éthiques liées au contexte,

à la nature des données et à l’utilisation qui pourrait être faite des conclusions de l’étude.

4.1 Conception de la recherche

Cette recherche a adopté la méthode mixte de convergence parallèle par

triangulation (Convergent Parallel Mixed-Methods Design), telle que proposée par

Creswell et Plano-Clark (2011). Cette méthode, basée sur la collecte de plusieurs types de

données (quantitatives et qualitatives) sans ordre chronologique particulier et

préférablement dans une même période de temps, offre la possibilité de comparer et

mettre en relation les données recueillies afin d’obtenir une interprétation plus exacte du

phénomène analysé, puisque cette interprétation est basée sur plusieurs types de données.

Le chercheur parvient donc à une compréhension accrue du problème observé grâce à la

convergence des preuves recueillies. Ce type de méthodologie est caractérisé par les traits

suivants : la cueillette des données se déroule sur un laps de temps très court ; les données

Page 112: Analyse de la validité prédictive d’une épreuve

92

quantitatives et qualitatives sont recueillies de manière indépendante ; les données sont

analysées séparément et ont valeur égale dans l’analyse ; les analyses convergent vers une

conclusion commune (Creswell & Plano, 2010, pp. 73-76, tableau 3.3).

Dans les lignes qui suivent, nous présenterons les participants, les procédures de

cueillette des données ainsi que les instruments de la recherche et les procédures

d’analyse des données.

4.2 Participants

Cent-quarante-cinq (145) étudiants de l’Université Laval, à Québec, ont participé

à cette étude. Les sujets, comme l’ensemble des étudiants inscrits dans les programmes de

formation en enseignement au Québec, sont issus des filières normales, soit les Cégeps du

Québec ou un autre baccalauréat d’une université québécoise. Ils sont francophones

(locuteurs natifs) ou considérés comme tels (locuteurs proches du niveau natif) ; ils

étaient inscrits dans un des quatre programmes de formation initiale en enseignement

suivants : le baccalauréat en enseignement secondaire12, le baccalauréat en enseignement

du français langue seconde13, le baccalauréat en enseignement primaire14 ou le

baccalauréat en enseignement en éducation physique15. Sur ces 145 sujets, quarante-trois

(43) étaient inscrits au baccalauréat en enseignement du français langue seconde

(BEFLS), quarante-quatre (44) sont inscrits au baccalauréat en enseignement secondaire

(BES), quarante-et-un (41) au baccalauréat en enseignement préscolaire et primaire

(BÉPEP) et vingt-et-un (21) au baccalauréat en enseignement de l’éducation physique et

sportive (BEÉPS). L’âge moyen des sujets est vingt-cinq (25) ans. Des cent-quarante-

12 BES 13 BEFLS 14 BEP 15 BEPEP

Page 113: Analyse de la validité prédictive d’une épreuve

93

cinq sujets, un quart sont des hommes. Tous les programmes visés sont des programmes

de quatre ans et de cent-vingt (120) crédits universitaires, sanctionnés par le MELS et

supervisés par le CAPFE, organisme paragouvernemental mandaté par le MELS pour

assurer la qualité de l’enseignement dans les universités québécoises offrant des

programmes de formation à l’enseignement (voir contexte de l’étude, chapitre I).

4.3 Les instruments de cueillette des données

Dans les lignes qui suivent, nous décrivons les procédures ainsi que les

instruments pour chacun des trois volets de la recherche : l’étude de base des données

qualitatives recueillies afin d’analyser le TFLM dans son ensemble par rapport aux trois

autres TLU en jeu dans les programmes de formation en enseignement, les données

quantitatives qui serviront à analyser la validité prédictive du TFLM et, enfin, les données

qualitatives qui doivent établir la validité apparente (face validity) du TFLM.

L’étude de base

Étant donné que l’objectif principal du TFLM, la raison de sa création, est de

mesurer la compétence langagière de candidats locuteurs natifs du français à l’admission

de programmes universitaires variés, dont les programmes de formation en enseignement,

et afin de répondre à la première question de recherche (« le TFLM est-il un prédicteur de

réussite fiable dans le contexte d’un baccalauréat en enseignement dans les universités

francophones du Québec? »), la première étape a été de procéder à une étude analytique

des tâches du TFLM et des contextes TLU liés au test. Cette analyse nous a permis de

déterminer si les candidats disposaient des compétences langagières nécessaires à la

réussite de leur projet universitaire, c’est-à-dire si leurs capacités langagières leur

permettraient de suivre et de réussir les différents cours de premier cycle dans un

Page 114: Analyse de la validité prédictive d’une épreuve

94

contexte académique et de fonctionner convenablement dans le cadre des programmes de

formation initiale en enseignement. Plus important encore, cette analyse nous a permis de

vérifier, de manière qualitative, si tous les éléments qui constituent ensemble les

mécanismes liés à l’évaluation de la qualité de la langue française dans les programmes

de formation en enseignement dans les deux universités québécoises francophones qui

utilisent le TFLM offrent une continuité et une cohérence pertinentes ou si le processus

d’admission devrait théoriquement être revu. En somme, l’analyse qualitative des tâches

du TFLM et des tâches des contextes TLU nous permet d’obtenir des éléments de

réponse aux questions de recherche 1 et 2.

À cette fin, et en nous basant sur le modèle d’analyse des caractéristiques des

tâches langagières (Framework of Language Task Characteristics) et du modèle de

compétence langagière (Areas of language knowledge et Areas of metacognitive

strategies use) proposés par Bachman et Palmer (2010) pour produire un cadre plus

restreint, nous avons procédé à une quadruple analyse : (1) les caractéristiques des tâches

du TFLM, (2) les contenus linguistiques et les tâches des cours correctifs (cours de mise à

niveau qui font suite au TFLM selon les résultats obtenus pour chacun des candidats), (3)

les contenus linguistiques et les tâches des cours des programmes de formation en

enseignement, et finalement (4) les besoins langagiers de la tâche des enseignants en

fonction seront analysées et confrontées au contenu langagier sollicité par les tâches qui

composent le TFLM.

Les documents utilisés pour effectuer cette analyse détaillée ont été :

Des exemples des tâches présentes dans le TFLM, obtenus par une recherche

documentaire et des entretiens avec les concepteurs du TFLM

Page 115: Analyse de la validité prédictive d’une épreuve

95

Les plans de cours complets des cours de mise à niveau FRN-1902, FRN-1903 et

FRN-1904, obtenus auprès de l’École de langue de l’Université Laval (annexe C)

Des exemples des plans de cours des cours obligatoires et optionnels qui

composent les cours des programmes visés (sauf cours de mise à niveau)

Le document référentiel du Ministère de l’Éducation, du Loisir et du Sport

(MELS) du Québec décrivant les orientations de la formation des enseignants

(MELS, 2001).

Les résultats de la quadruple analyse comparative expliquée ci-dessus sont

exposés dans le chapitre dédié à la présentation des résultats (V).

Cueillette des données statistiques dans la base de données centrale : Capsule

Afin de répondre aux questions de recherche 1 (« Le TFLM est-il un prédicteur de

réussite fiable dans le contexte d’un baccalauréat en enseignement dans les universités

francophones du Québec? ») et 2 (« Les cours de mise à niveau ont-ils un impact

important sur la réussite des étudiants obligés de les suivre selon leur résultat au

TFLM? »), nous avons recueilli simultanément dans le système informatique central mis

à la disposition des enseignants et administrateurs de l’Université Laval, Capsule, les

données quantitatives suivantes : (1) la note obtenue au TFLM pour tous les candidats

admis aux programmes concernés, (2) la performance des participants aux cours

correctifs obligatoires (ou cours de mise à niveau 1, 2 et 3, ci-après CMN1, CMN2 et

CMN3) des sujets concernés par cette mesure (selon la note obtenue au TFLM), (3) les

moyennes cumulatives de la session précédant le(s) CMN, (4) les moyennes cumulatives

de la session subséquente au(x) CMN, et enfin (5) la moyenne générale cumulative après

les quatre années du programme. Le tableau IV.1 ci-dessous contient les types de données

Page 116: Analyse de la validité prédictive d’une épreuve

96

que nous avons compilées et analysées selon les trois cas de figure qui se présentent, et

ce, pour chacune des cohortes dont la première inscription (appelée session répertoire)

date de 2007, afin d’obtenir des données assez récentes pour toutes les filières visées

(avant cette date, le TFLM n’était pas utilisé comme test d’admission dans les

programmes visés).

Tableau IV.1 : Données quantitatives recuilles dans Capsule

Su

jets

Codage des

sous-

groupes (1

BEFLS ; 2

BES ; 3

BEPEP ; 4

BEÉPS)

Sous-groupes

selon la

performance

au TFLM

(LOW, MID,

HIGH) Sco

re a

u T

FL

M

GP

A a

va

nt

le c

ou

rs 1

No

te a

u C

MN

1

GP

A a

prè

s le

co

urs

1

GP

A a

va

nt

le c

ou

rs 2

No

te a

u C

MN

2

GP

A a

prè

s le

co

urs

2

GP

A a

va

nt

le c

ou

rs 3

No

te a

u C

MN

3

GP

A a

prè

s le

co

urs

3

GP

A à

la

fin

des

4 a

ns

d’é

tud

es

Etc.

Questionnaire envoyé aux étudiants

Afin de répondre à la question de recherche 3 (« Comment les participants

perçoivent-ils le TFLM et les cours de mise à niveau? »), en plus des données obtenues

par l’analyse des caractéristiques des tâches du TFLM et de celles des trois contextes

TLU déjà mentionnés, nous avons recueilli des informations relatives à l’opinion des

sujets sur le TFLM. À cette fin, un questionnaire a mis en relief les perceptions des

participants envers le contenu du test, sa pertinence, l’apport des cours correctifs au

cheminement des étudiants, la structure du test, les conditions de passation et les

conséquences engendrées par les cours correctifs obligatoires. Une dernière question

ouverte invitait les répondants à suggérer des améliorations au processus d’admission

dans sa globalité ou à partager leur expérience de manière plus personnelle.

Page 117: Analyse de la validité prédictive d’une épreuve

97

Ce questionnaire (annexe D) est inspiré d’Elder (1993) et adapté à nos besoins

particuliers. À des fins de validation, le questionnaire adapté a été administré à un

échantillon de cinq étudiants représentatifs de la population générale des baccalauréats en

enseignement de l’Université Laval. Les suggestions et opinions de ces étudiants ont

généré des changements dans l’organisation et la teneur des items du questionnaire, le

rendant plus clair et compréhensible en plus d’extraire les informations recherchées de

manière plus efficace. Par rapport au questionnaire d’Elder, les changements effectués

concernent en particulier le fait qu’Elder s’adressait à des locuteurs non natifs dans sa

recherche de 1993 dans laquelle elle évaluait la validité prédictive du test IELTS utilisé

comme test d’admission pour des candidats étrangers à un programme de formation en

enseignement d’une université australienne. Le but du questionnaire d’origine était

d’évaluer non seulement la validité apparente du test IELTS à des fins d’admission, mais

aussi d’évaluer la perception des sujets en termes d’efficacité des cours de soutien

linguistique offerts par l’université en question par rapport à leur progrès en L2. Cette

dimension a aussi été reprise dans notre questionnaire car le même dispositif de cours de

mise à niveau a été mis en place pour les étudiants démontrant des difficultés en langue,

malgré le fait que le français soit la L1 de nos participants.

Le questionnaire est donc composé de cinq parties. La première partie correspond

à l’identification du répondant ; la deuxième partie cible la perception du répondant

envers le TFLM lui-même (structure, niveau, pertinence) ; la troisième partie correspond

à l’utilisation de la langue cible dans le contexte des études de premier cycle en

enseignement ; la quatrième partie vise à déterminer la perception que les répondants ont

des cours de mise à niveau qu’ils ont dû suivre (selon leur note au TFLM) ; la cinquième

Page 118: Analyse de la validité prédictive d’une épreuve

98

et dernière partie est une question ouverte qui invite les répondants à suggérer des

améliorations au TFLM. Les parties deux, trois et quatre sont composées de vingt-trois

(23) questions à choix multiples gradués sur une échelle de Likert à cinq points (le degré

1 correspondant à « Pas du tout d’accord » et le degré 5 correspondant à « Tout à fait

d’accord »). Le questionnaire a été administré électroniquement. Les réponses ont été

compilées et présentées dans un tableau récapitulatif qui figure au chapitre V de ce

document.

4.4 Procédures d’analyse des données

Dans la partie précédente, nous avons présenté les instruments que nous avons

utilisés pour recueillir les données pour chacune des trois phases de l’étude. Dans les

lignes qui suivent, nous décrivons les procédures utilisées pour analyser les données

recueillies.

L’étude de base

L’étude de base (baseline study) consiste en l’analyse des caractéristiques du

TFLM par rapport aux caractéristiques des trois autres TLU présents dans notre contexte.

Les données ont été ordonnées dans trois tableaux, chaque tableau présentant les données

relatives aux caractéristiques des tâches du TFLM selon un angle différent et basé sur les

modèles de Bachman et Palmer (2010) auxquels nous avons fait référence auparavant.

Ces données, mises côte à côte, permettent d’obtenir un portrait clair et concis des

caractéristiques des tâches pour le TFLM et les trois contextes TLU attachés aux

programmes de formation en enseignement à l’Université Laval. Ces données ont été

comparées et analysées afin de mettre en lumière les correspondances (ou différences)

Page 119: Analyse de la validité prédictive d’une épreuve

99

entre le TFLM et les trois contextes TLU visés (cours des programmes visés, cours

correctifs en français et profession enseignante). Les résultats sont exposés au chapitre V.

Données quantitatives

Le deuxième volet de la recherche a été l’analyse des données quantitatives. Des

analyses statistiques corrélationnelles, de la régression et de la variance (ANOVA) ont été

effectuées pour chaque étudiant et leurs données chiffrées. Toutes les opérations

statistiques ont été effectuées à l’aide du logiciel de traitement des données statistiques

IBM Statistical Package for the Social Science, (SPSS) et vérifiées par un professionnel

en analyses statistiques.

Le tableau ci-dessous (tableau IV.2) présente les données recueillies pour mener à

bien ce volet de la recherche ainsi que le codage utilisé pour les opérations statistiques :

les résultats à l’épreuve du TFLM, les notes obtenues aux différents cours correctifs

éventuels (moyennes cumulatives intermédiaires), et la moyenne générale cumulative en

fin de formation.

Tableau IV.2 : Données statistiques analysées et codage

Variables indépendantes (VI) Variables dépendantes (VD)

TFLM : VI 1 Note au CMN1 : VD1

Moyenne globale avant le CMN1 : VI 2

Note au CMN2 : VD2

Moyenne globale après le CMN2 : VI 3

Note au CMN3 : VD3

Moyenne globale avant le CMN3 : VI 4

Sous-groupes des étudiants avec TFLM ≥ 75% : Variable

dépendante spécifique 1 (VDS1) HIGH, codés 0 dans le

fichier EXCEL

Moyenne globale après le CMN3 : VI 5

Sous-groupes des étudiants avec TFLM ≤ 74% : Variable

dépendante spécifique 2 (VDS2) MID codée 1 dans le

fichier EXCEL

Note : CMN = Cours de Mise à Niveau Sous-groupes des étudiants avec TFLM ≤ 59% : Variable

dépendante spécifique 3 (VDS3) LOW codés 2 dans le

fichier EXCEL

Page 120: Analyse de la validité prédictive d’une épreuve

100

Données qualitatives : le questionnaire

En ce qui concerne les questionnaires, les données fournies par les répondants ont

été analysées et transcrites en statistiques descriptives. De plus, les réponses des

répondants ont été transcrites et analysées qualitativement afin de connaitre leurs

perceptions du TFLM et son impact sur leur cheminement. Il était attendu que ces

données fourniraient des pistes de réflexion qui pourraient favoriser une prise de décision

éclairée et informée sur l’avenir du TFLM et des mécanismes que constituent les cours de

mise à niveau.

Page 121: Analyse de la validité prédictive d’une épreuve

101

CHAPITRE V : PRÉSENTATION DES RÉSULTATS ET

DISCUSSION

Dans ce chapitre, nous détaillons les résultats obtenus lors de la cueillette des

données effectuée et décrite dans le chapitre précédent. En premier lieu, nous décrivons

en détail les caractéristiques du TFLM, les tâches qui le composent et des conditions

logistiques dans lesquelles il se déroule chaque année, données basées sur les documents

authentiques que nous nous sommes procurés auprès de l’institution de notre contexte,

soit l’Université Laval, ainsi que des données appartenant au domaine public. Cette

première tâche a pour mandat de répondre en partie à la première question de recherche

(« Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un baccalauréat en

enseignement dans les universités francophones du Québec? ») et doit établir si les tâches

du TFLM correspondent aux tâches des contextes TLU dans lesquels les étudiants

doivent fonctionner. Les résultats de cette étude comparative sont basés sur les modèles

d’analyse des caractéristiques des tâches (1996) et du cadre des compétences langagières,

composé de la connaissance de la langue (areas of language knowledge) et des aspects

liés aux stratégies métacognitives (areas of metacognitive strategies use) tous les deux

par Bachman et Palmer (2010).

Deuxièmement, nous décrivons les résultats des analyses des données

quantitatives recueillies dans le système centralisé de l’université, appelé « Capsule ».

Les résultats de l’analyse des données statistiques, jumelée à l’analyse des

caractéristiques des tâches du TFLM ont été utilisés afin de répondre à la fois à la

première question (« Le TFLM est-il un prédicteur de réussite fiable dans le contexte

Page 122: Analyse de la validité prédictive d’une épreuve

102

d’un baccalauréat en enseignement dans les universités francophones du Québec? ») et à

la deuxième question de recherche (« Les cours de mise à niveau ont-ils un impact

important sur la réussite des étudiants obligés de les suivre selon leur résultat au

TFLM? »).

Finalement, les données qualitatives recueillies par le biais du questionnaire ont

été transcrites, placées à l’intérieur de tableaux et analysées. Cette opération avait pour

but de déterminer les perceptions que les candidats au TFLM ont vis-à-vis le test et ainsi

répondre à la troisième question de recherche (« Comment les participants perçoivent-ils

le TFLM et les cours de mise à niveau? »).

5.1 Analyse des tâches du TFLM par rapport aux tâches des contextes TLU du

contexte

En utilisant le modèle d’analyse des caractéristiques des tâches langagières

(Framework of Language Task Characteristics) proposé par Bachman et Palmer (2010),

les caractéristiques des tâches du test (TFLM) ont été définies et les construits qui sont

réellement évalués par le TFLM ont été identifiés. Ensuite, les caractéristiques des tâches

de chacun des trois contextes TLU, soit les tâches à l’intérieur des cours du programme,

les tâches à l’intérieur des cours obligatoires de mise à niveau en français et les besoins

linguistiques de la profession enseignante, ont été à leur tour définies. Cette comparaison

des caractéristiques des tâches du TFLM avec celles des trois contextes TLU nous a

permis d'établir si le contenu du test porte sur les éléments linguistiques nécessaires dans

ces trois contextes. Pour mener à bien cette comparaison, nous avons utilisé des exemples

concrets pour chacune des parties dans notre contexte, soit un programme de baccalauréat

en enseignement à l’Université Laval, à Québec. Les tableaux V.1, V.2 et V.3 présentent

Page 123: Analyse de la validité prédictive d’une épreuve

103

de manière détaillée de nombreux aspects liés au TFLM et aux trois contextes TLU

présents dans un programme de formation initiale en enseignement à l’Université Laval,

le baccalauréat en enseignement du français langue seconde : TLU1 (tâches dans le cours

du programme ciblé), TLU2 (tâches dans les cours de mise à niveau) et TLU3 (tâches de

la profession enseignante).

Étant donné que certaines parties du tableau possèdent déjà des notes relatives aux

termes ou sous-parties, nous nous sommes concentrés ici sur les termes qui ne sont pas

expliqués de manière explicite. Après les explications des termes spécialisés de chacun

des tableaux, nous pointerons de manière précise les éléments de chaque tableau qu’il

convient de prendre en considération dans l’analyse. À partir de ces observations, nous

pourrons établir si le TFLM correspond aux tâches auxquelles il est censé préparer les

candidats des programmes visés.

Page 124: Analyse de la validité prédictive d’une épreuve

104

Tableau V.1 : Analyse comparée des buts, des tâches du TFLM, des cours du programme du BEFLS

(TLU1), des cours de mise à niveau FRN-1902, FRN-1903 et FRN-1904 (TLU2), Université Laval,

hiver 2014, et des tâches du contexte de la profession enseignante (TLU3).

Type d’analyse TFLM Tâches du TLU 1 :

cours des

programmes visés

Tâches du TLU 2 :

cours correctifs en

français

Tâches du TLU 3 :

profession

enseignante

(basées sur le

référentiel MELS

2001, compétences

1 et 2 uniquement)

L’INFERENCE

Le construit que le test est

censé mesurer ou le

construit nécessaire à

l’accomplissement de la

tâche

Compétence

langagière en français

écrit (niveau suffisant

pour suivre les cours

des programmes

visés)

Compréhension

des contenus

disciplinaires ou

non disciplinaires

abordés pendant

les cours du

programme. Cours

de linguistique,

littérature,

didactique,

anthropologie,

communication,

etc.

Voir plans de

cours FRN-1902,

FRN-1903 et

FRN-1904.

« Le cours vise

l'acquisition

d'automatismes

orthographiques et

grammaticaux qui

s'appuient sur la

compréhension du

fonctionnement de

la langue écrite.

On insiste de façon

particulière sur les

erreurs les plus

fréquentes relevées

dans les

productions écrites

des étudiants. »

Employer une

variété de langage

oral appropriée

dans ses

interventions

auprès des

élèves, des parents

et des pairs.

Respecter les

règles de la langue

écrite dans les

productions

destinées aux

élèves, aux

parents et aux

pairs.

Pouvoir prendre

position, soutenir

ses idées et

argumenter à leur

sujet de manière

cohérente,

efficace,

constructive et

respectueuse lors

de discussions.

Communiquer ses

idées de manière

rigoureuse en

employant un

vocabulaire précis

et

une syntaxe

correcte.

Corriger les

erreurs commises

par les élèves dans

leurs

communications

orales et

écrites.

Chercher

constamment à

améliorer son

expression orale et

Page 125: Analyse de la validité prédictive d’une épreuve

105

écrite.

L’USAGE

Les décisions qui seront

prises sur la base des notes

Obligation de suivre

1, 2 ou 0 cours de

mise à niveau ; offrir

la possibilité aux

étudiants de suivre

les cours de mise à

niveau afin de les

aider à compléter le

programme visé avec

succès.

« Les étudiants qui

ne démontrent pas

une maitrise

satisfaisante des

contenus abordés

et des

connaissances

mesurées pendant

les évaluations

(qui sont préparées

par les enseignants

de chaque cours,

pas de test

standardisé) de

chaque cours

devront repasser le

même cours. Après

2 échecs au même

cours, l’étudiant

peut être exclu du

programme ou être

placé en probation

(règlement des

études). La note de

chaque cours est

compilée dans la

moyenne globale

générale (GPA)

qui doit atteindre

un minimum établi

pour chaque cycle

pour que l’étudiant

puisse obtenir son

diplôme. »

« Les étudiants qui

ne démontrent pas

une maitrise

satisfaisante des

contenus abordés

et des

connaissances

mesurées pendant

les évaluations

(qui sont préparées

par les enseignants

de chaque cours,

pas de test

standardisé) de

chaque cours

devront repasser le

même cours. Après

2 échecs au même

cours, l’étudiant

peut être exclu du

programme ou être

placé en probation

(règlement des

études). La note de

chaque cours est

compilée dans la

moyenne globale

générale (GPA)

qui doit atteindre

un minimum établi

pour chaque cycle

pour que l’étudiant

puisse obtenir son

diplôme. »

Le risque de ne pas

obtenir de poste si

la compétence 1

est jugée trop

faible.

L’IMPACT PRÉSUMÉ

Sur les étudiants Placement des

candidats dans des

groupes (HIGH, MID

et LOW) selon le

score obtenu au

TFLM, censé

déterminer le niveau

de compétence

langagière. Des cours

correctifs

accompagnent ce

placement.

Les cours

disciplinaires

contiennent les

contenus

nécessaires au

fonctionnement

des étudiants dans

leur future

profession.

Les cours

correctifs doivent

aider les étudiants

les moins

performants à

combler leurs

lacunes, identifiées

par le TFLM, afin

de mieux réussir

dans leurs cours

disciplinaires et

finalement être

plus compétents

dans leur vie

professionnelle.

Contexte

professionnel et

des stages doit

permettre aux

étudiants

d’intégrer les

compétences

développées en

cours et ainsi

faciliter la

compréhension et

l’acquisition de

concepts.

Sur les professeurs Aucun, en lui-même.

Logistiquement

parlant, certains

enseignants peuvent

être amenés à

surveiller la passation

du test.

Les professeurs

sont responsables

du contenu et de la

pédagogie dans les

cours

disciplinaires.

L’acquisition des

contenus des cours

correctifs doivent

augmenter la

compétence

langagière des

étudiants, et ainsi

L’intégration des

concepts

théoriques dans les

milieux de stage

facilite

l’enseignement et

l’apprentissage

Page 126: Analyse de la validité prédictive d’une épreuve

106

augmenter les

performances dans

les cours

disciplinaires.

dans les cours à

l’université, et de

ce fait, facilite le

travail des

professeurs.

Sur les systèmes :

De la classe Classer les candidats

dans des cours

correctifs selon leur

niveau de

compétence

langagière ;

uniformiser/hausser

le niveau de

compétence

langagière des

étudiants dans les

classes.

Acquisition des

concepts

indispensables à la

profession

envisagée

Amélioration de la

compétence

langagière,

uniformisation du

niveau de

compétence

Intégrer les

concepts abordés

en cours, favoriser

l’acquisition des

concepts.

Des programmes Sélectionner

seulement les

meilleurs étudiants

dans les programmes

de formation en

enseignement.

Les cours qui

composent les

programmes

doivent fournir les

outils et concepts

nécessaires au

fonctionnement

dans la profession

visée. Plus ils

s’acquittent de

cette mission, plus

les programmes

sont valorisés et

convoités.

Les cours

correctifs

augmentent la

compétence

langagière des

étudiants des

programmes.

Ceux-ci permettent

alors au

programme de

rayonner et d’avoir

une bonne

réputation auprès

des partenaires des

milieux.

Une collaboration

étroite est

essentielle entre

les milieux

professionnels, par

le biais des

diplômés ou des

stagiaires, afin de

faciliter le

recrutement des

finissants, des

candidats et le

placement des

stagiaires.

La société TFLM agit comme

gardien des

programmes en

enseignement, seuls

les meilleurs

candidats sont admis.

Les cours

disciplinaires sont

ajustés au besoin

de la société

puisqu’ils abordent

les contenus

nécessaires aux

enseignants futurs.

Les enseignants

sont donc

compétents et

performants.

Les futurs

enseignants sont

des professionnels

de la langue et ils

sont formés à cet

égard. Valorisation

de la profession.

La profession

enseignante est

une des pierres

angulaires de la

société : formation

des dirigeants de

demain et des

citoyens qui

participent à la vie

de la société.

La première partie, soit l’analyse des buts de chacun des contextes d’utilisation de

la langue cible (cours du programme visé, cours de mise à niveau et contexte d’utilisation

de la langue dans un environnement réel d’enseignement) ne nécessite aucune précision

d’ordre terminologique car tous les termes sont déjà expliqués à l’intérieur même du

tableau. De plus, dans le chapitre dédié au cadre théorique, nous avons défini plusieurs

des éléments présents dans le tableau V.2 ci-dessous.

Page 127: Analyse de la validité prédictive d’une épreuve

107

Tableau V.2 : Analyse comparée des composantes de la composante langagière des tâches du

TFLM, des cours du programme du BEFLS (TLU1), des cours de mise à niveau FRN-1902, FRN-

1903 et FRN-1904, Université Laval, hiver 2014 (TLU2), et des tâches du contexte de la profession

enseignante (TLU3).

Type d’analyse TFLM Tâches du TLU

1 : cours des

programmes

visés

Tâches du TLU

2 : cours

correctifs en

français

Tâches du TLU

3 : profession

enseignante

(basées sur le

référentiel MELS

2001,

compétences 1 et

2 uniquement)

LA CONNAISSANCE ORGANISATIONNELLE

La connaissance grammaticale

La connaissance du

vocabulaire

(Spécialisée

selon les cours)

La connaissance de la

syntaxe

La connaissance de la

phonologie et de la

graphologie

La connaissance textuelle

La connaissance de la

cohésion

La connaissance de

l’organisation, de la

rhétorique et de la

conversation

LA CONNAISSANCE PRAGMATIQUE

La connaissance fonctionnelle

(Les buts des énoncés

dans la communication)

La connaissance sociolinguistique

La connaissance des

variétés de langue

La connaissance du

registre

La connaissance

d’énoncés idiomatiques

ou naturels

La connaissance

d’énoncés culturels

Le tableau V.3 ci-dessous compare les caractéristiques des tâches du TFLM aux

caractéristiques des tâches des trois TLU présents dans notre contexte spécifique.

Page 128: Analyse de la validité prédictive d’une épreuve

108

Tableau V.3: Analyse comparée des caractéristiques des tâches du TFLM, des cours du programme

du BEFLS (TLU1), des cours de mise à niveau FRN-1902, FRN-1903 et FRN-1904 Université Laval,

hiver 2014 (TLU2), et des tâches du contexte de la profession enseignante (TLU3).

Type d’analyse TFLM Tâches du TLU

1 : cours des

programmes

visés

Tâches du TLU

2 : cours

correctifs en

français

Tâches du TLU

3 : profession

enseignante

(basées sur le

référentiel MELS

2001,

compétences 1 et

2 uniquement)

CARACTÉRISTIQUES DU CONTEXTE D’ADMINISTRATION

Caractéristiques

physiques; participants;

l’heure et la durée

Caractéristiques

physiques du

lieu : salles de

cours de

l’université (avec

tout que cela

implique en

termes de

température,

luminosité,

humidité, bruit,

etc.)

Durée : 90

minutes;

Heure : variable;

Nombre de

candidats

variable.

Très variables

En cours à

l’Université

Caractéristiques

physiques :

Salles de cours

de l’université

(avec tout que

cela implique en

termes de

température,

luminosité,

humidité, bruit,

etc.)

Participants :

collègues des

programmes

universitaires de

formation en

enseignement ET

étudiants d’autres

programmes ET

professionnels

(enseignants) en

processus de

développement

professionnel.

Heure variable ;

durée semblable

à tout cours

universitaire.

En milieux de

stage

Caractéristiques

physiques :

Salles de classe

des écoles du

Québec, du

Canada et à

l’international

(variations

Caractéristiques

physiques :

Salles de cours

de l’université

(avec tout que

cela implique en

termes de

température,

luminosité,

humidité, bruit,

etc.)

Participants :

collègues des

programmes

universitaires de

formation en

enseignement ET

étudiants d’autres

programmes ET

professionnels

(enseignants) en

processus de

développement

professionnel.

Heure variable ;

durée semblable

à tout cours

universitaire.

Caractéristiques

physiques :

Salles de classe

des écoles du

Québec, du

Canada et à

l’international

(variations

considérables des

caractéristiques

physiques)

Participants :

apprenants de

tous niveaux, tout

ordre, tout âge.

Heure et durée :

variables ; temps

plein (8 heures

par jour, 5 jours

par semaine) ou

temps partiel.

Page 129: Analyse de la validité prédictive d’une épreuve

109

considérables des

caractéristiques

physiques)

Participants :

apprenants de

tous niveaux, tout

ordre, tout âge.

Heure et durée :

variables ; temps

plein (8 heures

par jour) d’une

journée par

semaine à

quotidienne.

CARACTÉRISTIQUES SPÉCIFIQUES À L’ADMINISTRATION DES TÂCHES

Directives En français ; les

consignes sont

claires mais

changent selon la

partie du test

(énoncé E).

En salle de classe

à l’université :

Consignes et

travaux à

exécuter en

français.

Tous types de

travaux (rapports,

résumés

d’articles

scientifiques,

réponses courtes

à questions

spécifiques,

analyses,

réponses à

développement,

Questionnaire à

choix multiples

(QCM), etc.).

2. En milieu de

stage

Tâches explicites

d’observation et

d’enseignement.

Rédaction d’un

rapport de stage.

Consignes et

travaux à

exécuter en

français.

Tous types de

travaux (rapport,

résumés

d’articles

scientifiques,

réponses courtes

à questions

spécifiques,

analyses,

réponses à

développement).

Toute tâche liée à

l’enseignement

de la discipline

choisie plus

parfois tâches

administratives

connexes.

Modalités des tâches Un cahier où

figurent les

questions; fiche

de réponses

séparée (cocher /

noircir la bonne

réponse)

En salle de classe

à l’université :

Travaux

individuels et en

équipes

Travaux en classe

et « maison »

Travaux en ligne,

sur papier et sur

plateforme

Travaux

individuels et en

équipes

Travaux en classe

et « maison »

Travaux en ligne,

sur papier et sur

plateforme

informatique

(Word ou autre

Toute tâche liée à

l’enseignement

de la discipline

choisie plus

parfois tâches

administratives

connexes.

Page 130: Analyse de la validité prédictive d’une épreuve

110

informatique

(Word ou autre

logiciel de

traitement de

texte)

2. En milieu de

stage :

Interactions avec

des apprenants de

tous niveaux,

Organisation

matérielle des

tâches du TLU

tout âge, toute

origine.

Discussions avec

les enseignants

associés.

logiciel de

traitement de

texte) Grammaticiels

(travaux

individuels sur

plateforme

informatique)

Temps alloué 90 minutes Variables

(travaux et

examens dans

salles de cours à

l’université ou

travail fait à la

maison)

Variables

(travaux et

examens dans

salles de cours à

l’université ou

travail fait à la

maison).

Variables

Modalités de notation Lecteur optique. Variables

(travaux et

examens dans

salles de cours à

l’université ou

travail fait à la

maison).

Variables

(travaux et

examens dans

salles de cours à

l’université ou

travail fait à la

maison).

Aucune

CARACTÉRISTIQUES SPÉCIFIQUES DE L’INPUT

Format de la présentation Variable : 4

énoncés dont un est

incorrect

(identification

d’erreur) + un

énoncé stipulant

qu’il n’y a aucune

erreur dans les

énoncés proposés

(énoncé e)

Articles

scientifiques

Lectures

(séminaires)

Cours magistraux

Ateliers

Résolution de

problèmes

Cours magistraux

Ateliers

Résolution de

problèmes Grammaticiels

Variable

(matériel à partir

duquel

l’enseignant en

fonction prépare

son

enseignement)

CARACTÉRISTIQUES SPÉCIFIQUES DES RÉPONSES ATTENDUES (OUTPUT)

Format de la

performance

Choix de réponse. Rapport

Travaux

pratiques

Réponses courtes

Réponses à

développement

QCM

Définitions à

copier

Types

d’évaluation :

Exercice d’analyse

d’erreurs

Rédaction

Examen de langue

(code linguistique)

Exercice

d’autocorrection

Grammaticiels

(exercices sur

plateforme

en classe et hors

classe, toute tâche

liée à l’acte

d’enseigner (voir

les sous-

composantes des

douze compétences

professionnelles de

l’enseignant)

Page 131: Analyse de la validité prédictive d’une épreuve

111

informatique)

Contenu langagier des

réponses (longueur des

textes; caractéristiques

organisationnelles et

pragmatiques;

caractéristiques du

thème)

Aucune

production

(output) rédigé

par le candidat. Il

s’agit d’un

questionnaire à

choix multiples.

Organisation et

nombre

d’énoncés :

Orthographe

lexicale : 4 items

Orthographe

grammaticale :

24 items

Morphologie : 5

items

Syntaxe : 13

items

Vocabulaire : 19

items

Total : 65 items.

Variable selon la

tâche (voir

format de la

performance).

Cependant, le

contenu langagier

des réponses

attendues par le

TLU sollicitera

des construits

plus poussés que

la seule

connaissance du

code linguistique

du français.

Variable selon la

tâche (voir

format de la

performance).

Cependant, le

contenu langagier

des réponses

attendues par le

TLU sollicitera

des construits

plus poussés que

la seule

connaissance du

code linguistique

du français.

Variable selon la

tâche (voir

format de la

performance).

Cependant, le

contenu langagier

des réponses

attendues par le

TLU sollicitera

des construits

plus poussés que

la seule

connaissance du

code linguistique

du français.

LA RELATION ENTRE LE CONTENU DES TÂCHES TLU ET LES RÉPONSES ATTENDUES

Réactivité (réciproque,

non réciproque, adaptée)

- reactivity

Non réciproque Non réciproque Non réciproque Réciproque ou

adaptive

Portée de la relation –

scope

Limité Variable Variable Variable

Proximité de la relation –

directness

Indirecte Directe Directe Directe

À noter que dans notre cas, une des caractéristiques les plus importantes des

tâches reste le contenu langagier de la question et celui attendu dans la réponse. En

l’occurrence, ces caractéristiques correspondent aux construits visés nécessaires à

l’accomplissement des tâches du test et des TLU du contexte. On voit donc clairement

dans le tableau que les construits sollicités par les tâches du TFLM sont différents des

construits sollicités par les tâches des TLU du contexte, de sorte que les construits mis en

évidence par les tâches du TFLM sous-représentent les construits des TLU (Messick,

Page 132: Analyse de la validité prédictive d’une épreuve

112

1996). Les construits nécessaires à la réussite des tâches des TLU1, TLU2 et TLU3 sont a

priori plus complexes que les construits sollicités par les tâches du TFLM.

La réactivité (reactivity) correspond au degré d’influence d’une question ou d’une

réponse sur la question ou la réponse suivante. Les degrés de cette relation de réactivité

peuvent être un des trois suivants : réactivité réciproque, réactivité non-réciproque ou

réactivité adaptive (Bachman & Palmer, 2010). La tâche est dite « réciproque » si les

productions sont le produit direct de l’interaction, par exemple dans le cas d’une entrevue

en personne. Deux traits caractérisent ce type de tâche : premièrement, le candidat reçoit

des retours de manière constante (par son interlocuteur, de manière verbale ou non-

verbale) et deuxièmement, les échanges entre les deux interlocuteurs affectent

directement la suite de l’interaction. Une tâche « non-réciproque », par ailleurs,

n’implique aucune interaction. La tâche ne change pas selon la réponse donnée par le

candidat. Un test de lecture, par exemple, ou une dictée, sont des tâches non-réciproques

car le contenu est fixe et ne change pas au fur et à mesure que la tâche est remplie.

Finalement, une tâche « adaptive » est une tâche dont la suite des items et leur

progression changent au fur et à mesure que le candidat les accomplit. La deuxième

question d’une tâche sera donc différente selon si la réponse à la question 1 a été correcte

ou incorrecte, et ce, sans forcément laisser le candidat en être conscient par le biais d’un

retour (correction ou validation de la réponse donnée en 1). Ce type de tâche est fréquent

lorsqu’il s’agit de tests informatisés, par exemple.

Le deuxième aspect à éclaircir concerne la portée de la relation (scope of

relationship) existante entre les tâches du TLU et les réponses attendues. La portée de la

relation correspond à la quantité d’input à traiter par le candidat avant d’être en mesure

Page 133: Analyse de la validité prédictive d’une épreuve

113

d’accomplir la tâche demandée. Par exemple, dans notre contexte, les questions qui

composent le TFLM sont des questions de type QCM dont l’input est constitué par une

question courte. On peut donc dire que la portée de la relation est étroite ou limitée car le

candidat n’a pas besoin d’analyser beaucoup de contenu avant de pouvoir répondre à la

question posée. Au contraire, si beaucoup d’input doit être traité par le candidat avant de

pouvoir répondre à la question, on dit que la relation est large. Par exemple, lors d’une

tâche d’écoute, on pourrait demander au candidat de faire ressortir le sujet général de

l’extrait utilisé. Le candidat devra écouter l’extrait en entier avant de pouvoir formuler

une réponse.

Finalement, la proximité (directness) dans la relation entre le contenu des tâches

du TLU et les réponses attendues correspond au degré auquel les informations fournies

dans la question sont suffisantes pour que le candidat puisse donner une réponse

satisfaisante ou si celui-ci doit puiser dans d’autres connaissances, personnelles ou liées

au contenu, afin de répondre à la question posée (Bachman & Palmer, 2010, p. 81). Une

tâche de production orale, par exemple, sera dite directe si l’exécution de celle-ci se base

sur des éléments qui sont tous disponibles à l’intérieur même de l’input, comme la

description d’une photo, par exemple. Au contraire, si le candidat doit puiser dans ses

connaissances personnelles, comme pour donner son opinion sur un événement récent,

par exemple, ou faire des liens entre un événement donné et d’autres événements récents,

on dira que la tâche est indirecte puisque l’évaluation sera basée en partie sur des

connaissances qui ne faisaient pas partie de l’input immédiatement disponible.

Les caractéristiques des tâches du TFLM et ceux des contextes TLU

correspondants, exposées dans les tableaux V.1, V.2 et V.3, soulignent premièrement que

Page 134: Analyse de la validité prédictive d’une épreuve

114

les construits évalués par le TFLM sont très différents de ceux recherchés dans chacun

des trois TLU analysés (tableau V.1). Le TFLM évalue la compétence langagière

correspondant à la reconnaissance d’éléments relevant du code linguistique, et ce,

uniquement à l’écrit. L’oral est complètement absent de l’épreuve, que ce soit la

compréhension ou la production. De même, la compréhension écrite, qui est pourtant au

centre de deux autres volets analysés (cours disciplinaires et cours de mise à niveau),

n’est pas du tout évaluée. Quant à la production écrite, elle n’est pas mesurée de manière

à vérifier autre chose que la reconnaissance du code linguistique. Ces éléments, liés aux

caractéristiques des tâches et les éléments linguistiques mesurés, sont abordés plus en

détail dans le tableau V.2. On peut donc voir un premier décalage entre les tâches exigées

dans le TFLM et les tâches que les étudiants des programmes visés devront effectuer au

cours des quatre années qui composent leur cheminement régulier. De plus, si l’on

compare le construit évalué dans le TFLM aux composantes de la compétence 2 du

référentiel du MELS (2001), on voit très bien que le TFLM ne reflète aucunement

l’ampleur des besoins linguistiques et langagiers de la profession enseignante. La

compétence communicative à l’oral est complètement absente, comme nous l’avons

mentionné ci-dessus, ce qui semble un élément manquant au test quand on regarde le

nombre d’informations qu’un enseignant doit transmettre à ses apprenants

quotidiennement.

Deuxièmement, le TFLM ne mesure qu’une infime partie des connaissances qui

composent la compétence communicative (tableau V.2). Seules trois connaissances sont

abordées dans le TFLM, soit les connaissances du vocabulaire, de la syntaxe et de la

cohésion. Le premier constat est que ces trois connaissances uniquement sont bien

Page 135: Analyse de la validité prédictive d’une épreuve

115

entendu insuffisantes afin de fonctionner de manière efficace, quel que soit le contexte.

Les connaissances phonologiques ne sont aucunement abordées (puisque l’oral est

complètement absent du TFLM) ainsi que tous les éléments regroupés sous la

connaissance pragmatique (connaissance fonctionnelle et connaissance sociolinguistique)

malgré le fait que ces deux ensembles soient indispensables à une communication

efficace dans un contexte authentique de communication. Si l’on regarde ensuite les

connaissances nécessaires dans les contextes des cours disciplinaires des programmes

visés (TLU1) ou dans celui des cours de mise à niveau (TLU2), on voit que celles-ci sont

beaucoup plus complètes et sont presque toutes sollicitées. Il y a donc un décalage

flagrant entre les habiletés langagières mesurées par le TFLM et les habiletés langagières

dont les étudiants ont besoin pour suivre les cours du programme visé. Le TFLM

n’évalue qu’une infime partie des habiletés nécessaires à la réussite des étudiants dans les

programmes visés, et ce, de manière indirecte. Les tâches du TFLM ne ressemblent pas

aux tâches académiques et interactionnelles que les étudiants devront accomplir dans les

cours des programmes (discussions, présentations, rédaction de rapports de lecture,

analyses de textes académiques, observations, lectures académiques, etc.).

De même, si l’on compare les connaissances évaluées par le TFLM et les

connaissances nécessaires dans le contexte de prise en charge de l’enseignement que

connaissent tous les étudiants des programmes visés pendant leurs stages pratiques ou

dans leur carrière postuniversitaire, il est clair que le TFLM n’évalue encore une fois

qu’une infime partie des exigences des milieux professionnels en termes de

communication, exigences mises en relief par la compétence 2 du référentiel du MELS

(2001). Cette lacune importante est un bon exemple de ce que Messick (1996) appelle la

Page 136: Analyse de la validité prédictive d’une épreuve

116

sous-représentation de construit, qui affecte en premier lieu l’authenticité des tâches du

test puis, à son tour, la validité du test.

Le TFLM est donc bien limité par rapport à l’ampleur et la diversité des

connaissances langagières nécessaires dans les trois contextes présentés, et il est donc

légitime de se questionner quant à son utilisation dans le processus d’admission, surtout

quand on prend en compte l’impact important qu’il peut avoir sur tous les participants en

raison de son statut de test à grands enjeux. Rappelons que les décisions prises à partir

des résultats obtenus par les étudiants peuvent avoir des conséquences importantes sur

tous les individus ou organisations impliqués : candidats, professeurs et enseignants des

programmes, universités, futurs collègues de diplômés, et finalement, la société en

général. En fait, en termes d’impact estimé (tableau V.1), on remarque que le TFLM

porte le titre de test d’admission (c’est-à-dire qu’il « garde » les portes d’accès aux

programmes de formation en enseignement) mais qu’il ne remplit pas réellement cette

mission puisque tous les candidats au TFLM ont déjà été admis dans ces programmes sur

la base de leur dossier scolaire (la cote R, généralement). La seule conséquence entrainée

par un échec au test est l’ajout d’un ou de deux cours correctifs (les cours de mise à

niveau, CMN1, CMN2 ou CMN3) et dont le mandat est de permettre aux étudiants de

combler leurs lacunes en français telles qu’elles ont été identifiées par le TFLM pour

chacun des deux groupes de compétence (LOW et MID). Nous voyons ici une lacune

importante du TFLM puisque dans les faits, il n’est pas un test d’admission et ne

sélectionne pas uniquement les candidats les plus à-mêmes de connaître la réussite dans

les programmes visés. Les candidats n’ont donc pas du tout l’obligation de réussir le

TFLM, et même s’ils n’obtiennent que des notes médiocres aux cours correctifs imposés

Page 137: Analyse de la validité prédictive d’une épreuve

117

selon leur score au TFLM, il n’existe aucun mécanisme qui les empêche de poursuivre

leur programme sur la seule base de ces éléments (TFLM et cours correctifs). Si l’on

regarde les impacts estimés des contextes TLU, en particulier ceux liés aux programmes

et à la société, on voit que la qualité du français est un élément essentiel et que le TFLM

devrait effectivement participer à cet impact anticipé. Or, il n’en est rien et le TFLM

montre donc encore une fois des limites qui le rendent peu approprié au contexte dans

lequel il est utilisé. Au moment d’écrire ces lignes, la formation des enseignants est un

sujet qui fait couler beaucoup d’encre et la compétence langagière des enseignants en

exercice ou en formation est un objet important de l’attention de l’opinion publique. Le

débat est présentement relancé non seulement sur l’admission aux programmes de

formation des maitres, mais aussi sur les moyens éventuels d’évaluer les performances

des enseignants en exercice, et la création d’un ordre professionnel qui encadrerait la

profession au Québec, comme c’est déjà le cas partout ailleurs au Canada, est même de

retour sur la table.

Finalement, et dans le but unique de justifier les mécanismes de mise à niveau qui

accompagnent le TFLM, il est de rigueur de noter que les trois contextes TLU démontrent

une certaine uniformité et une logique en termes de connaissances langagières sollicitées.

On peut facilement voir que les cours disciplinaires du programme, les cours de mise à

niveau ou les milieux pratiques possèdent plus ou moins les mêmes exigences du point de

vue linguistique et langagier, malgré quelques lacunes çà et là. Après avoir identifié les

habiletés langagières nécessaires pour réussir le TFLM ainsi que celles nécessaires pour

connaitre la réussite dans les cours des programmes visés, on peut légitimement se poser

la question de savoir si le score du TFLM permet de sélectionner de manière fiable,

Page 138: Analyse de la validité prédictive d’une épreuve

118

valide et juste les étudiants dans les programmes de formation en enseignement. En plus

de cette interrogation, il est particulièrement important de déterminer si le score au TFLM

place correctement et adéquatement les étudiants dans les groupes de mise à niveau

rattachés au TFLM.

Le tableau V.3 présente les caractéristiques des tâches telles qu’elles sont

soumises aux candidats et aux étudiants des programmes. Sur ce point-là encore, nous

pouvons observer de nombreuses différences entre le TFLM et les trois contextes TLU

dans lesquels doivent fonctionner les étudiants. Certains de ces écarts sont anodins,

comme par exemple, les conditions d’administration des tâches (en termes de lieu, de

durée, etc.) puisque ces conditions peuvent changer d’un cours à l’autre, voire même

d’une classe à l’autre (changement de local disponible à l’université, etc.). Nous

passerons donc rapidement aux éléments qui peuvent faire une différence et qui

démontrent que le TFLM se présente comme radicalement différent des trois autres

contextes auxquels les étudiants sont exposés.

Le premier élément dans le tableau V.3 qui démontre une variation importante

entre le TFLM et les trois autres contextes correspond aux modalités des tâches exigées

des étudiants. Le TFLM, comme nous l’avons déjà énoncé, est un test individuel qui se

concentre sur la compétence linguistique sous la forme d’un QCM. Or, dans les cours du

programme, qu’ils soient disciplinaires ou de mise à niveau, les modalités des tâches sont

bien différentes. Cette pratique correspond donc à une évaluation indirecte (Davies, 2004)

des compétences langagières estimées nécessaires aux étudiants francophones, locuteurs

natifs de la langue visée, à la réussite des tâches des contextes TLU. Malgré le fait que la

compréhension ou l’acquisition par les étudiants dans certains cours soient évaluées par

Page 139: Analyse de la validité prédictive d’une épreuve

119

le même vecteur que le TFLM (QCM), cette pratique reste peu fréquente et les

évaluations tendent à prendre d’autres formes que le simple QCM. En effet, la plupart des

enseignants des programmes optent pour des formats d’examens qui sollicitent l’analyse

de problèmes et leur résolution en faisant appel à des savoir-faire abordés dans leurs

cours. On assiste donc à une multiplication des formats d’examens et à un abandon

progressif des QCM. Les questions du type résolution de problème, étude de cas, analyse

de situation, etc. parfois même à livre ouvert sont de plus en plus fréquentes dans les

contextes universitaires car elles sont censées être des moyens plus efficaces et valides de

vérifier et mesurer l’acquisition des concepts et surtout de leur compréhension par les

étudiants. De plus, de nombreux travaux d’équipes sont exigés par les enseignants,

probablement afin de refléter l’importance du travail collaboratif dans le monde du travail

aujourd’hui, qu’il s’agisse de l’enseignement ou de tout autre domaine professionnel. Les

étudiants sont donc amenés à travailler de concert avec leurs collègues et pairs beaucoup

plus fréquemment, se détachant ainsi du TFLM qui se concentre sur la performance

individuelle des participants. Les modalités des tâches du TFLM ne correspondent donc

que peu à celles plus couramment utilisées dans les cours qui composent les programmes

de formation en enseignement. Ces modalités englobent la plupart des éléments liés aux

tâches demandées, que ce soit le format de l’input, de l’output, le contenu langagier

présent dans les examens (surtout si l’on pense aux cours de spécialité, tels que ceux de

linguistique, de didactique, de littérature ou encore d’anthropologie qui font partie de

l’offre de cours des programmes en enseignement). Donc, et si l’on prend en

considération tous ces constats, il est tout à fait justifié de poser la question centrale de la

légitimité de l’utilisation du TFLM comme évaluation indirecte du potentiel qu’ont les

Page 140: Analyse de la validité prédictive d’une épreuve

120

étudiants d’accomplir avec succès les tâches qui leur seront imposées et qui composent

les contextes TLU1, TLU2 et TLU3 des programmes visés.

En conclusion, et après l’analyse détaillée du TFLM, des TLU des cours

disciplinaires, des cours de mise à niveau et du contexte de stage en enseignement, il est

évident qu’il existe un large fossé entre les construits mesurés par le TFLM et ceux requis

par les trois contextes TLU analysés. Ce décalage important entraine de nombreuses

questions en ce qui concerne l’utilisation même du TFLM dans le processus d’admission

aux programmes de formation initiale en enseignement puisqu’il ne correspond

aucunement aux objectifs de la formation ou même aux préalables nécessaires à la

réussite dans les programmes.

Ce constat, quoi qu’éloquent, doit néanmoins être documenté et confirmé par des

données objectives et inattaquables. C’est ce que cette étude tente de faire grâce à

l’utilisation supplémentaires de données quantitatives et qualitatives dont la cueillette

ainsi que les caractéristiques ont été expliquées dans la partie dédiée à la méthodologie

(chapitre IV).

En somme, l’analyse détaillée du TFLM, des contextes TLU des cours

disciplinaires, des cours de mise à niveau et du contexte de stage en enseignement a mis

en évidence qu’il existe un large fossé entre les buts et caractéristiques des tâches du

TFLM et celles des trois autres contextes analysés. En effet, les résultats présentés dans

les tableaux V.1 à V.3 démontrent clairement que de nombreux éléments diffèrent, et ce,

de manière importante, entre les caractéristiques des tâches du TFLM et les

caractéristiques des tâches des trois TLU du contexte, soit les cours de mise à niveau

imposés aux étudiants les moins performants (voir les plans de cours des CMN1, CMN2

Page 141: Analyse de la validité prédictive d’une épreuve

121

et CMN3, annexe C), les cours disciplinaires et optionnels qui composent le programme

(voir annexe B). Ces caractéristiques s’éloignent particulièrement des caractéristiques des

tâches qui attendent les sujets après leur cheminement universitaire, lorsqu’ils débuteront

leur carrière en enseignement, dans les classes de la province ou du Canada. Par exemple,

comme nous l’avons déjà déterminé auparavant, le TFLM est un test purement écrit et qui

n’aborde que le code linguistique de la langue française. Or, les tâches des TLU de notre

contexte ne sont pas uniquement des tâches écrites, au contraire. Une part importante des

tâches qui attendent les candidats est de nature orale, soit des rapports de lecture, des

discussions en classe et des présentations orales. De même, la majeure partie des

interventions des étudiants en stages ou même des enseignants en classe se fait dans un

contexte oral : expliquer clairement les contenus abordés, véhiculer des consignes,

motiver les apprenants. On peut même dire que les futurs enseignants doivent être des

orateurs chevronnés car ils ont la tâche non seulement d’expliquer les contenus ou passer

leurs consignes, mais en plus, ils doivent intéresser leur auditoire. Ils doivent donc faire

usage de nombreuses techniques oratoires qui ne sont bien entendu pas mesurées par un

test tel que le TFLM.

Même si l’on se détache de l’aspect oral qui n’est pas du tout abordé par le

TFLM, on se rend compte rapidement que les tâches qui le composent ne représentent

qu’une infime partie des tâches écrites exigées des étudiants dans les TLU du contexte.

On se rappelle que le TFLM ne mesure que la connaissance du code linguistique

(syntaxe, lexique, morphologie et morphosyntaxe, voir tableaux I.2, page 22, et I.3, page

23). Or, les tâches écrites des TLU concernés sont bien entendu bien plus complexes que

la seule connaissance de ces éléments linguistiques. Les étudiants doivent produire des

Page 142: Analyse de la validité prédictive d’une épreuve

122

rapports structurés de leurs lectures académiques, par exemple, et les compétences

requises pour compléter ces tâches dépassent très largement le seul code linguistique :

pour la simple (et fréquente) tâche des rapports de lecture, les étudiants doivent maitriser

non seulement les connaissances liées à la production écrite (voir tableaux V.1 à V.3)

mais aussi, bien entendu, ils doivent être en mesure de comprendre les articles ou textes

de nature scientifique qu’il leur est demandé de rapporter. Cette compétence de lecture

n’est encore une fois aucunement mesurée dans les tâches du TFLM, ce qui constitue une

lacune importante lorsqu’on regarde les tâches demandées aux étudiants par la suite. Les

tâches qui composent le TFLM ne concordent donc avec aucun des trois contextes TLU

auxquels il serait censé être rattaché : les cours de mise à niveau, les cours disciplinaires

ou optionnels des programmes concernés, ou le contexte professionnel des enseignants en

fonction.

Ce constat est le premier élément de réponse à notre première question de

recherche qui était : « Le TFLM est-il un prédicteur de réussite fiable dans le contexte

d’un baccalauréat en enseignement dans les universités francophones du Québec? ».

Puisque les caractéristiques des tâches diffèrent tant entre le TFLM et les trois contextes

TLU présents dans le cadre de l’étude, on peut avancer que, à la lumière de l’analyse

effectuée, le TFLM ne semble pas être un prédicteur fiable de la réussite des étudiants

dans les baccalauréats en enseignement dans les universités du Québec qui l’utilisent

puisqu’il n’évalue pas les mêmes habiletés. D’autre part, le même constat pourrait être

avancé pour répondre à notre deuxième question de recherche, qui cherchait à établir

l’impact des cours de mise à niveau sur la réussite des étudiants (« Les cours de mise à

niveau ont-ils un impact significatif sur la réussite des étudiants obligés de les suivre

Page 143: Analyse de la validité prédictive d’une épreuve

123

selon leur résultat au TFLM? »). En effet, même si les résultats de l’analyse comparative

effectuée démontrent que les tâches et les objectifs des cours de mise à niveau

correspondent plus aux exigences requises des étudiants dans les cours disciplinaires ou

des milieux de stage (contexte réel d’enseignement expérimenté par les étudiants des

programmes visés), il est impossible d’affirmer sans réserve que les cours de mise à

niveau sont bénéfiques pour les étudiants et qu’ils leur permet d’accéder à la réussite.

Cette limite est justifiée car les étudiants sont placés dans les cours de mise à niveau sur

la base de leur score au TFLM, qui, comme nous l’avons établi précédemment, n’est pas

un test approprié pour déterminer le niveau de compétence langagière de ses participants

et qui ne reflète que très peu les contenus abordés dans les cours correctifs.

5.2 Résultats de l’analyse des données quantitatives

Comme nous l’avons établi, le contenu du TFLM et les caractéristiques des tâches

qui le composent ne correspondent pas aux caractéristiques des tâches et au contenu des

trois contextes TLU présents, soit les cours disciplinaires des programmes visés, les cours

de mise à niveau en français et enfin, le contexte TLU professionnel du stage en

enseignement ou celui de l’enseignant en exercice. Dans la partie suivante, nous nous

nous sommes efforcé d’apporter plus d’éléments de réponse à nos deux premières

questions de recherche (« Le TFLM est-il un prédicteur de réussite fiable dans le contexte

d’un baccalauréat en enseignement? » et « les cours de mise à niveau ont-ils un impact

significatif sur la réussite des étudiants obligés de les suivre) en examinant d’une part les

relations, si elles existent, entre le score du TFLM et la moyenne cumulative finale pour

chacun de nos cent-quarante-cinq sujets, puis entre les moyennes cumulatives des sujets

après qu’ils aient suivi chacun des cours de mise à niveau pour en vérifier l’impact.

Page 144: Analyse de la validité prédictive d’une épreuve

124

Les données quantitatives utilisées pour effectuer ces analyses sont les résultats

obtenus par les étudiants au TFLM à leur admission au programme visé, les notes

obtenues aux cours de mise à niveau 1, 2 et 3 (selon leur résultat au TFLM), les

moyennes cumulatives (GPA) intermédiaires à des moments clés du cheminement des

étudiants et finalement, les moyennes cumulatives (GPA) finales des sujets à la fin de

leur cheminement. Une analyse linéaire de la régression effectuée entre le score au TFLM

et la moyenne cumulative finale (GPA) pour tous les sujets démontre que le score au

TFLM peut prédire la performance des sujets (sig.=.000) telle que mesurée par la

moyenne cumulative globale finale (tableau V.4).

V.4 Corrélation scores TFLM et GPA finale, tous sujets confondus (ANOVA)

Modèle Somme des

carrés

ddl Carré moyen F Sig.

1

Régression 5.354 1 5.354 54.932 .000b

Résidus 13.938 143 .097

Total 19.293 144

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Prédicteurs : (Constante), NOTE TFLM

p=.05

Cependant, les résultats pointent vers une corrélation faible puisqu’on peut voir

que les scores au TFLM comptent pour seulement 28% (R2=.278) dans la variation de la

moyenne cumulative générale finale (tableau V.5).

V.5 Corrélation scores TFLM et GPA finale, tous sujets confondus (récapitulatif des modèles)

Modèle R R2 R2ajusté Erreur standard de

l'estimation

1 .527 .278 .272 .31220

a. Prédicteurs : (Constante), NOTE TFLM

Le coefficient standardisé Béta (valence) de 53% (.527) établit que pour chaque

augmentation de 1 unité du score au TFLM, il y a une augmentation de 0,53 unité de la

Page 145: Analyse de la validité prédictive d’une épreuve

125

moyenne cumulative globale finale pour tous les sujets pris ensemble (tableau V.6). La

relation de corrélation est donc significative et positive, mais faible.

V.6 Corrélation scores TFLM et GPA finale, tous sujets confondus (coefficients)

Modèle Coefficients non standardisés Coefficient

standardisé

t Sig.

B Écart standard Béta

1 (Constante) 2.079 .159 13.056 .000

NOTE TFLM .017 .002 .527 7.412 .000

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33) p=.05

Cependant, lorsque les groupes d’étudiants sont séparés selon leur score au TFLM

en trois sous-groupes (le groupe HIGH pour les étudiants ayant obtenu un score de 75%

et plus, MID pour ceux ayant obtenu un score entre 60 et 74%, et LOW pour les étudiants

ayant obtenu un score au-dessous de 60%), l’analyse de la régression met en lumière des

résultats très différents. L’analyse de la variance (ANOVA, tableau V.7) qui établit le

rapport entre le score au TFLM et la moyenne cumulative finale pour un seul sous-groupe

de sujets, soit les sujets ayant obtenu une note supérieure ou égale à 75% (et de ce fait

exemptés de cours de mise à niveau) indique l’absence de corrélation (sig.=.70) entre le

score au TFLM et la moyenne cumulative finale pour ce sous-groupe (HIGH).

V.7 Corrélation scores TFLM et GPA finale pour les sujets du groupe HIGH (ANOVA)

Modèle Somme des

carrés

ddl Carré moyen F Sig.

Régression .497 1 .497 3.446 .070c

Résidus 6.780 47 .144

Total 7.277 48

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 :

groupe HIGH; 1 : groupe MID ; 2 : groupe LOW = 0

c. Prédicteurs : (Constante), NOTE TFLM

p=.05

Page 146: Analyse de la validité prédictive d’une épreuve

126

Il en est de même pour le deuxième sous-groupe (MID) et le troisième sous-

groupe (LOW), soit les sujets qui ont obtenu une note située entre 60 et 74% (MID) ou

inférieure à 60% (LOW) au TFLM respectivement. Les résultats de l’analyse de la

variance (ANOVA, tableaux V.8 et V.9) pour chacun de ces deux sous-groupes indiquent

qu’il n’y a pas de corrélation significative entre le score au TFLM et la moyenne

cumulative finale pour le sous-groupe MID. En effet, pour le groupe MID, l’indice de

corrélation est de .119 (tableau V.8), alors qu’il s’élève à .686 pour le groupe LOW

(tableau V.9) indiquant une absence de corrélation entre le score au TFLM des étudiants

et leur réussite, indiquée par leur moyenne cumulative globale.

V.8 Corrélation scores TFLM et GPA finale pour les sujets du groupe MID (ANOVA)

Modèle Somme des

carrés

ddl Carré moyen F Sig.

Régression .172 1 .172 2.501 .119c

Résidus 4.257 62 .069

Total 4.429 63

a. Variable dépendante : VD4 MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 :

groupe HIGH; 1 : groupe MID ; 2 : groupe LOW = 1

c. Prédicteurs : (Constante), NOTE TFLM

p=.05

V.9 Corrélation scores TFLM et GPA finale pour les sujets du groupe LOW (ANOVA)

Modèle Somme des

carrés

ddl Carré moyen F Sig.

Régression .015 1 .015 .167 .686c

Résidus 2.724 30 .091

Total 2.739 31

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 :

groupe HIGH; 1 : groupe MID ; 2 : groupe LOW = 2

c. Prédicteurs : (Constante), NOTE TFLM

p=.05

Page 147: Analyse de la validité prédictive d’une épreuve

127

À la lumière des résultats présentées dans les tableaux V.6 à V.9, on peut

démontrer que lorsqu’ils sont considérés individuellement, les indices statistiques

correspondant à la corrélation entre les scores au TFLM et la GPA finale pour chacun des

trois sous-groupes tendent à invalider le lien mis en évidence entre les scores au TFLM et

la moyenne cumulative finale dans les tableaux V.4 et V.5. Cela signifie que le score au

TFLM n’est pas en mesure de prédire efficacement la réussite des étudiants placés dans

les trois sous-groupes de compétence sur cette seule base. Cette incapacité du TFLM à

prédire la réussite des étudiants n’est pas réellement étonnante et ne fait que confirmer les

conclusions de l’analyse des tâches des contextes TLU des programmes cibles, exprimées

précédemment. En effet, étant donné que les caractéristiques des tâches qui composent le

TFLM sont radicalement différentes des tâches qui composent les cours de mise à niveau

ainsi que les cours disciplinaires ou optionnels suivis par les étudiants et sur lesquelles ils

sont évalués, une corrélation faible entre les scores obtenus au TFLM et les moyennes

cumulatives finales des étudiants était à prévoir. Encore une fois, et comme nous l’avons

démontré auparavant dans l’étude de base, les caractéristiques des tâches du TFLM et de

celles des contextes TLU ne visent pas les mêmes compétences ou connaissances chez les

candidats et ne placent pas les candidats dans les mêmes conditions d’évaluation : le

TFLM évalue la connaissance du code linguistique alors que les étudiants sont évalués en

partie sur leur compétence d’analyse et de compréhension de concepts scientifiques après

des lectures imposées, par exemple ; les travaux d’équipe constituent une partie

importante des évaluations dans les cours disciplinaires, mais les compétences sociales

qui sont rattachées à ce type de collaboration ne sont aucunement représentées dans le

TFLM ; les étudiants qui suivent les cours de mise à niveau doivent compléter une partie

Page 148: Analyse de la validité prédictive d’une épreuve

128

des travaux en ligne ou en utilisant des logiciels spécifiques, ce qui n’est jamais le cas

pour le TFLM. Toutes ces différences (de contenu, logistiques, modales ou autres) entre

le TFLM et les tâches des TLU font en sorte que le TFLM apparait totalement déconnecté

du reste du contexte des programmes de formation en enseignement car il n’est relié à

aucun des TLU rattachés à ce contexte. Les résultats statistiques obtenus par l’analyse de

la régression pour chacun des groupes, mettant en relief l’absence de corrélation entre les

scores au TFLM et la moyenne cumulative finale pour chaque sous-groupe, renforcent

donc les constats établis par l’analyse des données qualitatives rapportées lors de la

comparaison des caractéristiques des tâches du TFLM et des trois TLU de notre contexte.

Dès lors, nous pouvons dire que, d’après l’analyse de deux types de preuves (qualitatives

et quantitatives), le TFLM ne remplit pas sa mission de prédicteur de réussite dans les

programmes de formation en enseignement des universités québécoises qui l’utilisent à ce

jour.

Donc, pour répondre de manière tranchée à la première question de recherche

(« Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un baccalauréat en

enseignement dans les universités francophones du Québec? ») et en nous appuyant sur

les informations détaillées ci-dessus, nous pouvons avancer que ni du point de vue du

contenu, ni du point de vue purement quantitatif (statistiques), nous n’avons pu dégager

de preuves suffisantes pour établir le potentiel prédictif du TFLM. Le TFLM n’est donc

pas un prédicteur fiable de réussite tel que mesuré par la moyenne cumulative finale

(GPA), ce qui met en doute son utilisation actuelle dans les programmes de formation

initiale en enseignement des universités du Québec.

Page 149: Analyse de la validité prédictive d’une épreuve

129

Après avoir analysé la relation entre le score au TFLM et la réussite académique

des étudiants placés dans trois sous-groupes selon leur réussite au test, l’étape suivante de

l’étude des données quantitatives se concentre sur les questions de l’incidence des cours

de mise à niveau 1, 2 et 3 (CMN1, CMN2 et CMN3) sur la moyenne cumulative finale

pour les sous-groupes concernés (MID et LOW). Ces analyses devraient nous renseigner

sur l’utilité réelle des mécanismes des cours de mise à niveau obligatoires dans les

programmes de formation initiale en enseignement et ainsi apporter des éléments de

réponse à notre deuxième question de recherche, soit « Les cours de mise à niveau ont-ils

un impact important sur la réussite des étudiants obligés de les suivre selon leur résultat

au TFLM? ».

Afin de mieux comprendre le rôle des cours de mise à niveau dans l’augmentation

des chances de réussite des étudiants les moins performants (sous-groupes MID et LOW),

une étude de la régression a été effectuée en utilisant les moyennes cumulatives pour

chaque sujet des groupes MID et LOW après leurs cours de mise à niveau ainsi que leur

moyenne cumulative finale.

Les résultats de l’analyse indiquent une corrélation significative (sig.=.000) entre

leur moyenne cumulative après le cours de mise à niveau et leur moyenne cumulative

finale (tableau V.10 à V.13)

Page 150: Analyse de la validité prédictive d’une épreuve

130

V.10 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale,, groupe LOW

(ANOVA)

Modèle Somme des

carrés

ddl Carré moyen F Sig.

Régression 2.126 1 2.126 104.048 .000c

Résidus .613 30 .020

Total 2.739 31

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe

HIGH; 1 : groupe MID ; 2 : groupe LOW = 2

c. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 2

p=.05

D’après les résultats obtenus, pour le sous-groupe LOW, il y a une corrélation

significative (sig.=.000) entre la moyenne cumulative après le cours de mise à niveau 2 et

la moyenne cumulative globale finale (tableau V.10). Le degré d’incidence de la

moyenne cumulative après le CMN2 sur la moyenne cumulative finale pour le sous-

groupe LOW est analysé dans le tableau V.11 suivant, qui établit que la moyenne

cumulative après le cours de mise à niveau 2 compte pour 78% (R2=.776) de la variation

de la moyenne cumulative finale.

V.11 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, groupe LOW

(récapitulatif des modèles)

Modèle R R2 R2ajusté Erreur standard de

l'estimation Sous-groupes selon la

performance au TFLM

(0 : HIGH; 1 MID : 2

LOW = 2 sélectionné

1 .881a .776 .769 .14295

a. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 2

Le tableau V.12 met en évidence un coefficient standardisé Béta de près de 90%

(.881), ce qui signifie que pour chaque augmentation de 1 unité de la moyenne

cumulative après le CMN2, il y a une augmentation de .9 unités de la moyenne

Page 151: Analyse de la validité prédictive d’une épreuve

131

cumulative globale finale pour le sous-groupe VDS3 LOW. La corrélation est donc

significative, positive et forte.

V.12 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, groupe LOW

(coefficients)

Modèle Coefficients non

standardisé

Coefficients

standardisé

t Sig. Intervalle de confiance à

95.0% pour B

Statistiques de

colinéarité

B Écart

standard

Béta Borne

inférieure

Borne

supérieure

Tolérance VIF

(Constante) .429 .251 1.711 .097 -.083 .941

moyenne globale

après cmn 2

.904 .089 .881

10.200 .000 .723 1.085 1.000 1.000

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe

HIGH; 1 : groupe MID ; 2 : groupe LOW =2

Des résultats similaires ont été obtenus pour le groupe MID. Il existe une

corrélation significative (sig.=.000) entre la moyenne cumulative après le CMN3 et la

moyenne cumulative finale des étudiants qui ont été classés dans ce groupe selon leur

score au TFLM (tableau V.13).

V.13 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, (groupe MID (ANOVA)

Modèle Somme des

carrés

ddl Carré moyen F Sig.

1

Régression 3.478 1 3.478 226.708 .000c

Résidus .951 62 .015

Total 4.429 63

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe

HIGH; 1 : groupe MID ; 2 : groupe LOW = 1

c. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 3

p=.05

La moyenne cumulative après le CMN3 pour les sujets du groupe MID compte

pour 79% (R2 =.785) de la variation de la moyenne cumulative finale (tableau V.14), ce

qui nous permet de parler d’une corrélation forte et positive (coefficient Béta standardisé

de .886) comme l’indiquent les données du tableau V.15.

Page 152: Analyse de la validité prédictive d’une épreuve

132

V.14 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale,, groupe MID

Modèle R R2 R2ajusté Erreur standard de l'estimation

Sous-groupes selon la performance au

TFLM (0 : HIGH; 1 : MID; 2 : LOW =

1 sélectionné

1 .886a .785 .782 .12385

a. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 3

V.15 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, groupe MID

(coefficients)

Modèle Coefficients non

standardisé

Coefficients

standardisé

t Sig. Intervalle de

confiance 95.0%

pour B

Statistiques de

colinéarité

B Écart

standard

Béta Borne

inférieure

Borne

supérieure

Tolérance VIF

1

(Constante) 1.309 .127 10.307 .000 1.055 1.563

MOYENNE

GLOBALE

APRÈS CMN

3

.631 .042 .886 15.057 .000 .547 .714 1.000 1.000

a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)

b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe

HIGH; 1 : groupe MID ; 2 : groupe LOW = 1

Une implication possible mise en relief par les résultats exposés ci-dessus est que

les sujets qui ont suivi les cours de mise à niveau, que ce soit les groupes LOW ou MID,

améliorent leur moyenne cumulative transitoire de manière significative. Cela signifierait

que les cours de mise à niveau aident les étudiants dans leur cheminement et que, au

contraire du TFLM, les contenus abordés dans ces cours de mise à niveau aident les

étudiants des groupes LOW ou MID, d’une manière ou d’une autre, à améliorer leurs

résultats dans les autres cours du programme. Les implications de ce constat, démontré

par les analyses statistiques, sont doubles : premièrement, elles confirment l’absence de

relation présentée auparavant explicitée entre les tâches du TFLM et celles des cours de

Page 153: Analyse de la validité prédictive d’une épreuve

133

mise à niveau (tableau V.3, page 108), et deuxièmement, elles réitèrent les conclusions

d’ordre général auxquelles nous sommes parvenus grâce aux analyses statistiques

présentées dans les tableaux V.7 à V.9 et qui tendent à prouver l’impossibilité du TFLM à

prédire la réussite académique tel qu’il est mesuré par la GPA finale pour les sujets de

chaque groupe.

Cependant, étant donné que les sujets avaient été classés en trois sous-groupes

(LOW, MID ou HIGH) sur la base des scores obtenus au TFLM, test dont la validité n’est

pas éprouvée et qui ne correspond pas aux contenus ni des cours disciplinaires, ni des

cours de mise à niveau (voir tableaux V.2 et V.3), la corrélation entre la moyenne

cumulative transitoire après leur cours de mise à niveau (pour les groupes MID et LOW)

et leur moyenne cumulative finale ne justifie pas forcément la présence des cours de mise

à niveau dans le programme et les mécanismes mis en place pour les sujets les moins

compétents (LOW et MID). Il est donc important de procéder à des tests supplémentaires

si l’on veut être en mesure de déterminer avec exactitude et de manière empirique si les

cours de mise à niveau remplissent leur mission.

Donc, afin de déterminer plus clairement l’apport bénéfique, s’il existe, des cours

de mise à niveau obligatoires, nous avons procédé à des tests d’échantillons appariés

(paired t-tests) afin de vérifier s’il existait une différence significative entre la moyenne

cumulative des sous-groupes LOW et MID avant et après leur(s) cours de mise à niveau.

Les données descriptives et les résultats obtenus pour le groupe LOW et MID

sont présentés dans les tableaux V.16 et V.17. On note que pour cette analyse, nous avons

utilisé les données de seulement 14 sujets dans le groupe LOW car étant donné que le

cours de mise à niveau 1 (CMN1) est souvent suivi par les sujets pendant leur première

Page 154: Analyse de la validité prédictive d’une épreuve

134

session à l’université, nous ne disposons pas de leur moyenne cumulative avant leur

première session dans le programme. Il a été décidé cependant de procéder avec l’analyse

en prenant en compte les données disponibles pour les 14 sujets dont nous disposions,

malgré le fait qu’il s’agisse d’un nombre relativement limité sur lequel baser une

interprétation solide.

V.16 Statistiques des échantillons appariés, étudiants des groupes LOW et MID

Mean N Std. Deviation Std. Error Mean

LOW,

Paire 1

MOYENNE GLOBALE

AVANT CMN 1 2.79 14 .358 .096

MOYENNE GLOBALE

APRÈS CMN 2 2.8457 14 .31375 .08385

MID,

Paire 2

MOYENNE GLOBALE

AVANT CMN 3 2.97 57 .439 .058

MOYENNE GLOBALE

APRÈS CMN 3 3.0514 57 .34065 .04512

V.17 Test des échantillons appariés étudiants des groupes LOW et MID

Paired Differences

t df Mean

Std.

Deviation

Std. Error

Mean

95% Confidence Interval of

the Difference

Lower Upper

LOW MOYENNE GLOBALE

AVANT CMN 1 MOYENNE

GLOBALE

APRÈS CMN 2

-.05929 .14887 .03979 -.14524 .02667 -1.490 13

MID VI4 MOYENNE GLOBALE

AVANT CMN 3 -

MOYENNE GLOBALE

APRÈS CMN 3

-.07772 .23661 .03134 -.14050 -.01494 -2.480 56

Les résultats de l’analyse (tableau V.18) pointent vers une différence significative

entre les moyennes cumulatives transitoires « avant » et « après » les cours de mise à

niveau pour les sujets du sous-groupe MID (p=.016) mais pas pour le sous-groupe LOW

Page 155: Analyse de la validité prédictive d’une épreuve

135

(p=.160). Cela signifierait que les sujets du groupe MID ont amélioré leur moyenne

cumulative après avoir suivi le cours de mise à niveau leur étant destiné, alors que les

étudiants du groupe LOW n’y sont pas parvenus.

V.18 Test des échantillons appariés étudiants groupes LOW, MID

Sig. (2-tailed)

LOW Moyenne globale avant CMN 1 moyenne globale après CMN 2

.160

MID Moyenne globale avant CMN 3 - moyenne globale après CMN 3

.016

p=.05

À la lumière des résultats présentés ci-dessus, on peut avancer que, dans le

meilleur des cas, les cours de mise à niveau peuvent être bénéfiques à court terme pour

les étudiants du groupe MID qui, selon les administrateurs des programmes concernés,

ont besoin des cours de mise à niveau. Donc, afin de mettre en lumière l’efficacité à long

terme des cours de mise à niveau et ainsi apporter une réponse complète à la deuxième

question de recherche (« Les cours de mise à niveau ont-ils un impact important sur la

réussite des étudiants classés selon leur résultat au TFLM selon leur résultat au

TFLM? »), nous avons procédé à une analyse de la variance à mesures répétées pour des

échantillons appariés (2-way repeated measures test) dans le but de vérifier la présence

d’une différence significative dans les moyennes cumulatives des trois sous-groupes

(LOW, MID et HIGH) au début de leur cheminement (fin de la session 1) et à la toute fin

de leur programme de quatre années (moyenne cumulative finale).

En d’autres termes, nous voulions obtenir des preuves qui pourraient confirmer si,

à la fin des quatre années du programme, les cours de mise à niveau remplissaient

réellement et complètement leur mission qui est d’aider les sujets les moins performants à

Page 156: Analyse de la validité prédictive d’une épreuve

136

combler leurs lacunes et ainsi se hisser au même niveau de performance que les étudiants

plus performants, ceux du groupe HIGH.

Selon les résultats obtenus (tableau V.19), les moyennes cumulatives transitoires

sont caractérisées par une différence significative (sig.=.000) entre les groupes pour tous

les sujets considérés ensemble. Ce résultat signifie que les moyennes des groupes restent

différentes après les quatre années de cheminement, ce qui indiquerait que les cours de

mise à niveau faillissent à leur mission de remettre à niveau les étudiants les moins

performants.

V.19 Différences entre moyennes transitoires (après session 1) entre les 3 groupes LOW, MID et

HIGH (ANOVA)

GPA à la fin de la session 1

Sum of Squares df Mean Square F Sig.

Between Groups 9.103 2 4.551 17.033 .000

Within Groups 37.943 142 .267

Total 47.046 144

p=.05

Cependant, les comparaisons multiples effectuées pour chaque groupe ne

montrent aucune différence significative entre les performances des groupes LOW et

MID (tableau V.20). Ce résultat (sig.=.217) indique que les cours de mise à niveau n’ont

pas permis au groupe LOW de combler leurs lacunes, identifiées par le TFLM, et n’ont

pas réussi à augmenter leur moyenne cumulative au niveau de celle du groupe MID.

Page 157: Analyse de la validité prédictive d’une épreuve

137

V.20 Analyse comparative multiple, GPA transitoires après session 1 (tous les groupes)

(I) Sous-groupes selon la

performance au TFLM (0 :

HIGH; 1 : MID ; 2 : LOW)

(J) Sous-groupes selon la

performance au TFLM (0 :

HIGH; 1 : MID ; 2 : LOW)

Mean

Difference (I-

J)

Std.

Error

Sig. 95% Confidence

Interval

Lower

Bound

Upper

Bound

HIGH MID .43954* .09812 .000 .1968 .6823

LOW .63626* .11749 .000 .3456 .9269

MID HIGH -.43954* .09812 .000 -.6823 -.1968

LOW .19672 .11192 .217 -.0801 .4736

LOW HIGH -.63626* .11749 .000 -.9269 -.3456

MID -.19672 .11192 .217 -.4736 .0801

Variable dépendante : GPA à la fin de la session 1

*The mean difference is significant at the 0.05 level.

De plus, les résultats obtenus par les tests présentés ci-dessous (tableau V.21, tests

of within-subjects effects) étayent la différence significative entre les performances des

sujets après la première session et à la fin de leur programme, peu importe leur niveau, tel

que déterminé par le score au TFLM (facteur 1). Ces résultats confirment d’autre part une

interaction significative entre le niveau de compétence langagière des sujets et leur

moyenne cumulative à au moins deux moments dans leur cheminement, soit la fin de la

première session (sig.=.000) et la fin de leur cheminement (facteur 1*, fin de programme,

sig.=.010).

V.21 Test de l’effet interne, tous les groupes

Source Type III Sum of

Squares

df Mean Square F Sig.

facteur1 : fin de

session 1

Sphericity Assumed 2.811 1 2.811 56.420 .000

Greenhouse-Geisser 2.811 1.000 2.811 56.420 .000

Huynh-Feldt 2.811 1.000 2.811 56.420 .000

Lower-bound 2.811 1.000 2.811 56.420 .000

facteur1 * : fin

de programme

(GPA finale)

Sphericity Assumed .478 2 .239 4.795 .010

Greenhouse-Geisser .478 2.000 .239 4.795 .010

Huynh-Feldt .478 2.000 .239 4.795 .010

Lower-bound .478 2.000 .239 4.795 .010

Erreur

(facteur1)

Sphericity Assumed 7.074 142 .050

Greenhouse-Geisser 7.074 142.000 .050

Huynh-Feldt 7.074 142.000 .050

Lower-bound 7.074 142.000 .050

p=.05

Page 158: Analyse de la validité prédictive d’une épreuve

138

En ce qui concerne les moyennes cumulatives finales pour chacun des groupes,

une analyse de type ANOVA a été effectuée et les résultats obtenus pointent vers une

différence significative entre les moyennes cumulatives finales des trois groupes à la fin

de leur programme de quatre années (tableau V.22, sig.=.000).

Tableau V.22 Différences entre GPA finales, tous les groupes

MOYENNE GLOBALE FINALE (/4.33)

Sum of Squares df Mean Square F Sig.

Between Groups 4.848 2 2.424 23.82

8

.000

Within Groups 14.445 142 .102

Total 19.293 144

p=.05

Si l’on se base sur les résultats de l’analyse comparative multiple (multiple

comparisons, tableau V.23), à la fin du programme de quatre ans, la différence

significative identifiée par le TFLM au début du processus d’admission perdure. Les

étudiants peuvent donc toujours être classés en trois sous-groupes similaires après quatre

ans de formation et après avoir suivi les cours de mise à niveau imposés (sig.= .000 à

.004, p =.05).

Tableau V.23: Analyse comparative multiple GPA, tous les groupes

Dependent Variable: MOYENNE GLOBALE FINALE (/4.33)

Scheffe

(I) Sous-groupes selon la

performance au TFLM (0 :

HIGH; 1 : MID ; 2 :

LOW)

(J) Sous-groupes selon la

performance au TFLM (0 :

HIGH; 1 : MID ; 2 :

LOW)

Mean

Difference (I-

J) Std. Error Sig.

95% Confidence Interval

Lower

Bound

Upper

Bound

HIGH MID .25800* .06054 .000 .1082 .4078

LOW .49300* .07249 .000 .3137 .6723

MID HIGH -.25800* .06054 .000 -.4078 -.1082

LOW .23500* .06905 .004 .0642 .4058

LOW HIGH -.49300* .07249 .000 -.6723 -.3137

MID -.23500* .06905 .004 -.4058 -.0642

*. The mean difference is significant at the 0.05 level.

Page 159: Analyse de la validité prédictive d’une épreuve

139

En bref, les résultats exposés ci-dessus, considérés de manière globale,

démontrent que les cours de mise à niveau n’ont pas rempli leur mandat original qui était

de permettre aux étudiants les plus faibles de rattraper leur retard et ainsi de gommer les

différences entre les trois sous-groupes d’étudiants déterminés par le TFLM. En effet, les

étudiants les plus faibles, identifiés comme tels par leurs performances au TFLM, restent

plus faibles après quatre ans de programme et après les cours de mise à niveau imposés.

De plus, les performances des groupes LOW et MID, dont la différence avait disparu

après la première session, démontrent une différence significative à la fin des quatre

années de programme, ce qui signifie que l’effet bénéfique des cours à court terme

disparait au fur et à mesure que les années passent et que l’écart entre les performances

des trois sous-groupes s’aggrave au cours du programme.

Donc, pour répondre à la deuxième question de recherche, les preuves accumulées

démontrent que non seulement la classification en sous-groupes par le TFLM n’est pas

précise, mais que de surcroit, les cours de mise à niveau imposés aux étudiants des sous-

groupes LOW et MID sont inefficaces. Ce constat est renforcé par les gains en termes de

moyennes cumulatives atteints par les trois sous-groupes après la première session,

données présentées dans les tableaux V.24 et V.25 ci-dessous.

Tableau V.24 : Statistiques des échantillons appariés, tous les groupes, GPA transitoire après

session 1 et GPA finale

Sous-groupes selon la performance au TFLM (0 : HIGH; 1 : MID ; 2 :

LOW) Mean N

Std.

Deviation

Std. Error

Mean

HIGH Paire 1 GPA à la fin de la session 1 3.3694 .59841 .08549

moyenne globale finale (/4.33) 3.4661 49 .38937 .05562

MID Paire 1 GPA à la fin de la session 1 2.9298 .48499 .06062

moyenne globale finale (/4.33) 3.2081 64 .26513 .03314

LOW Paire 1 GPA à la fin de la session 1 2.7331 .43759 .07736

moyenne globale finale (/4.33) 2.9731 32 .29725 .05255

p=.05

Page 160: Analyse de la validité prédictive d’une épreuve

140

V.25 Test des échantillons appariés, tous les groupes, GPA transitoire après session 1 et GPA

finale Sous-groupes selon la

performance au TFLM (0

: HIGH; 1 : MID ; 2 :

LOW)

Paired Differences

Mean Std.

Deviation

Std. Error

Mean

95% Confidence Interval of the

Difference

df Sig. (2-

tailed)

Lower Upper

HIG

H

Paire

1 GPA à la fin

de la session

1 - moyenne

globale

finale (/4.33)

-.09673 .31941 .04563 -.18848 -.00499 -2.120 48 .039

MID

Paire

1 GPA à la fin

de la session

1 - moyenne

globale

finale (/4.33)

-.27828 .30356 .03795 -.35411 -.20245 -7.334 63 .000

LO

W

Paire

1 GPA à la fin

de la session

1 - moyenne

globale

finale (/4.33)

-.24000 .33342 .05894 -.36021 -.11979 -4.072 31 .000

p=.05

Encore une fois, les résultats des tests appariés indiquent des gains en termes de

moyennes cumulatives à la fin de la première session. Cependant, les gains pour les trois

groupes ne sont pas équivalents (tableau V.25). En fait, les gains accomplis par les sujets

du groupe MID (.27) sont supérieurs aux gains obtenus par les sujets du groupe LOW

(.24) qui eux-mêmes sont supérieurs aux gains accomplis par les sujets du groupe HIGH

(.09), gains négligeables, cependant.

Des données présentées ci-dessus, on peut conclure que, d’une part, seuls les

sujets du sous-groupe MID ont pu tirer avantage des cours de mise à niveau imposés par

leur performance au TFLM mais que, d’autre part, ces progrès sont restés minimes et

l’effet recherché n’a pas été atteint car ni les sujets du sous-groupe MID, ni ceux du

groupe LOW n’arrivent pas à se hisser au niveau supérieur (sous-groupe HIGH) malgré

le fait qu’ils aient suivi le cours de mise à niveau.

Page 161: Analyse de la validité prédictive d’une épreuve

141

5.3 Résultats de l’analyse des données qualitatives

En conformité avec le choix méthodologique mixte de notre recherche

(triangulation convergente), un questionnaire (annexe D) composé de 56 questions,

inspiré de Elder (1993) a été utilisé (pour une description détaillée, voir chapitre IV,

Méthodologie). Le questionnaire a pour objectif de caractériser les perceptions des

étudiants au sujet du TFLM et des cours de mise à niveau qui l’accompagnent. Il a été

envoyé via une plateforme informatisée à plusieurs étudiants actuels et diplômés choisis

au hasard et qui ont passé le TFLM entre 2008 et 2013. Parmi ces étudiants, dix-huit ont

répondu.

Les questions relatives à l’identité (nom et prénom, L1, programme d’études, date

de passation du TFLM) des participants ne seront pas rapportées ici. En ce qui concerne

les questions suivantes, 83% des répondants (15 sur 18) ont répondu à la question 5 qui

visait à établir leur note au TFLM. De ces réponses, 66% (10 sur 15) ont obtenu une note

de 75% et plus (groupe HIGH), 26% (4 sur 15) ont obtenu une note comprise entre 60 et

74% (groupe MID) et un seul répondant (6%) a obtenu une note inférieure ou égale à

59% (groupe LOW). À noter que 3 répondants n’ont pas répondu à la question 5.

Les questions relevant des notes obtenues aux épreuves de français antérieures au

TFLM (épreuves uniformes des français des niveaux secondaire et collégial) n’ont

produit que très peu de réponses claires. Cette donnée pourra donc être difficilement

exploitable. Les participants n’ont pour la plupart pas passé d’autres épreuves de français

avant le TFLM (question 8).

Les questions de la deuxième partie du questionnaire visaient à extraire l’opinion

des candidats envers le TFLM lui-même. Les résultats sont les suivants.

Page 162: Analyse de la validité prédictive d’une épreuve

142

Pour 86% des répondants, le test parait difficile ou relativement difficile, même

pour des locuteurs natifs du français (Q.9) et la culture générale du contexte québécois

(Q.10) semble être mesurée correctement (58%). Le TFLM parait pertinent (85%) en ce

qui concerne la correspondance entre le contenu du test et le contenu langagier des cours

du programme visé (Q.11), mais peu, voire pas pertinent en ce qui concerne ses liens aux

compétences linguistiques (Q.15, 15%) ou culturelles (Q.16, 7%) exigées par le contexte

de la future profession des candidats, l’enseignement, ce qui donne des informations sur

la validité apparente du TFLM en termes d’authenticité (Bachman et Palmer, 1996).

Cependant, les répondants ne semblent pas percevoir le TFLM comme un test fiable

(qualité de fidélité, Bachman & Palmer, 1996) car seulement 14% des répondants

estiment que le TFLM reflète leur niveau réel de compétence langagière des candidats

(Q. 14). Enfin, les données relatives à l’impact que le score peut avoir sur le

cheminement des répondants ont été très partagées : 55% des répondants estiment que les

décisions prises sur la base des résultats au TFLM peuvent avoir des conséquences

positives sur leur cheminement (Q.12) alors que 64% des répondants pensent que ces

mêmes décisions peuvent avoir des conséquences négatives sur leur cheminement.

L’impact (Bachman & Palmer, 1996) est donc limité. Toutes ces données sont exposées

sous forme de tableau ci-dessous (tableau V.26)

Page 163: Analyse de la validité prédictive d’une épreuve

143

Tableau V.26 : Réponses des répondants au sujet du contenu du TFLM et de son impact

Les répondants pensent

que le TFLM :

Pas du tout

d’accord (%)

Pas d’accord

(%)

Partiellement

d’accord (%)

D’accord (%) Tout à fait

d’accord (%)

Est difficile 7 7 43 36 7

Est une mesure valide

du niveau de

compétence en langue

française des candidats

14.5 50 21.5 7 7

Correspond au contenu

des cours disciplinaires

8 8 38 46

Correspond aux besoins

linguistiques du

contexte réel de

situation

d’enseignement

36 50 14

Correspond aux besoins

culturels du contexte

réel de situation

d’enseignement

7 29 43 14 7

A des conséquences

positives sur le

programme

7 36 21 36

A des conséquences

négatives sur le

programme

36 28.5 28.5 7

Les questions 17 à 25 visaient à établir l’opinion que les répondants se faisaient de

leur propre compétence langagière et de vérifier s’ils perçoivent leur niveau de français

adéquat à la réussite dans le programme d’études suivi. Il en ressort que les candidats se

considèrent majoritairement assez compétents en français pour connaitre la réussite dans

leurs études, et ce, dans tous les types d’interactions, de travaux, et dans les milieux de

stage pratique. En effet, aucun répondant (0%) n’a avoué connaitre ou avoir connu des

difficultés dans ses cours disciplinaires ou optionnels, que ce soit pendant des cours

magistraux, des travaux écrits individuels ou en équipe, lors d’interactions avec les

enseignants ou avec les pairs, lors de présentations orales individuelles ou en équipes, de

lecture d’articles scientifiques ou dans les milieux de stage. Seuls 7% des répondants

semblent éprouver ou avoir éprouvé de très légères difficultés lors de travaux écrits

Page 164: Analyse de la validité prédictive d’une épreuve

144

d’équipe (Q.19), des présentations orales individuelles (Q.22) ou en équipe (Q.23), et

lors de lecture d’articles scientifiques (Q.24).

Tableau V.27 : Perceptions de la compétence en français des répondants

Les étudiants estiment avoir

éprouvé des difficultés

linguistiques dans les

contextes suivants :

Pas du tout

d’accord (%)

Pas d’accord

(%)

Partiellement

d’accord (%)

D’accord

(%)

Tout à fait

d’accord (%)

Cours magistraux 71,5 28.5

Travaux écrits individuels 61.5 38.5

Travaux écrits en équipe 57 36 7

Interactions orales avec le

personnel enseignant

85 15

Interactions orales avec

leurs pairs

78.5 21.5

Présentations orales

individuelles

64 29 7

Présentations orales en

équipe

64 29 7

Lectures de textes à teneur

académique ou scientifique

71.5 21.5 7

Pendant leurs stages

(formation pratique)

64 36

Ces données, exposées ci-dessus et rapportées dans le tableau V.27, viennent

consolider les autres types de preuves avancés jusqu’ici en regard à la pertinence de

l’utilisation du TFLM : en effet, nous avions déjà démontré que le TFLM n’est pas relié

aux TLU de notre contexte lorsque nous avons comparé les caractéristiques des tâches du

TFLM par rapport aux caractéristiques des tâches des TLU (étude de base) ; nous avions

aussi démontré que les scores au TFLM n’étaient pas en mesure de prédire la réussite des

étudiants dans leurs divers cours, et ce, que ce soit au début de leur cheminement ou à la

toute fin des quatre ans de programme (analyses de la régression et de la variance), mais

les réponses recueillies auprès des étudiants révèlent encore un élément clé qui est le

suivant : même lorsque les étudiants ressentent des difficultés en français, dans l’un ou

l’autre des TLU du contexte, il est à noter que les difficultés éprouvées ne sont pas reliées

aux compétences évaluées par le TFLM. En effet, si 7% des répondants avouent éprouver

Page 165: Analyse de la validité prédictive d’une épreuve

145

ou avoir éprouvé de légères difficultés en français pendant leur cheminement, on note

qu’il s’agit toujours de situations dont les caractéristiques ne sont pas ciblées par le

TFLM (présentations orales ou travaux d’équipe ; lecture d’articles scientifiques). Cette

information, ajoutée aux éléments de preuve déjà accumulés dans les deux premiers

volets de notre étude, renforce encore plus l’idée que le TFLM n’est pas pertinent au

contexte dans lequel il est utilisé.

La quatrième partie visait à connaitre l’opinion des répondants sur les deux

éléments suivants : premièrement, si les répondants pensent qu’un test de français est

toujours nécessaire dans le contexte présent, en particulier puisque tous les candidats sont

francophones, et deuxièmement, les répondants sont amenés à se prononcer sur la teneur

des éléments qui devraient être évalués par le TFLM (construits). Il en ressort que, d’une

part, les répondants estiment qu’un test de français est un outil qui devrait être conservé

dans le contexte des programmes de formation en enseignement, même pour les étudiants

francophones (100% des répondants), et que d’autre part, toutes les composantes du

français, soit la compréhension orale et écrite, ainsi que la production orale et écrite,

devraient être évaluées au cours de leur cheminement de manière égale. En effet, les

répondants ont répondu de manière très équilibrée, ce qui tend à établir que selon les

répondants, les quatre habiletés devraient être mesurées de manière égale. Ici encore,

l’opinion des répondants va à l’encontre du TFLM puisque celui-ci ignore totalement la

quasi globalité des composantes langagières autres que le code linguistique seul.

La cinquième partie du questionnaire concernait seulement un répondant qui avait

obtenu un score égal ou inférieur à 59% au TFLM. Dans ses réponses, on peut voir que

les cours de mise à niveau suivis ont conforté le répondant (tout à fait d’accord ou

Page 166: Analyse de la validité prédictive d’une épreuve

146

d’accord, Q.28, Q.29, Q.31 et Q.32) mais qu’il ne sait pas si de tels cours devraient être

intégrés au cheminement régulier de tous les étudiants du programme (partiellement

d’accord, Q.30). Le répondant semble aussi penser que les cours de mise à niveau ne

constituent pas un moyen suffisant afin d’améliorer la compétence des étudiants (Q.29),

mais qu’ils doivent cependant être conservés, tout comme le TFLM (Q.34) et que des

cours de ce type devraient être imposés aux étudiants (Q.35). Quant à l’utilisation de

mises en situation pour déterminer l’admission des candidats dans des programmes de

formation en enseignement ou un cours de français écrit avancé à des fins académiques,

le répondant semble mitigé sur ces deux mesures éventuelles puisqu’il a choisi de se dire

« partiellement d’accord » avec les deux proposition (Q.36 et Q.37).

La sixième partie s’adressait aux répondants appartenant au groupe MID, c’est-à-

dire les sujets ayant obtenu entre 60 et 74% au TFLM, ce qui correspond à 22% du total

des répondants. Des réponses recueillies, il ressort que les répondants considèrent

l’apport du cours de mise à niveau suivi comme bénéfique (100% d’accord ou tout à fait

d’accord, Q.38 et Q.39) et pensent qu’il devrait être intégré au cheminement régulier de

tous les étudiants inscrits dans des programmes de formation en enseignement (75 à

100% D’accord ou Tout à fait d’accord, Q.40 et Q.41). Les répondants sont plus partagés

quant à l’efficacité du cours de mise à niveau qui leur a été imposé mais tendent quand

même à lui conférer un certain aspect positif (50 à 75% partiellement d’accord, Q.42 et

Q.43) et désirent conserver le TFLM dans le processus d’admission (100% pas d’accord

ou pas du tout d’accord, Q.44). De même, et malgré le fait que tous les candidats soient

francophones, les répondants pensent à l’unanimité que ce type de cours de français

imposé aux étudiants doit être conservé (100% pas du tout d’accord ou pas d’accord

Page 167: Analyse de la validité prédictive d’une épreuve

147

avec la proposition de les retirer des exigences d’admission, Q.45). Finalement, les

répondants du sous-groupe MID sont plutôt défavorables (50% pas d’accord, Q.46) à

l’utilisation de mises en situation à des fins d’admission et très partagés quant à l’idée

d’un cours de français écrit avancé à des fins académiques (25% pas d’accord, 50%

partiellement d’accord, 25% d’accord, Q.47).

Les résultats issus du questionnaire pour ce sous-groupe confirment les résultats

dégagés par les réponses données par le répondant du sous-groupe LOW, et qui

établissaient que d’une part, le TFLM n’était pas un test pertinent dans son utilisation

actuelle, mais que d’autre part, il est nécessaire de conserver un test du même type dans

le processus d’admission. De manière similaire, les répondants du sous-groupe MID

confèrent une certaine légitimité au cours de mise à niveau et estiment que ce cours les a

aidés dans leur cheminement, d’une manière ou d’une autre. En termes de perceptions,

donc, les cours de mise à niveau sont un aspect positif pour les étudiants des programmes

de formation en enseignement, mais comme nous l’avons démontré à plusieurs reprises,

que ce soit au cours des comparaisons entre les TLU et les caractéristiques des tâches du

TFLM ou les diverses analyses statistiques effectuées, les cours de mise à niveau dans

leur forme actuelle sont des éléments adjuvants à court terme qui ne fournissent pas les

outils nécessaires à une réelle mise à niveau des étudiants qui les suivent. Cependant,

puisque les étudiants semblent les apprécier, il serait avantageux pour les administrateurs

des facultés chargées des programmes de formation en enseignement de revoir les

contenus de ces cours afin de les rapprocher au maximum des TLU des cours des

programmes concernés et de la profession enseignante.

Page 168: Analyse de la validité prédictive d’une épreuve

148

Finalement, 44% des répondants au total, soit huit, qui ont été classés comme

faisant partie du sous-groupe HIGH (résultat de 75% ou plus) à partir de leur score au

TFLM, ont répondu aux questions les concernant (Q.48 à Q.55). Les réponses de ce

groupe sont très inégales et il est difficile de voir des tendances fortes dans leur

perception du TFLM. En ce qui concerne l’efficacité du TFLM à sélectionner les

candidats les plus performants (Q.48), 62% des répondants estiment que le TFLM

sélectionne les candidats aux programmes de formation en enseignement de manière

fiable (d’accord ou partiellement d’accord) ; 38% des répondants de ce groupe estiment

donc que le TFLM n’est pas un outil fiable de sélection (pas d’accord). De même, si l’on

regarde les réponses obtenues aux questions 49 et 50, on voit que seulement 50% des

répondants s’estiment plus compétents que leurs collègues en français sur la base du

score obtenu au TFLM (Q.49), alors que 50% pensent que le TFLM n’est pas un outil

indicateur approprié de la compétence langagière des futurs enseignants (Q.50). Les

questions 51 et 52 viennent éclaircir ce clivage puisque 85 à 88% des répondants estiment

par leurs réponses que le TFLM ne garantit pas une meilleure compétence linguistique

(Q.51) ni n’offre de mesure précise de toutes les composantes de la compétence

langagière des étudiants. Malgré cette opinion tranchée de la part des répondants, ils

s’opposent vivement à un retrait éventuel du TFLM du processus d’admission (75%,

Q.53) et sont partagés (47% pas d’accord ou pas du tout d’accord, 38% partiellement

d’accord, 25% d’accord) quant à la possibilité de mettre en place un processus de

sélection par entrevues ou mises en situation (Q.54), de même que pour la possibilité

d’obliger tous les étudiants à suivre un cours de français écrit avancé à des fins

académiques (Q.55 ; 12% pas d’accord, 50% partiellement d’accord, 38% d’accord).

Page 169: Analyse de la validité prédictive d’une épreuve

149

Les résultats exprimés par les répondants du sous-groupe HIGH viennent

rejoindre celles des deux autres sous-groupes sur plusieurs points : premièrement, le

TFLM n’est pas considéré comme un outil précis ni fiable pour effectuer la tâche qui est

la sienne. En effet, on voit clairement que les répondants ne se considèrent pas forcément

plus compétents que leurs pairs des sous-groupes MID ou LOW. De plus, le TFLM est vu

comme un test limité qui n’est pas en mesure d’évaluer toutes les composantes de la

compétence langagière des candidats ; cet aspect a été relevé plusieurs fois au cours de

cette étude, mais on retrouve encore cette idée que le TFLM n’évalue pas vraiment ce

qu’il devrait évaluer dans le contexte de son utilisation. Les réponses du sous-groupe

HIGH viennent donc corroborer les preuves accumulées jusqu’à maintenant, que ce soit

les réponses au questionnaire fournies par les sujets des deux autres sous-groupes, les

résultats de notre analyse qualitative des caractéristiques des tâches du TFLM par rapport

aux caractéristiques des tâches des trois TLU du contexte, ou les résultats des analyses

statistiques de nos données quantitatives.

Le tableau V.28 ci-dessous reprend les données globales exposées pour chacun

des sous-groupes. Les données cumulées et transcrites dans ce tableau démontrent de

manière évidente que les étudiants adhèrent à l’idée d’un test d’admission aux

programmes de formation en enseignement et estiment que les cours correctifs de

français ont leur place dans les mécanismes d’admission aux programmes visés.

Page 170: Analyse de la validité prédictive d’une épreuve

150

Tableau V.28 : Opinion des répondants relative aux mécanismes d’admission dans les programmes

de formation en enseignement (test d’admission et cours correctifs de français)

Les étudiants estiment

que :

Pas du tout

d’accord (%)

Pas d’accord

(%)

Partiellement

d’accord (%)

D’accord (%) Tout à fait

d’accord (%)

Un test d’admission aux

programmes de

formation en

enseignement est

nécessaire.

40 60

Les cours correctifs de

français sont bénéfiques

aux étudiants des

programmes de

formation en

enseignement

40 60

Dans la dernière partie du questionnaire, les répondants ont eu l’occasion de

s’exprimer librement au sujet du TFLM, du processus d’admission et des mécanismes de

mise à niveau qui accompagnent le TFLM. Les réponses complètes à cette question sont

disponibles à l’annexe E. Si l’on devait dégager une tendance générale des commentaires

apportés, on pourrait dire que les étudiants ne contestent pas l’utilisation d’un test de

compétence langagière ou linguistique comme une partie du processus d’admission, mais

que le TFLM n’est pas le test le plus adapté à cette mission. D’autre part, il apparait que

les cours de mise à niveau, ou du moins l’idée de suivre des cours de français, est plutôt

bien accueillie par les répondants. Le contenu des cours semble cependant poser

problème et la tendance générale qui ressort des commentaires des répondants est qu’un

ou des cours de français spécialisé ou spécifique à leur futur métier devrai(en)t être

intégré(s) au cheminement régulier de tous les étudiants du programme en question.

Ci-dessous, quelques exemples de réponses données par les répondants au

questionnaire (tous les résultats du questionnaire sont disponibles à l’annexe E) :

Je crois qu'un cours de français devrait être inclus dans la formation du

BEFLS, puisqu'il est toujours utile de se rafraîchir la mémoire.

Page 171: Analyse de la validité prédictive d’une épreuve

151

Il est vrai que les cours compensatoires peuvent retarder le cheminement

scolaire, cependant je considère ça pertinent dans la mesure où nous

allons devoir enseigner des notions de base à des apprenants. Si nous ne

les maitrisons pas il sera difficile de les enseigner.

Le cours de français obligatoire peut être bénéfique, tout comme tout

cours universitaire, si l'étudiant s'y investit et y voit la pertinence (qui peut

être directement en lien avec l'exercice de la profession enseignante). Le

programme devrait s'assurer que ce cours s'inscrive dans un certain

courant pratique, n'étant pas particulièrement centré sur les compétences

à l'écrit. Une étude pourrait être réalisée auprès des jeunes enseignants à

savoir quels sont leurs différents "besoins" relatifs à la langue en situation

professionnelle; quelles sont les difficultés vécues? Ce cours pourrait

viser, plus précisément, à répondre à ces différents enjeux (besoins).

Concernant le processus de sélection des futurs enseignants, il est certain

que des centres d'évaluation ou des tests psychologiques (motivation),

entrevues, etc. pourraient s'avérer pertinents pour cibler les candidats les

plus enclins à poursuivre leurs études (ne pas abandonner en cours de

programme) et à s'intégrer efficacement au marché du travail. Cependant,

il faut s'assurer de déterminer la principale fonction de ces tests (ce qu'on

veut mesurer), considérant que, par exemple, la maîtrise du français

pourrait être améliorée au moyen de cours ou de formations quelconques

si présence de certaines caractéristiques personnelles (motivation, désir

d'apprendre, etc.).

Le cours de mise à niveau en français est très bénéfique. Les apprenants

d'une langue seconde remettent plus facilement en question les différentes

règles et exceptions de la langue seconde. Il faut donc être outillé pour

pouvoir répondre à leur question en leur fournissant une réponse

adéquate.

Ce que je trouve dommage par rapport au cours de mise à niveau FRN-

1904, c'est que nous partons de trop loin. Je m'explique: je ne considère

pas nécessaire de voir des notions comme les déterminants ou les classes

de mots. Je crois que ce genre de notions devraient être vues par les

personnes qui ont eu en bas de 60% et qui doivent faire deux cours de

mise à niveau. Personnellement, j'aurais préféré qu'on m'enseigne des

règles particulières du français, ce qui est plus difficile. Je considère que

les personnes qui ont eu plus que 60% sont capables de distinguer un

déterminant d'un nom ou d'une préposition. Nous avons passé plusieurs

cours à voir des notions qu'on connaissait déjà et il ne nous reste plus

beaucoup de temps pour voir les particularités du français, qui, selon moi,

sont la cause de nos lacunes en français.

Page 172: Analyse de la validité prédictive d’une épreuve

152

À la lumière des données exposées dans les tableaux V.26 à V.28 et des réponses

libres, si l’on devait avancer des conclusions générales au sujet des perceptions des

étudiants interrogés,, elles seraient les suivantes : le test est considéré difficile par les

sujets et il ne leur parait pas apte à mesurer la compétence réelle en français de manière

fiable, mais est considéré comme pertinent par les répondants dans le cadre de leurs

études à suivre, même s’ils sont francophones ou considérés comme tels. Ensuite,

toujours selon les répondants, les conséquences (en termes de cours supplémentaires ou

d’argent à débourser) qui suivent le test sont minimes sur leur cheminement ; l’idée

d’avoir des cours de mise à niveau imposés est appropriée et acceptée, et en plus d’être

des cours de spécialisation (langue à usage spécifique et destinée à l’enseignement), ces

cours devraient être intégrés au cheminement régulier des baccalauréats en enseignement

et ainsi faire partie de la formation offerte à tous les étudiants de ces programmes. Les

étudiants ont de plus avancé que les quatre habiletés (production écrite et orale,

compréhension écrite et orale) devraient être évaluées de manière égale dans le test

d’admission ainsi qu’au cours de leur cheminement.

Cependant, bien que ces tendances générales tendent à confirmer les constats mis

en lumière au cours de la recherche dans les phases 1 (étude de base) et 2 (analyse des

données quantitatives), il faut les nuancer. En effet, les contradictions sont nombreuses et

les non-sens tout aussi répandus dans les questionnaires retournés, ce qui tendrait

simplement à souligner le manque de connaissance en évaluation (assessment literacy)

des répondants.

Par exemple, la plupart des étudiants ont répondu que le TFLM « mesure

correctement la culture québécoise », alors que le TFLM n’aborde que le code

Page 173: Analyse de la validité prédictive d’une épreuve

153

linguistique de la langue française sans jamais même aborder la culture, qu’il s’agisse de

la culture québécoise ou d’un autre pays de la francophonie. On voit d’autre part que la

plupart des répondants considèrent que le contenu du TFLM correspond au contenu des

cours de spécialité du programme entrepris. Ces deux affirmations sont évidemment

erronées, comme nous l’avons démontré à travers l’analyse des tâches et du contenu du

TFLM.

Dans le chapitre suivant, nous présenterons les conclusions auxquelles nous

sommes parvenus à partir des résultats présentés ci-dessus. Par la suite, nous établirons

les limites de cette recherche et finalement, nous suggèrerons des pistes de recherche

ultérieure.

Page 174: Analyse de la validité prédictive d’une épreuve
Page 175: Analyse de la validité prédictive d’une épreuve

155

CHAPITRE VI : CONCLUSIONS ET IMPLICATIONS

La présente recherche avait pour objectif d’analyser la validité prédictive d’un test

de compétence linguistique, le Test de Français Laval Montréal (TFLM), utilisé comme

test diagnostique lors de l’admission de candidats à des programmes de formation initiale

en enseignement à l’Université Laval (Québec, QC, Canada). La recherche est basée sur

l’analyse triangulaire de données recueillies en suivant une méthodologie mixte

convergente. Les questions de recherche étaient les suivantes :

1. Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un baccalauréat

en enseignement dans les universités francophones du Québec?

2. Les cours de mise à niveau ont-ils un impact important sur la réussite des

étudiants obligés de les suivre selon leur résultat au TFLM?

3. Comment les participants perçoivent-ils le TFLM et les cours de mise à niveau?

Afin de répondre à ces questions de recherche, nous avons procédé à plusieurs

types d’analyses : des données de types quantitatif et qualitatif ont été recueillies dans des

documents officiels de l’institution du contexte, à partir de renseignement recueillis lors

d’une entrevue avec un des concepteurs du TFLM, dans le système de données

informatiques centralisé Capsule et par le biais de questionnaires soumis aux étudiants de

quatre programmes de formation en enseignement ayant passé le TFLM entre 2007 et

2014.

La première analyse à laquelle nous avons procédé a été de comparer, de manière

approfondie et en nous basant sur des bases théoriques solides et éprouvées, les

caractéristiques des tâches qui composent le TFLM et celles qui composent les trois

autres contextes d’utilisation de la langue cible, soit les cours disciplinaires des

Page 176: Analyse de la validité prédictive d’une épreuve

156

programmes étudiés, les cours de mise à niveau imposés aux étudiants selon leur

classement suite à la passation du TFLM, et enfin, l’utilisation de la langue par les

enseignants dans le cadre de leurs fonctions. Cette analyse, présentée en détail dans le

chapitre V de ce mémoire, établit qu’il n’y a pas de correspondance entre les tâches qui

composent le TFLM et les tâches exigées des étudiants dans la suite de leur

cheminement, que ce soit dans leurs cours disciplinaires, dans les cours de mise à niveau,

ou dans leur future carrière d’enseignant.

Après notre analyse qualitative des caractéristiques des tâches du TFLM, nous

avons procédé à l’analyse statistique des données quantitatives recueillies dans le système

informatique centralisé de l’université. Les résultats des analyses statistiques des données

rassemblées, relatives aux quatre années de cheminement de cent-quarante-cinq sujets,

ont démontré que le TFLM n’était pas un test approprié à des fins d’admission des

candidats francophones à des programmes de formation en enseignement. Le test s’est de

plus avéré inefficace dans sa mission seconde, qui est de classer les étudiants selon trois

niveaux de compétence sur la base de leur score et afin de leur offrir un ou des cours de

mise à niveau profitables et bénéfiques à leur formation. En effet, nous nous sommes

rendu compte que les classements erronés étaient fréquents et que les données

quantitatives ne supportaient pas la capacité à classer ces sujets à partir des résultats

qu’ils avaient obtenus au TFLM.

Ce constat, qui est apparu de manière de plus en plus évidente au cours des

différentes analyses concerne le contenu de ces cours qui, comme nous l’avons déjà

rappelé ci-dessus, n’est pas lié au contenu du TFLM, ce qui rend leur utilisation plus que

questionnable. De plus, l’impact bénéfique qui devrait être évident en termes de réussite

Page 177: Analyse de la validité prédictive d’une épreuve

157

(moyennes cumulatives transitoire ou finale) n’est pas appuyé par les données, puisque

les étudiants qui doivent suivent ces cours ne semblent pas, à long terme, être en mesure

de rehausser leur moyenne cumulative au niveau de leurs pairs plus performants. Les

gains mesurés sont minimes, voire inexistants, surtout chez les étudiants les plus faibles.

Les cours, donc, ne semblent pas remplir leur mission, rendant du même coup les

mécanismes mis en place à la suite du TFLM complètement inadéquats et inutiles ainsi

qu’une dépense superflue pour les facultés.

Le dernier volet de notre étude avait pour objectif de déterminer les perceptions

des étudiants vis-à-vis le TFLM et les cours de mise à niveau. Les résultats issus des

questionnaires retournés sont mitigés, mais ils lèvent au moins le voile sur l’opinion des

participants sur plusieurs aspects. En effet, à travers les réponses de nos répondants, il

apparait que les étudiants considèrent que le TFLM n’est pas un test d’admission efficace

et que les cours de mise à niveau proposés sont utiles, mais doivent être améliorés, en

particulier en rapprochant leur contenu des tâches exigées des étudiants dans leurs autres

cours ou dans leur future carrière. La présence de tels dispositifs, cependant, n’est pas

disputée, et il semble même qu’une majorité de répondants considère que le processus

d’admission doit garder sa forme actuelle, soit un test suivi de cours correctifs éventuels

et selon les besoins de chaque candidat. Une autre piste qui a été dégagée des réponses

des étudiants est l’intégration de cours de langue spécialisée au cheminement régulier de

tous les étudiants, quel que soit leur niveau de compétence langagière ou leur score au

test d’admission. Cette piste montre que les répondants sont bien conscients de la

nécessité de maitriser la langue française, qui sera leur outil de travail principal après leur

diplomation.

Page 178: Analyse de la validité prédictive d’une épreuve

158

Les résultats exposés ci-dessus, obtenus par le biais de trois différents types

d’analyses et la triangulation de données qualitatives et quantitatives, nous amène à tirer

les conclusions suivantes.

Premièrement, le TFLM ne remplit pas le mandat qui est le sien, soit agir en tant

que test d’admission dans des programmes de formation universitaire en enseignement.

Le TFLM, sous sa forme actuelle, ne répond pas aux besoins spécifiques du contexte car

il reste avant tout un test de compétence linguistique, ses tâches se limitant uniquement à

évaluer la connaissance du code linguistique du français par des locuteurs natifs

francophones. Comme nous l’avons démontré dans notre analyse présentée au chapitre V,

le TFLM n’est pas un test de compétence langagière et il n’évalue pas les composantes

nécessaires à la réussite des tâches qui attendent les participants dans les programmes qui

l’utilisent. Les étudiants qui réussissent avec succès ce test ne sont pas assurés de réussir

les tâches auxquelles ils seront confrontés dans les cours qui composent le programme

visé puisque les tâches du TFLM ne rejoignent pas les exigences langagières des tâches

qui seront exigées d’eux dans les cours de leurs programmes respectifs. Cela constitue

une lacune importante qui jette un sérieux doute sur l’utilisation qui est faite du TFLM

dans notre contexte.

Deuxièmement, les tâches du TFLM sous-représentent les construits nécessaires à

l’évaluation des futurs enseignants (Messick, 1996). Si l’on considère les revendications

de l’AQPF (2001) énoncées pendant les États généraux de la langue française (2001), on

voit clairement que les demandes formulées par les professionnels de l’enseignement ne

trouvent pas de réponses dans le TFLM puisque celui-ci n’évalue pas du tout la

compétence de communication orale, la compréhension écrite, la production écrite, ni la

Page 179: Analyse de la validité prédictive d’une épreuve

159

majeure partie des composantes de la compétence langagière (Bachman & Palmer, 2010)

sollicitées dans les contextes TLU liés au test. D’autre part, les aspects culturels ou

individuels (qualités personnelles ou interpersonnelles), composantes primordiales de la

profession enseignante puisqu’elles composent, avec la maitrise de la langue, les

« fondements » de la profession enseignante (compétences professionnelles 1 et 2,

document référentiel rédigé par le MELS, 2001) ne sont aucunement évalués par le

TFLM, ignorant totalement la recommandation de l’AQPF (2001). En effet, le TFLM

n’aborde aucun des éléments présentés comme impératifs et au centre de la formation des

futurs enseignants du Québec (à titre de rappel, voir chapitre I pour les libellés des deux

compétences concernées). Ces deux dimensions restent, à ce jour et à notre connaissance,

encore complètement ignorées de tout processus d’admission des programmes de

formation en enseignement, malgré l’importance primordiale de ces qualités dans la

carrière des enseignants d’aujourd’hui. Cette lacune du TFLM est aussi présente, dans

une moindre mesure cependant, dans le contenu des cours de mise à niveau qui

composent les mécanismes correctifs adressés aux étudiants les moins performants.

Même si des efforts ont été faits pour se rapprocher de la réalité des enseignants en

fonction, il reste de nombreux aspects à développer et à inclure dans les plans de cours de

ces cours correctifs. Par exemple, une place plus importante devrait être octroyée aux

compétences liées à l’oral au lieu de se concentrer uniquement sur les compétences du

domaine de l’écrit. N’oublions pas que la majeure partie des consignes passées en classe

par les enseignants se fait d’abord à l’oral. Les objectifs des cours de mise à niveau, et

donc, incidemment, du TFLM, devront donc être ajustés en prenant ce fait en

considération.

Page 180: Analyse de la validité prédictive d’une épreuve

160

Troisièmement, le TFLM n’est pas un indicateur valide de la compétence

langagière des participants. Rappelons que le TFLM s’adresse uniquement, dans le

contexte des programmes de formation en enseignement, à des locuteurs francophones

natifs, mais que les objectifs du TFLM ne semblent pas avoir été déterminés avec cette

particularité en tête. Les résultats de l’analyse des données quantitatives ont démontré que

les sous-groupes, constitués sur la base des scores obtenus au TFLM, étaient mal formés

et que nombre d’étudiants avaient été mal classés sur la seule base de leur score au TFLM

(voir l’absence de corrélation entre les scores au TFLM et la moyenne cumulative finale

pour chaque sous-groupe, chapitre V). Cela signifie que non seulement le TFLM n’évalue

qu’une infime partie de la compétence linguistique complète des candidats, mais qu’en

plus, le classement qui est effectué sur la base des scores n’est pas juste. Ce problème met

en doute de manière importante la validité du test puisqu’elle vient directement mettre en

doute sa validité de construit (Bachman & Palmer, 1996).

Quatrièmement, si l’on regarde le contenu du TFLM, on note que les

compétences de communication à proprement parler sont totalement absentes, de même

que les connaissances culturelles associées au contexte (le parler et la culture québécois

sont totalement absents). Le TFLM n’est donc pas contextualisé et n’évalue pas la

compétence communicative (Bachman & Palmer, 2010). Comme nous l’avons mentionné

auparavant, le contexte dans lequel se déroulait cette étude en est un tout particulier : il

s’agit d’un test censé évaluer la compétence linguistique de candidats francophones natifs

à des programmes de formation universitaire en enseignement dans une université

québécoise. Dans ce libellé, plusieurs éléments sont uniques par leur spécificité et il

semble que le TFLM n’ait pas été conçu en prenant ces particularités en ligne de compte.

Page 181: Analyse de la validité prédictive d’une épreuve

161

Le TFLM reste alors un test de compétence linguistique qui évalue des composantes de la

langue que l’on pourrait trouver chez des locuteurs non natifs et qui ne prend absolument

pas en considération les particularités du contexte dans lequel il est utilisé. Rappelons-le,

le TFLM n’a pas bénéficié d’une analyse de besoins lors de sa conception ; il semblerait

que l’idée était plutôt de construire un test qui pourrait être utilisé dans tous les contextes,

sans tenir compte des particularités de chacun ni des besoins spécifiques qui attendraient

les candidats qu’il évalue et pour lesquels les conséquences peuvent être importantes.

En conclusion, au vu des éléments rapportés ci-dessus et des preuves accumulées,

le TFLM ne devrait pas être utilisé dans le processus d’admission des candidats dans des

programmes de formation en enseignement au Québec. Outre le fait que ni le TFLM, ni

les cours correctifs qui l’accompagnent ne correspondent aux caractéristiques des tâches

qui attendent les candidats dans les cours disciplinaires ou dans leur future carrière, et

sont donc inefficaces dans cette optique, le TFLM est un outil trop peu fiable dans sa

mission de classement des candidats en sous-groupes pour faciliter les cours de mise à

niveau. De plus, puisque l’administration du test et l’organisation des cours de mise à

niveau occasionnent des dépenses et la mobilisation de ressources importantes pour les

facultés, et si l’on considère que ni le TFLM, ni les cours de mise à niveau ne sont des

mécanismes valides ou fiables ou bénéfiques à long terme, comme nous l’avons démontré

dans notre analyse des données quantitatives, on peut même avancer que le TFLM dans

son utilisation actuelle apporte plus d’inconvénients que d’avantages pour les

programmes qui l’utilisent. On peut très bien imaginer que l’utilisation du TFLM et des

cours correctifs pourraient engendrer des conséquences négatives dans les programmes

concernés ; des atermoiements en termes d’apprentissage et de formation pour les

Page 182: Analyse de la validité prédictive d’une épreuve

162

étudiants mal classés sur la base de leur résultats au TFLM, par exemple, ou un effet

washback négatif (Anderson & Wall, 1993, Messick, 1989) pourraient très bien

constituer des phénomènes avérés et non désirables dans le contexte de notre étude. Il

n’est pas impossible non plus que les étudiants décident d’abandonner le programme à

cause des cours de mise à niveau ou d’un mauvais classement suite au score obtenu au

TFLM : cette éventualité pourrait constituer une conséquence extrêmement grave et

mettre en danger la pérennité même des programmes concernés.

À la vue des résultats présentés et discutés ci-dessus, nous pouvons émettre les

recommandations suivantes.

Tout d’abord, il faut rappeler que les enjeux des tests de langue utilisés comme

test d’admission pour les futurs enseignants sont très élevés : à un niveau individuel

(étudiant), et malgré ce qui est ressorti des réponses recueillies dans le questionnaire, le

cheminement et les sommes à débourser pour les individus sont directement tributaires de

leur résultats au test d’admission ; à un niveau supérieur, celui des institutions

responsables de l’administration de tels tests, les enjeux sont de nature financières et

concernent les ressources de chaque département. On pourrait même avancer que de

l’optimisation des pratiques de mesure et d’évaluation à des fins de sélection dépendent la

pérennité et la viabilité financière de certains départements tant l’administration des tests

peut représenter un stress important sur les ressources disponibles ; finalement, au niveau

macro, celui de la société, l’enjeu est de taille car il concerne la formation et

l’accréditation du personnel enseignant. Il est primordial de se souvenir, en tant que

société, de l’importance de cette profession et de l’impact important que ses membres

Page 183: Analyse de la validité prédictive d’une épreuve

163

peuvent avoir sur la société : il s’agit des personnes qui ont la responsabilité de former les

citoyens de demain, nos enfants.

Après avoir rappelé l’importance prépondérante des tests d’admission à des

programmes de formation en enseignement, nous allons maintenant présenter nos

recommandations dans l’optique de rendre le processus d’admission efficace et utile.

Comme nous l’avons démontré auparavant, le processus dans sa forme actuelle n’est pas

efficace et ne remplit pas son mandat. Il faut donc y apporter des changements

relativement importants pour l’optimiser et, du même coup, améliorer la formation de nos

futurs enseignants.

En premier lieu, il serait nécessaire de remplacer, ou tout du moins, de revisiter le

TFLM dans l’optique de le faire correspondre au plus près aux besoins langagiers réels

des candidats dans leurs programmes et dans leur future carrière. Cette possibilité,

quoique la meilleure d’un point de vue théorique, constituerait un investissement à long

terme à cause des coûts importants que représente une telle entreprise. Comme nous

l’avons expliqué dans notre problématique, une des motivations qui sous-tendent cette

étude est la réduction, ou tout du moins l’optimisation des dépenses liées à

l’administration du TFLM au début de chaque année, car cette dernière représente un

fardeau lourd pour les facultés, tant en termes de ressources financières que de ressources

humaines.

Cette opération, qui consisterait à prendre en considération les caractéristiques

exactes des tâches exigées des étudiants dans les cours des programmes concernés,

permettrait d’évaluer les candidats sur les compétences dont ils devront faire preuve après

leur test. Le TFLM ne pourrait qu’en gagner en authenticité et en validité, et du même

Page 184: Analyse de la validité prédictive d’une épreuve

164

coup, être plus enclin à prédire la réussite des candidats puisqu’il évaluerait les éléments

langagiers requis dans les cours disciplinaires ou optionnels des programmes de

formation en enseignement. Cette recommandation a pour but premier de transformer le

TFLM en véritable test d’admission, c’est-à-dire, avec la capacité de filtrer et d’identifier

les candidats qui ont les meilleures ou les moins bonnes chances de finir leur programme

avec succès. Rappelons que dans l’état actuel des choses, le TFLM n’empêche pas les

étudiants trop faibles d’intégrer ces programmes qui, comme nous l’avons vu, peuvent

avoir des conséquences extrêmement importantes sur la société. Il ne remplit donc pas la

fonction de gardien. De plus, il est possible que le test, dans sa forme actuelle et avec les

lacunes que nous avons déjà identifiées, engendre des décisions prises sur la base des

scores inexacts qui feraient en sorte que des candidats qui auraient dû être intégrés

directement dans le programme, sans avoir à suivre de cours de mise à niveau, soient

obligés de rallonger leur cheminement, avec les risques d’abandon que nous avons

mentionnés auparavant. L’utilisation du TFLM aurait donc des effets non seulement

inefficaces pour les étudiants, mais il pourrait aussi avoir des néfastes sur les programmes

et la société.

Afin de se doter des meilleures chances de réussite dans la conception d’un test

efficace, une étude approfondie des besoins réels nécessaires dans tous les contextes

d’utilisation de la langue cible liés à ces programmes de formation doit être effectuée.

Cette étude doit être basée sur les besoins de tous les participants et utilisateurs du test,

c’est-à-dire les candidats, les enseignants en fonction, les étudiants des cours de mise à

niveau, les professionnels du Ministère de l’éducation, les administrateurs des facultés,

les enseignants et professeurs qui œuvrent dans ces programmes. À partir des besoins

Page 185: Analyse de la validité prédictive d’une épreuve

165

établis par chacun des utilisateurs, il sera possible de concevoir un test qui répond

réellement au contexte spécifique et particulier des programmes de formation en

enseignement dans les universités québécoises.

Pour faire suite aux changements à apporter au test, et dans un souci de cohérence

et de validité de tous les mécanismes liés à la réussite des sujets, il convient bien entendu

de se pencher sur le contenu des cours de mise à niveau imposés aux étudiants (qui

rappelons-le, sont tous des locuteurs natifs du français et ont donc des besoins bien

particuliers en termes de compétences langagières) sur la base de leur score au TFLM.

Les contenus de ces cours doivent être réformés afin de les faire correspondre au test,

d’une part, mais en gardant toujours en tête les besoins langagiers réels des étudiants

après leur diplomation. Il faut donc procéder à une harmonisation totale de tous les

éléments qui composent le processus d’admission et des mécanismes qui lui sont liés : le

contenu du test d’admission doit correspondre au contenu des cours de mise à niveau, qui

doivent eux-mêmes être reliés aux caractéristiques des tâches des cours du programme

(disciplinaires et optionnels), qui eux-mêmes doivent refléter les compétences

authentiques nécessaires dans le cadre de la fonction enseignante. Dans la situation

actuelle, et comme nous l’avons démontré à de nombreuses reprises tout au long de notre

étude, les mécanismes d’admission ne sont que très peu liés entre eux et correspondent

trop peu à la réalité qui attend les candidats francophones qui composent la clientèle type

de ces programmes.

De plus, il serait judicieux sensibiliser les étudiants quant à leur compétence

langagière. Rappelons que le MELS a pris la peine d’établir la compétence

communicative des enseignants comme un des deux fondements de la profession ; il faut

Page 186: Analyse de la validité prédictive d’une épreuve

166

donc que les candidats à ces programmes soient bien au fait que le niveau attendu de leur

part est très élevé. Une fois cette exigence établie et comprise par tous les partis

impliqués, il sera plus facile de proposer des cours de mise à niveau adaptés aux besoins

ciblés des candidats ou des étudiants, voire même offrir un cours (ou une série de cours)

entièrement dédiée à cette exigence. De cette manière, la motivation des étudiants serait à

son maximum puisque le cours et ses exigences seraient ancrés dans la réalité de leur

futur milieu de travail et dictée par leur futur employeur, le MELS. Les mécanismes

jouiraient donc d’une légitimité absolue auprès des étudiants.

Limites et suggestions de poursuite de l’étude

Bien que dans le cadre de la présente étude, nous ayons réussi à dégager des

éléments de réponse probants, des conclusions appropriées et offert des pistes de

réflexion pour les administrateurs, il s’agit d’énoncer les limites de notre recherche.

Pour accomplir cette étude, nous avons utilisé les données correspondant aux

sujets appartenant à une institution représentative des universités de même type au

Québec, c’est-à-dire, les universités francophones qui offrent des programmes de

formation en enseignement à leur clientèle. Bien que nos résultats soient basés sur des

chiffres et des analyses solides, idéalement, les données correspondraient à tous les

candidats et étudiants de toutes les universités francophones qui proposent des

programmes de formation en enseignement et qui utilisent le TFLM comme test

d’admission. Une telle réplique apportera très sûrement des éléments de réponse

supplémentaires et permettra de déterminer si le TFLM est ou pas un prédicteur efficace

de la réussite des étudiants des programmes de formation initiale en enseignement des

universités qui l’utilisent.

Page 187: Analyse de la validité prédictive d’une épreuve

167

Comme nous l’avons souvent mentionné, il est urgent d’effectuer une analyse

approfondie des besoins langagiers en termes de compétence communicative de la

profession enseignante. Une telle étude, bien que potentiellement couteuse, offrirait la

base indispensable à la conception d’un test approprié et efficace dont la fonction serait

d’évaluer les candidats à l’entrée de programmes de formation en enseignement.

Finalement, étant donné que tous les programmes de formation en enseignement

dans toutes les universités québécoises disposent d’un test en commun, soit le TECFÉE,

on pourrait évaluer le potentiel de celui-ci à agir en tant que prédicteur de réussite dans

les contextes professionnels. La mission du TECFÉE est de s’assurer que tous les futurs

enseignants de la province maitrisent, dans une certaine mesure, la langue française, et

ainsi de répondre aux exigences de la compétence professionnelle 2 (MELS, 2001). Le

fait qu’il soit utilisé dans toutes les institutions et pour tous les étudiants des programmes

de formation en enseignement nous fournirait un nombre très important de données, ce

qui permettrait de procéder à des analyses englobant tous les sujets du Québec et ainsi

obtenir des résultats généraux sur la question.

La méthodologie utilisée dans notre étude pourrait être appliquée à une telle

analyse sans en changer trop d’éléments et la quantité importante de données permettrait

des conclusions solides. Une telle étude demanderait cependant de nombreuses

autorisations puisqu’un secret important entoure ce test à grands enjeux et qui agit en tant

que gardien de la langue française chez tous les enseignants du Québec.

Page 188: Analyse de la validité prédictive d’une épreuve
Page 189: Analyse de la validité prédictive d’une épreuve

169

LISTE DES RÉFÉRENCES

Akeju, S. S., & Michael, W.B. (1970). Predicting success in the federal school of science,

Lagos, Nigeria. Educational and Psychological Measurement. 30(2), pp. 483-

486.

Alavi, T. (2012). The predictive validity of final English exams as a measure of success

in Iranian national university entrance English exam. Journal of Language

Teaching and Research, 3(1),pp. 224-228 .

Alderson, J.C., & Wall, D. (1993). Does washback exist? Applied Linguistics, 14(2), pp.

115-129 .

Alem, J. (2003). La valeur de l’appréciation par simulation (APS) pour prédire le succès

initial en enseignement des candidats aux études en éducation. Thèse de doctorat,

Université Laval, http://theses.ulaval.ca/archimede/fichiers/20957/20957.html

Al-Musawi, N.M., & Al-Ansari, S.H. (1999). The Test of English as a Foreign Language

and the First Certificate in English tests as a predictor of academic success for

undergraduate students at the University of Bahrain. System, 27, pp. 389-399.

American Educational Research Association, American Psychological Association,

National Council on Measurement in Education, Joint Committee on Standards

for Educational, & Psychological Testing (US). (1999). Standards for educational

and psychological testing. American Educational Research Association.

Anquetil, M. (2012). Actes du IIème Forum Mondial HERACLES - pp. 17-32,

http://gerflint.fr/Base/Monde9/anquetil_mathilde.pdf

Association Québécoise des professeures et professeurs de Français (AQPF) (2001),

Mémoire déposé pendant les États généraux de la langue française au Québec.

Page 190: Analyse de la validité prédictive d’une épreuve

170

http://www.spl.gouv.qc.ca/fileadmin/medias/pdf/COM1-021_Rapport_final.pdf

http://www.spl.gouv.qc.ca/fileadmin/medias/pdf/memoires/220_Ass_queb_prof_f

r.pdf

Ayers, J.B., & Peters, R.M. (1977). Predictive validity of the Test of English as a Foreign

Language for Asian graduate students in engineering, chemistry or mathematics.

Educational and Psychological Measurement. 37(2), pp. 461-463.

Bachman, L. (1990). Fundamental considerations in testing. Oxford University Press.

Bachman, L., & Palmer, A. (2010). Language assessment in practice. Oxford University

Press.

Bachman, L., & Palmer, A. (1996). Language testing in practice: Designing and

developing useful language tests. Oxford University Press.

Bachman L. (1991). What Does Language Testing Have to Offer? TESOL Quarterly,

25(4), pp. 671-704.

Bachman, L. (2001). Modern language testing at the turn of the century: Assuring that

what we count counts. Language Testing, 17(1), pp. 1-42.

Bayliss, D., & Raymond, P.M. (2004). The link between academic success and L2

proficiency in the context of two professional programs. Canadian Modern

Language Review, 61(1), pp. 29–51.

Bayliss, A., & Ingram, D. (2006). IELTS as a predictor of academic language

performance, Part 1. Australian International Education Conference,

http://www.idp.com/aiec

Page 191: Analyse de la validité prédictive d’une épreuve

171

Bellingham, L. (1993). The relationship of language proficiency to academic success for

international students. New Zealand Journal of Educational Studies, 2(30), pp.

229-232.

Black, J. (1991), Performance in English skills courses and overall academic

achievement, TESL Canada Journal, 9(1), pp. 42-53.

Blais, F. (2001). Le Canadian Achievement Test utilisé comme indicateur de réussite

scolaire. (Mémoire de maîtrise) Université d’Alberta, Campus Saint-Jean,

Edmonton.

Breeze, R., & Miller, P. (2008). Predictive validity of the IELTS listening test as an

indicator of student coping ability in Spain. IELTS Research Reports, 12, pp. 1-

34.

Brown, F.G. (1983). Principles of psychological and educational testing, Third edition.

Holt, Rinehart and Winston, the Dryden Press.

Canale, M. (1983). From communicative competence to communicative language

pedagogy. Dans Richards, J.C. & Schmidt, R.W., Language and

Communication, Harlow: Longman.

Canale, M. (1987). The measurement of communicative competence. Annual Review of

Applied Linguistics, 8, pp 67-84. doi:10.1017/S0267190500001033.

Canale, M., & Swain, M. (1980). Theoretical bases of the communicative approaches to

second language teaching and testing. Applied Linguistics, 1(1), pp. 1-47.

Centre d’évaluation, Faculté des Lettres, École de langues, Université Laval, le TFLM

(Test de Français Laval-Montréal) Épreuve de français langue maternelle.

Page 192: Analyse de la validité prédictive d’une épreuve

172

http://www.elul.ulaval.ca/fileadmin/elul/fichiers/tests-de-classement/sinscrire-a-

un-test/Test-FLM.pdf

Celce-Murcia, M., Dornyei, Z., & Thurrell, S. (1995). Communicative competence: A

pedagogical motivated model with content specifications. Applied Linguistics,

6(2), pp. 5-35.

Chapelle, C. (1999). Validity in language assessment. Annual Review of Applied

Linguistics, 19, pp. 254-272. DOI :

http://dx.doi.org.acces.bibl.ulaval.ca/10.1017/S0267190599190135

Cho, Y., & Bridgeman, B. (2012). Relationship of TOEFL iBT scores to academic

performance: Some evidence from American universities. Language Testing,

29(3), pp. 421-442.

Coley, M. (1999). The English language entry requirements of Australian universities for

students of non-English speaking background. Higher Education Research &

Development, 18(1), pp. 7-17.

Cotton, F., & Conrow, F. (1998). An investigation of the predictive validity of IELTS

amongst a group of international students studying at the University of Tasmania.

IELTS Research Report, 1, pp. 72-115.

Cope, N. (2011). Evaluating locally-developed language testing: A predictive study of

‘direct entry’ language programs at an Australian university. Australian Review of

Applied Linguistics, 34(1).

Creswell, J.W., & Plano Clark, V.L.L. (2010). Designing and conducting mixed methods

research. Sage Publications, 2nd edition.

Page 193: Analyse de la validité prédictive d’une épreuve

173

Cronbach, L., & Meehl, P. (1955). Construct validity in psychological tests.

Psychological Bulletin, 52(4), pp. 281-302.

Davies, A. (1990). Principles of language testing. Oxford; Cambridge, Mass., B.

Blackwell, USA.

Davies, A. (2004). Dictionary of language testing. Cambridge University Press.

Dooey, P. (1999). An investigation into the predictive validity of the IELTS test as an

indicator of future academic success. Dans Martin, K., Stanley, N., & Davison, N.

Teaching in the disciplines/ learning in context, pp. 114-118. Proceedings of the

8th Annual Teaching Learning Forum, University of Western Australia, February

1999. Perth: UWA. http://lsn.curtin.edu.au/tlf/tlf1999/dooey.html

Dooey, P., & Oliver, R. (2002). An investigation into the predictive validity of the IELTS

test as an indicator of future academic success. Prospect, 17, pp. 36-54.

Doucet, P. (2001) Pour un test utile. http://asp.revues.org/1696 ; DOI : 10.4000/asp.1696

Douglas, D. (2000). Assessing languages for specific purposes. Cambridge University

Press.

École Polytechnique de Montréal (2010). Avis de convocation au TFLM.

http://www.polymtl.ca/etudes/SiteWebEtudes/formulaires_procedures/multiples/T

est%20de%20francais_aut_avis.pdf

Elder, C. (1993). Language proficiency as a predictor of performance in teacher

education. Melbourne Papers in Language Testing, 2(1), pp 68-85.

Elder, C. (2001). Assessing language proficiency of teachers: Are there any border

controls? Language Testing, 18(2), pp. 149-170.

Page 194: Analyse de la validité prédictive d’une épreuve

174

Feast, V. (2002). The impact of IELTS scores on performance at university, International

Education Journal, 3(4), pp. 70-85.

Ferguson, G., & White, E. (1998). A small-scale study of predictive validity. Melbourne

Papers in Language Testing, 7(2), 15-63.

Fiocco, M. (1992). English proficiency levels of students from a non-English speaking

background: A study of IELTS as an indicator of tertiary success. (unpublished

research report). Perth: Curtin University of Technology.

Friend, M., Schmitt, S., & Simpson, A.M. (2012). Evaluating the predictive validity of

the computerized comprehension task: Comprehension predicts production.

Developmental Psychology, 48(1), pp. 136–148.

Fulcher, G. (1997). An English language placement test: Issues in reliability and validity.

Language Testing, 14(1), pp. 113-138.

Fulcher, G., & Davidson, F. (2007). Language testing and assessment: An advanced

resource book. London: Routledge.

Graham, J. (1987). English language proficiency and the prediction of academic success.

TESOL Quarterly, 12(3), pp. 505-521.

Grotjahn, R., & Eckes, T. (2006). A closer look at construct validity of C-test. Language

Testing, 23, p. 290. DOI: 10.1191/0265532206lt330oa

Gue, L., & Holdaway, E.A. (1973). English proficiency test as predictor of success in

graduate studies in education. Language Learning, 23(1).

Hackman, R. J., Wiggins, N., & Bass, A. R. (1970). Prediction of long-term success in

doctoral work in psychology. Educational and Psychological Measurement, 30,

pp. 365-374.

Page 195: Analyse de la validité prédictive d’une épreuve

175

Henning, G. (1987). A guide to language testing: Development, evaluation, research.

Rowley, Massachusetts: Newbery House.

Hill, K., Storch, N., & Brian, L. (1999). A comparison between IELTS and TOEFL as

predictors of academic success. IELTS Research Reports. 2(3), pp. 62-73.

Hughes, A. (1989). Testing for language teachers. Cambridge University Press.

Hughes, A. (2003). Testing for language teachers. Cambridge University Press.

Huong, T. T. (2001). The predictive validity of the International English Language.

Testing System (IELTS). Post Script, University of Melbourne, 2(1), pp. 66-96.

Hwang, K., & Dizney, H.F. (1970). Predictive validity of the Test of English as a Foreign

Language for Chinese graduate students at an American university. Educational

and Psychological Measurement, 30, p. 475.

Hymes, D. (1972). On communicative competence. Dans J. B. Pride and J. Holmes,

Sociolinguistics. Harmondsworth, Middlesex: Penguin Education, pp. 269-293.

Hymes, D. (1974). Foundations of sociolinguistics: An ethnographic approach.

Philadelphia: University of Pennsylvania Press.

Kaplan, R.B., & Jones, R.A. (1961). Evaluation of relative foreign student success.

Language Learning, 14(3-4).

Kerstjens, M., & Nery, C. (2000). Predictive validity in the IELTS test: A study of the

relationship between IELTS scores and students' subsequent academic

performance. IELTS Research Reports, 3, pp. 85-108.

Kuncel, N.R., Hezlett, S.A., & Ones, D.S. (2001). A comprehensive meta-analysis of the

predictive validity of the Graduate Record Examinations: Implications for

Page 196: Analyse de la validité prédictive d’une épreuve

176

graduate student selection and performance. Psychological Bulletin, 127, pp. 162-

181.

Kuncel, N.R., & Hezlett, S.A. (2007). Standardized tests predict graduate students’

success. Science, 315, pp. 1080-1081.

Kuncel, N. R., Crede, M., & Thomas, L.L. (2007). A meta-analysis of the predictive

validity of the Graduate Management Admission Test (GMAT) and

undergraduate grade point average (UGPA) for graduate student academic

performance. Academy of Management Learning & Education, 6(1), pp. 51–68.

Kuncel, N.R., Wee, S., Serafin, L., & Hezlett, S.A. (2010). The validity of the graduate

record examination for Master’s and doctoral programs: A meta-analytic

investigation. Educational and Psychological Measurement, 70(2), pp. 340-352.

Jones, R.A., Kaplan, R.B., & Michael, W.B. (1964). The predictive validity of a modified

battery of tests in language skills for foreign students at an American university.

Educational and Psychological Measurement, 24(4), pp. 961-965

Lado, R. (1961). Language testing: The construction and use of foreign language tests.

New York, McGraw-Hill.

Lai, K., Nankervis, S., Story, M., Hodgson, W., Lewenberg, M., & MacMahon Ball, M.

(2008). Providing transparency and credibility: The selection of international

students for Australian universities: an examination of the relationship between

scores in the International Student Admissions Test (ISAT), final year academic

programs and an Australian university’s foundation program. Higher Education

Research & Development, 27(4), pp. 331-344.

Page 197: Analyse de la validité prédictive d’une épreuve

177

Lee, Y. J., & Greene, J. (2007). The predictive validity of an ESL placement test: A

mixed methods approach. Journal of Mixed Methods Research, 1, pp. 366-389.

Lloyd-Jones, G., Neame, C., & Medaney, S. (2012). A multiple case study of the

relationship between the indicators of students’ English language competence on

entry and students’ academic progress at an international postgraduate university.

IELTS Research Report, 11.

Lunneborg, P.V., Lunneborg C.E., & Greenmun, R. (1970). An attempt at predicting

long-term, no intellective indices of community college study. Journal of

Educational and Psychological Measurement, 30, p. 399.

Manning, C.A., Della Rocco, P.S., & Bryant, K.D. (1989). Prediction of success in FAA

air traffic control field Training as a function of selection and screening test

performance. Civil Aeromedical Institute, Federal Aviation Administration,

Washington, D.C.

Ministère de l’éducation, du Loisir et du Sport (2001). La formation à l’enseignement :

les orientations, les compétences professionnelles.

http://www.mels.gouv.qc.ca/fileadmin/site_web/documents/publications/anterieur

/formation_ens.pdf

Ministère de l’éducation, du Loisir et du Sport, Comité conseil sur la formation du

personnel enseignant (2006). La formation en milieu de pratique : de nouveaux

horizons à explorer.

Messick S. (1980). Test validity and the ethics of assessment. American Psychologist,

35(11), pp. 1012-1027.

Page 198: Analyse de la validité prédictive d’une épreuve

178

Messick S. (1988). The once and future issues of validity: Assessing the meaning and

consequences of measurement. Dans Test Validity, Wainer, H., Braun, H.,

Lawrence Erlbaum Associates, Ed., pp. 33-43.

Messick, S. (1989). Validity. Dans Linn, R. L., Educational Measurement, 3rd ed., pp.

13-103. New York : American Council on Education and Macmillan.

Messick, S. (1991). Validity of test interpretation, Encyclopedia of educational research.

New York, MacMillan.

Messick, S. (1995). Standards of validity and the validity of standards in performance

assessment. Educational measurement: Issues and practice, 14(4), 5-8.

Messick, S. (1996). Validity and washback in language testing. Language Testing, 13, p.

241-256.

Messick, S. (1998). Test validity: A matter of consequence. Social Indicators Research,

45, pp. 35-44.

Morris, L., & Cobb T. (2004). Vocabulary profiles as predictors of the academic

performance of teaching English as a second language trainees. System, 32(1), pp.

75–87.

Morrow, K. (1981). Communicative language testing: Revolution or evolution? Dans

Alderson, C., & Hughes, A., Issues in Language Testing, pp. 9-25 (aussi publié

dans Brumfit, C.J., & Johnson, K. (1979). The communicative approach to

language teaching, Oxford University Press, pp. 143-157.

Nolan, J.S., & Jacobson, J. (1972). The California comprehensive test of basic skills: A

predictor of success for high school freshmen. Journal of Educational and

Psychological Measurement, 32, (451).

Page 199: Analyse de la validité prédictive d’une épreuve

179

Oliver, R., & Vanderford, S. (2009). Investigating the relationship to academic

achievement, basis for admission and English language proficiency: What are the

pathways to success? Perth, WA: Edith Cowan University.

Oller, J. (1973). Cloze tests of second language proficiency and what they measure.

Language Learning, 23(1), pp. 105–118.

Oller, J. (1979). Language tests at school. London: Longman.

O’Loughlin, K. (2008). The use of IELTS for university selection in Australia. IELTS

Research Reports, 8, ed. J. Osborne, IELTS Australia, Canberra, pp. 145-241.

Palmer, A.S., Groot, P.J.M., & Trosper, G.A. (1981). The construct validation of tests of

communicative competence. Washington, D.C., TESOL.

Paquay L. (1998). L’évaluation et la formation des enseignants. Louvain-la-Neuve,

Academia-Bruylant.

Paquay L. (2004). L’évaluation des enseignants : Tensions et enjeux. L’Harmattan. Paris.

Paul, A. (2007). IELTS as a predictor of academic language performance, Part 2. IELTS

Research Report, 7.

Pearson, B. Z. (1993). Predictive validity of the Scholastic Aptitude Test (SAT) for

Hispanic bilingual students. Hispanic Journal of Behavioral Sciences, 15(3), pp.

342-356.

Phakiti, A. (2008). Predicting NESB international postgraduate students’ academic

achievement: A structural equation modelling approach. International Journal of

Applied Educational Studies, 3(1), pp. 18–39.

Romainville, M. (1997). Peut-on prédire la réussite d’une première année universitaire?

Revue Française de Pédagogie, 119, pp. 81-90.

Page 200: Analyse de la validité prédictive d’une épreuve

180

Sako, S., & Fruchter, B. (1965). Statistical study of the prediction of language

achievement of foreign students. Language Learning, 15, pp. 1-2.

Sharon, A.T. (1972). English proficiency, verbal aptitude, and foreign student success in

American graduate schools. Educational and Psychological Measurement, 32, pp.

425-431.

Shepard, L. (1979). Construct and predictive validity of the California Entry Level

Test. Educational and Psychological Measurement, 39(4), pp. 867-877.

Sireci, S., & Talento-Miller, E. (2006). Evaluating the predictive validity of Graduate

Management Admission Test scores. Journal of Educational and Psychological

Measurement, 66(2), p. 305-317

Snyder, V., & Elmore, P.B. (1983). The predictive validity of the descriptive tests of

language skills for developmental students over a four-year college

program. Educational and Psychological Measurement, 43(4), pp. 1113-1122.

Snowman, J., Leitner, D.W., Snyder, V., & Lockhart, L. (1980). A comparison of the

predictive validities of selected academic tests of the American College Test

(ACT) assessment program and the descriptive tests of language skills for college

freshmen in a basic skills program. Educational and Psychological

Measurement, 40(4), pp. 1159-1166.

Spolsky, B. (1975). Language testing: Art or science? Address to the Fourth AILA

Congress, Stuttgart.

Wall, D., Clapham, C., & Alderson, J. (1994). Evaluating a placement test. Language

Testing, 11(3), pp. 321-344.

Page 201: Analyse de la validité prédictive d’une épreuve

181

Wegener-Soled, S. (1995). Assessment, testing and evaluation in teacher education.

Ablex, Greenwood Publishing Group.

Webb, W.W., & Pate, J.E. (1970). Predicting failure in the primary grades. Educational

and Psychological Measurement, 30(2), pp. 459-462.

Weiner, M., & Kay, P.M. (1972). Interrelationships among SAT, CLEP, high school and

junior high school achievement tests, and high school average. Educational and

Psychological Measurement, pp. 433-437.

Woodrow, L. (2006). Academic success of international postgraduate education students

and the role of English proficiency. University of Sydney Papers in TESOL, 1, pp.

51-70.

Yen, D., & Kuzma, J. (2009). Higher IELTS score, higher academic performance? The

validity of IELTS in predicting the academic performance of Chinese students.

Worcester Journal of Learning and Teaching, 3, pp. 1-7.,

Page 202: Analyse de la validité prédictive d’une épreuve
Page 203: Analyse de la validité prédictive d’une épreuve

183

ANNEXES

Page 204: Analyse de la validité prédictive d’une épreuve
Page 205: Analyse de la validité prédictive d’une épreuve

185

ANNEXE A

Conditions d’admission aux programmes de formation en enseignement (tiré du portail

Capsule, Université Laval, 7 novembre 2013,

https://capsuleweb.ulaval.ca/pls/etprod7/y_bwckprog.p_afficher_fiche?p_session=20100

9&p_code_prog=B-

ELS&p_code_majr=ELS&p_code_camp=&p_type_index=4&p_valeur_index=1 )

CONDITIONS PARTICULIÈRES DU PROGRAMME

Mesures particulières du programme concernant la maîtrise du français

L'étudiant admis à ce baccalauréat doit se conformer à la Politique sur l'usage du

français à l'Université Laval.

Le français est la langue d’enseignement dans tous les établissements

d’enseignement francophones du Québec. Afin de s’assurer que tout futur enseignant

maîtrise le français écrit, les universités québécoises francophones et le ministère de

l’Éducation, du Loisir et du Sport ont décidé qu’il devait réussir le Test de certification en

français écrit pour l’enseignement (TECFEE) pour obtenir le brevet d’enseignement.

Test diagnostique préalable (TFLM) et cours correctifs de français

En prévision de la passation du TECFEE, tout étudiant nouvellement inscrit à un

programme de formation à l’enseignement de l’Université Laval doit se présenter à son

entrée dans le programme à un test diagnostique sur la connaissance du français écrit, le

Page 206: Analyse de la validité prédictive d’une épreuve

186

Test de français Laval-Montréal (TFLM). Les mesures imposées à la suite du test

diagnostique varient en fonction du résultat obtenu.

a) L’étudiant ayant obtenu 75 % ou plus n’a à suivre aucun cours correctif de

français;

b) l’étudiant ayant obtenu une note se situant entre 60 % et 75 % devra réussir un

cours correctif de français;

c) l’étudiant n’ayant pas obtenu 60 % doit réussir deux cours correctifs de

français.

Tout nouvel étudiant admis doit se présenter au test de français Laval-Montréal

(TFLM) avant sa première inscription au programme.

L'étudiant n'ayant pas obtenu 60 % au TFLM doit réussir le cours FRN-1902

Français écrit pour la formation à l'enseignement I, à l'intérieur des 12 premiers mois

d'études suivant sa première inscription, sous peine d'exclusion, et doit également réussir

le cours FRN-1903 Français écrit pour la formation à l'enseignement II, à l'intérieur des

24 premiers mois d'études suivant sa première inscription, sous peine d'exclusion.

L'étudiant ayant obtenu une note se situant entre 60 % et 75 % au TFLM doit réussir le

cours FRN-1904 Français écrit pour la formation à l'enseignement III, à l'intérieur des 24

premiers mois d'études suivant sa première inscription, sous peine d'exclusion. L'étudiant

ayant obtenu 75 % et plus au TFLM sera réputé avoir satisfait aux exigences en français

du programme et n'aura aucun cours correctif à suivre.

Page 207: Analyse de la validité prédictive d’une épreuve

187

Annexe B

Composition (maquette) des cours obligatoires et optionnels du baccalauréat en

enseignement du FLS, Université Laval, Automne 2013.

COURS OBLIGATOIRES 77 CRÉDITS

Code du cours Intitulé du cours Cr Session

1ère

an

née

LNG-1900 Concepts linguistiques en didactique des langues 3 A 1

DID-1960 Initiation à la didactique des langues 3 A 1

DID-1961 Théories de l'apprentissage des langues 3 A 1

DID-2960 Didactique du français langue seconde au primaire 3 A 1

PPG-1906 L’enfance et l’adolescence 3 A 1

DID-2961 Analyse et correction phonétique 3 H 2

DID-2962 Didactique du français langue seconde au secondaire 3 H 2

DID-296 Gestion de la classe en L2 2 H 2

DID-2964 Didactique de l’oral (PR : DID-1960 ou CC : DID-1960) 3 A 3

2èm

e an

née

DID-2966 Problèmes de grammaire et enseignement du FL2 I 3 A 3

LNG-3103 Linguistique et acquisition d'une langue seconde I 3 A 3

LIT-1104 Genres littéraires I (roman et théâtre) 3 A 3

DID-2965 Didactique du français langue seconde aux adultes 3 A 3 DID-3960 Développement de la littératie en langue seconde (PR : DID-1960) 3 H 4

DID-3961 Didactique du français (accueil et immersion) (PR : DID-1960) 3 H 4

DID-1962 Problèmes de grammaire et enseignement du FL2 II (PR : DID-2966) 3 H 4

LIT-1118 La littérature française des origines à nos jours 3 H 4

DID-3963 Utilisation des TIC en enseignement du FL2 3 A 5

3èm

e an

née

DID-3962 Didactique de la grammaire et du lexique 3 A 5

LNG-3104 Linguistique et acquisition d'une langue seconde II 3 A 5

LNG-2001 Sociolinguistique et analyse du discours 3 A 5

LIT-1117 La littérature québécoise des origines à nos jours 3 A 5

PPG-1907 Élèves en difficulté au primaire et au secondaire 3 AH 6

DID-3964 Évaluation en langues secondes ou étrangères (PR : DID-1960) 3 H 6

DID-3965 Portfolio en L2 1 AHE 7

4èm

e

an

née

ENP-1900 Aspects sociaux de l’éducation 2 AH 8

LNG-2004 Psycho et neurolinguistique 3 H 8

Page 208: Analyse de la validité prédictive d’une épreuve

188

Stages et cours optionnels 43 CRÉDITS

Stages d’enseignement Cr Session

Réaliser 5 stages d’enseignement pour un total de 22 crédits

• Choisir un des deux stages suivants :

DID-2967 Stage I d'enseignement au primaire: exploration 2 H 2

DID-2970 Stage I d'enseignement au secondaire: exploration 2 H 2

• Choisir un des deux stages suivants (l’ordre d’enseignement doit différer de l’ordre sélectionné au Stage I) :

DID-2972 Stage II d'enseignement au primaire: exploration 2 A 3

DID-2971 Stage II d'enseignement au secondaire: exploration 2 A 3

Choisir un des trois stages suivants :

DID-3970 Stage III d'enseignement au primaire: initiation 6 H 6

DID-3971 Stage III d'enseignement au secondaire: initiation 6 H 6

DID-3972 Stage III d'enseignement aux adultes: initiation 6 H 6

• Choisir deux des trois stages suivants (les stages doivent être suivis à deux ordres d’enseignement distincts;

ces derniers doivent différer de l’ordre sélectionné au Stage III) :

DID-3973 Stage IV d'enseignement au primaire: ens. en responsabilité 6 H 7

DID-3974 Stage IV d'enseignement au secondaire: ens. en responsabilité 6 H 7

DID-3975 Stage IV d'enseignement aux adultes: ens. en responsabilité 6 H 7

Choisir 6 crédits parmi les cours suivants :

FRN-1106 Le français en Amérique du Nord 3 A

FRN-1110 Linguistique française : lexicologie 3 H

LNG-3000 Sémantique et pragmatique 3 H

FRN-2114 Analyse linguistique de textes 3 H

FRN-1109 Linguistique française : phonétique 3 A

FRN-2119 Normes et usage du français 3 H

FRN-2115 Langue et sociétés francophones (PR : LNG-2001) 3 H

FRN-2116 Lexicographie et dictionnaires 3 H

FRN-1112 Introduction à la lexicologie et à la lexicographie 3 A

LNG-2000 Phonologie I 3 H

LIT-2175 La littérature de jeunesse au Québec 3 H

FRN-1108 Histoire de la langue française : événements, lieux, enjeux 3 H

FRN-1000 Méthodologie et recherche en études littéraires 3 H

COURS HORS DISCIPLINE 15 CRÉDITS

Choisir 12 crédits parmi les cours suivants. Cr Session

ADS-1905 Éducation en milieu interculturel 3 AHE

ANT-1201 Anthropologie du Québec 3 H

ANT-2302 Minorités et ethnicité 3 A

ARL-1001 L’humanité avant l’histoire 3 A

ETN-1105 Choc des cultures : le Québec contemporain 3 A

GGR-1000 Introduction à la carte du monde 3 A

GGR-2508 Le Québec et l’Amérique française 3 A

HST-1003 Introduction à l’histoire du Canada 3 A

HST-2450 Le Québec aux XIXe et XXe siècles 3 AH

HST-1008 Le monde aux XIXe et XXe siècles 3 AH

DID-3976 Projet d’enseignement en L2 ** 3 A

SCR-1100 Les Grandes Religions 3 H

Réussir 3 crédits de cours de langue étrangère ou d’une langue seconde

3 AHE

Page 209: Analyse de la validité prédictive d’une épreuve

189

Annexe C

Plans des cours FRN-1902, FRN-1903 et FRN-1904, Université Laval, Automne

2013

Page 210: Analyse de la validité prédictive d’une épreuve

190

Page 211: Analyse de la validité prédictive d’une épreuve

191

Page 212: Analyse de la validité prédictive d’une épreuve

192

Page 213: Analyse de la validité prédictive d’une épreuve

193

Page 214: Analyse de la validité prédictive d’une épreuve

194

Page 215: Analyse de la validité prédictive d’une épreuve

195

Page 216: Analyse de la validité prédictive d’une épreuve

196

Page 217: Analyse de la validité prédictive d’une épreuve

197

Page 218: Analyse de la validité prédictive d’une épreuve

198

Page 219: Analyse de la validité prédictive d’une épreuve

199

Page 220: Analyse de la validité prédictive d’une épreuve
Page 221: Analyse de la validité prédictive d’une épreuve

201

Page 222: Analyse de la validité prédictive d’une épreuve

202

Page 223: Analyse de la validité prédictive d’une épreuve

203

Page 224: Analyse de la validité prédictive d’une épreuve

204

Page 225: Analyse de la validité prédictive d’une épreuve

205

Page 226: Analyse de la validité prédictive d’une épreuve

206

Page 227: Analyse de la validité prédictive d’une épreuve

207

Page 228: Analyse de la validité prédictive d’une épreuve

208

Page 229: Analyse de la validité prédictive d’une épreuve

209

Page 230: Analyse de la validité prédictive d’une épreuve

210

Page 231: Analyse de la validité prédictive d’une épreuve

211

Page 232: Analyse de la validité prédictive d’une épreuve

212

Page 233: Analyse de la validité prédictive d’une épreuve

213

Page 234: Analyse de la validité prédictive d’une épreuve

214

Page 235: Analyse de la validité prédictive d’une épreuve
Page 236: Analyse de la validité prédictive d’une épreuve

216

Page 237: Analyse de la validité prédictive d’une épreuve

217

Page 238: Analyse de la validité prédictive d’une épreuve

218

Page 239: Analyse de la validité prédictive d’une épreuve

219

Page 240: Analyse de la validité prédictive d’une épreuve

220

Page 241: Analyse de la validité prédictive d’une épreuve

221

Page 242: Analyse de la validité prédictive d’une épreuve

222

Page 243: Analyse de la validité prédictive d’une épreuve

223

Page 244: Analyse de la validité prédictive d’une épreuve

224

Page 245: Analyse de la validité prédictive d’une épreuve

225

Page 246: Analyse de la validité prédictive d’une épreuve

226

Page 247: Analyse de la validité prédictive d’une épreuve

227

Annexe D

Questionnaire adressé aux étudiants

1. Données concernant le participant

1. Nom

2. Langue maternelle

(si le français n’est pas votre

langue maternelle, considérez-

vous votre compétence

langagière comme étant

proche de celle d’un locuteur

natif?)

3. Programme d’inscription

(quel baccalauréat?)

4. Date de passation.

5. Note obtenue au TFLM Score :

6. Note obtenue lors de

l’épreuve uniforme de

français en secondaire 5 et au

Cégep.

7. Note obtenue lors de

l’épreuve uniforme de

français au Cégep.

8. Aviez-vous passé un ou

plusieurs autres examens de

compétence langagière en

français avant le TFLM? Si

oui, indiquez ici lequel ou

lesquels ainsi que votre score

pour chacun.

Nom / titre du test :

Score obtenu :

Note : Il est demandé à tous les participants au TFLM de remplir les parties 2, 3 et 4. Ensuite, si vous avez

obtenu une note située en dessous ou égale à 59 %, passez à la section 5 ; Si vous avez obtenu une note

entre 60 % et 74 %, passez à la section 6 ; Si vous avez obtenu une note égale ou supérieure à 75 %, passez

à la section 7.

Entourez la réponse qui correspond le mieux à votre opinion au sujet des énoncés suivants. Toutes vos

réponses devraient prendre en compte le fait que vous êtes locuteur natif du français ou considéré comme

tel ET vos considérations devraient concerner le TFLM uniquement, et non pas des éléments de votre

programme de manière plus générale.

1. Pas du tout d’accord ; 2. Pas d’accord ; 3. Partiellement d’accord ; 4. D’accord ; 5. Tout à fait

d’accord.

Page 248: Analyse de la validité prédictive d’une épreuve

228

2. Le TFLM lui-même.

Énoncé 1

Pas du

tout d’accord

2

Pas

d’accord

3

Partiellement

d’accord

4

D’accord

5

Tout à

fait d’accord

9. En me concentrant sur le TFLM lui-même

ET en tant que locuteur natif ou considéré

comme tel du français, je trouve que le

TFLM est difficile.

1 2 3 4 5

10. En me concentrant sur le TFLM lui-même

ET en tant que locuteur natif ou considéré

comme tel du français, je pense que la note

que j’ai obtenue au TFLM reflète bien mon

niveau de compétence en français.

1 2 3 4 5

11. En me concentrant sur le TFLM lui-même

ET en tant que locuteur natif ou considéré

comme tel du français, je pense que Le

TFLM mesure correctement la culture

générale correspondant au contexte

québécois.

1 2 3 4 5

12. Les décisions prises sur la base des scores au

TFLM ont des conséquences positives sur

mon cheminement d’étudiant (durée des

études, frais, formation, etc.)

1 2 3 4 5

13. Les décisions prises sur la base des scores au

TFLM ont des conséquences négatives sur

mon cheminement d’étudiant (durée des

études, frais, formation, etc.)

1 2 3 4 5

14. En me concentrant sur le TFLM lui-même

ET en tant que locuteur natif ou considéré

comme tel du français, je pense que les

tâches du TFLM reflètent les exigences

linguistiques liées à la profession

enseignante.

1 2 3 4 5

15. En me concentrant sur le TFLM lui-même

ET en tant que locuteur natif ou considéré

comme tel du français, je pense que les

tâches du TFLM reflètent la culture générale

attendue chez les futurs enseignants.

1 2 3 4 5

16. En me concentrant sur le TFLM lui-même

ET en tant que locuteur natif ou considéré

comme tel du français, je pense que les

tâches du TFLM reflètent les connaissances

linguistiques liées aux cours universitaires.

1 2 3 4 5

3. Application de la compétence langagière dans le programme

En tant que locuteur natif du français (ou s’en

approchant), j’ai éprouvé des difficultés liées à la

langue dans les contextes suivants :

1

Pas du

tout d’accord

2

Pas

d’accord

3

Partiellement

d’accord

4

D’accord

5

Tout à

fait d’accord

17. Lors des cours magistraux. 1 2 3 4 5

Page 249: Analyse de la validité prédictive d’une épreuve

229

18. Lors des travaux individuels écrits. 1 2 3 4 5

19. Lors des travaux d’équipe écrits. 1 2 3 4 5

20. Lors des interactions avec l’enseignant. 1 2 3 4 5

21. Lors des interactions avec des pairs. 1 2 3 4 5

22. Lors des présentations orales individuelles. 1 2 3 4 5

23. Lors des présentations orales en équipe. 1 2 3 4 5

24. Lors des lectures d’articles ou de textes

académiques.

1 2 3 4 5

25. En milieu scolaire, en stage. 1 2 3 4 5

4. Composantes de la langue à évaluer

26. En tant que francophone, quelles composantes de la langue pensez-vous que le TFLM devrait

évaluer? Dans quel ordre?

□ Étant donné que les candidats sont francophones ou considérés comme tels, aucun test de

français ne devrait être obligatoire ou nécessaire dans le processus d’admission. (Si vous cochez

cette réponse, passez directement à la partie 5).

□ Malgré le fait que les candidats sont francophones, un test de français reste nécessaire pour les

composantes suivantes

27. Si vous avez répondu qu’un test de français est nécessaire même si les candidats sont

francophones, veuillez numéroter les quatre composantes de 1 à 4 dans l’ordre d’importance

□ Compréhension orale

□ Production orale

□ Compréhension écrite

□ Production écrite

5. Cas de figure 1 : note inférieure ou égale à 59 %

1

Pas du

tout

d’accord

2

Pas

d’accord

3

Partiellement

d’accord

4

D’accord

5

Tout à

fait

d’accord

28. En tant que locuteur natif du français (ou s’en

approchant), je pense que les cours correctifs

obligatoires en français (FRN-1902 et FRN-1903)

m’ont aidé(e) dans mes études.

1 2 3 4 5

29. De manière générale, en tant que locuteur natif du

français (ou s’en approchant), je sens plus

compétent(e) en français après avoir suivi les

cours correctifs obligatoires en français (FRN-

1 2 3 4 5

Page 250: Analyse de la validité prédictive d’une épreuve

230

1902 et FRN-1903).

30. En tant que locuteur natif du français (ou s’en

approchant), je pense que les cours correctifs

obligatoires en français (FRN-1902 et FRN-1903)

avec les contenus actuels me semblent appropriés

pour les futurs enseignants.

1 2 3 4 5

31. En tant que locuteur natif du français (ou s’en

approchant), je pense que tous les étudiants

devraient suivre les cours correctifs obligatoires

en français (FRN-1902 et FRN-1903) avec le

contenu actuel.

1 2 3 4 5

32. En tant que locuteur natif du français (ou s’en

approchant), je pense que les cours correctifs

obligatoires en français (FRN-1902 et FRN-1903)

ne garantissent pas une meilleure compétence

linguistique.

1 2 3 4 5

33. En tant que locuteur natif du français (ou s’en

approchant), je pense que les cours de mise à

niveau en français (FRN-1902 et FRN-1903) avec

le contenu actuel sont une mesure précise pour

améliorer la compétence langagière des étudiants.

1 2 3 4 5

34. En tant que locuteur natif du français (ou s’en

approchant), je pense que le TFLM devrait être

éliminé du processus d’admission aux

programmes de formation en enseignement.

1 2 3 4 5

35. En tant que locuteur natif du français (ou s’en

approchant), je pense qu’aucun cours de français

ne devrait être imposé aux étudiants des

programme de formation en enseignement.

1 2 3 4 5

36. Les étudiants des programmes de formation en

enseignement devraient être admis dans ces

programmes sur la base d’entrevues et de mises

en situation correspondant à des éléments ou des

domaines liés à la profession enseignante.

1 2 3 4 5

37. En tant que locuteur natif du français (ou s’en

approchant) et futur enseignant, je pense que la

meilleure manière d’améliorer la qualité de la

langue chez les futurs enseignants est de suivre

une formation en français écrit avancé à des fins

académiques.

1 2 3 4 5

6. Cas de figure 2 : note située entre 60 % et 74 % au TFLM.

1

Pas du

tout

d’accord

2

Pas

d’accord

3

Partiellement

d’accord

4

D’accord

5

Tout à

fait

d’accord

38. En tant que locuteur natif du français (ou s’en

approchant), je pense que le cours correctif

obligatoire en français (FRN-1904) m’a aidé(e)

dans mes études.

1 2 3 4 5

39. De manière générale, en tant que locuteur natif du

français (ou s’en approchant), je sens plus

compétent(e) en français après avoir suivi que le

1 2 3 4 5

Page 251: Analyse de la validité prédictive d’une épreuve

231

cours correctif obligatoire en français (FRN-

1904).

40. En tant que locuteur natif du français (ou s’en

approchant), le cours correctif obligatoire en

français (FRN-1904) me semble approprié pour

le/la futur(e) enseignant(e) que je suis.

1 2 3 4 5

41. En tant que locuteur natif du français (ou s’en

approchant), je pense que tous les étudiants

devraient suivre le cours correctif obligatoire en

français (FRN-1904) avec le contenu actuel.

1 2 3 4 5

42. En tant que locuteur natif du français (ou s’en

approchant), je pense que le cours correctif

obligatoire en français (FRN-1904) ne garantit

pas une meilleure compétence linguistique.

1 2 3 4 5

43. En tant que locuteur natif du français (ou s’en

approchant), je pense que le cours correctif

obligatoire en français avec le contenu actuel est

une mesure précise pour améliorer la compétence

langagière es étudiants.

1 2 3 4 5

44. En tant que locuteur natif du français (ou s’en

approchant), je pense que le TFLM devrait être

éliminé du processus d’admission aux

programmes de formation en enseignement.

1 2 3 4 5

45. En tant que locuteur natif du français (ou s’en

approchant), je pense qu’aucun cours de français

ne devrait être imposé aux étudiants des

programme de formation en enseignement.

1 2 3 4 5

46. Les étudiants des programmes de formation en

enseignement devraient être admis dans ces

programmes sur la base d’entrevues et de mises

en situation correspondant à des éléments ou des

domaines liés à la profession enseignante.

1 2 3 4 5

47. En tant que locuteur natif du français (ou s’en

approchant) et futur enseignant, je pense que la

meilleure manière d’améliorer la qualité de la

langue chez les futurs enseignants est de suivre

une formation en français écrit avancé à des fins

académiques.

1 2 3 4 5

7. Cas de figure 3 : note égale ou supérieure à 75 %

En tant que locuteur natif du français, je trouve que : 1

Pas du

tout

d’accord

2

Pas

d’accord

3

Partiellement

d’accord

4

D’accord

5

Tout à

fait

d’accord

48. En tant que locuteur natif du français (ou s’en

approchant), je pense que le TFLM constitue une

manière fiable de sélectionner les candidats des

programmes de formation en enseignement.

1 2 3 4 5

49. De manière générale, en tant que locuteur natif du

français (ou s’en approchant), je me sens plus

compétent(e) en français que mes collègues qui

ont obtenu une note inférieure à 74%.

1 2 3 4 5

Page 252: Analyse de la validité prédictive d’une épreuve

232

50. En tant que locuteur natif du français (ou s’en

approchant), le note du TFLM me semble un

indicateur approprié de la compétence langagière

des futurs enseignants.

1 2 3 4 5

51. En tant que locuteur natif du français (ou s’en

approchant), je pense que TFLM ne garantit pas

une meilleure compétence linguistique.

1 2 3 4 5

52. En tant que locuteur natif du français (ou s’en

approchant), je pense que le TFLM est une

mesure précise de toutes les composantes de

compétence langagière des étudiants.

1 2 3 4 5

53. En tant que locuteur natif du français (ou s’en

approchant), je pense que le TFLM devrait être

éliminé du processus d’admission aux

programmes de formation en enseignement.

1 2 3 4 5

54. Les étudiants des programmes de formation en

enseignement devraient être admis dans ces

programmes sur la base d’entrevues et de mises

en situation correspondant à des éléments ou des

domaines liés à la profession enseignante.

1 2 3 4 5

55. En tant que locuteur natif du français (ou s’en

approchant) et futur enseignant, je pense que je

pense que la meilleure manière d’améliorer la

qualité de la langue chez les futurs enseignants est

de suivre une formation en français écrit avancé à

des fins académiques.

1 2 3 4 5

8. Commentaires supplémentaires : Écrivez ci-dessous tous les commentaires que vous pourriez avoir au

sujet du TFLM, des cours de mise à niveau en français ou du processus d’admission en général et qui

n’auraient pas déjà été abordés par le questionnaire.

Page 253: Analyse de la validité prédictive d’une épreuve

Annexe E

Réponses fournies par les répondants au questionnaire

Page 254: Analyse de la validité prédictive d’une épreuve

234

Page 255: Analyse de la validité prédictive d’une épreuve

235

Page 256: Analyse de la validité prédictive d’une épreuve

236

Page 257: Analyse de la validité prédictive d’une épreuve

237

Page 258: Analyse de la validité prédictive d’une épreuve

238

Page 259: Analyse de la validité prédictive d’une épreuve

239

Page 260: Analyse de la validité prédictive d’une épreuve

240

Page 261: Analyse de la validité prédictive d’une épreuve

241

Page 262: Analyse de la validité prédictive d’une épreuve

242

Page 263: Analyse de la validité prédictive d’une épreuve

243

Page 264: Analyse de la validité prédictive d’une épreuve

244

Page 265: Analyse de la validité prédictive d’une épreuve

245

Annexe F

Questions composant l’entrevue avec un des concepteurs du TFLM

1. Quelle était la fonction première du TFLM? Pourquoi?

2. Pourquoi a-t-il été décidé de l’utiliser comme test d’admission aux programmes de

formation en enseignement?

3. Que mesure le TFLM? Quelle sont les compétences langagières mesurées?

4. Comment mesure-t-il ces éléments?

5. Combien de versions du TFLM existe-t-il?

6. Pourquoi les différentes universités utilisent-elles des modèles différents? (UL :

65 Q en 90 min ; U de M : 66 Q en 90 min ; Polytechnique MTL 100 Q en 120

min)

7. Sur quelles bases ont été construits les items du TFLM?

8. Le TFLM a-t-il fait l’objet d’une évaluation des besoins? (en particulier pour les

enseignants)

9. Le mémoire de l’AQPF (2001, états généraux de la langue) a-t-il donné le signal

du départ pour la conception / création du TFLM?

10. Quels aspects de la langue qui déterminent une « excellente maîtrise de la langue

française » ont été pris en compte au cours du processus de conception du TFLM?

11. Des aspects de culture générale ont-ils été pris en compte au cours du processus

de conception du TFLM?

12. Quels sont les aspects culturels visés par le TFLM? Par l’entremise de quels

moyens cette facette est-elle mesurée?

13. Les qualités « personnelles » (cf : mémoire de l’AQPF) des futurs enseignants

ont-elles été déterminées au cours du processus de conception du TFLM?