Analyse de la validité prédictive d’une épreuve
Transcript of Analyse de la validité prédictive d’une épreuve
Analyse de la validité prédictive d’une épreuve
standardisée de langue française chez des étudiants locuteurs
natifs francophones inscrits dans des programmes de
formation en enseignement : le cas du TFLM
Mémoire
Romain Schmitt
Maîtrise en linguistique – didactique des langues
Maître ès arts (M.A.)
Québec, Canada
© Romain Schmitt, 2015
III
RÉSUMÉ
Cette étude analyse la validité prédictive d’un test de langue française aux enjeux
critiques pour les candidats francophones à l’admission dans les programmes de
formation en enseignement (PFE) d’universités francophones canadiennes, ce que peu
d’études ont accompli (Romainville, 1997; Blais, 2001). L’étude de type mixte
convergent en trois phases analyse les données recueillies auprès de 145 sujets à
l’Université Laval, Québec en adoptant la Matrice de Messick (1980) et le modèle des
caractéristiques des tâches (Bachman & Palmer, 1996). L’analyse statistique (régression
multiple, t-test, ANOVA) indique l’incapacité du test à prédire la réussite dans les PFE.
Les résultats complémentaires suggèrent que les scores au test ne sont pas valides pour
placer les étudiants dans les cours correctifs reliés au test. Ces derniers n’aident pas les
étudiants à améliorer leurs performances significativement. La triangulation des données
confirme l’incapacité du test à mesurer les habiletés langagières
académiques/professionnelles requises dans les PFE.
V
ABSTRACT
This study investigates the predictive validity of a high-stakes French language
admission test for francophone applicants to four teacher-training programs (TTPs) in
Canadian francophone universities. Few studies have examined the predictive validity of
admission tests measuring candidates’ L1 (Romainville, 1997; Blais, 2001). Adopting
Messick’s Matrix (1980) and Bachman & Palmer’s Model of Task Characteristics (1996),
this study uses a mixed-method convergent approach to data collection and analysis. The
data is gathered from 145 students at Université Laval in three phases. The statistical
analysis of data (multiple regression, paired t-test, ANOVA) indicates that the test does
not predict success in TTPs. Further results suggest that the test scores are not valid for
placing the students in remedial French courses linked to the test. The courses did not
help the students to significantly improve their performance. Data triangulation further
confirms that the test does not measure academic/professional language abilities required
in TTPs.
VII
TABLE DES MATIÈRES
Résumé .................................................................................................................. III
Abstract ...................................................................................................................V
Table des matières ................................................................................................ VII
Liste des tableaux .................................................................................................. IX
Liste des figures ..................................................................................................XIII
Annexes ................................................................................................................ XV
Remerciements .................................................................................................. XVII
Note au lecteur ................................................................................................... XIX
INTRODUCTION................................................................................................... 1
CHAPITRE I : PROBLÉMATIQUE ...................................................................... 5
1.1 Historique de la création du TFLM ........................................................... 5
1.2 Contexte spécifique de l’étude ................................................................ 15
1.3 Objectifs et usage du TFLM .................................................................... 20
1.4 Modalités, contenu et tâches ................................................................... 21
1.5 Questions de recherche ............................................................................ 27
CHAPITRE II : CADRE THÉORIQUE ............................................................... 29
2.1 Définition de la validité : Approche traditionnelle .................................. 29
2.2 Évolution historique du concept de validité ............................................ 37
2.3 Le modèle de l’utilité des tests ................................................................ 43
2.4 Le concept de compétence communicative ............................................. 53
2.5 Conception de la validité retenue pour cette recherche ........................... 60
CHAPITRE III : RECENSION DES ÉCRITS ..................................................... 63
3.1 Études de type quantitatif ........................................................................ 64
3.2 Études de type mixte : données quantitatives et qualitatives .................. 77
VIII
3.3 Conclusions générales ............................................................................. 87
CHAPITRE IV : MÉTHODOLOGIE ................................................................... 91
4.1 Conception de la recherche ..................................................................... 91
4.2 Participants .............................................................................................. 92
4.3 Les instruments de cueillette des données ............................................... 93
4.4 Procédures d’analyse des données .......................................................... 98
CHAPITRE V : PRÉSENTATION DES RÉSULTATS ET DISCUSSION ...... 101
5.1 Analyse des tâches du TFLM par rapport aux tâches des contextes TLU
du contexte ............................................................................................ 102
5.2 Résultats de l’analyse des données quantitatives .................................. 123
5.3 Résultats de l’analyse des données qualitatives .................................... 141
CHAPITRE VI : CONCLUSIONS ET IMPLICATIONS .................................. 155
LISTE DES RÉFÉRENCES ............................................................................... 169
ANNEXES .......................................................................................................... 183
Annexe A ............................................................................................................ 185
Annexe B ............................................................................................................. 187
Annexe C ............................................................................................................. 189
Annexe D ............................................................................................................ 227
Annexe E ............................................................................................................. 233
Annexe F ............................................................................................................. 245
IX
LISTE DES TABLEAUX
Tableau I.1 Cheminement régulier des étudiants du baccalauréat en
enseignement du français langue seconde, Université
Laval, Québec, automne 2014.
p.19
Tableau I.2 Modalités du TFLM et dispositif selon la note obtenue dans
deux universités québécoises utilisant le test
p.22
Tableau I.3 Contenu du TFLM p.23
Tableau II.1 Facettes de la validité (Messick, 1989, p. 20) p.40
Tableau II.2 Summary of contrasts between past and current
conceptions of validation, Chapelle (1999, p. 258)
p.42
Tableau II.3 Récapitulatif des qualités des tests (modèle de Bachman &
Palmer, 1996) &
p.52
Tableau II.4 Areas of language knowledge, Bachman & Palmer (2010,
p. 45)
p.55
Tableau II.5 Areas of metacognitive strategies use, Bachman & Palmer
(2010, p. 49)
p.55
Tableau IV.1 Données quantitatives recueillies p.96
Tableau IV.2 Données statistiques analysées et codage p.99
Tableau V.1 Analyse comparée des buts, des tâches du TFLM, des cours
du programme du BEFLS (TLU1), des cours de mise à
niveau FRN-1902, FRN-1903 et FRN-1904 (TLU2),
p.104
X
Université Laval, hiver 2014, et des tâches du contexte de
la profession enseignante (TLU3)
Tableau V.2 Tableau V.2 : Analyse comparée des composantes de la
composante langagière des tâches du TFLM, des cours du
programme du BEFLS ((TLU1), des cours de mise à
niveau FRN-1902, FRN-1903 et FRN-1904, Université
Laval, hiver 2014 (TLU2), et des tâches du contexte de la
profession enseignante (TLU3).
p.107
Tableau V.3 Analyse comparée des caractéristiques des tâches du
TFLM, des cours du programme du BEFLS (TLU1), des
cours de mise à niveau FRN-1902, FRN-1903 et FRN-1904
Université Laval, hiver 2014 (TLU2), et des tâches du
contexte de la profession enseignante (TLU3)
p.108
Tableau V.4 Corrélation scores TFLM et GPA finale, tous sujets
confondus (ANOVA)
p.124
Tableau V.5 Corrélation scores TFLM et GPA finale, tous sujets
confondus (récapitulatif des modèles)
p.124
Tableau V.6 Corrélation scores TFLM et GPA finale, tous sujets
confondus (coefficients)
p.125
Tableau V.7 Corrélation scores TFLM et GPA finale pour les sujets du
groupe HIGH (ANOVA)
p. 125
Tableau V.8 Corrélation scores TFLM et GPA finale pour les sujets du
groupe MID (ANOVA)
p.126
XI
Tableau V.9 Corrélation scores TFLM et GPA finale pour les sujets du
groupe LOW (ANOVA)
p. 126
Tableau V.10 Corrélation entre la GPA après cours de mise à niveau 2 et
GPA finale, groupe LOW (ANOVA)
p.130
Tableau V.11 Corrélation entre la GPA après cours de mise à niveau 2 et
GPA finale, groupe LOW (récapitulatif des modèles)
p.130
Tableau V.12 Corrélation entre la GPA après cours de mise à niveau 2 et
GPA finale, groupe LOW (coefficients)
p.131
Tableau V.13 Corrélation entre la GPA après cours de mise à niveau 2 et
GPA finale (ANOVA)
p.131
Tableau V.14 Corrélation entre la GPA après cours de mise à niveau 2 et
GPA finale (récapitulatif des modèles)
p.132
Tableau V.15 Corrélation entre la GPA après cours de mise à niveau 2 et
GPA finale (coefficients)
p.132
Tableau V.16 Statistiques des échantillons appariés étudiants des groupes
LOW et MID
p.134
Tableau V.17 Test des échantillons appariés étudiants des groupes LOW
et MID
p.134
Tableau V.18 Test des échantillons appariés étudiants des groupes LOW
et MID
p.135
Tableau V.19 Différences entre moyennes transitoires (après session 1)
entre les 3 groupes LOW, MID et HIGH (ANOVA)
p.136
Tableau V.20 Analyse comparative multiple, GPA transitoires (session 1) p.137
XII
et GPA finale, tous les groupes
Tableau V.21 Test de l’effet interne, GPA transitoires (session 1) et GPA
finale, tous les groupes
p.137
Tableau V.22 Différences entre GPA finales, tous les groupes (ANOVA) p.138
Tableau V.23 Analyse comparative multiple, GPA, tous les groupes p.138
Tableau V.24 Statistiques des échantillons appariés, tous les groupes,
GPA transitoire après session 1et GPA finale
p.139
Tableau V.25 Test des échantillons appariés, tous les groupes, GPA
transitoire après session 1 et GPA finale
p.140
Tableau V.26 Réponses des répondants au sujet du contenu du TFLM et
de son impact
p.143
Tableau V.27 Perceptions de la compétence en français des répondants p.144
Tableau V.28 Opinion des répondants relative aux mécanismes
d’admission dans les programmes de formation en
enseignement (test d’admission et cours correctifs de
français)
p.150
XIII
LISTE DES FIGURES
Figure 2.1 L’utilité des tests (Bachman & Palmer, 1996, p. 18) p.43
Figure 2.2 Fidélité (Bachman & Palmer, 1996, p. 20) p.45
Figure 2.3 Authenticité (Bachman & Palmer, 1996. p. 23) p.47
Figure 2.4 Interactivité (Bachman & Palmer, 1996, p. 26) p.49
Figure 2.5 Impact (Bachman & Palmer, 1996, p. 30) p.51
Figure 2.6 Faisabilité (Bachman & Palmer, 1996, p. 36) p.51
XV
ANNEXES
Annexe A Conditions d’admission au baccalauréat en enseignement du
FLS, Université Laval, A-2013
p.185
Annexe B Composition (maquette) des cours obligatoires et optionnels
du baccalauréat en enseignement du FLS, Université Laval,
A-2013
p.187
Annexe C Plans de cours des cours de mise à niveau (FRN-1902, FRN-
1903, FRN-1904), Université Laval, automne 2013
p.189
Annexe D Questionnaire présenté aux étudiants sous forme
électronique
p.227
Annexe E Réponses aux questionnaires p.233
Annexe F Questions composant l’entrevue avec un des concepteurs du
TFLM
p.245
XVII
REMERCIEMENTS
Je tiens à remercier tout particulièrement ma directrice de recherche, la
Professeure Shahrzad Saif pour ses judicieux conseils, sa ténacité, son expertise, et
surtout, sa disponibilité. Thank you for all these « impromptu » meetings, thank you for
always being available, thank you for the tips, thank you for keeping high standards in
everything you do and thank you for believing in this project, sometimes more than
myself!
Un remerciement tout particulier au professeur Mohammad Rahimi, de
l’Université du Québec à Montréal, qui a énormément contribué à ce mémoire en
vérifiant toutes les données et opérations statistiques. Merci aussi à Aurélien Nicosi, du
service de consultation statistique de l’Université Laval, pour ses conseils et suggestions.
Merci aussi aux professeures Sabrina Priego et Sonia El Euch pour leur apport en
tant que membres du jury, pour leur regard neuf et leurs conseils toujours pertinents.
Merci à vous, ma famille en Europe qui, de loin, avez toujours soutenu ce travail
de longue haleine.
Finalement, merci à mon épouse, Meghan, et à nos enfants, Thomas, Charlotte et
Emily. Meghan, merci pour tes encouragements ; Tom, Charlie et Em, merci pour vos
sourires, vos jeux et vos bêtises : ils m’ont énormément aidé!
XIX
NOTE AU LECTEUR
Il a été décidé, dans le cadre de la rédaction de ce mémoire, de conserver toutes les
citations, figures et tableaux dans leur langue d’origine, soit l’anglais.
1
INTRODUCTION
Depuis le milieu des années 1980, au Canada (et partout dans les pays
industrialisés), l’accès aux études postsecondaires a connu une augmentation
impressionnante. Dans un document rédigé par la Conférence des Recteurs et des
Principaux des Universités du Québec1 (CRÉPUQ, aujourd’hui appelée le Bureau de
Coopération Interuniversitaire, ou BCI) en 2006, l’accès aux études universitaires en
particulier a été favorisé et le nombre d’étudiants admis dans les universités québécoises
a explosé : en vingt ans, soit de 1985 à 2005, le nombre de diplômés universitaires (tous
cycles confondus) au Québec seulement a augmenté de plus de 45%. Cette forte
augmentation du nombre de diplômés, si elle a de quoi réjouir la société en général à
cause des répercussions qu’elle a sur la population (plus compétente, plus instruite, mieux
rémunérée, plus productive, etc.) est accompagnée de problématiques importantes pour
les institutions d’enseignement supérieur. Un afflux important d’étudiants dans les
universités exige plus de ressources, plus d’enseignants, plus d’infrastructures, plus de
personnel de soutien, bref, plus d’argent. Étant donné les ressources limitées en termes de
budget, de temps ou de ressources humaines, en particulier académiques, cette équation,
c’est-à-dire plus d’étudiants pour autant de ressources, a fait naître dans les universités le
besoin d’un système de sélection pour différents programmes afin d’optimiser les
ressources disponibles et donner de meilleures chances aux étudiants admis de réussir
dans les programmes choisis. Ce processus de sélection peut prendre différentes formes :
on trouve des processus de sélection « sur dossier » qui permettent aux candidats
1 http://www.crepuq.qc.ca/img/pdf/indicateurs-2.pdf
2
d’accéder au programme de leur choix simplement à partir des notes qu’ils ont obtenues à
la fin de leurs études pré-universitaires ou selon une mesure uniforme chez tous les
candidats d’une région ou d’un système scolaire (la cote de rendement scolaire, ou cote
R, au Québec, par exemple, les résultats au Canadian Aptitude Test dans le reste du
Canada ou le Scholastic Assessment Test aux États-Unis). On observe aussi des
sélections par entrevues qui s’ajoutent à l’examen du dossier du candidat afin de
départager ceux qui auraient pu présenter des résultats similaires. Enfin, l’utilisation de
tests ou d’épreuves d’admission est aussi une pratique très répandue, car facilitante et
« objective » : l’idée est d’évaluer tous les candidats dans les mêmes conditions et se
baser sur le résultat à une même épreuve, censée les placer sur un pied d’égalité.
Les types de tests utilisés dans les procédures d’admission sont très variés : tests
de culture générale, comme c’est le cas en Belgique, par exemple (Romainville, 1997),
tests psychométriques, ou encore tests de langue, seconde ou première (Elder, 1993). De
ces tests langagiers, il revient de distinguer deux sous-catégories : les tests censés être
ancrés dans la réalité du domaine, c’est-à-dire qui reflètent, d’une façon ou d’une autre,
les éléments langagiers nécessaires à la réussite dans le domaine choisi par le candidat.
On parle alors de langue à objectif spécifique (Language for Specific Purposes, ou LSP)
ou des tests de compétence langagière plus générale. Ces derniers ont pour objectif de
poser un diagnostic sur les compétences linguistiques ou langagières générales des
candidats et pouvoir, le cas échéant, les aiguiller au mieux vers des cours ou des
formations supplémentaires afin de les accompagner dans leur cheminement et les aider à
obtenir leur diplôme.
3
Si le choix du type d’évaluation peut parfois être discutable, le principe même de
tenter d’évaluer le potentiel des candidats à connaitre le réussite dans un programme
donné s’appuie sur des écrits théoriques solides et qui ont fait l’objet d’une attention
particulière par de nombreux chercheurs, que ce soit en psychologie (Cronbach & Meehl,
1955), en éducation (Messick, 1980) ou en évaluation des langues (Bachman, 1990 ;
Chapelle, 1999). Le concept clé de validité est au cœur des discussions depuis près de 60
ans et, dans notre cas, la validité prédictive, une des composantes du concept unifié de la
validité (concept qui sera défini dans notre cadre théorique) prend une place de choix
dans les préoccupations des responsables d’établissements d’enseignement. Il s’agit donc
de prédire, à travers un test choisi, le potentiel de réussite des candidats à partir du
résultat obtenu au test sélectionné comme critère d’admission. Ce pouvoir prédictif peut
être analysé de différentes manières et l’a d’ailleurs été pour de nombreux tests
standardisés, tels que le Test of English as a Foreign Language (TOEFL), le First
Certificate in English (FCE) ou le International English Language Testing System
(IELTS), et ce, dans de nombreux contextes (pays, candidats, objectifs). Comme nous le
verrons en détail au cours de cette étude, les recherches entreprises afin d’évaluer le
pouvoir prédictif de ces tests ont donné des résultats mitigés. Il est donc nécessaire de
pousser encore dans cette voie afin d’arriver à des conclusions plus significatives et plus
tranchées.
Au Québec, les directions de nombreux programmes universitaires ont opté pour
un test de compétence langagière dans leur processus d’admission. On assiste alors à un
double processus : une première sélection sur dossier (cote R ou autre) suivie d’un test
diagnostique pour évaluer les compétences langagières des candidats à suivre les cours
4
offerts tout au long de la formation (avec des mécanismes de mise à niveau, au besoin).
Parmi ces programmes, ceux de formation initiale à l’enseignement, tous niveaux
confondus (primaire, secondaire ou autre), ont mis en place des exigences d’admission
qui incluent une épreuve de français pour tous les nouveaux admis.
Au Québec, les programmes de formation à l’enseignement sont des programmes
universitaires de quatre années qui connaissent énormément de succès auprès des
diplômés collégiaux et des personnes désireuses de réorienter leur carrière.
L’enseignement apparait comme un milieu riche, épanouissant et qui permet une certaine
liberté d’action (en plus d’une sécurité d’emploi relative). Cet engouement pour la
profession, au départ très encourageant, a vite montré ses limites : certains candidats ne
semblaient pas posséder le niveau de compétence langagière requis pour enseigner dans
les écoles de la province, mais il n’existait pas de test utilisable à des fins de sélection de
candidats à l’entrée des programmes d’enseignement. C’est pour cela qu’au début des
années 1990, les directions de différentes universités du Québec ont décidé d’instaurer
une réelle politique concernant l’usage du français2. Cette politique a alors posé les
premiers jalons d’une épreuve de compétence langagière comme test d’admission dans
les universités québécoises francophones à l’entrée de nombreux programmes, dont ceux
de formation à l’enseignement. De ces universités, deux universités majeures,
l’Université Laval et l’Université de Montréal, ont choisi de construire leur propre test :
le Test de Français Laval Montréal (TFLM). L’objectif de la présente recherche est de
déterminer dans quelle mesure le TFLM peut prédire la réussite académique des étudiants
inscrits dans quatre programmes de formation initiale en enseignement.
2 Dispositions relatives à l’application de la politique sur l’usage du français à l’Université Laval,
http://www.ulaval.ca/sg/reg/Politiques/Dispositions_relatives_application_Politique.pdf
5
CHAPITRE I : PROBLÉMATIQUE
Dans ce chapitre, nous décrirons le contexte général dans lequel s’inscrit notre
recherche en plus d’éléments contextuels justifiant le choix d’entreprendre une telle
étude. Nous commencerons par décrire en détail les raisons qui ont conduit à la création
du TFLM, sa genèse et dans quelle optique il a été créé. Ensuite, nous verrons que
l’utilisation du TFLM est censée répondre à des besoins spécifiques pour les programmes
qui nous intéressent, c’est-à-dire les programmes de formation en enseignement au
Québec. Finalement, nous présenterons nos questions de recherche, questions qui
devraient en principe permettre de trouver des preuves concrètes qui permettraient de
prendre des décisions éclairées et améliorer la situation actuelle.
1.1 Historique de la création du TFLM
Afin d’obtenir des précisions sur la genèse du TFLM et le contexte dans lequel
cette genèse s’est faite, nous avons eu l’occasion de discuter avec des acteurs clés
appartenant au milieu, soit certains enseignants des programmes visés, les administrateurs
des programmes, ainsi qu’un des concepteurs du TFLM, avec qui une entrevue a été
conduite (annexe F). Le but de cette entrevue était d’obtenir des renseignements d’ordre
général sur la genèse du TFLM, les personnes qui ont participé à sa conception, les buts
qu’il était censé atteindre et les raisons qui ont poussé les administrateurs des facultés
concernées à poser un tel geste. L’entrevue s’est déroulée de manière informelle, les
réponses recueillies n’ont pas été codées et n’ont servi qu’à situer le TFLM dans son
contexte. Les renseignements suivants nous ont donc été fournis par une personne
impliquée dans la conception du TFLM ainsi que sa mise en œuvre dès les premiers
moments.
6
Au début et au milieu des années 1990, et selon leurs dires, certains responsables
de plusieurs facultés et programmes universitaires au Québec ont réalisé que le niveau de
compétence langagière et linguistique de beaucoup de nouveaux admis tendait à
diminuer. Cette question de la qualité de la langue chez les candidats à l’admission à des
programmes universitaires était aussi au centre des préoccupations du ministère de
l’Éducation de l’époque (MEQ, aujourd’hui ministère de l’Éducation, du Loisir et du
Sport, MELS) et l’institution gouvernementale a tenté d’y répondre par la création et
l’application de l’Épreuve Uniforme de Français (EUF) à la fin des niveaux secondaire
(MELS, 1994) et collégial (MELS, 1996). Ces épreuves, en particulier l’épreuve
sanctionnant le niveau collégial, étaient destinées principalement à assurer un niveau
minimal de connaissance de la langue française chez les candidats universitaires.
Malheureusement, au vu des enseignants et des responsables de plusieurs facultés à
travers la province du Québec, elles ne semblaient pas en mesure de remplir la mission
qui était la sienne et des moyens alternatifs donc ont été mis en place par différentes
facultés des universités québécoises. Deux de ces universités, l’Université Laval et
l’Université de Montréal, ont décidé de créer un outil destiné à vérifier le niveau de
compétence chez les nouveaux admis de programmes variés : le Test de Français Laval
Montréal.
Le Test de Français Laval Montréal (TFLM) est le fruit d’une collaboration
étroite entre divers spécialistes de l’Université Laval et de l’Université de Montréal. Le
mandat de la création du TFLM avait été donné à la faculté des Lettres de l’Université
Laval. Le comité de conception responsable du contenu du TFLM était composé de
personnes de diverses spécialisations (grammairiens, didacticiens, responsables de
7
formation pratique, professeurs, chargés de cours) des deux universités, ainsi que de la
responsable de la vérification psychométrique et statistique des évaluations à l’Université
de Montréal. Un premier exemplaire du test a donc été conçu dans lequel chaque item
était considéré comme matrice et point de départ pour d’autres énoncés subséquents. La
tâche a alors été donnée à des chargés de cours, principalement de l’École des Langues de
l’Université Laval (anciennement École des langues vivantes) de produire des énoncés
similaires à chaque énoncé matrice déterminé par le comité de conception responsable du
contenu3. Par la suite, les différentes versions du test (sept en tout, dont une a été égarée
depuis) ont été mises à l’épreuve par des volontaires « cobayes » payés. Des
comparaisons et corrélations statistiques par item ont été effectuées entre les différentes
versions. Les participants cobayes ont aussi dû rédiger un texte structuré de type « essai »
afin de vérifier la fidélité entre les notes obtenues au test et la compétence langagière en
production écrite des candidats.
Le TFLM et sa mise en œuvre adhèrent aux principes mis de l’avant, quelques
années après sa mise en place, lors des États généraux de la langue française au Québec
(2001) qui mettaient l’accent sur l’urgence de poser des balises claires afin d’améliorer la
qualité de la langue parlée et écrite au Québec. Un des mémoires, déposé par
l’Association Québécoise des Professeures et Professeurs de Français (AQPF) lors de
cette assemblée générale, insistait sur la nécessité de placer la qualité de la langue
française au premier plan de la formation des maîtres. La partie concernant la formation
initiale des maîtres commence d’ailleurs de la façon suivante :
3 Ces informations nous ont été données par un des concepteurs du TFLM lors d’entrevues réalisées entre
2012 et 2014, voir annexe F.
8
Nous réaffirmons haut et fort l’obligation absolue, pour toutes celles et
ceux qui œuvrent en éducation, d’avoir acquis une excellente maîtrise du
français ; elles et ils doivent être des modèles, au quotidien, d’une langue
de qualité, d’une langue qui respecte la norme du français québécois.
(AQPF, 2001, p. 21)
Cependant, cette citation, bien que claire dans son objectif, est immédiatement
suivie par les mots suivants, par les mêmes auteurs : « Encore faudra-t-il cependant que
quelqu’un définisse un jour cette norme et en fixe les principales balises » (2001, p. 21).
Nous nous retrouvons donc devant une situation délicate : la langue est mise de
l’avant par les acteurs principaux du monde de l’éducation, les enseignants, mais eux-
mêmes avouent qu’ils ne sont pas en mesure de déterminer l’objet visé. En d’autres
termes, les enseignants recommandent la mise en place de procédures destinées à
améliorer la qualité de la langue française chez les enseignants en fonction ou en
formation mais n’offrent aucun point de repère, balise ou objectif à atteindre qui
pourraient aider d’abord à déterminer puis à atteindre cette norme linguistique. À noter
qu’il s’agit ici d’évaluer et d’améliorer la compétence langagière de locuteurs natifs
puisque la très grande majorité des candidats à l’admission des programmes de formation
en enseignement dans le contexte visé est francophone. Il s’agit donc pour les universités,
dans ce contexte, de mesurer premièrement la compétence langagière de locuteurs natifs
du français et deuxièmement de déterminer les caractéristiques spécifiques de la langue
dont les enseignants ont besoin pour exceller dans leur profession.
Pour répondre à cette double nécessité, l’Université Laval et l’Université de
Montréal ont mis au point le TFLM. Il faut souligner cependant que la dimension
spécifique de la langue nécessaire aux enseignants n’a pas été considérée pendant le
processus de création. En effet, le TFLM reste un test de compétence langagière générale
9
qui ne touche pas à des éléments que l’on pourrait définir comme spécifiques à la
profession enseignante. À partir de ce constat, il s’agirait donc d’effectuer une évaluation
des besoins langagiers (needs assessment) des enseignants dans l’exercice de leurs
fonctions pour pouvoir fournir des éléments de réponse. De nombreux auteurs ont tenté
de définir cette langue spécifique aux enseignants (Paquay, 1998, 2004 ; Wegener-Soled,
1995) mais jusqu’à présent, ces tentatives et les suggestions qu’elles renfermaient n’ont
soit pas été entendues, soit ont été simplement ignorées. Le problème de la qualité de la
langue attendue chez les enseignants reste donc sans réponse pour le moment, ce qui
ouvre certes de nombreuses perspectives de recherche dans le domaine.
Outre la maîtrise de la langue française, les auteurs du mémoire de l’AQPF
mettent de l’avant deux autres aspects importants qui devraient faire partie de la
procédure d’admission aux programmes de formation en enseignement. Ainsi, on peut
lire :
Le profil d’entrée à l’université devrait être clairement défini et on devrait
s’assurer de l’état de la maîtrise de la langue des candidats et candidates
ainsi que de leur niveau de culture générale. On devrait aussi s’assurer
qu’ils et qu’elles possèdent les qualités personnelles nécessaires pour
remplir leur fonction adéquatement. (2001, p. 22)
Cette triple recommandation de l’association québécoise des professeurs de
français, soit la langue, la culture et les qualités personnelles, est bien entendu très
difficile à appliquer. Les exigences avancées par l’AQPF nécessiteraient une étude
complète et détaillée des besoins linguistiques, culturels et psychologiques nécessaires
aux enseignants dans l’exercice de leurs fonctions. Si le premier volet, comme nous
l’avons vu, reste encore à déterminer, les deux suivants, soit la culture générale et les
qualités personnelles, soulèvent encore plus de questions. Quels aspects de la culture
10
générale s’attend-on à retrouver chez un enseignant? Quelles qualités personnelles est-on
en droit d’exiger chez ce dernier? Le mémoire ne répond aucunement à ces deux
questions, et il semble, à la vue des exigences d’admission des programmes de formation
à l’enseignement, qu’elles aient été complètement et simplement abandonnées par les
universités. En effet, au contraire d’autres programmes (médecine4, par exemple), les
programmes de formation initiale en enseignement ne disposent pas (ou plus, pour être
précis) de dispositif d’entrevues ou de questionnaires censés mesurer, de quelque façon
que ce soit, les qualités personnelles ou interpersonnelles des candidats. En fait, les
directions des programmes en enseignement de la faculté des Sciences de l’éducation de
l’Université Laval avaient tenté, à la fin des années 1990, d’implanter un dispositif basé
sur des entrevues et des mises en situation à des fins d’admission dans leurs programmes.
Ce dispositif, appelé l’Appréciation Par Simulation (APS, Alem, 2003) a cependant vite
été abandonné à cause des contraintes de temps et des difficultés à développer un système
fiable de sélection à partir d’outils dont la validité aurait été démontrée.
En ce qui concerne la culture générale, exigence mentionnée par l’Association
Québécoise des Professeurs de Français pendant les États généraux de la langue au
Québec (2001), aucun indice n’est formulé dans le mémoire, même de manière vague, sur
le niveau de culture générale attendu, ni d’ailleurs sur les éléments qui composent la
culture générale attendue chez les enseignants du Québec. Le mémoire, donc, n’apporte
aucune précision sur aucun des éléments ni aucune des recommandations qu’il avance, ni
sur la qualité de la langue visée, ni sur les qualités personnelles des enseignants, ni sur
leur culture générale attendue. De plus, le rapport n’offre pas de pistes claires, que ce soit
4 http://www.fmed.ulaval.ca/site_fac/fileadmin/doc/faculte/publication/rapport/Rafmed_2007-2008.pdf
page 20
11
en ce qui concerne les aspects linguistiques censés être nécessaires à la profession
enseignante ou les aspects culturels que l’on devrait s’attendre à retrouver chez les
enseignants québécois. Cependant, lors de la conception du TFLM, les concepteurs se
sont penchés sur les éléments qu’on s’attendrait à retrouver chez les futurs enseignants et
ont décidé d’inclure dans les items langagiers une certaine dimension culturelle présente
principalement dans les items relevant de la connaissance des expressions idiomatiques
de la langue française5. L’idée derrière cette manœuvre était qu’une connaissance
approfondie des expressions figées et du vocabulaire pouvait être considérée comme un
indice relativement concret et observable d’une certaine culture générale chez les
candidats. Cette orientation nous a été confirmée par un des concepteurs du TFLM lors
d’une entrevue accordée dans le cadre de la recherche présentée ici (annexe F).
À noter que, depuis 2001, le MELS s’est doté d’un document de référence relatif à
la formation des enseignants et au développement professionnel des compétences
professionnelles des enseignants en exercice. Le document en question catalogue douze
compétences professionnelles que tout enseignant en poste doit maîtriser. Ces
compétences professionnelles, classées en quatre groupes (fondements, acte d’enseigner,
contexte scolaire et social et identité professionnelle) sont conçues pour toucher à tous les
aspects du travail des enseignants au Québec aujourd’hui, leur savoir, leurs savoir-faire et
leurs savoir-être, et constituent la base même de la formation des enseignants, toutes
disciplines confondues. De ces douze compétences, deux semblent faire écho aux
recommandations faites par l’AQPF la même année, soit les compétences
5 Cette information nous a été donnée lors d’une entrevue avec un des concepteurs du TFLM en 2013.
12
professionnelles une et deux, qui composent à elles-seules la première partie du
référentiel, soit la partie « fondements » :
Compétence 1 : Agir en tant que professionnelle ou professionnel héritier,
critique et interprète d’objets de savoirs ou de culture dans l’exercice de
ses fonctions.
Compétence 2 : Communiquer clairement et correctement dans la langue
d’enseignement, à l’oral et à l’écrit, dans les divers contextes liés à la
profession enseignante. (MELS, 2001, p. 59)
La compétence 1 réfère à la capacité des enseignants professionnels à intégrer la
culture, en plus des savoirs disciplinaires, dans leur préparation de cours, mais aussi de
leur attitude vis-à-vis la culture en général. Il est donc établi que l’enseignant doit se
poser en modèle et posséder une culture disciplinaire et interdisciplinaire, faire preuve de
curiosité par rapport à la culture de l’autre et être en mesure de gérer les relations
interculturelles que génèrent les milieux pluriethniques de l’école québécoise.
La compétence 2, elle, tente d’établir la norme qualitative de la langue attendue
chez les enseignants de l’école québécoise dans toutes les dimensions de la sphère
professionnelle, c’est-à-dire dans la classe, dans les contacts avec les élèves, les parents,
les collègues, les membres de l’équipe pédagogique, etc., mais aussi de démontrer des
qualités oratoires lors de ses contacts avec les acteurs du monde de l’éducation.
L’expression n’est pas restreinte à l’écrit et le volet oral de la communication est aussi
abordé de manière précise et explicite (voir le libellé de la compétence ci-dessus).
Par l’élaboration de ce document référentiel, le Ministère s’est doté d’un outil
clair et indispensable, tant pour la formation des futurs enseignants que dans le cadre du
développement professionnel des enseignants en exercice. En effet, pour chacune des
compétences exposées dans le référentiel du MELS, les auteurs (chercheurs, didacticiens
13
et enseignants) explicitent les composantes et sous-parties qui la composent. Pour
chacune de ces composantes, de nombreuses références scientifiques sont données et des
explications claires accompagnent le libellé de chaque composante. De plus, pour
chacune des compétences du référentiel, le profil de sortie à la fin de la formation est
présenté de manière brève et précise afin que les objectifs soient facilement compris et
évalués de manière objective par les responsables de formation dans les universités.
Grâce à ce document, nous pourrons comparer les tâches du TFLM aux compétences
professionnelles attendues chez les enseignants et établir dans quelle mesure elles
concordent.
Au vu de tous les éléments cités ci-dessus, il est nécessaire de déterminer si le
TFLM pourrait remplir la triple mission énoncée par l’AQPF tout en étant en mesure
d’évaluer les compétences établies par le MELS. Une analyse détaillée des tâches du
TFLM et des tâches du contexte enseignant (basées sur le référentiel du MELS, 2001) est
exposée dans la partie consacrée à la présentation des résultats (chapitre V). Nous verrons
alors si le TFLM a sa place comme partie intégrante du processus d’admission des deux
grandes universités francophones québécoises qui l’utilisent dans le but d’améliorer la
qualité de langue de ses diplômés.
S’il est clair qu’un des mandats du TFLM et des mécanismes de cours d’appoint
est d’améliorer le niveau de langue de tous les étudiants admis dans les programmes,
dont les enseignants en formation, l’épreuve pourrait aussi revêtir un deuxième rôle. En
effet, il faut savoir que depuis la réforme des programmes de formation en enseignement
instiguée par le Ministère de l’éducation du Québec (MEQ, aujourd’hui Ministère de
l’éducation, des loisirs et des sports, ou MELS) en 1994, les étudiants des programmes de
14
formation à l’enseignement doivent effectuer un nombre précis d’heures de stage
pratique, soit sept-cents heures minimum (MELS, Comité conseil sur la formation du
personnel enseignant, 2006). Cette expérience pratique de terrain exige une organisation
administrative lourde pour les facultés impliquées (Sciences de l’Éducation ou Lettres,
selon les spécialités) et mobilise énormément de ressources humaines et financières. Cet
investissement requiert donc un processus de sélection plus rigoureux visant à recruter
uniquement les meilleurs candidats, car les sommes dépensées dans l’organisation des
stages ne peuvent être justifiées que lorsque les étudiants obtiennent leur diplôme après
avoir connu un succès relatif tout au long de leur formation. À cause de cet aspect
financier lié aux stages, il faut que le test d’admission, le TFLM, puisse revêtir un
caractère prédictif, c’est-à-dire que les administrateurs des facultés responsables des
programmes de formation en enseignement doivent être en mesure de prédire le potentiel
de réussite des futurs étudiants au cours de leur cheminement universitaire menant au
diplôme du baccalauréat à partir des résultats qu’ils ont obtenus au TFLM.
On comprend dès lors que l’outil TFLM est d’une importance cruciale pour les
directions des facultés chargées d’administrer les programmes de formation à
l’enseignement. On peut donc se demander pourquoi, malgré ce constat et depuis sa
création, qui date maintenant d’une vingtaine d’années, aucune étude du TFLM, et encore
moins de sa validité prédictive (predictive validity), n’a été effectuée. Pourtant, la validité
prédictive des tests d’admission, en particulier lorsqu’il s’agit de tests à enjeux élevés,
comme dans notre contexte, est chose courante dans la littérature scientifique et
spécialisée (nous expliciterons cet aspect dans notre recension des écrits, chapitre III).
Cette lacune scientifique justifie donc à elle-seule le désir de procéder à l’étude entreprise
15
ici car, dans le contexte mentionné, il est primordial de s’assurer de la qualité intrinsèque
du test d’une part, mais plus important encore, de s’assurer de la solidité du jugement
porté par le test sur les compétences langagières qu’il évalue (ou est censé évaluer).
Comme il a été mentionné auparavant, les enjeux du test peuvent se révéler extrêmement
importants, tant pour les participants que pour la société en général. Nous parlons ici de la
formation et de la titularisation des futurs enseignants et donc du futur de nos écoles, de
nos enfants.
1.2 Contexte spécifique de l’étude
La présente étude a pour cadre l’Université Laval, au Québec. L’Université Laval
est la première université francophone du Québec. Cette université, située à Québec, la
capitale de la province du Québec, est la plus ancienne université francophone en
Amérique du Nord. Elle offre plus de 392 programmes d’études à quelque 44,000
étudiants inscrits dans 17 facultés. Elle emploie plus de 2500 professeurs et chargés de
cours et est très présente dans le monde avec plus de 600 ententes avec 443 universités
situées dans 64 pays6.
Les programmes qui nous intéressent, les programmes de formation initiale à
l’enseignement (baccalauréats) qui mènent à l’obtention du brevet en enseignement
délivré par le ministère de l’Éducation, sont au nombre de 10, sous la responsabilité de
deux facultés. La faculté des Sciences de l’éducation est responsable des baccalauréats en
enseignement de l’éducation sportive et de la santé, en enseignement du préscolaire et
primaire, en enseignement professionnel et technique, en enseignement français langue
d’enseignement (ou langue première), en enseignement des mathématiques, des sciences
6 http://www2.ulaval.ca/notre-universite.html
16
et des technologies, en enseignement de l’univers social (volet histoire et géographie), en
enseignement de l’univers social et du développement personnel (volet histoire éthique et
culture religieuse), alors que la faculté des Lettres est responsable entre autres des
programmes de formation en enseignement du français langue seconde et de l’anglais
langue seconde. Dans ces programmes de quatre ans et de 120 crédits universitaires, une
partie des crédits est allouée à des cours disciplinaires obligatoires, une autre à des cours
optionnels disciplinaires, une troisième à des cours optionnels hors-discipline, et une
dernière partie est allouée à des stages pratiques en milieu d’enseignement. L’annexe B
illustre la composition d’un des programmes en question, le baccalauréat en
enseignement du français langue seconde, tel qu’il était offert à l’Université Laval à
l’automne 2013.
À noter que ce programme représente bien tous les programmes de formation en
enseignement du Québec tels qu’ils sont structurés dans les universités francophones. En
effet, tous les programmes de formation initiale en enseignement doivent respecter un
cahier des charges bien précis et dicté par le Comité d’Agrément des Programmes de
Formation en Enseignement (CAPFE). Ce cahier des charges, disponible sur le site du
CAPFE7, décrit tous les détails et exigences faites aux universités quant à la structure des
programmes de formation en enseignement. On peut donc dire avec assurance que tous
les programmes de formation initiale en enseignement dans les universités francophones
québécoises sont similaires dans leur organisation et leur structure, car elles doivent
toutes respecter le cahier des charges dicté par le CAPFE.
7 http://www.capfe.gouv.qc.ca/
17
De plus, on peut considérer les étudiants des programmes de formation en
enseignement de l’Université Laval comme étant un échantillon représentatif de la
majorité des étudiants en éducation du Québec de par leur profil. En effet, le profil des
candidats montre une certaine homogénéité en ce qui touche le nombre de nouveaux
admis, leur origine (Cégep, étudiants provenant d’autres programmes de l’université,
candidats d’autres universités, candidats étrangers, candidats « adultes » (candidats
retournant aux études suite à une interruption de leurs études) ou de provenance mixte,
leur cote de rendement collégial (aussi appelée cote R), leur âge et leur sexe, comme il est
possible de lire dans le rapport d’état des lieux du programme en enseignement du
français langue seconde de 2011. À noter que la grande majorité des étudiants concernés
par le TFLM dans les programmes de formation en enseignement sont francophones ou
considérés comme tels. Si l’on devait dessiner un portrait général de l’étudiant en
enseignements au Québec aujourd’hui, nous aboutirions à l’image suivante : une
étudiante francophone âgée de 22 à 26 ans, dont l’inscription à un programme de
formation en enseignement est la première inscription à l’université et qui a reçu des
résultats satisfaisants pendant ses études collégiales avec une cote R située autour de 23.
À l’Université Laval, le TFLM est donc utilisé comme un test diagnostique
intégré au processus d’admission, c’est-à-dire que tous les étudiants désirant entrer dans
un programme de formation à l’enseignement sont obligés de le passer et que des cours
de mise à niveau leur sont imposés selon leurs résultats (voir annexe A, extrait des
exigences d’admission aux programmes de formation en enseignement, tiré du site Web
de l’université). Bien qu’un échec au test ne ferme pas les portes du programme aux
étudiants qui l’ont échoué, le TFLM n’en demeure pas moins un test à grands enjeux car,
18
selon leur résultat, les participants devront rallonger leur cheminement universitaire de
une à deux sessions (selon les cas) en prenant des cours de mise à niveau obligatoires, ce
qui engendrera des coûts supplémentaires pour ces étudiants en plus de rallonger leur
cheminement.
19
Tableau I.1 : Cheminement régulier des étudiants du baccalauréat en enseignement du français
langue seconde, Université Laval, Québec, automne 2014.
Date approximative
(à titre d’exemple)
Étapes du cheminement Numéro de session
Mars 2009 Demande d’admission Processus
d’admission
Avril – mai 2009 Offre d’admission
Mai 2009 Acceptation de l’offre par l’étudiant : session « répertoire » = première session d’inscription au programme
(ex : Automne 2009 = septembre 2009)
Août 2009
Passation du TFLM
Juste avant session
1
Dans les 24
premiers mois
suivant l’admission
sous peine
d’exclusion du
programme
(jusqu’à septembre
2011)
Résultat TFLM = 75% ou + : aucun
cours de mise à niveau nécessaire ;
cheminement « normal » (4 ans,
120 crédits)
Résultat TFLM = 60 à 75% : 1
cours de mise à niveau obligatoire
ET non contributoire
(cheminement alourdi : 120 crédits
+ 3 crédits de mise à niveau)
Résultat TFLM = 60% ou
moins : 2 cours de mise à
niveau obligatoires ET non
contributoires (cheminement
alourdi : 120 crédits + 6 crédits
de mise à niveau)
Session 1 à 4
Après réussite aux
cours de mise à
niveau éventuels
(septembre 2011 à
avril 2013)
Passation du TECFÉE : exigence
de diplomation ET obligatoire
avant de faire le stage III
Passation du TECFÉE : exigence
de diplomation ET obligatoire
avant de faire le stage III
Passation du TECFÉE :
exigence de diplomation ET
obligatoire avant de faire le
stage III
Session 5 à 8
Avril 2013 Diplomation Diplomation Diplomation Fin de
cheminement
(session 8)
Septembre 2013 Brevet du MELS et entrée sur le
marché du travail
Brevet du MELS et entrée sur le
marché du travail
Brevet du MELS et entrée sur
le marché du travail
20
1.3 Objectifs et usage du TFLM
Le TFLM est une épreuve diagnostique de connaissance linguistique utilisée dans
le processus d’admission par de nombreux programmes de formation universitaire, dont
les programmes de formation initiale en enseignement. Tous les candidats à l’admission
dans un de ces programmes dans les deux universités québécoises qui utilisent le TFLM,
soient l’Université Laval et l’Université de Montréal (et ses établissements affiliés),
doivent s’y soumettre (voir annexe A pour les détails relatifs aux procédures de passation
du test stipulées dans les conditions d’admission de l’Université Laval, Québec). Dans les
programmes de formation initiale en enseignement de l’Université Laval, par exemple,
les étudiants doivent suivre un, deux, ou aucun cours de mise à niveau en français selon
leurs résultats au TFLM (voir tableau I.1, page 19, pour un aperçu du cheminement
régulier de tous les étudiants de ces programmes dans cette université). Dans le contexte
des programmes de formation initiale en enseignement, le TFLM a deux buts déclarés :
premièrement, sélectionner les meilleurs candidats et leur permettre de poursuivre le
cheminement régulier, et deuxièmement, diagnostiquer le niveau de français des
candidats les plus faibles, leur imposer des cours « correctifs », soit de mise à niveau,
selon leurs résultats, dans l’optique d’aider ces candidats moins performants à améliorer
leur compétence langagière et ainsi être en mesure de suivre et réussir les cours du
programme visé en plus de les préparer au Test de Certification en Français Écrit pour
l’Enseignement (TECFÉE) que tous les enseignants du Québec doivent réussir avant
d’obtenir leur brevet d’enseignement, décerné par le MELS.
Dans la partie suivante, nous présenterons les modalités matérielles, logistiques
ainsi que des exemples du contenu des tâches du TFLM.
21
1.4 Modalités, contenu et tâches
Dans les lignes qui suivent, nous décrirons brièvement les modalités, le contenu et
les tâches du TFLM. Tous les renseignements qui suivent ont été recueillis dans les
documents officiels des universités concernées ou proviennent de documents internes
auxquels le chercheur a eu accès. Un des concepteurs du TFLM a aussi apporté
énormément, notamment en fournissant des exemples concrets d’items qui constituent le
TFLM (voir annexe F).
Les candidats au TFLM disposent de 90 minutes pour compléter l’épreuve. Aucun
document de référence (dictionnaire, Bescherelle, grammaire française) n’est autorisé
pendant l’épreuve.
Pour la plupart des programmes qui utilisent le TFLM, la note de passage est de
60%. Dans certains programmes de formation en enseignement à l’Université Laval, la
note de passage au test est de 75% (enseignement du français langue seconde ou
maternelle, éducation physique, musique, enseignement secondaire ou enseignement
préscolaire et primaire). Certaines différences sont apparues au cours des années afin de
refléter l’usage que les futurs enseignants devront faire de la langue. C’est pour cela, par
exemple, que la note de passage pour le baccalauréat en enseignement de l’anglais langue
seconde a été revue à la baisse (60%).
22
Tableau I.2 : Modalités du TFLM et dispositif selon la note obtenue dans deux universités
québécoises utilisant le test
Éléments du TFLM Université Laval Université de Montréal
Nombre d’items du TFLM
65 66
Temps alloué pour le test
90 minutes 90 minutes
Note de passage 60% pour la majorité des programmes ;
75% pour les programmes de formation à
l’enseignement, sauf le baccalauréat en
enseignement de l’anglais langue
seconde.
60%, tous programmes
confondus
Dispositif si échec (pour les
programmes en enseignement)
Note obtenue comprise entre 60% et
74% : 1 cours correctif non contributoire
à réussir ;
Note obtenue inférieure ou égale à 59% :
2 cours correctifs de français non
contributoires à réussir.
Note obtenue inférieure ou
égale à 59% : 1 cours
correctif de français non
contributoire à réussir
À l’Université Laval, le test est composé de 65 questions à choix multiples. Il y en
a 66 à l’université de Montréal. Cette différence s’explique par le désir de l’Université
Laval d’éliminer les questions soulevées par certains résultats très proches de la note de
passage selon le nombre de réponses correctes et après la conversion en pourcentage. En
effet, si un candidat obtient un résultat de 39 réponses correctes sur 66, sa note sera de
59,05%, ce qui paraissait aux administrateurs du test un résultat trop proche de la note de
passage pour prendre une décision sans équivoque. En réduisant le test d’un item, le
problème disparait (39 réponses correctes sur 65 se convertit en 60%, donc la note de
23
passage, alors qu’un résultat de 38 sur 65 devient 58,5%, moins sujet à discussion ou
réclamation de la part des candidats)8.
Chaque item est composé d’une question à choix multiple pour lequel le candidat
doit, selon la consigne, identifier l’énoncé correct ou l’énoncé incorrect. De plus, outre
les quatre choix de réponse offerts, chaque choix de réponses est complété par une
cinquième option (réponse E) qui stipule soit que tous les énoncés sont corrects, soit
qu’ils sont tous erronés.
Dans les deux universités qui l’utilisent, le contenu du test est divisé comme suit :
Tableau I.3 : Contenu du TFLM
Partie de l’épreuve Exemple de question
Contenu du test (note : dans une des
parties du TFLM à
l’Université de Montréal, il y a une
question de plus. Il
a été cependant impossible de
savoir laquelle).
Orthographe lexicale (orthographe et homonymes)
4 questions
Ex : Rayez l’énoncé incorrect :
A : Je marche rapidement.
B : Le chien aboie méchament. C : Mes parents m’encouragent allègrement.
D : Tu parles trop vite.
E : Tous les énoncés sont corrects.
Orthographe grammaticale (accord de
l’adjectif, accord des mots quelque, tout,
même et tel, accord du verbe et du participe passé)
24 questions
Rayez l’énoncé incorrect :
A : Marie a envoyé des fleurs à sa mère.
B : Les amis à qui Jean a parlés l’ont rappelé. C : les amis à qui Marie a parlé l’ont rappelée.
D : Mon chien a dévoré la perruche du voisin.
E : Tous les énoncés sont corrects.
Morphologie
(genre et pluriel de certains noms, conjugaison)
5 questions
Rayez l’énoncé incorrect :
A : Le loup hurle à la lune. B : Les amis de Jean lui envoyent des souhaits chaque année.
C : Je regrette, mais cela ne sera pas possible.
D : Vous connaissez cette personne? E : Tous les énoncés sont corrects.
Syntaxe
(emploi des auxiliaires, des modes et des
temps, emploi du pronom relatif et de la conjonction de subordination,
structure de la phrase, négation et
interrogation, ponctuation) 13 questions
Rayez l’énoncé incorrect :
A : Je suis monté à l’étage.
B : J’ai monté la télévision à l’étage. C : J’ai descendu à la cave.
D : J’ai descendu les escaliers.
E : Tous les énoncés sont corrects.
Vocabulaire
(anglicismes, mots-liens, emploi de la préposition,
connaissance du vocabulaire)
19 questions
Rayez l’énoncé incorrect :
A : Le chanteur a un rhume ; cependant, il a annulé son spectacle.
B : Le chanteur a un rhume ; il a malgré cela annulé son
spectacle. C : Le chanteur a un rhume ; il a donc annulé son spectacle.
D : Le chanteur a un rhume ; nonobstant, il a annulé son
spectacle. E : Tous les énoncés sont corrects.
8 Ces informations nous ont été confiées par un des concepteurs du TFLM lors d’entrevues réalisées entre
2012 et 2014.
24
Dans les programmes de formation en enseignement des deux universités
concernées, la passation du TFLM doit se faire obligatoirement dans les vingt-quatre
mois qui suivent l’admission au programme (voir tableau I.1, page 19, pour une vue
d’ensemble du cheminement général des étudiants en enseignement). La plupart du
temps, cette passation a lieu avant la première session d’études afin de permettre à
l’étudiant d’ajuster son cheminement selon les résultats obtenus au test. En effet, comme
le tableau I.1 le montre bien, après leur passation du TFLM, les étudiants des
baccalauréats en enseignement se retrouvent dans trois catégories : dans la première se
trouvent les étudiants qui ont réussi le test avec un score supérieur à 75%. Pour ceux-là,
le cheminement reste inchangé et ils peuvent poursuivre leurs études selon le plan
original. La deuxième catégorie est composée des étudiants qui n’ont pas échoué le test à
proprement parler, mais qui n’ont pas obtenu le niveau seuil de 75% : ils ont donc obtenu
une note située entre 60% et 74%. Ces étudiants devront ajouter un cours non
contributoire à leur cheminement (soit le cours de français correctif FRN-1904 à
l’Université Laval) dans les 24 mois suivant leur admission au programme. À noter ici
que ce cours supplémentaire force les étudiants à parfois rallonger leur cheminement
d’une session et occasionne ainsi des dépenses supplémentaires en termes de frais de
scolarité, de crédits universitaires, d’ouvrages de référence, etc. Le troisième et dernier
cas de figure concerne les étudiants qui ont échoué le TFLM, c’est-à-dire ceux qui ont
obtenu une note inférieure ou égale à 59%. Ceux-là se voient imposer deux cours de mise
à niveaux en français, toujours avec l’obligation de les réussir dans les 24 mois suivant
leur admission, rallongeant d’autant plus leur cheminement et augmentant leurs dépenses.
25
À noter qu’à l’Université de Montréal, la note de passage est fixée à 60% et que
les cours de mise à niveau ne s’adressent qu’aux étudiants qui n’ont pas atteint cette note
minimale. À l’Université Laval, le niveau considéré comme minimal est 75% dans les
programmes de formation en enseignement puisque les candidats qui obtiennent entre 60
et 74% doivent suivre un cours de mise à niveau.
Les questions qui composent le TFLM portent uniquement sur le code
linguistique. Les habiletés langagières orales ou écrites ne sont pas évaluées. Les
candidats ne doivent pas non plus prouver leur capacité d’analyse de texte, de
compréhension de l’information, de reformulation, d’organisation ni aucune compétence
reliée au discours, oral ou écrit. En fait, le TFLM est basé sur les acquis grammaticaux,
lexicaux et morphosyntaxiques que devrait posséder un élève titulaire de son diplôme
d’études secondaires du programme de l’école québécoise à l’époque de la conception du
TFLM (1990-1994). Ces objectifs ont été déterminés en prenant comme références les
contenus du programme de l’école québécoise au niveau secondaire en français langue
maternelle ainsi que plusieurs ouvrages de français langue maternelle utilisés dans les
écoles secondaires de la province à cette époque. Ainsi, les besoins langagiers particuliers
des diverses filières professionnelles auxquelles les formations visées correspondent, que
ce soit l’ingénierie, l’enseignement ou la médecine, n’ont pas été prises en compte lors de
la conception du TFLM. Aucune procédure d’évaluation des besoins langagiers
(language needs assessment) des étudiants dans les programmes de formation en
enseignement n’a été effectuée avant la conception du TFLM. Donc, au pire, les éléments
linguistiques incorporés au TFLM ont été choisis au hasard, et au mieux, les meilleures
estimations ont été retenues. Le contenu du TFLM ne correspond donc à aucun usage
26
particulier de la langue cible (Target Language Use, ou TLU ci-après, Bachman, 1990)
ou à une langue à objectif spécifique (language for specific purposes, ci-après LSP).
Les tâches qui composent le TFLM ont été basées sur les acquis antérieurs
attendus chez étudiants qui postulent à l’entrée dans les programmes visés. Donc, et il est
important de le noter, le TFLM évalue seulement la compétence linguistique attendue au
début du cheminement des étudiants. Nonobstant ce constat, le fait que le test soit utilisé
comme test d’admission pour les programmes de formation initiale en enseignement, qui
constituent le contexte de notre étude, signifie que trois dimensions supplémentaires
devraient être reflétées dans les tâches qui composent le TFLM : d’une part, les contenus
linguistiques présents dans les contenus des cours qui composent les programmes qui
l’utilisent comme test d’admission devraient être évalués, car c’est bien de cet usage de la
langue dans un contexte particulier dont il est question pour les étudiants concernés ;
d’autre part, le test devrait correspondre aux exigences linguistiques de la profession
enseignante, dans une moindre mesure, peut-être, puisque le TECFÉE est censé
sanctionner cette compétence spécifique, mais l’usage de la langue cible dans son
contexte professionnel devrait tout de même constituer une partie significative de
l’épreuve d’admission utilisée pour les programmes de formation en enseignement.
Il est donc important d’examiner les contenus linguistiques des cours des
programmes de formation à l’enseignement et de les confronter aux tâches du TFLM,
puis il revient d’analyser et de définir les besoins langagiers de la tâche des enseignants
en exercice et de les comparer au contenu langagier présent dans les tâches qui
composent le TFLM. Finalement, étant donné les mécanismes mis en place et qui font
suite au TFLM selon les résultats obtenus pour chacun des candidats (cours de mise à
27
niveau), il convient d’examiner les contenus de chacun de ces cours et de les comparer
aux tâches du TFLM. Cette quadruple analyse est décrite en détail dans le chapitre IV
(méthodologie) et les résultats sont présentés dans le chapitre V (présentation des
résultats et discussion).
1.5 Questions de recherche
Le but de la présente recherche est d’analyser la validité prédictive du TFLM
l’utilité réelle des mécanismes qui découlent des résultats au TFLM dans le contexte des
universités francophones québécoises afin de vérifier la pertinence de son utilisation
comme test d’admission à des programmes de formation en enseignement. En plus de ces
deux éléments, nous tenterons d’établir les perceptions qu’ont les étudiants au sujet du
TFLM. Afin d’atteindre ces objectifs, l’étude devra apporter des éléments de réponse
significatifs aux questions de recherche suivantes :
1. Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un
baccalauréat en enseignement dans les universités francophones du Québec?
2. Les cours de mise à niveau ont-ils un impact significatif sur la réussite des
étudiants obligés de les suivre selon le résultat obtenu au TFLM?
3. Comment les participants perçoivent-ils le TFLM et les cours de mise à
niveau?
Dans les prochains chapitres, nous présentons tout d’abord les théories sous-
jacentes à notre étude. Par la suite, nous décrivons un certain nombre d’études passées
qui traitent de la validité prédictive dans des contextes variés. Par la suite, nous
présentons la méthodologie de cette étude, puis les résultats obtenus par le biais de cette
méthodologie, lesquels résultats sont discutés immédiatement après. Finalement, nous
28
apportons nos conclusions et établissons les limites de notre recherche. Le prochain
chapitre sera donc entièrement consacré à des explications théoriques et conceptuelles en
lien avec le domaine de l’évaluation des langues.
29
CHAPITRE II : CADRE THÉORIQUE
L’objet d’étude de la présente recherche, soit la validité prédictive du TFLM, nous
amène à utiliser deux concepts particuliers expliqués dans deux cadres conceptuels
distincts, soit la théorie de la validité, premièrement, et le modèle de compétence
communicative, deuxièmement. Le concept de validité sera décortiqué et ses différentes
facettes expliquées tour à tour. Puis, l’évolution du concept au cours des cinquante
dernières années sera décrite. Ensuite, nous pourrons restreindre le concept de la validité
à son utilisation en évaluation des langues et définir la conception de la validité retenue
pour cette recherche au regard des écrits les plus récents. Cette définition nous amènera à
décrire plusieurs concepts supplémentaires importants et directement reliés à la
conception choisie, soit l’utilisation de la langue cible (Target Language Use (TLU)
context) ainsi que l’utilité des tests (test usefulness). Ces considérations théoriques nous
permettront de justifier la conception de validité retenue pour cette étude. Ensuite, nous
aborderons la théorie de la compétence communicative et décrirons plusieurs modèles
pour finalement spécifier celui que nous utiliserons afin de jeter la lumière sur les
éléments de compétence langagière générale mesurés par le TFLM par rapport aux
éléments qui devraient être mesurés par le biais d’un tel test.
2.1 Définition de la validité : Approche traditionnelle
Dans les Standards for Educational and Psychological Testing (ci-après,
Standards), le concept de la validité est défini de la manière suivante : « Validity refers to
the degree to which evidence and theory support the interpretations of test scores entailed
by proposed uses of tests. » (1999, p. 9). Cette définition renferme de nombreux éléments
importants qui seront définis et explicités dans les paragraphes suivants, mais à la lecture
30
de cette dernière, on peut d’ores et déjà comprendre que la validité n’est pas un concept
simple ou unidimensionnel. Il faut donc se pencher en détail sur ce concept afin d’en
saisir toutes les dimensions. De plus, il est indiqué dans les Standards (p. 9) que la
validité est « the most fundamental consideration in developing and evaluating tests »,
soit l’aspect le plus important à prendre en considération lors de la conception d’un test et
qu’elle reste centrale dans tout processus d’évaluation de test.
L’idée avancée dans la définition fournie dans les Standards est qu’un certain
nombre de preuves liées à des aspects théoriques clairs soutiennent la justesse des
décisions prises sur la base des résultats à un test donné dans un contexte spécifique.
Dans la littérature spécialisée, que ce soit en mesure et évaluation psychologiques
(Cronbach & Meehl, 1955) ou langagières (Brown, 1983) (car le concept de validité est
applicable à tous les types de test, pas seulement les tests langagiers), on considère trois
types de preuves majeures et observables dans le processus de validation d’un test : les
preuves liées au(x) construit(s) du test (construct validity), les preuves liées au contenu
du test (content validity) et enfin les preuves liées à un critère externe au test (criterion-
related validity). Bien qu’elles aient évolué depuis, ce sont les conceptions traditionnelles
de ces trois types de preuves, formant ensemble une conception tripartite de la validité,
qui seront présentées à présent.
La validité de construit (ou conceptuelle, ou théorique) constitue un aspect
prépondérant dans la définition du concept. Il s’agit littéralement de la base du processus
de validation de tout test. Cronbach et Meehl (1955) définissent un construit comme un
attribut, une caractéristique, que l’on peut retrouver chez une personne et que le test est
censé mettre en relief. Messick (1975), de son côté, le définit selon les termes suivants :
31
« A measure [that] estimates how much of something an individual displays or possesses.
The basic question [in construct validation] is: What is the nature of that something? » (p.
957, crochets ajoutés). Selon ces deux définitions, la validité de construit réfère donc à la
relation entre la manifestation opérationnelle d’un comportement et les concepts
théoriques sous-jacents à la manifestation du comportement. Sous cette définition
complexe se cache en fait un principe relativement simple : les traits, compétences,
habiletés ou connaissances recherchées (appelés généralement comportements) et
sollicités dans un test donné ne sont malheureusement pas toujours directement
observables, contrairement à d’autres qualités ou traits d’une personne et il n’est possible
de les déceler (et ainsi de les évaluer) qu’en provoquant leur mise en action par le biais de
tâches spécifiquement conçues dans cette optique. C’est donc en opérationnalisant les
théories qui déterminent ces comportements qu’il est possible de les évaluer. En d’autres
termes, pour être capable de mesurer un construit, il faut, par le biais d’une tâche
spécifique, faire en sorte que le sujet (participant) soit forcé d’utiliser ce construit. Le
degré de réussite à la tâche devrait ainsi permettre aux évaluateurs de mesurer
précisément la présence (ou l’absence) du construit ciblé. Pour imager les traits
mesurables ou non mesurables, pensons à un individu quelconque. Il est facile de mesurer
ou observer sa taille, son poids, sa pointure ou la couleur de ses yeux, mais il est
beaucoup plus difficile de mesurer son intelligence, son émotivité, son empathie, car ce
ne sont pas des qualités observables. Il s’agit donc de concevoir des tâches censées
permettre l’opérationnalisation de l’intelligence et donc sa mise en évidence mesurable.
En évaluation des langues, afin de mesurer la compétence de production orale, par
exemple, la tâche proposée dans le test doit provoquer les manifestations de la production
32
orale, qui peuvent se diviser en une multitude d’indices (ou évidences) et qui attesteront
de la présence et du degré de compétence chez le sujet évalué en production orale. Il est
néanmoins important de souligner que les résultats au test devraient en principe donner
les informations nécessaires (et uniquement les informations nécessaires) à une mesure
juste et efficace.
À noter que la validité de construit est tributaire d’une multitude de variantes et
qu’elle doit être considérée en contexte. La validité de construit doit donc être évaluée en
tenant compte de toutes les caractéristiques qui entourent le test, soit les participants,
l’environnement, le but du test, les décisions qui seront prises à partir des résultats, etc.
Ces aspects seront repris et développés dans les pages suivantes, dans la partie décrivant
l’évolution du concept de validité. À noter aussi que cette conception tripartite de la
validité place la validité de construit au même rang que les deux autres types de validité,
soit la validité de contenu et la validité critérielle, définies tour à tour dans les lignes qui
suivent.
La validité de contenu (content validity), soit le deuxième type de validité dans
cette conception trichotomique, correspond au degré de représentativité des items du test
par rapport à la teneur des tâches visées dans le domaine visé par les tâches du test
(Bachman, 1990). Bachman (1990) distingue deux sous-catégories de validité de contenu,
soit la pertinence de contenu (content relevance) et la couverture de contenu (content
coverage).
La pertinence de contenu relève de la correspondance entre les items du test et les
tâches correspondant au domaine TLU dans lequel s’inscrit le test analysé. Messick
(1980) établit que l’étude de la pertinence de contenu exige « the specification of the
33
behavioral domain in question and the attendant specification of the task or test domain »
(p. 1017). Pour étudier la pertinence de contenu, il faut donc circonscrire les éléments
nécessaires à l’accomplissement de la (ou les) tâche(s) qui correspondent au TLU visé.
Ceci signifie que les tâches d’un test doivent forcément correspondre à un certain
contexte, et donc qu’un test ne peut pas forcément être utilisé dans tous les contextes.
La couverture de contenu, elle, réfère au degré de représentativité des tâches
demandées : les tâches peuvent correspondre au domaine visé de manière suffisante, ce
qui est attendu, ou elles peuvent être sous- ou surreprésentées par les items du test. Dans
les deux derniers cas de figure, le test souffrira d’un manque de validité de contenu car
les tâches ne seront pas assez représentatives du domaine visé (Bachman, 1990). Par
exemple, un test censé évaluer les compétences d’un comptable devrait être constitué
d’un échantillon des tâches qu’un comptable aura à effectuer dans sa future profession.
Un examen pour les futurs pilotes devrait placer les candidats dans une situation plausible
pour un pilote, etc. Un test dont les items n’auraient que peu de lien avec les tâches
réelles souffrirait d’une validité de contenu faible, ce qui poserait alors de graves
questions sur l’usage qui en est fait dans un contexte spécifique. Dans le domaine de
l’évaluation des langues, il est d’autant plus difficile de définir complètement, de manière
exhaustive et sans ambiguïté, l’éventail des habiletés langagières nécessaires dans un
domaine donné. Il est de ce fait difficile, comme nous le rappelle Bachman (1990),
d’évaluer la validité de contenu des tests de langues, que ce soit au niveau de la
pertinence ou de la couverture. Il est aussi à noter que la validité de contenu correspond
aux tâches du test, et non aux réponses aux tâches, c’est-à-dire que la validité de contenu
a plus de liens avec la conception des tâches du test en question qu’avec les résultats (ou
34
notes) des candidats à celui-ci. Afin de valider le contenu d’un test, la méthode
généralement utilisée est d’analyser les tâches individuellement, d’analyser ensuite
l’ensemble des tâches par des juges-experts, puis finalement de procéder à un accord
inter-juges (Hughes, 2003).
Pour récapituler, Brown (1983) présente les définitions suivantes pour les deux
types de validité décrites ci-dessus, soit la validité de construit et la validité de contenu :
Construct validity studies provide evidence as to the nature of the trait or
characteristics measured; thus they are appropriate when defining
construct or when a test is used as a sign. Content validity studies
determine whether the test items representatively sample the domain of
interest; thus they are appropriate when a test serves as sample. (p. 98)
Selon Brown, la validité de contenu établit donc le degré de correspondance
existant entre les tâches du test (test items) et les tâches qui caractérisent le domaine pour
lequel le test est utilisé. En fait, Brown parle d’échantillonnage du domaine TLU à travers
les tâches qui composent le test : si les tâches constituent un échantillon pertinent des
tâches du domaine, alors il est justifié d’utiliser ce test dans le contexte.
À ces définitions, Brown en ajoute immédiatement une troisième en deux parties :
« Criterion-related validity studies investigate how well test scores correlate with some
external behavior; thus they are appropriate when using a test as a predictor. » ce qui
signifie qu’une étude de la validité critérielle est basée sur une comparaison entre le test
et un critère extérieur. C’est en fait ce dernier type de preuve, les preuves liées à la
validité prédictive des tests, qui nous intéresse particulièrement, car il est l’objet de notre
étude. Bien que nous n’utilisions pas la conception tripartite de la validité (soit validité de
construit, de contenu et critérielle comme trois entités séparées), il est important de
35
s’attarder quelques instants sur le concept tel qu’il était considéré par Brown (1983) ou
d’autres chercheurs de l’époque (Hughes, 1989 ; Oller, 1979).
La validité critérielle réfère donc à la comparaison statistique corrélationnelle
entre les résultats obtenus lors d’une épreuve cible et une autre source de données,
externe au test analysé, que l’on appelle le critère. À noter que si Brown ne touche qu’à
un seul type de validité critérielle (prédictive), il en existe pourtant deux (Henning,
1987) : la validité concourante (concurrent validity) et la validité prédictive (predictive
validity). La première, la validité concourante (ou plutôt les preuves qu’elle produit)
provient de la comparaison entre les résultats à un test et un critère simultané, c’est-à-dire
dont les résultats sont issus d’une autre mesure qui a lieu en même temps que l’épreuve
visée. On peut donc, par exemple, comparer le score à un test conçu et fabriqué par un
enseignant au score à un autre test passé à la même période et qui a déjà fait l’objet d’un
processus de validation. Comme l’explique Hughes (1989), les preuves de validité
concourante peuvent s’avérer très utiles dans certains cas où les modalités des tests sont
problématiques. Dans l’exemple qu’il décrit, il s’agit de réduire le temps dédié à un test
de production orale de 45 minutes à 10 minutes par candidat afin de faciliter la logistique
et l’organisation du test. La validité concourante est alors évaluée afin de s’assurer que la
version courte du test a conservé la validité de sa version intégrale en comparant les
résultats d’un échantillon de candidats aux deux versions. Si les résultats sont fortement
corrélés, on peut dire que les deux tests sont aussi valides l’un que l’autre. Si la version
courte produit des résultats radicalement différents de la version intégrale, cela signifie
que la validité critérielle n’est pas prouvée et qu’il se peut que d’autres types de validité
(de contenu, par exemple) aient été affectés par la transformation de la version intégrale.
36
Hughes rappelle cependant que, bien que le critère puisse être totalement différent dans
sa forme de l’épreuve analysée (un jugement de la part d’un enseignant, par exemple), il
est primordial de s’assurer de la validité du critère avant de l’utiliser. Cela signifie que les
études de la validité critérielle, concourante ou prédictive, doivent obligatoirement suivre
un processus de vérification approfondi du critère utilisé (Hughes, 1989). Si cette
opération n’est pas rigoureusement accomplie et respectée, les résultats engendrés par
l’analyse critérielle ne peuvent pas être considérés assez solides pour une prise de
décision éclairée.
Quant au deuxième type de validité critérielle, soit la validité prédictive, il
implique l’analyse du degré de corrélation entre les résultats à un test précis et un critère
ultérieur. Par exemple, on peut comparer le score obtenu à un test à la note finale d’un
cours suivi après la passation du test, ou à la moyenne cumulative à la fin de la scolarité,
ou encore, à la réussite professionnelle des participants au test après plusieurs années. Le
critère est donc ultérieur au test, et si corrélation il y a, le test devient un moyen de
prédire le degré de réussite des candidats au critère ultérieur sélectionné. Ce type de
validité est souvent utilisé afin de valider un test d’admission à différents programmes
d’études ou de formation. Cependant, il faut agir avec beaucoup de précaution dans le
choix du critère : celui-ci doit déjà avoir subi une évaluation afin de vérifier sa validité,
sinon, la validité prédictive reposera sur des éléments dont la justesse et la validité sont
fragiles (Hughes, 1989). De plus, et cet aspect sera développé plus loin, une évaluation de
la validité prédictive seule n’est jamais suffisante à la validation d’un test, dans un
contexte donné. Malheureusement, et en particulier dans des situations où le coût des
tests est un enjeu important, la validité prédictive seule est souvent examinée, ce qui
37
entraine une simplification des tests utilisés, ce qui à son tour a un effet sur le contenu du
test utilisé, pour finalement avoir une influence souvent néfaste sur sa validité globale.
Par ailleurs, comme le rappelle Hughes, les coefficients statistiques qui ressortent des
analyses corrélationnelles de la validité prédictive s’élèvent très rarement au-dessus de
0,4, ce qui représente un rapport de 20% seulement entre le test et le critère sélectionné,
ce qui peut paraitre bas (Hughes, 1989). On peut donc légitimement se poser la question
de savoir si des décisions prises sur la base de résultats aussi peu éclatants sont sages,
surtout si l’on considère que les décisions prises sur des bases aussi fragiles peuvent avoir
un impact important sur la vie des candidats : pensons à un test de placement, par
exemple, qui engendrerait des placements erronés pour les candidats de sorte qu’ils
abandonnent le programme entamé ou, encore plus grave, un test d’admission qui
refuserait des candidats qui auraient été aptes à réussir ou qui accepterait des candidats
qui n’ont que peu, voire aucune, chance de succès. De telles conséquences peuvent
s’avérer dévastatrices, autant pour les candidats que pour les institutions qui utilisent des
tests qui ne remplissent aucunement leur fonction de prédicteur, pourtant « confirmée »
par une analyse de validité prédictive erronée.
2.2 Évolution historique du concept de validité
D’un point de vue historique, le concept de validité remonte au début des
recherches dédiées à l’évaluation, en particulier dans le domaine de la mesure et de
l’évaluation en psychologie. Lorsque Lado (1961) a écrit : « Validity is essentially a
question of relevance. Is the test relevant to what it claims to measure? Does it measure
what it is supposed to measure? If it does, it is valid » (p. 321), l’auteur, considéré comme
un pionnier dans le domaine, a mis en lumière un point majeur propre à l’époque et qui a
38
changé depuis : la validité était considérée comme une qualité inhérente au test. De plus,
le chercheur a associé la validité à un autre trait important (et qui a aussi connu de
nombreuses mutations), la fidélité (reliability), une qualité intrinsèque des tests mais
distincte et préalable à la validité. Cette perspective, longtemps discutée puis décriée
(Brown, 1983), a cependant été relayée au cours des années 1970 par de nombreux autres
chercheurs qui considéraient la fidélité comme une preuve de validité. Pour Oller (1979),
par exemple, le processus de validation devait forcément passer par des preuves de
fidélité en établissant des corrélations significatives entre les résultats d’un test donné et
les résultats d’un même échantillon à d’autres tests du même ordre. C’est effectivement
ce qu’il a avancé en 1979 en écrivant que « the ultimate criterion for the validity of
language tests is the extent to which they reliably assess the ability of examinees to
process discourse. » (p. 406, italiques ajoutées).
Cette conception « corrélationnelle » de la validité était d’usage tout au long des
années 1970. Vers la fin de la décennie et au tout début des années 1980, cependant,
certains chercheurs (Palmer et al, 1981, par exemple) ont commencé à se poser des
questions, donnant ainsi lieu à une réflexion plus générale, en particulier sur le processus
de validation et l’importance du construit dans ce processus.
Cette réflexion s’est développée dans les années 1980 par le biais de plusieurs
auteurs, chacun apportant sa contribution à un concept en mutation. De nouvelles facettes
liées au processus de validation de tests langagiers ont alors fait leur apparition, telles que
la validité de réponse (response validity) et la division de la validité critérielle en deux
parties selon un critère temporel lié au critère choisi (validité prédictive ou concourante)
par Henning (1987). Quand il écrit que « a test may be valid for some purposes but not
39
for others » (1987, p. 89), Henning établit aussi que la validité peut être liée à des
éléments extérieurs au test lui-même, le contexte et les conséquences des décisions prises
à partir des résultats des participants, en particulier. Hughes (1989), suivi d’Alderson et
Wall (1993), entre autres, apporte quant à lui l’idée de Backwash910, soit l’influence que
le test peut avoir sur l’enseignement et l’apprentissage, alors que Canale (1987) se
concentre sur la dimension éthique de l’évaluation des langues, soit les conséquences
sociales qui découlent des tests et des décisions prises sur la base des scores à un test
donné.
Les années 1980 ont ainsi été fécondes en nouvelles pistes d’études et ont ouvert
la voie à des réflexions plus poussées et sophistiquées sur le concept de validité jusqu’à
un tournant décisif, à la toute fin de la décennie. En 1989, Messick publie son article
simplement intitulé « Validity » qui va bouleverser l’ordre plus ou moins établi. Le
concept de validité, jusque-là tripartite (de construit, de contenu et critérielle), devient un
concept unifié autour de l’idée de validité de construit et au sein duquel les deux autres
types de validité (de contenu et critérielle) deviennent des méthodes d’analyse adjuvant le
processus de validation. La validité de construit prend ainsi le pas sur les deux autres
types de validité comme aspect principal à considérer dans la conception et dans l’analyse
de tout test. Cette idée de prépondérance de la validité de construit est introduite dès 1980
et renforcée en 1989 par Messick lorsqu’il propose l’idée d’un cadre unifié de la validité :
[A unified framework of validity that] forestalls undue reliance of selected
forms of evidence, that highlights the important though subsidiary role of
9 Le terme washback est généralement utilisé dans la littérature spécialisée malgré l’invention du terme
Backwash par Hughes en 1989. 10 Dans cette étude, les termes « washback » et « impact » sont utilisés de manière interchangeable. Le
concept est considéré à l’intérieur de la notion théorique de validité de conséquence (consequential validity)
et comme faisant partie de la conception plus large et unifiée de la validité des tests (Messick, 1989, 1996)
40
content- and criterion-related evidence in support of construct validity in
testing applications, and that formally brings considerations of value
implications and social consequences into the validity framework. (1989,
p. 20)
Dans cet article fondamental, Messick (1989) prône non seulement la
prépondérance et la position centrale de la validité de construit dans le processus de
validation, la plaçant au-dessus des deux autres types (validité de contenu et validité
critérielle), mais aussi soutient que les conséquences mêmes du test, soit les jugements de
valeur qui font suite au test et les conséquences sociales engendrées par les décisions
prises sur la base des résultats au test, font aussi partie intégrante de la validité de
construit et qu’elles doivent être considérées comme telles. Le processus de validation
d’un test ne doit donc pas se limiter à analyser le test pour lui-même uniquement, mais
plutôt à procéder en plus à une analyse des décisions prises au regard des résultats au test
dans un contexte spécifique et des conséquences de ces décisions pour tous les
participants ainsi que pour la société en général.
Le tableau II.1 récapitule la considération conceptuelle avancée par Messick dès
1980 et reprise en 1989. Dans ce tableau, il est clairement établi d’une part que la validité
de construit est la dimension centrale du processus de validation, et d’autre part que le
concept même de validité doit être compris comme une entité à facettes multiples.
Tableau II.1 : Facettes de la validité (Messick, 1989, p. 20)
Functions of outcome of testing
Source of justification Test interpretation Test use
Evidential basis Construct validity Construct validity +
relevance / utility
Consequential basis Construct validity + value
implications
Construct validity + relevance /
utility + value implications
41
Cette définition de la validité est donc plus complexe et plus unifiée que la
conception traditionnelle trichotomique car non seulement elle tient compte des
caractéristiques du test lui-même et des décisions qui en découlent, mais aussi de ses
conséquences au sens plus large, soit les conséquences sociales et en termes de valeurs,
toujours liées au contexte dans lequel s’inscrit le test à valider. Messick intègre donc des
dimensions supplémentaires au processus de validation des tests, dimensions qui touchent
à la fois les utilisateurs des tests (candidats et décideurs) mais aussi la société en général,
ce qui élargit encore la portée et l’importance des jugements et décisions prises sur la
base de résultats obtenus aux tests. De plus, Messick établit son modèle comme une
« Matrice Progressive » (« Progressive Matrix ») et souligne que le processus doit être
perçu comme un processus continu (« on-going process ») dont l’objectif est de récolter
un maximum de preuves d’une multitude de sources différentes.
Dans son ouvrage de référence publié en 1990, Bachman reprend et explicite cette
idée que la validité est un concept unifié et qui doit être considéré comme une entité dont
les différentes composantes ne peuvent être avancées seules comme preuves uniques dans
un processus de validation. Selon Bachman, qui s’inspire fortement des théories énoncées
par Messick et qui en profite pour souvent les clarifier en utilisant un vocabulaire plus
accessible aux non-initiés, « it is only through the collection and interpretation of all
relevant types of information that validity can be demonstrated. » (Bachman, 1990, p.
237). D’après Bachman, il est donc clair que la validité doit être vue comme un tout,
défini par des éléments individuels, certes, mais qui ne peuvent supporter ni apporter la
preuve complète et suffisante de la validité lorsqu’ils sont isolés. Il faut donc, afin
d’évaluer la validité d’un test dans un contexte particulier, procéder à la recherche et à
42
l’analyse de tous les types de preuves disponibles sans se limiter à un seul, sinon,
l’exercice n’est pas complet.
Dans sa contribution à l’Annual Review of Applied Linguistics, Chapelle (1999) a
tenté d’illustrer l’évolution du concept de validité dans un tableau dont la mission était de
mettre en lumière les contrastes vifs entre les conceptions passées de la validité et les
conceptions actuelles (tableau II.2). Les différences chronologiques présentées prennent
tout leur sens lorsque mises côte à côte, et la définition de la validité en sort clarifiée.
Tableau II.2 : Résumé des contrastes entre les conceptions passées et présentes de la validation,
Chapelle (1999, p. 258)
Past Current
Validity was considered a characteristic of a test:
the extent to which a test measures what it is
supposed to measure.
Validity is considered an argument concerning test
interpretation and use: the extent to which test
interpretations and uses can be justified.
Reliability was seen as distinct from and a
necessary condition for validity.
Reliability can be seen as one type of validity
evidence.
Validity was often established through correlations
of a test with other tests.
Validity is argued on the basis of a number of types
of rationales and evidence, including the
consequences of testing.
Construct validity was seen as one of three types of
validity (the three validities were content-,
criterion-related, and construct).
Validity is a unitary concept with construct validity
as central (content and criterion-related evidence
can be used as evidence about construct validity).
Establishing validity was considered within the
purview of testing researchers responsible for
developing large-scale, high-stakes tests.
Justifying the validity of test use is the
responsibility of all test users.
Chapelle résume parfaitement et très clairement les caractéristiques passées et
actuelles du concept de validité dans ce tableau. L’aspect le plus important à noter est le
fait que la validité est considérée aujourd’hui comme un concept unifié dont la validité de
construit est l’élément dominant, consolidée par les preuves amenées par les deux autres
facettes du concept, soit la validité de contenu et les validités critérielles (concourante et
43
prédictive). De plus, Chapelle confirme les idées avancées par Messick en ce qui
concerne l’importance des conséquences que peut avoir un test aux niveaux individuel et
collectif.
Cette considération importante énoncée par Messick (1980 ; 1989) des
conséquences que peuvent engendrer les décisions prises à la suite des résultats à un test
fut reprise par Bachman et Palmer (1996) puis développée par les mêmes auteurs dans le
but de créer un cadre complet d’analyse des tests de langue, composé de six catégories et
formant ce que Bachman et Palmer appellent « l’utilité d’un test » (test usefulness). Les
six catégories sont : la fidélité (reliability), la validité de construit (construct validity),
l’authenticité (authenticity), l’interactivité (interactiveness), la faisabilité (practicality) et
l’impact (Doucet, 2001). Ce cadre est en fait l’adaptation pour le domaine de l’évaluation
des langues de la théorie de la validité de construit avancée par Messick, en particulier en
ce qui a trait à la qualité d’impact puisque celle-ci met directement en lumière les
conséquences individuelles et sociales que peut avoir un test. Selon les auteurs, ces
conséquences doivent donc être prises en compte lors du processus de validation et font
partie intégrante du test et de sa validité. Dans les lignes suivantes, nous allons expliquer
en détail chacune des six qualités du cadre d’analyse de l’utilité des tests.
2.3 Le modèle de l’utilité des tests
Le modèle de l’utilité des tests énoncé par Bachman et Palmer est composé de six
qualités, tel qu’illustré dans la figure 2.1 suivante :
Usefulness = Reliability + Construct Validity + Authenticity + Interactiveness + Impact
+ Practicality
Figure 2.1 : L’utilité des tests (Bachman & Palmer, 1996, p. 18)
44
À noter qu’avant même de définir chacune des qualités qui construisent ensemble
le modèle d’utilité des tests, Bachman et Palmer énoncent trois principes de base à
considérer lorsque ce modèle sert de base à la validation d’un test précis. Les principes
sont les suivants : premièrement, c’est le degré d’utilité globale qu’il convient d’optimiser
plutôt que les différentes composantes individuellement. Le fait de bonifier une qualité ne
fera pas forcément en sorte que le test sera plus valide, et les six qualités sont à considérer
dans leur intégralité. Deuxièmement, on ne peut pas évaluer les différentes composantes
indépendamment; c’est l’aspect combinatoire qui doit faire l’objet de l’évaluation du test.
Ceci signifie que l’analyse individuelle de chacune des six qualités ne donnera que des
informations morcelées et qui ne reflèteront pas forcément le plein potentiel du test
évalué. Finalement, le degré d’utilité d’un test et le dosage pertinent des différentes
qualités ne s’énoncent pas en termes généraux, mais doivent être déterminés pour chaque
situation spécifique d’évaluation. Ce principe est primordial pour l’analyse et la
validation de tout test. En effet, un même test peut être « utile » dans un contexte
particulier, mais ce degré d’utilité peut décliner radicalement s’il est placé dans un
contexte différent. En somme, les qualités d’un test doivent toujours être observées et
évaluées dans le contexte dans lequel s’inscrit le test analysé. À noter que Bachman et
Palmer, en énonçant ce précepte, ne font que répéter ce qui a été avancé maintes fois par
d’autres chercheurs dans le domaine (Henning, 1987, entre autres).
Après avoir énoncé ces trois principes de base, indispensables à l’utilisation de
leur cadre d’analyse des tests, Bachman et Palmer explicitent chacune des six qualités qui
constituent ce cadre. Dans les lignes suivantes, nous nous efforcerons de définir chacune
d’entre elles.
45
La première qualité des tests est la fidélité (reliability). Cette caractéristique,
souvent considérée comme la plus importante (Oller, 1979), « renvoie à un accord entre
des mesures similaires d’un même élément. » (Doucet, 2001). Cela signifie que, pour
évaluer la fidélité d’un test, on peut calculer la corrélation entre les scores obtenus à des
tests parallèles qui mesurent les mêmes traits (construits) et dont certaines
caractéristiques ont pu différer. On cherche donc à établir la constance de la mesure
(consistency of measurement), et en ces termes, la fidélité devient une caractéristique non
plus du test, mais des scores générés par le test. En d’autres mots, lorsqu’on cherche à
analyser la fidélité d’un test, on cherche d’abord à s’assurer que les tâches du test
remplissent la même fonction et ciblent les mêmes traits, les mêmes construits, et que les
scores obtenus par les tâches ne sont pas le produit d’éléments autres que les tâches elles-
mêmes : fatigue, familiarité avec le format du test, nervosité des candidats, etc. Un même
test devrait donc générer des résultats sensiblement identiques si l’on change ces
conditions extérieures, car les tâches, elles, provoquent la mise en œuvre des mêmes
construits et l’évaluation de ces construits doit être identique. Bachman et Palmer
illustrent cette qualité des tests en utilisant la figure 2.2 ci-dessous en considérant chaque
test comme un ensemble de tâches (tasks) dont les caractéristiques peuvent changer
sensiblement sans avoir une influence importante sur les scores obtenus par les candidats.
Scores on test tasks with
characteristics A
Reliability
Scores on test tasks with
characteristics A’
Figure 2.2 : Fidélité (Bachman & Palmer, 1996, p. 20)
Dans leur ouvrage de référence, Bachman et Palmer expliquent la figure 2.2 en
donnant plusieurs exemples de différences entre les caractéristiques des tâches des tests A
46
et A’ : les environnements de passation (lieu, heure, moment de l’année, caractéristiques
des locaux d’examen, etc.) peuvent ne pas concorder, par exemple. La question des
correcteurs est aussi abordée : il est primordial, pour être fidèles, que les scores obtenus
ne soient pas tributaires de la personne qui évalue et détermine le score obtenu au test.
La seconde qualité des tests, la validité de construit (construct validity) est
fortement ancrée dans la conception unifiée de la validité de Messick (1989). Dans ce
chapitre, nous reviendrons en détail sur la conception de la validité retenue dans le cadre
de cette étude, mais il convient d’en énoncer ici les grandes lignes, ne serait-ce que par
souci de compléter le cadre de l’utilité des tests par Bachman et Palmer ici explicité. Tout
comme la fidélité, la validité de construit est une qualité liée aux scores obtenus à un test,
plus précisément aux interprétations que l’on fait sur la base des scores obtenus à un test
(Bachman & Palmer, 1996, p. 19). En ce sens, la conception de la validité de construit
telle que l’entendent Bachman et Palmer rejoint sensiblement la conception traditionnelle
que nous avons déjà décrite dans les lignes précédentes, mais à une différence près. Dans
leur ouvrage de 1996, Bachman et Palmer insistent fortement sur la base de la
justification des interprétations faites à partir des scores obtenus à un test, c’est-à-dire
l’exactitude du jugement fait sur la base des résultats aux tâches proposées dans le test
ciblé. Dans le cas des tests de langue, les jugements sont faits sur la base de résultats
engendrés par l’accomplissement de tâches spécifiques, et c’est sur ce point précis que
Bachman et Palmer s’arrêtent : les tâches que les candidats ont dû remplir dans le test
remplissent-elles adéquatement leur mission qui est de provoquer la mise en œuvre du
construit ciblé et uniquement de ce construit particulier? Deuxièmement, Bachman et
Palmer mettent l’accent sur une dimension extrêmement importante puisqu’il s’agit du
47
domaine TLU dans lequel sont censées s’inscrire les tâches du test. En d’autres mots, non
seulement la validité de construit est-elle tributaire de la capacité des tâches à cibler le
construit (et uniquement le construit ciblé) de manière suffisante, mais les tâches du test
doivent aussi correspondre au domaine TLU spécifique de l’après-test. Rappelons que
Bachman et Palmer soulignent souvent l’importance des tests, bien entendu, mais aussi la
prépondérance de l’utilisation des tests dans leur contexte spécifique, que ce soit leur
environnement, leurs participants ou leur usage. Le TLU tient donc une place centrale
puisqu’il justifie a priori l’usage qui est fait d’un test. Cette mention particulière du TLU
nous renvoie à un autre aspect décrit par Bachman dès 1990 et qui fera l’objet d’une
description dans ce chapitre: le modèle de compétence communicative (communicative
competency model). Ce cadre classifie les différentes parties de la compétence langagière
et permet ainsi de cibler très précisément les traits (construits) que chaque tâche
évaluative peut mettre en évidence ainsi que les besoins du TLU. Ce modèle est la base
de la conception des tâches et du processus de validation des tests.
La troisième qualité des tests est l’authenticité (authenticity). Cette qualité établit,
de manière plus directe que la validité de construit, même si l’on pourrait croire qu’il y a
là doublon, le degré de correspondance qui existe entre les caractéristiques des tâches du
test et les caractéristiques des tâches du TLU visé. Bachman et Palmer illustrent
l’authenticité par la figure 2.3 suivante :
Characteristics of the TLU task Authenticity
Characteristics of the test task
Figure 2.3 : Authenticité (Bachman & Palmer, 1996. p. 23)
Dans leur description relativement brève et claire de l’authenticité, Bachman et
Palmer ajoutent une qualité qui peut avoir un impact majeur sur les résultats d’un
48
candidat à un test. Il s’agit de la perception que l’utilisateur a d’un test, perception
directement liée au degré d’authenticité dont jouit le test en question. Il s’agit de la
question nommée traditionnellement validité apparente (face validity), validité
difficilement mesurable mais qui peut avoir des conséquences bénéfiques ou néfastes
pour un candidat. En d’autres mots, l’authenticité d’un test, soit le degré de
correspondance apparent entre ses tâches et les tâches du TLU, rend le test plus ou moins
crédible aux yeux du candidat au test. Si cette crédibilité est forte (validité apparente
élevée), le candidat est plus porté à prendre les tâches au sérieux, et donc ses chances
d’obtenir de meilleurs résultats s’en trouvent augmentées. Au contraire, si l’authenticité
ne renforce pas la validité apparente de la tâche, le candidat peut ne pas considérer cette
tâche comme pertinente, et donc le score risque d’en être affecté négativement. Comme
énoncé précédemment, il est difficile d’évaluer la validité apparente de manière tranchée
et objective, puisqu’il s’agit avant tout des perceptions des acteurs impliquées. Cette
question est néanmoins importante et nous présenterons dans la partie dédiée à la
méthodologie de cette recherche les moyens existants et que nous avons décidé d’utiliser
afin d’évaluer cette validité apparente dans notre contexte et ainsi répondre à notre
troisième question de recherche.
De plus, étant donné le lien mis en lumière par la qualité d’authenticité (tâches du
test vis-à-vis les tâches du domaine TLU), on peut dire que l’authenticité correspond,
d’une certaine manière, à la conception traditionnelle de la validité de contenu décrite
auparavant. Ainsi, on voit très clairement que la conception trichotomique de la validité
telle qu’elle était considérée par le passé est bien présente dans le cadre décrit par
49
Bachman et Palmer. Elle prend seulement une forme différente, soit sous la forme de la
qualité d’authenticité.
La quatrième qualité des tests est l’interactivité. Cette qualité correspond au degré
et au type d’engagement des caractéristiques individuelles du candidat dans
l’accomplissement de la tâche (Bachman & Palmer, 1996). En effet, les caractéristiques
des candidats en termes de compétence langagière (connaissance de la langue, stratégies
métacognitives), de connaissances du sujet et de schémas affectifs sont, à un certain
degré, toujours engagées dans la réalisation de toute tâche, et l’interactivité établit ce
degré de relation entre ces caractéristiques individuelles et les tâches des tests.
Bachman et Palmer démontrent très clairement cette relation en l’illustrant par la
figure 2.4 ci-dessous.
Figure 2.4 : Interactivité (Bachman & Palmer, 1996, p. 26)
La figure 2.4 démontre bien les relations qui existent entre les tâches des tests et
les caractéristiques des candidats. Ces caractéristiques peuvent donc avoir une influence
importante sur les réponses fournies, et donc sur les résultats aux tâches. L’interactivité
est donc une qualité inhérente aux tâches des tests et du TLU correspondant. Ce qui
différencie l’interactivité de l’authenticité est que l’authenticité correspond à la relation
50
entre les tâches du test et les tâches du domaine TLU. L’interactivité est la (ou les)
relation(s) existante(s) entre les tâches du test ou du domaine TLU et les caractéristiques
du candidat. À noter que l’interactivité, tout comme l’authenticité, ne peut être énoncée
en termes absolus. Au contraire, ces deux qualités ne peuvent être considérées que dans
leur relativité, c’est-à-dire que l’on dira que les tests sont « relativement authentiques »
ou « relativement interactives ». Ainsi, toute tâche sera authentique ou interactive, mais à
un certain degré seulement. On ne pourra pas dire d’une tâche qu’elle n’est pas
authentique ou interactive, seulement qu’elle est « peu authentique » ou « peu
interactive » (Bachman & Palmer, 1996, p. 29).
La cinquième qualité des tests est l’impact. Bachman et Palmer expliquent que les
tests ne sont que très rarement utilisés dans un contexte expérimental uniquement, et que
la plupart du temps, il y a une ou des conséquence(s) (ou impact) à deux niveaux : un
niveau « macro » et un niveau « micro ». Le niveau macro correspond aux systèmes
éducatifs et à la société dans lesquels se place le test analysé. Les auteurs en profitent
pour inclure le concept de washback dans leur qualité d’impact, car cet aspect, défini par
Hughes comme « the effect of testing on teaching and learning » (1989, p. 1), puis discuté
en détail par des chercheurs tels que Cohen (1994) ou Alderson et Wall (1993), ce qui
renforce l’idée que le modèle d’utilité des tests par Bachman et Palmer est bien le modèle
le plus complet, le plus abouti et le plus inclusif dont nous disposons à ce jour pour
l’analyse et la conception des tests.
L’impact est une conséquence de deux dimensions inhérentes aux tests :
premièrement, l’expérience même d’utilisateur d’un test change nos caractéristiques
d’apprenant, et deuxièmement, les décisions prises à partir des résultats aux tests ont des
51
répercussions sur le futur des utilisateurs et de la société en général. L’impact est donc
une qualité à la fois du test lui-même et des décisions qui sont prises sur la base des
résultats. Bachman et Palmer illustrent la qualité d’impact grâce à la figure 2.5 ci-
dessous.
Test taking and use of test scores
Impact
Macro : society, education
system
Micro : individuals
Figure 2.5 : Impact (Bachman & Palmer, 1996, p. 30)
La sixième et dernière qualité des tests est la qualité de faisabilité (practicality).
Cette qualité, illustrée par la figure 2.6 suivante, est différente des cinq autres car elle
correspond non pas aux caractéristiques des tâches ou de l’usage qui sera fait des résultats
à un test donné, mais aux conditions dans lesquelles le test sera exécuté. Ce sont donc
bien les ressources disponibles, que ce soit en termes de temps, de personnel ou de
matériel, qui sont évaluées et décrétées suffisantes ou insuffisantes pour la mise en œuvre
optimale du test en question. Bachman et Palmer illustrent la qualité de faisabilité comme
un rapport entre les ressources nécessaires et les ressources disponibles. Si le ratio est
égal ou supérieur à 1, le test est faisable, ou pratique. Si ce ratio est inférieur à 1, le test
n’est pas pratique et des modifications sont à prévoir.
Practicality = Available resources
Required resources
If practicality ≥ 1, the test development and use is practical
If practicality < 1, the test development and use is not practical
Figure 2.6 : Faisabilité (Bachman & Palmer, 1996, p. 36)
52
En résumé, le modèle d’utilité des tests développé et présenté en 1996 par
Bachman et Palmer reste le modèle d’analyse et de conception des tests le plus abouti et
le plus complet à ce jour. Tous les éléments abordés par les chercheurs les ayant précédés
sont inclus dans le modèle : la conception trichotomique traditionnelle de la validité a été
retravaillée afin d’y intégrer la conception unifiée avancée par Messick. De plus, des
éléments y ont été ajoutés afin de répondre aux exigences particulières des contextes
d’évaluation modernes. Ainsi, la qualité de faisabilité prend toute son importance, surtout
quand on observe les tests standardisés à vocation mondiale dont l’objectif principal est
justement d’être le plus pratique (et le moins coûteux) possible.
Le tableau II.3 ci-dessous récapitule les traits des six qualités de l’utilité des tests.
Tableau II.3 : Récapitulatif des qualités des tests (modèle de Bachman & Palmer, 1996)
Qualités de l’utilité des
tests, Bachman et Palmer
(1996)
Correspond à une qualité
de :
Correspondance établie /
recherchée par la qualité
Dans la conception
traditionnelle des
caractéristiques d’un « bon
test »
Fidélité Scores
Entre les scores à des tests
de même type, visant les
mêmes construits
Fidélité
Validité de construit Scores
Décisions qui sont prises sur
la base des résultats aux
scores par rapport aux
tâches du TLU
NA
Authenticité Tâches
Caractéristiques des tâches
du test par rapport aux
caractéristiques des tâches
du TLU
Validé de contenu
Interactivité Tâches
Caractéristiques des tâches
du test par rapport aux
caractéristiques du candidat
utilisateur
NA
Impact Décisions
Conséquences (macro et
micro)engendrées par
l’utilisation du test et les
résultats
NA
Faisabilité Conditions logistiques
Rapport entre les ressources
disponibles et les ressources
nécessaires
Faisabilité
Le tableau II.3 reprend les idées développées par Bachman et Palmer en 1996. Il
est ainsi pratique de voir la variété des types de preuves à recueillir afin d’évaluer l’utilité
53
d’un test administré dans un contexte particulier et pour une population spécifique. Dans
la présente étude, nous analyserons le TFLM à la lumière des qualités des tests les plus
pertinentes dans notre contexte. Le concept suivant, le modèle de compétence
communicative, par Bachman et Palmer, nous donnera des pistes afin de mener cette
analyse comparative à bien.
2.4 Le concept de compétence communicative
Afin de déterminer si le TFLM, qui est un test à grands enjeux, est un prédicteur
de réussite valide dans les programmes de formation initiale en enseignement au Québec,
cette étude devra apporter des éléments de preuve faisant partie du processus de
validation (et donc de la validité de construit, puisqu’elle domine les autres types de
preuves, tel que l’a avancé Messick en 1989) du TFLM recueillis par le biais de différents
outils, car comme nous le rappellent Bachman et Palmer :
Construct validation is the on-going process of demonstrating that a
particular interpretation of test scores is justified, and involves, essentially,
building a logical case in support of a particular interpretation and
providing evidence justifying this interpretation. Several types of evidence
(for instance, content relevance and coverage, concurrent criterion
relatedness, predictive utility) can be provided in support of a particular
score interpretation, as part of the validation process. (1996, p. 22).
L’évaluation de la validité prédictive du TFLM n’est donc qu’une partie des
preuves nécessaires pour déclarer le TFLM comme valide ou invalide dans notre contexte
précis. Afin d’évaluer de manière plus complète la validité du TFLM, une considération
importante serait la correspondance entre les tâches qui composent le TFLM (test tasks)
et les tâches réelles qui composent l’activité censée être représentée par les tâches du test
(TLU tasks) ainsi que les habiletés langagières nécessaires à les remplir, ce qui, dans
notre cas, correspond aux besoins linguistiques des étudiants inscrits dans des
54
programmes de formation initiale en enseignement au Québec dans l’optique de connaitre
la réussite tout au long de leur cheminement d’études et dans leur carrière en
enseignement par la suite (authenticité des tâches des tests). Un point primordial dans le
processus de choix ou de conception d’une épreuve de compétence langagière est donc de
cibler avec précision les besoins en termes d’habiletés langagières que la situation
d’utilisation de la langue imposera aux participants dans le contexte spécifique établi.
Afin d’établir ces besoins, Bachman et Palmer proposent un cadre théorique complet et
spécifique au domaine de l’évaluation des langues qui permet d’analyser les compétences
langagières de toute personne, que ce soit en langue première ou en langue seconde, et de
mettre ces compétences en parallèle avec les exigences du domaine d’utilisation de la
langue cible. Ce cadre (Bachman & Palmer, 2010), basé en premier lieu sur les travaux
de Hymes (1972) puis de Canale (1983), illustre les éléments de la compétence
communicative et est divisé en deux volets majeurs, soit les aspects liés à la connaissance
de la langue (areas of language knowledge) et les aspects liés aux stratégies
métacognitives (areas of metacognitive strategies use). Les tableaux II.4 et II.5 ci-
dessous illustrent la composition de chacun des deux volets.
55
Tableau II.4 : Areas of language knowledge (Bachman & Palmer, 2010, p. 45)
Organizational
knowledge
Grammatical knowledge Knowledge of vocabulary
Knowledge of syntax
Knowledge of phonology / graphology
Textual knowledge Knowledge of cohesion
Knowledge of rhetorical or conversational
organization
Pragmatic knowledge Functional knowledge Knowledge of ideational functions
Knowledge of manipulative functions
Knowledge of heuristic functions
Knowledge of imaginative functions
Sociolinguistic
knowledge
Knowledge of genres
Knowledge of dialects / varieties
Knowledge of registers
Knowledge of natural or idiomatic expressions
Knowledge of cultural references or figures of speech
Tableau II.5 : Areas of metacognitive strategies use (Bachman & Palmer, 2010, p. 49)
Goal setting Identifying the language use or assessment tasks to be attempted
Choosing one or more tasks from a set of possible tasks
Deciding whether or not to complete the task(s) selected
Appraising Appraising the characteristics of the language use assessment task
to determine the desirability and feasibility of successfully
completing it and what resources are needed to complete it.
Appraising our own knowledge (topical, language) components to
see if relevant areas of knowledge are available for successfully
completing the language use or assessment task.
Appraising the degree to which the language use or assessment task
has been successfully completed
Planning Selecting elements from areas of topical knowledge and language
knowledge for successfully completing the assessment task
Formulating one or more plans for implementing these elements in
a response to the assessment task.
Selecting one plan for initial implementation as a response to the
assessment task
56
Les tableaux ci-dessus exposent les différentes composantes de la compétence
langagière selon Bachman et Palmer (2010). Ceux-ci ont réussi à décomposer la
compétence langagière en ce qu’ils ont appelé les « connaissances », qui regroupent
chacune un aspect de la communication orale et/ou écrite. Selon les auteurs, on peut donc
découper la compétence communicative en sous-parties, soit la connaissance
organisationnelle d’un côté et la connaissance pragmatique de l’autre, chacune de ces
deux parties étant elle-même divisée en sous-composantes. Dans les lignes qui suivent,
nous allons définir chacun des termes utilisés pour chacune des sous-composantes de la
première partie, c’est-à-dire les connaissances de la langue elle-même. Nous avons décidé
de ne pas entrer dans les détails de la deuxième partie puisque le TFLM ne touche
absolument pas cette dimension de la langue, bien qu’elle soit inhérente à la maitrise
d’une langue, qu’elle soit première ou seconde. Pour une discussion complète sur ce
sujet, le lecteur pourra se référer à Bachman et Palmer (2010). Qui plus est, même si la
signification de certaines sous-composantes sera très facilement accessible, même pour
les lecteurs non-initiés, par souci de clarté, il convient de définir chacun des termes
présents dans le travail de Bachman et Palmer qui inspire les éléments abordés dans le
tableau II.4.
La connaissance organisationnelle (organizational knowledge) est composée de
deux sous-parties : la connaissance grammaticale et la connaissance textuelle. La
première, la connaissance grammaticale, comprend la connaissance du vocabulaire de la
L2 (le lexique), de la syntaxe (agencement des mots selon leur classe et le sens que l’on
souhaite donner à la production), et la connaissance de la phonologie et de la graphologie
(maitrise des sons de L2 et de leur transcription à l’écrit). Cette partie est donc reliée à
57
tous les éléments propres au code linguistique, c’est-à-dire plus simplement à la
grammaire, l’orthographe et la syntaxe.
La connaissance textuelle (textual knowledge) correspond à la maitrise du
message, c’est-à-dire de la façon dont le locuteur transmet les informations. Cette partie
comprend la connaissance de la cohésion, c’est-à-dire l’utilisation des organisateurs
logiques appropriés, ainsi que la connaissance de l’organisation, de la rhétorique et de la
conversation, c’est-à-dire la capacité à élaborer un discours complexe, organiser ses
arguments de façon logique, illustrer avec des exemples, des figures de style, etc. Cette
dimension est bien plus liée au contenu qu’au contenant, au fond qu’à la forme. Dans
notre contexte, et si l’on fait un lien avec le référentiel du MELS (2001), cette sous-
composante est primordiale pour les enseignants car leur principale fonction est souvent
de vulgariser des concepts complexes afin de les rendre accessibles à leurs élèves ou
étudiants, quel que soit l’âge de ceux-ci.
La seconde dimension de la connaissance langagière, soit la connaissance
pragmatique (pragmatic knowledge), est composée de deux sous-composantes : la
connaissance fonctionnelle (functional knowledge) et la connaissance sociolinguistique
(sociolinguistic knowledge).
La première, la connaissance fonctionnelle (functional knowledge), correspond à
la fonction, donc l’objectif, que revêt un énoncé lorsqu’il est produit. On sait depuis
Hymes (1972) et son modèle SPEAKING que les énoncés peuvent avoir plus d’une
fonction ou un sens « caché » qui n’est pas forcément celui qui apparait d’emblée. On
parle alors du but de l’énoncé dans la situation de communication, et il faut accentuer le
fait que la fonction des énoncés n’est analysable que lorsqu’elle est conduite dans le
58
cadre d’une situation de communication particulière. Par exemple, un énoncé peut être
teinté de sarcasme, ce qui changera complètement son sens réel, son objectif de
communication dans la situation d’interaction dans laquelle il est produit. On parle alors
de trois fonctions des énoncés, soient la fonction locutoire (sens apparent immédiat),
fonction illocutoire (sens caché réel) et la fonction perlocutoire (le résultat recherché par
le locuteur dans la formulation de l’énoncé). Bachman et Palmer considèrent la
connaissance sociolinguistique comme la deuxième sous-composante de la connaissance
pragmatique. La connaissance sociolinguistique relève de la connaissance culturelle liée à
une langue : la connaissance des variétés de langue soulève la question des différences
intrinsèques entre les différentes variétés d’une même langue. Par exemple, si l’on prend
l’exemple du français, le français métropolitain est très différent du français québécois ou
du français parlé en Afrique. La connaissance des variétés de langue fait état de ces
différences et permet au locuteur de reconnaitre ces variétés et, le cas échéant, les utiliser
à bon escient. La connaissance des variétés de registres, correspond au niveau de langue
utilisé selon la situation de communication (À qui parle-t-on? Quel est le but de la
production? Dans quel contexte se fait l’interaction?, etc.). Elle relève d’éléments
linguistiques tels que le lexique utilisé, la syntaxe appropriée à la situation de
communication, même les éléments de communication non verbaux qui peuvent être
utilisés pendant une interaction. Ces éléments normés appartiennent à chaque
communauté linguistique et peuvent différer selon la variété (voir ci-dessus) dans laquelle
elle s’insère. La connaissance d’énoncés idiomatiques ou naturels et dont le sens est
connu de toute une communauté linguistique. On peut penser aux proverbes ou aux
expressions figées utilisées tous les jours par les locuteurs d’une même langue, par
59
exemple. Finalement, la connaissance d’énoncés culturels correspond aux énoncés qui
ont comme racine des événements communs à toute une communauté et ils sont
forcément ancrés dans la culture collective de cette communauté. Ces énoncés peuvent
par exemple être des segments de phrases repris par un personnage célèbre dans une
situation spécifique, ou encore faire référence à un événement marquant pour un groupe
de personnes. À noter que les proverbes, par exemple, ne font pas partie de cette sous-
composante et que l’on retrouve ces derniers dans la partie « énoncés idiomatiques ou
naturels ». Les énoncés culturels peuvent être connus par une partie d’une population qui
aurait en commun une connaissance culturelle générationnelle, par exemple, mais
inconnue du reste de la population. Le trait commun de ces énoncés reste donc le partage
d’une connaissance particulière et pas forcément accessible à tous les membres d’une
même communauté. Par exemple, l’expression « faire son Lac-à-l’épaule » est une
expression connue au Québec par une certaine tranche de la population à cause des
événements qui sont liés à ce lieu11 à un certain moment de l’histoire de la province, mais
elle ne signifie absolument rien dans le reste de la francophonie car la référence
historique y est totalement inconnue ou même pour des Québécois plus jeunes qui ne
connaissent pas l’événement relié à ce lieu.
Bachman et Palmer (2010) affirment qu’à partir des éléments qui figurent dans les
tableaux ci-dessus, il est possible d’identifier les besoins linguistiques précis de tout type
de domaines d’utilisation de la langue cible pour ensuite déterminer les tâches qui
devraient composer un test de compétence langagière censé mesurer les habiletés
11
http://www.oqlf.gouv.qc.ca/actualites/capsules_hebdo/actualites_terminolinguistique/luetentendu_lacalepa
ule_20050825.html
60
linguistiques impliquées, soit les construits recherchés. La tâche, lors d’un processus de
validation, revient donc à vérifier la correspondance entre les tâches qui composent un
test particulier dans un contexte spécifique et les tâches qui attendent les participants au
même test après sa passation. On voit donc ici le lien fort existant entre les tâches du test
et le contexte dans lequel il s’inscrit, c’est-à-dire, le lien entre les éléments que
renferment le modèle de compétence communicative et le TLU.
La partie suivante établira donc les concepts retenus et la conception générale
sous-jacente à l’étude au complet.
2.5 Conception de la validité retenue pour cette recherche
À titre récapitulatif, la définition plus ou moins arrêtée de la validité, bien que
multidimensionnelle, représente le concept comme une entité unifiée et insécable sous la
domination constante de la validité de construit : « All validity is of one kind, namely
construct validity. Other so-called separate types of validity cannot stand alone in a
validity argument » (Messick, 1998, p. 37). Ainsi, la validité de construit est le type de
validité qui regroupe tous les autres types de validité considérés par le passé. Les validités
de contenu et critérielles ne sont que des éléments de preuves qui vont alimenter le
processus de validation des tests dont le centre reste la validité de construit et qui ne
peuvent pas être considérées seules comme des preuves suffisantes dans un processus
analytique des tests.
Le but de ce projet de recherche étant d’évaluer la validité prédictive du TFLM, la
conception de la validité proposée par Messick a été retenue, c’est-à-dire que la validité
est un concept unifié composé de différentes facettes. Notre cadre théorique sera le
modèle de Bachman et Palmer, l’utilité des tests et ses six qualités (1996) : validité,
61
fidélité, interactivité, faisabilité, authenticité et impact, qui ont chacune été explicitée
précédemment. Le choix de cette conception est principalement motivé par le fait que
toutes les qualités du cadre de l’utilité des tests proposé par Bachman et Palmer sont
pertinentes dans notre contexte d’étude, plus particulièrement les conséquences sociales
entrainées par les résultats du TFLM, aspect cher à Messick et qui tient bonne place dans
la matrice présentée en 1989 (tableau II.1). Est-il nécessaire de le rappeler, l’étude porte
sur le processus d’admission des futurs enseignants au Québec, un sujet qui revêt toujours
de fortes connotations sociales et qui provoque généralement de nombreuses questions
liées à la valeur des candidats et aux orientations que nous souhaitons favoriser en tant
que société.
Le modèle de compétence communicative de Bachman et Palmer (2010) a de son
côté été retenu afin d’analyser les caractéristiques des tâches du test et de faire la lumière
sur les éléments linguistiques évalués par le TFLM. Il sera ainsi possible de comparer ce
qui est évalué avec ce qui devrait être évalué dans notre contexte particulier, soit les
études de premier cycle dans divers programmes, dont les programmes de formation
initiale en enseignement. Bachman et Palmer exposent les qualités de leur modèle en
2010 lorsqu’ils établissent que :
[It is] this combination of language knowledge and strategic competence
provides language users with the ability, or capacity, to create and interpret
discourse, either in responding to tasks in language assessment or in non-
assessment language use. (p. 44)
Ce modèle est donc préféré à d’autres modèles de compétence communicative (Canale,
1983 ; Canale & Swain, 1980 ; Celce-Murcia, Dornyei & Thurrell, 1995, entre autres) car
d’une part, il est un des plus récents (1990, puis revisité en 1996 et en 2010) et d’autre
part parce qu’il aborde tous les éléments spécifiques à notre contexte (test de compétence
62
langagière) en plus d’incorporer des dimensions supplémentaires qui vont au-delà de la
compétence langagière seule (affective schemata, topical knowledge). De plus, comme
Bachman et Palmer l’expliquent, il permet d’extraire et d’obtenir des éléments de la
compétence communicative dans tous les contextes, production comme compréhension,
que ce soit en contexte d’évaluation ou non. Les autres modèles, cités ci-dessus, n’offrent
pas cette possibilité, ce qui les limite en comparaison au modèle de Bachman et Palmer.
Dans ce chapitre, nous avons décrit en détail notre cadre théorique et les
différentes influences qui l’ont inspiré. Dans le chapitre suivant, nous nous penchons sur
les études de la validité prédictive effectuées par le passé.
CHAPITRE III : RECENSION DES ÉCRITS
Les études sur la validité prédictive des procédures de sélection sont nombreuses.
L’utilité et la pertinence des tests utilisés par différents milieux, que ce soit préscolaires
(Friend, Schmitt & Simpson, 2012), scolaires (Blais, 2001), universitaires (Bellingham,
1993 ; Romainville, 1997 ; Snowman & Simpson, 1980 ; Snyder et al, 1983) ou
professionnels (FAA, 1989) est au centre des préoccupations des responsables, directeurs
et administrateurs de divers programmes, institutions ou entreprises. Les enjeux liés à la
sélection des meilleurs candidats, dans n’importe quel milieu, est en effet une décision
importante et qui peut avoir des conséquences majeures, autant sur les individus que les
systèmes ou les sociétés dans lesquels sont utilisés les tests en question. Une sélection
basée sur des preuves peu valides représente un risque très important : les moyens et
outils de sélection doivent absolument permettre aux administrateurs d’éviter les choix
erronés, que ce soit une erreur positive (un candidat admis alors qu’il n’aurait pas dû
l’être) ou négative (un candidat est refusé alors qu’il aurait dû être admis). Ces enjeux
sont si importants que les analyses de la validité prédictive de différentes procédures de
sélection ont été menées à grande échelle depuis le tout début des années 1960 (Kaplan &
Jones, 1961 ; Sako & Fruchter, 1965) et tout au long des décennies suivantes (Cho &
Bridgeman, 2012 ; Elder, 1993 et 2001 ; Feast, 2002 ; Graham, 1987 ; Nolan & Jacobson,
1972). Aussi nombreuses soient-elles, il est cependant parfois un peu difficile pour le
chercheur qui entreprend une étude de la validité prédictive de faire ressortir des résultats
tranchés et sans équivoque. En effet, nous verrons dans les paragraphes suivants que les
études sur la validité prédictive entreprises dans les 50 dernières années ont été basées sur
64
des méthodologies très différentes et, l’on pouvait s’y attendre, engendrent des résultats
très différents aussi.
Dans les lignes suivantes, nous procèderons à une rétrospective des études
entreprises jusqu’à maintenant en les classant en deux parties selon des critères
méthodologiques : d’une part, les études dont les résultats se basent sur des analyses de
données quantitatives uniquement, et d’autre part, les études qui tendent à analyser des
données à la fois quantitatives et qualitatives, donc qui optent pour une approche
méthodologique mixte. À noter que, bien entendu, qu’il ne nous est pas possible ici de
détailler de manière exhaustive toutes les études dont l’objet était d’évaluer la validité
prédictive de tests à grands enjeux. Néanmoins, il nous sera possible de décrire les
avancées scientifiques des études visant à établir la validité prédictive de tests depuis
cinquante ans et ainsi dresser un portrait global de l’état actuel du domaine pour
expliquer pourquoi il est justifié, au jour d’aujourd’hui, de procéder à notre étude.
3.1 Études de type quantitatif
Comme nous l’avons établi auparavant, de nombreuses études basées sur des
données quantitatives uniquement ont été entreprises ou menées depuis les années 1960.
Ces études ont eu comme but d’analyser la validité prédictive de nombreux types de tests,
maisons ou standardisés. Sako et Fruchter (1965), par exemple, ont analysé le potentiel
prédictif d’une batterie de tests « maison » utilisée par l’United States Air Force
Academy pour sélectionner ses candidats étrangers locuteurs non natifs de l’anglais pour
les programmes militaires offerts aux militaires de pays alliés. Les résultats des analyses
corrélationnelles effectuées ont poussé les administrateurs de ces programmes à changer
leur mode de recrutement en les simplifiant, car certains éléments de la batterie utilisée se
65
sont révélés inutiles. Ici donc, la procédure a servi à améliorer les procédures de sélection
non seulement en les rendant plus pratiques (Bachman & Palmer, 1996) mais aussi plus
fiables car moins sujettes à fournir des informations erronées. Jones, Kaplan et Michael
(1964) ont procédé au même type d’étude à l’Université de South California (USC) en
analysant la batterie de sept prédicteurs alors utilisée afin de sélectionner les candidats
étrangers dont l’anglais était une langue seconde ou étrangère. De cette étude, il est
ressorti qu’au moins deux des sept prédicteurs étaient inutiles, voire dangereux dans leur
utilisation car ils donnaient des résultats erronés sur le potentiel des candidats à exceller
dans leurs cours subséquents. Là encore, des gestes ont été posés afin de remédier à la
situation et améliorer le système en place.
Les études de ce type sont nombreuses et abordent des tests variés, que ce soit des
tests « maisons » ou des tests standardisés à très grands enjeux utilisés mondialement. Les
outils et méthodologies quantitatives, les contextes, les sujets et les résultats varient
grandement selon la recherche entreprise, et comme nous l’avons mentionné auparavant,
il est difficile pour un chercheur qui entreprend une nouvelle étude de la validité
prédictive d’émettre une hypothèse solide tant les résultats obtenus dans les recherches
précédentes peuvent différer. Les contextes varient du niveau primaire (Blais, 2001 ;
Kettler, Elliot, Davies & Griffin, 2011 ; Sheppard, 1979 ; Webb & Patte, 1970) au niveau
universitaire dans différents pays (Akeju & Michael, 1970 ; Bayliss & Raymond, 2004 ;
Phakiti, 2008). Le nombre de sujets est aussi un critère qui tend à varier énormément :
dans les études que nous avons eu le loisir de lire et dont les auteurs avaient opté pour
une approche quantitative uniquement, le nombre de sujets oscille entre quarante-deux
(Alavi, 2012) et plus de 20,000 (Weiner & Kay, 1972) dans le cas d’études effectuées sur
66
le terrain, et même jusqu’à plus de 82,000 sujets dans le cas de la méta analyse du
Graduate Record Examination (Kuncel, Hezlett & Ones, 2001). Les caractéristiques des
sujets eux-mêmes peuvent aussi varier de façon importante : l’âge, bien entendu, est une
des caractéristiques qui offre une grande variété, mais aussi l’origine (nationalité) des
sujets : Thaïlande (Gue & Holdaway, 1973), Bahreïn (Al-Musawi & Al-Ansari, 1999),
Vietnam (Huong, 2001), Mali (Lai et al, 2008), Chine (Hwang & Dizney, 1990 ; Yen et
Kuzma, 2009) ou un échantillon constitué de plusieurs nationalités mélangées (Cho &
Bridgeman, 2012 ; Sako & Fruchter, 1965). De même, on assiste dans ces recherches à
l’analyse d’un test imposé à tous les candidats, peu importe leur statut par rapport à la
langue du test analysé, langue maternelle ou langue seconde (Dooey, 1999 ; Lai et al,
2008 ; Morris & Cobb, 2003).
Un autre aspect spécifique des recherches de type quantitatif à observer avec soin
est le choix des données analysées par les chercheurs. Puisqu’il s’agit de recherches
visant à analyser la validité prédictive de différents outils et tests, maison ou standardisés,
toutes les études que nous avons lues jusqu’à présent sont basées sur les comparaisons ou
corrélations d’au moins un prédicteur (la variable indépendante) et d’un critère (variable
dépendante). S’il était attendu que les prédicteurs varieraient énormément (après tout, il
existe plus d’un test), il est tout de même étonnant de voir à quel point les critères
peuvent être nombreux. Bien entendu, ces derniers sont tributaires du contexte dans
lequel est située l’étude en question : il est ainsi parfaitement normal d’utiliser la
moyenne cumulative générale (Grade Point Average, GPA) ou des équivalents, comme
par exemple le Graduate Management Admission Test (GMAT) (Kuncel, Crede &
Thomas, 2007 ; Sirecci & Talento-Miller, 2006) au niveau universitaire (Black, 1991 ;
67
Cope, 2011 ; Dooey & Oliver, 2002) alors que les études dont le contexte est un milieu
primaire analysent des critères plus spécifiques à ce contexte particulier, comme le First
Grade Screening Test (Webb & Patte, 1970). À noter cependant que la plupart des études
entreprises dans un contexte universitaire, et qui se rapprochent donc du contexte de la
présente recherche, utilisent la moyenne générale cumulative ou une variante de cette
moyenne comme critère externe. Ce choix est une constante à souligner dans la majorité
des études quantitatives de la validité prédictive des tests d’admission au niveau
universitaire, qu’il s’agisse d’évaluer la validité prédictive d’un test de langue ou de tests
d’aptitudes divers (voir les prédicteurs ci-dessous).
En termes de prédicteurs (variables indépendantes), les études que nous avons
recueillies et classées jusqu’à présent dans le cadre de cette étude mettent en scène la
majorité des tests de langue standardisés à grands enjeux les plus courants : ainsi, le Test
of English as a Foreign Language (TOEFL) (Al-Musawi & Al-Ansari, 1999 ; Gue et
Holdaway, 1973 ; Ayers & Peters, 1997) et sa version informatique, le TOEFL IBT (Cho
& Bridgeman, 2012), le International Student Admission Test (ISAT), très courant en
Australie (Lai et al, 2008), le Graduate Record Examination (GRE) (Kuncel, Hezlett &
Ones, 2001 ; Kuncel, Wee, Hezlett & Serafin, 2010 ; Sharon, 1972), le Scholastic
Assessment Test (SAT) (Pearson, 1993), le First Certificate in English (FCE) (Al-
Musawi & Al-Ansari, 1999) ou encore l’International English Language Test System
(IELTS) sont tous évalués dans les analyses de la validité prédictive lues jusqu’à présent.
Ce dernier a d’ailleurs fait l’objet de très nombreuses recherches (Breeze & Miller, 2012 ;
Dooey & Oliver, 2002 ; Fiocco, 1992 ; Huong, 2001 ; Oliver, Vanderford & Grotte, 2012
; Phakiti, 2008 ; Yen & Kuzma, 2009) et ses divers attributs sont réévalués régulièrement.
68
Ainsi, on voit que le choix des prédicteurs est vaste et qu’un éventail étendu est offert aux
administrateurs parmi lequel ils peuvent choisir. En fait, à titre d’indication, Coley (1999)
a procédé à l’analyse de tous les indicateurs académiques utilisés par trente-sept
universités australiennes à des fins d’admission ou de classement des nouveaux
candidats, soit soixante-et-un prédicteurs en tout!
Comme nous l’avons mentionné auparavant, il est difficile de voir une tendance
prononcée en termes de résultats à travers toutes les études recensées jusqu’à présent.
Parmi ces études, force est de constater que les chercheurs sont parvenus à des résultats
contradictoires par rapports aux résultats de leurs prédécesseurs. Ainsi, certains
chercheurs arrivent à une réponse claire et tranchée appuyée sur des corrélations
significatives et importantes (Blais, 2001; Huong, 2001 ; Lai, Nankervis, Story, Hodgson,
Lewenberg & MacMahon-Ball, 2002), d’autres obtiennent des résultats qui démontrent
qu’il n’existe pas de corrélation entre le prédicteur analysé et le critère choisi (Gue &
Holdaway, 1973 ; Hwuang & Dizney, 1999 ; Phakiti, 2008) alors que, finalement, la
dernière catégorie de recherches mettent en valeur des résultats trop mitigés pour être
considérés solides (Alavi, 2012 ; Dooey, 1999 ; Feast, 2002). Parmi celles-ci, celle
effectuée par Morris et Cobb (2003) nous rejoint particulièrement à cause du contexte
dans lequel elle a été entreprise. En effet, les auteurs ont effectué cette recherche dans un
contexte qui se rapproche énormément du nôtre, c’est-à-dire dans une université
francophone du Québec, auprès de 122 étudiants, locuteurs natifs du français ou de
l’anglais, inscrits dans un programme de formation à l’enseignement d’une langue
seconde (baccalauréat en enseignement de l’anglais langue seconde). La question de
recherche était la suivante : « L’analyse d’un texte argumentatif produit par les candidats
69
à l’entrée dans le baccalauréat en enseignement de l’anglais langue seconde en utilisant
VocabProfiler est-elle suffisante pour prendre une décision éclairée sur l’admission de
ces candidats? ». La méthodologie choisie par les chercheurs est basée sur la comparaison
et la corrélation entre l’analyse lexicale d’un essai de 500 mots rédigé en anglais (L1 ou
L2, selon les candidats) par les participants et les notes obtenues par ces participants à
deux cours de grammaire obligatoires dans leur cheminement. Les résultats de ces
corrélations, effectués en utilisant le coefficient de corrélation produit-moment de
Pearson (aussi appelé r de Pearson), indiquent qu’il y aurait une corrélation significative
modérée (0,37 étant le résultat le plus élevé entre les compétences lexicales, examinées
dans les essais analysés, et les notes des deux cours de grammaire visés). Un élément
important à souligner et à prendre en considération ici et pour l’interprétation des
résultats dans les études de type quantitatif en général est que le coefficient maximum de
corrélation obtenu semble plafonné à .3 (ou avoisinant). Ce chiffre peut paraitre bien bas,
mais comme l’avancent Alderson, Clapham et Wall : « ...in predictive validity studies, it
is common for test developers and researchers to be satisfied when they have achieved a
coefficient as low as 0.3! » (Alderson, Clapham & Wall, 1995, p. 182). Ce coefficient est
d’ailleurs considéré comme un mètre-étalon acceptable en termes de corrélation pour la
plupart des études de la validité prédictive recensées ici, ce qui fait écho à ce que nous
avons déjà mentionné dans notre cadre théorique (Brown, 1983).
À partir de ces résultats, les chercheurs avancent l’idée d’une correspondance
entre la connaissance lexicale et la réussite à un certain type de cours (cours
« procéduraux », selon les auteurs, c’est-à-dire étant évalués par des moyens plus
objectifs visant un contenu à apprendre). Cependant, les auteurs appuient le fait que ce
70
type d’examen (test de vocabulaire) ne peut et ne doit pas être utilisé seul, mais intégré à
un ensemble de tests complet qui déterminera de manière plus sûre le potentiel des
candidats. Un aspect important que les chercheurs mettent en relief dans la discussion est
que les opérations statistiques utilisées dans leur étude n’incluaient que les résultats des
candidats qui avaient réussi le test de sélection. Les résultats des candidats les plus faibles
n’ont pas été observés ni analysés, ce qui limite grandement la portée des résultats
obtenus, toujours selon les chercheurs. Les analyses statistiques ont de plus été séparées
en deux parties, soit les candidats dont la langue maternelle était l’anglais et ceux dont
l’anglais était une L2. Cette différenciation a engendré des résultats mitigés ; dans notre
recherche, tous les candidats sont considérés comme locuteurs du français L1 car tous
doivent se soumettre au même test de compétence linguistique.
Blais (2011), de son côté, n’a pas eu à différencier ses sujets en deux groupes
puisqu’ils étaient tous locuteurs natifs, mais dans un contexte bien différent. Dans son
étude, l’auteur a voulu vérifier s’il y avait une corrélation significative entre les résultats
obtenus par les élèves du niveau primaire au test d’entrée à l’école secondaire, le
Canadian Achievement Test (CAT), censé mesurer les habiletés des élèves nouvellement
admis à l’école secondaire, et leurs résultats en neuvième année en mathématiques et en
anglais (langue maternelle des sujets). Blais a comparé les résultats obtenus au CAT par
les 120 élèves de trois programmes différents au sein d’une même école d’Edmonton et
les notes finales de neuvième année en utilisant le r de Pearson et a trouvé des
corrélations significatives entre certains volets du CAT et les résultats obtenus par les
sujets (soit les sections correspondant à la lecture, aux habiletés d’études, aux
mathématiques). Selon l’auteur, ces résultats signifient que les volets du CAT
71
correspondant à la lecture, aux habiletés d’études et aux mathématiques peuvent être
utilisés comme prédicteurs de réussite scolaire définis en termes de résultats au cours des
années suivantes. Les résultats de cette étude ne sont cependant pas généralisables : le
chercheur a bien identifié les limites de sa recherche, soit les caractéristiques de
l’échantillon utilisé (nombre et provenance) et des conditions de passation du test (effet
de l’enseignant qui est aussi évaluateur unique, conditions logistiques de la passation,
etc.).
Usant d’un outil statistique différent mais avec les mêmes visées auprès d’une
clientèle universitaire de langue seconde, Al-Musawi et Al-Ansari (1999) ont tenté de
comparer deux tests de langue reconnus, soit le TOEFL et le FCE l’un par rapport à
l’autre, puis de comparer ces deux tests à la moyenne générale cumulative de quatre-
vingt-six (86) étudiants inscrits dans des cours de langue anglaise (langue seconde) à
l’Université de Bahreïn afin de savoir lequel, du TOEFL ou du FCE, est le meilleur
prédicteur de réussite pour cet échantillon. Pour cela, les chercheurs procèdent à la
corrélation des résultats entre les deux tests ciblés (TOEFL et FCE) et la moyenne
générale cumulative (GPA) en les soumettant à une analyse de la régression, puis à une
analyse linéaire multivariée de la régression. Les résultats favorisent le FCE, qui montre
une corrélation plus forte que le TOEFL, tout en étant peu significative. Dans ce cas, une
décision importante a été prise sur la base de résultats peu convaincants. Cette étude fait
donc ressortir l’importance de procéder à plusieurs études de validité prédictive dans un
contexte spécifique afin de pouvoir posséder des éléments probants et ainsi prendre une
décision éclairée. Cet aspect décisionnel est bien entendu sous-jacent à toute étude de
validité prédictive : il s’agit d’évaluer le potentiel d’un test à donner des informations
72
utiles et pertinentes à une prise de décision importante qui aura un impact direct sur les
acteurs du contexte, l’institution et la société au sens plus large.
Bien qu’elle soit très vieille, l’étude de Gue et Holdaway (1973) reste une
recherche phare dans le domaine de l’étude de la validité prédictive des évaluations et
nombreux sont les chercheurs qui s’y réfèrent. Les chercheurs analysent la validité
prédictive d’un test standardisé à grands enjeux comme une partie du processus de
sélection de candidats de langue seconde à l’admission dans une université anglophone.
Le contexte de leur recherche est bien particulier : il s’agit des entrevues et des études de
dossiers de candidats asiatiques (dont l’anglais est la langue seconde) à un cours de
langue offert par une université d’Edmonton (Alberta) dans les années 1960 et 1970.
Dans ce contexte, les responsables administratifs devaient trouver un moyen de
sélectionner leurs futurs étudiants étrangers de manière fiable et surtout à des coûts peu
élevés. La solution choisie était d’utiliser le TOEFL (Test of English as a Foreign
Language) comme première étape dans le processus de sélection, suivi d’une entrevue
des candidats. Gue et Holdaway ont cherché à trouver des réponses aux questions
suivantes : 1) Est-ce que le TOEFL est un prédicteur fiable de la moyenne cumulative
finale pour l’échantillon d’étudiants thaïlandais sélectionné? 2) Quel est le meilleur
prédicteur dans ce contexte : l’entrevue multi-juges ou le TOEFL? Et 3) Quelle est
l’efficacité du programme d’été en anglais pour les étudiants thaïlandais? Pour répondre à
ces questions, les auteurs ont comparé plusieurs types de données, recueillis à différents
moments et sur une période de sept ans. Ils ont commencé par compiler les résultats de
cent-vingt-trois (123) enseignants thaïlandais candidats à un stage de formation en
enseignement dispensé pendant l’été par l’Université de l’Alberta, à Edmonton, Canada.
73
Pour être sélectionnés, les candidats devaient passer deux tests de langue anglaise conçus
et organisés par leur responsable local, réussir ensuite le test de compétence langagière en
anglais (L2) sélectionné par le British Council en Thaïlande, puis finalement passer une
entrevue devant un panel de trois examinateurs, toujours en Thaïlande. À leur arrivée à
Edmonton, les candidats devaient passer une première fois le TOEFL, puis une autre fois,
trois mois après le début du programme. Les données correspondant à chaque partie et
pour chaque étudiant pendant une période de sept (7) ans sont corrélées en utilisant le
coefficient de Pearson (produit-moment).Une analyse de régression multiple pas à pas a
ensuite été effectuée afin de déterminer le meilleur prédicteur de la moyenne générale
cumulative : sous composantes du TOEFL, score général du TOEFL, tests passés en
Thaïlande, test du British Council, ou encore l’entrevue pré-départ.
Les résultats de cette étude montrent que, d’une part, l’analyse statistique ne met
pas en évidence une quelconque relation entre les résultats aux deux volets de la sélection
(TOEFL et entrevue), mais que, d’autre part, les résultats des postulants sélectionnés lors
de ce processus à la fin des cours d’été suivis en Alberta ne correspondent pas à ceux
obtenus lors de la sélection. Cette étude met alors en évidence l’impossibilité de se baser
sur des résultats, quels qu’ils soient, dans le but de prédire les performances futures d’un
apprenant à cause de la multitude des variables non contrôlées qui peuvent influencer les
résultats finaux des sujets, tels que les facteurs sociaux-affectifs, le dépaysement, le
déracinement culturel, les difficultés à s’adapter au mode de vie occidental pour les
étudiants sélectionnés, etc. Les auteurs émettent de plus de nombreuses réserves envers
l’utilisation du TOEFL comme moyen de recrutement ou de sélection (ce n’est pas le but
premier du test), mais aussi envers la mise en place d’un processus de recrutement par
74
entrevues. Les chercheurs mettent de l’avant le caractère subjectif des évaluations qui ont
eu lieu alors, parfois effectuées par des évaluateurs non formés en langue seconde dans le
but de conserver les coûts au plus bas.
Ces conclusions sont renforcées par Romainville (1997) alors qu’il s’appuie sur
de nombreuses études pour démontrer qu’il n’existe pas de moyen infaillible de prédire la
réussite des étudiants de première année universitaire en Belgique. Il identifie plusieurs
types de facteurs (sociaux, cognitifs, etc.) pour mettre en relief la difficulté, voire
l’inutilité, de tenter d’avoir recours de manière systémique à un moyen prédéterminé de
mesurer le potentiel de réussite de nouveaux admis dans divers programmes. Une des
études qu’il cite (Romainville, 1992) met en lumière la possibilité d’évolution positive ou
négative des étudiants malgré leur profil initial, tributaire de leur origine linguistique, de
leur établissement d’origine, de leur cote, des résultats obtenus lors de l’examen terminal
de l’école secondaire, etc. Pour démontrer cela, Romainville met en parallèle les cotes à
l’entrée d’étudiants locuteurs natifs d’une des trois langues officielles de Belgique
(français, allemand et néerlandais), de divers domaines d’études et leur moyenne générale
en fin de cheminement universitaire. On remarque une complète absence de corrélation
significative, et ce dans n’importe quel domaine d’études.
Le problème identifié par Romainville est un trait propre à son contexte d’étude,
la Belgique, dont le système d’éducation ne possède pas de critère commun pour tous les
élèves finissant l’école secondaire, comme c’est le cas dans la majeure partie des pays
européens, en Amérique du Nord ou les pays développés. En effet, il est important ici de
souligner que la Belgique ne dispose pas d’un examen standardisé qui sanctionne la fin
des études secondaires, comme le fait le Baccalauréat Général en France, les examens du
75
A-Level (Advanced Level) au Royaume-Uni, ou le Abitur de chaque Länder (région) en
Allemagne, qui sont tous des examens standardisés obligatoires qui sanctionnent la fin
des études secondaires et dont les participants ont un âge similaire (17 à 19 ans). En
Belgique, il revient à chaque école d’évaluer ses finissants, mais aucun test n’est fourni
par quelconque institution gouvernementale. Selon Romainville, la conséquence directe
de cette particularité est que les universités belges ne peuvent pas prendre en compte un
résultat issu d’un test commun à tous et s’en servir comme d’un mètre-talon pour porter
un jugement sur la capacité des nouveaux admis à réussir leur adaptation aux études
universitaires et, en fin de cheminement, obtenir leur diplôme. De nombreux candidats
sont donc admis à des programmes universitaires sans que les autorités sachent
réellement s’ils sont capables d’en suivre les cours avec un certain degré de succès.
Romainville fait ressortir une statistique impressionnante : le taux d’échec en première
année universitaire en Belgique est de près de 50%. De là, l’importance pour les
universités belges de trouver un moyen de porter un jugement sur leurs nouveaux admis
avant cet échec, et ce, le plus tôt possible, afin de pouvoir, au besoin, proposer aux
candidats les moins à même de réussir la première année des cours spécifiques avant ou
pendant leur première année d’étude et ainsi leur donner les outils nécessaires à la
réussite. Romainville pose donc les questions suivantes : 1) Peut-on prédire la réussite
d’une première année universitaire à partir des caractéristiques d’entrée (pré acquis,
histoire scolaire, etc.) des candidats? 2) Peut-on prédire la réussite universitaire à partir
des premières indications de leur adaptation académique à l’université? et 3) Peut-on
prédire, sur la base de la réussite universitaire, la réussite professionnelle? Pour répondre
à ces questions, Romainville compare premièrement la note ou cote de fin d’études
76
secondaires de chaque candidat à trois programmes d’études à leur moyenne générale
cumulative (GPA) obtenue à la fin de la première année ; le chercheur compare ensuite
les scores obtenus par chaque étudiant à une épreuve diagnostique obligatoire au tout
début de la première année à la moyenne générale cumulative en fin de cheminement.
L’épreuve diagnostique en question est divisée en quatre parties. Deux de ces parties
concernent la compétence langagière des candidats (un test de connaissances du code
linguistique du français de type questionnaire à choix multiples (QCM) et un cloze test,
dans lequel les candidats doivent compléter un texte à trou selon la classe de mot
appropriée sans le contexte (Grotjahn, 2006 : Hughes, 1989 : Oller, 1973) et deux autres
parties qui visent à évaluer les connaissances générales des candidats à l’entrée à
l’université : un test de type QCM ciblant les préalables de repères chronologiques (dates
importantes de l’Histoire) qui devraient être connus par les étudiants universitaires et une
test (QCM) ciblant les connaissances en termes de repères géographiques attendus par
des étudiants de niveau universitaire).
Romainville arrive à la conclusion que non seulement il n’existe pas de
corrélation assez significative entre les résultats aux différentes sections du test d’entrée
et les résultats finaux des candidats (moyenne cumulative finale) pour être en mesure de
prédire la réussite à partir d’un des éléments cités ci-dessus, mais qu’il est aussi
primordial de prendre en considération d’autres types de facteurs (sociaux, cognitifs,
voire même contextuels et individuels) pour expliquer la réussite ou l’échec des étudiants
universitaires, tout comme l’avaient énoncé Gue et Holdaway en 1973. Quant à la
possibilité de prédire le succès professionnel à partir d’éléments tangibles, tels que la
moyenne générale cumulative, Romainville explique qu’avant même de se poser cette
77
question, il faut définir clairement les critères qui déterminent la réussite professionnelle
au plan individuel et au plan social. Tel que nous l’avons mentionné précédemment, un
tel exercice nécessiterait une longue et coûteuse étude, et à notre connaissance, aucune
étude de ce type n’a été entreprise dans notre contexte. La dernière question de recherche
posée par Romainville anticipe les recommandations des membres de l’AQPF (2001),
sans toutefois y apporter de réponse. Cette lacune, mise en lumière par Romainville, ne
fait que souligner le besoin pressant pour une telle recherche auprès des professionnels de
l’enseignement en emploi.
3.2 Études de type mixte : données quantitatives et qualitatives
Les conclusions de Gue et Holdaway (1973), reprises par Romainville (1997)
dans ses études en Belgique ou Elder dans le contexte australien (1993 ; 2001),
influencent bien entendu les recherches subséquentes. Ainsi n’est-il pas surprenant de
trouver de plus en plus d’études visant l’analyse de la validité prédictive qui vont au-delà
de la simple analyse statistique et qui incorporent plus de facteurs dans leurs analyses.
Ces études s’appuient aussi souvent sur les conclusions apportées par Graham (1987) qui
identifie plusieurs faiblesses de l’approche quantitative uniquement. En effet, dans sa
recension des écrits, Graham (1987) établit plusieurs manquements, méthodologiques
pour la plupart, qui attestent de la complexité des études sur la validité prédictive d’une
épreuve langagière. Elle traite entre autres des problèmes liés au traitement statistique des
données recueillies, c’est-à-dire des différences énormes dans les indicateurs de
corrélation selon la méthode statistique utilisée. Dès lors, on peut se demander si tous les
résultats obtenus ne peuvent pas être mis en doute ou invalidés, uniquement à cause de
l’outil statistique choisi par le chercheur. Graham met ensuite en doute le choix du critère
78
utilisé pour évaluer la validité prédictive, c’est-à-dire qu’elle met en garde les futurs
chercheurs contre l’utilisation de la moyenne générale cumulative, et insinue que, peut-
être, ce critère n’est pas un indicateur de réussite assez fiable et que, de ce fait, les
conclusions basées sur la corrélation avec ce critère peuvent s’avérer erronées. Cette
remarque importante concernant la validité du critère choisi doit donc être conservée en
tête dans toute analyse de la validité prédictive.
Ensuite, et toujours en s’appuyant sur des exemples concrets, Graham (1987)
présente les limites des épreuves de compétence langagière utilisées comme prédicteur.
La scientifique traite ici d’une question centrale pour toute personne impliquée en
évaluation, soit la pertinence de l’épreuve utilisée dans chacun des contextes dans lequel
elle est utilisée, son but, sa portée, les caractéristiques des participants, etc. En somme, sa
validité de construit. Graham pose aussi la question de la justesse de l’évaluation, à savoir
si l’on peut réellement se fier aux résultats d’une épreuve ponctuelle dans un contexte
particulier avec tout ce qu’elle entraine de stress et de nervosité, pour évaluer le niveau de
compétence langagière d’un sujet.
On voit alors émerger un nouveau « courant » méthodologique qui conjugue la
méthode quantitative traditionnelle et la méthode qualitative, explorant et multipliant
ainsi les outils de cueillette de données ainsi que le type de données recueillies. On note
une utilisation accrue d’outils de type questionnaires, par exemple, adressés aux sujets
afin d’obtenir des renseignements qualitatifs sur eux-mêmes et sur leurs perceptions
(Cotton & Conrow, 1998). Les entrevues dirigées ou semi-dirigées sont aussi de plus en
plus courantes (O’Loughlin, 2008). De même, on assiste de plus en plus à une cueillette
de données auprès des enseignants et des membres des facultés (administrateurs ou
79
personnel de support) par le biais de questionnaires et d’entrevues afin de pouvoir croiser
ces données avec celles recueillies auprès des étudiants (Elder, 1993 ; Kerstjens & Nery,
2000 ; Woodrow, 2006) auxquelles s’ajoutent parfois des transcriptions et analyses
discursives des travaux des étudiants (Bayliss & Ingram, 2006) ou encore des études de
cas, très limitées par le nombre de sujets, mais dont les données quantitatives sont
développées à l’extrême (Paul, 2007).
En termes des tests analysés (prédicteurs), comme c’était le cas pour les
recherches de type quantitatif, la plupart des tests standardisés de grands enjeux sont
abordés. Ainsi sont passés au crible l’IELTS (Elder, 1993 ; 2001 ; Ferguson & White,
1998 ; Lloyd-Jones, Neame & Medaney, 2012) et le TOEFL (Hill, Storch & Lynch,
1999). D’autres tests, aussi à grands enjeux mais moins répandus sur la planète, font aussi
l’objet d’études approfondies et détaillées de leur potentiel prédictif : Fulcher (1997)
analyse le test utilisé par l’Université du Surrey pour évaluer les candidats locuteurs
natifs et non natifs ; Lee et Greene (2007) évaluent le test de placement « maison » d’une
grande université américaine ; Alderson, Clapham et Wall (1994) évaluent le test
« maison » utilisé à l’Université de Lancaster pour le placement des candidats dont
l’anglais est la langue seconde.
La recherche d’Elder (1993) est un bel exemple de cette approche mixte et met le
doigt sur plusieurs problèmes d’ordre méthodologique. Les arguments de la chercheure
nous poussent à nous poser des questions sur l’utilisation de la moyenne générale
cumulative comme critère dans les études de la validité prédictive des tests de langue.
Le contexte de l’étude entreprise par Elder est l’utilisation d’un test de
compétence langagière (IELTS, en l’occurrence) pour l’admission d’étudiants étrangers
80
(et donc, d’anglais langue seconde) aux programmes de formation de deuxième cycle en
enseignement de six institutions d’enseignement différentes dans la région de Melbourne,
Australie. Les questions de recherche sont les suivantes : 1) Les performances des
étudiants étrangers au test IELTS sont-elles un bon indicateur de réussite dans des études
de deuxième cycle en éducation? 2) Quel est le degré de précision de l’IELTS par rapport
aux procédures de sélection de chaque institution? 3) Quel est le seuil de réussite optimal
de l’IELTS pour l’accès à des programmes de formation en enseignement? 4) Est-ce que
le degré de réussite aux différents volets de l’IELTS prédit les difficultés éprouvées par
les étudiants étrangers à accomplir les tâches dans les cours du programme? Et
finalement 5) Est-ce que l’exposition à la langue pendant la formation affecte le lien entre
les prédictions et les résultats en fin de cheminement? Les questions de recherche 1 et 4
ont pour objectif de prédire la réussite des sujets à partir d’un seul test administré en tout
début de cheminement. Les questions 2 et 3 ciblent le test IELTS et ses caractéristiques
par rapport à d’autres mécanismes disponibles. Quant à la question 5, elle aborde le sujet
de l’effet d’entrainement, c’est-à-dire, dans quelle mesure la familiarité des sujets avec le
test peut-elle expliquer les résultats obtenus?
Elder explique ensuite très clairement les limites de l’utilisation de la moyenne
générale cumulative car cette dernière prend en compte tous les cours suivis par
l’étudiant, ce qui signifie aussi les stages. Cette formation pratique faisant partie
intégrante de la formation des futurs enseignants (dans notre cas, les stages représentent
jusqu’à 25% du nombre total des crédits d’un programme de formation initiale en
enseignement), et si l’on considère les modalités d’évaluation de ces cours-stages (une
partie non négligeable de la note finale de ces stages, jusqu’à 50% dans certains cas,
81
revient généralement à l’enseignant associé jumelé à l’étudiant évalué pendant le stage),
on se rend vite compte que cette note ne repose malheureusement pas sur des principes
d’évaluation assez fiables pour pouvoir être prise en considération. Il en résulte que la
moyenne générale de l’étudiant est potentiellement faussée par le regard d’un enseignant
trop strict ou trop laxiste. Selon Elder, utiliser la moyenne générale cumulative revient
donc à travailler avec des données corrompues dès le départ, ce qui constitue un problème
méthodologique quasiment impossible à contourner. À partir de cette prémisse, il est
facile de comprendre que toute tentative de corrélation entre les résultats à une épreuve
de compétence langagière d’entrée à un programme en enseignement qui comporte des
stages et la note de moyenne générale cumulative se résume à un exercice invalide
d’avance.
Malgré cette limite importante, Elder décide de poursuivre son étude et arrive à
des conclusions qui précèdent les conclusions avancées dans l’étude de Romainville
(1997). Sa cueillette de données s’est déroulée en deux volets : d’abord, Elder a comparé
les résultats obtenus à un test de compétence langagière (IELTS) imposé à 32 étudiants
étrangers (et dont l’anglais est la langue seconde) admis dans 6 universités australiennes
dans des programmes de formation en enseignement et les a comparés à la moyenne
générale cumulative pour chacun des sujets à la fin de chacun des deux semestres du
programme (mai et septembre). Ensuite, Elder a recueilli des données qualitatives par le
biais d’un questionnaire envoyé aux mêmes sujets dans le but d’établir la validité
apparente du test IELTS dans le contexte d’admission à des programmes de formation en
enseignement. Le questionnaire était composé de trois parties : la première partie était
destinée à connaitre l’opinion des sujets sur l’IELTS comme mesure de leur compétence
82
langagière ; la deuxième partie devait établir leur exposition à la L2 suite à la passation
du test ; la dernière partie devait mettre en évidence les perceptions que les sujets avaient
au sujet de la difficulté des divers aspects des cours qui composaient le programme visé.
Il apparait que les corrélations, bien que peu élevées, soient significatives pour le
premier semestre (corrélation de 0,35 pour la note globale au test IELTS, quoique,
comme le répètent ad nauseam Clapham, Alderson et Wall (1995), ce chiffre semble
représenter le maximum que l’on peut espérer dans les recherches de la validité
prédictive), mais que cette corrélation s’atténue au deuxième semestre (0.14).
L’hypothèse avancée par Elder est que le niveau de compétence langagière a un fort
impact sur les performances des sujets au premier semestre, mais que cet impact tend à
diminuer au fur et à mesure que les sujets sont exposés à la langue seconde, qui est aussi
la langue d’enseignement. Ce sont alors d’autres facteurs qui prennent une plus grande
part dans les résultats obtenus par les étudiants. En somme, Elder avance que la
compétence langagière constitue un facteur de réussite plus important lorsque le niveau
de langue est moins élevé (débutant) et que d’autres facteurs ont une influence plus
importante sur la réussite que la compétence langagière. Cette idée n’est bien entendu
valable que dans le cas où les sujets sont des locuteurs non natifs de la langue-cible.
Cette relation ambiguë entre la compétence langagière et le succès académique
reste donc au centre des préoccupations à la fois des chercheurs et des administrateurs des
programmes universitaires pour qui le choix d’un prédicteur efficace est un enjeu
pécuniaire et financier (Lloyd-Jones, Neame & Medaney, 2012). Alderson, Clapham et
Wall (1994) abordent cette question importante dans leur analyse du test de placement
utilisé à l’Université de Lancaster (Royaume-Uni) mais ne se soucient pas simplement du
83
potentiel prédictif du test « maison » créé à même l’université. Leur objectif est triple :
premièrement, les chercheurs ont voulu évaluer la validité du test en comparant son
contenu au contenu des cours que les sujets auront à suivre pendant leurs programmes
respectifs. Ensuite, la validité apparente (face validity) est évaluée par le biais d’un
questionnaire soumis aux sujets, tous étudiants dont l’anglais n’est pas la langue
maternelle. Troisièmement, la validité critérielle concourante est mesurée en comparant
les scores au test de placement maison aux autoévaluations faites par les sujets et par les
appréciations des enseignants pour chaque sujet. Finalement, les enseignants des cours de
mise à niveau en langue seconde (anglais) doivent se prononcer sur la justesse des
placements qui ont résulté des interprétations des scores au test de placement.
En tout, les chercheurs se sont appuyés sur les données recueillies pour un
échantillon de 130 sujets. Les outils sont de trois natures : le score des sujets au test de
placement, des entrevues avec les enseignants des divers cours (dont les cours de mise à
niveau), et les questionnaires remplis par les sujets. L’analyse de toutes ces données
semblent indiquer que le test maison, créé par l’Institute for English Language Education
(IELE) de l’Université de Lancaster, remplissait le mandat qui était le sien à l’époque où
la recherche a été entreprise.
Cette recherche, entreprise dans un cadre spécifique et sans la prétention d’être
généralisable à d’autres contextes, démontre parfaitement la tendance à a cueillette de
données mixtes, quantitatives et qualitatives, ainsi qu’au croisement de ces données.
Grâce à cette approche hybride, les chercheurs ont pu se baser sur des données ancrées
dans leur contexte particulier et ont pu transcender la simple interprétation de résultats
statistiques. L’apport des données qualitatives permet de moduler les interprétations et
84
ainsi développer une réflexion plus complète et approfondie sur les changements
éventuels à apporter à l’utilisation des tests. Grâce à cette réflexion basée sur des preuves
aussi solides que multiples, il est possible de croire que les changements ne seront que
bénéfiques pour tous les acteurs impliqués : étudiants, enseignants, administrateurs, et de
manière plus large, la société en général.
Si l’étude par Alderson, Clapham et Wall (1994) se restreint à leur milieu
spécifique et au test maison utilisé à l’Université de Lancaster, l’étude suivante doit être
considérée comme une étude dont le contexte est beaucoup plus généralisable en plus
d’être d’un intérêt particulier pour notre propre recherche. Dans cette étude, Elder (2001)
a tenté de démontrer que la tâche de prédire la réussite des étudiants locuteurs natifs dans
un contexte de programme de formation initiale en enseignement est extrêmement
complexe et difficile. La chercheure porte en effet notre attention sur une autre
problématique chère à de nombreux chercheurs en mesure et évaluation et reprend les
idées développées par Bachman (1990) et Bachman et Palmer (1996) en parlant du
Target Language Use (TLU), soit le type de langue adapté à la situation réelle. Son
argument principal est qu’il est difficile, voire impossible, de mesurer les compétences
langagières des enseignants hors du contexte particulier de la classe, contexte qui
caractérise et définit la mission principale des enseignants et donc représente les
conditions d’utilisation de la langue cible propre à la profession. Cette remarque nous fait
nous questionner sur l’utilisation même d’un test de langue standardisé à l’extérieur du
contexte « classe » pour évaluer les compétences langagières d’un corps de métier si
particulier que le corps enseignant. En effet, les enseignants doivent composer avec
tellement d’impondérables dans les situations d’enseignement et d’apprentissage sans
85
jamais cesser d’adapter leur discours à leur auditoire, ce qui rend l’extraction et
l’évaluation d’éléments appartenant à la langue spécialisée des enseignants quasi
impossible hors du cadre de la classe. Pour expliquer cette difficulté, l’auteure s’appuie
sur la définition d’un test de Language for Specific Purposes (LSP) par Douglas (2000) :
[A test] in which the test content and methods are derived from an analysis
of the characteristics of the specific target language use situation, is that
test tasks and content are authentically representative of the target
situation, allowing for an interaction between the test taker’s language
ability and specific purpose content knowledge, on the one hand, and the
task, on the other. Such a test allows us to make inferences about a test
taker’s capacity to use language in the specific purpose domain. (p. 19)
À partir de cette définition des tests de LSP, Elder passe en revue trois procédures
d’évaluation de la compétence langagière des enseignants en service ou en formation, à
savoir premièrement, un examen de sélection des enseignants formés à l’extérieur du
pays et dont l’anglais est la L2 (soit le Diploma of Education Oral Interview Test of
English, ou DOITE), deuxièmement, une série de supervisions visant les enseignants dont
l’anglais est la L2 pendant leur période de stage en milieu professionnel (le Classroom
Language Assessment Schedule, ou CLAsS) et finalement un test de compétence
langagière de la langue cible (italien ou japonais) pour les futurs enseignants de ces deux
langues secondes, le Language Proficiency Test for Teachers (LPTT). À travers l’étude
de ces trois mesures différentes, Elder souhaitait clarifier trois problèmes liés à
l’évaluation des LSP, le premier étant la spécificité, soit comment définir le domaine visé
(TLU) et comment le distinguer des autres TLU, le deuxième relié à l’authenticité, soit le
degré avec lequel les tâches du test reflètent adéquatement les exigences des situations
réelles du TLU et dans quelle mesure le participant est amené à utiliser la langue cible, et
finalement, le rôle des facteurs non verbaux, ou extralinguistiques, et dans quelle mesure
86
ces facteurs devraient être pris en compte dans l’évaluation de la compétence langagière
des candidats ou des participants. Afin d’évaluer chacun des tests visés, Elder a utilisé un
cadre construit à partir des caractéristiques du TLU par Bachman et Palmer (1996) et qui
propose de comparer les quatre composantes suivantes entre les tâches du test et le TLU,
soient : les participants, le canal de l’input et de la réponse attendue et la nature de la
relation entre l’input et la réponse donnée. Malheureusement, Elder n’est pas parvenue à
obtenir des résultats concluants ou significatifs dans son étude, ce qui l’a amenée à
avancer que « the construct of teacher proficiency, as operationalized in these
performance-based measures of teacher proficiency, is clearly multidimensional, and this
poses the problem for the interpretation and reporting of performance » (Elder, 2001, p.
163). Même si Elder apporte une piste de solution éventuelle en la séparation des aspects
spécifiques et généraux de la langue utilisée par les enseignants le problème demeure à
explorer et de solutions vérifiées restent à trouver. De plus, Elder souligne
l’incompatibilité fondamentale entre deux dimensions de la langue spécifique aux
enseignants : d’un côté, on s’attend à une compétence langagière élevée de la part des
enseignants, démontrée par une utilisation de mots savants, par exemple, mais d’un autre
côté, la clarté et la simplicité doit aussi être au centre de leurs préoccupations dans le
contexte de la classe afin de véhiculer leurs messages de manière efficace. Le fait que les
évaluations n’aient pas bénéficié d’un accord inter-juges a renforcé cette incompatibilité
en pénalisant certains candidats concentrés sur un niveau élevé de langue, au détriment de
la clarté ou de la simplicité. Le contexte de la recherche d’Elder (2001) ainsi que ses
conclusions sont bien entendu terriblement proches de nos préoccupations puisqu’elles
rejoignent notre contexte de très près. Cette dernière recherche est certainement un
87
modèle et une inspiration pour notre propre étude, plus particulièrement en termes de
méthodologie.
3.3 Conclusions générales
De toutes les études lues et analysées dans le cadre de cette recherche sur la
validité prédictive d’un test de langue, presque toutes ont comme objet d’étude un test de
langue anglaise comme langue seconde. Notre contexte est bien particulier et se
démarque donc des études publiées jusqu’à ce jour, puisque nous évaluons ici un test de
français langue première (L1) qui s’adresse à des locuteurs natifs du français. De plus, les
mesures de succès utilisées comme critères dans les études ici recensées sont toutes
limitées au succès académique seulement, c’est-à-dire la réussite des sujets dans leurs
programmes d’études respectifs, que ce soit secondaire (Blais, 2001), universitaire de
premier cycle (Huong, 2001 ; Lunneborg, Lunneborg & Greenmun, 1970) ou des cycles
supérieurs (Hackman, Wiggins & Bass, 1970 ; Sharon, 1972). Comme nous l’avons établi
précédemment, le contexte de notre recherche est différent de tout ce que nous avons pu
lire jusqu’à présent, c’est-à-dire un contexte dans lequel l’objet d’étude est un test de
langue qui vise à évaluer les compétences de locuteurs natifs francophones, dans leur
langue maternelle et dans un contexte de programme de formation initiale en
enseignement sanctionné par une autorité ministérielle, donc avec de grands enjeux
doubles très importants : l’accréditation des sujets par le ministère de l’éducation du
Québec (niveau individuel, les étudiants) et le niveau de maîtrise de la langue par les
futurs enseignants (niveau macro, la société québécoise et canadienne en général). Notre
étude se démarque donc par ces caractéristiques particulières, ce qui, dans un sens,
comble un manque dans la littérature scientifique du domaine de l’évaluation des langues.
88
À travers les évolutions et les raffinements conceptuels, théoriques et
méthodologiques cités dans ce chapitre, nous pouvons clairement voir que la validité
prédictive est une caractéristique floue qui nous échappe encore. Cependant, lorsqu’on
procède à une rapide recherche documentaire dans le domaine, on voit parfaitement que
les enjeux sont de taille et qu’il est primordial de raffiner encore les procédures et outils
pour être en mesure, enfin, d’obtenir des réponses sans équivoque à cette question.
Malgré cette difficulté et les limites méthodologiques mentionnées par les auteurs
des recherches citées ci-dessus, il est plus que pertinent de procéder à l’étude du TFLM
dans notre contexte pour plusieurs raisons : premièrement, comme nous l’avons déjà
mentionné, il existe très peu de recherches dont l’objet est un test de langue utilisé dans
un contexte comme le nôtre : test de grands enjeux de langue française, imposé à une
clientèle francophone, dans des programmes de formation initiale en enseignement.
Deuxièmement, les enjeux correspondant aux décisions prises sur la base des
scores au TFLM sont assez importants pour qu’une étude longitudinale du TFLM soit
effectuée. Le test est relativement âgé (près de vingt ans) et, autre que pendant sa
conception, aucune étude n’a, à notre connaissance, été entreprise pour en vérifier la
validité.
Finalement, les enjeux financiers en termes de ressources sont non négligeables et
il s’agit de vérifier si les efforts nécessaires à l’organisation et à l’administration du
TFLM sont justifiés. S’ils ne l’étaient pas, la suppression du test dans notre contexte
constituerait une option à considérer.
En ce qui concerne la méthodologie choisie pour la présente étude, à la vue des
résultats peu probants des études de type qualitatif uniquement exposés ci-dessus, il a été
89
décidé d’opter pour une méthodologie de type mixte qui permet d’analyser des données
de types quantitatif et qualitatif. De cette manière, il nous a été possible de récolter et
d’analyser des données riches et provenant de diverses sources et sur la base desquelles
nous avons pu tirer des conclusions probantes. Dans les pages suivantes, cette
méthodologie mixte sera décrite et exposée en détail : conception, instruments,
procédures et participants.
91
CHAPITRE IV : MÉTHODOLOGIE
Dans ce chapitre, nous exposerons tous les aspects relatifs à la méthodologie
choisie pour mener cette recherche à bien. Le contexte dans lequel l’étude est entreprise
étant défini en détail dans le chapitre I. Il s’agit simplement de se souvenir que l’étude a
été effectuée dans un contexte spécifique, soit une université francophone au Québec, et
plus particulièrement dans quatre programmes de formation initiale en enseignement qui
sont régis de la même manière. Dans la partie qui suit, nous décrirons le type de
recherche entrepris, les différents types de données recueillies, les instruments de
cueillette des données et les procédures de cueillette et d’analyse des données seront
exposés. Nous en profiterons pour répéter les trois questions de recherche qui sous-
tendent l’étude, ainsi qu’une courte mention des considérations éthiques liées au contexte,
à la nature des données et à l’utilisation qui pourrait être faite des conclusions de l’étude.
4.1 Conception de la recherche
Cette recherche a adopté la méthode mixte de convergence parallèle par
triangulation (Convergent Parallel Mixed-Methods Design), telle que proposée par
Creswell et Plano-Clark (2011). Cette méthode, basée sur la collecte de plusieurs types de
données (quantitatives et qualitatives) sans ordre chronologique particulier et
préférablement dans une même période de temps, offre la possibilité de comparer et
mettre en relation les données recueillies afin d’obtenir une interprétation plus exacte du
phénomène analysé, puisque cette interprétation est basée sur plusieurs types de données.
Le chercheur parvient donc à une compréhension accrue du problème observé grâce à la
convergence des preuves recueillies. Ce type de méthodologie est caractérisé par les traits
suivants : la cueillette des données se déroule sur un laps de temps très court ; les données
92
quantitatives et qualitatives sont recueillies de manière indépendante ; les données sont
analysées séparément et ont valeur égale dans l’analyse ; les analyses convergent vers une
conclusion commune (Creswell & Plano, 2010, pp. 73-76, tableau 3.3).
Dans les lignes qui suivent, nous présenterons les participants, les procédures de
cueillette des données ainsi que les instruments de la recherche et les procédures
d’analyse des données.
4.2 Participants
Cent-quarante-cinq (145) étudiants de l’Université Laval, à Québec, ont participé
à cette étude. Les sujets, comme l’ensemble des étudiants inscrits dans les programmes de
formation en enseignement au Québec, sont issus des filières normales, soit les Cégeps du
Québec ou un autre baccalauréat d’une université québécoise. Ils sont francophones
(locuteurs natifs) ou considérés comme tels (locuteurs proches du niveau natif) ; ils
étaient inscrits dans un des quatre programmes de formation initiale en enseignement
suivants : le baccalauréat en enseignement secondaire12, le baccalauréat en enseignement
du français langue seconde13, le baccalauréat en enseignement primaire14 ou le
baccalauréat en enseignement en éducation physique15. Sur ces 145 sujets, quarante-trois
(43) étaient inscrits au baccalauréat en enseignement du français langue seconde
(BEFLS), quarante-quatre (44) sont inscrits au baccalauréat en enseignement secondaire
(BES), quarante-et-un (41) au baccalauréat en enseignement préscolaire et primaire
(BÉPEP) et vingt-et-un (21) au baccalauréat en enseignement de l’éducation physique et
sportive (BEÉPS). L’âge moyen des sujets est vingt-cinq (25) ans. Des cent-quarante-
12 BES 13 BEFLS 14 BEP 15 BEPEP
93
cinq sujets, un quart sont des hommes. Tous les programmes visés sont des programmes
de quatre ans et de cent-vingt (120) crédits universitaires, sanctionnés par le MELS et
supervisés par le CAPFE, organisme paragouvernemental mandaté par le MELS pour
assurer la qualité de l’enseignement dans les universités québécoises offrant des
programmes de formation à l’enseignement (voir contexte de l’étude, chapitre I).
4.3 Les instruments de cueillette des données
Dans les lignes qui suivent, nous décrivons les procédures ainsi que les
instruments pour chacun des trois volets de la recherche : l’étude de base des données
qualitatives recueillies afin d’analyser le TFLM dans son ensemble par rapport aux trois
autres TLU en jeu dans les programmes de formation en enseignement, les données
quantitatives qui serviront à analyser la validité prédictive du TFLM et, enfin, les données
qualitatives qui doivent établir la validité apparente (face validity) du TFLM.
L’étude de base
Étant donné que l’objectif principal du TFLM, la raison de sa création, est de
mesurer la compétence langagière de candidats locuteurs natifs du français à l’admission
de programmes universitaires variés, dont les programmes de formation en enseignement,
et afin de répondre à la première question de recherche (« le TFLM est-il un prédicteur de
réussite fiable dans le contexte d’un baccalauréat en enseignement dans les universités
francophones du Québec? »), la première étape a été de procéder à une étude analytique
des tâches du TFLM et des contextes TLU liés au test. Cette analyse nous a permis de
déterminer si les candidats disposaient des compétences langagières nécessaires à la
réussite de leur projet universitaire, c’est-à-dire si leurs capacités langagières leur
permettraient de suivre et de réussir les différents cours de premier cycle dans un
94
contexte académique et de fonctionner convenablement dans le cadre des programmes de
formation initiale en enseignement. Plus important encore, cette analyse nous a permis de
vérifier, de manière qualitative, si tous les éléments qui constituent ensemble les
mécanismes liés à l’évaluation de la qualité de la langue française dans les programmes
de formation en enseignement dans les deux universités québécoises francophones qui
utilisent le TFLM offrent une continuité et une cohérence pertinentes ou si le processus
d’admission devrait théoriquement être revu. En somme, l’analyse qualitative des tâches
du TFLM et des tâches des contextes TLU nous permet d’obtenir des éléments de
réponse aux questions de recherche 1 et 2.
À cette fin, et en nous basant sur le modèle d’analyse des caractéristiques des
tâches langagières (Framework of Language Task Characteristics) et du modèle de
compétence langagière (Areas of language knowledge et Areas of metacognitive
strategies use) proposés par Bachman et Palmer (2010) pour produire un cadre plus
restreint, nous avons procédé à une quadruple analyse : (1) les caractéristiques des tâches
du TFLM, (2) les contenus linguistiques et les tâches des cours correctifs (cours de mise à
niveau qui font suite au TFLM selon les résultats obtenus pour chacun des candidats), (3)
les contenus linguistiques et les tâches des cours des programmes de formation en
enseignement, et finalement (4) les besoins langagiers de la tâche des enseignants en
fonction seront analysées et confrontées au contenu langagier sollicité par les tâches qui
composent le TFLM.
Les documents utilisés pour effectuer cette analyse détaillée ont été :
Des exemples des tâches présentes dans le TFLM, obtenus par une recherche
documentaire et des entretiens avec les concepteurs du TFLM
95
Les plans de cours complets des cours de mise à niveau FRN-1902, FRN-1903 et
FRN-1904, obtenus auprès de l’École de langue de l’Université Laval (annexe C)
Des exemples des plans de cours des cours obligatoires et optionnels qui
composent les cours des programmes visés (sauf cours de mise à niveau)
Le document référentiel du Ministère de l’Éducation, du Loisir et du Sport
(MELS) du Québec décrivant les orientations de la formation des enseignants
(MELS, 2001).
Les résultats de la quadruple analyse comparative expliquée ci-dessus sont
exposés dans le chapitre dédié à la présentation des résultats (V).
Cueillette des données statistiques dans la base de données centrale : Capsule
Afin de répondre aux questions de recherche 1 (« Le TFLM est-il un prédicteur de
réussite fiable dans le contexte d’un baccalauréat en enseignement dans les universités
francophones du Québec? ») et 2 (« Les cours de mise à niveau ont-ils un impact
important sur la réussite des étudiants obligés de les suivre selon leur résultat au
TFLM? »), nous avons recueilli simultanément dans le système informatique central mis
à la disposition des enseignants et administrateurs de l’Université Laval, Capsule, les
données quantitatives suivantes : (1) la note obtenue au TFLM pour tous les candidats
admis aux programmes concernés, (2) la performance des participants aux cours
correctifs obligatoires (ou cours de mise à niveau 1, 2 et 3, ci-après CMN1, CMN2 et
CMN3) des sujets concernés par cette mesure (selon la note obtenue au TFLM), (3) les
moyennes cumulatives de la session précédant le(s) CMN, (4) les moyennes cumulatives
de la session subséquente au(x) CMN, et enfin (5) la moyenne générale cumulative après
les quatre années du programme. Le tableau IV.1 ci-dessous contient les types de données
96
que nous avons compilées et analysées selon les trois cas de figure qui se présentent, et
ce, pour chacune des cohortes dont la première inscription (appelée session répertoire)
date de 2007, afin d’obtenir des données assez récentes pour toutes les filières visées
(avant cette date, le TFLM n’était pas utilisé comme test d’admission dans les
programmes visés).
Tableau IV.1 : Données quantitatives recuilles dans Capsule
Su
jets
Codage des
sous-
groupes (1
BEFLS ; 2
BES ; 3
BEPEP ; 4
BEÉPS)
Sous-groupes
selon la
performance
au TFLM
(LOW, MID,
HIGH) Sco
re a
u T
FL
M
GP
A a
va
nt
le c
ou
rs 1
No
te a
u C
MN
1
GP
A a
prè
s le
co
urs
1
GP
A a
va
nt
le c
ou
rs 2
No
te a
u C
MN
2
GP
A a
prè
s le
co
urs
2
GP
A a
va
nt
le c
ou
rs 3
No
te a
u C
MN
3
GP
A a
prè
s le
co
urs
3
GP
A à
la
fin
des
4 a
ns
d’é
tud
es
Etc.
Questionnaire envoyé aux étudiants
Afin de répondre à la question de recherche 3 (« Comment les participants
perçoivent-ils le TFLM et les cours de mise à niveau? »), en plus des données obtenues
par l’analyse des caractéristiques des tâches du TFLM et de celles des trois contextes
TLU déjà mentionnés, nous avons recueilli des informations relatives à l’opinion des
sujets sur le TFLM. À cette fin, un questionnaire a mis en relief les perceptions des
participants envers le contenu du test, sa pertinence, l’apport des cours correctifs au
cheminement des étudiants, la structure du test, les conditions de passation et les
conséquences engendrées par les cours correctifs obligatoires. Une dernière question
ouverte invitait les répondants à suggérer des améliorations au processus d’admission
dans sa globalité ou à partager leur expérience de manière plus personnelle.
97
Ce questionnaire (annexe D) est inspiré d’Elder (1993) et adapté à nos besoins
particuliers. À des fins de validation, le questionnaire adapté a été administré à un
échantillon de cinq étudiants représentatifs de la population générale des baccalauréats en
enseignement de l’Université Laval. Les suggestions et opinions de ces étudiants ont
généré des changements dans l’organisation et la teneur des items du questionnaire, le
rendant plus clair et compréhensible en plus d’extraire les informations recherchées de
manière plus efficace. Par rapport au questionnaire d’Elder, les changements effectués
concernent en particulier le fait qu’Elder s’adressait à des locuteurs non natifs dans sa
recherche de 1993 dans laquelle elle évaluait la validité prédictive du test IELTS utilisé
comme test d’admission pour des candidats étrangers à un programme de formation en
enseignement d’une université australienne. Le but du questionnaire d’origine était
d’évaluer non seulement la validité apparente du test IELTS à des fins d’admission, mais
aussi d’évaluer la perception des sujets en termes d’efficacité des cours de soutien
linguistique offerts par l’université en question par rapport à leur progrès en L2. Cette
dimension a aussi été reprise dans notre questionnaire car le même dispositif de cours de
mise à niveau a été mis en place pour les étudiants démontrant des difficultés en langue,
malgré le fait que le français soit la L1 de nos participants.
Le questionnaire est donc composé de cinq parties. La première partie correspond
à l’identification du répondant ; la deuxième partie cible la perception du répondant
envers le TFLM lui-même (structure, niveau, pertinence) ; la troisième partie correspond
à l’utilisation de la langue cible dans le contexte des études de premier cycle en
enseignement ; la quatrième partie vise à déterminer la perception que les répondants ont
des cours de mise à niveau qu’ils ont dû suivre (selon leur note au TFLM) ; la cinquième
98
et dernière partie est une question ouverte qui invite les répondants à suggérer des
améliorations au TFLM. Les parties deux, trois et quatre sont composées de vingt-trois
(23) questions à choix multiples gradués sur une échelle de Likert à cinq points (le degré
1 correspondant à « Pas du tout d’accord » et le degré 5 correspondant à « Tout à fait
d’accord »). Le questionnaire a été administré électroniquement. Les réponses ont été
compilées et présentées dans un tableau récapitulatif qui figure au chapitre V de ce
document.
4.4 Procédures d’analyse des données
Dans la partie précédente, nous avons présenté les instruments que nous avons
utilisés pour recueillir les données pour chacune des trois phases de l’étude. Dans les
lignes qui suivent, nous décrivons les procédures utilisées pour analyser les données
recueillies.
L’étude de base
L’étude de base (baseline study) consiste en l’analyse des caractéristiques du
TFLM par rapport aux caractéristiques des trois autres TLU présents dans notre contexte.
Les données ont été ordonnées dans trois tableaux, chaque tableau présentant les données
relatives aux caractéristiques des tâches du TFLM selon un angle différent et basé sur les
modèles de Bachman et Palmer (2010) auxquels nous avons fait référence auparavant.
Ces données, mises côte à côte, permettent d’obtenir un portrait clair et concis des
caractéristiques des tâches pour le TFLM et les trois contextes TLU attachés aux
programmes de formation en enseignement à l’Université Laval. Ces données ont été
comparées et analysées afin de mettre en lumière les correspondances (ou différences)
99
entre le TFLM et les trois contextes TLU visés (cours des programmes visés, cours
correctifs en français et profession enseignante). Les résultats sont exposés au chapitre V.
Données quantitatives
Le deuxième volet de la recherche a été l’analyse des données quantitatives. Des
analyses statistiques corrélationnelles, de la régression et de la variance (ANOVA) ont été
effectuées pour chaque étudiant et leurs données chiffrées. Toutes les opérations
statistiques ont été effectuées à l’aide du logiciel de traitement des données statistiques
IBM Statistical Package for the Social Science, (SPSS) et vérifiées par un professionnel
en analyses statistiques.
Le tableau ci-dessous (tableau IV.2) présente les données recueillies pour mener à
bien ce volet de la recherche ainsi que le codage utilisé pour les opérations statistiques :
les résultats à l’épreuve du TFLM, les notes obtenues aux différents cours correctifs
éventuels (moyennes cumulatives intermédiaires), et la moyenne générale cumulative en
fin de formation.
Tableau IV.2 : Données statistiques analysées et codage
Variables indépendantes (VI) Variables dépendantes (VD)
TFLM : VI 1 Note au CMN1 : VD1
Moyenne globale avant le CMN1 : VI 2
Note au CMN2 : VD2
Moyenne globale après le CMN2 : VI 3
Note au CMN3 : VD3
Moyenne globale avant le CMN3 : VI 4
Sous-groupes des étudiants avec TFLM ≥ 75% : Variable
dépendante spécifique 1 (VDS1) HIGH, codés 0 dans le
fichier EXCEL
Moyenne globale après le CMN3 : VI 5
Sous-groupes des étudiants avec TFLM ≤ 74% : Variable
dépendante spécifique 2 (VDS2) MID codée 1 dans le
fichier EXCEL
Note : CMN = Cours de Mise à Niveau Sous-groupes des étudiants avec TFLM ≤ 59% : Variable
dépendante spécifique 3 (VDS3) LOW codés 2 dans le
fichier EXCEL
100
Données qualitatives : le questionnaire
En ce qui concerne les questionnaires, les données fournies par les répondants ont
été analysées et transcrites en statistiques descriptives. De plus, les réponses des
répondants ont été transcrites et analysées qualitativement afin de connaitre leurs
perceptions du TFLM et son impact sur leur cheminement. Il était attendu que ces
données fourniraient des pistes de réflexion qui pourraient favoriser une prise de décision
éclairée et informée sur l’avenir du TFLM et des mécanismes que constituent les cours de
mise à niveau.
101
CHAPITRE V : PRÉSENTATION DES RÉSULTATS ET
DISCUSSION
Dans ce chapitre, nous détaillons les résultats obtenus lors de la cueillette des
données effectuée et décrite dans le chapitre précédent. En premier lieu, nous décrivons
en détail les caractéristiques du TFLM, les tâches qui le composent et des conditions
logistiques dans lesquelles il se déroule chaque année, données basées sur les documents
authentiques que nous nous sommes procurés auprès de l’institution de notre contexte,
soit l’Université Laval, ainsi que des données appartenant au domaine public. Cette
première tâche a pour mandat de répondre en partie à la première question de recherche
(« Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un baccalauréat en
enseignement dans les universités francophones du Québec? ») et doit établir si les tâches
du TFLM correspondent aux tâches des contextes TLU dans lesquels les étudiants
doivent fonctionner. Les résultats de cette étude comparative sont basés sur les modèles
d’analyse des caractéristiques des tâches (1996) et du cadre des compétences langagières,
composé de la connaissance de la langue (areas of language knowledge) et des aspects
liés aux stratégies métacognitives (areas of metacognitive strategies use) tous les deux
par Bachman et Palmer (2010).
Deuxièmement, nous décrivons les résultats des analyses des données
quantitatives recueillies dans le système centralisé de l’université, appelé « Capsule ».
Les résultats de l’analyse des données statistiques, jumelée à l’analyse des
caractéristiques des tâches du TFLM ont été utilisés afin de répondre à la fois à la
première question (« Le TFLM est-il un prédicteur de réussite fiable dans le contexte
102
d’un baccalauréat en enseignement dans les universités francophones du Québec? ») et à
la deuxième question de recherche (« Les cours de mise à niveau ont-ils un impact
important sur la réussite des étudiants obligés de les suivre selon leur résultat au
TFLM? »).
Finalement, les données qualitatives recueillies par le biais du questionnaire ont
été transcrites, placées à l’intérieur de tableaux et analysées. Cette opération avait pour
but de déterminer les perceptions que les candidats au TFLM ont vis-à-vis le test et ainsi
répondre à la troisième question de recherche (« Comment les participants perçoivent-ils
le TFLM et les cours de mise à niveau? »).
5.1 Analyse des tâches du TFLM par rapport aux tâches des contextes TLU du
contexte
En utilisant le modèle d’analyse des caractéristiques des tâches langagières
(Framework of Language Task Characteristics) proposé par Bachman et Palmer (2010),
les caractéristiques des tâches du test (TFLM) ont été définies et les construits qui sont
réellement évalués par le TFLM ont été identifiés. Ensuite, les caractéristiques des tâches
de chacun des trois contextes TLU, soit les tâches à l’intérieur des cours du programme,
les tâches à l’intérieur des cours obligatoires de mise à niveau en français et les besoins
linguistiques de la profession enseignante, ont été à leur tour définies. Cette comparaison
des caractéristiques des tâches du TFLM avec celles des trois contextes TLU nous a
permis d'établir si le contenu du test porte sur les éléments linguistiques nécessaires dans
ces trois contextes. Pour mener à bien cette comparaison, nous avons utilisé des exemples
concrets pour chacune des parties dans notre contexte, soit un programme de baccalauréat
en enseignement à l’Université Laval, à Québec. Les tableaux V.1, V.2 et V.3 présentent
103
de manière détaillée de nombreux aspects liés au TFLM et aux trois contextes TLU
présents dans un programme de formation initiale en enseignement à l’Université Laval,
le baccalauréat en enseignement du français langue seconde : TLU1 (tâches dans le cours
du programme ciblé), TLU2 (tâches dans les cours de mise à niveau) et TLU3 (tâches de
la profession enseignante).
Étant donné que certaines parties du tableau possèdent déjà des notes relatives aux
termes ou sous-parties, nous nous sommes concentrés ici sur les termes qui ne sont pas
expliqués de manière explicite. Après les explications des termes spécialisés de chacun
des tableaux, nous pointerons de manière précise les éléments de chaque tableau qu’il
convient de prendre en considération dans l’analyse. À partir de ces observations, nous
pourrons établir si le TFLM correspond aux tâches auxquelles il est censé préparer les
candidats des programmes visés.
104
Tableau V.1 : Analyse comparée des buts, des tâches du TFLM, des cours du programme du BEFLS
(TLU1), des cours de mise à niveau FRN-1902, FRN-1903 et FRN-1904 (TLU2), Université Laval,
hiver 2014, et des tâches du contexte de la profession enseignante (TLU3).
Type d’analyse TFLM Tâches du TLU 1 :
cours des
programmes visés
Tâches du TLU 2 :
cours correctifs en
français
Tâches du TLU 3 :
profession
enseignante
(basées sur le
référentiel MELS
2001, compétences
1 et 2 uniquement)
L’INFERENCE
Le construit que le test est
censé mesurer ou le
construit nécessaire à
l’accomplissement de la
tâche
Compétence
langagière en français
écrit (niveau suffisant
pour suivre les cours
des programmes
visés)
Compréhension
des contenus
disciplinaires ou
non disciplinaires
abordés pendant
les cours du
programme. Cours
de linguistique,
littérature,
didactique,
anthropologie,
communication,
etc.
Voir plans de
cours FRN-1902,
FRN-1903 et
FRN-1904.
« Le cours vise
l'acquisition
d'automatismes
orthographiques et
grammaticaux qui
s'appuient sur la
compréhension du
fonctionnement de
la langue écrite.
On insiste de façon
particulière sur les
erreurs les plus
fréquentes relevées
dans les
productions écrites
des étudiants. »
Employer une
variété de langage
oral appropriée
dans ses
interventions
auprès des
élèves, des parents
et des pairs.
Respecter les
règles de la langue
écrite dans les
productions
destinées aux
élèves, aux
parents et aux
pairs.
Pouvoir prendre
position, soutenir
ses idées et
argumenter à leur
sujet de manière
cohérente,
efficace,
constructive et
respectueuse lors
de discussions.
Communiquer ses
idées de manière
rigoureuse en
employant un
vocabulaire précis
et
une syntaxe
correcte.
Corriger les
erreurs commises
par les élèves dans
leurs
communications
orales et
écrites.
Chercher
constamment à
améliorer son
expression orale et
105
écrite.
L’USAGE
Les décisions qui seront
prises sur la base des notes
Obligation de suivre
1, 2 ou 0 cours de
mise à niveau ; offrir
la possibilité aux
étudiants de suivre
les cours de mise à
niveau afin de les
aider à compléter le
programme visé avec
succès.
« Les étudiants qui
ne démontrent pas
une maitrise
satisfaisante des
contenus abordés
et des
connaissances
mesurées pendant
les évaluations
(qui sont préparées
par les enseignants
de chaque cours,
pas de test
standardisé) de
chaque cours
devront repasser le
même cours. Après
2 échecs au même
cours, l’étudiant
peut être exclu du
programme ou être
placé en probation
(règlement des
études). La note de
chaque cours est
compilée dans la
moyenne globale
générale (GPA)
qui doit atteindre
un minimum établi
pour chaque cycle
pour que l’étudiant
puisse obtenir son
diplôme. »
« Les étudiants qui
ne démontrent pas
une maitrise
satisfaisante des
contenus abordés
et des
connaissances
mesurées pendant
les évaluations
(qui sont préparées
par les enseignants
de chaque cours,
pas de test
standardisé) de
chaque cours
devront repasser le
même cours. Après
2 échecs au même
cours, l’étudiant
peut être exclu du
programme ou être
placé en probation
(règlement des
études). La note de
chaque cours est
compilée dans la
moyenne globale
générale (GPA)
qui doit atteindre
un minimum établi
pour chaque cycle
pour que l’étudiant
puisse obtenir son
diplôme. »
Le risque de ne pas
obtenir de poste si
la compétence 1
est jugée trop
faible.
L’IMPACT PRÉSUMÉ
Sur les étudiants Placement des
candidats dans des
groupes (HIGH, MID
et LOW) selon le
score obtenu au
TFLM, censé
déterminer le niveau
de compétence
langagière. Des cours
correctifs
accompagnent ce
placement.
Les cours
disciplinaires
contiennent les
contenus
nécessaires au
fonctionnement
des étudiants dans
leur future
profession.
Les cours
correctifs doivent
aider les étudiants
les moins
performants à
combler leurs
lacunes, identifiées
par le TFLM, afin
de mieux réussir
dans leurs cours
disciplinaires et
finalement être
plus compétents
dans leur vie
professionnelle.
Contexte
professionnel et
des stages doit
permettre aux
étudiants
d’intégrer les
compétences
développées en
cours et ainsi
faciliter la
compréhension et
l’acquisition de
concepts.
Sur les professeurs Aucun, en lui-même.
Logistiquement
parlant, certains
enseignants peuvent
être amenés à
surveiller la passation
du test.
Les professeurs
sont responsables
du contenu et de la
pédagogie dans les
cours
disciplinaires.
L’acquisition des
contenus des cours
correctifs doivent
augmenter la
compétence
langagière des
étudiants, et ainsi
L’intégration des
concepts
théoriques dans les
milieux de stage
facilite
l’enseignement et
l’apprentissage
106
augmenter les
performances dans
les cours
disciplinaires.
dans les cours à
l’université, et de
ce fait, facilite le
travail des
professeurs.
Sur les systèmes :
De la classe Classer les candidats
dans des cours
correctifs selon leur
niveau de
compétence
langagière ;
uniformiser/hausser
le niveau de
compétence
langagière des
étudiants dans les
classes.
Acquisition des
concepts
indispensables à la
profession
envisagée
Amélioration de la
compétence
langagière,
uniformisation du
niveau de
compétence
Intégrer les
concepts abordés
en cours, favoriser
l’acquisition des
concepts.
Des programmes Sélectionner
seulement les
meilleurs étudiants
dans les programmes
de formation en
enseignement.
Les cours qui
composent les
programmes
doivent fournir les
outils et concepts
nécessaires au
fonctionnement
dans la profession
visée. Plus ils
s’acquittent de
cette mission, plus
les programmes
sont valorisés et
convoités.
Les cours
correctifs
augmentent la
compétence
langagière des
étudiants des
programmes.
Ceux-ci permettent
alors au
programme de
rayonner et d’avoir
une bonne
réputation auprès
des partenaires des
milieux.
Une collaboration
étroite est
essentielle entre
les milieux
professionnels, par
le biais des
diplômés ou des
stagiaires, afin de
faciliter le
recrutement des
finissants, des
candidats et le
placement des
stagiaires.
La société TFLM agit comme
gardien des
programmes en
enseignement, seuls
les meilleurs
candidats sont admis.
Les cours
disciplinaires sont
ajustés au besoin
de la société
puisqu’ils abordent
les contenus
nécessaires aux
enseignants futurs.
Les enseignants
sont donc
compétents et
performants.
Les futurs
enseignants sont
des professionnels
de la langue et ils
sont formés à cet
égard. Valorisation
de la profession.
La profession
enseignante est
une des pierres
angulaires de la
société : formation
des dirigeants de
demain et des
citoyens qui
participent à la vie
de la société.
La première partie, soit l’analyse des buts de chacun des contextes d’utilisation de
la langue cible (cours du programme visé, cours de mise à niveau et contexte d’utilisation
de la langue dans un environnement réel d’enseignement) ne nécessite aucune précision
d’ordre terminologique car tous les termes sont déjà expliqués à l’intérieur même du
tableau. De plus, dans le chapitre dédié au cadre théorique, nous avons défini plusieurs
des éléments présents dans le tableau V.2 ci-dessous.
107
Tableau V.2 : Analyse comparée des composantes de la composante langagière des tâches du
TFLM, des cours du programme du BEFLS (TLU1), des cours de mise à niveau FRN-1902, FRN-
1903 et FRN-1904, Université Laval, hiver 2014 (TLU2), et des tâches du contexte de la profession
enseignante (TLU3).
Type d’analyse TFLM Tâches du TLU
1 : cours des
programmes
visés
Tâches du TLU
2 : cours
correctifs en
français
Tâches du TLU
3 : profession
enseignante
(basées sur le
référentiel MELS
2001,
compétences 1 et
2 uniquement)
LA CONNAISSANCE ORGANISATIONNELLE
La connaissance grammaticale
La connaissance du
vocabulaire
(Spécialisée
selon les cours)
La connaissance de la
syntaxe
La connaissance de la
phonologie et de la
graphologie
La connaissance textuelle
La connaissance de la
cohésion
La connaissance de
l’organisation, de la
rhétorique et de la
conversation
LA CONNAISSANCE PRAGMATIQUE
La connaissance fonctionnelle
(Les buts des énoncés
dans la communication)
La connaissance sociolinguistique
La connaissance des
variétés de langue
La connaissance du
registre
La connaissance
d’énoncés idiomatiques
ou naturels
La connaissance
d’énoncés culturels
Le tableau V.3 ci-dessous compare les caractéristiques des tâches du TFLM aux
caractéristiques des tâches des trois TLU présents dans notre contexte spécifique.
108
Tableau V.3: Analyse comparée des caractéristiques des tâches du TFLM, des cours du programme
du BEFLS (TLU1), des cours de mise à niveau FRN-1902, FRN-1903 et FRN-1904 Université Laval,
hiver 2014 (TLU2), et des tâches du contexte de la profession enseignante (TLU3).
Type d’analyse TFLM Tâches du TLU
1 : cours des
programmes
visés
Tâches du TLU
2 : cours
correctifs en
français
Tâches du TLU
3 : profession
enseignante
(basées sur le
référentiel MELS
2001,
compétences 1 et
2 uniquement)
CARACTÉRISTIQUES DU CONTEXTE D’ADMINISTRATION
Caractéristiques
physiques; participants;
l’heure et la durée
Caractéristiques
physiques du
lieu : salles de
cours de
l’université (avec
tout que cela
implique en
termes de
température,
luminosité,
humidité, bruit,
etc.)
Durée : 90
minutes;
Heure : variable;
Nombre de
candidats
variable.
Très variables
En cours à
l’Université
Caractéristiques
physiques :
Salles de cours
de l’université
(avec tout que
cela implique en
termes de
température,
luminosité,
humidité, bruit,
etc.)
Participants :
collègues des
programmes
universitaires de
formation en
enseignement ET
étudiants d’autres
programmes ET
professionnels
(enseignants) en
processus de
développement
professionnel.
Heure variable ;
durée semblable
à tout cours
universitaire.
En milieux de
stage
Caractéristiques
physiques :
Salles de classe
des écoles du
Québec, du
Canada et à
l’international
(variations
Caractéristiques
physiques :
Salles de cours
de l’université
(avec tout que
cela implique en
termes de
température,
luminosité,
humidité, bruit,
etc.)
Participants :
collègues des
programmes
universitaires de
formation en
enseignement ET
étudiants d’autres
programmes ET
professionnels
(enseignants) en
processus de
développement
professionnel.
Heure variable ;
durée semblable
à tout cours
universitaire.
Caractéristiques
physiques :
Salles de classe
des écoles du
Québec, du
Canada et à
l’international
(variations
considérables des
caractéristiques
physiques)
Participants :
apprenants de
tous niveaux, tout
ordre, tout âge.
Heure et durée :
variables ; temps
plein (8 heures
par jour, 5 jours
par semaine) ou
temps partiel.
109
considérables des
caractéristiques
physiques)
Participants :
apprenants de
tous niveaux, tout
ordre, tout âge.
Heure et durée :
variables ; temps
plein (8 heures
par jour) d’une
journée par
semaine à
quotidienne.
CARACTÉRISTIQUES SPÉCIFIQUES À L’ADMINISTRATION DES TÂCHES
Directives En français ; les
consignes sont
claires mais
changent selon la
partie du test
(énoncé E).
En salle de classe
à l’université :
Consignes et
travaux à
exécuter en
français.
Tous types de
travaux (rapports,
résumés
d’articles
scientifiques,
réponses courtes
à questions
spécifiques,
analyses,
réponses à
développement,
Questionnaire à
choix multiples
(QCM), etc.).
2. En milieu de
stage
Tâches explicites
d’observation et
d’enseignement.
Rédaction d’un
rapport de stage.
Consignes et
travaux à
exécuter en
français.
Tous types de
travaux (rapport,
résumés
d’articles
scientifiques,
réponses courtes
à questions
spécifiques,
analyses,
réponses à
développement).
Toute tâche liée à
l’enseignement
de la discipline
choisie plus
parfois tâches
administratives
connexes.
Modalités des tâches Un cahier où
figurent les
questions; fiche
de réponses
séparée (cocher /
noircir la bonne
réponse)
En salle de classe
à l’université :
Travaux
individuels et en
équipes
Travaux en classe
et « maison »
Travaux en ligne,
sur papier et sur
plateforme
Travaux
individuels et en
équipes
Travaux en classe
et « maison »
Travaux en ligne,
sur papier et sur
plateforme
informatique
(Word ou autre
Toute tâche liée à
l’enseignement
de la discipline
choisie plus
parfois tâches
administratives
connexes.
110
informatique
(Word ou autre
logiciel de
traitement de
texte)
2. En milieu de
stage :
Interactions avec
des apprenants de
tous niveaux,
Organisation
matérielle des
tâches du TLU
tout âge, toute
origine.
Discussions avec
les enseignants
associés.
logiciel de
traitement de
texte) Grammaticiels
(travaux
individuels sur
plateforme
informatique)
Temps alloué 90 minutes Variables
(travaux et
examens dans
salles de cours à
l’université ou
travail fait à la
maison)
Variables
(travaux et
examens dans
salles de cours à
l’université ou
travail fait à la
maison).
Variables
Modalités de notation Lecteur optique. Variables
(travaux et
examens dans
salles de cours à
l’université ou
travail fait à la
maison).
Variables
(travaux et
examens dans
salles de cours à
l’université ou
travail fait à la
maison).
Aucune
CARACTÉRISTIQUES SPÉCIFIQUES DE L’INPUT
Format de la présentation Variable : 4
énoncés dont un est
incorrect
(identification
d’erreur) + un
énoncé stipulant
qu’il n’y a aucune
erreur dans les
énoncés proposés
(énoncé e)
Articles
scientifiques
Lectures
(séminaires)
Cours magistraux
Ateliers
Résolution de
problèmes
Cours magistraux
Ateliers
Résolution de
problèmes Grammaticiels
Variable
(matériel à partir
duquel
l’enseignant en
fonction prépare
son
enseignement)
CARACTÉRISTIQUES SPÉCIFIQUES DES RÉPONSES ATTENDUES (OUTPUT)
Format de la
performance
Choix de réponse. Rapport
Travaux
pratiques
Réponses courtes
Réponses à
développement
QCM
Définitions à
copier
Types
d’évaluation :
Exercice d’analyse
d’erreurs
Rédaction
Examen de langue
(code linguistique)
Exercice
d’autocorrection
Grammaticiels
(exercices sur
plateforme
en classe et hors
classe, toute tâche
liée à l’acte
d’enseigner (voir
les sous-
composantes des
douze compétences
professionnelles de
l’enseignant)
111
informatique)
Contenu langagier des
réponses (longueur des
textes; caractéristiques
organisationnelles et
pragmatiques;
caractéristiques du
thème)
Aucune
production
(output) rédigé
par le candidat. Il
s’agit d’un
questionnaire à
choix multiples.
Organisation et
nombre
d’énoncés :
Orthographe
lexicale : 4 items
Orthographe
grammaticale :
24 items
Morphologie : 5
items
Syntaxe : 13
items
Vocabulaire : 19
items
Total : 65 items.
Variable selon la
tâche (voir
format de la
performance).
Cependant, le
contenu langagier
des réponses
attendues par le
TLU sollicitera
des construits
plus poussés que
la seule
connaissance du
code linguistique
du français.
Variable selon la
tâche (voir
format de la
performance).
Cependant, le
contenu langagier
des réponses
attendues par le
TLU sollicitera
des construits
plus poussés que
la seule
connaissance du
code linguistique
du français.
Variable selon la
tâche (voir
format de la
performance).
Cependant, le
contenu langagier
des réponses
attendues par le
TLU sollicitera
des construits
plus poussés que
la seule
connaissance du
code linguistique
du français.
LA RELATION ENTRE LE CONTENU DES TÂCHES TLU ET LES RÉPONSES ATTENDUES
Réactivité (réciproque,
non réciproque, adaptée)
- reactivity
Non réciproque Non réciproque Non réciproque Réciproque ou
adaptive
Portée de la relation –
scope
Limité Variable Variable Variable
Proximité de la relation –
directness
Indirecte Directe Directe Directe
À noter que dans notre cas, une des caractéristiques les plus importantes des
tâches reste le contenu langagier de la question et celui attendu dans la réponse. En
l’occurrence, ces caractéristiques correspondent aux construits visés nécessaires à
l’accomplissement des tâches du test et des TLU du contexte. On voit donc clairement
dans le tableau que les construits sollicités par les tâches du TFLM sont différents des
construits sollicités par les tâches des TLU du contexte, de sorte que les construits mis en
évidence par les tâches du TFLM sous-représentent les construits des TLU (Messick,
112
1996). Les construits nécessaires à la réussite des tâches des TLU1, TLU2 et TLU3 sont a
priori plus complexes que les construits sollicités par les tâches du TFLM.
La réactivité (reactivity) correspond au degré d’influence d’une question ou d’une
réponse sur la question ou la réponse suivante. Les degrés de cette relation de réactivité
peuvent être un des trois suivants : réactivité réciproque, réactivité non-réciproque ou
réactivité adaptive (Bachman & Palmer, 2010). La tâche est dite « réciproque » si les
productions sont le produit direct de l’interaction, par exemple dans le cas d’une entrevue
en personne. Deux traits caractérisent ce type de tâche : premièrement, le candidat reçoit
des retours de manière constante (par son interlocuteur, de manière verbale ou non-
verbale) et deuxièmement, les échanges entre les deux interlocuteurs affectent
directement la suite de l’interaction. Une tâche « non-réciproque », par ailleurs,
n’implique aucune interaction. La tâche ne change pas selon la réponse donnée par le
candidat. Un test de lecture, par exemple, ou une dictée, sont des tâches non-réciproques
car le contenu est fixe et ne change pas au fur et à mesure que la tâche est remplie.
Finalement, une tâche « adaptive » est une tâche dont la suite des items et leur
progression changent au fur et à mesure que le candidat les accomplit. La deuxième
question d’une tâche sera donc différente selon si la réponse à la question 1 a été correcte
ou incorrecte, et ce, sans forcément laisser le candidat en être conscient par le biais d’un
retour (correction ou validation de la réponse donnée en 1). Ce type de tâche est fréquent
lorsqu’il s’agit de tests informatisés, par exemple.
Le deuxième aspect à éclaircir concerne la portée de la relation (scope of
relationship) existante entre les tâches du TLU et les réponses attendues. La portée de la
relation correspond à la quantité d’input à traiter par le candidat avant d’être en mesure
113
d’accomplir la tâche demandée. Par exemple, dans notre contexte, les questions qui
composent le TFLM sont des questions de type QCM dont l’input est constitué par une
question courte. On peut donc dire que la portée de la relation est étroite ou limitée car le
candidat n’a pas besoin d’analyser beaucoup de contenu avant de pouvoir répondre à la
question posée. Au contraire, si beaucoup d’input doit être traité par le candidat avant de
pouvoir répondre à la question, on dit que la relation est large. Par exemple, lors d’une
tâche d’écoute, on pourrait demander au candidat de faire ressortir le sujet général de
l’extrait utilisé. Le candidat devra écouter l’extrait en entier avant de pouvoir formuler
une réponse.
Finalement, la proximité (directness) dans la relation entre le contenu des tâches
du TLU et les réponses attendues correspond au degré auquel les informations fournies
dans la question sont suffisantes pour que le candidat puisse donner une réponse
satisfaisante ou si celui-ci doit puiser dans d’autres connaissances, personnelles ou liées
au contenu, afin de répondre à la question posée (Bachman & Palmer, 2010, p. 81). Une
tâche de production orale, par exemple, sera dite directe si l’exécution de celle-ci se base
sur des éléments qui sont tous disponibles à l’intérieur même de l’input, comme la
description d’une photo, par exemple. Au contraire, si le candidat doit puiser dans ses
connaissances personnelles, comme pour donner son opinion sur un événement récent,
par exemple, ou faire des liens entre un événement donné et d’autres événements récents,
on dira que la tâche est indirecte puisque l’évaluation sera basée en partie sur des
connaissances qui ne faisaient pas partie de l’input immédiatement disponible.
Les caractéristiques des tâches du TFLM et ceux des contextes TLU
correspondants, exposées dans les tableaux V.1, V.2 et V.3, soulignent premièrement que
114
les construits évalués par le TFLM sont très différents de ceux recherchés dans chacun
des trois TLU analysés (tableau V.1). Le TFLM évalue la compétence langagière
correspondant à la reconnaissance d’éléments relevant du code linguistique, et ce,
uniquement à l’écrit. L’oral est complètement absent de l’épreuve, que ce soit la
compréhension ou la production. De même, la compréhension écrite, qui est pourtant au
centre de deux autres volets analysés (cours disciplinaires et cours de mise à niveau),
n’est pas du tout évaluée. Quant à la production écrite, elle n’est pas mesurée de manière
à vérifier autre chose que la reconnaissance du code linguistique. Ces éléments, liés aux
caractéristiques des tâches et les éléments linguistiques mesurés, sont abordés plus en
détail dans le tableau V.2. On peut donc voir un premier décalage entre les tâches exigées
dans le TFLM et les tâches que les étudiants des programmes visés devront effectuer au
cours des quatre années qui composent leur cheminement régulier. De plus, si l’on
compare le construit évalué dans le TFLM aux composantes de la compétence 2 du
référentiel du MELS (2001), on voit très bien que le TFLM ne reflète aucunement
l’ampleur des besoins linguistiques et langagiers de la profession enseignante. La
compétence communicative à l’oral est complètement absente, comme nous l’avons
mentionné ci-dessus, ce qui semble un élément manquant au test quand on regarde le
nombre d’informations qu’un enseignant doit transmettre à ses apprenants
quotidiennement.
Deuxièmement, le TFLM ne mesure qu’une infime partie des connaissances qui
composent la compétence communicative (tableau V.2). Seules trois connaissances sont
abordées dans le TFLM, soit les connaissances du vocabulaire, de la syntaxe et de la
cohésion. Le premier constat est que ces trois connaissances uniquement sont bien
115
entendu insuffisantes afin de fonctionner de manière efficace, quel que soit le contexte.
Les connaissances phonologiques ne sont aucunement abordées (puisque l’oral est
complètement absent du TFLM) ainsi que tous les éléments regroupés sous la
connaissance pragmatique (connaissance fonctionnelle et connaissance sociolinguistique)
malgré le fait que ces deux ensembles soient indispensables à une communication
efficace dans un contexte authentique de communication. Si l’on regarde ensuite les
connaissances nécessaires dans les contextes des cours disciplinaires des programmes
visés (TLU1) ou dans celui des cours de mise à niveau (TLU2), on voit que celles-ci sont
beaucoup plus complètes et sont presque toutes sollicitées. Il y a donc un décalage
flagrant entre les habiletés langagières mesurées par le TFLM et les habiletés langagières
dont les étudiants ont besoin pour suivre les cours du programme visé. Le TFLM
n’évalue qu’une infime partie des habiletés nécessaires à la réussite des étudiants dans les
programmes visés, et ce, de manière indirecte. Les tâches du TFLM ne ressemblent pas
aux tâches académiques et interactionnelles que les étudiants devront accomplir dans les
cours des programmes (discussions, présentations, rédaction de rapports de lecture,
analyses de textes académiques, observations, lectures académiques, etc.).
De même, si l’on compare les connaissances évaluées par le TFLM et les
connaissances nécessaires dans le contexte de prise en charge de l’enseignement que
connaissent tous les étudiants des programmes visés pendant leurs stages pratiques ou
dans leur carrière postuniversitaire, il est clair que le TFLM n’évalue encore une fois
qu’une infime partie des exigences des milieux professionnels en termes de
communication, exigences mises en relief par la compétence 2 du référentiel du MELS
(2001). Cette lacune importante est un bon exemple de ce que Messick (1996) appelle la
116
sous-représentation de construit, qui affecte en premier lieu l’authenticité des tâches du
test puis, à son tour, la validité du test.
Le TFLM est donc bien limité par rapport à l’ampleur et la diversité des
connaissances langagières nécessaires dans les trois contextes présentés, et il est donc
légitime de se questionner quant à son utilisation dans le processus d’admission, surtout
quand on prend en compte l’impact important qu’il peut avoir sur tous les participants en
raison de son statut de test à grands enjeux. Rappelons que les décisions prises à partir
des résultats obtenus par les étudiants peuvent avoir des conséquences importantes sur
tous les individus ou organisations impliqués : candidats, professeurs et enseignants des
programmes, universités, futurs collègues de diplômés, et finalement, la société en
général. En fait, en termes d’impact estimé (tableau V.1), on remarque que le TFLM
porte le titre de test d’admission (c’est-à-dire qu’il « garde » les portes d’accès aux
programmes de formation en enseignement) mais qu’il ne remplit pas réellement cette
mission puisque tous les candidats au TFLM ont déjà été admis dans ces programmes sur
la base de leur dossier scolaire (la cote R, généralement). La seule conséquence entrainée
par un échec au test est l’ajout d’un ou de deux cours correctifs (les cours de mise à
niveau, CMN1, CMN2 ou CMN3) et dont le mandat est de permettre aux étudiants de
combler leurs lacunes en français telles qu’elles ont été identifiées par le TFLM pour
chacun des deux groupes de compétence (LOW et MID). Nous voyons ici une lacune
importante du TFLM puisque dans les faits, il n’est pas un test d’admission et ne
sélectionne pas uniquement les candidats les plus à-mêmes de connaître la réussite dans
les programmes visés. Les candidats n’ont donc pas du tout l’obligation de réussir le
TFLM, et même s’ils n’obtiennent que des notes médiocres aux cours correctifs imposés
117
selon leur score au TFLM, il n’existe aucun mécanisme qui les empêche de poursuivre
leur programme sur la seule base de ces éléments (TFLM et cours correctifs). Si l’on
regarde les impacts estimés des contextes TLU, en particulier ceux liés aux programmes
et à la société, on voit que la qualité du français est un élément essentiel et que le TFLM
devrait effectivement participer à cet impact anticipé. Or, il n’en est rien et le TFLM
montre donc encore une fois des limites qui le rendent peu approprié au contexte dans
lequel il est utilisé. Au moment d’écrire ces lignes, la formation des enseignants est un
sujet qui fait couler beaucoup d’encre et la compétence langagière des enseignants en
exercice ou en formation est un objet important de l’attention de l’opinion publique. Le
débat est présentement relancé non seulement sur l’admission aux programmes de
formation des maitres, mais aussi sur les moyens éventuels d’évaluer les performances
des enseignants en exercice, et la création d’un ordre professionnel qui encadrerait la
profession au Québec, comme c’est déjà le cas partout ailleurs au Canada, est même de
retour sur la table.
Finalement, et dans le but unique de justifier les mécanismes de mise à niveau qui
accompagnent le TFLM, il est de rigueur de noter que les trois contextes TLU démontrent
une certaine uniformité et une logique en termes de connaissances langagières sollicitées.
On peut facilement voir que les cours disciplinaires du programme, les cours de mise à
niveau ou les milieux pratiques possèdent plus ou moins les mêmes exigences du point de
vue linguistique et langagier, malgré quelques lacunes çà et là. Après avoir identifié les
habiletés langagières nécessaires pour réussir le TFLM ainsi que celles nécessaires pour
connaitre la réussite dans les cours des programmes visés, on peut légitimement se poser
la question de savoir si le score du TFLM permet de sélectionner de manière fiable,
118
valide et juste les étudiants dans les programmes de formation en enseignement. En plus
de cette interrogation, il est particulièrement important de déterminer si le score au TFLM
place correctement et adéquatement les étudiants dans les groupes de mise à niveau
rattachés au TFLM.
Le tableau V.3 présente les caractéristiques des tâches telles qu’elles sont
soumises aux candidats et aux étudiants des programmes. Sur ce point-là encore, nous
pouvons observer de nombreuses différences entre le TFLM et les trois contextes TLU
dans lesquels doivent fonctionner les étudiants. Certains de ces écarts sont anodins,
comme par exemple, les conditions d’administration des tâches (en termes de lieu, de
durée, etc.) puisque ces conditions peuvent changer d’un cours à l’autre, voire même
d’une classe à l’autre (changement de local disponible à l’université, etc.). Nous
passerons donc rapidement aux éléments qui peuvent faire une différence et qui
démontrent que le TFLM se présente comme radicalement différent des trois autres
contextes auxquels les étudiants sont exposés.
Le premier élément dans le tableau V.3 qui démontre une variation importante
entre le TFLM et les trois autres contextes correspond aux modalités des tâches exigées
des étudiants. Le TFLM, comme nous l’avons déjà énoncé, est un test individuel qui se
concentre sur la compétence linguistique sous la forme d’un QCM. Or, dans les cours du
programme, qu’ils soient disciplinaires ou de mise à niveau, les modalités des tâches sont
bien différentes. Cette pratique correspond donc à une évaluation indirecte (Davies, 2004)
des compétences langagières estimées nécessaires aux étudiants francophones, locuteurs
natifs de la langue visée, à la réussite des tâches des contextes TLU. Malgré le fait que la
compréhension ou l’acquisition par les étudiants dans certains cours soient évaluées par
119
le même vecteur que le TFLM (QCM), cette pratique reste peu fréquente et les
évaluations tendent à prendre d’autres formes que le simple QCM. En effet, la plupart des
enseignants des programmes optent pour des formats d’examens qui sollicitent l’analyse
de problèmes et leur résolution en faisant appel à des savoir-faire abordés dans leurs
cours. On assiste donc à une multiplication des formats d’examens et à un abandon
progressif des QCM. Les questions du type résolution de problème, étude de cas, analyse
de situation, etc. parfois même à livre ouvert sont de plus en plus fréquentes dans les
contextes universitaires car elles sont censées être des moyens plus efficaces et valides de
vérifier et mesurer l’acquisition des concepts et surtout de leur compréhension par les
étudiants. De plus, de nombreux travaux d’équipes sont exigés par les enseignants,
probablement afin de refléter l’importance du travail collaboratif dans le monde du travail
aujourd’hui, qu’il s’agisse de l’enseignement ou de tout autre domaine professionnel. Les
étudiants sont donc amenés à travailler de concert avec leurs collègues et pairs beaucoup
plus fréquemment, se détachant ainsi du TFLM qui se concentre sur la performance
individuelle des participants. Les modalités des tâches du TFLM ne correspondent donc
que peu à celles plus couramment utilisées dans les cours qui composent les programmes
de formation en enseignement. Ces modalités englobent la plupart des éléments liés aux
tâches demandées, que ce soit le format de l’input, de l’output, le contenu langagier
présent dans les examens (surtout si l’on pense aux cours de spécialité, tels que ceux de
linguistique, de didactique, de littérature ou encore d’anthropologie qui font partie de
l’offre de cours des programmes en enseignement). Donc, et si l’on prend en
considération tous ces constats, il est tout à fait justifié de poser la question centrale de la
légitimité de l’utilisation du TFLM comme évaluation indirecte du potentiel qu’ont les
120
étudiants d’accomplir avec succès les tâches qui leur seront imposées et qui composent
les contextes TLU1, TLU2 et TLU3 des programmes visés.
En conclusion, et après l’analyse détaillée du TFLM, des TLU des cours
disciplinaires, des cours de mise à niveau et du contexte de stage en enseignement, il est
évident qu’il existe un large fossé entre les construits mesurés par le TFLM et ceux requis
par les trois contextes TLU analysés. Ce décalage important entraine de nombreuses
questions en ce qui concerne l’utilisation même du TFLM dans le processus d’admission
aux programmes de formation initiale en enseignement puisqu’il ne correspond
aucunement aux objectifs de la formation ou même aux préalables nécessaires à la
réussite dans les programmes.
Ce constat, quoi qu’éloquent, doit néanmoins être documenté et confirmé par des
données objectives et inattaquables. C’est ce que cette étude tente de faire grâce à
l’utilisation supplémentaires de données quantitatives et qualitatives dont la cueillette
ainsi que les caractéristiques ont été expliquées dans la partie dédiée à la méthodologie
(chapitre IV).
En somme, l’analyse détaillée du TFLM, des contextes TLU des cours
disciplinaires, des cours de mise à niveau et du contexte de stage en enseignement a mis
en évidence qu’il existe un large fossé entre les buts et caractéristiques des tâches du
TFLM et celles des trois autres contextes analysés. En effet, les résultats présentés dans
les tableaux V.1 à V.3 démontrent clairement que de nombreux éléments diffèrent, et ce,
de manière importante, entre les caractéristiques des tâches du TFLM et les
caractéristiques des tâches des trois TLU du contexte, soit les cours de mise à niveau
imposés aux étudiants les moins performants (voir les plans de cours des CMN1, CMN2
121
et CMN3, annexe C), les cours disciplinaires et optionnels qui composent le programme
(voir annexe B). Ces caractéristiques s’éloignent particulièrement des caractéristiques des
tâches qui attendent les sujets après leur cheminement universitaire, lorsqu’ils débuteront
leur carrière en enseignement, dans les classes de la province ou du Canada. Par exemple,
comme nous l’avons déjà déterminé auparavant, le TFLM est un test purement écrit et qui
n’aborde que le code linguistique de la langue française. Or, les tâches des TLU de notre
contexte ne sont pas uniquement des tâches écrites, au contraire. Une part importante des
tâches qui attendent les candidats est de nature orale, soit des rapports de lecture, des
discussions en classe et des présentations orales. De même, la majeure partie des
interventions des étudiants en stages ou même des enseignants en classe se fait dans un
contexte oral : expliquer clairement les contenus abordés, véhiculer des consignes,
motiver les apprenants. On peut même dire que les futurs enseignants doivent être des
orateurs chevronnés car ils ont la tâche non seulement d’expliquer les contenus ou passer
leurs consignes, mais en plus, ils doivent intéresser leur auditoire. Ils doivent donc faire
usage de nombreuses techniques oratoires qui ne sont bien entendu pas mesurées par un
test tel que le TFLM.
Même si l’on se détache de l’aspect oral qui n’est pas du tout abordé par le
TFLM, on se rend compte rapidement que les tâches qui le composent ne représentent
qu’une infime partie des tâches écrites exigées des étudiants dans les TLU du contexte.
On se rappelle que le TFLM ne mesure que la connaissance du code linguistique
(syntaxe, lexique, morphologie et morphosyntaxe, voir tableaux I.2, page 22, et I.3, page
23). Or, les tâches écrites des TLU concernés sont bien entendu bien plus complexes que
la seule connaissance de ces éléments linguistiques. Les étudiants doivent produire des
122
rapports structurés de leurs lectures académiques, par exemple, et les compétences
requises pour compléter ces tâches dépassent très largement le seul code linguistique :
pour la simple (et fréquente) tâche des rapports de lecture, les étudiants doivent maitriser
non seulement les connaissances liées à la production écrite (voir tableaux V.1 à V.3)
mais aussi, bien entendu, ils doivent être en mesure de comprendre les articles ou textes
de nature scientifique qu’il leur est demandé de rapporter. Cette compétence de lecture
n’est encore une fois aucunement mesurée dans les tâches du TFLM, ce qui constitue une
lacune importante lorsqu’on regarde les tâches demandées aux étudiants par la suite. Les
tâches qui composent le TFLM ne concordent donc avec aucun des trois contextes TLU
auxquels il serait censé être rattaché : les cours de mise à niveau, les cours disciplinaires
ou optionnels des programmes concernés, ou le contexte professionnel des enseignants en
fonction.
Ce constat est le premier élément de réponse à notre première question de
recherche qui était : « Le TFLM est-il un prédicteur de réussite fiable dans le contexte
d’un baccalauréat en enseignement dans les universités francophones du Québec? ».
Puisque les caractéristiques des tâches diffèrent tant entre le TFLM et les trois contextes
TLU présents dans le cadre de l’étude, on peut avancer que, à la lumière de l’analyse
effectuée, le TFLM ne semble pas être un prédicteur fiable de la réussite des étudiants
dans les baccalauréats en enseignement dans les universités du Québec qui l’utilisent
puisqu’il n’évalue pas les mêmes habiletés. D’autre part, le même constat pourrait être
avancé pour répondre à notre deuxième question de recherche, qui cherchait à établir
l’impact des cours de mise à niveau sur la réussite des étudiants (« Les cours de mise à
niveau ont-ils un impact significatif sur la réussite des étudiants obligés de les suivre
123
selon leur résultat au TFLM? »). En effet, même si les résultats de l’analyse comparative
effectuée démontrent que les tâches et les objectifs des cours de mise à niveau
correspondent plus aux exigences requises des étudiants dans les cours disciplinaires ou
des milieux de stage (contexte réel d’enseignement expérimenté par les étudiants des
programmes visés), il est impossible d’affirmer sans réserve que les cours de mise à
niveau sont bénéfiques pour les étudiants et qu’ils leur permet d’accéder à la réussite.
Cette limite est justifiée car les étudiants sont placés dans les cours de mise à niveau sur
la base de leur score au TFLM, qui, comme nous l’avons établi précédemment, n’est pas
un test approprié pour déterminer le niveau de compétence langagière de ses participants
et qui ne reflète que très peu les contenus abordés dans les cours correctifs.
5.2 Résultats de l’analyse des données quantitatives
Comme nous l’avons établi, le contenu du TFLM et les caractéristiques des tâches
qui le composent ne correspondent pas aux caractéristiques des tâches et au contenu des
trois contextes TLU présents, soit les cours disciplinaires des programmes visés, les cours
de mise à niveau en français et enfin, le contexte TLU professionnel du stage en
enseignement ou celui de l’enseignant en exercice. Dans la partie suivante, nous nous
nous sommes efforcé d’apporter plus d’éléments de réponse à nos deux premières
questions de recherche (« Le TFLM est-il un prédicteur de réussite fiable dans le contexte
d’un baccalauréat en enseignement? » et « les cours de mise à niveau ont-ils un impact
significatif sur la réussite des étudiants obligés de les suivre) en examinant d’une part les
relations, si elles existent, entre le score du TFLM et la moyenne cumulative finale pour
chacun de nos cent-quarante-cinq sujets, puis entre les moyennes cumulatives des sujets
après qu’ils aient suivi chacun des cours de mise à niveau pour en vérifier l’impact.
124
Les données quantitatives utilisées pour effectuer ces analyses sont les résultats
obtenus par les étudiants au TFLM à leur admission au programme visé, les notes
obtenues aux cours de mise à niveau 1, 2 et 3 (selon leur résultat au TFLM), les
moyennes cumulatives (GPA) intermédiaires à des moments clés du cheminement des
étudiants et finalement, les moyennes cumulatives (GPA) finales des sujets à la fin de
leur cheminement. Une analyse linéaire de la régression effectuée entre le score au TFLM
et la moyenne cumulative finale (GPA) pour tous les sujets démontre que le score au
TFLM peut prédire la performance des sujets (sig.=.000) telle que mesurée par la
moyenne cumulative globale finale (tableau V.4).
V.4 Corrélation scores TFLM et GPA finale, tous sujets confondus (ANOVA)
Modèle Somme des
carrés
ddl Carré moyen F Sig.
1
Régression 5.354 1 5.354 54.932 .000b
Résidus 13.938 143 .097
Total 19.293 144
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Prédicteurs : (Constante), NOTE TFLM
p=.05
Cependant, les résultats pointent vers une corrélation faible puisqu’on peut voir
que les scores au TFLM comptent pour seulement 28% (R2=.278) dans la variation de la
moyenne cumulative générale finale (tableau V.5).
V.5 Corrélation scores TFLM et GPA finale, tous sujets confondus (récapitulatif des modèles)
Modèle R R2 R2ajusté Erreur standard de
l'estimation
1 .527 .278 .272 .31220
a. Prédicteurs : (Constante), NOTE TFLM
Le coefficient standardisé Béta (valence) de 53% (.527) établit que pour chaque
augmentation de 1 unité du score au TFLM, il y a une augmentation de 0,53 unité de la
125
moyenne cumulative globale finale pour tous les sujets pris ensemble (tableau V.6). La
relation de corrélation est donc significative et positive, mais faible.
V.6 Corrélation scores TFLM et GPA finale, tous sujets confondus (coefficients)
Modèle Coefficients non standardisés Coefficient
standardisé
t Sig.
B Écart standard Béta
1 (Constante) 2.079 .159 13.056 .000
NOTE TFLM .017 .002 .527 7.412 .000
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33) p=.05
Cependant, lorsque les groupes d’étudiants sont séparés selon leur score au TFLM
en trois sous-groupes (le groupe HIGH pour les étudiants ayant obtenu un score de 75%
et plus, MID pour ceux ayant obtenu un score entre 60 et 74%, et LOW pour les étudiants
ayant obtenu un score au-dessous de 60%), l’analyse de la régression met en lumière des
résultats très différents. L’analyse de la variance (ANOVA, tableau V.7) qui établit le
rapport entre le score au TFLM et la moyenne cumulative finale pour un seul sous-groupe
de sujets, soit les sujets ayant obtenu une note supérieure ou égale à 75% (et de ce fait
exemptés de cours de mise à niveau) indique l’absence de corrélation (sig.=.70) entre le
score au TFLM et la moyenne cumulative finale pour ce sous-groupe (HIGH).
V.7 Corrélation scores TFLM et GPA finale pour les sujets du groupe HIGH (ANOVA)
Modèle Somme des
carrés
ddl Carré moyen F Sig.
Régression .497 1 .497 3.446 .070c
Résidus 6.780 47 .144
Total 7.277 48
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 :
groupe HIGH; 1 : groupe MID ; 2 : groupe LOW = 0
c. Prédicteurs : (Constante), NOTE TFLM
p=.05
126
Il en est de même pour le deuxième sous-groupe (MID) et le troisième sous-
groupe (LOW), soit les sujets qui ont obtenu une note située entre 60 et 74% (MID) ou
inférieure à 60% (LOW) au TFLM respectivement. Les résultats de l’analyse de la
variance (ANOVA, tableaux V.8 et V.9) pour chacun de ces deux sous-groupes indiquent
qu’il n’y a pas de corrélation significative entre le score au TFLM et la moyenne
cumulative finale pour le sous-groupe MID. En effet, pour le groupe MID, l’indice de
corrélation est de .119 (tableau V.8), alors qu’il s’élève à .686 pour le groupe LOW
(tableau V.9) indiquant une absence de corrélation entre le score au TFLM des étudiants
et leur réussite, indiquée par leur moyenne cumulative globale.
V.8 Corrélation scores TFLM et GPA finale pour les sujets du groupe MID (ANOVA)
Modèle Somme des
carrés
ddl Carré moyen F Sig.
Régression .172 1 .172 2.501 .119c
Résidus 4.257 62 .069
Total 4.429 63
a. Variable dépendante : VD4 MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 :
groupe HIGH; 1 : groupe MID ; 2 : groupe LOW = 1
c. Prédicteurs : (Constante), NOTE TFLM
p=.05
V.9 Corrélation scores TFLM et GPA finale pour les sujets du groupe LOW (ANOVA)
Modèle Somme des
carrés
ddl Carré moyen F Sig.
Régression .015 1 .015 .167 .686c
Résidus 2.724 30 .091
Total 2.739 31
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 :
groupe HIGH; 1 : groupe MID ; 2 : groupe LOW = 2
c. Prédicteurs : (Constante), NOTE TFLM
p=.05
127
À la lumière des résultats présentées dans les tableaux V.6 à V.9, on peut
démontrer que lorsqu’ils sont considérés individuellement, les indices statistiques
correspondant à la corrélation entre les scores au TFLM et la GPA finale pour chacun des
trois sous-groupes tendent à invalider le lien mis en évidence entre les scores au TFLM et
la moyenne cumulative finale dans les tableaux V.4 et V.5. Cela signifie que le score au
TFLM n’est pas en mesure de prédire efficacement la réussite des étudiants placés dans
les trois sous-groupes de compétence sur cette seule base. Cette incapacité du TFLM à
prédire la réussite des étudiants n’est pas réellement étonnante et ne fait que confirmer les
conclusions de l’analyse des tâches des contextes TLU des programmes cibles, exprimées
précédemment. En effet, étant donné que les caractéristiques des tâches qui composent le
TFLM sont radicalement différentes des tâches qui composent les cours de mise à niveau
ainsi que les cours disciplinaires ou optionnels suivis par les étudiants et sur lesquelles ils
sont évalués, une corrélation faible entre les scores obtenus au TFLM et les moyennes
cumulatives finales des étudiants était à prévoir. Encore une fois, et comme nous l’avons
démontré auparavant dans l’étude de base, les caractéristiques des tâches du TFLM et de
celles des contextes TLU ne visent pas les mêmes compétences ou connaissances chez les
candidats et ne placent pas les candidats dans les mêmes conditions d’évaluation : le
TFLM évalue la connaissance du code linguistique alors que les étudiants sont évalués en
partie sur leur compétence d’analyse et de compréhension de concepts scientifiques après
des lectures imposées, par exemple ; les travaux d’équipe constituent une partie
importante des évaluations dans les cours disciplinaires, mais les compétences sociales
qui sont rattachées à ce type de collaboration ne sont aucunement représentées dans le
TFLM ; les étudiants qui suivent les cours de mise à niveau doivent compléter une partie
128
des travaux en ligne ou en utilisant des logiciels spécifiques, ce qui n’est jamais le cas
pour le TFLM. Toutes ces différences (de contenu, logistiques, modales ou autres) entre
le TFLM et les tâches des TLU font en sorte que le TFLM apparait totalement déconnecté
du reste du contexte des programmes de formation en enseignement car il n’est relié à
aucun des TLU rattachés à ce contexte. Les résultats statistiques obtenus par l’analyse de
la régression pour chacun des groupes, mettant en relief l’absence de corrélation entre les
scores au TFLM et la moyenne cumulative finale pour chaque sous-groupe, renforcent
donc les constats établis par l’analyse des données qualitatives rapportées lors de la
comparaison des caractéristiques des tâches du TFLM et des trois TLU de notre contexte.
Dès lors, nous pouvons dire que, d’après l’analyse de deux types de preuves (qualitatives
et quantitatives), le TFLM ne remplit pas sa mission de prédicteur de réussite dans les
programmes de formation en enseignement des universités québécoises qui l’utilisent à ce
jour.
Donc, pour répondre de manière tranchée à la première question de recherche
(« Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un baccalauréat en
enseignement dans les universités francophones du Québec? ») et en nous appuyant sur
les informations détaillées ci-dessus, nous pouvons avancer que ni du point de vue du
contenu, ni du point de vue purement quantitatif (statistiques), nous n’avons pu dégager
de preuves suffisantes pour établir le potentiel prédictif du TFLM. Le TFLM n’est donc
pas un prédicteur fiable de réussite tel que mesuré par la moyenne cumulative finale
(GPA), ce qui met en doute son utilisation actuelle dans les programmes de formation
initiale en enseignement des universités du Québec.
129
Après avoir analysé la relation entre le score au TFLM et la réussite académique
des étudiants placés dans trois sous-groupes selon leur réussite au test, l’étape suivante de
l’étude des données quantitatives se concentre sur les questions de l’incidence des cours
de mise à niveau 1, 2 et 3 (CMN1, CMN2 et CMN3) sur la moyenne cumulative finale
pour les sous-groupes concernés (MID et LOW). Ces analyses devraient nous renseigner
sur l’utilité réelle des mécanismes des cours de mise à niveau obligatoires dans les
programmes de formation initiale en enseignement et ainsi apporter des éléments de
réponse à notre deuxième question de recherche, soit « Les cours de mise à niveau ont-ils
un impact important sur la réussite des étudiants obligés de les suivre selon leur résultat
au TFLM? ».
Afin de mieux comprendre le rôle des cours de mise à niveau dans l’augmentation
des chances de réussite des étudiants les moins performants (sous-groupes MID et LOW),
une étude de la régression a été effectuée en utilisant les moyennes cumulatives pour
chaque sujet des groupes MID et LOW après leurs cours de mise à niveau ainsi que leur
moyenne cumulative finale.
Les résultats de l’analyse indiquent une corrélation significative (sig.=.000) entre
leur moyenne cumulative après le cours de mise à niveau et leur moyenne cumulative
finale (tableau V.10 à V.13)
130
V.10 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale,, groupe LOW
(ANOVA)
Modèle Somme des
carrés
ddl Carré moyen F Sig.
Régression 2.126 1 2.126 104.048 .000c
Résidus .613 30 .020
Total 2.739 31
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe
HIGH; 1 : groupe MID ; 2 : groupe LOW = 2
c. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 2
p=.05
D’après les résultats obtenus, pour le sous-groupe LOW, il y a une corrélation
significative (sig.=.000) entre la moyenne cumulative après le cours de mise à niveau 2 et
la moyenne cumulative globale finale (tableau V.10). Le degré d’incidence de la
moyenne cumulative après le CMN2 sur la moyenne cumulative finale pour le sous-
groupe LOW est analysé dans le tableau V.11 suivant, qui établit que la moyenne
cumulative après le cours de mise à niveau 2 compte pour 78% (R2=.776) de la variation
de la moyenne cumulative finale.
V.11 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, groupe LOW
(récapitulatif des modèles)
Modèle R R2 R2ajusté Erreur standard de
l'estimation Sous-groupes selon la
performance au TFLM
(0 : HIGH; 1 MID : 2
LOW = 2 sélectionné
1 .881a .776 .769 .14295
a. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 2
Le tableau V.12 met en évidence un coefficient standardisé Béta de près de 90%
(.881), ce qui signifie que pour chaque augmentation de 1 unité de la moyenne
cumulative après le CMN2, il y a une augmentation de .9 unités de la moyenne
131
cumulative globale finale pour le sous-groupe VDS3 LOW. La corrélation est donc
significative, positive et forte.
V.12 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, groupe LOW
(coefficients)
Modèle Coefficients non
standardisé
Coefficients
standardisé
t Sig. Intervalle de confiance à
95.0% pour B
Statistiques de
colinéarité
B Écart
standard
Béta Borne
inférieure
Borne
supérieure
Tolérance VIF
(Constante) .429 .251 1.711 .097 -.083 .941
moyenne globale
après cmn 2
.904 .089 .881
10.200 .000 .723 1.085 1.000 1.000
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe
HIGH; 1 : groupe MID ; 2 : groupe LOW =2
Des résultats similaires ont été obtenus pour le groupe MID. Il existe une
corrélation significative (sig.=.000) entre la moyenne cumulative après le CMN3 et la
moyenne cumulative finale des étudiants qui ont été classés dans ce groupe selon leur
score au TFLM (tableau V.13).
V.13 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, (groupe MID (ANOVA)
Modèle Somme des
carrés
ddl Carré moyen F Sig.
1
Régression 3.478 1 3.478 226.708 .000c
Résidus .951 62 .015
Total 4.429 63
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe
HIGH; 1 : groupe MID ; 2 : groupe LOW = 1
c. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 3
p=.05
La moyenne cumulative après le CMN3 pour les sujets du groupe MID compte
pour 79% (R2 =.785) de la variation de la moyenne cumulative finale (tableau V.14), ce
qui nous permet de parler d’une corrélation forte et positive (coefficient Béta standardisé
de .886) comme l’indiquent les données du tableau V.15.
132
V.14 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale,, groupe MID
Modèle R R2 R2ajusté Erreur standard de l'estimation
Sous-groupes selon la performance au
TFLM (0 : HIGH; 1 : MID; 2 : LOW =
1 sélectionné
1 .886a .785 .782 .12385
a. Prédicteurs : (Constante), MOYENNE GLOBALE APRÈS CMN 3
V.15 Corrélation entre la GPA après cours de mise à niveau 2 et GPA finale, groupe MID
(coefficients)
Modèle Coefficients non
standardisé
Coefficients
standardisé
t Sig. Intervalle de
confiance 95.0%
pour B
Statistiques de
colinéarité
B Écart
standard
Béta Borne
inférieure
Borne
supérieure
Tolérance VIF
1
(Constante) 1.309 .127 10.307 .000 1.055 1.563
MOYENNE
GLOBALE
APRÈS CMN
3
.631 .042 .886 15.057 .000 .547 .714 1.000 1.000
a. Variable dépendante : MOYENNE GLOBALE FINALE (/4,33)
b. Sélection exclusive des observations pour lesquelles Sous-groupes selon la performance au TFLM (0 : groupe
HIGH; 1 : groupe MID ; 2 : groupe LOW = 1
Une implication possible mise en relief par les résultats exposés ci-dessus est que
les sujets qui ont suivi les cours de mise à niveau, que ce soit les groupes LOW ou MID,
améliorent leur moyenne cumulative transitoire de manière significative. Cela signifierait
que les cours de mise à niveau aident les étudiants dans leur cheminement et que, au
contraire du TFLM, les contenus abordés dans ces cours de mise à niveau aident les
étudiants des groupes LOW ou MID, d’une manière ou d’une autre, à améliorer leurs
résultats dans les autres cours du programme. Les implications de ce constat, démontré
par les analyses statistiques, sont doubles : premièrement, elles confirment l’absence de
relation présentée auparavant explicitée entre les tâches du TFLM et celles des cours de
133
mise à niveau (tableau V.3, page 108), et deuxièmement, elles réitèrent les conclusions
d’ordre général auxquelles nous sommes parvenus grâce aux analyses statistiques
présentées dans les tableaux V.7 à V.9 et qui tendent à prouver l’impossibilité du TFLM à
prédire la réussite académique tel qu’il est mesuré par la GPA finale pour les sujets de
chaque groupe.
Cependant, étant donné que les sujets avaient été classés en trois sous-groupes
(LOW, MID ou HIGH) sur la base des scores obtenus au TFLM, test dont la validité n’est
pas éprouvée et qui ne correspond pas aux contenus ni des cours disciplinaires, ni des
cours de mise à niveau (voir tableaux V.2 et V.3), la corrélation entre la moyenne
cumulative transitoire après leur cours de mise à niveau (pour les groupes MID et LOW)
et leur moyenne cumulative finale ne justifie pas forcément la présence des cours de mise
à niveau dans le programme et les mécanismes mis en place pour les sujets les moins
compétents (LOW et MID). Il est donc important de procéder à des tests supplémentaires
si l’on veut être en mesure de déterminer avec exactitude et de manière empirique si les
cours de mise à niveau remplissent leur mission.
Donc, afin de déterminer plus clairement l’apport bénéfique, s’il existe, des cours
de mise à niveau obligatoires, nous avons procédé à des tests d’échantillons appariés
(paired t-tests) afin de vérifier s’il existait une différence significative entre la moyenne
cumulative des sous-groupes LOW et MID avant et après leur(s) cours de mise à niveau.
Les données descriptives et les résultats obtenus pour le groupe LOW et MID
sont présentés dans les tableaux V.16 et V.17. On note que pour cette analyse, nous avons
utilisé les données de seulement 14 sujets dans le groupe LOW car étant donné que le
cours de mise à niveau 1 (CMN1) est souvent suivi par les sujets pendant leur première
134
session à l’université, nous ne disposons pas de leur moyenne cumulative avant leur
première session dans le programme. Il a été décidé cependant de procéder avec l’analyse
en prenant en compte les données disponibles pour les 14 sujets dont nous disposions,
malgré le fait qu’il s’agisse d’un nombre relativement limité sur lequel baser une
interprétation solide.
V.16 Statistiques des échantillons appariés, étudiants des groupes LOW et MID
Mean N Std. Deviation Std. Error Mean
LOW,
Paire 1
MOYENNE GLOBALE
AVANT CMN 1 2.79 14 .358 .096
MOYENNE GLOBALE
APRÈS CMN 2 2.8457 14 .31375 .08385
MID,
Paire 2
MOYENNE GLOBALE
AVANT CMN 3 2.97 57 .439 .058
MOYENNE GLOBALE
APRÈS CMN 3 3.0514 57 .34065 .04512
V.17 Test des échantillons appariés étudiants des groupes LOW et MID
Paired Differences
t df Mean
Std.
Deviation
Std. Error
Mean
95% Confidence Interval of
the Difference
Lower Upper
LOW MOYENNE GLOBALE
AVANT CMN 1 MOYENNE
GLOBALE
APRÈS CMN 2
-.05929 .14887 .03979 -.14524 .02667 -1.490 13
MID VI4 MOYENNE GLOBALE
AVANT CMN 3 -
MOYENNE GLOBALE
APRÈS CMN 3
-.07772 .23661 .03134 -.14050 -.01494 -2.480 56
Les résultats de l’analyse (tableau V.18) pointent vers une différence significative
entre les moyennes cumulatives transitoires « avant » et « après » les cours de mise à
niveau pour les sujets du sous-groupe MID (p=.016) mais pas pour le sous-groupe LOW
135
(p=.160). Cela signifierait que les sujets du groupe MID ont amélioré leur moyenne
cumulative après avoir suivi le cours de mise à niveau leur étant destiné, alors que les
étudiants du groupe LOW n’y sont pas parvenus.
V.18 Test des échantillons appariés étudiants groupes LOW, MID
Sig. (2-tailed)
LOW Moyenne globale avant CMN 1 moyenne globale après CMN 2
.160
MID Moyenne globale avant CMN 3 - moyenne globale après CMN 3
.016
p=.05
À la lumière des résultats présentés ci-dessus, on peut avancer que, dans le
meilleur des cas, les cours de mise à niveau peuvent être bénéfiques à court terme pour
les étudiants du groupe MID qui, selon les administrateurs des programmes concernés,
ont besoin des cours de mise à niveau. Donc, afin de mettre en lumière l’efficacité à long
terme des cours de mise à niveau et ainsi apporter une réponse complète à la deuxième
question de recherche (« Les cours de mise à niveau ont-ils un impact important sur la
réussite des étudiants classés selon leur résultat au TFLM selon leur résultat au
TFLM? »), nous avons procédé à une analyse de la variance à mesures répétées pour des
échantillons appariés (2-way repeated measures test) dans le but de vérifier la présence
d’une différence significative dans les moyennes cumulatives des trois sous-groupes
(LOW, MID et HIGH) au début de leur cheminement (fin de la session 1) et à la toute fin
de leur programme de quatre années (moyenne cumulative finale).
En d’autres termes, nous voulions obtenir des preuves qui pourraient confirmer si,
à la fin des quatre années du programme, les cours de mise à niveau remplissaient
réellement et complètement leur mission qui est d’aider les sujets les moins performants à
136
combler leurs lacunes et ainsi se hisser au même niveau de performance que les étudiants
plus performants, ceux du groupe HIGH.
Selon les résultats obtenus (tableau V.19), les moyennes cumulatives transitoires
sont caractérisées par une différence significative (sig.=.000) entre les groupes pour tous
les sujets considérés ensemble. Ce résultat signifie que les moyennes des groupes restent
différentes après les quatre années de cheminement, ce qui indiquerait que les cours de
mise à niveau faillissent à leur mission de remettre à niveau les étudiants les moins
performants.
V.19 Différences entre moyennes transitoires (après session 1) entre les 3 groupes LOW, MID et
HIGH (ANOVA)
GPA à la fin de la session 1
Sum of Squares df Mean Square F Sig.
Between Groups 9.103 2 4.551 17.033 .000
Within Groups 37.943 142 .267
Total 47.046 144
p=.05
Cependant, les comparaisons multiples effectuées pour chaque groupe ne
montrent aucune différence significative entre les performances des groupes LOW et
MID (tableau V.20). Ce résultat (sig.=.217) indique que les cours de mise à niveau n’ont
pas permis au groupe LOW de combler leurs lacunes, identifiées par le TFLM, et n’ont
pas réussi à augmenter leur moyenne cumulative au niveau de celle du groupe MID.
137
V.20 Analyse comparative multiple, GPA transitoires après session 1 (tous les groupes)
(I) Sous-groupes selon la
performance au TFLM (0 :
HIGH; 1 : MID ; 2 : LOW)
(J) Sous-groupes selon la
performance au TFLM (0 :
HIGH; 1 : MID ; 2 : LOW)
Mean
Difference (I-
J)
Std.
Error
Sig. 95% Confidence
Interval
Lower
Bound
Upper
Bound
HIGH MID .43954* .09812 .000 .1968 .6823
LOW .63626* .11749 .000 .3456 .9269
MID HIGH -.43954* .09812 .000 -.6823 -.1968
LOW .19672 .11192 .217 -.0801 .4736
LOW HIGH -.63626* .11749 .000 -.9269 -.3456
MID -.19672 .11192 .217 -.4736 .0801
Variable dépendante : GPA à la fin de la session 1
*The mean difference is significant at the 0.05 level.
De plus, les résultats obtenus par les tests présentés ci-dessous (tableau V.21, tests
of within-subjects effects) étayent la différence significative entre les performances des
sujets après la première session et à la fin de leur programme, peu importe leur niveau, tel
que déterminé par le score au TFLM (facteur 1). Ces résultats confirment d’autre part une
interaction significative entre le niveau de compétence langagière des sujets et leur
moyenne cumulative à au moins deux moments dans leur cheminement, soit la fin de la
première session (sig.=.000) et la fin de leur cheminement (facteur 1*, fin de programme,
sig.=.010).
V.21 Test de l’effet interne, tous les groupes
Source Type III Sum of
Squares
df Mean Square F Sig.
facteur1 : fin de
session 1
Sphericity Assumed 2.811 1 2.811 56.420 .000
Greenhouse-Geisser 2.811 1.000 2.811 56.420 .000
Huynh-Feldt 2.811 1.000 2.811 56.420 .000
Lower-bound 2.811 1.000 2.811 56.420 .000
facteur1 * : fin
de programme
(GPA finale)
Sphericity Assumed .478 2 .239 4.795 .010
Greenhouse-Geisser .478 2.000 .239 4.795 .010
Huynh-Feldt .478 2.000 .239 4.795 .010
Lower-bound .478 2.000 .239 4.795 .010
Erreur
(facteur1)
Sphericity Assumed 7.074 142 .050
Greenhouse-Geisser 7.074 142.000 .050
Huynh-Feldt 7.074 142.000 .050
Lower-bound 7.074 142.000 .050
p=.05
138
En ce qui concerne les moyennes cumulatives finales pour chacun des groupes,
une analyse de type ANOVA a été effectuée et les résultats obtenus pointent vers une
différence significative entre les moyennes cumulatives finales des trois groupes à la fin
de leur programme de quatre années (tableau V.22, sig.=.000).
Tableau V.22 Différences entre GPA finales, tous les groupes
MOYENNE GLOBALE FINALE (/4.33)
Sum of Squares df Mean Square F Sig.
Between Groups 4.848 2 2.424 23.82
8
.000
Within Groups 14.445 142 .102
Total 19.293 144
p=.05
Si l’on se base sur les résultats de l’analyse comparative multiple (multiple
comparisons, tableau V.23), à la fin du programme de quatre ans, la différence
significative identifiée par le TFLM au début du processus d’admission perdure. Les
étudiants peuvent donc toujours être classés en trois sous-groupes similaires après quatre
ans de formation et après avoir suivi les cours de mise à niveau imposés (sig.= .000 à
.004, p =.05).
Tableau V.23: Analyse comparative multiple GPA, tous les groupes
Dependent Variable: MOYENNE GLOBALE FINALE (/4.33)
Scheffe
(I) Sous-groupes selon la
performance au TFLM (0 :
HIGH; 1 : MID ; 2 :
LOW)
(J) Sous-groupes selon la
performance au TFLM (0 :
HIGH; 1 : MID ; 2 :
LOW)
Mean
Difference (I-
J) Std. Error Sig.
95% Confidence Interval
Lower
Bound
Upper
Bound
HIGH MID .25800* .06054 .000 .1082 .4078
LOW .49300* .07249 .000 .3137 .6723
MID HIGH -.25800* .06054 .000 -.4078 -.1082
LOW .23500* .06905 .004 .0642 .4058
LOW HIGH -.49300* .07249 .000 -.6723 -.3137
MID -.23500* .06905 .004 -.4058 -.0642
*. The mean difference is significant at the 0.05 level.
139
En bref, les résultats exposés ci-dessus, considérés de manière globale,
démontrent que les cours de mise à niveau n’ont pas rempli leur mandat original qui était
de permettre aux étudiants les plus faibles de rattraper leur retard et ainsi de gommer les
différences entre les trois sous-groupes d’étudiants déterminés par le TFLM. En effet, les
étudiants les plus faibles, identifiés comme tels par leurs performances au TFLM, restent
plus faibles après quatre ans de programme et après les cours de mise à niveau imposés.
De plus, les performances des groupes LOW et MID, dont la différence avait disparu
après la première session, démontrent une différence significative à la fin des quatre
années de programme, ce qui signifie que l’effet bénéfique des cours à court terme
disparait au fur et à mesure que les années passent et que l’écart entre les performances
des trois sous-groupes s’aggrave au cours du programme.
Donc, pour répondre à la deuxième question de recherche, les preuves accumulées
démontrent que non seulement la classification en sous-groupes par le TFLM n’est pas
précise, mais que de surcroit, les cours de mise à niveau imposés aux étudiants des sous-
groupes LOW et MID sont inefficaces. Ce constat est renforcé par les gains en termes de
moyennes cumulatives atteints par les trois sous-groupes après la première session,
données présentées dans les tableaux V.24 et V.25 ci-dessous.
Tableau V.24 : Statistiques des échantillons appariés, tous les groupes, GPA transitoire après
session 1 et GPA finale
Sous-groupes selon la performance au TFLM (0 : HIGH; 1 : MID ; 2 :
LOW) Mean N
Std.
Deviation
Std. Error
Mean
HIGH Paire 1 GPA à la fin de la session 1 3.3694 .59841 .08549
moyenne globale finale (/4.33) 3.4661 49 .38937 .05562
MID Paire 1 GPA à la fin de la session 1 2.9298 .48499 .06062
moyenne globale finale (/4.33) 3.2081 64 .26513 .03314
LOW Paire 1 GPA à la fin de la session 1 2.7331 .43759 .07736
moyenne globale finale (/4.33) 2.9731 32 .29725 .05255
p=.05
140
V.25 Test des échantillons appariés, tous les groupes, GPA transitoire après session 1 et GPA
finale Sous-groupes selon la
performance au TFLM (0
: HIGH; 1 : MID ; 2 :
LOW)
Paired Differences
Mean Std.
Deviation
Std. Error
Mean
95% Confidence Interval of the
Difference
df Sig. (2-
tailed)
Lower Upper
HIG
H
Paire
1 GPA à la fin
de la session
1 - moyenne
globale
finale (/4.33)
-.09673 .31941 .04563 -.18848 -.00499 -2.120 48 .039
MID
Paire
1 GPA à la fin
de la session
1 - moyenne
globale
finale (/4.33)
-.27828 .30356 .03795 -.35411 -.20245 -7.334 63 .000
LO
W
Paire
1 GPA à la fin
de la session
1 - moyenne
globale
finale (/4.33)
-.24000 .33342 .05894 -.36021 -.11979 -4.072 31 .000
p=.05
Encore une fois, les résultats des tests appariés indiquent des gains en termes de
moyennes cumulatives à la fin de la première session. Cependant, les gains pour les trois
groupes ne sont pas équivalents (tableau V.25). En fait, les gains accomplis par les sujets
du groupe MID (.27) sont supérieurs aux gains obtenus par les sujets du groupe LOW
(.24) qui eux-mêmes sont supérieurs aux gains accomplis par les sujets du groupe HIGH
(.09), gains négligeables, cependant.
Des données présentées ci-dessus, on peut conclure que, d’une part, seuls les
sujets du sous-groupe MID ont pu tirer avantage des cours de mise à niveau imposés par
leur performance au TFLM mais que, d’autre part, ces progrès sont restés minimes et
l’effet recherché n’a pas été atteint car ni les sujets du sous-groupe MID, ni ceux du
groupe LOW n’arrivent pas à se hisser au niveau supérieur (sous-groupe HIGH) malgré
le fait qu’ils aient suivi le cours de mise à niveau.
141
5.3 Résultats de l’analyse des données qualitatives
En conformité avec le choix méthodologique mixte de notre recherche
(triangulation convergente), un questionnaire (annexe D) composé de 56 questions,
inspiré de Elder (1993) a été utilisé (pour une description détaillée, voir chapitre IV,
Méthodologie). Le questionnaire a pour objectif de caractériser les perceptions des
étudiants au sujet du TFLM et des cours de mise à niveau qui l’accompagnent. Il a été
envoyé via une plateforme informatisée à plusieurs étudiants actuels et diplômés choisis
au hasard et qui ont passé le TFLM entre 2008 et 2013. Parmi ces étudiants, dix-huit ont
répondu.
Les questions relatives à l’identité (nom et prénom, L1, programme d’études, date
de passation du TFLM) des participants ne seront pas rapportées ici. En ce qui concerne
les questions suivantes, 83% des répondants (15 sur 18) ont répondu à la question 5 qui
visait à établir leur note au TFLM. De ces réponses, 66% (10 sur 15) ont obtenu une note
de 75% et plus (groupe HIGH), 26% (4 sur 15) ont obtenu une note comprise entre 60 et
74% (groupe MID) et un seul répondant (6%) a obtenu une note inférieure ou égale à
59% (groupe LOW). À noter que 3 répondants n’ont pas répondu à la question 5.
Les questions relevant des notes obtenues aux épreuves de français antérieures au
TFLM (épreuves uniformes des français des niveaux secondaire et collégial) n’ont
produit que très peu de réponses claires. Cette donnée pourra donc être difficilement
exploitable. Les participants n’ont pour la plupart pas passé d’autres épreuves de français
avant le TFLM (question 8).
Les questions de la deuxième partie du questionnaire visaient à extraire l’opinion
des candidats envers le TFLM lui-même. Les résultats sont les suivants.
142
Pour 86% des répondants, le test parait difficile ou relativement difficile, même
pour des locuteurs natifs du français (Q.9) et la culture générale du contexte québécois
(Q.10) semble être mesurée correctement (58%). Le TFLM parait pertinent (85%) en ce
qui concerne la correspondance entre le contenu du test et le contenu langagier des cours
du programme visé (Q.11), mais peu, voire pas pertinent en ce qui concerne ses liens aux
compétences linguistiques (Q.15, 15%) ou culturelles (Q.16, 7%) exigées par le contexte
de la future profession des candidats, l’enseignement, ce qui donne des informations sur
la validité apparente du TFLM en termes d’authenticité (Bachman et Palmer, 1996).
Cependant, les répondants ne semblent pas percevoir le TFLM comme un test fiable
(qualité de fidélité, Bachman & Palmer, 1996) car seulement 14% des répondants
estiment que le TFLM reflète leur niveau réel de compétence langagière des candidats
(Q. 14). Enfin, les données relatives à l’impact que le score peut avoir sur le
cheminement des répondants ont été très partagées : 55% des répondants estiment que les
décisions prises sur la base des résultats au TFLM peuvent avoir des conséquences
positives sur leur cheminement (Q.12) alors que 64% des répondants pensent que ces
mêmes décisions peuvent avoir des conséquences négatives sur leur cheminement.
L’impact (Bachman & Palmer, 1996) est donc limité. Toutes ces données sont exposées
sous forme de tableau ci-dessous (tableau V.26)
143
Tableau V.26 : Réponses des répondants au sujet du contenu du TFLM et de son impact
Les répondants pensent
que le TFLM :
Pas du tout
d’accord (%)
Pas d’accord
(%)
Partiellement
d’accord (%)
D’accord (%) Tout à fait
d’accord (%)
Est difficile 7 7 43 36 7
Est une mesure valide
du niveau de
compétence en langue
française des candidats
14.5 50 21.5 7 7
Correspond au contenu
des cours disciplinaires
8 8 38 46
Correspond aux besoins
linguistiques du
contexte réel de
situation
d’enseignement
36 50 14
Correspond aux besoins
culturels du contexte
réel de situation
d’enseignement
7 29 43 14 7
A des conséquences
positives sur le
programme
7 36 21 36
A des conséquences
négatives sur le
programme
36 28.5 28.5 7
Les questions 17 à 25 visaient à établir l’opinion que les répondants se faisaient de
leur propre compétence langagière et de vérifier s’ils perçoivent leur niveau de français
adéquat à la réussite dans le programme d’études suivi. Il en ressort que les candidats se
considèrent majoritairement assez compétents en français pour connaitre la réussite dans
leurs études, et ce, dans tous les types d’interactions, de travaux, et dans les milieux de
stage pratique. En effet, aucun répondant (0%) n’a avoué connaitre ou avoir connu des
difficultés dans ses cours disciplinaires ou optionnels, que ce soit pendant des cours
magistraux, des travaux écrits individuels ou en équipe, lors d’interactions avec les
enseignants ou avec les pairs, lors de présentations orales individuelles ou en équipes, de
lecture d’articles scientifiques ou dans les milieux de stage. Seuls 7% des répondants
semblent éprouver ou avoir éprouvé de très légères difficultés lors de travaux écrits
144
d’équipe (Q.19), des présentations orales individuelles (Q.22) ou en équipe (Q.23), et
lors de lecture d’articles scientifiques (Q.24).
Tableau V.27 : Perceptions de la compétence en français des répondants
Les étudiants estiment avoir
éprouvé des difficultés
linguistiques dans les
contextes suivants :
Pas du tout
d’accord (%)
Pas d’accord
(%)
Partiellement
d’accord (%)
D’accord
(%)
Tout à fait
d’accord (%)
Cours magistraux 71,5 28.5
Travaux écrits individuels 61.5 38.5
Travaux écrits en équipe 57 36 7
Interactions orales avec le
personnel enseignant
85 15
Interactions orales avec
leurs pairs
78.5 21.5
Présentations orales
individuelles
64 29 7
Présentations orales en
équipe
64 29 7
Lectures de textes à teneur
académique ou scientifique
71.5 21.5 7
Pendant leurs stages
(formation pratique)
64 36
Ces données, exposées ci-dessus et rapportées dans le tableau V.27, viennent
consolider les autres types de preuves avancés jusqu’ici en regard à la pertinence de
l’utilisation du TFLM : en effet, nous avions déjà démontré que le TFLM n’est pas relié
aux TLU de notre contexte lorsque nous avons comparé les caractéristiques des tâches du
TFLM par rapport aux caractéristiques des tâches des TLU (étude de base) ; nous avions
aussi démontré que les scores au TFLM n’étaient pas en mesure de prédire la réussite des
étudiants dans leurs divers cours, et ce, que ce soit au début de leur cheminement ou à la
toute fin des quatre ans de programme (analyses de la régression et de la variance), mais
les réponses recueillies auprès des étudiants révèlent encore un élément clé qui est le
suivant : même lorsque les étudiants ressentent des difficultés en français, dans l’un ou
l’autre des TLU du contexte, il est à noter que les difficultés éprouvées ne sont pas reliées
aux compétences évaluées par le TFLM. En effet, si 7% des répondants avouent éprouver
145
ou avoir éprouvé de légères difficultés en français pendant leur cheminement, on note
qu’il s’agit toujours de situations dont les caractéristiques ne sont pas ciblées par le
TFLM (présentations orales ou travaux d’équipe ; lecture d’articles scientifiques). Cette
information, ajoutée aux éléments de preuve déjà accumulés dans les deux premiers
volets de notre étude, renforce encore plus l’idée que le TFLM n’est pas pertinent au
contexte dans lequel il est utilisé.
La quatrième partie visait à connaitre l’opinion des répondants sur les deux
éléments suivants : premièrement, si les répondants pensent qu’un test de français est
toujours nécessaire dans le contexte présent, en particulier puisque tous les candidats sont
francophones, et deuxièmement, les répondants sont amenés à se prononcer sur la teneur
des éléments qui devraient être évalués par le TFLM (construits). Il en ressort que, d’une
part, les répondants estiment qu’un test de français est un outil qui devrait être conservé
dans le contexte des programmes de formation en enseignement, même pour les étudiants
francophones (100% des répondants), et que d’autre part, toutes les composantes du
français, soit la compréhension orale et écrite, ainsi que la production orale et écrite,
devraient être évaluées au cours de leur cheminement de manière égale. En effet, les
répondants ont répondu de manière très équilibrée, ce qui tend à établir que selon les
répondants, les quatre habiletés devraient être mesurées de manière égale. Ici encore,
l’opinion des répondants va à l’encontre du TFLM puisque celui-ci ignore totalement la
quasi globalité des composantes langagières autres que le code linguistique seul.
La cinquième partie du questionnaire concernait seulement un répondant qui avait
obtenu un score égal ou inférieur à 59% au TFLM. Dans ses réponses, on peut voir que
les cours de mise à niveau suivis ont conforté le répondant (tout à fait d’accord ou
146
d’accord, Q.28, Q.29, Q.31 et Q.32) mais qu’il ne sait pas si de tels cours devraient être
intégrés au cheminement régulier de tous les étudiants du programme (partiellement
d’accord, Q.30). Le répondant semble aussi penser que les cours de mise à niveau ne
constituent pas un moyen suffisant afin d’améliorer la compétence des étudiants (Q.29),
mais qu’ils doivent cependant être conservés, tout comme le TFLM (Q.34) et que des
cours de ce type devraient être imposés aux étudiants (Q.35). Quant à l’utilisation de
mises en situation pour déterminer l’admission des candidats dans des programmes de
formation en enseignement ou un cours de français écrit avancé à des fins académiques,
le répondant semble mitigé sur ces deux mesures éventuelles puisqu’il a choisi de se dire
« partiellement d’accord » avec les deux proposition (Q.36 et Q.37).
La sixième partie s’adressait aux répondants appartenant au groupe MID, c’est-à-
dire les sujets ayant obtenu entre 60 et 74% au TFLM, ce qui correspond à 22% du total
des répondants. Des réponses recueillies, il ressort que les répondants considèrent
l’apport du cours de mise à niveau suivi comme bénéfique (100% d’accord ou tout à fait
d’accord, Q.38 et Q.39) et pensent qu’il devrait être intégré au cheminement régulier de
tous les étudiants inscrits dans des programmes de formation en enseignement (75 à
100% D’accord ou Tout à fait d’accord, Q.40 et Q.41). Les répondants sont plus partagés
quant à l’efficacité du cours de mise à niveau qui leur a été imposé mais tendent quand
même à lui conférer un certain aspect positif (50 à 75% partiellement d’accord, Q.42 et
Q.43) et désirent conserver le TFLM dans le processus d’admission (100% pas d’accord
ou pas du tout d’accord, Q.44). De même, et malgré le fait que tous les candidats soient
francophones, les répondants pensent à l’unanimité que ce type de cours de français
imposé aux étudiants doit être conservé (100% pas du tout d’accord ou pas d’accord
147
avec la proposition de les retirer des exigences d’admission, Q.45). Finalement, les
répondants du sous-groupe MID sont plutôt défavorables (50% pas d’accord, Q.46) à
l’utilisation de mises en situation à des fins d’admission et très partagés quant à l’idée
d’un cours de français écrit avancé à des fins académiques (25% pas d’accord, 50%
partiellement d’accord, 25% d’accord, Q.47).
Les résultats issus du questionnaire pour ce sous-groupe confirment les résultats
dégagés par les réponses données par le répondant du sous-groupe LOW, et qui
établissaient que d’une part, le TFLM n’était pas un test pertinent dans son utilisation
actuelle, mais que d’autre part, il est nécessaire de conserver un test du même type dans
le processus d’admission. De manière similaire, les répondants du sous-groupe MID
confèrent une certaine légitimité au cours de mise à niveau et estiment que ce cours les a
aidés dans leur cheminement, d’une manière ou d’une autre. En termes de perceptions,
donc, les cours de mise à niveau sont un aspect positif pour les étudiants des programmes
de formation en enseignement, mais comme nous l’avons démontré à plusieurs reprises,
que ce soit au cours des comparaisons entre les TLU et les caractéristiques des tâches du
TFLM ou les diverses analyses statistiques effectuées, les cours de mise à niveau dans
leur forme actuelle sont des éléments adjuvants à court terme qui ne fournissent pas les
outils nécessaires à une réelle mise à niveau des étudiants qui les suivent. Cependant,
puisque les étudiants semblent les apprécier, il serait avantageux pour les administrateurs
des facultés chargées des programmes de formation en enseignement de revoir les
contenus de ces cours afin de les rapprocher au maximum des TLU des cours des
programmes concernés et de la profession enseignante.
148
Finalement, 44% des répondants au total, soit huit, qui ont été classés comme
faisant partie du sous-groupe HIGH (résultat de 75% ou plus) à partir de leur score au
TFLM, ont répondu aux questions les concernant (Q.48 à Q.55). Les réponses de ce
groupe sont très inégales et il est difficile de voir des tendances fortes dans leur
perception du TFLM. En ce qui concerne l’efficacité du TFLM à sélectionner les
candidats les plus performants (Q.48), 62% des répondants estiment que le TFLM
sélectionne les candidats aux programmes de formation en enseignement de manière
fiable (d’accord ou partiellement d’accord) ; 38% des répondants de ce groupe estiment
donc que le TFLM n’est pas un outil fiable de sélection (pas d’accord). De même, si l’on
regarde les réponses obtenues aux questions 49 et 50, on voit que seulement 50% des
répondants s’estiment plus compétents que leurs collègues en français sur la base du
score obtenu au TFLM (Q.49), alors que 50% pensent que le TFLM n’est pas un outil
indicateur approprié de la compétence langagière des futurs enseignants (Q.50). Les
questions 51 et 52 viennent éclaircir ce clivage puisque 85 à 88% des répondants estiment
par leurs réponses que le TFLM ne garantit pas une meilleure compétence linguistique
(Q.51) ni n’offre de mesure précise de toutes les composantes de la compétence
langagière des étudiants. Malgré cette opinion tranchée de la part des répondants, ils
s’opposent vivement à un retrait éventuel du TFLM du processus d’admission (75%,
Q.53) et sont partagés (47% pas d’accord ou pas du tout d’accord, 38% partiellement
d’accord, 25% d’accord) quant à la possibilité de mettre en place un processus de
sélection par entrevues ou mises en situation (Q.54), de même que pour la possibilité
d’obliger tous les étudiants à suivre un cours de français écrit avancé à des fins
académiques (Q.55 ; 12% pas d’accord, 50% partiellement d’accord, 38% d’accord).
149
Les résultats exprimés par les répondants du sous-groupe HIGH viennent
rejoindre celles des deux autres sous-groupes sur plusieurs points : premièrement, le
TFLM n’est pas considéré comme un outil précis ni fiable pour effectuer la tâche qui est
la sienne. En effet, on voit clairement que les répondants ne se considèrent pas forcément
plus compétents que leurs pairs des sous-groupes MID ou LOW. De plus, le TFLM est vu
comme un test limité qui n’est pas en mesure d’évaluer toutes les composantes de la
compétence langagière des candidats ; cet aspect a été relevé plusieurs fois au cours de
cette étude, mais on retrouve encore cette idée que le TFLM n’évalue pas vraiment ce
qu’il devrait évaluer dans le contexte de son utilisation. Les réponses du sous-groupe
HIGH viennent donc corroborer les preuves accumulées jusqu’à maintenant, que ce soit
les réponses au questionnaire fournies par les sujets des deux autres sous-groupes, les
résultats de notre analyse qualitative des caractéristiques des tâches du TFLM par rapport
aux caractéristiques des tâches des trois TLU du contexte, ou les résultats des analyses
statistiques de nos données quantitatives.
Le tableau V.28 ci-dessous reprend les données globales exposées pour chacun
des sous-groupes. Les données cumulées et transcrites dans ce tableau démontrent de
manière évidente que les étudiants adhèrent à l’idée d’un test d’admission aux
programmes de formation en enseignement et estiment que les cours correctifs de
français ont leur place dans les mécanismes d’admission aux programmes visés.
150
Tableau V.28 : Opinion des répondants relative aux mécanismes d’admission dans les programmes
de formation en enseignement (test d’admission et cours correctifs de français)
Les étudiants estiment
que :
Pas du tout
d’accord (%)
Pas d’accord
(%)
Partiellement
d’accord (%)
D’accord (%) Tout à fait
d’accord (%)
Un test d’admission aux
programmes de
formation en
enseignement est
nécessaire.
40 60
Les cours correctifs de
français sont bénéfiques
aux étudiants des
programmes de
formation en
enseignement
40 60
Dans la dernière partie du questionnaire, les répondants ont eu l’occasion de
s’exprimer librement au sujet du TFLM, du processus d’admission et des mécanismes de
mise à niveau qui accompagnent le TFLM. Les réponses complètes à cette question sont
disponibles à l’annexe E. Si l’on devait dégager une tendance générale des commentaires
apportés, on pourrait dire que les étudiants ne contestent pas l’utilisation d’un test de
compétence langagière ou linguistique comme une partie du processus d’admission, mais
que le TFLM n’est pas le test le plus adapté à cette mission. D’autre part, il apparait que
les cours de mise à niveau, ou du moins l’idée de suivre des cours de français, est plutôt
bien accueillie par les répondants. Le contenu des cours semble cependant poser
problème et la tendance générale qui ressort des commentaires des répondants est qu’un
ou des cours de français spécialisé ou spécifique à leur futur métier devrai(en)t être
intégré(s) au cheminement régulier de tous les étudiants du programme en question.
Ci-dessous, quelques exemples de réponses données par les répondants au
questionnaire (tous les résultats du questionnaire sont disponibles à l’annexe E) :
Je crois qu'un cours de français devrait être inclus dans la formation du
BEFLS, puisqu'il est toujours utile de se rafraîchir la mémoire.
151
Il est vrai que les cours compensatoires peuvent retarder le cheminement
scolaire, cependant je considère ça pertinent dans la mesure où nous
allons devoir enseigner des notions de base à des apprenants. Si nous ne
les maitrisons pas il sera difficile de les enseigner.
Le cours de français obligatoire peut être bénéfique, tout comme tout
cours universitaire, si l'étudiant s'y investit et y voit la pertinence (qui peut
être directement en lien avec l'exercice de la profession enseignante). Le
programme devrait s'assurer que ce cours s'inscrive dans un certain
courant pratique, n'étant pas particulièrement centré sur les compétences
à l'écrit. Une étude pourrait être réalisée auprès des jeunes enseignants à
savoir quels sont leurs différents "besoins" relatifs à la langue en situation
professionnelle; quelles sont les difficultés vécues? Ce cours pourrait
viser, plus précisément, à répondre à ces différents enjeux (besoins).
Concernant le processus de sélection des futurs enseignants, il est certain
que des centres d'évaluation ou des tests psychologiques (motivation),
entrevues, etc. pourraient s'avérer pertinents pour cibler les candidats les
plus enclins à poursuivre leurs études (ne pas abandonner en cours de
programme) et à s'intégrer efficacement au marché du travail. Cependant,
il faut s'assurer de déterminer la principale fonction de ces tests (ce qu'on
veut mesurer), considérant que, par exemple, la maîtrise du français
pourrait être améliorée au moyen de cours ou de formations quelconques
si présence de certaines caractéristiques personnelles (motivation, désir
d'apprendre, etc.).
Le cours de mise à niveau en français est très bénéfique. Les apprenants
d'une langue seconde remettent plus facilement en question les différentes
règles et exceptions de la langue seconde. Il faut donc être outillé pour
pouvoir répondre à leur question en leur fournissant une réponse
adéquate.
Ce que je trouve dommage par rapport au cours de mise à niveau FRN-
1904, c'est que nous partons de trop loin. Je m'explique: je ne considère
pas nécessaire de voir des notions comme les déterminants ou les classes
de mots. Je crois que ce genre de notions devraient être vues par les
personnes qui ont eu en bas de 60% et qui doivent faire deux cours de
mise à niveau. Personnellement, j'aurais préféré qu'on m'enseigne des
règles particulières du français, ce qui est plus difficile. Je considère que
les personnes qui ont eu plus que 60% sont capables de distinguer un
déterminant d'un nom ou d'une préposition. Nous avons passé plusieurs
cours à voir des notions qu'on connaissait déjà et il ne nous reste plus
beaucoup de temps pour voir les particularités du français, qui, selon moi,
sont la cause de nos lacunes en français.
152
À la lumière des données exposées dans les tableaux V.26 à V.28 et des réponses
libres, si l’on devait avancer des conclusions générales au sujet des perceptions des
étudiants interrogés,, elles seraient les suivantes : le test est considéré difficile par les
sujets et il ne leur parait pas apte à mesurer la compétence réelle en français de manière
fiable, mais est considéré comme pertinent par les répondants dans le cadre de leurs
études à suivre, même s’ils sont francophones ou considérés comme tels. Ensuite,
toujours selon les répondants, les conséquences (en termes de cours supplémentaires ou
d’argent à débourser) qui suivent le test sont minimes sur leur cheminement ; l’idée
d’avoir des cours de mise à niveau imposés est appropriée et acceptée, et en plus d’être
des cours de spécialisation (langue à usage spécifique et destinée à l’enseignement), ces
cours devraient être intégrés au cheminement régulier des baccalauréats en enseignement
et ainsi faire partie de la formation offerte à tous les étudiants de ces programmes. Les
étudiants ont de plus avancé que les quatre habiletés (production écrite et orale,
compréhension écrite et orale) devraient être évaluées de manière égale dans le test
d’admission ainsi qu’au cours de leur cheminement.
Cependant, bien que ces tendances générales tendent à confirmer les constats mis
en lumière au cours de la recherche dans les phases 1 (étude de base) et 2 (analyse des
données quantitatives), il faut les nuancer. En effet, les contradictions sont nombreuses et
les non-sens tout aussi répandus dans les questionnaires retournés, ce qui tendrait
simplement à souligner le manque de connaissance en évaluation (assessment literacy)
des répondants.
Par exemple, la plupart des étudiants ont répondu que le TFLM « mesure
correctement la culture québécoise », alors que le TFLM n’aborde que le code
153
linguistique de la langue française sans jamais même aborder la culture, qu’il s’agisse de
la culture québécoise ou d’un autre pays de la francophonie. On voit d’autre part que la
plupart des répondants considèrent que le contenu du TFLM correspond au contenu des
cours de spécialité du programme entrepris. Ces deux affirmations sont évidemment
erronées, comme nous l’avons démontré à travers l’analyse des tâches et du contenu du
TFLM.
Dans le chapitre suivant, nous présenterons les conclusions auxquelles nous
sommes parvenus à partir des résultats présentés ci-dessus. Par la suite, nous établirons
les limites de cette recherche et finalement, nous suggèrerons des pistes de recherche
ultérieure.
155
CHAPITRE VI : CONCLUSIONS ET IMPLICATIONS
La présente recherche avait pour objectif d’analyser la validité prédictive d’un test
de compétence linguistique, le Test de Français Laval Montréal (TFLM), utilisé comme
test diagnostique lors de l’admission de candidats à des programmes de formation initiale
en enseignement à l’Université Laval (Québec, QC, Canada). La recherche est basée sur
l’analyse triangulaire de données recueillies en suivant une méthodologie mixte
convergente. Les questions de recherche étaient les suivantes :
1. Le TFLM est-il un prédicteur de réussite fiable dans le contexte d’un baccalauréat
en enseignement dans les universités francophones du Québec?
2. Les cours de mise à niveau ont-ils un impact important sur la réussite des
étudiants obligés de les suivre selon leur résultat au TFLM?
3. Comment les participants perçoivent-ils le TFLM et les cours de mise à niveau?
Afin de répondre à ces questions de recherche, nous avons procédé à plusieurs
types d’analyses : des données de types quantitatif et qualitatif ont été recueillies dans des
documents officiels de l’institution du contexte, à partir de renseignement recueillis lors
d’une entrevue avec un des concepteurs du TFLM, dans le système de données
informatiques centralisé Capsule et par le biais de questionnaires soumis aux étudiants de
quatre programmes de formation en enseignement ayant passé le TFLM entre 2007 et
2014.
La première analyse à laquelle nous avons procédé a été de comparer, de manière
approfondie et en nous basant sur des bases théoriques solides et éprouvées, les
caractéristiques des tâches qui composent le TFLM et celles qui composent les trois
autres contextes d’utilisation de la langue cible, soit les cours disciplinaires des
156
programmes étudiés, les cours de mise à niveau imposés aux étudiants selon leur
classement suite à la passation du TFLM, et enfin, l’utilisation de la langue par les
enseignants dans le cadre de leurs fonctions. Cette analyse, présentée en détail dans le
chapitre V de ce mémoire, établit qu’il n’y a pas de correspondance entre les tâches qui
composent le TFLM et les tâches exigées des étudiants dans la suite de leur
cheminement, que ce soit dans leurs cours disciplinaires, dans les cours de mise à niveau,
ou dans leur future carrière d’enseignant.
Après notre analyse qualitative des caractéristiques des tâches du TFLM, nous
avons procédé à l’analyse statistique des données quantitatives recueillies dans le système
informatique centralisé de l’université. Les résultats des analyses statistiques des données
rassemblées, relatives aux quatre années de cheminement de cent-quarante-cinq sujets,
ont démontré que le TFLM n’était pas un test approprié à des fins d’admission des
candidats francophones à des programmes de formation en enseignement. Le test s’est de
plus avéré inefficace dans sa mission seconde, qui est de classer les étudiants selon trois
niveaux de compétence sur la base de leur score et afin de leur offrir un ou des cours de
mise à niveau profitables et bénéfiques à leur formation. En effet, nous nous sommes
rendu compte que les classements erronés étaient fréquents et que les données
quantitatives ne supportaient pas la capacité à classer ces sujets à partir des résultats
qu’ils avaient obtenus au TFLM.
Ce constat, qui est apparu de manière de plus en plus évidente au cours des
différentes analyses concerne le contenu de ces cours qui, comme nous l’avons déjà
rappelé ci-dessus, n’est pas lié au contenu du TFLM, ce qui rend leur utilisation plus que
questionnable. De plus, l’impact bénéfique qui devrait être évident en termes de réussite
157
(moyennes cumulatives transitoire ou finale) n’est pas appuyé par les données, puisque
les étudiants qui doivent suivent ces cours ne semblent pas, à long terme, être en mesure
de rehausser leur moyenne cumulative au niveau de leurs pairs plus performants. Les
gains mesurés sont minimes, voire inexistants, surtout chez les étudiants les plus faibles.
Les cours, donc, ne semblent pas remplir leur mission, rendant du même coup les
mécanismes mis en place à la suite du TFLM complètement inadéquats et inutiles ainsi
qu’une dépense superflue pour les facultés.
Le dernier volet de notre étude avait pour objectif de déterminer les perceptions
des étudiants vis-à-vis le TFLM et les cours de mise à niveau. Les résultats issus des
questionnaires retournés sont mitigés, mais ils lèvent au moins le voile sur l’opinion des
participants sur plusieurs aspects. En effet, à travers les réponses de nos répondants, il
apparait que les étudiants considèrent que le TFLM n’est pas un test d’admission efficace
et que les cours de mise à niveau proposés sont utiles, mais doivent être améliorés, en
particulier en rapprochant leur contenu des tâches exigées des étudiants dans leurs autres
cours ou dans leur future carrière. La présence de tels dispositifs, cependant, n’est pas
disputée, et il semble même qu’une majorité de répondants considère que le processus
d’admission doit garder sa forme actuelle, soit un test suivi de cours correctifs éventuels
et selon les besoins de chaque candidat. Une autre piste qui a été dégagée des réponses
des étudiants est l’intégration de cours de langue spécialisée au cheminement régulier de
tous les étudiants, quel que soit leur niveau de compétence langagière ou leur score au
test d’admission. Cette piste montre que les répondants sont bien conscients de la
nécessité de maitriser la langue française, qui sera leur outil de travail principal après leur
diplomation.
158
Les résultats exposés ci-dessus, obtenus par le biais de trois différents types
d’analyses et la triangulation de données qualitatives et quantitatives, nous amène à tirer
les conclusions suivantes.
Premièrement, le TFLM ne remplit pas le mandat qui est le sien, soit agir en tant
que test d’admission dans des programmes de formation universitaire en enseignement.
Le TFLM, sous sa forme actuelle, ne répond pas aux besoins spécifiques du contexte car
il reste avant tout un test de compétence linguistique, ses tâches se limitant uniquement à
évaluer la connaissance du code linguistique du français par des locuteurs natifs
francophones. Comme nous l’avons démontré dans notre analyse présentée au chapitre V,
le TFLM n’est pas un test de compétence langagière et il n’évalue pas les composantes
nécessaires à la réussite des tâches qui attendent les participants dans les programmes qui
l’utilisent. Les étudiants qui réussissent avec succès ce test ne sont pas assurés de réussir
les tâches auxquelles ils seront confrontés dans les cours qui composent le programme
visé puisque les tâches du TFLM ne rejoignent pas les exigences langagières des tâches
qui seront exigées d’eux dans les cours de leurs programmes respectifs. Cela constitue
une lacune importante qui jette un sérieux doute sur l’utilisation qui est faite du TFLM
dans notre contexte.
Deuxièmement, les tâches du TFLM sous-représentent les construits nécessaires à
l’évaluation des futurs enseignants (Messick, 1996). Si l’on considère les revendications
de l’AQPF (2001) énoncées pendant les États généraux de la langue française (2001), on
voit clairement que les demandes formulées par les professionnels de l’enseignement ne
trouvent pas de réponses dans le TFLM puisque celui-ci n’évalue pas du tout la
compétence de communication orale, la compréhension écrite, la production écrite, ni la
159
majeure partie des composantes de la compétence langagière (Bachman & Palmer, 2010)
sollicitées dans les contextes TLU liés au test. D’autre part, les aspects culturels ou
individuels (qualités personnelles ou interpersonnelles), composantes primordiales de la
profession enseignante puisqu’elles composent, avec la maitrise de la langue, les
« fondements » de la profession enseignante (compétences professionnelles 1 et 2,
document référentiel rédigé par le MELS, 2001) ne sont aucunement évalués par le
TFLM, ignorant totalement la recommandation de l’AQPF (2001). En effet, le TFLM
n’aborde aucun des éléments présentés comme impératifs et au centre de la formation des
futurs enseignants du Québec (à titre de rappel, voir chapitre I pour les libellés des deux
compétences concernées). Ces deux dimensions restent, à ce jour et à notre connaissance,
encore complètement ignorées de tout processus d’admission des programmes de
formation en enseignement, malgré l’importance primordiale de ces qualités dans la
carrière des enseignants d’aujourd’hui. Cette lacune du TFLM est aussi présente, dans
une moindre mesure cependant, dans le contenu des cours de mise à niveau qui
composent les mécanismes correctifs adressés aux étudiants les moins performants.
Même si des efforts ont été faits pour se rapprocher de la réalité des enseignants en
fonction, il reste de nombreux aspects à développer et à inclure dans les plans de cours de
ces cours correctifs. Par exemple, une place plus importante devrait être octroyée aux
compétences liées à l’oral au lieu de se concentrer uniquement sur les compétences du
domaine de l’écrit. N’oublions pas que la majeure partie des consignes passées en classe
par les enseignants se fait d’abord à l’oral. Les objectifs des cours de mise à niveau, et
donc, incidemment, du TFLM, devront donc être ajustés en prenant ce fait en
considération.
160
Troisièmement, le TFLM n’est pas un indicateur valide de la compétence
langagière des participants. Rappelons que le TFLM s’adresse uniquement, dans le
contexte des programmes de formation en enseignement, à des locuteurs francophones
natifs, mais que les objectifs du TFLM ne semblent pas avoir été déterminés avec cette
particularité en tête. Les résultats de l’analyse des données quantitatives ont démontré que
les sous-groupes, constitués sur la base des scores obtenus au TFLM, étaient mal formés
et que nombre d’étudiants avaient été mal classés sur la seule base de leur score au TFLM
(voir l’absence de corrélation entre les scores au TFLM et la moyenne cumulative finale
pour chaque sous-groupe, chapitre V). Cela signifie que non seulement le TFLM n’évalue
qu’une infime partie de la compétence linguistique complète des candidats, mais qu’en
plus, le classement qui est effectué sur la base des scores n’est pas juste. Ce problème met
en doute de manière importante la validité du test puisqu’elle vient directement mettre en
doute sa validité de construit (Bachman & Palmer, 1996).
Quatrièmement, si l’on regarde le contenu du TFLM, on note que les
compétences de communication à proprement parler sont totalement absentes, de même
que les connaissances culturelles associées au contexte (le parler et la culture québécois
sont totalement absents). Le TFLM n’est donc pas contextualisé et n’évalue pas la
compétence communicative (Bachman & Palmer, 2010). Comme nous l’avons mentionné
auparavant, le contexte dans lequel se déroulait cette étude en est un tout particulier : il
s’agit d’un test censé évaluer la compétence linguistique de candidats francophones natifs
à des programmes de formation universitaire en enseignement dans une université
québécoise. Dans ce libellé, plusieurs éléments sont uniques par leur spécificité et il
semble que le TFLM n’ait pas été conçu en prenant ces particularités en ligne de compte.
161
Le TFLM reste alors un test de compétence linguistique qui évalue des composantes de la
langue que l’on pourrait trouver chez des locuteurs non natifs et qui ne prend absolument
pas en considération les particularités du contexte dans lequel il est utilisé. Rappelons-le,
le TFLM n’a pas bénéficié d’une analyse de besoins lors de sa conception ; il semblerait
que l’idée était plutôt de construire un test qui pourrait être utilisé dans tous les contextes,
sans tenir compte des particularités de chacun ni des besoins spécifiques qui attendraient
les candidats qu’il évalue et pour lesquels les conséquences peuvent être importantes.
En conclusion, au vu des éléments rapportés ci-dessus et des preuves accumulées,
le TFLM ne devrait pas être utilisé dans le processus d’admission des candidats dans des
programmes de formation en enseignement au Québec. Outre le fait que ni le TFLM, ni
les cours correctifs qui l’accompagnent ne correspondent aux caractéristiques des tâches
qui attendent les candidats dans les cours disciplinaires ou dans leur future carrière, et
sont donc inefficaces dans cette optique, le TFLM est un outil trop peu fiable dans sa
mission de classement des candidats en sous-groupes pour faciliter les cours de mise à
niveau. De plus, puisque l’administration du test et l’organisation des cours de mise à
niveau occasionnent des dépenses et la mobilisation de ressources importantes pour les
facultés, et si l’on considère que ni le TFLM, ni les cours de mise à niveau ne sont des
mécanismes valides ou fiables ou bénéfiques à long terme, comme nous l’avons démontré
dans notre analyse des données quantitatives, on peut même avancer que le TFLM dans
son utilisation actuelle apporte plus d’inconvénients que d’avantages pour les
programmes qui l’utilisent. On peut très bien imaginer que l’utilisation du TFLM et des
cours correctifs pourraient engendrer des conséquences négatives dans les programmes
concernés ; des atermoiements en termes d’apprentissage et de formation pour les
162
étudiants mal classés sur la base de leur résultats au TFLM, par exemple, ou un effet
washback négatif (Anderson & Wall, 1993, Messick, 1989) pourraient très bien
constituer des phénomènes avérés et non désirables dans le contexte de notre étude. Il
n’est pas impossible non plus que les étudiants décident d’abandonner le programme à
cause des cours de mise à niveau ou d’un mauvais classement suite au score obtenu au
TFLM : cette éventualité pourrait constituer une conséquence extrêmement grave et
mettre en danger la pérennité même des programmes concernés.
À la vue des résultats présentés et discutés ci-dessus, nous pouvons émettre les
recommandations suivantes.
Tout d’abord, il faut rappeler que les enjeux des tests de langue utilisés comme
test d’admission pour les futurs enseignants sont très élevés : à un niveau individuel
(étudiant), et malgré ce qui est ressorti des réponses recueillies dans le questionnaire, le
cheminement et les sommes à débourser pour les individus sont directement tributaires de
leur résultats au test d’admission ; à un niveau supérieur, celui des institutions
responsables de l’administration de tels tests, les enjeux sont de nature financières et
concernent les ressources de chaque département. On pourrait même avancer que de
l’optimisation des pratiques de mesure et d’évaluation à des fins de sélection dépendent la
pérennité et la viabilité financière de certains départements tant l’administration des tests
peut représenter un stress important sur les ressources disponibles ; finalement, au niveau
macro, celui de la société, l’enjeu est de taille car il concerne la formation et
l’accréditation du personnel enseignant. Il est primordial de se souvenir, en tant que
société, de l’importance de cette profession et de l’impact important que ses membres
163
peuvent avoir sur la société : il s’agit des personnes qui ont la responsabilité de former les
citoyens de demain, nos enfants.
Après avoir rappelé l’importance prépondérante des tests d’admission à des
programmes de formation en enseignement, nous allons maintenant présenter nos
recommandations dans l’optique de rendre le processus d’admission efficace et utile.
Comme nous l’avons démontré auparavant, le processus dans sa forme actuelle n’est pas
efficace et ne remplit pas son mandat. Il faut donc y apporter des changements
relativement importants pour l’optimiser et, du même coup, améliorer la formation de nos
futurs enseignants.
En premier lieu, il serait nécessaire de remplacer, ou tout du moins, de revisiter le
TFLM dans l’optique de le faire correspondre au plus près aux besoins langagiers réels
des candidats dans leurs programmes et dans leur future carrière. Cette possibilité,
quoique la meilleure d’un point de vue théorique, constituerait un investissement à long
terme à cause des coûts importants que représente une telle entreprise. Comme nous
l’avons expliqué dans notre problématique, une des motivations qui sous-tendent cette
étude est la réduction, ou tout du moins l’optimisation des dépenses liées à
l’administration du TFLM au début de chaque année, car cette dernière représente un
fardeau lourd pour les facultés, tant en termes de ressources financières que de ressources
humaines.
Cette opération, qui consisterait à prendre en considération les caractéristiques
exactes des tâches exigées des étudiants dans les cours des programmes concernés,
permettrait d’évaluer les candidats sur les compétences dont ils devront faire preuve après
leur test. Le TFLM ne pourrait qu’en gagner en authenticité et en validité, et du même
164
coup, être plus enclin à prédire la réussite des candidats puisqu’il évaluerait les éléments
langagiers requis dans les cours disciplinaires ou optionnels des programmes de
formation en enseignement. Cette recommandation a pour but premier de transformer le
TFLM en véritable test d’admission, c’est-à-dire, avec la capacité de filtrer et d’identifier
les candidats qui ont les meilleures ou les moins bonnes chances de finir leur programme
avec succès. Rappelons que dans l’état actuel des choses, le TFLM n’empêche pas les
étudiants trop faibles d’intégrer ces programmes qui, comme nous l’avons vu, peuvent
avoir des conséquences extrêmement importantes sur la société. Il ne remplit donc pas la
fonction de gardien. De plus, il est possible que le test, dans sa forme actuelle et avec les
lacunes que nous avons déjà identifiées, engendre des décisions prises sur la base des
scores inexacts qui feraient en sorte que des candidats qui auraient dû être intégrés
directement dans le programme, sans avoir à suivre de cours de mise à niveau, soient
obligés de rallonger leur cheminement, avec les risques d’abandon que nous avons
mentionnés auparavant. L’utilisation du TFLM aurait donc des effets non seulement
inefficaces pour les étudiants, mais il pourrait aussi avoir des néfastes sur les programmes
et la société.
Afin de se doter des meilleures chances de réussite dans la conception d’un test
efficace, une étude approfondie des besoins réels nécessaires dans tous les contextes
d’utilisation de la langue cible liés à ces programmes de formation doit être effectuée.
Cette étude doit être basée sur les besoins de tous les participants et utilisateurs du test,
c’est-à-dire les candidats, les enseignants en fonction, les étudiants des cours de mise à
niveau, les professionnels du Ministère de l’éducation, les administrateurs des facultés,
les enseignants et professeurs qui œuvrent dans ces programmes. À partir des besoins
165
établis par chacun des utilisateurs, il sera possible de concevoir un test qui répond
réellement au contexte spécifique et particulier des programmes de formation en
enseignement dans les universités québécoises.
Pour faire suite aux changements à apporter au test, et dans un souci de cohérence
et de validité de tous les mécanismes liés à la réussite des sujets, il convient bien entendu
de se pencher sur le contenu des cours de mise à niveau imposés aux étudiants (qui
rappelons-le, sont tous des locuteurs natifs du français et ont donc des besoins bien
particuliers en termes de compétences langagières) sur la base de leur score au TFLM.
Les contenus de ces cours doivent être réformés afin de les faire correspondre au test,
d’une part, mais en gardant toujours en tête les besoins langagiers réels des étudiants
après leur diplomation. Il faut donc procéder à une harmonisation totale de tous les
éléments qui composent le processus d’admission et des mécanismes qui lui sont liés : le
contenu du test d’admission doit correspondre au contenu des cours de mise à niveau, qui
doivent eux-mêmes être reliés aux caractéristiques des tâches des cours du programme
(disciplinaires et optionnels), qui eux-mêmes doivent refléter les compétences
authentiques nécessaires dans le cadre de la fonction enseignante. Dans la situation
actuelle, et comme nous l’avons démontré à de nombreuses reprises tout au long de notre
étude, les mécanismes d’admission ne sont que très peu liés entre eux et correspondent
trop peu à la réalité qui attend les candidats francophones qui composent la clientèle type
de ces programmes.
De plus, il serait judicieux sensibiliser les étudiants quant à leur compétence
langagière. Rappelons que le MELS a pris la peine d’établir la compétence
communicative des enseignants comme un des deux fondements de la profession ; il faut
166
donc que les candidats à ces programmes soient bien au fait que le niveau attendu de leur
part est très élevé. Une fois cette exigence établie et comprise par tous les partis
impliqués, il sera plus facile de proposer des cours de mise à niveau adaptés aux besoins
ciblés des candidats ou des étudiants, voire même offrir un cours (ou une série de cours)
entièrement dédiée à cette exigence. De cette manière, la motivation des étudiants serait à
son maximum puisque le cours et ses exigences seraient ancrés dans la réalité de leur
futur milieu de travail et dictée par leur futur employeur, le MELS. Les mécanismes
jouiraient donc d’une légitimité absolue auprès des étudiants.
Limites et suggestions de poursuite de l’étude
Bien que dans le cadre de la présente étude, nous ayons réussi à dégager des
éléments de réponse probants, des conclusions appropriées et offert des pistes de
réflexion pour les administrateurs, il s’agit d’énoncer les limites de notre recherche.
Pour accomplir cette étude, nous avons utilisé les données correspondant aux
sujets appartenant à une institution représentative des universités de même type au
Québec, c’est-à-dire, les universités francophones qui offrent des programmes de
formation en enseignement à leur clientèle. Bien que nos résultats soient basés sur des
chiffres et des analyses solides, idéalement, les données correspondraient à tous les
candidats et étudiants de toutes les universités francophones qui proposent des
programmes de formation en enseignement et qui utilisent le TFLM comme test
d’admission. Une telle réplique apportera très sûrement des éléments de réponse
supplémentaires et permettra de déterminer si le TFLM est ou pas un prédicteur efficace
de la réussite des étudiants des programmes de formation initiale en enseignement des
universités qui l’utilisent.
167
Comme nous l’avons souvent mentionné, il est urgent d’effectuer une analyse
approfondie des besoins langagiers en termes de compétence communicative de la
profession enseignante. Une telle étude, bien que potentiellement couteuse, offrirait la
base indispensable à la conception d’un test approprié et efficace dont la fonction serait
d’évaluer les candidats à l’entrée de programmes de formation en enseignement.
Finalement, étant donné que tous les programmes de formation en enseignement
dans toutes les universités québécoises disposent d’un test en commun, soit le TECFÉE,
on pourrait évaluer le potentiel de celui-ci à agir en tant que prédicteur de réussite dans
les contextes professionnels. La mission du TECFÉE est de s’assurer que tous les futurs
enseignants de la province maitrisent, dans une certaine mesure, la langue française, et
ainsi de répondre aux exigences de la compétence professionnelle 2 (MELS, 2001). Le
fait qu’il soit utilisé dans toutes les institutions et pour tous les étudiants des programmes
de formation en enseignement nous fournirait un nombre très important de données, ce
qui permettrait de procéder à des analyses englobant tous les sujets du Québec et ainsi
obtenir des résultats généraux sur la question.
La méthodologie utilisée dans notre étude pourrait être appliquée à une telle
analyse sans en changer trop d’éléments et la quantité importante de données permettrait
des conclusions solides. Une telle étude demanderait cependant de nombreuses
autorisations puisqu’un secret important entoure ce test à grands enjeux et qui agit en tant
que gardien de la langue française chez tous les enseignants du Québec.
169
LISTE DES RÉFÉRENCES
Akeju, S. S., & Michael, W.B. (1970). Predicting success in the federal school of science,
Lagos, Nigeria. Educational and Psychological Measurement. 30(2), pp. 483-
486.
Alavi, T. (2012). The predictive validity of final English exams as a measure of success
in Iranian national university entrance English exam. Journal of Language
Teaching and Research, 3(1),pp. 224-228 .
Alderson, J.C., & Wall, D. (1993). Does washback exist? Applied Linguistics, 14(2), pp.
115-129 .
Alem, J. (2003). La valeur de l’appréciation par simulation (APS) pour prédire le succès
initial en enseignement des candidats aux études en éducation. Thèse de doctorat,
Université Laval, http://theses.ulaval.ca/archimede/fichiers/20957/20957.html
Al-Musawi, N.M., & Al-Ansari, S.H. (1999). The Test of English as a Foreign Language
and the First Certificate in English tests as a predictor of academic success for
undergraduate students at the University of Bahrain. System, 27, pp. 389-399.
American Educational Research Association, American Psychological Association,
National Council on Measurement in Education, Joint Committee on Standards
for Educational, & Psychological Testing (US). (1999). Standards for educational
and psychological testing. American Educational Research Association.
Anquetil, M. (2012). Actes du IIème Forum Mondial HERACLES - pp. 17-32,
http://gerflint.fr/Base/Monde9/anquetil_mathilde.pdf
Association Québécoise des professeures et professeurs de Français (AQPF) (2001),
Mémoire déposé pendant les États généraux de la langue française au Québec.
170
http://www.spl.gouv.qc.ca/fileadmin/medias/pdf/COM1-021_Rapport_final.pdf
http://www.spl.gouv.qc.ca/fileadmin/medias/pdf/memoires/220_Ass_queb_prof_f
r.pdf
Ayers, J.B., & Peters, R.M. (1977). Predictive validity of the Test of English as a Foreign
Language for Asian graduate students in engineering, chemistry or mathematics.
Educational and Psychological Measurement. 37(2), pp. 461-463.
Bachman, L. (1990). Fundamental considerations in testing. Oxford University Press.
Bachman, L., & Palmer, A. (2010). Language assessment in practice. Oxford University
Press.
Bachman, L., & Palmer, A. (1996). Language testing in practice: Designing and
developing useful language tests. Oxford University Press.
Bachman L. (1991). What Does Language Testing Have to Offer? TESOL Quarterly,
25(4), pp. 671-704.
Bachman, L. (2001). Modern language testing at the turn of the century: Assuring that
what we count counts. Language Testing, 17(1), pp. 1-42.
Bayliss, D., & Raymond, P.M. (2004). The link between academic success and L2
proficiency in the context of two professional programs. Canadian Modern
Language Review, 61(1), pp. 29–51.
Bayliss, A., & Ingram, D. (2006). IELTS as a predictor of academic language
performance, Part 1. Australian International Education Conference,
http://www.idp.com/aiec
171
Bellingham, L. (1993). The relationship of language proficiency to academic success for
international students. New Zealand Journal of Educational Studies, 2(30), pp.
229-232.
Black, J. (1991), Performance in English skills courses and overall academic
achievement, TESL Canada Journal, 9(1), pp. 42-53.
Blais, F. (2001). Le Canadian Achievement Test utilisé comme indicateur de réussite
scolaire. (Mémoire de maîtrise) Université d’Alberta, Campus Saint-Jean,
Edmonton.
Breeze, R., & Miller, P. (2008). Predictive validity of the IELTS listening test as an
indicator of student coping ability in Spain. IELTS Research Reports, 12, pp. 1-
34.
Brown, F.G. (1983). Principles of psychological and educational testing, Third edition.
Holt, Rinehart and Winston, the Dryden Press.
Canale, M. (1983). From communicative competence to communicative language
pedagogy. Dans Richards, J.C. & Schmidt, R.W., Language and
Communication, Harlow: Longman.
Canale, M. (1987). The measurement of communicative competence. Annual Review of
Applied Linguistics, 8, pp 67-84. doi:10.1017/S0267190500001033.
Canale, M., & Swain, M. (1980). Theoretical bases of the communicative approaches to
second language teaching and testing. Applied Linguistics, 1(1), pp. 1-47.
Centre d’évaluation, Faculté des Lettres, École de langues, Université Laval, le TFLM
(Test de Français Laval-Montréal) Épreuve de français langue maternelle.
172
http://www.elul.ulaval.ca/fileadmin/elul/fichiers/tests-de-classement/sinscrire-a-
un-test/Test-FLM.pdf
Celce-Murcia, M., Dornyei, Z., & Thurrell, S. (1995). Communicative competence: A
pedagogical motivated model with content specifications. Applied Linguistics,
6(2), pp. 5-35.
Chapelle, C. (1999). Validity in language assessment. Annual Review of Applied
Linguistics, 19, pp. 254-272. DOI :
http://dx.doi.org.acces.bibl.ulaval.ca/10.1017/S0267190599190135
Cho, Y., & Bridgeman, B. (2012). Relationship of TOEFL iBT scores to academic
performance: Some evidence from American universities. Language Testing,
29(3), pp. 421-442.
Coley, M. (1999). The English language entry requirements of Australian universities for
students of non-English speaking background. Higher Education Research &
Development, 18(1), pp. 7-17.
Cotton, F., & Conrow, F. (1998). An investigation of the predictive validity of IELTS
amongst a group of international students studying at the University of Tasmania.
IELTS Research Report, 1, pp. 72-115.
Cope, N. (2011). Evaluating locally-developed language testing: A predictive study of
‘direct entry’ language programs at an Australian university. Australian Review of
Applied Linguistics, 34(1).
Creswell, J.W., & Plano Clark, V.L.L. (2010). Designing and conducting mixed methods
research. Sage Publications, 2nd edition.
173
Cronbach, L., & Meehl, P. (1955). Construct validity in psychological tests.
Psychological Bulletin, 52(4), pp. 281-302.
Davies, A. (1990). Principles of language testing. Oxford; Cambridge, Mass., B.
Blackwell, USA.
Davies, A. (2004). Dictionary of language testing. Cambridge University Press.
Dooey, P. (1999). An investigation into the predictive validity of the IELTS test as an
indicator of future academic success. Dans Martin, K., Stanley, N., & Davison, N.
Teaching in the disciplines/ learning in context, pp. 114-118. Proceedings of the
8th Annual Teaching Learning Forum, University of Western Australia, February
1999. Perth: UWA. http://lsn.curtin.edu.au/tlf/tlf1999/dooey.html
Dooey, P., & Oliver, R. (2002). An investigation into the predictive validity of the IELTS
test as an indicator of future academic success. Prospect, 17, pp. 36-54.
Doucet, P. (2001) Pour un test utile. http://asp.revues.org/1696 ; DOI : 10.4000/asp.1696
Douglas, D. (2000). Assessing languages for specific purposes. Cambridge University
Press.
École Polytechnique de Montréal (2010). Avis de convocation au TFLM.
http://www.polymtl.ca/etudes/SiteWebEtudes/formulaires_procedures/multiples/T
est%20de%20francais_aut_avis.pdf
Elder, C. (1993). Language proficiency as a predictor of performance in teacher
education. Melbourne Papers in Language Testing, 2(1), pp 68-85.
Elder, C. (2001). Assessing language proficiency of teachers: Are there any border
controls? Language Testing, 18(2), pp. 149-170.
174
Feast, V. (2002). The impact of IELTS scores on performance at university, International
Education Journal, 3(4), pp. 70-85.
Ferguson, G., & White, E. (1998). A small-scale study of predictive validity. Melbourne
Papers in Language Testing, 7(2), 15-63.
Fiocco, M. (1992). English proficiency levels of students from a non-English speaking
background: A study of IELTS as an indicator of tertiary success. (unpublished
research report). Perth: Curtin University of Technology.
Friend, M., Schmitt, S., & Simpson, A.M. (2012). Evaluating the predictive validity of
the computerized comprehension task: Comprehension predicts production.
Developmental Psychology, 48(1), pp. 136–148.
Fulcher, G. (1997). An English language placement test: Issues in reliability and validity.
Language Testing, 14(1), pp. 113-138.
Fulcher, G., & Davidson, F. (2007). Language testing and assessment: An advanced
resource book. London: Routledge.
Graham, J. (1987). English language proficiency and the prediction of academic success.
TESOL Quarterly, 12(3), pp. 505-521.
Grotjahn, R., & Eckes, T. (2006). A closer look at construct validity of C-test. Language
Testing, 23, p. 290. DOI: 10.1191/0265532206lt330oa
Gue, L., & Holdaway, E.A. (1973). English proficiency test as predictor of success in
graduate studies in education. Language Learning, 23(1).
Hackman, R. J., Wiggins, N., & Bass, A. R. (1970). Prediction of long-term success in
doctoral work in psychology. Educational and Psychological Measurement, 30,
pp. 365-374.
175
Henning, G. (1987). A guide to language testing: Development, evaluation, research.
Rowley, Massachusetts: Newbery House.
Hill, K., Storch, N., & Brian, L. (1999). A comparison between IELTS and TOEFL as
predictors of academic success. IELTS Research Reports. 2(3), pp. 62-73.
Hughes, A. (1989). Testing for language teachers. Cambridge University Press.
Hughes, A. (2003). Testing for language teachers. Cambridge University Press.
Huong, T. T. (2001). The predictive validity of the International English Language.
Testing System (IELTS). Post Script, University of Melbourne, 2(1), pp. 66-96.
Hwang, K., & Dizney, H.F. (1970). Predictive validity of the Test of English as a Foreign
Language for Chinese graduate students at an American university. Educational
and Psychological Measurement, 30, p. 475.
Hymes, D. (1972). On communicative competence. Dans J. B. Pride and J. Holmes,
Sociolinguistics. Harmondsworth, Middlesex: Penguin Education, pp. 269-293.
Hymes, D. (1974). Foundations of sociolinguistics: An ethnographic approach.
Philadelphia: University of Pennsylvania Press.
Kaplan, R.B., & Jones, R.A. (1961). Evaluation of relative foreign student success.
Language Learning, 14(3-4).
Kerstjens, M., & Nery, C. (2000). Predictive validity in the IELTS test: A study of the
relationship between IELTS scores and students' subsequent academic
performance. IELTS Research Reports, 3, pp. 85-108.
Kuncel, N.R., Hezlett, S.A., & Ones, D.S. (2001). A comprehensive meta-analysis of the
predictive validity of the Graduate Record Examinations: Implications for
176
graduate student selection and performance. Psychological Bulletin, 127, pp. 162-
181.
Kuncel, N.R., & Hezlett, S.A. (2007). Standardized tests predict graduate students’
success. Science, 315, pp. 1080-1081.
Kuncel, N. R., Crede, M., & Thomas, L.L. (2007). A meta-analysis of the predictive
validity of the Graduate Management Admission Test (GMAT) and
undergraduate grade point average (UGPA) for graduate student academic
performance. Academy of Management Learning & Education, 6(1), pp. 51–68.
Kuncel, N.R., Wee, S., Serafin, L., & Hezlett, S.A. (2010). The validity of the graduate
record examination for Master’s and doctoral programs: A meta-analytic
investigation. Educational and Psychological Measurement, 70(2), pp. 340-352.
Jones, R.A., Kaplan, R.B., & Michael, W.B. (1964). The predictive validity of a modified
battery of tests in language skills for foreign students at an American university.
Educational and Psychological Measurement, 24(4), pp. 961-965
Lado, R. (1961). Language testing: The construction and use of foreign language tests.
New York, McGraw-Hill.
Lai, K., Nankervis, S., Story, M., Hodgson, W., Lewenberg, M., & MacMahon Ball, M.
(2008). Providing transparency and credibility: The selection of international
students for Australian universities: an examination of the relationship between
scores in the International Student Admissions Test (ISAT), final year academic
programs and an Australian university’s foundation program. Higher Education
Research & Development, 27(4), pp. 331-344.
177
Lee, Y. J., & Greene, J. (2007). The predictive validity of an ESL placement test: A
mixed methods approach. Journal of Mixed Methods Research, 1, pp. 366-389.
Lloyd-Jones, G., Neame, C., & Medaney, S. (2012). A multiple case study of the
relationship between the indicators of students’ English language competence on
entry and students’ academic progress at an international postgraduate university.
IELTS Research Report, 11.
Lunneborg, P.V., Lunneborg C.E., & Greenmun, R. (1970). An attempt at predicting
long-term, no intellective indices of community college study. Journal of
Educational and Psychological Measurement, 30, p. 399.
Manning, C.A., Della Rocco, P.S., & Bryant, K.D. (1989). Prediction of success in FAA
air traffic control field Training as a function of selection and screening test
performance. Civil Aeromedical Institute, Federal Aviation Administration,
Washington, D.C.
Ministère de l’éducation, du Loisir et du Sport (2001). La formation à l’enseignement :
les orientations, les compétences professionnelles.
http://www.mels.gouv.qc.ca/fileadmin/site_web/documents/publications/anterieur
/formation_ens.pdf
Ministère de l’éducation, du Loisir et du Sport, Comité conseil sur la formation du
personnel enseignant (2006). La formation en milieu de pratique : de nouveaux
horizons à explorer.
Messick S. (1980). Test validity and the ethics of assessment. American Psychologist,
35(11), pp. 1012-1027.
178
Messick S. (1988). The once and future issues of validity: Assessing the meaning and
consequences of measurement. Dans Test Validity, Wainer, H., Braun, H.,
Lawrence Erlbaum Associates, Ed., pp. 33-43.
Messick, S. (1989). Validity. Dans Linn, R. L., Educational Measurement, 3rd ed., pp.
13-103. New York : American Council on Education and Macmillan.
Messick, S. (1991). Validity of test interpretation, Encyclopedia of educational research.
New York, MacMillan.
Messick, S. (1995). Standards of validity and the validity of standards in performance
assessment. Educational measurement: Issues and practice, 14(4), 5-8.
Messick, S. (1996). Validity and washback in language testing. Language Testing, 13, p.
241-256.
Messick, S. (1998). Test validity: A matter of consequence. Social Indicators Research,
45, pp. 35-44.
Morris, L., & Cobb T. (2004). Vocabulary profiles as predictors of the academic
performance of teaching English as a second language trainees. System, 32(1), pp.
75–87.
Morrow, K. (1981). Communicative language testing: Revolution or evolution? Dans
Alderson, C., & Hughes, A., Issues in Language Testing, pp. 9-25 (aussi publié
dans Brumfit, C.J., & Johnson, K. (1979). The communicative approach to
language teaching, Oxford University Press, pp. 143-157.
Nolan, J.S., & Jacobson, J. (1972). The California comprehensive test of basic skills: A
predictor of success for high school freshmen. Journal of Educational and
Psychological Measurement, 32, (451).
179
Oliver, R., & Vanderford, S. (2009). Investigating the relationship to academic
achievement, basis for admission and English language proficiency: What are the
pathways to success? Perth, WA: Edith Cowan University.
Oller, J. (1973). Cloze tests of second language proficiency and what they measure.
Language Learning, 23(1), pp. 105–118.
Oller, J. (1979). Language tests at school. London: Longman.
O’Loughlin, K. (2008). The use of IELTS for university selection in Australia. IELTS
Research Reports, 8, ed. J. Osborne, IELTS Australia, Canberra, pp. 145-241.
Palmer, A.S., Groot, P.J.M., & Trosper, G.A. (1981). The construct validation of tests of
communicative competence. Washington, D.C., TESOL.
Paquay L. (1998). L’évaluation et la formation des enseignants. Louvain-la-Neuve,
Academia-Bruylant.
Paquay L. (2004). L’évaluation des enseignants : Tensions et enjeux. L’Harmattan. Paris.
Paul, A. (2007). IELTS as a predictor of academic language performance, Part 2. IELTS
Research Report, 7.
Pearson, B. Z. (1993). Predictive validity of the Scholastic Aptitude Test (SAT) for
Hispanic bilingual students. Hispanic Journal of Behavioral Sciences, 15(3), pp.
342-356.
Phakiti, A. (2008). Predicting NESB international postgraduate students’ academic
achievement: A structural equation modelling approach. International Journal of
Applied Educational Studies, 3(1), pp. 18–39.
Romainville, M. (1997). Peut-on prédire la réussite d’une première année universitaire?
Revue Française de Pédagogie, 119, pp. 81-90.
180
Sako, S., & Fruchter, B. (1965). Statistical study of the prediction of language
achievement of foreign students. Language Learning, 15, pp. 1-2.
Sharon, A.T. (1972). English proficiency, verbal aptitude, and foreign student success in
American graduate schools. Educational and Psychological Measurement, 32, pp.
425-431.
Shepard, L. (1979). Construct and predictive validity of the California Entry Level
Test. Educational and Psychological Measurement, 39(4), pp. 867-877.
Sireci, S., & Talento-Miller, E. (2006). Evaluating the predictive validity of Graduate
Management Admission Test scores. Journal of Educational and Psychological
Measurement, 66(2), p. 305-317
Snyder, V., & Elmore, P.B. (1983). The predictive validity of the descriptive tests of
language skills for developmental students over a four-year college
program. Educational and Psychological Measurement, 43(4), pp. 1113-1122.
Snowman, J., Leitner, D.W., Snyder, V., & Lockhart, L. (1980). A comparison of the
predictive validities of selected academic tests of the American College Test
(ACT) assessment program and the descriptive tests of language skills for college
freshmen in a basic skills program. Educational and Psychological
Measurement, 40(4), pp. 1159-1166.
Spolsky, B. (1975). Language testing: Art or science? Address to the Fourth AILA
Congress, Stuttgart.
Wall, D., Clapham, C., & Alderson, J. (1994). Evaluating a placement test. Language
Testing, 11(3), pp. 321-344.
181
Wegener-Soled, S. (1995). Assessment, testing and evaluation in teacher education.
Ablex, Greenwood Publishing Group.
Webb, W.W., & Pate, J.E. (1970). Predicting failure in the primary grades. Educational
and Psychological Measurement, 30(2), pp. 459-462.
Weiner, M., & Kay, P.M. (1972). Interrelationships among SAT, CLEP, high school and
junior high school achievement tests, and high school average. Educational and
Psychological Measurement, pp. 433-437.
Woodrow, L. (2006). Academic success of international postgraduate education students
and the role of English proficiency. University of Sydney Papers in TESOL, 1, pp.
51-70.
Yen, D., & Kuzma, J. (2009). Higher IELTS score, higher academic performance? The
validity of IELTS in predicting the academic performance of Chinese students.
Worcester Journal of Learning and Teaching, 3, pp. 1-7.,
183
ANNEXES
185
ANNEXE A
Conditions d’admission aux programmes de formation en enseignement (tiré du portail
Capsule, Université Laval, 7 novembre 2013,
https://capsuleweb.ulaval.ca/pls/etprod7/y_bwckprog.p_afficher_fiche?p_session=20100
9&p_code_prog=B-
ELS&p_code_majr=ELS&p_code_camp=&p_type_index=4&p_valeur_index=1 )
CONDITIONS PARTICULIÈRES DU PROGRAMME
Mesures particulières du programme concernant la maîtrise du français
L'étudiant admis à ce baccalauréat doit se conformer à la Politique sur l'usage du
français à l'Université Laval.
Le français est la langue d’enseignement dans tous les établissements
d’enseignement francophones du Québec. Afin de s’assurer que tout futur enseignant
maîtrise le français écrit, les universités québécoises francophones et le ministère de
l’Éducation, du Loisir et du Sport ont décidé qu’il devait réussir le Test de certification en
français écrit pour l’enseignement (TECFEE) pour obtenir le brevet d’enseignement.
Test diagnostique préalable (TFLM) et cours correctifs de français
En prévision de la passation du TECFEE, tout étudiant nouvellement inscrit à un
programme de formation à l’enseignement de l’Université Laval doit se présenter à son
entrée dans le programme à un test diagnostique sur la connaissance du français écrit, le
186
Test de français Laval-Montréal (TFLM). Les mesures imposées à la suite du test
diagnostique varient en fonction du résultat obtenu.
a) L’étudiant ayant obtenu 75 % ou plus n’a à suivre aucun cours correctif de
français;
b) l’étudiant ayant obtenu une note se situant entre 60 % et 75 % devra réussir un
cours correctif de français;
c) l’étudiant n’ayant pas obtenu 60 % doit réussir deux cours correctifs de
français.
Tout nouvel étudiant admis doit se présenter au test de français Laval-Montréal
(TFLM) avant sa première inscription au programme.
L'étudiant n'ayant pas obtenu 60 % au TFLM doit réussir le cours FRN-1902
Français écrit pour la formation à l'enseignement I, à l'intérieur des 12 premiers mois
d'études suivant sa première inscription, sous peine d'exclusion, et doit également réussir
le cours FRN-1903 Français écrit pour la formation à l'enseignement II, à l'intérieur des
24 premiers mois d'études suivant sa première inscription, sous peine d'exclusion.
L'étudiant ayant obtenu une note se situant entre 60 % et 75 % au TFLM doit réussir le
cours FRN-1904 Français écrit pour la formation à l'enseignement III, à l'intérieur des 24
premiers mois d'études suivant sa première inscription, sous peine d'exclusion. L'étudiant
ayant obtenu 75 % et plus au TFLM sera réputé avoir satisfait aux exigences en français
du programme et n'aura aucun cours correctif à suivre.
187
Annexe B
Composition (maquette) des cours obligatoires et optionnels du baccalauréat en
enseignement du FLS, Université Laval, Automne 2013.
COURS OBLIGATOIRES 77 CRÉDITS
Code du cours Intitulé du cours Cr Session
1ère
an
née
LNG-1900 Concepts linguistiques en didactique des langues 3 A 1
DID-1960 Initiation à la didactique des langues 3 A 1
DID-1961 Théories de l'apprentissage des langues 3 A 1
DID-2960 Didactique du français langue seconde au primaire 3 A 1
PPG-1906 L’enfance et l’adolescence 3 A 1
DID-2961 Analyse et correction phonétique 3 H 2
DID-2962 Didactique du français langue seconde au secondaire 3 H 2
DID-296 Gestion de la classe en L2 2 H 2
DID-2964 Didactique de l’oral (PR : DID-1960 ou CC : DID-1960) 3 A 3
2èm
e an
née
DID-2966 Problèmes de grammaire et enseignement du FL2 I 3 A 3
LNG-3103 Linguistique et acquisition d'une langue seconde I 3 A 3
LIT-1104 Genres littéraires I (roman et théâtre) 3 A 3
DID-2965 Didactique du français langue seconde aux adultes 3 A 3 DID-3960 Développement de la littératie en langue seconde (PR : DID-1960) 3 H 4
DID-3961 Didactique du français (accueil et immersion) (PR : DID-1960) 3 H 4
DID-1962 Problèmes de grammaire et enseignement du FL2 II (PR : DID-2966) 3 H 4
LIT-1118 La littérature française des origines à nos jours 3 H 4
DID-3963 Utilisation des TIC en enseignement du FL2 3 A 5
3èm
e an
née
DID-3962 Didactique de la grammaire et du lexique 3 A 5
LNG-3104 Linguistique et acquisition d'une langue seconde II 3 A 5
LNG-2001 Sociolinguistique et analyse du discours 3 A 5
LIT-1117 La littérature québécoise des origines à nos jours 3 A 5
PPG-1907 Élèves en difficulté au primaire et au secondaire 3 AH 6
DID-3964 Évaluation en langues secondes ou étrangères (PR : DID-1960) 3 H 6
DID-3965 Portfolio en L2 1 AHE 7
4èm
e
an
née
ENP-1900 Aspects sociaux de l’éducation 2 AH 8
LNG-2004 Psycho et neurolinguistique 3 H 8
188
Stages et cours optionnels 43 CRÉDITS
Stages d’enseignement Cr Session
Réaliser 5 stages d’enseignement pour un total de 22 crédits
• Choisir un des deux stages suivants :
DID-2967 Stage I d'enseignement au primaire: exploration 2 H 2
DID-2970 Stage I d'enseignement au secondaire: exploration 2 H 2
• Choisir un des deux stages suivants (l’ordre d’enseignement doit différer de l’ordre sélectionné au Stage I) :
DID-2972 Stage II d'enseignement au primaire: exploration 2 A 3
DID-2971 Stage II d'enseignement au secondaire: exploration 2 A 3
Choisir un des trois stages suivants :
DID-3970 Stage III d'enseignement au primaire: initiation 6 H 6
DID-3971 Stage III d'enseignement au secondaire: initiation 6 H 6
DID-3972 Stage III d'enseignement aux adultes: initiation 6 H 6
• Choisir deux des trois stages suivants (les stages doivent être suivis à deux ordres d’enseignement distincts;
ces derniers doivent différer de l’ordre sélectionné au Stage III) :
DID-3973 Stage IV d'enseignement au primaire: ens. en responsabilité 6 H 7
DID-3974 Stage IV d'enseignement au secondaire: ens. en responsabilité 6 H 7
DID-3975 Stage IV d'enseignement aux adultes: ens. en responsabilité 6 H 7
Choisir 6 crédits parmi les cours suivants :
FRN-1106 Le français en Amérique du Nord 3 A
FRN-1110 Linguistique française : lexicologie 3 H
LNG-3000 Sémantique et pragmatique 3 H
FRN-2114 Analyse linguistique de textes 3 H
FRN-1109 Linguistique française : phonétique 3 A
FRN-2119 Normes et usage du français 3 H
FRN-2115 Langue et sociétés francophones (PR : LNG-2001) 3 H
FRN-2116 Lexicographie et dictionnaires 3 H
FRN-1112 Introduction à la lexicologie et à la lexicographie 3 A
LNG-2000 Phonologie I 3 H
LIT-2175 La littérature de jeunesse au Québec 3 H
FRN-1108 Histoire de la langue française : événements, lieux, enjeux 3 H
FRN-1000 Méthodologie et recherche en études littéraires 3 H
COURS HORS DISCIPLINE 15 CRÉDITS
Choisir 12 crédits parmi les cours suivants. Cr Session
ADS-1905 Éducation en milieu interculturel 3 AHE
ANT-1201 Anthropologie du Québec 3 H
ANT-2302 Minorités et ethnicité 3 A
ARL-1001 L’humanité avant l’histoire 3 A
ETN-1105 Choc des cultures : le Québec contemporain 3 A
GGR-1000 Introduction à la carte du monde 3 A
GGR-2508 Le Québec et l’Amérique française 3 A
HST-1003 Introduction à l’histoire du Canada 3 A
HST-2450 Le Québec aux XIXe et XXe siècles 3 AH
HST-1008 Le monde aux XIXe et XXe siècles 3 AH
DID-3976 Projet d’enseignement en L2 ** 3 A
SCR-1100 Les Grandes Religions 3 H
Réussir 3 crédits de cours de langue étrangère ou d’une langue seconde
3 AHE
189
Annexe C
Plans des cours FRN-1902, FRN-1903 et FRN-1904, Université Laval, Automne
2013
190
191
192
193
194
195
196
197
198
199
201
202
203
204
205
206
207
208
209
210
211
212
213
214
216
217
218
219
220
221
222
223
224
225
226
227
Annexe D
Questionnaire adressé aux étudiants
1. Données concernant le participant
1. Nom
2. Langue maternelle
(si le français n’est pas votre
langue maternelle, considérez-
vous votre compétence
langagière comme étant
proche de celle d’un locuteur
natif?)
3. Programme d’inscription
(quel baccalauréat?)
4. Date de passation.
5. Note obtenue au TFLM Score :
6. Note obtenue lors de
l’épreuve uniforme de
français en secondaire 5 et au
Cégep.
7. Note obtenue lors de
l’épreuve uniforme de
français au Cégep.
8. Aviez-vous passé un ou
plusieurs autres examens de
compétence langagière en
français avant le TFLM? Si
oui, indiquez ici lequel ou
lesquels ainsi que votre score
pour chacun.
Nom / titre du test :
Score obtenu :
Note : Il est demandé à tous les participants au TFLM de remplir les parties 2, 3 et 4. Ensuite, si vous avez
obtenu une note située en dessous ou égale à 59 %, passez à la section 5 ; Si vous avez obtenu une note
entre 60 % et 74 %, passez à la section 6 ; Si vous avez obtenu une note égale ou supérieure à 75 %, passez
à la section 7.
Entourez la réponse qui correspond le mieux à votre opinion au sujet des énoncés suivants. Toutes vos
réponses devraient prendre en compte le fait que vous êtes locuteur natif du français ou considéré comme
tel ET vos considérations devraient concerner le TFLM uniquement, et non pas des éléments de votre
programme de manière plus générale.
1. Pas du tout d’accord ; 2. Pas d’accord ; 3. Partiellement d’accord ; 4. D’accord ; 5. Tout à fait
d’accord.
228
2. Le TFLM lui-même.
Énoncé 1
Pas du
tout d’accord
2
Pas
d’accord
3
Partiellement
d’accord
4
D’accord
5
Tout à
fait d’accord
9. En me concentrant sur le TFLM lui-même
ET en tant que locuteur natif ou considéré
comme tel du français, je trouve que le
TFLM est difficile.
1 2 3 4 5
10. En me concentrant sur le TFLM lui-même
ET en tant que locuteur natif ou considéré
comme tel du français, je pense que la note
que j’ai obtenue au TFLM reflète bien mon
niveau de compétence en français.
1 2 3 4 5
11. En me concentrant sur le TFLM lui-même
ET en tant que locuteur natif ou considéré
comme tel du français, je pense que Le
TFLM mesure correctement la culture
générale correspondant au contexte
québécois.
1 2 3 4 5
12. Les décisions prises sur la base des scores au
TFLM ont des conséquences positives sur
mon cheminement d’étudiant (durée des
études, frais, formation, etc.)
1 2 3 4 5
13. Les décisions prises sur la base des scores au
TFLM ont des conséquences négatives sur
mon cheminement d’étudiant (durée des
études, frais, formation, etc.)
1 2 3 4 5
14. En me concentrant sur le TFLM lui-même
ET en tant que locuteur natif ou considéré
comme tel du français, je pense que les
tâches du TFLM reflètent les exigences
linguistiques liées à la profession
enseignante.
1 2 3 4 5
15. En me concentrant sur le TFLM lui-même
ET en tant que locuteur natif ou considéré
comme tel du français, je pense que les
tâches du TFLM reflètent la culture générale
attendue chez les futurs enseignants.
1 2 3 4 5
16. En me concentrant sur le TFLM lui-même
ET en tant que locuteur natif ou considéré
comme tel du français, je pense que les
tâches du TFLM reflètent les connaissances
linguistiques liées aux cours universitaires.
1 2 3 4 5
3. Application de la compétence langagière dans le programme
En tant que locuteur natif du français (ou s’en
approchant), j’ai éprouvé des difficultés liées à la
langue dans les contextes suivants :
1
Pas du
tout d’accord
2
Pas
d’accord
3
Partiellement
d’accord
4
D’accord
5
Tout à
fait d’accord
17. Lors des cours magistraux. 1 2 3 4 5
229
18. Lors des travaux individuels écrits. 1 2 3 4 5
19. Lors des travaux d’équipe écrits. 1 2 3 4 5
20. Lors des interactions avec l’enseignant. 1 2 3 4 5
21. Lors des interactions avec des pairs. 1 2 3 4 5
22. Lors des présentations orales individuelles. 1 2 3 4 5
23. Lors des présentations orales en équipe. 1 2 3 4 5
24. Lors des lectures d’articles ou de textes
académiques.
1 2 3 4 5
25. En milieu scolaire, en stage. 1 2 3 4 5
4. Composantes de la langue à évaluer
26. En tant que francophone, quelles composantes de la langue pensez-vous que le TFLM devrait
évaluer? Dans quel ordre?
□ Étant donné que les candidats sont francophones ou considérés comme tels, aucun test de
français ne devrait être obligatoire ou nécessaire dans le processus d’admission. (Si vous cochez
cette réponse, passez directement à la partie 5).
□ Malgré le fait que les candidats sont francophones, un test de français reste nécessaire pour les
composantes suivantes
27. Si vous avez répondu qu’un test de français est nécessaire même si les candidats sont
francophones, veuillez numéroter les quatre composantes de 1 à 4 dans l’ordre d’importance
□ Compréhension orale
□ Production orale
□ Compréhension écrite
□ Production écrite
5. Cas de figure 1 : note inférieure ou égale à 59 %
1
Pas du
tout
d’accord
2
Pas
d’accord
3
Partiellement
d’accord
4
D’accord
5
Tout à
fait
d’accord
28. En tant que locuteur natif du français (ou s’en
approchant), je pense que les cours correctifs
obligatoires en français (FRN-1902 et FRN-1903)
m’ont aidé(e) dans mes études.
1 2 3 4 5
29. De manière générale, en tant que locuteur natif du
français (ou s’en approchant), je sens plus
compétent(e) en français après avoir suivi les
cours correctifs obligatoires en français (FRN-
1 2 3 4 5
230
1902 et FRN-1903).
30. En tant que locuteur natif du français (ou s’en
approchant), je pense que les cours correctifs
obligatoires en français (FRN-1902 et FRN-1903)
avec les contenus actuels me semblent appropriés
pour les futurs enseignants.
1 2 3 4 5
31. En tant que locuteur natif du français (ou s’en
approchant), je pense que tous les étudiants
devraient suivre les cours correctifs obligatoires
en français (FRN-1902 et FRN-1903) avec le
contenu actuel.
1 2 3 4 5
32. En tant que locuteur natif du français (ou s’en
approchant), je pense que les cours correctifs
obligatoires en français (FRN-1902 et FRN-1903)
ne garantissent pas une meilleure compétence
linguistique.
1 2 3 4 5
33. En tant que locuteur natif du français (ou s’en
approchant), je pense que les cours de mise à
niveau en français (FRN-1902 et FRN-1903) avec
le contenu actuel sont une mesure précise pour
améliorer la compétence langagière des étudiants.
1 2 3 4 5
34. En tant que locuteur natif du français (ou s’en
approchant), je pense que le TFLM devrait être
éliminé du processus d’admission aux
programmes de formation en enseignement.
1 2 3 4 5
35. En tant que locuteur natif du français (ou s’en
approchant), je pense qu’aucun cours de français
ne devrait être imposé aux étudiants des
programme de formation en enseignement.
1 2 3 4 5
36. Les étudiants des programmes de formation en
enseignement devraient être admis dans ces
programmes sur la base d’entrevues et de mises
en situation correspondant à des éléments ou des
domaines liés à la profession enseignante.
1 2 3 4 5
37. En tant que locuteur natif du français (ou s’en
approchant) et futur enseignant, je pense que la
meilleure manière d’améliorer la qualité de la
langue chez les futurs enseignants est de suivre
une formation en français écrit avancé à des fins
académiques.
1 2 3 4 5
6. Cas de figure 2 : note située entre 60 % et 74 % au TFLM.
1
Pas du
tout
d’accord
2
Pas
d’accord
3
Partiellement
d’accord
4
D’accord
5
Tout à
fait
d’accord
38. En tant que locuteur natif du français (ou s’en
approchant), je pense que le cours correctif
obligatoire en français (FRN-1904) m’a aidé(e)
dans mes études.
1 2 3 4 5
39. De manière générale, en tant que locuteur natif du
français (ou s’en approchant), je sens plus
compétent(e) en français après avoir suivi que le
1 2 3 4 5
231
cours correctif obligatoire en français (FRN-
1904).
40. En tant que locuteur natif du français (ou s’en
approchant), le cours correctif obligatoire en
français (FRN-1904) me semble approprié pour
le/la futur(e) enseignant(e) que je suis.
1 2 3 4 5
41. En tant que locuteur natif du français (ou s’en
approchant), je pense que tous les étudiants
devraient suivre le cours correctif obligatoire en
français (FRN-1904) avec le contenu actuel.
1 2 3 4 5
42. En tant que locuteur natif du français (ou s’en
approchant), je pense que le cours correctif
obligatoire en français (FRN-1904) ne garantit
pas une meilleure compétence linguistique.
1 2 3 4 5
43. En tant que locuteur natif du français (ou s’en
approchant), je pense que le cours correctif
obligatoire en français avec le contenu actuel est
une mesure précise pour améliorer la compétence
langagière es étudiants.
1 2 3 4 5
44. En tant que locuteur natif du français (ou s’en
approchant), je pense que le TFLM devrait être
éliminé du processus d’admission aux
programmes de formation en enseignement.
1 2 3 4 5
45. En tant que locuteur natif du français (ou s’en
approchant), je pense qu’aucun cours de français
ne devrait être imposé aux étudiants des
programme de formation en enseignement.
1 2 3 4 5
46. Les étudiants des programmes de formation en
enseignement devraient être admis dans ces
programmes sur la base d’entrevues et de mises
en situation correspondant à des éléments ou des
domaines liés à la profession enseignante.
1 2 3 4 5
47. En tant que locuteur natif du français (ou s’en
approchant) et futur enseignant, je pense que la
meilleure manière d’améliorer la qualité de la
langue chez les futurs enseignants est de suivre
une formation en français écrit avancé à des fins
académiques.
1 2 3 4 5
7. Cas de figure 3 : note égale ou supérieure à 75 %
En tant que locuteur natif du français, je trouve que : 1
Pas du
tout
d’accord
2
Pas
d’accord
3
Partiellement
d’accord
4
D’accord
5
Tout à
fait
d’accord
48. En tant que locuteur natif du français (ou s’en
approchant), je pense que le TFLM constitue une
manière fiable de sélectionner les candidats des
programmes de formation en enseignement.
1 2 3 4 5
49. De manière générale, en tant que locuteur natif du
français (ou s’en approchant), je me sens plus
compétent(e) en français que mes collègues qui
ont obtenu une note inférieure à 74%.
1 2 3 4 5
232
50. En tant que locuteur natif du français (ou s’en
approchant), le note du TFLM me semble un
indicateur approprié de la compétence langagière
des futurs enseignants.
1 2 3 4 5
51. En tant que locuteur natif du français (ou s’en
approchant), je pense que TFLM ne garantit pas
une meilleure compétence linguistique.
1 2 3 4 5
52. En tant que locuteur natif du français (ou s’en
approchant), je pense que le TFLM est une
mesure précise de toutes les composantes de
compétence langagière des étudiants.
1 2 3 4 5
53. En tant que locuteur natif du français (ou s’en
approchant), je pense que le TFLM devrait être
éliminé du processus d’admission aux
programmes de formation en enseignement.
1 2 3 4 5
54. Les étudiants des programmes de formation en
enseignement devraient être admis dans ces
programmes sur la base d’entrevues et de mises
en situation correspondant à des éléments ou des
domaines liés à la profession enseignante.
1 2 3 4 5
55. En tant que locuteur natif du français (ou s’en
approchant) et futur enseignant, je pense que je
pense que la meilleure manière d’améliorer la
qualité de la langue chez les futurs enseignants est
de suivre une formation en français écrit avancé à
des fins académiques.
1 2 3 4 5
8. Commentaires supplémentaires : Écrivez ci-dessous tous les commentaires que vous pourriez avoir au
sujet du TFLM, des cours de mise à niveau en français ou du processus d’admission en général et qui
n’auraient pas déjà été abordés par le questionnaire.
Annexe E
Réponses fournies par les répondants au questionnaire
234
235
236
237
238
239
240
241
242
243
244
245
Annexe F
Questions composant l’entrevue avec un des concepteurs du TFLM
1. Quelle était la fonction première du TFLM? Pourquoi?
2. Pourquoi a-t-il été décidé de l’utiliser comme test d’admission aux programmes de
formation en enseignement?
3. Que mesure le TFLM? Quelle sont les compétences langagières mesurées?
4. Comment mesure-t-il ces éléments?
5. Combien de versions du TFLM existe-t-il?
6. Pourquoi les différentes universités utilisent-elles des modèles différents? (UL :
65 Q en 90 min ; U de M : 66 Q en 90 min ; Polytechnique MTL 100 Q en 120
min)
7. Sur quelles bases ont été construits les items du TFLM?
8. Le TFLM a-t-il fait l’objet d’une évaluation des besoins? (en particulier pour les
enseignants)
9. Le mémoire de l’AQPF (2001, états généraux de la langue) a-t-il donné le signal
du départ pour la conception / création du TFLM?
10. Quels aspects de la langue qui déterminent une « excellente maîtrise de la langue
française » ont été pris en compte au cours du processus de conception du TFLM?
11. Des aspects de culture générale ont-ils été pris en compte au cours du processus
de conception du TFLM?
12. Quels sont les aspects culturels visés par le TFLM? Par l’entremise de quels
moyens cette facette est-elle mesurée?
13. Les qualités « personnelles » (cf : mémoire de l’AQPF) des futurs enseignants
ont-elles été déterminées au cours du processus de conception du TFLM?