Pour une épistémiologie des épreuves d'effort

POUR UNIIPISTIMDlOGII DIS IPRIUVIS D'lffDRT La mise au point sans cesse croissante

d'épreuves d'effort ajoutées au nombre considérable de celles qui existent déjà, témoignent sans nul doute de besoins spécifiques non encore satisfaits. Cette recherche constante d'outils toujours mieux adaptés requiert une réflexion à la fois éthique et technique sur leurs finalités et sur les moyens de leur mise en œuvre. C'est ce que se propose la présente étude.

Les épreuves d'effort ne devraient être rien d'autre que des outils au service de l'évaluation. L'évaluation n'est elle-même qu'un jugement de valeur sur une mesure et l'épreuve ne représente que l'outil permettant d'obtenir la mesure. Par ex~mple, l'épreuve d ' Astrand et Ryhming sur bicyclette ergométrique est l'outil qui permet d'obtenir la mesure de la consommation maximale d'oxygène d 'un sujet. La mesure obtenue peut être de 35 ml. min - l.kg-1 et l'évaluation consiste à dire si ce résultat est bon ou mauvais. Théoriquement, ce jugement de valeur dépend donc à la fois des objectifs visés et de la qualité des outils de mesure utilisés. Pratiquement, cependant, le problème de l'évaluation consiste à choisir les épreuves d'effort d'abord en fonction d'objectifs pré-établis et ensuite de leurs caractéristiques qualitatives.

Le praticien qui ignore ces deux aspects fondamentaux risque de se perdre dans la jungle des épreuves proposées . Il faut bien dire que le côté sophistiqué de certaines d'entre elles (ex . : subtils nomogrammes, systèmes électroniques et informatisés de V02 ... ) fascine l'esprit au point d'en oublier le pourquoi de ces épreuves ainsi que leurs caractéristiques qualitatives (validité, fidélité, sécurité ... ).

62

Objectifs de l'évaluation et des épreuves d'effort

«Pourquoi évaluer tel ou tel athlète?»

Les réponses habituelles à cette question sont souvent formulées ainsi : «Pour savoir où il en est ou ce qu'il vaut! - Pour suivre son progrès! -Pour savoir si son entraînement est bon!- Pour ajuster et doser son entraînement en fonction de sa capacité! ... ».

A ce titre, la classique performance du sportif ne constitue-t-elle pas le meilleur indice de ses capacités? Pourquoi alors l'ennuyer avec toute une série d'épreuves «artificielles» qui peuvent nuire à son entraînement? Bien que ce raisonnement contienne une part de vérité, il révèle une profonde incompréhension du phénomène de l'évaluation .

Si la performance demeure en effet l'évaluation la plus spécifique et la plus décisive, il n'en demeure pas moins que la mesure obtenue est très peu informative. En effet, la performance, réalisée le plus souvent dans un cadre compétitif, dépend tout aussi bien des capacités intellectuelles , sociales et psychiques de l 'athlète que de ses capacités physiques. De plus, en compétition, la victoire ou la position sur le podium compte souvent plus que la performance ellemême. Spécifique dans un sens, mais trop globalisante dans l'autre, laperformance dépend donc d'une multitude de facteurs, physiques ou non, qu'il convient d ' isoler afin de déceler le maillon faible de la chaîne et orienter ensuite l'entraînement de façon rationnelle en fonction des capacités clairement objectivées. Il importe donc de disposer d 'épreuves d'effort qui, tout en étant spécifiques de la tâche réalisée en compétition, se dérouleraient dans des conditions optimales et reproductibles, hors des influences tactiques, psychiques et motivationnelles.

Si nous avons retenu le sportif comme premier exemple, il ne faut pas perdre de vue que l'évaluation s'adresse à tous. Pour les adultes et les enfants qui ne font pas de compétition et ne réalisent pas de perfor-

Travaux et Recherches n ° 7 1 Spécial Évaluation

mances, les épreuves d'effort s 'avèrent tout autant utiles pour faire le point sur l'état de leur condition physique et pour contribuer au bienêtre général auquel la pratique régulière d'une activité physique semble intimement liée.

En conséquence, les objectifs de l'évaluation sont nombreux. Du contexte particulier d'une situation découlent le ou les objectifs à retenir. Ce choix constitue la première étape de l 'évaluation, il précède et conditionne celui des épreuves ellesmêmes. Comme la plupart de ces dernières peuvent répondre à plusieurs objectifs, le choix d'une d 'entre elles dépend alors de ses caractéristiques qualitatives et parfois même des préférences personnelles de l 'évaluateur ou de l'évalué. Il ne faut cependant pas vouloir faire dire à une épreuve autre chose que ce pourquoi elle a été mise au point. Par exemple, si le PWC 170 (Physical Working Capacity à 170 battements/min) permet de suivre l'évolution de la capacité aérobie d'un sujet toujours comparé à luimême, il serait hasardeux de 1 'utiliser pour classifier et comparer les sujets entre eux. La fréquence cardiaque maximale dont elle dépend varie en effet beaucoup trop d'un sujet à l'autre, même au sein d'un groupe d'âge donné. Cette même remarque s'applique aux épreuves sousmaximales basées sur la relation fréquence cardiaque 1 consommation d'oxygène (ex : épreuve Astrand -Ryhming). De plus, dans ce cas-ci, l 'erreur aléatoire est si élevée, et le score obtenu si incertain, qu'il devient douteux de calculer une intensité d'entraînement en fonction de la consommation d'oxygène prédite au moyen de l'abaque AstrandRyhming.

Par contre, si l'objectif visé est d'établir des normes ou d 'évaluer une méthode d'entraînement, ce qui compte, c'est la moyenne plus que le sujet et, les erreurs aléatoires se compensant, la moyenne obtenue est suffisamment exacte pour atteindre ce genre d'objectif. Même la mesure directe de la consommation d'oxygène sur bicyclette ergométrique ou sur tapis roulant ne constitue pas nécessairement la meilleure mesure

de la capacité aérobie d'un athlète. Il est en effet bien connu que des individus ayant la même consommation maximale d'oxygène, le même rendement mécanique et le même degré de motivation ont une endurance différente lors d'exercices exécutés à une intensité donnée. Ainsi la consommation maximale d'oxygène n'est qu'un aspect de la capacité aérobie totale de l'athlète. Mais que veut-on évaluer : le tout, la partie ou les deux? La réponse à cette question dictera le choix de l'épreuve.

Bien que la consommation maximale d 'oxygène soit probablement la principale composante du tout, elle n'est pas le tout et, en compétition, le moindre détail peut faire la différence. Ceci nous mène au deuxième point. La capacité aérobie d'un athlète n'est pas nécessairement la même selon l'épreuve ou l'ergomètre choisi. A l'exception de la natation, le score obtenu est en général plus élevé si l'activité de l'épreuve se rapproche de celle de la spécialité de 1 'athlète. Il a même été démontré que ceux qui ont la capacité aérobie la plus élevée en laboratoire ne sont pas nécessairement ceux qui l'ont en situation spécifique . En conséquence, si l 'objectif est de sélectionner une équipe représentative, une épreuve de laboratoire, aussi sophistiquée soi t-elle, a probablement moins de valeur qu'une épreuve de terrain.

Pour résumer, on peut raisonnablement a ffirmer que toute épreuve, même la plus sophistiquée (ex. : Astrand-Ryhming ou V02 en laboratoire), n'est pas a priori la plus adéquate; il faut préalablement analyser la situation et choisir ensuite une ou les épreuves qui permettent d'atteindre les objectifs retenus.

Cependant, une remarque s' impose ici. Le choix des objectifs constitue une étape théorique; celui des épreuves, une étape pratique. L'épreuve est un outil et l'on ne dispose pas toujours des outils permettant d'atteindre tous les objectifs. C'est d'ailleurs pour cette raison que de nouvelles épreuves sont conçues. Il faut donc être réaliste et essayer de faire Je choix le plus judicieux parmi celles qui sont disponibles ou, si cela est possible, en créer de nouvelles.

Épistémologie des épreuves d'effort

Pour clore ce premier point, et afin d 'aider le praticien dans son choix, il est apparu utile de regrouper systématiquement les principaux objectifs de l'évaluation dans le tableau 1 (l), en rappelant toutefois que d 'autres facteurs tels l 'éthique, la sécurité et les ca ractérist iques qualitatives, influencent aussi ce choix.

Éthique et sécurité

Le respect des droits de l'être humain exige que le choix d ' épreuves d'effort tienne compte de certaines règles d 'éthique et de sécurité (tableaux 2 et 4) . Une des principales règles d ' éthique, le droit à l'information, est souvent bafouée. Non seulement certains utilisent les athlètes ou les enfants en négligeant de les informer, mais d'autres en abusent littéralement en leur faisant passer des épreuves supplémentaires à des fins de recherche sans l'accord des intéressés. Ce type d'abus est souvent inconscient, ce qui, dans un sens, souligne la gravité du problème. Afin de ne pas tomber dans ces excès, 1 'approche de «l' American College of Sport Medicine» paraît intéressante (tableau 3).

Elle s'accompagne dans tous les cas d'un formulaire de consentement en connaissance de cause qui est signé par l'intéressé. Si cette approche plutôt formelle ou administrativement embarrassante peut paraître superflue dans le cadre de l'évaluation routinière d'enfants ou d'athlètes inscrits dans des programmes reconnus et autorisés, les idées exprimées n 'en restent pas moins intéressantes. Dans certain cas (ex. : évaluation des adultes , procédures exceptionnelles . .. ), l'usage d 'un formulaire de consentement paraît tout indiqué (encadré 1 en annexe).

Après l ' information et le libre consentement, la deuxième règle d'éthique est le respect de la dignité, de l'honneur et de l' image de l' intimité du sujet. L'évaluation collective peut présenter en effet quelques problèmes d'intimité. La pose d'électrodes et la prise de plis cutanés qui requiè-

(1) Voir aussi CAZORLA (G.).- De l'évaluation en activi té physique et sportive. - Dans le présent document.

Tableau 1 - Objecti fs de l'évaluation de l'aptitude physique

Orienter les individus en fonction de leurs points for ts et leurs points faib les

2 Améliorer les individus - en suivant leurs progrès - en fixant des objectifs accessibles et réalistes par rapport à leur niveau actuel - en déterminant les surcharges d'entraînement en fonction de leurs capacités actuelles

3 A méliorer les programmes et méthodes d'entraînement ou de conditionnement physique

4 Sélectionner, classifier et cert ifier les individus

5 Prédire les performances immédiates ou futures

6 Promouvoir l'activité physique

7 Motiver

8 Former des spécialistes en évaluation ·

9 Vérifier des hypothèses de recherche

10 Réaliser des études normatives

Tableau 2 - Règles d'éthique et évaluation de la condition physique

1 Retenir les objectifs d'évaluation en fonction du bien-être du sujet

2 Choisir les épreuves et mesures en fonction des objectifs retenus

3 S'assurer que l'évaluatio n n'entraînera pas de risques démesurés pour la santé, le bien-être ct la dignité du sujet

4 Informer les principaux intéressés sur les objectifs et la nature des épreuves et mesures pro-posées

5 Utiliser un formula ire approprié de consentement libre en connaissance de cause

6 Communiquer et commenter au sujet évalué les résultats

7 Adopter une attitude responsable qui dépasse les simples exigences légales

Tableau 3 - Consentement libre et en connaissance de cause

A- CONTEXTE

Le consentement doit être obtenu librement, c'est-à-dire sans pressions physiq ues ou psychiques (ex : perte d 'un droit ou avantage éventuel, récompense)

2 Le consentement doit être obtenu d'une personne a pte à le donner , sinon par le tuteur attitré

3 Le consentement doit être fait en connaissance de cause; l 'information essentielle, complète et compréhensible doit être transmise au sujet

B - CONTENU

1 Objectifs de l'évaluation et des tests

2 Procédures de l'évaluation (mesures et tâches du sujet)

3 Avantages et inconvénients pour le sujet

4 Offre formelle de questions au sujet

5 Offre formelle du libre désistement avant et pendant les épreuves ou l'une ou l'autre de celles-ci et ce , sans préjudice pour le sujet

6 Affirmation de la confidentialité des résultats

7 Affirmation explicite du consentement libre et en connaissance de cause de la part du sujet (aucune affirmation de renonciation ne devrait a pparaître sur le formulaire de consentement)

8 Identificat ion du sujet et du témoin

9 Date

10 Personne à avertir en cas d'accident

(Adapté de Med. Sei. Sports, 1980)

63

64 Travaux et Recherches n ° 7 1 Spécial Évaluation

f:ONSENTEMEf'H FN l.O NNA 1 C,C,ANrF CAUSF.

iJ l' EVALUAT I ON OF.S FACTEURS OF. VO TRE MOTR I C I TF

1- EVAL!IATION RETENUE

L ' évaluation à l aquell e vous voulez bie n participer pourra inclure

*un examen psycho logique • . .•.... . •... .•..•. .• .. . CJ

* un examen médical .. ............ . .. .. ... ........ D

*des mesures biométriques .•. . •.. . ...•... . . .. •... Ci

*des épreuves d ' effort :

- avec recueil : de la fréquence cardiaque des gaz expirés .• •.... ..• Q

- ave c pré lèvement sanguin .•..•..•.• . .• . •. . ... .0

2- RI SQUES e t PRECAUTIONS

I l est possible que certains incidents surviennent au cours de l'évaluation e t notamment au cours des épreuves d'effo r t. Parmi ces i nc idents citons : une tension artériel l e anormale, un évanoui ssement , un rythme cardiaque désordonné , très rarement une attaque cardiaque.

A ce t e ffet toutes l es précautions seron t prises pour r édu ire initialement ces risques à l eur minimum (examen préliminaire, équipe d 'urgence bien formée équ ipée d'un ma t é r ie l adaplé ~ t prêt~ à iutervenir) , vous pourrez en outre me ttre fin à toute épreuve d ' effort si vous r essentez une fatigue excessive ou si vous ne vous sentez pas à l ' a ise.

3- AVANTAGES

Les résultats obtenus peuvent fac iliter un diagnostic ou l a détermination de la nature des activités dan s l esquelles vous pouvez vous engage r pratiquement sans risque.

4- QUESTIONS

A votre demande toutes les explications i nhérentes aux· mesures ou aux épreuves vou s seront données. N'hésitez pas à l es demander, nous serons heureux de satisfaire votre légitime curiosité.

5- RES ULTATS

Les résul tats vous seront communiqués individuellement dans l es meilleurs délais. Ils demeureront b i en sûr couverts pa r le secre t professionnel. Toutefois s 'ils devaient servir à des f i ns expér imental es une demande vous en serait faite .

6- CONSENTEMENT EN TOUTE LIBERTE

" Ayant pris connaissance de ce qui précède , compris la nature des tests proposés e t des risques encourus, je concens librement à part~c~per aux différentes évaluations référencées par une croix au point 1 : EVALUATION RETENUE".

Ecrire LU e t APPROUVE et signer .

DATE SIGNATURE

* pour les mineurs consen t ement obligatoire des parents .


Tableau 4 - Sécurité et évaluation de la condition physique

A -Connaître l'ampleur et la fréquence des risques psychiques et physiques encourus

B - Connaître et maîtriser les précautions à prendre

Classifier les candidats à l'évaluation • connaître les catégories d'individus • connaître les techniques de sélection et leurs limites (questionnaires et examens

médicaux)

2 Connaître, afficher et appliquer les critères d'arrêt des épreuves d'effort

3 Connaître et maîtriser les procédures d'urgence • établir les contacts pour l'assistance médicale • disposer d'une trousse de premiers soins

- Connaître, maîtriser et afficher les procédures de réanimation, obtenir une certification de préférence

- Élaborer et appliquer un plan écrit d'intervention

- Afficher un plan sommaire d'intervention ainsi que les numéros de téléphone importants

4 Prendre une police d'assurance responsabilité

5 Utiliser un formulaire de consentement libre et en connaissance de cause

rent des poitrines nues chez la femme comme chez l'homme, l'évaluation de suj ets obèses ou présentant des malformations, militent en faveur d'une individualisation de la prise de mesures, du moins pour certains sujets. De même, les résultats doivent demeurer confidentiels et couverts par le secret professionnel. D'aucune manière un résultat individualisé ne peut faire l'objet d'une publication ou d'une présentation collective sans l'autorisation préalable du sujet concerné.

Il existe bien d'autres situations où 1 'intimité et la dignité des sujets à évaluer peuvent être contrariées. Selon les réactions individuelles, le professionnel de l'évaluation devra toujours faire preuve du tact nécessaire pour les éviter et savoir les solutionner avec psychologie.

Le choix d'épreuves à risques physiques limités constitue une autre règle déontologique importante : il faut éviter celles qui sont contraires à la santé et au bien-être des sujets. Cependant, sans méconnaître les risques encourus au cours d'une épreuve d'effort, il ne faut pas les exagérer comme d'aucuns ont propension à le faire.

La vie elle-même n'est-elle pas faite de risques? Il faut simplement avoir conscience que toute activité physique comprend aussi sa part de risque,

la refuser sous ce fallacieux prétexte conduirait inévitablement les plus timorés vers un danger beaucoup plus sérieux : la sédentarité. Autrement dit, le fait de présenter certains risques n'est pas suffisant en soi pour écarter une activité physique. Entre les bienfaits et les risques il faut savoir peser le pour et le contre, connaître les probabilités d'accidents et leurs conséquences, et prendre une décision.

Il en est de même pour les épreuves d'effort. Si l 'éthique exige d'éviter les épreuves dangereuses et de faire connaître les risques encourus, il ne faut pas non plus les exagérer. Il n'y a pas si longtemps, en l 'absence de données objectives, la tendance était naturellement à l'excès de prudence voire à l'exagération : on évitait les épreuves maximales et mettait en place des mesures de sécurité excessives et coûteuses . Maintenant, les données existent : les risques encourus sont relativement minines. Cela ne veut pas dire qu'il n'y aura pas d'incidents, mais que ces incidents sont rares et sont aussi fonction de la santé des individus évalués. Ainsi, les risques augmentent selon qu'il s'agit d'athlètes, d'enfants, d'adultes bien portants et, enfin, de personnes présentant des problèmes cardiovasculaires. Même dans ce dernier cas, les dangers sont minimes, les statistiques révèlent en moyenne un accident mortel sur dix mille épreuves d'effort.

65

Plus que les r isques propres à toute activité, ce sont ceux qui peuvent être développés spécifiquement par les épreuves d'effort qui comptent. Autrement dit, ces dernières présentent-elles réellement plus de risques que les autres activités de la vie courante? Il semblerait en fai t que non. En somme, il ne faut pas négliger, ni exagérer les risques : les évaluations et épreuves d'effort constituent des habitudes de vie saine qui méritent, au même titre que toute activité physique adaptée, d'être très largement encouragées .

Caractéristiques qualitatives des épreuves d'effort

Non seulement le choix dépend de la reconnaissance préalable de certains objectifs et du respect du sujet et de sa sécurité, mais encore faut-il que les épreuves retenues soient qualitativement acceptables. La validité, la fidélité, l'existence de données normatives, le degré de difficulté et de discrimination ainsi que d'autres caractéristiques fonctionnelles (type d'épreuves, ressources humaines, matérielles et financières ... ) influent donc, elles aussi, sur le choix des épreuves .

0 VALIDITÉ (spécificité-représentativité)

Concept

Un test est valide lorsqu'il mesure bien ce qu ' il est censé mesurer. Ainsi, le test du nombre maximal de redressements assis en une minute est valide pour mesurer l 'endurance des fléchisseurs du tronc, mais non valide pour mesurer la puissance aérobie maximale. La question est moins simple en ce qui concerne la validité de ce test pour mesurer l'endurance des abdominaux. En effet, les abdominaux ne sont pas les seuls muscles potentiellement responsables de la flexion du tronc sur les hanches. Une étude électromyographique de la musculature sollicitée lors de ce mouvement pourrait éclaircir la situation. En pratique, beaucoup de tests mesurent plusieurs facteurs à la fois et, si 1 'on se sert d 'un de ces tests comme

66

mesure d'un seul de ces facteurs, il faudra que ce facteur (ex : abdominaux) joue un rôle plus important que les autres (ex : autres fléchisseurs du tronc sur les hanches telle psoas) dans la performance du test pour que celui-ci soit considéré comme valide. C'est ainsi qu'on parle volontiers d'un test qui est spécifique ou représentatif du facteur ou de la qualité physique mesurée.

Degré de validité

Il est possible qu'un test soit valide pour mesurer telle ou telle qualité physique, objectif immédiat du test, mais, comme il fut mentionné précédemment, il faut aussi se préoccuper d'objectifs moins immédiats (ex : pourquoi mesure-t-on telle ou telle qualité?). La prédiction d'une performance , la classification d'un individu, l'établissement d'un régime d'entraînement, la motivation d'un sujet sont autant de raisons qui ne nécessitent pas le même degré de validité au niveau de la qualité même qui est mesurée. Ainsi, le spécialiste en évaluation devrait considérer les objectifs immédiats et lointains du test :

- objectifs immédiats qualité physique mesurée.

- objectifs lointains : objectifs visés par l'obtention de la mesure d 'une qualité physique donnée.

Indices de validité d'un test

Les indices de validité d'un test n 'ont pas tous la même signification et la même objectivité. Cela n'est pas nécessaire non plus et dépend du rapport entre ce que le test mesure réellement et la qualité physique qu 'on veut mesurer. P lus ce rapport est direct, moins le test a besoin d'être validé. Ainsi, si l ' on considère l'endurance des fléchisseurs du tronc sur la hanche comme une qualité importante à mesurer, le test des redressements assis fait justement cela et n'a pas, par définition, à être validé. Si, par contre, on veut se servir du même test pour mesurer l'endurance des abdominaux ou la force de ceux-ci, ou le vo2 max de l'individu, il sera utile de pouvoir compter sur des indices plus objectifs.

Travaux et Recherches n o 7 1 Spécial Évaluation

Ainsi pourra-t-on se servir de nos connaissances théoriques sur la cinésiologie, l 'anatomie et la biomécanique, sur la force et sur le métabolisme aérobie pour déduire que telle ou telle forme de redressement assis constitue un test valide ou non pour mesurer l'endurance des abdominaux, leur force ou même le vo2 max d'un individu.

Corrélation simple de Pearson

On peut objectiver davantage la démarche en quantifiant statistiquement la relation qui existe entre la mesure du test et la qualité mesurée, en se servant pour celle-ci de la mesure d'un autre test déjà reconnu comme valide. Lorsque, dans la littérature, on établit la validité d'un test au moyen d'un coefficient de corrélation entre ce test et un autre test, il importe de s'assurer que cet autre test est lui-même valide, ce qu ' il ne faut pas prendre pour acquis. Ainsi, par exemple, la validation du Physitest canadien (test de banc) ou du test de course de 12 minutes pour prédire le vo2 max en les comparant au test Astrand-Ryhming (au lieu de les comparer à la mesure directe du vo2 max), donnerait des résultats plus ou moins vides de sens puisque le test Astrand-Ryhming est lui-même fortement remis en question sur le plan de la validité pour mesurer le vo2 max. L 'exemple du Physitest est réel (Bailey et coll., 1976) et édifiant :une lecture prudente et critique des études consultées est de mise .

Plus la corrélation est forte entre deux tests, plus il y a de chances qu'il y ait d'éléments spécifiques communs aux deux tests. En fait , deux tests qui seraient liés par une corrélation par-

faite ou maximale (r = 1) mesureraient probablement la même qualité physique. Au contraire, une corrélation nulle indiquerait que les deux tests mesurent deux qualités bien distinctes . En réalité, il existe tout un continuum, et une échelle empirique a été construite pour qualifier la validité d'un test par rapport à un autre (tableau 5).

Encore une fois, avant de se servir d'une telle table , il importe d ' analyser avec son sens commun la valeur du critère de comparaison utilisé pour valider le test qui nous intéresse. D'autres éléments doivent également être retenus (tableau 6). Ainsi un échantillon trop restreint ou trop homogène peut fausser les lois de la probabilité. Le test a-t-il été validé chez les jeunes et les vieux, chez les femmes et les hommes, chez les gens entraînés et non-entraînés ? Un échantillon non aléatoire, particulièrement s 'il s'agit de volontaires associés de près au projet de validation, peut également fausser les résultats. Enfin , des différences culturelles peuvent infléchir la validité d'un test. Les cas sont nombreux où les habitudes culturelles interfèrent avec le protocole de certaines épreuves et influent donc sur le résultat final.

Corrélation multiple

Jusqu'à présent, il n'a été question que de coefficients de corrélation simple de Pearson pour quantifier Je degré de validité entre deux tests. Il arrive parfois que l'on veuille prendre plusieurs mesures ou faire plusieurs tests pour prédire telle ou telle qualité (ex : pourcentage de graisse à partir de plusieurs plis cutanés ou même le vo2 max à partir des résul-

Tableau 5 - Interprétation qualitative des coefficients de corrélation de validité et de fidél ité (a)

Douteux Faible Acceptable Très bien Excellent

Validité (b)

Fidélité (c)

0.65

0.70

0.65 à 0.69 0.70 à 0.79 0.80 à 0.90

0.70 à 0.79 0 .80 à 0 .89 0.90 à 0.95

(a) : Adapté de Barrow et Mc Gee, 1964, p. 42.

(b) : Coefficient de Pearson obtenu entre le test à valider et le test critère

(c) : Coefficient de Pearson obtenu entre deux essais du même test

0.90

0.95


Tableau 6 - Facteurs circonstanciels à considérer lors de l' interprétation des données de validité, de fidélité, d'exactitude de tests d'aptitude physique

1 Objectifs immédiats du test et objecti fs de l'évaluation

2 Validité même du test utilisé comme critère de comparaison

3 Degré d'homogénéité des sujets

4 Représentativité et choix aléatoire des sujets

5 Distribution normale des sujets

6 Nombre de sujets

7 Sexe des sujets

8 Age des sujets

9 État d'entraînement des sujets

10 Culture des sujets

tats combinés du 12 min de Cooper et du test Astrand-Ryhming sur ergocycle). Dans ce cas, la statistique traite ces mesures combinées comme un tout pour les mettre en corrélation avec le test retenu comme critère. Statistiquement, il est alors question du coefficient de corrélation multip le. L'interprétation de la corrélation multiple se fait de la même façon que pour la corrélation simple (tableaux 5 et 6).

Corrélation partielle

Il existe une autre variable statistique utile à connaître pour le spécialiste en évaluation: il s'agit de la corrélation partielle. Celle-ci exprime la contribution partielle d'un facteur ou d'une mesure (ex : plis cutanés 1 ou EMG du psoas) en éliminant l'influence des autres (ex : autres plis cutanés ou EMG du rectus abdominis) pour prédire la mesure critère (ex : pourcentage de graisse ou endurance des fléchisseurs du tronc). Ainsi, si la corrélation partielle d'un pli cutané est faible, on éliminera cette mesure pour prédire le pourcentage de graisse. Dans le cas des redressements assis, si la corrélation partielle du psoas est faible et celle des abdominaux élevée, on pourra dire que cette forme de redressements assis est valide pour l'endurance des abdominaux.

Corrélation fallacieuse

Il arrive parfois que des corrélations élevées soient obtenues entre deux variables (test critère et nouveau test) sans que pour autant il soit permis de prédire l'un par l 'autre. Ceci se présente surtout à l'emploi de la corrélation simple. Ainsi, par exemple, le

vo2 en litres par minute est en corréla tion élevée avec la taille des individus (corrélation simple) et il en est de même entre le vo2 max et le poids des individus. Les connaissances actuelles indiquent qu'il est tout à fait logique que l ' individu ayant la plus grande masse musculaire, donc l' individu le plus lourd, soit celui qui ait le vo2 max le plus élevé. D'autre part, ce n 'est que secondairement et indirect ement qu'il arrive que l ' individu le plus lourd soit aussi le plus grand, et que le vo2 max démontre une certaine relation avec la taille des individus. En fait, la corrélation entre Je V02 max et le poids d'individus de même taille demeure élevée alors que celle qui caractérise le vo2 max et la taille d'individus de même poids devient faible. Statistiquement, c 'est ce que fait l 'indice de corrélation partielle. Ce coefficient est donc ut il isé lorsqu'on anticipe l'influence simultanée de plusieurs facteurs sur un autre. Cette anticipation n 'est pas toujours possible de sorte que le coefficient de corrélation simple, alors utilisé, s'avère parfois fallacieusement élevé. Le sens commun peut souvent suppléer là où, pour diverses raisons, les indices statistiques, supposés plus objectifs, éveillent des doutes. Par exemple, mesurer la flexibilité lors de l 'extension du tronc en mesurant la hauteur entre le sol et le menton du sujet mesure simultanément la flexibilité du sujet, la force de ses dorsaux ainsi que la grandeur de ses segments. Il n 'est pas surprenant de constater que certains individus peu flexibles apparaissent comme «flexibles» ...

67

Validité interne et validité externe

Lorsque Cooper en 1968 valida son test de course de 12 min, il mit en corrélation la performance de ce test (vitesse moyenne maintenue pendant 12 minutes) et le vo2 max déterminé directement sur tapis roulant. Il s'agissait de la validité interne de ce test. Cooper établit également une régression ou équation mathématique qui permettait de prédire le vo2 max à partir de la performance au test de course de 12 min. La validité externe consiste à vérifier si les mêmes résultats (coefficient de corrélation et équation de prédiction) seraient obtenus si 1 'étude était reprise une autre fois sur un échantillon différent et, à plus forte raison, sur un échantillon semblable. Ainsi , en général, le test de 12 min donne des corrélations semblables avec le vo2 max d'une étude à l'autre, bien que les corrélations soient moins élevées pour les femmes . Cependant, et il est important de le noter, l'équation de régression originale, établie par Cooper pour des soldats, n'est pas du tout valide pour les enfants ou les gens du 3• âge pour prédire Je vo2 max.

Toujours à ce sujet, le spécialiste en évaluation devrait savoir que les méthodes indirectes de détermination du pourcentage de graisse (par exemple méthodes de plis cutanés) souffrent d'un manque de validité externe et ce, même pour des populations ou échantillons semblables à ceux utilisés dans les études originales. C 'est d'ailleurs la raison pour laquelle certains préfèrent ne retenir que les plis cutanés eux-mêmes comme indice du pourcentage de graisse, sans essayer de calculer ou prédire celui-ci.

L'usage de la mauvaise équation de régression entraîne donc une erreur systématique . Si la validité externe est fonction de l'erreur systématique, la validité interne, quant à elle, dépend davantage de l'erreur aléatoire.

0 FIDÉLITÉ (stabilité- objectivité- «reliability»)

Concept

Un test est fidèle lorsque, exécuté à deux occasions, il donne les mêmes

68

résultats. C'est ainsi qu'on parle de constance ou de stabilité dans la mesure. Il peut aussi s'agir de constance non pas dans le temps, mais entre deux appareils supposés identiques ou entre deux administrateurs du test. Dans ce dernier cas, on parle volontiers de l'objectivité du test.

Un test peut être fidèle (mêmes résultats) sans pour autant être valide ou exact. Ainsi, le test de préhension est fidèle mais non valide pour mesurer le V02 max. Plus subtilement, une balance peut être fidèle (mêmes résultats) sans pour autant être valide ou exacte pour mesurer le poids si les deux mesures identiques se trompent systématiquement de quelques kilogrammes en trop.

Un test qui n 'est pas fidèle ne peut, par contre, être valide car il donne tantôt tel résultat (ex : FC sous-max = 140 bpm) et tantôt tel autre résultat (ex : FC sous-max = 150 bpm) de sorte qu'un vo2 max différent sera prédit à chaque occasion, affectant donc directement la validité interne du test. L'exactitude du test ou 1 'erreur aléatoire (cette fois) affecte donc et la fidélité et la validité interne d'un test.

Les indices statistiques de fidélité

On ne peut juger la fidélité d'un test sur un seul sujet. Comme indice plus objectif, on se sert souvent du coefficient de corrélation entre les résultats du même test exécuté à deux occasions différentes entre les résultats obtenus par deux appareils ou administrateurs différents. Ces coefficients (corrélation simple de Pearson) sont interprétés de la même façon que ceux visant à établir la validité interne d 'un test. Cependant, comme il s'agit du même test, il est normal de s'attendre à des coefficients de corrélation plus élevés (tableau 5). Le spécialiste en évaluation ne doit absolument pas commettre ici de confusion. En effet, si c'est bien la même formule mathématique qui est utilisée pour démontrer la corrélation de fidélité et de validité, ce sont cependant deux paires de données différentes qui sont mises en corrélation pour établir respectivement la fidélité et la validité d'un test. Ainsi, pour la fidélité, il s'agit d'un coefficient entre un

Travaux et Recherches n o 71 Spécial Évaluation

test-retest ou entre la même mesure obtenue à deux occasions différentes, alors que, pour la validité, le coefficient est obtenu entre deux tests ou deux mesures différentes. De plus, 1 'interprétation du coefficient est aussi différente pour la fidélité et la validité (tableau 5). Ainsi, un coefficient de 0.85, excellent comme indice de validité, n'est considéré qu 'acceptable comme indice de fidélité . La statistique n'est pas tout, le spécialiste doit aussi tenir compte des facteurs circonstanciels entourant la détermination du coefficient de fidélité d'un test. Ces facteurs sont les mêmes que pour la validité (tableau 6).

Le coefficient de corrélation ne suffit pas cependant pour dire qu'un test est fidèle. En effet, il est possible d'avoir une corrélation parfaite sans pour autant que les résultats soient identiques. C'est le cas, par exemple, de la balance dont le point zéro aurait été déréglé lors du deuxième essai. Il est donc utile de faire un test de différence entre les moyennes des deux essais. Ceci doit être fait en plus du test de corrélation, car le fait que les moyennes soient semblables ne suffit pas non plus pour dire que le test est fidèle. Ainsi , par exemple dans le cas d'un test non fidèle, il est possible que la moitié des individus ait obtenu un score plus élevé au deuxième essai, et moins élevé pour l'autre moitié, de sorte que la moyenne de tous les individus paraît semblable pour les deux essais. En conséquence, la fidélité d'un test doit être vérifiée au moyen du coefficient de corrélation et d'un test comparant les moyennes . Au lieu de comparer les moyennes, il est aussi valide de regarder la régression entre les deux essais : celle-ci ne devrait pas être différente de la ligne d'identité, c'est-à-dire la droite de 45 o passant par 1 'origine des axes x et y.

Fidélité interne et externe

Dans la plupart des cas, il est question de fidélité externe, c'est-à-dire que la source de variations ou d'erreurs aléatoires est extérieure au sujet lui-même et dépend plutôt du test, de l 'appareil de mesure ou de l'administrateur lui-même. Dans ces cas, et lorsque la variation est grande, il est coutumier de prendre

plusieurs mesures et de retenir la moyenne pour améliorer la fidélité du test. Cela est parfois possible (ampl itude articulaire, plis cutanés ... ) mais pas toujours (V02 max, endurance musculaire ... ). En faisant la moyenne des essais, il faut exclure les valeurs suspectes (exagérément faibles ou élevées), surtout si on connaît l'origine de leur remise en question. Dans certains cas, la variation provient de l'individu . Le test de préhension est un exemple type. Le dynamomètre est très fidèle. Suspendez cinq fois un poids à la poignée et vous obtiendrez cinq fois le même score. Cependant, le test de préhension ne donne pas cinq fois les mêmes résultats . Autrement dit, c'est l'individu lui-même qui varie physiologiquement et n'arrive pas toujours à reproduire sa force maximale. Dans ce cas, et si l 'on ne doute pas de la fidélité de 1 'appareil, le meilleur score constitue 1 'indice le plus représentatif de la force maximale de l'individu. Après tout, l'individu a bel et bien

· réussi à développer cette tension et c'est elle, et non la moyenne des essais, qui doit être retenue.

Exactitude et précision

L'exactitude ou la justesse d'un test fait référence à la grandeur de l'erreur de la mesure par rapport à la valeur vraie. Il existe deux types d'erreurs, l'erreur systématique et l'erreur a léatoire, chacune étant reliée au concept de validité externe (erreur systématique) et de fidélité et de validité interne (erreur aléatoire).

L'erreur aléatoire est l'erreur la plus à craindre car elle est rarement identifiable et contrôlable lors d'un test à essai unique. Faire plusieurs essais lorsque c'est possible et utiliser la moyenne peut réduire l'erreur aléatoire. L'erreur aléatoire moyenne peut être connue (par exemple ± 5 OJo), mais pour une mesure donnée 1 'erreur peut être au-dessus ou au -dessous de 5 OJo .

L'erreur systématique quant à elle est facilement corrigible même si on n'en connaît pas la source. Il importe toutefois de connaître cette erreur systématique (ex : retrancher 10 kg d'une balance qui surestime ·1e poids de 10 kg).


Cette différence entre erreur aléatoire et systématique concerne les moyennes ou l ' individu moyen. Sur une base individuelle, une erreur «aléatoire» peut prendre un caractère systématique. Ainsi, un test sousmaximal peut tantôt sous-estimer un sujet, tantôt surestimer un autre sujet, de sorte qu'en moyenne il n'y ait pas d'erreur systématique mais seulement une erreur aléatoire. Individuellement, cependant, le sujet qui a été sous-estimé peut l'être d'une façon systématique, alors qu'un autre sera systématiquement surestimé. Il est possible que, même individuellement, il s'agissent d'erreurs aléatoires . Les di fférentes possibilités existent toutes dans la réalité, et le spécialiste en évaluation se doit d'être au courant pour interpréter correctement les résultats d'un sujet, surtout lorsqu 'il est en présence de résultats suspects ou inattendus.

La précision ou la sensibilité d'une mesure est indiquée par l'unité retenue. Par exemple, une balance mesurant le poids au mg est plus précise que celle se rapportant au kg. A la rigueur, une mesure relativement imprécise affectera la fidélité et la validité d'un test ou d'une mesure. D'autre part, rien ne sert d'avoir un test ou un appareil trop précis (ex : ± 1 mg) si leur erreur aléatoire est plus grande (ex : ± 1 g).

Si plusieurs variables sont utilisées pour en prédire une autre, la variable la moins précise ou la moins fidèle limitera la précision et la validité de celle qui sera prédite, un peu à l'exemple d 'une chaîne dans laquelle la résistance est limitée par le chaînon le plus faible .

0 NORMES

Utilité

Les normes sont utilisées pour situer les individus par rapport aux autres. Ces «autres » peuvent représenter la population générale ou certains sousgroupes d ' individus (ex :élite de différentes disciplines sportives).

Moyenne et écart-type

La norme la plus simple est la moyenne du groupe. Ainsi, un sujet se retrouvera-t-il près ou loin de la

moyenne. Mais, justement, que veut dire «près» ou «loin » ? Si la moyenne du vo2 max des hommes de 30-39 ans es t de 35 ml02 .kg - l min - 1, la valeur 40 doit-elle être considérée comme proche ou éloignée de la moyenne ? En fait, cela se mesure et dépend de la façon dont les sujets se répart issent autour de la moyenne. L'écart-type constitue cet indice de répartition autour de la moyenne. Ainsi , si l ' écart-type est de 5 ml02 .kg - 1min - 1, cela veut dire qu'en moyenne, les individus se situent entre ± 5 ml. kg - 1 min - 1 de part et d ' autre de la moyenne. Dans ce cas particulier, l' individu qui a un vo2 max de 40 ml. kg - 1. min - 1 est donc près de la moyenne. Pourtant, si l 'écart-type avait été de ± 2 ml. kg - 1. min - 1, ce même score eût été considéré comme nettement audessus de la moyenne. Le spécialiste en évaluation doit donc prêter attention autant à l'écart-type qu'à la moyenne et savoir qu 'en général 68 OJo des gens se situent entre ± 1 écart-type de la moyenne, 95 OJo entre + 2 écarts-types et 99 OJo entre ± 3 écarts-types.

Normes centiles

Une autre façon de décrire la moyenne d'une population et sa distribution autour de la moyenne est de rapporter les différents centiles et les scores correspondants. La moyenne correspond généralement au so• centile, c'est-à-dire qu'il y a 50 OJo des individus au-dessus et au-dessous de la moyenne . Aussi, si la catégorie ou classe «faible» est située entre le 20• et le 40• centile, cela veut dire qu'il y a 20 OJo des individus situés dans cette classe, 20 OJo des individus au-dessous et 60 OJo au-dessus. Ainsi, les centiles permettent-ils de situer quantitativement un individu par rapport au groupe. D'autre part, l'association d'un qua litatif (ex : faible) à une classe centile est un acte de jugement purement arbitraire. A ce titre, le spécialiste en évaluation devrait attacher plus d'importance aux centiles d'une catégorie qu'au qualificatif qui lui est attribué. En effet, les normes centiles ne sont pas toujours faites de la même façon. Par exemple , pour certaines normes , il y aura cinq classes comprenant chacune 20 OJo des

69

individus. D'autres, préféreront rendre les classes extrêmes moins accessibles , plus rares pour des raisons de préférence ou de motivation . Ainsi est-il utile de savoir que les normes scandinaves (Astrand, 1960), utilisées dans plusieurs pays pour classifier les individus , sont constituées de la manière suivante :

l rC'\. l,u blc l ,ublc \llO) Cil

< l'nllk ' IU .2H 2. ZCJ I ~ . S7 IS SK ~4 I l ~4. 14 -Y7. 1 2 IJ? . Il· IOO

22K I)S7 f\.11)0 IS S7

Si , dans l'exemple précédent, chaque classe comptait 20 OJo d ' individus, la plupart se situent ici dans la catégorie moyenne, a lors que seules de rares exceptions sont estimées «Très faible» ou «Excellent » . Pour illustrer le côté arbitraire de ce choix, soulignons encore l'exemple des normes canadiennes du Physitest où 2.5.-25 .-45.-25 et 2,5 OJo des individus composent chacune des catégories retenues. On comprendra maintenant que de simples classifications subjectives, outre le fait d'être peu informatives, mènent à toutes sortes d'abus . Ainsi, et sans raison apparente, le même indice - celui du test de Ruffier -est affecté de classifications fort différentes et colorées :

Classi rica1ion

Indice Rurrier Scherrcr Flandrois ~ rolL Ruffier (1 955) (1967) (1965)

0 e1 moins Cœur Cœur

Supérieur athl é1ique ath lé1iquc

o. 1·5 Cœur Cœur fon

robus1c moyen fort

5. 1-10 Cœur Cœur

Don médioc re moyen-bon

Cœur Cœur 10. 1- 15 dangereusemen1 insurfisa nl i\·1oycn

faible moyen

Cœur 15. 1-20 insuflisam Faible

faible

Distribution normale

L'in formation (tableau 8) qui découle des concepts de moyenne et d'écart-type d 'une part et de centiles d 'autre part (tels que dérivés par la coteZ), perd tout son sens si la population n'est pas distribuée «normalement » autour de la moyenne. Ceci implique quelques postulats de base :

- autant de suj ets sont situés de part et d 'autre de la moyenne (indice de s ymétrie ou d'asymétrie, «skewness »);

70

- la distribution doit être unimodale, c'est-à-dire composée d'une seule population distincte. S'il fallait que les données sur la taille des hommes et des femmes soient traitées ensemble, la distribution obtenue serait bi-modale et les normes centiles qui en découleraient ou même l'écarttype calculé n'auraient plus aucun sens logique;

- lorsque la distribution des sujets autour de la moyenne est dite «normale», la courbe prend l'allure d'une cloche telle que 68 % des sujets se retrouvent entre les valeurs situées à l'écart-type au-dessous et a!..l-dessus de la moyenne. Dans le cas d'une cloche trop aplatie (indice d'aplatissement, « kustosis ») ou trop aiguë , c'est respectivement moins de 68 OJo et plus de 68 OJo qui sont situés entre ces mêmes valeurs.

En général, les qualités physiques sont légèrement asymétriques , sans que cela affecte trop leur distribution centile. Mais il ne faut pas être surpris du fait que certains individus dépassent le lOO• centile ou , au contraire, que le o• centile corresponde à des valeurs parfois impossibles car trop faibles.

Autres caractéristiques circonstancielles affectant la validité des normes

Outre la distribution qui doit être normale, la population concernée par les normes doit être bien décrite, 1 'échantillon pris pour les constituer doit être bien représentatif qualitativement (échantillonnage aléatoire) et quantitativemenT (nombre suffisant de sujets) . Il existe des règles statistiques pour déterminer la grandeur minimale d 'un échantillon représentatif d'une population pour une marge d'erreur considérée comme acceptable. Sans entrer dans les déta ils, retenons que :

- la grandeur de l 'échantillon dépend de la grandeur de la population et de l'exactitude désirée pour ces normes; -comme guide grossier, il est possible de se servir des données suivantes pour la grandeur de l'échantillon : 111 o• de la population pour une population de 10 000,

Tra vaux et Recherches n ° 71 Spécial Évaluation

1/4 de la population pour une population de 1 000, 1/3 de la population pour une population de 500, (Bouchard et coll. , 1972); - un échantillon de 40 ou moins est fort douteux à moins de représenter la popula tion totale.

Enfin, il es t aussi important de connaître les tests (niveau de validité, fidélité . .. ) utilisés pour établir ces normes.

Caractéristiques des normes- résumé

Le tableau 7 résume les principales caractéristiques qui devraient être connues du spécialiste en évaluation voulant utiliser un ensemble de normes.

Autres types de normes

Hormis les normes centiles qui sont les plus utilisées, d'autres échelles le sont aussi (leurs équivalences centiles sont réunies dans le tableau 8).

Catégories d 'épreuves

Dans les chapitres précédents, il fut question des objectifs de l'évaluation (tableau 1), de l'éthique (tableau 2), de la sécurité (tableau 4), et des caractéristiques des épreuves telles la

validité, la fidéli té et les normes. Tous ces aspects influent directement sur le choix d'une épreuve, mais, d'une manière plus immédiate, celleci peut auss i, par feed-back, infléchir le choix que l'évaluateur ou l'évalué est amené à faire. Comme aucune épreuve n 'est parfaite, le choix devrait être fixé en fonction des facteurs jugés prioritaires. D'autre part, si les épreuves de terrain effectuées en groupe étaient aussi valides, fidèles et bien contrôlées que celles conduites en laboratoire, ces dernières n'auraient plus leur raison d'être. Inversement, si les épreuves individuelles de laboratoire étaient humainement, matériellement, temporellement et financièrement aussi peu coûteuses que celles de terrain , ces dernières pourraient être abandonnées .

C'est donc l'analyse initiale de la situation qui doit induire le choix le mieux adapté aux besoins précisément identifiés. Il ne faut pas prendre pour acquis le fait que les tests les plus sophistiqués répondent le mieux à ces besoins, et, à ce propos, il faut dissocier le point de vue de l'évalué et celui de l 'évaluateur. S'il s'agit de l 'évalué, les épreuves doivent être les plus attrayantes et les plus simples possibles pour en faciliter la compré-

Tableau 7 - Facteurs à considérer dans l'élaboration ou le choix de normes

Description qualitative de la population concernée (âge, sexe, sédentarité, sportivité, origine géographique et culturelle ... )

2 Représentativité de l'échantillon - Qualitative (échantillonnage aléatoire) - Quantitative (nombre de sujets par catégories d'âge et de sexe et non pas seulement

au total)

3 Statistiques descriptives - Moyenne - Écart-type - Nombre de sujets - Nombre de modes -Asymétrie - Aplatissement

4 Catégories centiles - Précision des scores correspondants - Pas de recoupement entre les catégories - Catégories qualitatives correspondantes

5 Tests utilisés - Description - Validité - Fidélité

6 Référence source

Tableau 8- N o r mes (Adapté de Barrow et Mc G ee, 1964)

A - Équ ivalences pour sept échelles normatives

Centile T Sigma 6 Stanine Hull z c Centi le T Sigma 6 Stanine Hull z c 99.9 80 100 3 62 53 9<J .75 7H 97 90 61 52.5 9<J .5 76 94 60 52.5 9<J.25 75 92 9 85 10 99.0 74 91 59 52 53

58 52 9K .5 72 87 57 52 <JR 70 84 80 2 9 56 51.5 97 69 82 55 51.5 96 6H 80 8 75 95 67 79 54 51 52

53 51 94 66 77 52 50.5 93 65 75 8 51 50 92 64 74 70 50 50 50 5 50 0 5 91 63 72 90 62 .5 7 49 50

48 49.5 lN 62 70 47 49 88 61.5 46 49 48 87 61 69 65 45 48.5 H6 60.5 85 60 44 48

43 48 47 84 60 67 1 7 42 47.5 83 59.5 41 47.5 82 59 40 47 81 59 65 80 58.5 39 47 45

38 46.5 79 58 37 46.5 78 58 63 36 46 43 45 77 57.5 35 46 76 57 62 60 75 56.5 34 45.5

33 45.5 74 56 60 6 32 45 42 4 73 56 31 45 72 55.5 30 44.5 71 55

29 44. 5 70 55 59 6 40 ' 28 44

69 54.5 27 44 68 54.5 26 43.5 4 67 54 57 55 25 43 38 40 66 54

24 43 65 53.5 23 42.5

64 53.5 22 42 36 63 53 55 21 42

Centile T Sigma 6 Stani ne Hu ll z c 20 41.5

19 41 35 18 41 17 40.5 16 40 15 40 33 - 1 3

14 39 32 35 13 38 .5 12 38 30 I l 37.5 3 10 37 28

9 36 27 30 8 35 25 2 7 34 24 6 33 22 5 32 20 25

2 31 19 2 3 30 17 - 2 1 4 29 15 20 1.5 28 14 1.0 26 10

.75 25 9 1 15 0

.5 24 7

.25 22 3 10 1 20 0 - 3

8 - Caractéristiques des principales échelles norm a tives

Échelle Étendue Mesure centrale

1. Centile 0 à 100 50 2. Échelle Sigma 6 0 à 100 50 3. Hull approx. 10 à 90 50 4. Échelle T approx. 20 à 80 50 5. Échelle C 0 à 10 5 6. Stanine 1 à 9 5 7. CoteZ - 3 à +3 0

-------

~-<;;·

~-~

~ ;;·

~ ~-~ <:: ~ 1:<. ~~

§ ~

~

-.1

72

BIBLIOGRAPHIE

Amcrican College of Sports Medicine.- Directives sur les épreuves d'effort progressif et la prescription d'exercice. Montréal : APAPQ, 1976. Association des professionnels de l 'activité physique du Québec.- Le rapport ct les recommandations du Groupe de travail sur les programmes de conditionnement physique pour adultes. Montréal : APAPQ, 1976.

ASTRAND (1. ).- Aerobic work capacity in men and women with special reference to age. Acta Physiol. Scand., 1960, 49, supp . 169.

BAlLE Y (D.A.), S HEPHARD (R.J.), MlRWARLD (R.L .).- Validation of a selfadministrated home test of cardiorespiratory fi tness. Can. J. Appt. Spt. Sei., 1976, l , n • 1, pp. 67-78.

BARROW (H .M.), MC GEE (R.).- A practical approach to measurement in physical education . Philadelphie : Lea & Febiger, 1964.

BOUC HARD (C.), GODBOUT (P.), ASSELI N (R .), MONDOR (J .C.) .- Un modèle pour usage dans la construction ou la réfection de tests dans le domaine de la valeur physique. Kinanthropologie, 1972, 4, n• 4, pp. 225-3 16.

BOUC HARD (C. ), GODBOUT (P.), MONDOR (J.C.), LARUE (M.), MJCHAUD (G.), BOULA Y (M .).- Un inventaire des moyens disponibles pour évaluer les facteurs de la valeur physique avec une application au cadre scolaire . Kinanthropologie, 1972, 4, n• 3, pp. 203-221.

BOUCHARD (C.) et coll.- Groupe d'étude de Kino-Québec sur Je système de quantification de la dépense érergétique (GSQ) - Rapport final. Ki no-Québec . Québec : Mini<rère du Loisir. de la Chasse et de la Pêche, 1979.

C HISHOLM (D.M .), COLLIS (M.L.), KULAK (L.L.), DAVENPORT (W.), GRUBER (N.).Physical activity readiness. Brith. Col. Med. J. , 1975, 17, n• JI, pp. 315-378 .

CUMMING (G .R.).- Excrcise ECG tests prior to exercise in weil persans. Can. J. Appl. Spt. Sei., 1976, 1, n • 3, pp. 205-209.

FLANDROI S (R . ), PUCINELLI (R . ), LACOUR (J.R.), HEBRAL (D.).- Étude expérimentale de l'aptitude physique sur une population de jeunes gens de 20 ans et considérations sur la valeur de certaines épreuves fonctionnelles. Bull. Soc. Med. Militaire, 1965, 8, pp. 435-458.

LADOUCEUR (R.), BEGIN (G.). - Protocoles de recherche ens sciences appliquées et fondamentales . St-Hyacinthc : Ediscrn, 1980.

LÉGER (L.).- L'act ivité physique chez l'adulte bien portan t. Risques potentiels et précautions à prendre. Le Médecin du Québec, 1980, 15, n• 6, pp. 54-55, 57-60, 62.

ROAF (P.).- La responsabilité judiciaire. La revue de l 'entraîneur, 1981, 4, n• 19, pp. 3-6, 22-23 .

RUFFIER (J.E.).- L'indice de résistance du cœur. Med. Educ. Phys. Sport, 1955, 29, n • 1, pp. 38-41.

SCHERRER (J .) .- Physiologie du travail (tome 1). Paris : Masson et Cie, 1967.

SHEPHARD (R.J.). - Do risks of exercise justify co stly caution? The Physician and Sportsmedicine, 1977, 5, p. 2, pp. 58-65.

STEWART (G.) , KULAK (L.), CH!SHOLM (D.), LAUZON (R.), COLL!S (M.).- Aptitude à l 'activité physique. Plan d'auto-examen pour adultes, préalable aux exercices. Ottawa : Santé ct bien-être social, 1979

Travaux et Recherches n ° 7 1 Spécial Évaluation

hension, la motivation et la validi té des résultats. Pour 1 'évaluateur compétent, cela n'a pas, dans une certaine mesure, trop d'importance et celui-ci n'a aucune raison de choisir la facilité.

La classification des différents types de tests identifiés, comme l'indique le tableau 9, présente un sens spécifique selon 1 'épreuve considérée ou la qualité physique mesurée. Cependant, cette classification ne prétend pas être parfaitement pertinente et l'énumération qui en est faite n'est pas, loin s'en faut , exhaustive et nécessite d'être explicitée.

Type d'ergomètre ou de mouvement

Le type d'ergomètre, l'activité ou le mouvement peuvent influer sur le choix de 1 'épreuve. Aussi est-i l indispensable d'identifier avec précision ce qui doit être évalué, et relat iviser les résultats en fonction de 1 'ergomètre utilisé. Par exemple, dans tel mouvement quelles sont les articulations dont l'amplitude doit être mesurée? Pour l'appréciation de la force ou de l'endurance musculaire, quels groupes musculaires interviennent? S'agit-il d ' un effort statique ou dynamique? De même pour la puissance maximale aérobie (2).

Épreuves de terrain ou de laboratoire

Une distinction est habituellement faite entre épreuves de terrain («field tests») et épreuves de laboratoire, celles-ci permettant des conditions de mesures généralement plus sophistiquées, rigoureuses, et à risques contrôlés. Cependant, ces conditions ne sont pas 1 'exclusivité du laboratoire; le spécialiste en évaluation doit être aussi capable de les requérir pour conduire une épreuve de terrain dans les mêmes conditions. Plus que le lieu, ce sont les conditions qui déterminent s'i l s'agit, selon la définition classique, d'une épreuve de laboratoire ou de terrain.

Épreuv es maximales ou sousmaximales

Sont surtout concernées ici les épreuves de capacité aérobie (3) pour lesquelles il existe une possibilité théorique de prédire le vo2 max des sujets

sans qu'il soit nécessaire de leur imposer un effort maximal. Plus que la question de risques qui sont minimes (même pour des efforts maximaux), la difficulté physique de l'épreuve et ses séquelles psychiques et même physiques (courbatures musculaires) limitent l'usage des épreuves maximales. Ces problèmes peuvent être diminués par un entraînement préalable, l'usage d'épreuves progressives, un échauffement et des étirements musculaires initiaux et par des épreuves d'endurance aérobie ou musculaire à intensité fixe plutôt qu'à durée fixe.

Le fait qu'il n'existe pas d'épreuves sous-maxima les d'évaluation de l'amplitude articulaire, de la force et de l'endurance musculaire explique que certaines de ces épreuves sont parfois écartées car elles ne conviennent pas à tous les sujets. Le problème ne se pose pas pour les mesures dites «passives» comme 1 'estimation du pourcentage de graisse à partir de la mesure des plis cutanés.

Épreuves directes ou indirectes

Une épreuve est considérée comme directe lorsque la mesure qu'elle induit est obtenue directement au cours de son déroulement et non prédite par une ou plusieurs autres. D'une façon générale, plus une mesure est directe, plus elle est valide. La consommation maximale d'oxygène peut être mesurée directement au cours d'une épreuve maximale ou prédite (indirectement) à partir de valeurs de fréquence cardiaque, de coût énergétique (exprimé en 1 d'0 2min - 1 o u en ml d '02min- 1 kg - 1 ), ou/ et de puissance obtenus au cours d'une épreuve sousmaximale. Souvent, l'utilisation du concept «direct» est même restreint à la mesure directe des gaz expirés (débit et fractions d'02 et C02), àe sorte que l 'on précise la nature de l'épreuve en la définissant comme maximale directe ou indirecte et sousmaximale directe ou indirecte. L'évaluation de l'amplitude d'une ou de plusieurs articulations (amplitude

(2) Cf. article : CAZORLA (G.), LÉGER (L.), MARINI (J.F.). - Les épreuves d'effort en physiologie- Il. Épreu ves ct mesures du potentiel aérobic.- Dans le présent document. (3) Op.cit.


articulaire du rachis) et des ceintures peut fournir un autre type d'exemple de mesure indirecte : pour apprécier l'amplitude d'une articulation (encore improprement appelée souplesse articulaire), c'est l'angle du mouvement qui devrait être mesuré, alors que dans la plupart des épreuves ce sont les déplacements linéaires qui servent de critères.

Épreuve auto-administrable

Peuvent être considérées comme épreuves auto-administrables toutes celles qui sont suffisamment simples pour que le profane puisse les utiliser lui-même et pour lui-même sans qu'elles ne cèdent en rien , ni à la validité des données recueillies, ni à la sécurité qu'elles requièrent.

Type d'unité de mesure

Comme plusieurs épreuves peuvent mesurer la même qualité physique, elles devraient théoriquement donner le même résultat. Or, pour qu'il y ait pleine compatibilité, il faudrait que la même unité de mesure soit utilisée, ce qui n'est pas toujours le cas. Ainsi, pour les épreuves cardio-vasculaires ou de capacité aérobie, les résultats expriment parfois une puissance de travail à 170 pulsations par minute exprimée en watts, parfois une simple fréquence cardiaque (version originale du Physitest canadien), parfois un index de récupération complexe utilisant plusieurs rriesures de fréquence cardiaque (Ruffier) et même la pression systolique (SystolicTension-Time), et enfin, parfois, le vo2 max exprimé en ml.kg - l.min. - 1 ou en 1. min - I. La comparaison des résultats obtenus à partir de ces différentes épreuves devient alors pratiquement impossible. Choisir 1 'unité de mesure la plus universelle possible offrirait au contraire d'indéniables avantages.

Tableau 9 - Facteurs • à considérer dans le choix d'une épreuve

OBJECTIFS DE L'ÉVALUATION

Orienter les individus selon leurs points forts et faibles Améliorer les individus en fonction de leur capacité Améliorer les programmes de conditionnement physique Sélectionner, classifier, certifier les individus et la collectivité Prédire des performances immédiates ou futures Promouvoir l'activité physique Motiver Former des spécialistes en évaluation Vérifier des hypothèses de recherche et produire des études normatives Faire un diagnostic

ÉTHIQUE ET SÉCURITÉ

Éviter les épreuves : - portant atteinte au bien-être de l'individu - dont les risques sont inconnus -compromettant la mise en application des procédures d'urgence et de prévention

CARACTÉRISTIQUES DES ÉPREUVES

Rechercher les épreuves : - les plus valides - les plus fidèles - les plus exactes - les plus précises - présentant des normes adéquates - les plus discriminantes - optimales en termes de difficulté

TYPES D'ÉPREUVES••

Considérer : - le nombre d'individus évalués, épreuves individuelles ou collectives - la nature de l 'activité ou de l'ergomètre : tapis roulant, bicyclette ergométrique, banc,

nage ... - la rigueur et le contrôle de réalisation : épreuves de maison, de terrain ou de laboratoire -l'intensité de l'épreuve ou de la tâche : actif ou passif, sous-maximal ou maximal - si l 'épreuve est progressive ou non - si l'épreuve est directe ou indirecte - la nature de l'unité de mesure; ex : CT170, V02 max , Index quelconque .. . - si l'épreuve est auto-administrable ou non - les coOts humains, matériels et financiers des épreuves

• Aucune épreuve n'est positive pour chacun des facteurs. L'évaluateur doit fixer ·la priorité accordée à chacun de ceux-ci.

•• Facteurs spécifiques aux qualités physiques mesurées.

73

Le choix d'une épreuve d'évaluation est un moment important qui requiert toute 1 'attention du spécialiste. Afin d'en faciliter la décision, il

peut se référer au tableau 9 dans lequel sont résumées les principales questions qui président au choix final.

Pour une épistémiologie des épreuves d'effort

Sports

Transcript of Pour une épistémiologie des épreuves d'effort