Pour une épistémiologie des épreuves d'effort

13
POUR UNIIPISTIMDlOGII DIS IPRIUVIS D'lffDRT La mise au point sans cesse croissante d'épreuves d'effort ajoutées au nom- bre considérable de celles qui existent déjà, témoignent sans nul doute de besoins spécifiques non encore satis- faits. Cette recherche constante d'outils toujours mieux adaptés requiert une réflexion à la fois éthi- que et technique sur leurs finalités et sur les moyens de leur mi se en oeuvre. C'est ce que se propose la présente étude. Les épreuves d'effort ne devraient être rien d'autre que des outils au ser- vice de l'évaluation. L'évaluation n'est elle-même qu'un jugement de valeur sur une mesure et l'épreuve ne représente que l'outil permettant d'obtenir la m esure. Par l'épreuve d' Astrand et Ryhming sur bicyclette ergométrique est l'outil qui permet d'obtenir la mesure de la con- so mmation maximale d'oxygène d 'u n sujet. La mesure obtenue peut être de 35 ml. min - l .kg-1 et l'éva- luation consiste à dire si ce résultat est bon ou mauvais. Théoriquement, ce jugement de valeur dépend donc à la fois des objectifs visés et de la qua- lité des outils de mesure utilisés. Pra- tiquement, cependant, le problème de l'évaluation consiste à choisir les épreuves d'effort d'abord en fonc- tion d'objectifs pré-établis et ensuite de leurs caractéristiques qualitatives. Le praticien qui ignore ces deux aspects fondamentaux risque de se perdre dans la jungle des épreuves proposées . Il faut bien dire que le côté sophistiqué de certaines d'entre e lles (ex . : subtils nomogrammes, systèmes électron iq ues et informati- sés de V0 2 ... ) fascine l' esprit au point d'en oublier le pourquoi de ces épreuves ainsi que leurs caractéristi- ques qualitatives (validité, fidélité, sécurité ... ).

description

Pour une épistémiologie des épreuves d'effort

Transcript of Pour une épistémiologie des épreuves d'effort

Page 1: Pour une épistémiologie des épreuves d'effort

POUR UNIIPISTIMDlOGII DIS IPRIUVIS D'lffDRT La mise au point sans cesse croissante

d'épreuves d'effort ajoutées au nom­bre considérable de celles qui existent déjà, témoignent sans nul doute de besoins spécifiques non encore satis­faits. Cette recherche constante d'outils toujours mieux adaptés requiert une réflexion à la fois éthi­que et technique sur leurs finalités et sur les moyens de leur mise en œuvre. C'est ce que se propose la présente étude.

Les épreuves d'effort ne devraient être rien d'autre que des outils au ser­vice de l'évaluation. L'évaluation n'est elle-même qu'un jugement de valeur sur une mesure et l'épreuve ne représente que l'outil permettant d'obtenir la mesure. Par ex~mple, l'épreuve d ' Astrand et Ryhming sur bicyclette ergométrique est l'outil qui permet d'obtenir la mesure de la con­sommation maximale d'oxygène d 'un sujet. La mesure obtenue peut être de 35 ml. min - l.kg-1 et l'éva­luation consiste à dire si ce résultat est bon ou mauvais. Théoriquement, ce jugement de valeur dépend donc à la fois des objectifs visés et de la qua­lité des outils de mesure utilisés. Pra­tiquement, cependant, le problème de l'évaluation consiste à choisir les épreuves d'effort d'abord en fonc­tion d'objectifs pré-établis et ensuite de leurs caractéristiques qualitatives.

Le praticien qui ignore ces deux aspects fondamentaux risque de se perdre dans la jungle des épreuves proposées . Il faut bien dire que le côté sophistiqué de certaines d'entre elles (ex . : subtils nomogrammes, systèmes électroniques et informati­sés de V02 ... ) fascine l'esprit au point d'en oublier le pourquoi de ces épreuves ainsi que leurs caractéristi­ques qualitatives (validité, fidélité, sécurité ... ).

Page 2: Pour une épistémiologie des épreuves d'effort

62

Objectifs de l'évaluation et des épreuves d'effort

«Pourquoi évaluer tel ou tel athlète?»

Les réponses habituelles à cette ques­tion sont souvent formulées ainsi : «Pour savoir où il en est ou ce qu'il vaut! - Pour suivre son progrès! -Pour savoir si son entraînement est bon!- Pour ajuster et doser son entraînement en fonction de sa capa­cité! ... ».

A ce titre, la classique performance du sportif ne constitue-t-elle pas le meilleur indice de ses capacités? Pourquoi alors l'ennuyer avec toute une série d'épreuves «artificielles» qui peuvent nuire à son entraîne­ment? Bien que ce raisonnement con­tienne une part de vérité, il révèle une profonde incompréhension du phé­nomène de l'évaluation .

Si la performance demeure en effet l'évaluation la plus spécifique et la plus décisive, il n'en demeure pas moins que la mesure obtenue est très peu informative. En effet, la perfor­mance, réalisée le plus souvent dans un cadre compétitif, dépend tout aussi bien des capacités intellectuel­les , sociales et psychiques de l 'athlète que de ses capacités physiques. De plus, en compétition, la victoire ou la position sur le podium compte sou­vent plus que la performance elle­même. Spécifique dans un sens, mais trop globalisante dans l'autre, laper­formance dépend donc d'une multi­tude de facteurs, physiques ou non, qu'il convient d ' isoler afin de déceler le maillon faible de la chaîne et orien­ter ensuite l'entraînement de façon rationnelle en fonction des capacités clairement objectivées. Il importe donc de disposer d 'épreuves d'effort qui, tout en étant spécifiques de la tâche réalisée en compétition, se dérouleraient dans des conditions optimales et reproductibles, hors des influences tactiques, psychiques et motivationnelles.

Si nous avons retenu le sportif comme premier exemple, il ne faut pas perdre de vue que l'évaluation s'adresse à tous. Pour les adultes et les enfants qui ne font pas de compé­tition et ne réalisent pas de perfor-

Travaux et Recherches n ° 7 1 Spécial Évaluation

mances, les épreuves d'effort s 'avè­rent tout autant utiles pour faire le point sur l'état de leur condition physique et pour contribuer au bien­être général auquel la pratique régu­lière d'une activité physique semble intimement liée.

En conséquence, les objectifs de l'évaluation sont nombreux. Du con­texte particulier d'une situation découlent le ou les objectifs à retenir. Ce choix constitue la première étape de l 'évaluation, il précède et condi­tionne celui des épreuves elles­mêmes. Comme la plupart de ces der­nières peuvent répondre à plusieurs objectifs, le choix d'une d 'entre elles dépend alors de ses caractéristiques qualitatives et parfois même des pré­férences personnelles de l 'évaluateur ou de l'évalué. Il ne faut cependant pas vouloir faire dire à une épreuve autre chose que ce pourquoi elle a été mise au point. Par exemple, si le PWC 170 (Physical Working Capa­city à 170 battements/min) permet de suivre l'évolution de la capacité aéro­bie d'un sujet toujours comparé à lui­même, il serait hasardeux de 1 'utiliser pour classifier et comparer les sujets entre eux. La fréquence cardiaque maximale dont elle dépend varie en effet beaucoup trop d'un sujet à l'autre, même au sein d'un groupe d'âge donné. Cette même remarque s'applique aux épreuves sous­maximales basées sur la relation fré­quence cardiaque 1 consommation d'oxygène (ex : épreuve Astrand -Ryhming). De plus, dans ce cas-ci, l 'erreur aléatoire est si élevée, et le score obtenu si incertain, qu'il devient douteux de calculer une intensité d'entraînement en fonction de la consommation d'oxygène pré­dite au moyen de l'abaque Astrand­Ryhming.

Par contre, si l'objectif visé est d'éta­blir des normes ou d 'évaluer une méthode d'entraînement, ce qui compte, c'est la moyenne plus que le sujet et, les erreurs aléatoires se com­pensant, la moyenne obtenue est suf­fisamment exacte pour atteindre ce genre d'objectif. Même la mesure directe de la consommation d'oxy­gène sur bicyclette ergométrique ou sur tapis roulant ne constitue pas nécessairement la meilleure mesure

de la capacité aérobie d'un athlète. Il est en effet bien connu que des indivi­dus ayant la même consommation maximale d'oxygène, le même rende­ment mécanique et le même degré de motivation ont une endurance diffé­rente lors d'exercices exécutés à une intensité donnée. Ainsi la consomma­tion maximale d'oxygène n'est qu'un aspect de la capacité aérobie totale de l'athlète. Mais que veut-on évaluer : le tout, la partie ou les deux? La réponse à cette question dictera le choix de l'épreuve.

Bien que la consommation maximale d 'oxygène soit probablement la prin­cipale composante du tout, elle n'est pas le tout et, en compétition, le moindre détail peut faire la diffé­rence. Ceci nous mène au deuxième point. La capacité aérobie d'un ath­lète n'est pas nécessairement la même selon l'épreuve ou l'ergomètre choisi. A l'exception de la natation, le score obtenu est en général plus élevé si l'activité de l'épreuve se rapproche de celle de la spécialité de 1 'athlète. Il a même été démontré que ceux qui ont la capacité aérobie la plus élevée en laboratoire ne sont pas nécessaire­ment ceux qui l'ont en situation spé­cifique . En conséquence, si l 'objectif est de sélectionner une équipe repré­sentative, une épreuve de laboratoire, aussi sophistiquée soi t-elle, a proba­blement moins de valeur qu'une épreuve de terrain.

Pour résumer, on peut raisonnable­ment a ffirmer que toute épreuve, même la plus sophistiquée (ex. : Astrand-Ryhming ou V02 en labora­toire), n'est pas a priori la plus adé­quate; il faut préalablement analyser la situation et choisir ensuite une ou les épreuves qui permettent d'attein­dre les objectifs retenus.

Cependant, une remarque s' impose ici. Le choix des objectifs constitue une étape théorique; celui des épreu­ves, une étape pratique. L'épreuve est un outil et l'on ne dispose pas tou­jours des outils permettant d'attein­dre tous les objectifs. C'est d'ailleurs pour cette raison que de nouvelles épreuves sont conçues. Il faut donc être réaliste et essayer de faire Je choix le plus judicieux parmi celles qui sont disponibles ou, si cela est possible, en créer de nouvelles.

Page 3: Pour une épistémiologie des épreuves d'effort

Épistémologie des épreuves d'effort

Pour clore ce premier point, et afin d 'aider le praticien dans son choix, il est apparu utile de regrouper systé­matiquement les principaux objectifs de l'évaluation dans le tableau 1 (l), en rappelant toutefois que d 'autres facteurs tels l 'éthique, la sécurité et les ca ractérist iques qualitatives, influencent aussi ce choix.

Éthique et sécurité

Le respect des droits de l'être humain exige que le choix d ' épreuves d'effort tienne compte de certaines règles d 'éthique et de sécurité (tableaux 2 et 4) . Une des principales règles d ' éthi­que, le droit à l'information, est sou­vent bafouée. Non seulement certains utilisent les athlètes ou les enfants en négligeant de les informer, mais d'autres en abusent littéralement en leur faisant passer des épreuves sup­plémentaires à des fins de recherche sans l'accord des intéressés. Ce type d'abus est souvent inconscient, ce qui, dans un sens, souligne la gravité du problème. Afin de ne pas tomber dans ces excès, 1 'approche de «l' American College of Sport Medi­cine» paraît intéressante (tableau 3).

Elle s'accompagne dans tous les cas d'un formulaire de consentement en connaissance de cause qui est signé par l'intéressé. Si cette approche plu­tôt formelle ou administrativement embarrassante peut paraître super­flue dans le cadre de l'évaluation rou­tinière d'enfants ou d'athlètes inscrits dans des programmes reconnus et autorisés, les idées exprimées n 'en restent pas moins intéressantes. Dans certain cas (ex. : évaluation des adul­tes , procédures exceptionnelles . .. ), l'usage d 'un formulaire de consente­ment paraît tout indiqué (encadré 1 en annexe).

Après l ' information et le libre con­sentement, la deuxième règle d'éthi­que est le respect de la dignité, de l'honneur et de l' image de l' intimité du sujet. L'évaluation collective peut présenter en effet quelques problè­mes d'intimité. La pose d'électrodes et la prise de plis cutanés qui requiè-

(1) Voir aussi CAZORLA (G.).- De l'évaluation en activi té physique et sportive. - Dans le présent docu­ment.

Tableau 1 - Objecti fs de l'évaluation de l'aptitude physique

Orienter les individus en fonction de leurs points for ts et leurs points faib les

2 Améliorer les individus - en suivant leurs progrès - en fixant des objectifs accessibles et réalistes par rapport à leur niveau actuel - en déterminant les surcharges d'entraînement en fonction de leurs capacités actuelles

3 A méliorer les programmes et méthodes d'entraînement ou de conditionnement physique

4 Sélectionner, classifier et cert ifier les individus

5 Prédire les performances immédiates ou futures

6 Promouvoir l'activité physique

7 Motiver

8 Former des spécialistes en évaluation ·

9 Vérifier des hypothèses de recherche

10 Réaliser des études normatives

Tableau 2 - Règles d'éthique et évaluation de la condition physique

1 Retenir les objectifs d'évaluation en fonction du bien-être du sujet

2 Choisir les épreuves et mesures en fonction des objectifs retenus

3 S'assurer que l'évaluatio n n'entraînera pas de risques démesurés pour la santé, le bien-être ct la dignité du sujet

4 Informer les principaux intéressés sur les objectifs et la nature des épreuves et mesures pro-posées

5 Utiliser un formula ire approprié de consentement libre en connaissance de cause

6 Communiquer et commenter au sujet évalué les résultats

7 Adopter une attitude responsable qui dépasse les simples exigences légales

Tableau 3 - Consentement libre et en connaissance de cause

A- CONTEXTE

Le consentement doit être obtenu librement, c'est-à-dire sans pressions physiq ues ou psychiques (ex : perte d 'un droit ou avantage éventuel, récompense)

2 Le consentement doit être obtenu d'une personne a pte à le donner , sinon par le tuteur attitré

3 Le consentement doit être fait en connaissance de cause; l 'information essentielle, com­plète et compréhensible doit être transmise au sujet

B - CONTENU

1 Objectifs de l'évaluation et des tests

2 Procédures de l'évaluation (mesures et tâches du sujet)

3 Avantages et inconvénients pour le sujet

4 Offre formelle de questions au sujet

5 Offre formelle du libre désistement avant et pendant les épreuves ou l'une ou l'autre de celles-ci et ce , sans préjudice pour le sujet

6 Affirmation de la confidentialité des résultats

7 Affirmation explicite du consentement libre et en connaissance de cause de la part du sujet (aucune affirmation de renonciation ne devrait a pparaître sur le formulaire de consente­ment)

8 Identificat ion du sujet et du témoin

9 Date

10 Personne à avertir en cas d'accident

(Adapté de Med. Sei. Sports, 1980)

63

Page 4: Pour une épistémiologie des épreuves d'effort

64 Travaux et Recherches n ° 7 1 Spécial Évaluation

f:ONSENTEMEf'H FN l.O NNA 1 C,C,ANrF CAUSF.

iJ l' EVALUAT I ON OF.S FACTEURS OF. VO TRE MOTR I C I TF

1- EVAL!IATION RETENUE

L ' évaluation à l aquell e vous voulez bie n participer pourra inclure

*un examen psycho logique • . .•.... . •... .•..•. .• .. . CJ

* un examen médical .. ............ . .. .. ... ........ D

*des mesures biométriques .•. . •.. . ...•... . . .. •... Ci

*des épreuves d ' effort :

- avec recueil : de la fréquence cardiaque des gaz expirés .• •.... ..• Q

- ave c pré lèvement sanguin .•..•..•.• . .• . •. . ... .0

2- RI SQUES e t PRECAUTIONS

I l est possible que certains incidents surviennent au cours de l'évaluation e t notamment au cours des épreuves d'effo r t. Parmi ces i nc idents citons : une tension artériel l e anormale, un évanoui ssement , un rythme cardiaque désordonné , très rarement une attaque cardiaque.

A ce t e ffet toutes l es précautions seron t prises pour r édu ire initialement ces risques à l eur minimum (examen préliminaire, équipe d 'urgence bien formée équ ipée d'un ma t é r ie l adaplé ~ t prêt~ à iutervenir) , vous pourrez en outre me ttre fin à toute épreuve d ' effort si vous r essentez une fatigue excessive ou si vous ne vous sentez pas à l ' a ise.

3- AVANTAGES

Les résultats obtenus peuvent fac iliter un diagnostic ou l a détermination de la nature des activités dan s l esquelles vous pouvez vous engage r pratiquement sans risque.

4- QUESTIONS

A votre demande toutes les explications i nhérentes aux· mesures ou aux épreuves vou s seront données. N'hésitez pas à l es demander, nous serons heureux de satisfaire votre légitime curiosité.

5- RES ULTATS

Les résul tats vous seront communiqués individuellement dans l es meilleurs dé­lais. Ils demeureront b i en sûr couverts pa r le secre t professionnel. Toutefois s 'ils devaient servir à des f i ns expér imental es une demande vous en serait faite .

6- CONSENTEMENT EN TOUTE LIBERTE

" Ayant pris connaissance de ce qui précède , compris la nature des tests propo­sés e t des risques encourus, je concens librement à part~c~per aux différentes évalua­tions référencées par une croix au point 1 : EVALUATION RETENUE".

Ecrire LU e t APPROUVE et signer .

DATE SIGNATURE

* pour les mineurs consen t ement obligatoire des parents .

Page 5: Pour une épistémiologie des épreuves d'effort

Épistémologie des épreuves d'effort

Tableau 4 - Sécurité et évaluation de la condition physique

A -Connaître l'ampleur et la fréquence des risques psychiques et physiques encourus

B - Connaître et maîtriser les précautions à prendre

Classifier les candidats à l'évaluation • connaître les catégories d'individus • connaître les techniques de sélection et leurs limites (questionnaires et examens

médicaux)

2 Connaître, afficher et appliquer les critères d'arrêt des épreuves d'effort

3 Connaître et maîtriser les procédures d'urgence • établir les contacts pour l'assistance médicale • disposer d'une trousse de premiers soins

- Connaître, maîtriser et afficher les procédures de réanimation, obtenir une certification de préférence

- Élaborer et appliquer un plan écrit d'intervention

- Afficher un plan sommaire d'intervention ainsi que les numéros de téléphone importants

4 Prendre une police d'assurance responsabilité

5 Utiliser un formulaire de consentement libre et en connaissance de cause

rent des poitrines nues chez la femme comme chez l'homme, l'évaluation de suj ets obèses ou présentant des malformations, militent en faveur d'une individualisation de la prise de mesures, du moins pour certains sujets. De même, les résultats doivent demeurer confidentiels et couverts par le secret professionnel. D'aucune manière un résultat individualisé ne peut faire l'objet d'une publication ou d'une présentation collective sans l'autorisation préalable du sujet con­cerné.

Il existe bien d'autres situations où 1 'intimité et la dignité des sujets à évaluer peuvent être contrariées. Selon les réactions individuelles, le professionnel de l'évaluation devra toujours faire preuve du tact néces­saire pour les éviter et savoir les solu­tionner avec psychologie.

Le choix d'épreuves à risques physi­ques limités constitue une autre règle déontologique importante : il faut éviter celles qui sont contraires à la santé et au bien-être des sujets. Cependant, sans méconnaître les ris­ques encourus au cours d'une épreuve d'effort, il ne faut pas les exagérer comme d'aucuns ont pro­pension à le faire.

La vie elle-même n'est-elle pas faite de risques? Il faut simplement avoir conscience que toute activité physi­que comprend aussi sa part de risque,

la refuser sous ce fallacieux prétexte conduirait inévitablement les plus timorés vers un danger beaucoup plus sérieux : la sédentarité. Autre­ment dit, le fait de présenter certains risques n'est pas suffisant en soi pour écarter une activité physique. Entre les bienfaits et les risques il faut savoir peser le pour et le contre, con­naître les probabilités d'accidents et leurs conséquences, et prendre une décision.

Il en est de même pour les épreuves d'effort. Si l 'éthique exige d'éviter les épreuves dangereuses et de faire con­naître les risques encourus, il ne faut pas non plus les exagérer. Il n'y a pas si longtemps, en l 'absence de données objectives, la tendance était naturel­lement à l'excès de prudence voire à l'exagération : on évitait les épreuves maximales et mettait en place des mesures de sécurité excessives et coû­teuses . Maintenant, les données exis­tent : les risques encourus sont relati­vement minines. Cela ne veut pas dire qu'il n'y aura pas d'incidents, mais que ces incidents sont rares et sont aussi fonction de la santé des indivi­dus évalués. Ainsi, les risques aug­mentent selon qu'il s'agit d'athlètes, d'enfants, d'adultes bien portants et, enfin, de personnes présentant des problèmes cardiovasculaires. Même dans ce dernier cas, les dangers sont minimes, les statistiques révèlent en moyenne un accident mortel sur dix mille épreuves d'effort.

65

Plus que les r isques propres à toute activité, ce sont ceux qui peuvent être développés spécifiquement par les épreuves d'effort qui comptent. Autrement dit, ces dernières présentent-elles réellement plus de risques que les autres activités de la vie courante? Il semblerait en fai t que non. En somme, il ne faut pas négliger, ni exagérer les risques : les évaluations et épreuves d'effort constituent des habitudes de vie saine qui méritent, au même titre que toute activité physique adaptée, d'être très large­ment encouragées .

Caractéristiques qualitatives des épreuves d'effort

Non seulement le choix dépend de la reconnaissance préalable de certains objectifs et du respect du sujet et de sa sécurité, mais encore faut-il que les épreuves retenues soient qualitative­ment acceptables. La validité, la fidé­lité, l'existence de données normati­ves, le degré de difficulté et de discri­mination ainsi que d'autres caracté­ristiques fonctionnelles (type d'épreuves, ressources humaines, matérielles et financières ... ) influent donc, elles aussi, sur le choix des épreuves .

0 VALIDITÉ (spécificité-représentativité)

Concept

Un test est valide lorsqu'il mesure bien ce qu ' il est censé mesurer. Ainsi, le test du nombre maximal de redres­sements assis en une minute est valide pour mesurer l 'endurance des fléchis­seurs du tronc, mais non valide pour mesurer la puissance aérobie maxi­male. La question est moins simple en ce qui concerne la validité de ce test pour mesurer l'endurance des abdominaux. En effet, les abdomi­naux ne sont pas les seuls muscles potentiellement responsables de la flexion du tronc sur les hanches. Une étude électromyographique de la musculature sollicitée lors de ce mou­vement pourrait éclaircir la situation. En pratique, beaucoup de tests mesu­rent plusieurs facteurs à la fois et, si 1 'on se sert d 'un de ces tests comme

Page 6: Pour une épistémiologie des épreuves d'effort

66

mesure d'un seul de ces facteurs, il faudra que ce facteur (ex : abdomi­naux) joue un rôle plus important que les autres (ex : autres fléchisseurs du tronc sur les hanches telle psoas) dans la performance du test pour que celui-ci soit considéré comme valide. C'est ainsi qu'on parle volontiers d'un test qui est spécifique ou repré­sentatif du facteur ou de la qualité physique mesurée.

Degré de validité

Il est possible qu'un test soit valide pour mesurer telle ou telle qualité physique, objectif immédiat du test, mais, comme il fut mentionné précé­demment, il faut aussi se préoccuper d'objectifs moins immédiats (ex : pourquoi mesure-t-on telle ou telle qualité?). La prédiction d'une per­formance , la classification d'un indi­vidu, l'établissement d'un régime d'entraînement, la motivation d'un sujet sont autant de raisons qui ne nécessitent pas le même degré de vali­dité au niveau de la qualité même qui est mesurée. Ainsi, le spécialiste en évaluation devrait considérer les objectifs immédiats et lointains du test :

- objectifs immédiats qualité physique mesurée.

- objectifs lointains : objectifs visés par l'obtention de la mesure d 'une qualité physique donnée.

Indices de validité d'un test

Les indices de validité d'un test n 'ont pas tous la même signification et la même objectivité. Cela n'est pas nécessaire non plus et dépend du rap­port entre ce que le test mesure réelle­ment et la qualité physique qu 'on veut mesurer. P lus ce rapport est direct, moins le test a besoin d'être validé. Ainsi, si l ' on considère l'endurance des fléchisseurs du tronc sur la hanche comme une qualité importante à mesurer, le test des redressements assis fait justement cela et n'a pas, par définition, à être validé. Si, par contre, on veut se ser­vir du même test pour mesurer l'endurance des abdominaux ou la force de ceux-ci, ou le vo2 max de l'individu, il sera utile de pouvoir compter sur des indices plus objec­tifs.

Travaux et Recherches n o 7 1 Spécial Évaluation

Ainsi pourra-t-on se servir de nos connaissances théoriques sur la ciné­siologie, l 'anatomie et la biomécani­que, sur la force et sur le métabo­lisme aérobie pour déduire que telle ou telle forme de redressement assis constitue un test valide ou non pour mesurer l'endurance des abdomi­naux, leur force ou même le vo2 max d'un individu.

Corrélation simple de Pearson

On peut objectiver davantage la démarche en quantifiant statistique­ment la relation qui existe entre la mesure du test et la qualité mesurée, en se servant pour celle-ci de la mesure d'un autre test déjà reconnu comme valide. Lorsque, dans la litté­rature, on établit la validité d'un test au moyen d'un coefficient de corréla­tion entre ce test et un autre test, il importe de s'assurer que cet autre test est lui-même valide, ce qu ' il ne faut pas prendre pour acquis. Ainsi, par exemple, la validation du Physitest canadien (test de banc) ou du test de course de 12 minutes pour prédire le vo2 max en les comparant au test Astrand-Ryhming (au lieu de les comparer à la mesure directe du vo2 max), donnerait des résultats plus ou moins vides de sens puisque le test Astrand-Ryhming est lui-même for­tement remis en question sur le plan de la validité pour mesurer le vo2 max. L 'exemple du Physitest est réel (Bailey et coll., 1976) et édifiant :une lecture prudente et critique des études consultées est de mise .

Plus la corrélation est forte entre deux tests, plus il y a de chances qu'il y ait d'éléments spécifiques communs aux deux tests. En fait , deux tests qui seraient liés par une corrélation par-

faite ou maximale (r = 1) mesure­raient probablement la même qualité physique. Au contraire, une corréla­tion nulle indiquerait que les deux tests mesurent deux qualités bien dis­tinctes . En réalité, il existe tout un continuum, et une échelle empirique a été construite pour qualifier la vali­dité d'un test par rapport à un autre (tableau 5).

Encore une fois, avant de se servir d'une telle table , il importe d ' analy­ser avec son sens commun la valeur du critère de comparaison utilisé pour valider le test qui nous intéresse. D'autres éléments doivent également être retenus (tableau 6). Ainsi un échantillon trop restreint ou trop homogène peut fausser les lois de la probabilité. Le test a-t-il été validé chez les jeunes et les vieux, chez les femmes et les hommes, chez les gens entraînés et non-entraînés ? Un échantillon non aléatoire, particuliè­rement s 'il s'agit de volontaires asso­ciés de près au projet de validation, peut également fausser les résultats. Enfin , des différences culturelles peuvent infléchir la validité d'un test. Les cas sont nombreux où les habitu­des culturelles interfèrent avec le pro­tocole de certaines épreuves et influent donc sur le résultat final.

Corrélation multiple

Jusqu'à présent, il n'a été question que de coefficients de corrélation simple de Pearson pour quantifier Je degré de validité entre deux tests. Il arrive parfois que l'on veuille pren­dre plusieurs mesures ou faire plu­sieurs tests pour prédire telle ou telle qualité (ex : pourcentage de graisse à partir de plusieurs plis cutanés ou même le vo2 max à partir des résul-

Tableau 5 - Interprétation qualitative des coefficients de corrélation de validité et de fidél ité (a)

Douteux Faible Acceptable Très bien Excellent

Validité (b)

Fidélité (c)

0.65

0.70

0.65 à 0.69 0.70 à 0.79 0.80 à 0.90

0.70 à 0.79 0 .80 à 0 .89 0.90 à 0.95

(a) : Adapté de Barrow et Mc Gee, 1964, p. 42.

(b) : Coefficient de Pearson obtenu entre le test à valider et le test critère

(c) : Coefficient de Pearson obtenu entre deux essais du même test

0.90

0.95

Page 7: Pour une épistémiologie des épreuves d'effort

Épistémologie des épreuves d'effort

Tableau 6 - Facteurs circonstanciels à considérer lors de l' interprétation des données de validité, de fidélité, d'exactitude de tests d'aptitude physique

1 Objectifs immédiats du test et objecti fs de l'évaluation

2 Validité même du test utilisé comme critère de comparaison

3 Degré d'homogénéité des sujets

4 Représentativité et choix aléatoire des sujets

5 Distribution normale des sujets

6 Nombre de sujets

7 Sexe des sujets

8 Age des sujets

9 État d'entraînement des sujets

10 Culture des sujets

tats combinés du 12 min de Cooper et du test Astrand-Ryhming sur ergocy­cle). Dans ce cas, la statistique traite ces mesures combinées comme un tout pour les mettre en corrélation avec le test retenu comme critère. Statistiquement, il est alors question du coefficient de corrélation multi­p le. L'interprétation de la corrélation multiple se fait de la même façon que pour la corrélation simple (tableaux 5 et 6).

Corrélation partielle

Il existe une autre variable statistique utile à connaître pour le spécialiste en évaluation: il s'agit de la corrélation partielle. Celle-ci exprime la contri­bution partielle d'un facteur ou d'une mesure (ex : plis cutanés 1 ou EMG du psoas) en éliminant l'influence des autres (ex : autres plis cutanés ou EMG du rectus abdomi­nis) pour prédire la mesure critère (ex : pourcentage de graisse ou endu­rance des fléchisseurs du tronc). Ainsi, si la corrélation partielle d'un pli cutané est faible, on éliminera cette mesure pour prédire le pourcen­tage de graisse. Dans le cas des redressements assis, si la corrélation partielle du psoas est faible et celle des abdominaux élevée, on pourra dire que cette forme de redressements assis est valide pour l'endurance des abdominaux.

Corrélation fallacieuse

Il arrive parfois que des corrélations élevées soient obtenues entre deux variables (test critère et nouveau test) sans que pour autant il soit permis de prédire l'un par l 'autre. Ceci se pré­sente surtout à l'emploi de la corréla­tion simple. Ainsi, par exemple, le

vo2 en litres par minute est en corré­la tion élevée avec la taille des indivi­dus (corrélation simple) et il en est de même entre le vo2 max et le poids des individus. Les connaissances actuelles indiquent qu'il est tout à fait logique que l ' indi­vidu ayant la plus grande masse mus­culaire, donc l' individu le plus lourd, soit celui qui ait le vo2 max le plus élevé. D'autre part, ce n 'est que secondairement et indirect ement qu'il arrive que l ' individu le plus lourd soit aussi le plus grand, et que le vo2 max démontre une certaine relation avec la taille des individus. En fait, la corrélation entre Je V02 max et le poids d'individus de même taille demeure élevée alors que celle qui caractérise le vo2 max et la taille d'individus de même poids devient faible. Statistiquement, c 'est ce que fait l 'indice de corrélation partielle. Ce coefficient est donc ut il isé lorsqu'on anticipe l'influence simul­tanée de plusieurs facteurs sur un autre. Cette anticipation n 'est pas toujours possible de sorte que le coef­ficient de corrélation simple, alors utilisé, s'avère parfois fallacieuse­ment élevé. Le sens commun peut souvent sup­pléer là où, pour diverses raisons, les indices statistiques, supposés plus objectifs, éveillent des doutes. Par exemple, mesurer la flexibilité lors de l 'extension du tronc en mesurant la hauteur entre le sol et le menton du sujet mesure simultanément la flexi­bilité du sujet, la force de ses dorsaux ainsi que la grandeur de ses segments. Il n 'est pas surprenant de constater que certains individus peu flexibles apparaissent comme «flexibles» ...

67

Validité interne et validité externe

Lorsque Cooper en 1968 valida son test de course de 12 min, il mit en cor­rélation la performance de ce test (vitesse moyenne maintenue pendant 12 minutes) et le vo2 max déterminé directement sur tapis roulant. Il s'agissait de la validité interne de ce test. Cooper établit également une régression ou équation mathémati­que qui permettait de prédire le vo2 max à partir de la performance au test de course de 12 min. La validité externe consiste à vérifier si les mêmes résultats (coefficient de corré­lation et équation de prédiction) seraient obtenus si 1 'étude était reprise une autre fois sur un échantil­lon différent et, à plus forte raison, sur un échantillon semblable. Ainsi , en général, le test de 12 min donne des corrélations semblables avec le vo2 max d'une étude à l'autre, bien que les corrélations soient moins éle­vées pour les femmes . Cependant, et il est important de le noter, l'équa­tion de régression originale, établie par Cooper pour des soldats, n'est pas du tout valide pour les enfants ou les gens du 3• âge pour prédire Je vo2 max.

Toujours à ce sujet, le spécialiste en évaluation devrait savoir que les méthodes indirectes de détermination du pourcentage de graisse (par exem­ple méthodes de plis cutanés) souf­frent d'un manque de validité externe et ce, même pour des populations ou échantillons semblables à ceux utili­sés dans les études originales. C 'est d'ailleurs la raison pour laquelle cer­tains préfèrent ne retenir que les plis cutanés eux-mêmes comme indice du pourcentage de graisse, sans essayer de calculer ou prédire celui-ci.

L'usage de la mauvaise équation de régression entraîne donc une erreur systématique . Si la validité externe est fonction de l'erreur systématique, la validité interne, quant à elle, dépend davantage de l'erreur aléa­toire.

0 FIDÉLITÉ (stabilité- objectivité- «reliability»)

Concept

Un test est fidèle lorsque, exécuté à deux occasions, il donne les mêmes

Page 8: Pour une épistémiologie des épreuves d'effort

68

résultats. C'est ainsi qu'on parle de constance ou de stabilité dans la mesure. Il peut aussi s'agir de cons­tance non pas dans le temps, mais entre deux appareils supposés identi­ques ou entre deux administrateurs du test. Dans ce dernier cas, on parle volontiers de l'objectivité du test.

Un test peut être fidèle (mêmes résul­tats) sans pour autant être valide ou exact. Ainsi, le test de préhension est fidèle mais non valide pour mesurer le V02 max. Plus subtilement, une balance peut être fidèle (mêmes résul­tats) sans pour autant être valide ou exacte pour mesurer le poids si les deux mesures identiques se trompent systématiquement de quelques kilo­grammes en trop.

Un test qui n 'est pas fidèle ne peut, par contre, être valide car il donne tantôt tel résultat (ex : FC sous-max = 140 bpm) et tantôt tel autre résul­tat (ex : FC sous-max = 150 bpm) de sorte qu'un vo2 max différent sera prédit à chaque occasion, affectant donc directement la validité interne du test. L'exactitude du test ou 1 'erreur aléatoire (cette fois) affecte donc et la fidélité et la validité interne d'un test.

Les indices statistiques de fidélité

On ne peut juger la fidélité d'un test sur un seul sujet. Comme indice plus objectif, on se sert souvent du coeffi­cient de corrélation entre les résultats du même test exécuté à deux occa­sions différentes entre les résultats obtenus par deux appareils ou admi­nistrateurs différents. Ces coeffi­cients (corrélation simple de Pearson) sont interprétés de la même façon que ceux visant à établir la validité interne d 'un test. Cependant, comme il s'agit du même test, il est normal de s'attendre à des coefficients de corré­lation plus élevés (tableau 5). Le spé­cialiste en évaluation ne doit absolu­ment pas commettre ici de confusion. En effet, si c'est bien la même for­mule mathématique qui est utilisée pour démontrer la corrélation de fidélité et de validité, ce sont cepen­dant deux paires de données différen­tes qui sont mises en corrélation pour établir respectivement la fidélité et la validité d'un test. Ainsi, pour la fidé­lité, il s'agit d'un coefficient entre un

Travaux et Recherches n o 71 Spécial Évaluation

test-retest ou entre la même mesure obtenue à deux occasions différentes, alors que, pour la validité, le coeffi­cient est obtenu entre deux tests ou deux mesures différentes. De plus, 1 'interprétation du coefficient est aussi différente pour la fidélité et la validité (tableau 5). Ainsi, un coeffi­cient de 0.85, excellent comme indice de validité, n'est considéré qu 'accep­table comme indice de fidélité . La statistique n'est pas tout, le spécia­liste doit aussi tenir compte des fac­teurs circonstanciels entourant la détermination du coefficient de fidé­lité d'un test. Ces facteurs sont les mêmes que pour la validité (tableau 6).

Le coefficient de corrélation ne suffit pas cependant pour dire qu'un test est fidèle. En effet, il est possible d'avoir une corrélation parfaite sans pour autant que les résultats soient identiques. C'est le cas, par exemple, de la balance dont le point zéro aurait été déréglé lors du deuxième essai. Il est donc utile de faire un test de diffé­rence entre les moyennes des deux essais. Ceci doit être fait en plus du test de corrélation, car le fait que les moyennes soient semblables ne suffit pas non plus pour dire que le test est fidèle. Ainsi , par exemple dans le cas d'un test non fidèle, il est possible que la moitié des individus ait obtenu un score plus élevé au deuxième essai, et moins élevé pour l'autre moitié, de sorte que la moyenne de tous les indi­vidus paraît semblable pour les deux essais. En conséquence, la fidélité d'un test doit être vérifiée au moyen du coefficient de corrélation et d'un test comparant les moyennes . Au lieu de comparer les moyennes, il est aussi valide de regarder la régression entre les deux essais : celle-ci ne devrait pas être différente de la ligne d'identité, c'est-à-dire la droite de 45 o passant par 1 'origine des axes x et y.

Fidélité interne et externe

Dans la plupart des cas, il est ques­tion de fidélité externe, c'est-à-dire que la source de variations ou d'erreurs aléatoires est extérieure au sujet lui-même et dépend plutôt du test, de l 'appareil de mesure ou de l'administrateur lui-même. Dans ces cas, et lorsque la variation est grande, il est coutumier de prendre

plusieurs mesures et de retenir la moyenne pour améliorer la fidélité du test. Cela est parfois possible (ampl itude articulaire, plis cutanés ... ) mais pas toujours (V02 max, endurance musculaire ... ). En faisant la moyenne des essais, il faut exclure les valeurs suspectes (exagéré­ment faibles ou élevées), surtout si on connaît l'origine de leur remise en question. Dans certains cas, la varia­tion provient de l'individu . Le test de préhension est un exemple type. Le dynamomètre est très fidèle. Suspen­dez cinq fois un poids à la poignée et vous obtiendrez cinq fois le même score. Cependant, le test de préhen­sion ne donne pas cinq fois les mêmes résultats . Autrement dit, c'est l'indi­vidu lui-même qui varie physiologi­quement et n'arrive pas toujours à reproduire sa force maximale. Dans ce cas, et si l 'on ne doute pas de la fidélité de 1 'appareil, le meilleur score constitue 1 'indice le plus représentatif de la force maximale de l'individu. Après tout, l'individu a bel et bien

· réussi à développer cette tension et c'est elle, et non la moyenne des essais, qui doit être retenue.

Exactitude et précision

L'exactitude ou la justesse d'un test fait référence à la grandeur de l'erreur de la mesure par rapport à la valeur vraie. Il existe deux types d'erreurs, l'erreur systématique et l'erreur a léatoire, chacune étant reliée au concept de validité externe (erreur systématique) et de fidélité et de validité interne (erreur aléatoire).

L'erreur aléatoire est l'erreur la plus à craindre car elle est rarement identi­fiable et contrôlable lors d'un test à essai unique. Faire plusieurs essais lorsque c'est possible et utiliser la moyenne peut réduire l'erreur aléa­toire. L'erreur aléatoire moyenne peut être connue (par exemple ± 5 OJo), mais pour une mesure don­née 1 'erreur peut être au-dessus ou au -dessous de 5 OJo .

L'erreur systématique quant à elle est facilement corrigible même si on n'en connaît pas la source. Il importe tou­tefois de connaître cette erreur systé­matique (ex : retrancher 10 kg d'une balance qui surestime ·1e poids de 10 kg).

Page 9: Pour une épistémiologie des épreuves d'effort

Épistémologie des épreuves d'effort

Cette différence entre erreur aléatoire et systématique concerne les moyen­nes ou l ' individu moyen. Sur une base individuelle, une erreur «aléa­toire» peut prendre un caractère systématique. Ainsi, un test sous­maximal peut tantôt sous-estimer un sujet, tantôt surestimer un autre sujet, de sorte qu'en moyenne il n'y ait pas d'erreur systématique mais seulement une erreur aléatoire. Indi­viduellement, cependant, le sujet qui a été sous-estimé peut l'être d'une façon systématique, alors qu'un autre sera systématiquement sures­timé. Il est possible que, même indi­viduellement, il s'agissent d'erreurs aléatoires . Les di fférentes possibilités existent toutes dans la réalité, et le spécialiste en évaluation se doit d'être au courant pour interpréter correcte­ment les résultats d'un sujet, surtout lorsqu 'il est en présence de résultats suspects ou inattendus.

La précision ou la sensibilité d'une mesure est indiquée par l'unité rete­nue. Par exemple, une balance mesu­rant le poids au mg est plus précise que celle se rapportant au kg. A la rigueur, une mesure relativement imprécise affectera la fidélité et la validité d'un test ou d'une mesure. D'autre part, rien ne sert d'avoir un test ou un appareil trop précis (ex : ± 1 mg) si leur erreur aléatoire est plus grande (ex : ± 1 g).

Si plusieurs variables sont utilisées pour en prédire une autre, la variable la moins précise ou la moins fidèle limitera la précision et la validité de celle qui sera prédite, un peu à l'exemple d 'une chaîne dans laquelle la résistance est limitée par le chaînon le plus faible .

0 NORMES

Utilité

Les normes sont utilisées pour situer les individus par rapport aux autres. Ces «autres » peuvent représenter la population générale ou certains sous­groupes d ' individus (ex :élite de dif­férentes disciplines sportives).

Moyenne et écart-type

La norme la plus simple est la moyenne du groupe. Ainsi, un sujet se retrouvera-t-il près ou loin de la

moyenne. Mais, justement, que veut dire «près» ou «loin » ? Si la moyenne du vo2 max des hommes de 30-39 ans es t de 35 ml02 .kg - l min - 1, la valeur 40 doit-elle être con­sidérée comme proche ou éloignée de la moyenne ? En fait, cela se mesure et dépend de la façon dont les sujets se répart issent autour de la moyenne. L'écart-type constitue cet indice de répartition autour de la moyenne. Ainsi , si l ' écart-type est de 5 ml02 .kg - 1min - 1, cela veut dire qu'en moyenne, les individus se situent entre ± 5 ml. kg - 1 min - 1 de part et d ' autre de la moyenne. Dans ce cas particulier, l' individu qui a un vo2 max de 40 ml. kg - 1. min - 1 est donc près de la moyenne. Pourtant, si l 'écart-type avait été de ± 2 ml. kg - 1. min - 1, ce même score eût été considéré comme nettement au­dessus de la moyenne. Le spécialiste en évaluation doit donc prêter atten­tion autant à l'écart-type qu'à la moyenne et savoir qu 'en général 68 OJo des gens se situent entre ± 1 écart-type de la moyenne, 95 OJo entre + 2 écarts-types et 99 OJo entre ± 3 écarts-types.

Normes centiles

Une autre façon de décrire la moyenne d'une population et sa dis­tribution autour de la moyenne est de rapporter les différents centiles et les scores correspondants. La moyenne correspond généralement au so• cen­tile, c'est-à-dire qu'il y a 50 OJo des individus au-dessus et au-dessous de la moyenne . Aussi, si la catégorie ou classe «faible» est située entre le 20• et le 40• centile, cela veut dire qu'il y a 20 OJo des individus situés dans cette classe, 20 OJo des individus au-dessous et 60 OJo au-dessus. Ainsi, les centiles permettent-ils de situer quantitative­ment un individu par rapport au groupe. D'autre part, l'association d'un qua litatif (ex : faible) à une classe centile est un acte de jugement purement arbitraire. A ce titre, le spécialiste en évaluation devrait atta­cher plus d'importance aux centiles d'une catégorie qu'au qualificatif qui lui est attribué. En effet, les normes centiles ne sont pas toujours faites de la même façon. Par exemple , pour certaines normes , il y aura cinq clas­ses comprenant chacune 20 OJo des

69

individus. D'autres, préféreront ren­dre les classes extrêmes moins acces­sibles , plus rares pour des raisons de préférence ou de motivation . Ainsi est-il utile de savoir que les normes scandinaves (Astrand, 1960), utilisées dans plusieurs pays pour classifier les individus , sont constituées de la manière suivante :

l rC'\. l,u blc l ,ublc \llO) Cil

< l'nllk ' IU .2H 2. ZCJ I ~ . S7 IS SK ~4 I l ~4. 14 -Y7. 1 2 IJ? . Il· IOO

22K I)S7 f\.11)0 IS S7

Si , dans l'exemple précédent, chaque classe comptait 20 OJo d ' individus, la plupart se situent ici dans la catégorie moyenne, a lors que seules de rares exceptions sont estimées «Très fai­ble» ou «Excellent » . Pour illustrer le côté arbitraire de ce choix, souli­gnons encore l'exemple des normes canadiennes du Physitest où 2.5.-25 .-45.-25 et 2,5 OJo des individus compo­sent chacune des catégories retenues. On comprendra maintenant que de simples classifications subjectives, outre le fait d'être peu informatives, mènent à toutes sortes d'abus . Ainsi, et sans raison apparente, le même indice - celui du test de Ruffier -est affecté de classifications fort diffé­rentes et colorées :

Classi rica1ion

Indice Rurrier Scherrcr Flandrois ~ rolL Ruffier (1 955) (1967) (1965)

0 e1 moins Cœur Cœur

Supérieur athl é1ique ath lé1iquc

o. 1·5 Cœur Cœur fon

robus1c moyen fort

5. 1-10 Cœur Cœur

Don médioc re moyen-bon

Cœur Cœur 10. 1- 15 dangereusemen1 insurfisa nl i\·1oycn

faible moyen

Cœur 15. 1-20 insuflisam Faible

faible

Distribution normale

L'in formation (tableau 8) qui découle des concepts de moyenne et d'écart-type d 'une part et de centiles d 'autre part (tels que dérivés par la coteZ), perd tout son sens si la popu­lation n'est pas distribuée «normale­ment » autour de la moyenne. Ceci implique quelques postulats de base :

- autant de suj ets sont situés de part et d 'autre de la moyenne (indice de s ymétrie ou d'asymétrie, «skewness »);

Page 10: Pour une épistémiologie des épreuves d'effort

70

- la distribution doit être unimo­dale, c'est-à-dire composée d'une seule population distincte. S'il fallait que les données sur la taille des hom­mes et des femmes soient traitées ensemble, la distribution obtenue serait bi-modale et les normes centiles qui en découleraient ou même l'écart­type calculé n'auraient plus aucun sens logique;

- lorsque la distribution des sujets autour de la moyenne est dite «nor­male», la courbe prend l'allure d'une cloche telle que 68 % des sujets se retrouvent entre les valeurs situées à l'écart-type au-dessous et a!..l-dessus de la moyenne. Dans le cas d'une clo­che trop aplatie (indice d'aplatisse­ment, « kustosis ») ou trop aiguë , c'est respectivement moins de 68 OJo et plus de 68 OJo qui sont situés entre ces mêmes valeurs.

En général, les qualités physiques sont légèrement asymétriques , sans que cela affecte trop leur distribution centile. Mais il ne faut pas être sur­pris du fait que certains individus dépassent le lOO• centile ou , au con­traire, que le o• centile corresponde à des valeurs parfois impossibles car trop faibles.

Autres caractéristiques circonstan­cielles affectant la validité des normes

Outre la distribution qui doit être normale, la population concernée par les normes doit être bien décrite, 1 'échantillon pris pour les constituer doit être bien représentatif qualitati­vement (échantillonnage aléatoire) et quantitativemenT (nombre suffisant de sujets) . Il existe des règles statisti­ques pour déterminer la grandeur minimale d 'un échantillon représen­tatif d'une population pour une marge d'erreur considérée comme acceptable. Sans entrer dans les déta ils, retenons que :

- la grandeur de l 'échantillon dépend de la grandeur de la popula­tion et de l'exactitude désirée pour ces normes; -comme guide grossier, il est possi­ble de se servir des données suivantes pour la grandeur de l'échantillon : 111 o• de la population pour une population de 10 000,

Tra vaux et Recherches n ° 71 Spécial Évaluation

1/4 de la population pour une popu­lation de 1 000, 1/3 de la population pour une popu­lation de 500, (Bouchard et coll. , 1972); - un échantillon de 40 ou moins est fort douteux à moins de représenter la popula tion totale.

Enfin, il es t aussi important de con­naître les tests (niveau de validité, fidélité . .. ) utilisés pour établir ces normes.

Caractéristiques des normes- résumé

Le tableau 7 résume les principales caractéristiques qui devraient être connues du spécialiste en évaluation voulant utiliser un ensemble de nor­mes.

Autres types de normes

Hormis les normes centiles qui sont les plus utilisées, d'autres échelles le sont aussi (leurs équivalences centiles sont réunies dans le tableau 8).

Catégories d 'épreuves

Dans les chapitres précédents, il fut question des objectifs de l'évaluation (tableau 1), de l'éthique (tableau 2), de la sécurité (tableau 4), et des caractéristiques des épreuves telles la

validité, la fidéli té et les normes. Tous ces aspects influent directement sur le choix d'une épreuve, mais, d'une manière plus immédiate, celle­ci peut auss i, par feed-back, infléchir le choix que l'évaluateur ou l'évalué est amené à faire. Comme aucune épreuve n 'est parfaite, le choix devrait être fixé en fonction des fac­teurs jugés prioritaires. D'autre part, si les épreuves de ter­rain effectuées en groupe étaient aussi valides, fidèles et bien contrô­lées que celles conduites en labora­toire, ces dernières n'auraient plus leur raison d'être. Inversement, si les épreuves individuelles de laboratoire étaient humainement, matérielle­ment, temporellement et financière­ment aussi peu coûteuses que celles de terrain , ces dernières pourraient être abandonnées .

C'est donc l'analyse initiale de la situation qui doit induire le choix le mieux adapté aux besoins précisé­ment identifiés. Il ne faut pas prendre pour acquis le fait que les tests les plus sophistiqués répondent le mieux à ces besoins, et, à ce propos, il faut dissocier le point de vue de l'évalué et celui de l 'évaluateur. S'il s'agit de l 'évalué, les épreuves doivent être les plus attrayantes et les plus simples possibles pour en faciliter la compré-

Tableau 7 - Facteurs à considérer dans l'élaboration ou le choix de normes

Description qualitative de la population concernée (âge, sexe, sédentarité, sportivité, origine géographique et culturelle ... )

2 Représentativité de l'échantillon - Qualitative (échantillonnage aléatoire) - Quantitative (nombre de sujets par catégories d'âge et de sexe et non pas seulement

au total)

3 Statistiques descriptives - Moyenne - Écart-type - Nombre de sujets - Nombre de modes -Asymétrie - Aplatissement

4 Catégories centiles - Précision des scores correspondants - Pas de recoupement entre les catégories - Catégories qualitatives correspondantes

5 Tests utilisés - Description - Validité - Fidélité

6 Référence source

Page 11: Pour une épistémiologie des épreuves d'effort

Tableau 8- N o r mes (Adapté de Barrow et Mc G ee, 1964)

A - Équ ivalences pour sept échelles normatives

Centile T Sigma 6 Stanine Hull z c Centi le T Sigma 6 Stanine Hull z c 99.9 80 100 3 62 53 9<J .75 7H 97 90 61 52.5 9<J .5 76 94 60 52.5 9<J.25 75 92 9 85 10 99.0 74 91 59 52 53

58 52 9K .5 72 87 57 52 <JR 70 84 80 2 9 56 51.5 97 69 82 55 51.5 96 6H 80 8 75 95 67 79 54 51 52

53 51 94 66 77 52 50.5 93 65 75 8 51 50 92 64 74 70 50 50 50 5 50 0 5 91 63 72 90 62 .5 7 49 50

48 49.5 lN 62 70 47 49 88 61.5 46 49 48 87 61 69 65 45 48.5 H6 60.5 85 60 44 48

43 48 47 84 60 67 1 7 42 47.5 83 59.5 41 47.5 82 59 40 47 81 59 65 80 58.5 39 47 45

38 46.5 79 58 37 46.5 78 58 63 36 46 43 45 77 57.5 35 46 76 57 62 60 75 56.5 34 45.5

33 45.5 74 56 60 6 32 45 42 4 73 56 31 45 72 55.5 30 44.5 71 55

29 44. 5 70 55 59 6 40 ' 28 44

69 54.5 27 44 68 54.5 26 43.5 4 67 54 57 55 25 43 38 40 66 54

24 43 65 53.5 23 42.5

64 53.5 22 42 36 63 53 55 21 42

Centile T Sigma 6 Stani ne Hu ll z c 20 41.5

19 41 35 18 41 17 40.5 16 40 15 40 33 - 1 3

14 39 32 35 13 38 .5 12 38 30 I l 37.5 3 10 37 28

9 36 27 30 8 35 25 2 7 34 24 6 33 22 5 32 20 25

2 31 19 2 3 30 17 - 2 1 4 29 15 20 1.5 28 14 1.0 26 10

.75 25 9 1 15 0

.5 24 7

.25 22 3 10 1 20 0 - 3

8 - Caractéristiques des principales échelles norm a tives

Échelle Étendue Mesure centrale

1. Centile 0 à 100 50 2. Échelle Sigma 6 0 à 100 50 3. Hull approx. 10 à 90 50 4. Échelle T approx. 20 à 80 50 5. Échelle C 0 à 10 5 6. Stanine 1 à 9 5 7. CoteZ - 3 à +3 0

-------

~-<;;·

~-~

~ ;;·

~ ~-~ <:: ~ 1:<. ~~

§ ~

~

-.1

Page 12: Pour une épistémiologie des épreuves d'effort

72

BIBLIOGRAPHIE

Amcrican College of Sports Medicine.- Directives sur les épreuves d'effort progressif et la prescrip­tion d'exercice. Montréal : APAPQ, 1976. Association des professionnels de l 'activité physi­que du Québec.- Le rapport ct les recommanda­tions du Groupe de travail sur les programmes de conditionnement physique pour adultes. Mon­tréal : APAPQ, 1976.

ASTRAND (1. ).- Aerobic work capacity in men and women with special reference to age. Acta Physiol. Scand., 1960, 49, supp . 169.

BAlLE Y (D.A.), S HEPHARD (R.J.), MlR­WARLD (R.L .).- Validation of a self­administrated home test of cardiorespiratory fi t­ness. Can. J. Appt. Spt. Sei., 1976, l , n • 1, pp. 67-78.

BARROW (H .M.), MC GEE (R.).- A practical approach to measurement in physical education . Philadelphie : Lea & Febiger, 1964.

BOUC HARD (C.), GODBOUT (P.), ASSELI N (R .), MONDOR (J .C.) .- Un modèle pour usage dans la construction ou la réfection de tests dans le domaine de la valeur physique. Kinanthropolo­gie, 1972, 4, n• 4, pp. 225-3 16.

BOUC HARD (C. ), GODBOUT (P.), MONDOR (J.C.), LARUE (M.), MJCHAUD (G.), BOU­LA Y (M .).- Un inventaire des moyens disponibles pour évaluer les facteurs de la valeur physique avec une application au cadre scolaire . Kinan­thropologie, 1972, 4, n• 3, pp. 203-221.

BOUCHARD (C.) et coll.- Groupe d'étude de Kino-Québec sur Je système de quantification de la dépense érergétique (GSQ) - Rapport final. Ki no-Québec . Québec : Mini<rère du Loisir. de la Chasse et de la Pêche, 1979.

C HISHOLM (D.M .), COLLIS (M.L.), KULAK (L.L.), DAVENPORT (W.), GRUBER (N.).­Physical activity readiness. Brith. Col. Med. J. , 1975, 17, n• JI, pp. 315-378 .

CUMMING (G .R.).- Excrcise ECG tests prior to exercise in weil persans. Can. J. Appl. Spt. Sei., 1976, 1, n • 3, pp. 205-209.

FLANDROI S (R . ), PUCINELLI (R . ), LACOUR (J.R.), HEBRAL (D.).- Étude expéri­mentale de l'aptitude physique sur une popula­tion de jeunes gens de 20 ans et considérations sur la valeur de certaines épreuves fonctionnelles. Bull. Soc. Med. Militaire, 1965, 8, pp. 435-458.

LADOUCEUR (R.), BEGIN (G.). - Protocoles de recherche ens sciences appliquées et fonda­mentales . St-Hyacinthc : Ediscrn, 1980.

LÉGER (L.).- L'act ivité physique chez l'adulte bien portan t. Risques potentiels et précautions à prendre. Le Médecin du Québec, 1980, 15, n• 6, pp. 54-55, 57-60, 62.

ROAF (P.).- La responsabilité judiciaire. La revue de l 'entraîneur, 1981, 4, n• 19, pp. 3-6, 22-23 .

RUFFIER (J.E.).- L'indice de résistance du cœur. Med. Educ. Phys. Sport, 1955, 29, n • 1, pp. 38-41.

SCHERRER (J .) .- Physiologie du travail (tome 1). Paris : Masson et Cie, 1967.

SHEPHARD (R.J.). - Do risks of exercise justify co stly caution? The Physician and Sportsmedi­cine, 1977, 5, p. 2, pp. 58-65.

STEWART (G.) , KULAK (L.), CH!SHOLM (D.), LAUZON (R.), COLL!S (M.).- Aptitude à l 'activité physique. Plan d'auto-examen pour adultes, préalable aux exercices. Ottawa : Santé ct bien-être social, 1979

Travaux et Recherches n ° 7 1 Spécial Évaluation

hension, la motivation et la validi té des résultats. Pour 1 'évaluateur com­pétent, cela n'a pas, dans une cer­taine mesure, trop d'importance et celui-ci n'a aucune raison de choisir la facilité.

La classification des différents types de tests identifiés, comme l'indique le tableau 9, présente un sens spécifique selon 1 'épreuve considérée ou la qua­lité physique mesurée. Cependant, cette classification ne prétend pas être parfaitement pertinente et l'énu­mération qui en est faite n'est pas, loin s'en faut , exhaustive et nécessite d'être explicitée.

Type d'ergomètre ou de mouvement

Le type d'ergomètre, l'activité ou le mouvement peuvent influer sur le choix de 1 'épreuve. Aussi est-i l indis­pensable d'identifier avec précision ce qui doit être évalué, et relat iviser les résultats en fonction de 1 'ergomè­tre utilisé. Par exemple, dans tel mouvement quelles sont les articula­tions dont l'amplitude doit être mesurée? Pour l'appréciation de la force ou de l'endurance musculaire, quels groupes musculaires intervien­nent? S'agit-il d ' un effort statique ou dynamique? De même pour la puis­sance maximale aérobie (2).

Épreuves de terrain ou de laboratoire

Une distinction est habituellement faite entre épreuves de terrain («field tests») et épreuves de labora­toire, celles-ci permettant des condi­tions de mesures généralement plus sophistiquées, rigoureuses, et à ris­ques contrôlés. Cependant, ces con­ditions ne sont pas 1 'exclusivité du laboratoire; le spécialiste en évalua­tion doit être aussi capable de les requérir pour conduire une épreuve de terrain dans les mêmes conditions. Plus que le lieu, ce sont les conditions qui déterminent s'i l s'agit, selon la définition classique, d'une épreuve de laboratoire ou de terrain.

Épreuv es maximales ou sous­maximales

Sont surtout concernées ici les épreu­ves de capacité aérobie (3) pour les­quelles il existe une possibilité théori­que de prédire le vo2 max des sujets

sans qu'il soit nécessaire de leur imposer un effort maximal. Plus que la question de risques qui sont mini­mes (même pour des efforts maxi­maux), la difficulté physique de l'épreuve et ses séquelles psychiques et même physiques (courbatures mus­culaires) limitent l'usage des épreuves maximales. Ces problèmes peuvent être diminués par un entraînement préalable, l'usage d'épreuves pro­gressives, un échauffement et des éti­rements musculaires initiaux et par des épreuves d'endurance aérobie ou musculaire à intensité fixe plutôt qu'à durée fixe.

Le fait qu'il n'existe pas d'épreuves sous-maxima les d'évaluation de l'amplitude articulaire, de la force et de l'endurance musculaire explique que certaines de ces épreuves sont parfois écartées car elles ne convien­nent pas à tous les sujets. Le pro­blème ne se pose pas pour les mesures dites «passives» comme 1 'estimation du pourcentage de graisse à partir de la mesure des plis cutanés.

Épreuves directes ou indirectes

Une épreuve est considérée comme directe lorsque la mesure qu'elle induit est obtenue directement au cours de son déroulement et non pré­dite par une ou plusieurs autres. D'une façon générale, plus une mesure est directe, plus elle est valide. La consommation maximale d'oxygène peut être mesurée directe­ment au cours d'une épreuve maxi­male ou prédite (indirectement) à partir de valeurs de fréquence cardia­que, de coût énergétique (exprimé en 1 d'0 2min - 1 o u en ml d '02min- 1 kg - 1 ), ou/ et de puissance obtenus au cours d'une épreuve sous­maximale. Souvent, l'utilisation du concept «direct» est même restreint à la mesure directe des gaz expirés (débit et fractions d'02 et C02), àe sorte que l 'on précise la nature de l'épreuve en la définissant comme maximale directe ou indirecte et sous­maximale directe ou indirecte. L'évaluation de l'amplitude d'une ou de plusieurs articulations (amplitude

(2) Cf. article : CAZORLA (G.), LÉGER (L.), MARINI (J.F.). - Les épreuves d'effort en physiologie- Il. Épreu ves ct mesures du potentiel aérobic.- Dans le présent document. (3) Op.cit.

Page 13: Pour une épistémiologie des épreuves d'effort

Épistémologie des épreuves d'effort

articulaire du rachis) et des ceintures peut fournir un autre type d'exemple de mesure indirecte : pour apprécier l'amplitude d'une articulation (encore improprement appelée sou­plesse articulaire), c'est l'angle du mouvement qui devrait être mesuré, alors que dans la plupart des épreu­ves ce sont les déplacements linéaires qui servent de critères.

Épreuve auto-administrable

Peuvent être considérées comme épreuves auto-administrables toutes celles qui sont suffisamment simples pour que le profane puisse les utiliser lui-même et pour lui-même sans qu'elles ne cèdent en rien , ni à la vali­dité des données recueillies, ni à la sécurité qu'elles requièrent.

Type d'unité de mesure

Comme plusieurs épreuves peuvent mesurer la même qualité physique, elles devraient théoriquement donner le même résultat. Or, pour qu'il y ait pleine compatibilité, il faudrait que la même unité de mesure soit utilisée, ce qui n'est pas toujours le cas. Ainsi, pour les épreuves cardio-vasculaires ou de capacité aérobie, les résultats expriment parfois une puissance de travail à 170 pulsations par minute exprimée en watts, parfois une simple fréquence cardiaque (version origi­nale du Physitest canadien), parfois un index de récupération complexe utilisant plusieurs rriesures de fré­quence cardiaque (Ruffier) et même la pression systolique (Systolic­Tension-Time), et enfin, parfois, le vo2 max exprimé en ml.kg - l.min. - 1 ou en 1. min - I. La comparaison des résultats obtenus à partir de ces différentes épreuves devient alors pratiquement impossi­ble. Choisir 1 'unité de mesure la plus universelle possible offrirait au con­traire d'indéniables avantages.

Tableau 9 - Facteurs • à considérer dans le choix d'une épreuve

OBJECTIFS DE L'ÉVALUATION

Orienter les individus selon leurs points forts et faibles Améliorer les individus en fonction de leur capacité Améliorer les programmes de conditionnement physique Sélectionner, classifier, certifier les individus et la collectivité Prédire des performances immédiates ou futures Promouvoir l'activité physique Motiver Former des spécialistes en évaluation Vérifier des hypothèses de recherche et produire des études normatives Faire un diagnostic

ÉTHIQUE ET SÉCURITÉ

Éviter les épreuves : - portant atteinte au bien-être de l'individu - dont les risques sont inconnus -compromettant la mise en application des procédures d'urgence et de prévention

CARACTÉRISTIQUES DES ÉPREUVES

Rechercher les épreuves : - les plus valides - les plus fidèles - les plus exactes - les plus précises - présentant des normes adéquates - les plus discriminantes - optimales en termes de difficulté

TYPES D'ÉPREUVES••

Considérer : - le nombre d'individus évalués, épreuves individuelles ou collectives - la nature de l 'activité ou de l'ergomètre : tapis roulant, bicyclette ergométrique, banc,

nage ... - la rigueur et le contrôle de réalisation : épreuves de maison, de terrain ou de laboratoire -l'intensité de l'épreuve ou de la tâche : actif ou passif, sous-maximal ou maximal - si l 'épreuve est progressive ou non - si l'épreuve est directe ou indirecte - la nature de l'unité de mesure; ex : CT170, V02 max , Index quelconque .. . - si l'épreuve est auto-administrable ou non - les coOts humains, matériels et financiers des épreuves

• Aucune épreuve n'est positive pour chacun des facteurs. L'évaluateur doit fixer ·la priorité accordée à chacun de ceux-ci.

•• Facteurs spécifiques aux qualités physiques mesurées.

73

Le choix d'une épreuve d'évaluation est un moment important qui requiert toute 1 'attention du spécia­liste. Afin d'en faciliter la décision, il

peut se référer au tableau 9 dans lequel sont résumées les principales questions qui président au choix final.