Evaluation en simulation - MEDESIM

02/02/2019

1

Evaluation en simulation

Pr Denis OriotLaboratoire de Simulation, ABS Lab, Poitiers

Le ‘transfert’ à la médecine : 1984

• Prof. David Gaba, Stanford University, San Francisco

Anesthésiste-réanimateur

« Simulation is a technique, not a technology! »

Trois notions

1. L’évaluation est un outil indispensable à la pédagogie

2. Pédagogie = évaluation

3. « Medicine is the only high risk activity thatdoes not do routine performance assessment » James Gordon, Harvard 2018

Trois types d’évaluation

Simulation

Apprenant

Modèle

Validation d’un processus pédagogique

(Kirkpatrick)

Validation (testing) d’un modèle pédagogique

Outil d’évaluation

Validation d’une checklist ou d’une échelle

d’évaluation (Downing)


Simulation

Apprenant

Modèle

Validation du processus pédagogique(Kirkpatrick)


Objectifs pédagogiques

1. Identifier les 4 niveaux d’évaluation de la pyramide de Kirkpatrick

2. Imaginer une stratégie utilisant les 4 niveaux d’évaluation de la pyramide de Kirkpatrick

3. Comprendre les intérêts et les difficultés d’évaluation inhérentes à chaque niveau de la pyramide de Kirkpatrick

02/02/2019

2

Caractéristiques (J.M. Chabot 2000)

• Normée : le but est la hiérarchie de classement dans le groupe d’étudiants

• Critériée : le but est la réalisation d’un certains nombre de critères prédéterminés

Caractéristiques (J.M. Chabot 2000)

• Normative : (Sanctionnante) le but final est la note pour obtenir le diplôme

• Formative : le but est d’accélérer une dynamique de formation

Caractéristiques

• Avoir une vision unitaire :‘formation – évaluation’

– Il n’y a pas de formation sans évaluation

– Il n’y a pas d’évaluation sans formation

« Education & assessment are unified »

• Avoir une vision dynamique (Skinner) scénario 1 - débriefing 1; scénario 2 - débriefing 2; scénario 3 - débriefing 3…

McGaghie, IMSH, Los Angeles 2018

Evaluation OF learning

vs

Evaluation FOR learning

« Data is a tool, not a weapon! »

Caractéristiques

Edmondson, 1999

A quoi sert l’évaluation?

Pratique clinique


Pratique clinique

Survenue d’erreursBuilding a Safer Health System

Linda T. Kohn, Janet M. Corrigan, and Molla S. Donaldson, Editors

Committee on Quality of Health Care in AmericaNATIONAL INSTITUTE OF MEDICINE

NATIONAL ACADEMY PRESS 2000Washington, D.C.

“Medical errors exceed the deaths from motor vehicle accidents, as well as deaths due to breast cancer or AIDS.”

To Err Is Human

http://www.abondance.com/Bin/guillotine.gif

http://www.iso02.com/produits/prod/escalier.jpg

02/02/2019

3

Pr David Kolb – 1984

Cleveland University, Ohio

Science de l’éducationApprentissage expérientiel


Pratique clinique

Survenue d’erreurs

Apprentissage

Simulation


Pratique clinique

Survenue d’erreurs

Apprentissage

Simulation

Evaluation

PAS DE SIMULATION SANS EVALUATION

• L’évaluation = validation du processus pédagogique

• Absence d’évaluation activité ludique!

Définition

• « L’évaluation en pédagogie est l’analyse systématique de la qualité de l’enseignement et de l’apprentissage » (MacDougall 2010)

• La qualité des soins dépend de la qualité de l’enseignement (To err is human, 2000)

• L’évaluation de la formation par simulation préfigure de la qualité des soins qui seront prodigués

Contrattacite

Réalisme Apport pédagogique

Outild’évaluation

Que faut-il évaluer?

• Professionnel patient soins

• Apprenant modèle performance

Procédurede testing

02/02/2019

4

Contrat tacite : Fiction contract in SBME

« Contrat tacite entre les apprenants et les instructeurs ensimulation stipulant que, vu les limites d’un modèle, les instructeursferont de leur mieux pour rendre la simulation aussi réelle quepossible et les apprenants se comporteront comme si le scénariosimulé était réel et traiteront le modèle comme s’il était un patienthumain réel ».

Dieckmann P, Gaba D, Rall M. Deepening the theoretical foundationsof patient simulation as social practice. Sim Healthcare 2007;2:183-93

Psychologie expérimentaleCopenhague

Gestes techniques

Respect de l’algorithme

Travail enéquipe

Sûreté dupatient

Que faut-il évaluer?Performance

Evaluation de la performance Learning curve

21

Performance

Temps J’ai vu

Je faisObjectifpédagogique

SIMULATION

Impact de la simulation

Performance en simulation et performance en clinique

Gordon J. Acad Med, 2003

Evaluation théorique et en simulation sont très corrélées à la performance clinique à chaque niveau étudié : étudiants, internes, praticiens

Landrigam NEJM, 2004

Ce que l’on fait en simulation est très corrélé à la pratique clinique

Continuum ‘novice’ ‘expert’

Dreyfus 1986, 2004

< 1 an

1-5 ans

5 ans

5-10 ans

> 10 ans

02/02/2019

5

Champ de l’évaluation

• L’évaluation est un jugement

• On évalue le savoir, le savoir-faire et le savoir-être (Knowledge, Skills, Attitudes)

• Mais jamais les PERSONNES +++

• L’évaluation est circonstanciée +++

Comment évaluer?

1. Avec quels moyens?

2. Pour quels niveaux?Ce n’est pas un moyen unique

qui évalue

un processus d’apprentissage

complexe

Critères de jugement d’une formation médicale

Centré sur l’apprenant

Centré sur le patient

Timing Proche de la formation

A distance de la formation

ConnaissancesKnowledge

Tests par QCM Audit, meilleure pratique

Aptitudes techniques

Skills

Echelle d’évaluation

(observation)

Taux de succès des interventions

Attitudescomportements

Attitudes

Echelle d’évaluation

(observation)

Interview des patients (sortie)

Donald Kirkpatrick

Chercheur en pédagogie1954 : thèse sur : « Evaluation de la formation en entreprise »

Kirkpatrick : une vision dynamiqueEvaluation : 4 niveaux

Degré de satisfaction

Acquis

Changement despratiques

Impactclinique

1

2

3

4

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967

02/02/2019

6

Kirkpatrick Niveaux 1 et 2 Niveau 3 Niveau 4

Science Translational Medicine 2010

Le niveau T4 de McGaghieIMSH, Los Angeles, Jan 2018

T4

Unplanned positive effects, collateral effects, costs

Another target population

Clinic & community

Ascent to the Summit of the CME PyramidRobin Stevenson, Donald E. Moore Jr

JAMA. Published online January 22, 2018. doi:10.1001/jama.2017.19791

Proposed CME Outcomes Pyramid

CME indicates continuing medical education.

Evaluation : 4 niveaux

Degré de satisfaction

Acquis


Impactclinique

1

2

3

4


Kirkpatrick D. 1967

LAB

Les 4 niveaux de Kirkpatrick

• Le niveau 1 est un feedback pour l’instructeur sur la qualité de son intervention pédagogique

• Le niveau 2 est une évaluation précise des acquis lors de l’intervention pédagogique

• Les niveaux 3 et 4 sont pour les chercheurs qui veulent « prouver » au-delà des acquis des apprenants, l’impact de l’apprentissage sur les soins et la santé des patients


Degré de satisfaction1


Kirkpatrick D. 1967

02/02/2019

7

Niveau 1Réalisme satisfaction

MEDICAL®

BostonChildren’sHospital

Boston Children’s Hospital

IMSH, Los Angeles, Jan 2018 IMSH, Los Angeles, Jan 2018

02/02/2019

8

IMSH, Los Angeles, Jan 2018 IMSH, Los Angeles, Jan 2018

TCCS 3 - Simulateur de secourisme en situation de combat

SimLife* ABS Lab is linked to a Body Donation Center

• After selection of a body:

• NG tube; tracheostomy;

• Ligation of brachial A&V;

• Ligation of distal parts of cervical and femoral A&V and cannulation of proximal parts of these vessels

• isolated vascular tree of a trunk cleared from thrombi

• Frozen at -22°C, and rewarmed before simulation

02/02/2019

9

WO2017076717A1

Publié le 11 mai 2017

WIPO - PCT

• Circulation: Injection of artificial blood into arteries (pressure & rate), return by venous cannulas

• Ventilation: Controlled pressure ventilation (rate) to induce movement of the diaphragm

INTERNATIONAL PATENT

(WIPO)

Control device Chirurgie ouverte et laparoscopique

Bariatrique

CoelioscopieCouleur et consistance des organes

Chirurgie cardiaque

PrélèvementsMultiorganes

Typologie de la fidélité en simulation

Rehmann A. Technical Report No. DOT/FAA/CT-TN95/46, 1995Beaubien JM. Qual Saf Health Care 2004;13:i51-6

Le plus important

= scénario

= mannequin

Alessi S. J Computer-based Instruction 1988;40-7

Effet du réalisme sur l’apprentissage initial

http://www.google.fr/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0ahUKEwjVrOXhruLSAhUGXRoKHVmTBSEQjRwIBw&url=http://www.tto.uwc.ac.za/technology-commercialisation-course-lab-market/&psig=AFQjCNFDsidGwR18D2Qc4TIdcL3cYKd3_g&ust=1490005919188978

02/02/2019

10

Les 5 W et 1 H

55

WHO?

WHAT?

WHY?

WHERE?

WHEN?

HOW?

QUI ?

• Les instructeurs de la séance de simulation

Niveau 1

Niveau 1

Réalisme : modèle, environnement, scénario

Intérêt scientifique : scénario, aspect ‘challenging’, difficultés du scénario adaptées au niveau d’apprentissage

Implication : agir comme en clinique

Qualité du débriefing : Ambiance bienveillante ; état d’esprit ‘SIDRA’ Sincere, Innovative, Dedicated, Respectfull, Authentic ; débriefing questionnant; débriefing pertinent (par rapport aux points soulevés)

Satisfaction : globale, inclusion dans un curriculum, recommandation à un collègue

QUOI ? POURQUOI ?

• Intérêt = information pour l’instructeur +++

• Toujours évaluer le niveau 1 +++

• Une réponse positive ne garantit pas un apprentissage, mais une réponse négative compromet toujours l’apprentissage

• Donc, très important d’avoir un haut niveau de satisfaction (viser > 80%)

Niveau 1

OU ?• Au centre de simulation

QUAND ?• A la fin de la séance de simulation

Niveau 1

COMMENT ?Auto-évaluation sous forme de questionnaire rempli par l’apprenant/participant à la fin de la session

• Question ouverte non utilisée

• Question fermée : OUI / NON

• Echelle numérique : entre 0 et 10

• Echelle de Likert : en 3, 5, 7, n classes– Avec questions

– Avec propositions

Niveau 1

02/02/2019

11

Exemples de présentation de questionnaire

• Question fermée :

Etes-vous satisfait de la séance de simulation : OUI/NON

• Echelle numérique :

Quel est votre degré de satisfaction de la séance de simulation? (0=aucun; 10=maximum)

Niveau 1

Exemples de présentation de questionnaire

• Echelle de Likert avec questions :

• Echelle de Likert avec propositions :

Niveau 1

Etes-vous satisfait de la séance de simulation?

Pas du tout

(1)

Plutôt non

(2)

Je ne sais pas

(3)

Plutôt oui

(4)

Absolument

(5)

La séance de simulation était satisfaisante

Je désapprouve fortement (1)

Je désapprouve

(2)

Je ne sais pas

(3)

J’approuve

(4)

J’approuve fortement

(5)

Barsuk, J Grad Med Educ 2012

Expression :Moyennes des scores attribués de 1 à 5 pour chacun des items du questionnaire.

5-point Likert scale;1 = disagree strongly; 5 = agree strongly.

Niveau 1

Sam, Paediatr Child Health 2012

Niveau 1

Expression :Moyennes des scores attribués de 1 à 5 pour chacun des items du questionnaire.

5-point Likert scale;1 = disagree strongly; 5 = agree strongly.

Présentées sous forme de barre-graph en face des items du questionnaire

Expression : pourcentage de réponses dans chaque classe de Likert

Crozier, J Surg Educ 2014

Niveau 1 Niveau 1

Arriaga, Ann Surg 2014

Expression :Pourcentage de participants qui sont d’accord (coté > 4 sur l’échelle de Likert en 5 point). 1 = disagree strongly; 5 = agree strongly) [± IC 95%]

% pour les 3 classes : Surgeons (S), Anesthesiologists (A) et Nurses (N)Valeur de ‘p’ entre les 3 classes (test de Fisher)

02/02/2019

12

Niveau 1 : avant - après Evaluation : 4 niveaux

Acquis2


Kirkpatrick D. 1967

QUI ?

• Les instructeurs de la séance de simulation le plus souvent,

• MAIS beaucoup plus pertinent quand ce sont des observateurs extérieurs formés à l’évaluation (2 observateurs indépendants) RECHERCHE

Niveau 2

QUOI : Les acquis

K – Connaissances : auto et hétéro-évaluation

S – Performance : auto et hétéro-évaluation

A – Comportement : hétéro-évaluation

Confiance en soi : autoévaluation

Niveau 2

POURQUOI ?

• Intérêt = objectif principal de la simulation

• Toujours évaluer le niveau 2 (minimum = auto-Eval)

• Une réponse positive garantit un apprentissage

• Une réponse négative = absence d’apprentissage

Doit faire poser des questions sur les raisons de l’absence d’apprentissage

Niveau 2

OU ?• Au centre de simulation

QUAND ?• Au début de la séance de simulation (quiz du

pré-test quand type 3)

• Pendant la séance de simulation (hétéro-Eval)

• A la fin de la séance de simulation (auto-Eval et parfois quiz du posttest quand type 3)

Niveau 2

02/02/2019

13

Niveau 2

COMMENT ? Auto-évaluation

• Questionnaire à la fin de la session

• « Avez-vous acquis plus de connaissances? »:

– Likert ou échelle 0-10 : but > 50% d’acquis

• « Avez-vous acquis plus de compétence? »:

– Likert ou échelle 0-10 : but > 50% d’acquis

• « Avez-vous acquis plus de confiance en vous?

– Likert ou échelle 0-10 : but > 50% d’acquis???

• Différencier les acquis en termes de procédures, algorithmes, communication

COMMENT ? Hétéro-évaluation

• Evaluation par un tiers – observateur – ou par des instruments adaptés

Niveau 2

Outils d’évaluation utilisés Critères de jugement

K-Connaissances Quiz avec QCM ou QROC Score au test théorique

S-Performancetechnique

Document papier : échelle globale, checklist, échelle d’évaluationChronométrageEvaluation instrumentale : Q-CPR*, Skillguide*

Scores

Minutes, secondes Valeurs concernées

A-Performance comportementale

Document papier : échelle globale, checklist, échelle d’évaluationChronométrage

Scores

Minutes, secondes

K-Connaissances

• QCM (5-10, couvrant le sujet) ou un cas clinique + QROC • Après ou avant/après la session = pré-test et posttest• Etabli par plusieurs experts, aucune équivoque• Posttest : mêmes QCM et réponses qu’au pré-test, mais

distribution aléatoire• Expression :

– Score du posttest– Comparaison pré/posttest Δ = score posttest – prétest

(Objectif : Sim augmente le score au posttest)

Niveau 2Test théorique : expression

Moyennes Delta = posttest – pré-test

Moyenne, médiane, progressions individuelles

T1 T2

1 2 7

2 3 9

3 4 5

4 5 6

5 1 7

6 2 10

7 3 9

8 4 7

9 6 9

10 4 10

moyenne 3,3 7,8

médiane 3,5 8

0

1

2

3

4

5

6

7

8

9

10

T1 T2

Progression entre T1 et T2

moyenne 3,3 7

médiane 3,5 7,5

T1 T2

1 1 10

2 2 4

3 6 5

4 3 10

5 1 3

6 4 10

7 3 10

8 4 10

9 5 4

10 4 4

0

1

2

3

4

5

6

7

8

9

10

T1 T2

Progression entre T1 et T2

Moyenne, médiane, progressions individuelles

T1 T2

02/02/2019

14

Niveau 2 : exemple

Connaissances techniques : ACLS• 41 internes de médecine (2ème année)• Tous certifiés ACLS• Prétest / post-test design• Intervention:

– 4 x 2h formation ACLS sur mannequin simulateur avec débriefing

• Résultats:– Amélioration des scores de 24 %– Succès (100/100) : 17 % prétest 100% posttest

Wayne DB, J Gen Intern Med 2006

Niveau 2

S-Performance technique : document papier

• Nécessité d’avoir une évaluation objective

• Performance médicotechnique difficile à évaluer Evaluateurs à former

• Un superviseur évaluation subjective

• Deux superviseurs meilleure évaluation (objective?) mais ne voient pas la même chose?

• Complexité des procédures : IOT vs. PMO

Niveau 2 : complexité des procéduresPlace de la vidéo• Emplacement de la (des) caméras +++

• Revoir les séances corriger l’évaluation de visu

• Lecture des vidéos et évaluation de la performance (checklist/échelle d’évaluation) reproductibilité de visu vs vidéo (test-retest) : – Tiers indépendant ou

– Même observateur à distance (anonymat)

• Double évaluation de visu et double évaluation vidéo : comparaison de la reproductibilité obtenue de visu et de celle obtenue avec la vidéo

Niveau 2

Outils d’évaluation

S-Performance technique : document papier

o Global Rating Scale

o Checklist

o Echelle d’évaluation

Evaluation globale (5 niveaux avec novices)

L’échelle mesure le niveau d’autonomie• Proficient =“Compétent” indique une habileté à réaliserindépendamment• “Expert” est un niveau improbable

Comment évaluer une procédure?

• Global Rating Scale

02/02/2019

15

Checklist ou échelle?

Augmentation du nombre d’items ↘ reproductibilité

Augmentation de la description ↗ reproductibilité

Comment évaluer une procédure?

Validité Avantages Désavantages

ChecklistValiditémodeste

Novice peut voir oùil doit s’améliorer

Demande le temps d’évaluation d’un expertDouble évaluation

Echelled’évaluationForte validité

Applicable dans de nombreuses situations par différents évaluateurs (objective)

Demande du temps pour sa réalisation

Demande le temps d’évaluation d’un expert

Evaluation de la performance technique : Exemples pédiatriques

Nom Année Auteur Items ICC, Crombach Alpha

Standardized Direct Observation Tool (SDOT)

2004 Joshi 26 ICC = 0.81, CA = 0.95

Neonatal Resuscitation Program Megacode Checklist (NRPMC)

2004 Wood 20 CA = 0.70

Tool for ResuscitationAssessment Using ComputerizedSimulation (TRACS)

2009 Calhoun 72 ICC = 0.80

Multirater Instrument for the Assessment of SimulatedPediatric Crises (MIASPC)

2011 Calhoun 44 ICC = 0.72, CA = 0.69

Evaluation Tool for SimulatedPediatric Resuscitation (ETSPR)

2012 Grant 12 ICC = 0.76, CA = 0.82 Barsuk, J Grad Med Educ 2012

Niveau 2

Fisher, Am J Obstet Gynecol 2011

Expression des scores de performance technique

Niveau 2

S-Performance technique : chronométrage

• TIMING = évaluation objective

• Temps pour réaliser une procédure technique :

– Connaissance de la totalité de la procédure et de ses difficultés

– Habileté technique (gestuelle) à réaliser la totalité de la procédure : entrainement

Plus rapide ne veut pas dire forcément mieux!

(timing vs process)

Nesbitt, J Thorac CardiovascSurg 2013

Expression du timing

Thomas, Pediatrics 2010

Niveau 2

02/02/2019

16

Niveau 2 : timing : exemple

Introduction d’un nouvel équipement :

• Familiarisation avec le ventilateur Dräger Fabius

• 18 anesthésistes en formation randomisés en 2 groupes

• Groupe 1 : cours

• Groupe 2 : cours + pratique en simulateur

• Test : résolution de 2 crises simulées

• Résultats :– impression subjective de maitrise identique

– groupe simulateur résout les 2 crises plus vite +++

Dalley P, Anesth Analg 2004

Niveau 2

S-Performance technique : évaluation instrumentale

Niveau 2A-Performance comportementale : document papier, timing

• Evaluation du CRM (Crisis Resource Mangement)

• Evaluation difficile (performance d’une équipe, plusieurs évaluateurs, vidéo…) pendant une situation de crise!

• Neuf échelles validée pour le CRM

• Communication : annonce d’une mauvaise nouvelle

Niveau 2 : performance comportementale

CRM

Annonce

Quels outils d’évaluation?Kardgong-Edgren, Clin Sim Nurs 2010

Evaluation du CRM : échelles spécifiques

Nom Année Auteur

Anaesthetists’ Non-Technical Skills (ANTS) 2003 Fletcher

Ottawa Global Rating Scale 2006 Kim

Behavioral Assessment Tool (BAT) 2006 Anderson

Mayo High Performance Teamwork Scale 2007 Malec

Clinical Teamwork Scale (CTS) 2008 Guise

Team Performance During SimulatedCrises Instrument (TPDSCI)

2009 Calhoun

Evaluation instrument of CRM 2011 Plant

Simulation Team Assessment Tool (STAT) 2012 Reid

Evaluation tool of CRM 2012 Grant

02/02/2019

17

Clinical Teamwork Scale (CTS) Niveau 2 : Exemple

• Acquisition de compétencesnon techniques (CRM)

• Répartition des tâches

• Fonctionnement en équipe

• Conscience de la situation

• Prise de décision

Yee B, Anesthesiology 2005;103:241-8

Niveau 2 et programme pédagogique

Que faire de l’évaluation du niveau 2?

• Le niveau 2 sert au débriefing +++

• Le niveau 2 permet d’avoir une évaluation suffisante pour développer un programme pédagogique

• Envisager :

– Un Mastery Learning?

– Un programme d’EPA (Entrustable Professional Activity)

• Créer une culture pédagogique de soutien

Create a supportive learning culture! (McGaghie 2018)

• Sécurité psychologique : prérequis de la simulation (intelligent et voulant faire de son mieux), accroissement progressif des difficultés, bienveillance, confidentialité

• Evaluation permet de déterminer ce soutien et de le quantifier

Schéma pédagogique

Mastery Learning

1. Associer tous les modes d’apprentissage

Kolb

2. Viser l’acquisition de tous les objectifs pédagogiques par tous les participants

McGaghie

Simulation-based Mastery Learning

Posttest

Objectifs pédagogiques

Intervention pédagogique

Prétest

Evaluation normativeMinimum Passing Standard

Score > MPSScore < MPS

Advanced learning

Le délai d’obtentionpeut varier d’un participant à l’autre, mais tous les objectifsseront atteints pour tous les participants


Back-up learning loop

02/02/2019

18

Distribution des scores

MPS

100

50

0Prétest Posttest 2 Posttest 1

Pédagogie de la seconde chance… McQuillan RF et al. Clin J Am Soc Nephrol 2015;10:1767-72

Distribution des scores

1. Baseline prétest

2. Objectifs pédagogiques clairs; par ordre de difficulté croissante

3. Intervention pédagogique : didactique, vidéo, pratique en simulation

4. Détermination du seuil (MPS)

5. Evaluation formative

6. Apprentissage avancé si test réussi

7. Poursuite de la pratique si échec au test

Mastery Learning ‘Package’


EPA : Entrustable Professional Activity

Activité professionnelle dédiée

Domaine de compétence, compétences et étapes de complexité croissante

Delta = effet précis de l’intervention pédagogique

EPA

DOC 1

DOC 2

DOC 3

C2

C1

C3

C4

C6

C5

Pré-EPAperformance

Post-EPAperformance

Δ

Qui sont les participants qui performent le mieux?

1. Ceux qui sont formés

2. Ceux qui développent un comportement « curieux, ouvert » vis-à-vis des nouveautés résolution du conflit cognitif– Il existe une profonde appréhension de l’évaluation peut

expliquer une absence de performance

– Importance de désamorcer cette crainte lors du briefing : « Il n’y a aucun jugement de personne mais une évaluation de performance » l’évaluation est un jugement!

Whyte, Clin Sim Nurs 2017



3


Kirkpatrick D. 1967

02/02/2019

19

QUI ?

• Les instructeurs de la séance de simulation (au centre de simulation) pour auto-Eval

• Les investigateurs cliniques sur le lieu professionnel pour hétéro-Eval

Niveau 3

QUOI

Changement des pratiques professionnelles : - Auto ou hétéro-évaluation (K, S, A)

- Hétéro-évaluation : vidéo des pratiques, création, changement de protocoles, numéro d’appel, localisation /organisation du chariot d’urgence…

Niveau 3

POURQUOI ?

Intérêt = La plus véridique évaluation de l’efficacité d’un programme de formation

• Connaissances, savoir-faire, comportementsrécemment acquis, sont-ils utilisés dansl’environnement quotidien de l’apprenant?

• = Mesure du transfert apparu dans le comportement de l’apprenant suite à la simulation

Niveau 3

OU ?• Au centre de simulation (auto-Eval)

• Sur le lieu professionnel de l’apprenant (hétéro-Eval)

QUAND ?• Après la séance de simulation

• Difficile : impossible de prédire quand le changementsurviendra

• À quelle fréquence évaluer?

Niveau 3

Niveau 3

COMMENT : Auto-évaluation : Questionnaire à la fin de la session

• Changement des pratiques professionnelles

• « Pensez-vous que cette séance de simulation vous fera changer quelque chose dans votre pratique professionnelle? » : objectif > 50% de OUI

• « Dans quels domaines? » (question ouverte) Connaissances, procédures, attitudes

Niveau 3

O’Donnell, SIH 2011

COMMENT : Hétéro-évaluation : Mesure de performance in situ

02/02/2019

20

Learning Curve

Temps

Performance

Mastery JIT JIT

Niveau 3 : Just-In-Time Treatment

Réinjections pédagogiques courtes réparties au cours du temps

Niveau 3a : exemple

Changements de performance de CRM

• 3-12 mois après un cours sur la CRM (Crisis Resource Management)

– 61% exposés à une ou plus situations critiques

– 70% estiment que leur gestion de la crise a été améliorée

• Perceptions / attitudes

• Formation de collègues à la gestion des crises, stratégies de résolution de problème, planification / anticipation d’effets indésirables, travail en équipe, communication avec collègues, impact sur la pratique clinique

Weller J, Anaesthesia 2003

Niveau 3b : exemple

Intubation fibroscopique :

• 24 internes novices en intubation fibroscopique orale

• 2 groupes randomisés : Gr1 (n=12) : cours Gr 2 (n=12) : cours + mannequin

. Mesure de la performance en salle d’opération

Groupe

cours

Groupe

cours + modèle

P

Durée de

l’intubation (s)210 81 < 0.01

Intubation réussie 42 % 92 % < 0.005

Naik VN, Anesthesiology 2001

Niveau 3b : exemple

Performance du travail en équipe/CRM :

• Beaucoup plus difficile à étudier

• 1 étude en médecine d’urgence :

– Observation « live » pré et post-training (8h de simulation et débriefing)

– « Tendance à l’amélioration du travail en équipe » aux urgences (p = 0.07)

– Mais petit collectif (4 équipes de 5 pers.)

Shapiro 2004


Impactclinique

4


Kirkpatrick D. 1967

QUI ?

• Les investigateurs cliniques et méthodologistes : analyse des séjours-patients

Niveau 4

02/02/2019

21

Niveau 4

QUOI

Impact clinique :• Recherche de marqueurs cliniques pertinents en

rapport avec la formation, dont la modification de l’incidence et/ou de la gravité serait un reflet uniquement en lien avec la formation par simulation réalisée

• Bénéfice secondaire au processus pédagogique = la santé des patients

POURQUOI ?

Intérêt = La preuve ultime de l’efficacité d’un programme de formation

• = Amélioration de la santé des patients apparueaprès la formation par simulation

Niveau 4

OU ?• Au niveau du centre de soins ou de la communauté

QUAND ?• Après la séance de simulation

• Difficile : impossible de prédire quand le changement surviendra

Niveau 4 Niveau 4

COMMENT : Epidémiologie des éléments traceurs• Recherche translationnelle (= du modèle au patient)

• Relevé rétrospectif d’éléments cliniques traceurs bien ciblés des années n-1 et n-2 dans l’activité

• Relevé prospectif des mêmes éléments cliniques traceurs lors des années n et n+1

• Pré-intervention vs. post-intervention

• Mesure de l’impact clinique de l’apprentissage

• Mais… effet TEMPS inéluctable

Utilisation des marqueurs cliniques du tableau de bord d’un service

Niveau 4

COMMENT : Epidémiologie des éléments

traceurs

Niveau 4 : Exemple• Obstétrique Draycott T. BJOG 2006;113:177-82

Sim HF -50% d’encéphalopathies +++ (avant/après formation)

1998–1999

(n = 8430)

2001–2003

(n = 11030)

Relative risk

5’ Apgar ≤ 6,

n (rate / 10.000)

73 (86.6) 49 (44.4) 0.51 (0.35–0.74)

HIE

n (rate / 10.000)

23 (27.3) 15 (13.6) 0.50 (0.26–0.95)

Mod /sev HIE

n (rate/10.000)

16 (19.0) 11 (10.0) 0.53 (0.24–1.13)

NB : Montre une association, pas un lien de causalité ;

possibilité d’un effet-temps!mais encourageant !

02/02/2019

22

Niveau 4 : Exemple

Comparaison intra-régionale

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2

MNP IM total IM graves

1993-1997

1998-2006

NS

**

*

Pour 1000 naissances vivantes

Comparaison inter-régionale (1998-2006)

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2

MNP IM total IM graves

Limousin

Poitou-Charentes

Pour 1000 naissances vivantes

NS ****

****

Niveau 4 : Exemple

Autre région

Niveau 4 : Exemples Niveau 4 : Exemple

• Soins intensifs

– CVC en USI adulte 0.5 (SIM+) vs 3.2 (SIM-) infections sur cathéter sur 32 mois (p<0.001)

Barsuk JH, Arch Intern Med 2009;169:1420-3

Moyens d’évaluation• Questionnaire d’auto-évaluation

– Nv 1 : réalisme, intérêt scientifique, implication, débriefing, satisfaction

– Nv 2a : connaissances, performance technique, confiance

– Nv 3a : changement des pratiques

• Tests théoriques (quiz avec QCM ou QROC)– Nv 2b : acquisition de connaissances (pré/posttest)

• Echelle(s) d’évaluation (hétéro-évaluation)

– Nv 2b (au labo) : performance technique, comportementale, individuelle ou en équipe

– Nv 3b (in situ) : changement des pratiques

• Chronométrage

– Nv 2b (au labo) : timing

– Nv 3b (in situ) : timing clinique

• Epidémiologie d’éléments traceurs

– Nv 4 : mesure de l’impact clinique de la formation Rare!

Moyens d’évaluation de la performance

Individu Equipe

Non technicalskills

Technicalskills

TAPAS

Annonce

02/02/2019

23

Simulation = 1 des 4 modes d’apprentissage

Je fais

Je vois

Je lis

Je simule

Kolb 1984

Conclusion

• L’évaluation est indispensable à toute formation par simulation

• Activité pédagogique et non activité ludique

• Légitimité scientifique en tant que processus pédagogique

• Valide ou invalide les hypothèses formulées

• Précise les déficits de performance possibles complément de formation

• Lien entre l’enseignement et la recherche


Simulation

Apprenant

Modèle

Validation (testing) d’un modèle pédagogique


Evaluation d’un modèle

• Objectifs

- Principal = Réalisme

- Secondaires :

- Apport pédagogique

- Coût

- Evaluation complète d’une procédure

• Construction du modèle - 1- Modèles existants : description des modèles

existants et de leurs limites

- Buts recherchés : fondés sur les limites des modèles existants + exigences pédagogiques, économiques ou pratiques (faisabilité)

- Concepteurs : Experts qualifiés dans les disciplines impliquées définissent les éléments du modèle


02/02/2019

24

• Construction du modèle - 2- Composants du modèle et coût : matériel biologique,

informatique, autre matériel…

- Etapes de l’assemblage : citer les différentes étapes de l’assemblage et celles qui sont à renouveler pour un nombre de X d’apprenants

- Commentaires : commentaires techniques de montage et matériel supplémentaire (consommables)

- Modifications du modèle : citer les modifications faites en détail avec leur justification et le feedback des participants et/ou des experts après modifications


• Processus de validation - 1

• Population

– Participants expérimentés : questionnaire sur les nombre d’années d’expérience et leur nombre de pratique de la procédure lors du dernier mois (échelle de Likert en 4 classes)

– Participants non expérimentés : novices

• Intervention : description de la séance de simulation avec le rôle de chacun


• Processus de validation - 2• Comparaison : groupes comparés : expérimentés vs.

novices ; ou selon le nb de procédures effectuées en clinique

• Outils d’évaluation et critères de jugements

– Feedback des expérimentés : réalisme, pédagogie (habileté et manipulation du modèle), coût, temps, utilité, reproductibilité

– Feedback des participants novices : réalisme, possibilité d’apprentissage, confiance en soi, satisfaction globale vis-à-vis du modèle

Evaluation d’un modèle Sim Healthcare 2015;10:239-44

E-Mémoires Acad Nat Chir 2016;15:58-64 Trois types d’évaluation

Simulation

Apprenant

Modèle Outil

d’évaluation

Validation d’une checklist ou d’une échelle

d’évaluation (Downing)

02/02/2019

25

Besoins en outils d’évaluation en simulation

Office of Education Research, Mayo Clinic, Rochester, MN

• 417 études 217 (52%) utilisent > 1 critère d’avaluation

• Parmi les 217 6 (3 %) utilisent les 5 critères de validité, et 51 (24 %) ne font aucune référence à une démarche de validation

Validation des échelles d’évaluation en simulation est pauvre. La qualité méthodologique des études d’évaluation laisse une grandemarge de progrès.

Qualités d’un outil d’évaluation : Dilemme validité - fiabilité

Forte validité (fidèle à la réalité)

Faible fiabilité (complexe)

Faible validité (moindre fidélité)

Forte fiabilité (simple)

Validité – Fiabilité Processus de validation

d’une échelle d’évaluation

1. Contenu – Elaboration(content) STATS = 0

2. Processus de réponse – Modifications (response process) STATS = 0

3. Structure interne – Fiabilité(internal structure) STATS +++

4. Comparaison aux autres variables – Validité(comparison to other variables) STATS +++

5. Conséquences – Utilité(consequences) STATS +

Downing SM. Validity: on meaningful interpretation of assessment data. Med Educ 2003;37:830-7

1. Contenu Elaboration

• Quoi? Choix des items : Relation échelle – processus

L’échelle d’évaluation est-elle suffisamment détaillée pour reproduire l’ensemble du processus étudié ?

• Qui? Experts, Groupe nominal, Delphi (3 tours)

• Pourquoi? Pertinence validité!

• Comment? EBM

• Relecture : ambiguïtés, spécificités?

Pré-échelle ou pré-checklist

• Quoi? Contrôle des sources d’erreur

Processus-évalué-évaluation-évaluateur

• Qui? Population test

• Pourquoi? Recherche des biais

• Comment? Évalué, évaluateur, échelle, scénario : explore la variation de l’évaluation et des conditions de cette évaluation

Echelle finalisée

2. Processus de réponse Modifications

http://en.wikipedia.org/wiki/File:Reliability_and_validity.svg

02/02/2019

26

3. Structure interne Validité & Fiabilité

• A. Cohérence interne (Internal consistency)• Corrélations inter-items et item-total

• Coefficient alpha de Cronbach 0.70-0.90

• B. Reproductibilité (Reproducibility)

• Comparaison intra ou inter-observateur

• Coefficient Kappa ou corrélation intra-classe > 0.70; régression linéaire R2 > 0.50

• C. Généralisation (Generalizability)

• Comparaison DS O1,O2 et Om F-test

• G Theory coefficient G

Différentes reproductibilités

• Reproductibilité inter-juges = reproductibilité inter-observateurs (si > 2 juges) statistiques Kappa et coefficient de corrélation intra-classe (ICC > 0.70)

• Reproductibilité test-retest : mesure T1/T2 ; reproductibilité temporelle; influence de l’effet temps et d’autres facteurs : fatigue, stress?

Reproductibilité :Echelle d’évaluation de la pose d’une voie intra-osseuse

Kappa = 0.946ICC = 0.947 Accord quasi parfaitentre des observateursindépendants

N = 30

Reproductibilité :MISTELS = échelle d’évaluation de la performance en

chirurgie fibroscopique

y = 0,9971xR² = 0,9992

-40

-20

0

20

40

60

80

-40 -20 0 20 40 60 80

Performance

Figure 4: Correlation between values of MISTELS scores from Observer 1 and Observer 2

Coefficient de corrélation intra-classesEchelle d’évaluation de la prévention des risques

Source SC dl CM F pÀ

rapporterICC

Inter-sujet 7388,88 15 492,59 24,08 0,0000 p < 0,05 0,8708

Intra-sujet 560,37 16 h2

Mesures 253,58 1 253,58 12,40 0,0031 p < 0,05 0,4525

Erreur 306,79 15 20,45

Total 7949,24 31

t pÀ

rapporter

Winer (1971), p.268 3,52 0,0031 p < 0,05

Reproductibilité Echelle d’évaluation de la prévention des risques

y = 1,1216xR² = 0,7789

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

http://www.er.uqam.ca/nobel/r30574/Biblio/win71.html

02/02/2019

27

Cohérence interne et reproductibilité :Echelle d’évaluation de la pose d’un drain thoracique

Steps Items/Points Relative

weight

Mean ± SD α Cronbach ICC

Aseptic procedure 3 15% 2.51 ± 0.64 - 1Local anesthesia 1 5% 0.87 ± 0.33 - 1Incision and dissection 6 30% 3.56 ± 1.19 - 0.939Confirmation of

location2 10% 0.96 ± 0.93 - 0.968

Introduction of chest

tube with Kelly clamp4 20% 2.49 ± 0.96 - 0.933

Securing water seal

tubing1 5% 0.47 ± 0.49 - 0.954

Securing chest tube 2 10% 1.02 ± 0.76 - 0.860Location of incision site 1 5% 0.87 ± 0.34 - 1

TOTAL 20 100% 12.78 ± 2.70 0.747 0.966

Reproductibilité :Echelle d’évaluation de la pose d’un drain thoracique

ICC = 0.966 p < 10- 5

y = 1.0038xR² = 0.9253

0

2

4

6

8

10

12

14

16

18

20

0 2 4 6 8 10 12 14 16 18 20

0

2

4

6

8

10

12

14

16

18

20

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Obs 1

Obs 2

Reproductibilité :Scores attribués aux participants par O1 et O2

y = 1.0449xR² = 0.771

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90

Echelle d’évaluation Annonce d’une mauvaise nouvelle

N = 61

ICC = 0.917

Très bon accord entre deux observateurs indépendants

N = 61

Echelle d’évaluation Annonce d’une mauvaise nouvelle

0

10

20

30

40

50

60

70

80

90

100

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61

Distribution of scores

O1 O2

• A une échelle (score) :

– Au gold-standard :

– A d’autres échelles : préexistante, avec une mesure qualitative/quantitative décrivant tout ou partie de la même action, au résultat d’un examen théorique

• Au taux de réussite (0/1) ; cut-off - après étude Sn, Sp, VPP, VPN, ROC, graph distribution

• A l’expérience : Score augmente avec le niveau d’expérience :

Novices vs expérimentés; 1 séance Sim vs n séances Sim; Au début formation vs au temps T

• A la difficulté du scénario : scénario facile vs difficile

4. Comparaison aux autres variables Validité

02/02/2019

28

Comparaison au gold standardprocess vs success (drain thoracique)

• 10.29 ± 1.53 vs. 14.68 ± 1.70

• P = 4.47.10-10

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Success

Failure

Comparaison à 2 temps de formation TAPAS : 1ère vs 5e session (4 mois)

N=87

Echelle d’évaluation Pose d’une voie intra-osseuse

0

2

4

6

8

10

12

14

16

18

20

IO p

erf

orm

ance s

core

/20

MS2 MS3 MS5 PGY

Echelle d’évaluation Pose d’un drain thoracique

p = 3.13 10-8

13.95 ± 3.76

16.29 ± 1.82

11.39 ± 3.67

19 19

17

4

10

4

0

2

4

6

8

10

12

14

16

18

20

Population Globale Groupe SIM + Groupe SIM -

Sco

re d

e P

erf

orm

ance

Population Evaluée

Score de performance à la pose de drain thoracique chirurgical. (moyenne, écart type, minimum et maximum)

• Evaluation formative ou sommative (Formative or summative assessment)

• Valeur seuil du score (Cut-off score) passing rate

• Conséquence d’un score au-dessous de la valeur seuil

(Consequences of a failing score)

• Information concernant la valeur du score (Feedback about the score)

5. Conséquences Utilité

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Score Sensitivity Specificity PPV NPV Youden Q of Yule Chi 2

> 10 100% 29.4% 64.7% 100% 0.29 1 < 0.01

> 11 100% 58.8% 75.8% 100% 0.59 1 < 0.001

> 12 100% 82.3% 88% 100% 0.82 1 < 0.001

> 13 90,9% 94.1% 95.2% 88.9% 0.85 0.99 < 0.001

> 14 68,2% 100% 100% 70.8% 0.68 1 < 0.001

1 - Specificity

Sensitivity

Détermination d’une valeur seuil

10111213

14

02/02/2019

29

Faisabilité (face validity) : TAPAS Sim Healthcare 2012;7:171-175

J Pulm Respir Med 2016;6:346 Healthcare Cur Rev 2016;4:1

Evaluation en simulation - MEDESIM

Documents

Transcript of Evaluation en simulation - MEDESIM