Evaluation en simulation - MEDESIM
Transcript of Evaluation en simulation - MEDESIM
02/02/2019
1
Evaluation en simulation
Pr Denis OriotLaboratoire de Simulation, ABS Lab, Poitiers
Le ‘transfert’ à la médecine : 1984
• Prof. David Gaba, Stanford University, San Francisco
Anesthésiste-réanimateur
« Simulation is a technique, not a technology! »
Trois notions
1. L’évaluation est un outil indispensable à la pédagogie
2. Pédagogie = évaluation
3. « Medicine is the only high risk activity thatdoes not do routine performance assessment » James Gordon, Harvard 2018
Trois types d’évaluation
Simulation
Apprenant
Modèle
Validation d’un processus pédagogique
(Kirkpatrick)
Validation (testing) d’un modèle pédagogique
Outil d’évaluation
Validation d’une checklist ou d’une échelle
d’évaluation (Downing)
Trois types d’évaluation
Simulation
Apprenant
Modèle
Validation du processus pédagogique(Kirkpatrick)
Outil d’évaluation
Objectifs pédagogiques
1. Identifier les 4 niveaux d’évaluation de la pyramide de Kirkpatrick
2. Imaginer une stratégie utilisant les 4 niveaux d’évaluation de la pyramide de Kirkpatrick
3. Comprendre les intérêts et les difficultés d’évaluation inhérentes à chaque niveau de la pyramide de Kirkpatrick
02/02/2019
2
Caractéristiques (J.M. Chabot 2000)
• Normée : le but est la hiérarchie de classement dans le groupe d’étudiants
• Critériée : le but est la réalisation d’un certains nombre de critères prédéterminés
Caractéristiques (J.M. Chabot 2000)
• Normative : (Sanctionnante) le but final est la note pour obtenir le diplôme
• Formative : le but est d’accélérer une dynamique de formation
Caractéristiques
• Avoir une vision unitaire :‘formation – évaluation’
– Il n’y a pas de formation sans évaluation
– Il n’y a pas d’évaluation sans formation
« Education & assessment are unified »
• Avoir une vision dynamique (Skinner) scénario 1 - débriefing 1; scénario 2 - débriefing 2; scénario 3 - débriefing 3…
McGaghie, IMSH, Los Angeles 2018
Evaluation OF learning
vs
Evaluation FOR learning
« Data is a tool, not a weapon! »
Caractéristiques
Edmondson, 1999
A quoi sert l’évaluation?
Pratique clinique
A quoi sert l’évaluation?
Pratique clinique
Survenue d’erreursBuilding a Safer Health System
Linda T. Kohn, Janet M. Corrigan, and Molla S. Donaldson, Editors
Committee on Quality of Health Care in AmericaNATIONAL INSTITUTE OF MEDICINE
NATIONAL ACADEMY PRESS 2000Washington, D.C.
“Medical errors exceed the deaths from motor vehicle accidents, as well as deaths due to breast cancer or AIDS.”
To Err Is Human
02/02/2019
3
Pr David Kolb – 1984
Cleveland University, Ohio
Science de l’éducationApprentissage expérientiel
A quoi sert l’évaluation?
Pratique clinique
Survenue d’erreurs
Apprentissage
Simulation
A quoi sert l’évaluation?
Pratique clinique
Survenue d’erreurs
Apprentissage
Simulation
Evaluation
PAS DE SIMULATION SANS EVALUATION
• L’évaluation = validation du processus pédagogique
• Absence d’évaluation activité ludique!
Définition
• « L’évaluation en pédagogie est l’analyse systématique de la qualité de l’enseignement et de l’apprentissage » (MacDougall 2010)
• La qualité des soins dépend de la qualité de l’enseignement (To err is human, 2000)
• L’évaluation de la formation par simulation préfigure de la qualité des soins qui seront prodigués
Contrattacite
Réalisme Apport pédagogique
Outild’évaluation
Que faut-il évaluer?
• Professionnel patient soins
• Apprenant modèle performance
Procédurede testing
02/02/2019
4
Contrat tacite : Fiction contract in SBME
« Contrat tacite entre les apprenants et les instructeurs ensimulation stipulant que, vu les limites d’un modèle, les instructeursferont de leur mieux pour rendre la simulation aussi réelle quepossible et les apprenants se comporteront comme si le scénariosimulé était réel et traiteront le modèle comme s’il était un patienthumain réel ».
Dieckmann P, Gaba D, Rall M. Deepening the theoretical foundationsof patient simulation as social practice. Sim Healthcare 2007;2:183-93
Psychologie expérimentaleCopenhague
Gestes techniques
Respect de l’algorithme
Travail enéquipe
Sûreté dupatient
Que faut-il évaluer?Performance
Evaluation de la performance Learning curve
21
Performance
Temps J’ai vu
Je faisObjectifpédagogique
SIMULATION
Impact de la simulation
Performance en simulation et performance en clinique
Gordon J. Acad Med, 2003
Evaluation théorique et en simulation sont très corrélées à la performance clinique à chaque niveau étudié : étudiants, internes, praticiens
Landrigam NEJM, 2004
Ce que l’on fait en simulation est très corrélé à la pratique clinique
Continuum ‘novice’ ‘expert’
Dreyfus 1986, 2004
< 1 an
1-5 ans
5 ans
5-10 ans
> 10 ans
02/02/2019
5
Champ de l’évaluation
• L’évaluation est un jugement
• On évalue le savoir, le savoir-faire et le savoir-être (Knowledge, Skills, Attitudes)
• Mais jamais les PERSONNES +++
• L’évaluation est circonstanciée +++
Comment évaluer?
1. Avec quels moyens?
2. Pour quels niveaux?Ce n’est pas un moyen unique
qui évalue
un processus d’apprentissage
complexe
Critères de jugement d’une formation médicale
Centré sur l’apprenant
Centré sur le patient
Timing Proche de la formation
A distance de la formation
ConnaissancesKnowledge
Tests par QCM Audit, meilleure pratique
Aptitudes techniques
Skills
Echelle d’évaluation
(observation)
Taux de succès des interventions
Attitudescomportements
Attitudes
Echelle d’évaluation
(observation)
Interview des patients (sortie)
Donald Kirkpatrick
Chercheur en pédagogie1954 : thèse sur : « Evaluation de la formation en entreprise »
Kirkpatrick : une vision dynamiqueEvaluation : 4 niveaux
Degré de satisfaction
Acquis
Changement despratiques
Impactclinique
1
2
3
4
Evaluation d’un processusd’apprentissage
Kirkpatrick D. 1967
02/02/2019
6
Kirkpatrick Niveaux 1 et 2 Niveau 3 Niveau 4
Science Translational Medicine 2010
Le niveau T4 de McGaghieIMSH, Los Angeles, Jan 2018
T4
Unplanned positive effects, collateral effects, costs
Another target population
Clinic & community
Ascent to the Summit of the CME PyramidRobin Stevenson, Donald E. Moore Jr
JAMA. Published online January 22, 2018. doi:10.1001/jama.2017.19791
Proposed CME Outcomes Pyramid
CME indicates continuing medical education.
Evaluation : 4 niveaux
Degré de satisfaction
Acquis
Changement despratiques
Impactclinique
1
2
3
4
Evaluation d’un processusd’apprentissage
Kirkpatrick D. 1967
LAB
Les 4 niveaux de Kirkpatrick
• Le niveau 1 est un feedback pour l’instructeur sur la qualité de son intervention pédagogique
• Le niveau 2 est une évaluation précise des acquis lors de l’intervention pédagogique
• Les niveaux 3 et 4 sont pour les chercheurs qui veulent « prouver » au-delà des acquis des apprenants, l’impact de l’apprentissage sur les soins et la santé des patients
Evaluation : 4 niveaux
Degré de satisfaction1
Evaluation d’un processusd’apprentissage
Kirkpatrick D. 1967
02/02/2019
7
Niveau 1Réalisme satisfaction
MEDICAL®
BostonChildren’sHospital
Boston Children’s Hospital
IMSH, Los Angeles, Jan 2018 IMSH, Los Angeles, Jan 2018
02/02/2019
8
IMSH, Los Angeles, Jan 2018 IMSH, Los Angeles, Jan 2018
TCCS 3 - Simulateur de secourisme en situation de combat
SimLife* ABS Lab is linked to a Body Donation Center
• After selection of a body:
• NG tube; tracheostomy;
• Ligation of brachial A&V;
• Ligation of distal parts of cervical and femoral A&V and cannulation of proximal parts of these vessels
• isolated vascular tree of a trunk cleared from thrombi
• Frozen at -22°C, and rewarmed before simulation
02/02/2019
9
WO2017076717A1
Publié le 11 mai 2017
WIPO - PCT
• Circulation: Injection of artificial blood into arteries (pressure & rate), return by venous cannulas
• Ventilation: Controlled pressure ventilation (rate) to induce movement of the diaphragm
INTERNATIONAL PATENT
(WIPO)
Control device Chirurgie ouverte et laparoscopique
Bariatrique
CoelioscopieCouleur et consistance des organes
Chirurgie cardiaque
PrélèvementsMultiorganes
Typologie de la fidélité en simulation
Rehmann A. Technical Report No. DOT/FAA/CT-TN95/46, 1995Beaubien JM. Qual Saf Health Care 2004;13:i51-6
Le plus important
= scénario
= mannequin
Alessi S. J Computer-based Instruction 1988;40-7
Effet du réalisme sur l’apprentissage initial
02/02/2019
10
Les 5 W et 1 H
55
WHO?
WHAT?
WHY?
WHERE?
WHEN?
HOW?
QUI ?
• Les instructeurs de la séance de simulation
Niveau 1
Niveau 1
Réalisme : modèle, environnement, scénario
Intérêt scientifique : scénario, aspect ‘challenging’, difficultés du scénario adaptées au niveau d’apprentissage
Implication : agir comme en clinique
Qualité du débriefing : Ambiance bienveillante ; état d’esprit ‘SIDRA’ Sincere, Innovative, Dedicated, Respectfull, Authentic ; débriefing questionnant; débriefing pertinent (par rapport aux points soulevés)
Satisfaction : globale, inclusion dans un curriculum, recommandation à un collègue
QUOI ? POURQUOI ?
• Intérêt = information pour l’instructeur +++
• Toujours évaluer le niveau 1 +++
• Une réponse positive ne garantit pas un apprentissage, mais une réponse négative compromet toujours l’apprentissage
• Donc, très important d’avoir un haut niveau de satisfaction (viser > 80%)
Niveau 1
OU ?• Au centre de simulation
QUAND ?• A la fin de la séance de simulation
Niveau 1
COMMENT ?Auto-évaluation sous forme de questionnaire rempli par l’apprenant/participant à la fin de la session
• Question ouverte non utilisée
• Question fermée : OUI / NON
• Echelle numérique : entre 0 et 10
• Echelle de Likert : en 3, 5, 7, n classes– Avec questions
– Avec propositions
Niveau 1
02/02/2019
11
Exemples de présentation de questionnaire
• Question fermée :
Etes-vous satisfait de la séance de simulation : OUI/NON
• Echelle numérique :
Quel est votre degré de satisfaction de la séance de simulation? (0=aucun; 10=maximum)
Niveau 1
Exemples de présentation de questionnaire
• Echelle de Likert avec questions :
• Echelle de Likert avec propositions :
Niveau 1
Etes-vous satisfait de la séance de simulation?
Pas du tout
(1)
Plutôt non
(2)
Je ne sais pas
(3)
Plutôt oui
(4)
Absolument
(5)
La séance de simulation était satisfaisante
Je désapprouve fortement (1)
Je désapprouve
(2)
Je ne sais pas
(3)
J’approuve
(4)
J’approuve fortement
(5)
Barsuk, J Grad Med Educ 2012
Expression :Moyennes des scores attribués de 1 à 5 pour chacun des items du questionnaire.
5-point Likert scale;1 = disagree strongly; 5 = agree strongly.
Niveau 1
Sam, Paediatr Child Health 2012
Niveau 1
Expression :Moyennes des scores attribués de 1 à 5 pour chacun des items du questionnaire.
5-point Likert scale;1 = disagree strongly; 5 = agree strongly.
Présentées sous forme de barre-graph en face des items du questionnaire
Expression : pourcentage de réponses dans chaque classe de Likert
Crozier, J Surg Educ 2014
Niveau 1 Niveau 1
Arriaga, Ann Surg 2014
Expression :Pourcentage de participants qui sont d’accord (coté > 4 sur l’échelle de Likert en 5 point). 1 = disagree strongly; 5 = agree strongly) [± IC 95%]
% pour les 3 classes : Surgeons (S), Anesthesiologists (A) et Nurses (N)Valeur de ‘p’ entre les 3 classes (test de Fisher)
02/02/2019
12
Niveau 1 : avant - après Evaluation : 4 niveaux
Acquis2
Evaluation d’un processusd’apprentissage
Kirkpatrick D. 1967
QUI ?
• Les instructeurs de la séance de simulation le plus souvent,
• MAIS beaucoup plus pertinent quand ce sont des observateurs extérieurs formés à l’évaluation (2 observateurs indépendants) RECHERCHE
Niveau 2
QUOI : Les acquis
K – Connaissances : auto et hétéro-évaluation
S – Performance : auto et hétéro-évaluation
A – Comportement : hétéro-évaluation
Confiance en soi : autoévaluation
Niveau 2
POURQUOI ?
• Intérêt = objectif principal de la simulation
• Toujours évaluer le niveau 2 (minimum = auto-Eval)
• Une réponse positive garantit un apprentissage
• Une réponse négative = absence d’apprentissage
Doit faire poser des questions sur les raisons de l’absence d’apprentissage
Niveau 2
OU ?• Au centre de simulation
QUAND ?• Au début de la séance de simulation (quiz du
pré-test quand type 3)
• Pendant la séance de simulation (hétéro-Eval)
• A la fin de la séance de simulation (auto-Eval et parfois quiz du posttest quand type 3)
Niveau 2
02/02/2019
13
Niveau 2
COMMENT ? Auto-évaluation
• Questionnaire à la fin de la session
• « Avez-vous acquis plus de connaissances? »:
– Likert ou échelle 0-10 : but > 50% d’acquis
• « Avez-vous acquis plus de compétence? »:
– Likert ou échelle 0-10 : but > 50% d’acquis
• « Avez-vous acquis plus de confiance en vous?
– Likert ou échelle 0-10 : but > 50% d’acquis???
• Différencier les acquis en termes de procédures, algorithmes, communication
COMMENT ? Hétéro-évaluation
• Evaluation par un tiers – observateur – ou par des instruments adaptés
Niveau 2
Outils d’évaluation utilisés Critères de jugement
K-Connaissances Quiz avec QCM ou QROC Score au test théorique
S-Performancetechnique
Document papier : échelle globale, checklist, échelle d’évaluationChronométrageEvaluation instrumentale : Q-CPR*, Skillguide*
Scores
Minutes, secondes Valeurs concernées
A-Performance comportementale
Document papier : échelle globale, checklist, échelle d’évaluationChronométrage
Scores
Minutes, secondes
K-Connaissances
• QCM (5-10, couvrant le sujet) ou un cas clinique + QROC • Après ou avant/après la session = pré-test et posttest• Etabli par plusieurs experts, aucune équivoque• Posttest : mêmes QCM et réponses qu’au pré-test, mais
distribution aléatoire• Expression :
– Score du posttest– Comparaison pré/posttest Δ = score posttest – prétest
(Objectif : Sim augmente le score au posttest)
Niveau 2Test théorique : expression
Moyennes Delta = posttest – pré-test
Moyenne, médiane, progressions individuelles
T1 T2
1 2 7
2 3 9
3 4 5
4 5 6
5 1 7
6 2 10
7 3 9
8 4 7
9 6 9
10 4 10
moyenne 3,3 7,8
médiane 3,5 8
0
1
2
3
4
5
6
7
8
9
10
T1 T2
Progression entre T1 et T2
moyenne 3,3 7
médiane 3,5 7,5
T1 T2
1 1 10
2 2 4
3 6 5
4 3 10
5 1 3
6 4 10
7 3 10
8 4 10
9 5 4
10 4 4
0
1
2
3
4
5
6
7
8
9
10
T1 T2
Progression entre T1 et T2
Moyenne, médiane, progressions individuelles
T1 T2
02/02/2019
14
Niveau 2 : exemple
Connaissances techniques : ACLS• 41 internes de médecine (2ème année)• Tous certifiés ACLS• Prétest / post-test design• Intervention:
– 4 x 2h formation ACLS sur mannequin simulateur avec débriefing
• Résultats:– Amélioration des scores de 24 %– Succès (100/100) : 17 % prétest 100% posttest
Wayne DB, J Gen Intern Med 2006
Niveau 2
S-Performance technique : document papier
• Nécessité d’avoir une évaluation objective
• Performance médicotechnique difficile à évaluer Evaluateurs à former
• Un superviseur évaluation subjective
• Deux superviseurs meilleure évaluation (objective?) mais ne voient pas la même chose?
• Complexité des procédures : IOT vs. PMO
Niveau 2 : complexité des procéduresPlace de la vidéo• Emplacement de la (des) caméras +++
• Revoir les séances corriger l’évaluation de visu
• Lecture des vidéos et évaluation de la performance (checklist/échelle d’évaluation) reproductibilité de visu vs vidéo (test-retest) : – Tiers indépendant ou
– Même observateur à distance (anonymat)
• Double évaluation de visu et double évaluation vidéo : comparaison de la reproductibilité obtenue de visu et de celle obtenue avec la vidéo
Niveau 2
Outils d’évaluation
S-Performance technique : document papier
o Global Rating Scale
o Checklist
o Echelle d’évaluation
Evaluation globale (5 niveaux avec novices)
L’échelle mesure le niveau d’autonomie• Proficient =“Compétent” indique une habileté à réaliserindépendamment• “Expert” est un niveau improbable
Comment évaluer une procédure?
• Global Rating Scale
02/02/2019
15
Checklist ou échelle?
Augmentation du nombre d’items ↘ reproductibilité
Augmentation de la description ↗ reproductibilité
Comment évaluer une procédure?
Validité Avantages Désavantages
ChecklistValiditémodeste
Novice peut voir oùil doit s’améliorer
Demande le temps d’évaluation d’un expertDouble évaluation
Echelled’évaluationForte validité
Applicable dans de nombreuses situations par différents évaluateurs (objective)
Demande du temps pour sa réalisation
Demande le temps d’évaluation d’un expert
Evaluation de la performance technique : Exemples pédiatriques
Nom Année Auteur Items ICC, Crombach Alpha
Standardized Direct Observation Tool (SDOT)
2004 Joshi 26 ICC = 0.81, CA = 0.95
Neonatal Resuscitation Program Megacode Checklist (NRPMC)
2004 Wood 20 CA = 0.70
Tool for ResuscitationAssessment Using ComputerizedSimulation (TRACS)
2009 Calhoun 72 ICC = 0.80
Multirater Instrument for the Assessment of SimulatedPediatric Crises (MIASPC)
2011 Calhoun 44 ICC = 0.72, CA = 0.69
Evaluation Tool for SimulatedPediatric Resuscitation (ETSPR)
2012 Grant 12 ICC = 0.76, CA = 0.82 Barsuk, J Grad Med Educ 2012
Niveau 2
Fisher, Am J Obstet Gynecol 2011
Expression des scores de performance technique
Niveau 2
S-Performance technique : chronométrage
• TIMING = évaluation objective
• Temps pour réaliser une procédure technique :
– Connaissance de la totalité de la procédure et de ses difficultés
– Habileté technique (gestuelle) à réaliser la totalité de la procédure : entrainement
Plus rapide ne veut pas dire forcément mieux!
(timing vs process)
Nesbitt, J Thorac CardiovascSurg 2013
Expression du timing
Thomas, Pediatrics 2010
Niveau 2
02/02/2019
16
Niveau 2 : timing : exemple
Introduction d’un nouvel équipement :
• Familiarisation avec le ventilateur Dräger Fabius
• 18 anesthésistes en formation randomisés en 2 groupes
• Groupe 1 : cours
• Groupe 2 : cours + pratique en simulateur
• Test : résolution de 2 crises simulées
• Résultats :– impression subjective de maitrise identique
– groupe simulateur résout les 2 crises plus vite +++
Dalley P, Anesth Analg 2004
Niveau 2
S-Performance technique : évaluation instrumentale
Niveau 2A-Performance comportementale : document papier, timing
• Evaluation du CRM (Crisis Resource Mangement)
• Evaluation difficile (performance d’une équipe, plusieurs évaluateurs, vidéo…) pendant une situation de crise!
• Neuf échelles validée pour le CRM
• Communication : annonce d’une mauvaise nouvelle
Niveau 2 : performance comportementale
CRM
Annonce
Quels outils d’évaluation?Kardgong-Edgren, Clin Sim Nurs 2010
Evaluation du CRM : échelles spécifiques
Nom Année Auteur
Anaesthetists’ Non-Technical Skills (ANTS) 2003 Fletcher
Ottawa Global Rating Scale 2006 Kim
Behavioral Assessment Tool (BAT) 2006 Anderson
Mayo High Performance Teamwork Scale 2007 Malec
Clinical Teamwork Scale (CTS) 2008 Guise
Team Performance During SimulatedCrises Instrument (TPDSCI)
2009 Calhoun
Evaluation instrument of CRM 2011 Plant
Simulation Team Assessment Tool (STAT) 2012 Reid
Evaluation tool of CRM 2012 Grant
02/02/2019
17
Clinical Teamwork Scale (CTS) Niveau 2 : Exemple
• Acquisition de compétencesnon techniques (CRM)
• Répartition des tâches
• Fonctionnement en équipe
• Conscience de la situation
• Prise de décision
Yee B, Anesthesiology 2005;103:241-8
Niveau 2 et programme pédagogique
Que faire de l’évaluation du niveau 2?
• Le niveau 2 sert au débriefing +++
• Le niveau 2 permet d’avoir une évaluation suffisante pour développer un programme pédagogique
• Envisager :
– Un Mastery Learning?
– Un programme d’EPA (Entrustable Professional Activity)
• Créer une culture pédagogique de soutien
Create a supportive learning culture! (McGaghie 2018)
• Sécurité psychologique : prérequis de la simulation (intelligent et voulant faire de son mieux), accroissement progressif des difficultés, bienveillance, confidentialité
• Evaluation permet de déterminer ce soutien et de le quantifier
Schéma pédagogique
Mastery Learning
1. Associer tous les modes d’apprentissage
Kolb
2. Viser l’acquisition de tous les objectifs pédagogiques par tous les participants
McGaghie
Simulation-based Mastery Learning
Posttest
Objectifs pédagogiques
Intervention pédagogique
Prétest
Evaluation normativeMinimum Passing Standard
Score > MPSScore < MPS
Advanced learning
Le délai d’obtentionpeut varier d’un participant à l’autre, mais tous les objectifsseront atteints pour tous les participants
McGaghie, IMSH, Los Angeles 2018
Back-up learning loop
02/02/2019
18
Distribution des scores
MPS
100
50
0Prétest Posttest 2 Posttest 1
Pédagogie de la seconde chance… McQuillan RF et al. Clin J Am Soc Nephrol 2015;10:1767-72
Distribution des scores
1. Baseline prétest
2. Objectifs pédagogiques clairs; par ordre de difficulté croissante
3. Intervention pédagogique : didactique, vidéo, pratique en simulation
4. Détermination du seuil (MPS)
5. Evaluation formative
6. Apprentissage avancé si test réussi
7. Poursuite de la pratique si échec au test
Mastery Learning ‘Package’
McGaghie, IMSH, Los Angeles 2018
EPA : Entrustable Professional Activity
Activité professionnelle dédiée
Domaine de compétence, compétences et étapes de complexité croissante
Delta = effet précis de l’intervention pédagogique
EPA
DOC 1
DOC 2
DOC 3
C2
C1
C3
C4
C6
C5
Pré-EPAperformance
Post-EPAperformance
Δ
Qui sont les participants qui performent le mieux?
1. Ceux qui sont formés
2. Ceux qui développent un comportement « curieux, ouvert » vis-à-vis des nouveautés résolution du conflit cognitif– Il existe une profonde appréhension de l’évaluation peut
expliquer une absence de performance
– Importance de désamorcer cette crainte lors du briefing : « Il n’y a aucun jugement de personne mais une évaluation de performance » l’évaluation est un jugement!
Whyte, Clin Sim Nurs 2017
Evaluation : 4 niveaux
Changement despratiques
3
Evaluation d’un processusd’apprentissage
Kirkpatrick D. 1967
02/02/2019
19
QUI ?
• Les instructeurs de la séance de simulation (au centre de simulation) pour auto-Eval
• Les investigateurs cliniques sur le lieu professionnel pour hétéro-Eval
Niveau 3
QUOI
Changement des pratiques professionnelles : - Auto ou hétéro-évaluation (K, S, A)
- Hétéro-évaluation : vidéo des pratiques, création, changement de protocoles, numéro d’appel, localisation /organisation du chariot d’urgence…
Niveau 3
POURQUOI ?
Intérêt = La plus véridique évaluation de l’efficacité d’un programme de formation
• Connaissances, savoir-faire, comportementsrécemment acquis, sont-ils utilisés dansl’environnement quotidien de l’apprenant?
• = Mesure du transfert apparu dans le comportement de l’apprenant suite à la simulation
Niveau 3
OU ?• Au centre de simulation (auto-Eval)
• Sur le lieu professionnel de l’apprenant (hétéro-Eval)
QUAND ?• Après la séance de simulation
• Difficile : impossible de prédire quand le changementsurviendra
• À quelle fréquence évaluer?
Niveau 3
Niveau 3
COMMENT : Auto-évaluation : Questionnaire à la fin de la session
• Changement des pratiques professionnelles
• « Pensez-vous que cette séance de simulation vous fera changer quelque chose dans votre pratique professionnelle? » : objectif > 50% de OUI
• « Dans quels domaines? » (question ouverte) Connaissances, procédures, attitudes
Niveau 3
O’Donnell, SIH 2011
COMMENT : Hétéro-évaluation : Mesure de performance in situ
02/02/2019
20
Learning Curve
Temps
Performance
Mastery JIT JIT
Niveau 3 : Just-In-Time Treatment
Réinjections pédagogiques courtes réparties au cours du temps
Niveau 3a : exemple
Changements de performance de CRM
• 3-12 mois après un cours sur la CRM (Crisis Resource Management)
– 61% exposés à une ou plus situations critiques
– 70% estiment que leur gestion de la crise a été améliorée
• Perceptions / attitudes
• Formation de collègues à la gestion des crises, stratégies de résolution de problème, planification / anticipation d’effets indésirables, travail en équipe, communication avec collègues, impact sur la pratique clinique
Weller J, Anaesthesia 2003
Niveau 3b : exemple
Intubation fibroscopique :
• 24 internes novices en intubation fibroscopique orale
• 2 groupes randomisés : Gr1 (n=12) : cours Gr 2 (n=12) : cours + mannequin
. Mesure de la performance en salle d’opération
Groupe
cours
Groupe
cours + modèle
P
Durée de
l’intubation (s)210 81 < 0.01
Intubation réussie 42 % 92 % < 0.005
Naik VN, Anesthesiology 2001
Niveau 3b : exemple
Performance du travail en équipe/CRM :
• Beaucoup plus difficile à étudier
• 1 étude en médecine d’urgence :
– Observation « live » pré et post-training (8h de simulation et débriefing)
– « Tendance à l’amélioration du travail en équipe » aux urgences (p = 0.07)
– Mais petit collectif (4 équipes de 5 pers.)
Shapiro 2004
Evaluation : 4 niveaux
Impactclinique
4
Evaluation d’un processusd’apprentissage
Kirkpatrick D. 1967
QUI ?
• Les investigateurs cliniques et méthodologistes : analyse des séjours-patients
Niveau 4
02/02/2019
21
Niveau 4
QUOI
Impact clinique :• Recherche de marqueurs cliniques pertinents en
rapport avec la formation, dont la modification de l’incidence et/ou de la gravité serait un reflet uniquement en lien avec la formation par simulation réalisée
• Bénéfice secondaire au processus pédagogique = la santé des patients
POURQUOI ?
Intérêt = La preuve ultime de l’efficacité d’un programme de formation
• = Amélioration de la santé des patients apparueaprès la formation par simulation
Niveau 4
OU ?• Au niveau du centre de soins ou de la communauté
QUAND ?• Après la séance de simulation
• Difficile : impossible de prédire quand le changement surviendra
Niveau 4 Niveau 4
COMMENT : Epidémiologie des éléments traceurs• Recherche translationnelle (= du modèle au patient)
• Relevé rétrospectif d’éléments cliniques traceurs bien ciblés des années n-1 et n-2 dans l’activité
• Relevé prospectif des mêmes éléments cliniques traceurs lors des années n et n+1
• Pré-intervention vs. post-intervention
• Mesure de l’impact clinique de l’apprentissage
• Mais… effet TEMPS inéluctable
Utilisation des marqueurs cliniques du tableau de bord d’un service
Niveau 4
COMMENT : Epidémiologie des éléments
traceurs
Niveau 4 : Exemple• Obstétrique Draycott T. BJOG 2006;113:177-82
Sim HF -50% d’encéphalopathies +++ (avant/après formation)
1998–1999
(n = 8430)
2001–2003
(n = 11030)
Relative risk
5’ Apgar ≤ 6,
n (rate / 10.000)
73 (86.6) 49 (44.4) 0.51 (0.35–0.74)
HIE
n (rate / 10.000)
23 (27.3) 15 (13.6) 0.50 (0.26–0.95)
Mod /sev HIE
n (rate/10.000)
16 (19.0) 11 (10.0) 0.53 (0.24–1.13)
NB : Montre une association, pas un lien de causalité ;
possibilité d’un effet-temps!mais encourageant !
02/02/2019
22
Niveau 4 : Exemple
Comparaison intra-régionale
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
2
MNP IM total IM graves
1993-1997
1998-2006
NS
**
*
Pour 1000 naissances vivantes
Comparaison inter-régionale (1998-2006)
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
2
MNP IM total IM graves
Limousin
Poitou-Charentes
Pour 1000 naissances vivantes
NS ****
****
Niveau 4 : Exemple
Autre région
Niveau 4 : Exemples Niveau 4 : Exemple
• Soins intensifs
– CVC en USI adulte 0.5 (SIM+) vs 3.2 (SIM-) infections sur cathéter sur 32 mois (p<0.001)
Barsuk JH, Arch Intern Med 2009;169:1420-3
Moyens d’évaluation• Questionnaire d’auto-évaluation
– Nv 1 : réalisme, intérêt scientifique, implication, débriefing, satisfaction
– Nv 2a : connaissances, performance technique, confiance
– Nv 3a : changement des pratiques
• Tests théoriques (quiz avec QCM ou QROC)– Nv 2b : acquisition de connaissances (pré/posttest)
• Echelle(s) d’évaluation (hétéro-évaluation)
– Nv 2b (au labo) : performance technique, comportementale, individuelle ou en équipe
– Nv 3b (in situ) : changement des pratiques
• Chronométrage
– Nv 2b (au labo) : timing
– Nv 3b (in situ) : timing clinique
• Epidémiologie d’éléments traceurs
– Nv 4 : mesure de l’impact clinique de la formation Rare!
Moyens d’évaluation de la performance
Individu Equipe
Non technicalskills
Technicalskills
TAPAS
Annonce
02/02/2019
23
Simulation = 1 des 4 modes d’apprentissage
Je fais
Je vois
Je lis
Je simule
Kolb 1984
Conclusion
• L’évaluation est indispensable à toute formation par simulation
• Activité pédagogique et non activité ludique
• Légitimité scientifique en tant que processus pédagogique
• Valide ou invalide les hypothèses formulées
• Précise les déficits de performance possibles complément de formation
• Lien entre l’enseignement et la recherche
Trois types d’évaluation
Simulation
Apprenant
Modèle
Validation (testing) d’un modèle pédagogique
Outil d’évaluation
Evaluation d’un modèle
• Objectifs
- Principal = Réalisme
- Secondaires :
- Apport pédagogique
- Coût
- Evaluation complète d’une procédure
• Construction du modèle - 1- Modèles existants : description des modèles
existants et de leurs limites
- Buts recherchés : fondés sur les limites des modèles existants + exigences pédagogiques, économiques ou pratiques (faisabilité)
- Concepteurs : Experts qualifiés dans les disciplines impliquées définissent les éléments du modèle
Evaluation d’un modèle
02/02/2019
24
• Construction du modèle - 2- Composants du modèle et coût : matériel biologique,
informatique, autre matériel…
- Etapes de l’assemblage : citer les différentes étapes de l’assemblage et celles qui sont à renouveler pour un nombre de X d’apprenants
- Commentaires : commentaires techniques de montage et matériel supplémentaire (consommables)
- Modifications du modèle : citer les modifications faites en détail avec leur justification et le feedback des participants et/ou des experts après modifications
Evaluation d’un modèle
• Processus de validation - 1
• Population
– Participants expérimentés : questionnaire sur les nombre d’années d’expérience et leur nombre de pratique de la procédure lors du dernier mois (échelle de Likert en 4 classes)
– Participants non expérimentés : novices
• Intervention : description de la séance de simulation avec le rôle de chacun
Evaluation d’un modèle
• Processus de validation - 2• Comparaison : groupes comparés : expérimentés vs.
novices ; ou selon le nb de procédures effectuées en clinique
• Outils d’évaluation et critères de jugements
– Feedback des expérimentés : réalisme, pédagogie (habileté et manipulation du modèle), coût, temps, utilité, reproductibilité
– Feedback des participants novices : réalisme, possibilité d’apprentissage, confiance en soi, satisfaction globale vis-à-vis du modèle
Evaluation d’un modèle Sim Healthcare 2015;10:239-44
E-Mémoires Acad Nat Chir 2016;15:58-64 Trois types d’évaluation
Simulation
Apprenant
Modèle Outil
d’évaluation
Validation d’une checklist ou d’une échelle
d’évaluation (Downing)
02/02/2019
25
Besoins en outils d’évaluation en simulation
Office of Education Research, Mayo Clinic, Rochester, MN
• 417 études 217 (52%) utilisent > 1 critère d’avaluation
• Parmi les 217 6 (3 %) utilisent les 5 critères de validité, et 51 (24 %) ne font aucune référence à une démarche de validation
Validation des échelles d’évaluation en simulation est pauvre. La qualité méthodologique des études d’évaluation laisse une grandemarge de progrès.
Qualités d’un outil d’évaluation : Dilemme validité - fiabilité
Forte validité (fidèle à la réalité)
Faible fiabilité (complexe)
Faible validité (moindre fidélité)
Forte fiabilité (simple)
Validité – Fiabilité Processus de validation
d’une échelle d’évaluation
1. Contenu – Elaboration(content) STATS = 0
2. Processus de réponse – Modifications (response process) STATS = 0
3. Structure interne – Fiabilité(internal structure) STATS +++
4. Comparaison aux autres variables – Validité(comparison to other variables) STATS +++
5. Conséquences – Utilité(consequences) STATS +
Downing SM. Validity: on meaningful interpretation of assessment data. Med Educ 2003;37:830-7
1. Contenu Elaboration
• Quoi? Choix des items : Relation échelle – processus
L’échelle d’évaluation est-elle suffisamment détaillée pour reproduire l’ensemble du processus étudié ?
• Qui? Experts, Groupe nominal, Delphi (3 tours)
• Pourquoi? Pertinence validité!
• Comment? EBM
• Relecture : ambiguïtés, spécificités?
Pré-échelle ou pré-checklist
• Quoi? Contrôle des sources d’erreur
Processus-évalué-évaluation-évaluateur
• Qui? Population test
• Pourquoi? Recherche des biais
• Comment? Évalué, évaluateur, échelle, scénario : explore la variation de l’évaluation et des conditions de cette évaluation
Echelle finalisée
2. Processus de réponse Modifications
02/02/2019
26
3. Structure interne Validité & Fiabilité
• A. Cohérence interne (Internal consistency)• Corrélations inter-items et item-total
• Coefficient alpha de Cronbach 0.70-0.90
• B. Reproductibilité (Reproducibility)
• Comparaison intra ou inter-observateur
• Coefficient Kappa ou corrélation intra-classe > 0.70; régression linéaire R2 > 0.50
• C. Généralisation (Generalizability)
• Comparaison DS O1,O2 et Om F-test
• G Theory coefficient G
Différentes reproductibilités
• Reproductibilité inter-juges = reproductibilité inter-observateurs (si > 2 juges) statistiques Kappa et coefficient de corrélation intra-classe (ICC > 0.70)
• Reproductibilité test-retest : mesure T1/T2 ; reproductibilité temporelle; influence de l’effet temps et d’autres facteurs : fatigue, stress?
Reproductibilité :Echelle d’évaluation de la pose d’une voie intra-osseuse
Kappa = 0.946ICC = 0.947 Accord quasi parfaitentre des observateursindépendants
N = 30
Reproductibilité :MISTELS = échelle d’évaluation de la performance en
chirurgie fibroscopique
y = 0,9971xR² = 0,9992
-40
-20
0
20
40
60
80
-40 -20 0 20 40 60 80
Performance
Figure 4: Correlation between values of MISTELS scores from Observer 1 and Observer 2
Coefficient de corrélation intra-classesEchelle d’évaluation de la prévention des risques
Source SC dl CM F pÀ
rapporterICC
Inter-sujet 7388,88 15 492,59 24,08 0,0000 p < 0,05 0,8708
Intra-sujet 560,37 16 h2
Mesures 253,58 1 253,58 12,40 0,0031 p < 0,05 0,4525
Erreur 306,79 15 20,45
Total 7949,24 31
t pÀ
rapporter
Winer (1971), p.268 3,52 0,0031 p < 0,05
Reproductibilité Echelle d’évaluation de la prévention des risques
y = 1,1216xR² = 0,7789
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100
02/02/2019
27
Cohérence interne et reproductibilité :Echelle d’évaluation de la pose d’un drain thoracique
Steps Items/Points Relative
weight
Mean ± SD α Cronbach ICC
Aseptic procedure 3 15% 2.51 ± 0.64 - 1Local anesthesia 1 5% 0.87 ± 0.33 - 1Incision and dissection 6 30% 3.56 ± 1.19 - 0.939Confirmation of
location2 10% 0.96 ± 0.93 - 0.968
Introduction of chest
tube with Kelly clamp4 20% 2.49 ± 0.96 - 0.933
Securing water seal
tubing1 5% 0.47 ± 0.49 - 0.954
Securing chest tube 2 10% 1.02 ± 0.76 - 0.860Location of incision site 1 5% 0.87 ± 0.34 - 1
TOTAL 20 100% 12.78 ± 2.70 0.747 0.966
Reproductibilité :Echelle d’évaluation de la pose d’un drain thoracique
ICC = 0.966 p < 10- 5
y = 1.0038xR² = 0.9253
0
2
4
6
8
10
12
14
16
18
20
0 2 4 6 8 10 12 14 16 18 20
0
2
4
6
8
10
12
14
16
18
20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
Obs 1
Obs 2
Reproductibilité :Scores attribués aux participants par O1 et O2
y = 1.0449xR² = 0.771
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90
Echelle d’évaluation Annonce d’une mauvaise nouvelle
N = 61
ICC = 0.917
Très bon accord entre deux observateurs indépendants
N = 61
Echelle d’évaluation Annonce d’une mauvaise nouvelle
0
10
20
30
40
50
60
70
80
90
100
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61
Distribution of scores
O1 O2
• A une échelle (score) :
– Au gold-standard :
– A d’autres échelles : préexistante, avec une mesure qualitative/quantitative décrivant tout ou partie de la même action, au résultat d’un examen théorique
• Au taux de réussite (0/1) ; cut-off - après étude Sn, Sp, VPP, VPN, ROC, graph distribution
• A l’expérience : Score augmente avec le niveau d’expérience :
Novices vs expérimentés; 1 séance Sim vs n séances Sim; Au début formation vs au temps T
• A la difficulté du scénario : scénario facile vs difficile
4. Comparaison aux autres variables Validité
02/02/2019
28
Comparaison au gold standardprocess vs success (drain thoracique)
• 10.29 ± 1.53 vs. 14.68 ± 1.70
• P = 4.47.10-10
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Success
Failure
Comparaison à 2 temps de formation TAPAS : 1ère vs 5e session (4 mois)
N=87
Echelle d’évaluation Pose d’une voie intra-osseuse
0
2
4
6
8
10
12
14
16
18
20
IO p
erf
orm
ance s
core
/20
MS2 MS3 MS5 PGY
Echelle d’évaluation Pose d’un drain thoracique
p = 3.13 10-8
13.95 ± 3.76
16.29 ± 1.82
11.39 ± 3.67
19 19
17
4
10
4
0
2
4
6
8
10
12
14
16
18
20
Population Globale Groupe SIM + Groupe SIM -
Sco
re d
e P
erf
orm
ance
Population Evaluée
Score de performance à la pose de drain thoracique chirurgical. (moyenne, écart type, minimum et maximum)
• Evaluation formative ou sommative (Formative or summative assessment)
• Valeur seuil du score (Cut-off score) passing rate
• Conséquence d’un score au-dessous de la valeur seuil
(Consequences of a failing score)
• Information concernant la valeur du score (Feedback about the score)
5. Conséquences Utilité
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Score Sensitivity Specificity PPV NPV Youden Q of Yule Chi 2
> 10 100% 29.4% 64.7% 100% 0.29 1 < 0.01
> 11 100% 58.8% 75.8% 100% 0.59 1 < 0.001
> 12 100% 82.3% 88% 100% 0.82 1 < 0.001
> 13 90,9% 94.1% 95.2% 88.9% 0.85 0.99 < 0.001
> 14 68,2% 100% 100% 70.8% 0.68 1 < 0.001
1 - Specificity
Sensitivity
Détermination d’une valeur seuil
10111213
14
02/02/2019
29
Faisabilité (face validity) : TAPAS Sim Healthcare 2012;7:171-175
J Pulm Respir Med 2016;6:346 Healthcare Cur Rev 2016;4:1