Manipulation et traitement de données massives Scripts et Pertinence des données.
Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de...
Transcript of Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de...
Exploitationdesdonnéesmassives ensantépourlarecherchemédicale:méthodes,outilsetcasd’utilisation
Pr Marc CUGGIA
Département d’information médicaleEquipe projet données massives en santé
(Inserm UMR 1099 - LTSI)
Unité Support Fouille de données
(Inserm CIC - 1414 - CHU Rennes)
Université de Rennes 1
CENTREHOSPITALIER
UNIVERSITAIREDE RENNES
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement2
5
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement3
5
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement10
5
Quelsusages?
•Pourl’individu• Médecinecibléeetpersonnalisée
•Pourlescollectivités• Vigilances,veillesanitaire
• Larecherche• Épidémiologique:Détectiondecohortes• Clinique:Étudesdefaisabilité,Recherchedepatientéligible
•Médico-administratif• organisationraisonnéedessoins,pilotagedesactivités,analysedestrajectoiresdesanté
•Pourl’enseignement• Professionnelsdesanté,éducation,informationdescitoyens
11
Rechercheclinique:Etudedefaisabilitéetprescreening
CriteriaInclusion Criteria:1Male subjects, over 50 years of age at the time of enrollment.2Subjects referred to urology for BPH leading to permanent indwellingbladder catheters and are considered poor surgical candidates3Written informed consent to participate in the study.4Ability to comply with the requirements of the study proceduresExclusion Criteria:1Previous surgical treatment for BPH2Presence of bladder stones3History of prostate cancer4Prostate size > 150 g5History of urethral stenosis or its management6Known of suspected neurogenic bladder7History of recent hematochezia in the last 3 months8Contraindication to intravascular iodinated contrast such as allergies or significant elevated creatinine/renal failure9Uncorrected coagulopathy1Subjects who participated in an active stage of any drug, intervention or treatment trial within 30 days of enrollment.1Subjects with preexisting conditions, which, in the opinion of the investigator, interfere with the conduct of the study.1Subjects who are uncooperative or cannot follow instructions.1Mental state that may preclude completion of the study procedure or obtention of infor
Toward Precision Medicine: Building a Knowledge Network for Biomedical Research and a New Taxonomy of Disease Report from National academy of science, USA, 2011
8
17
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement18
5
Entrepôtsdedonnéesbiomédicaux
Analyses
Clinique
Imagerie
Biologie
GénomiqueMédico-économique
Pharmacie
Chirurgie
Entrepôtdedonnéesbiomédicales
üCopiedesdonnéesdeproduction
üPermetlesanalysestrans-domaines
üAméliorelaqualitédesdonnées
Entrepôtde
DonnéesBiomédicales
Outils derecherche etde
fouille dedonnées
SillageDpi
Labo Pmsi
Radio …ETL
Systèmedeproduction
S.I.H
SomeexamplesofCDWtechnologies
• I2B2 shrine TRANSMART• Informatics forintegrating biologyandthebedside
• Harvard• Translationnal medicine
• STRIDE• Stanford• 3hospitals• Détectiondecohorte
• EHOP• Entrepôt HOPital
[1]M. Cuggia, N. Garcelon, B. Campillo-Gimenez, T. Bernicot, J.-F. Laurent, E. Garin, A. Happe, et R. Duvauferrier, « Roogle: an information retrieval engine for clinical data warehouse », Stud Health Technol Inform, vol. 169, p. 584-588, 2011.
•Entrepôt dedonnéesduCHUdeRennes•1,2millionsdepatients•27millionsde documents•130millionsd’élémentsdedonnées
• Compte-rendus Hospitaliers DossiersUrgence Génétique• Anatomo-pathologie Données deLaboratoires PMSI• Imagerie Dossiersinfirmier• Prescription/administration• Biobanque(CRB)
Quelquescaractéristiquestechniques
• Herbegée dansleSIHduCHU• Technologiesweb,BasededonnéesOracleetMongoDB• Conservationducontexte:dualitéDocument/Donnéesatomiques• Intégrationbaséesur
• lesstandardsd’interopérabilité HL7,PN13,HPRIM• Lesterminologiesmédicale :CIM10,ADICAP,SNOMED,LOINC
• Alimentationaufildel’eau:ETLindustriel:ENOVACOM/TALEND• Moduled’analyseetdefouillededonnées:R• Dé-identificationdesdonnées,traçabilitédesaccès• CompatibleetcomplémentaireàI2B2/SHRINE
25
26
• Traitement automatique des données textuelles • Extraction des concepts• Détection de la négation, de l’incertitude• Expansion sémantique
ResultsCritèresdémographiques
Recherchesurdonnéestextuelles
Traitementautomatiquedulangage
Recherchesurdonnéesstructurées
37
Shneiderman, B., Plaisant, C.Sharpening Analytic Focus to Cope with Big Data Volume and Variety: Ten strategies for data focusing with temporal event sequences (2015)
38
Malik, S., Du, F., Monroe, M., Onukwugha, E., Plaisant, C., Shneiderman, B.Cohort Comparison of Event Sequences with BalancedIntegration of Visual Analytics and StatisticsACM Intelligent User Interfaces (IUI) 2015. Atlanta, GA, USA. (2015)
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement39
5
CentredeDonnéesCliniqueCDC
• Organisation intra-hospitalière « guichet unique »
• Propose une offre de service au sein de chaque établissement pourexploiter les données du SIH grâce à l’entrepôt de données et des outilsde fouille de données
• Rassemble des compétences Informatiques (DSI), réglementaires etméthodologiques (DIM), Métiers (Recherche clinique, épidémiologie).
• Structure tiers de confiance• Accède à l’exhaustivité des données qui lui sont confiées• Effectue les traitements et en assure la traçabilité• Respect strict du cadre éthique, juridique et réglementaire
• Met en œuvre des actions pour l’amélioration de la qualité des donnéesde l’entrepôt. (Ex : optimisationdu codage)
Entrepôtdedonnéesbiomédicales
Outilsd’exploitations(recherched’informationet
fouillededonnées)
Datamarts
DatamartsData
martsDatamarts
PortailrechercheGuichetunique
SystèmeEHOP
Demandes
Traitement
Exploitation
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement42
5
Ri-CDC:Objectifs
• ÉtendrelamiseenplacedesCDCdanschaqueétablissement• Gouvernance,procédures,méthodologied’exploitation,technicité
• Mutualiser,formeretutiliserdesoutilstechnologiques• Pourl’exploitationdubig datahospitalier• Intégrationdesdonnées
• OMICS,Imagerie,e-Santé• SNIIR-AM• Registres• SystèmeNationaldesDonnéesdeSanté
• Faciliterl’exploitationmulticentriquedesdonnées• Réseaudedonnéesnationauxetinternationaux
• Faireevoluer lesoutilsenétablissantunedémarchevertueusederechercheetdéveloppement
Ri-CDC:Objectifs
Projetsderechercheeninformatiquemédicales
Feasibility Screening e-CRF Pharmacovigilance
Electronic Health Record for Clinical Research
FP7/IMIInovativemedicalInitiative
Feasibility Screening e-CRF Pharmacovigilance
EtudeFaisabilité Recrutement E-CRF Pharamaco
vigilance
Electronic Health Record for Clinical Research
EtudeFaisabilité Recrutement E-CRF Pharamaco
vigilance
Electronic Health Record for Clinical Research
EtudeFaisabilité Recrutement E-CRF Pharamaco
vigilance
Rennes:10Paris:230Londres223Genève:22
…
Electronic Health Record for Clinical Research
Plandel’exposé
Définitiondesdonnéesmassivesensanté
Réutilisationdesdonnées:champsd’applications
Lesentrepôtsdedonnéesbiomédicaux
LesCentresdeDonnéesCliniques
Lesréseauxdedonnéesdesantés
Lesperspectivesderechercheetd’enseignement53
5
Dynamiquederecherche• ProjetPEPS :Plateformed’EtudedesProduitsdeSanté
• UtilisationduSNIIR-AMpourréaliserdesétudesdepharmacovigilance• SNIIRAM:Donnéesderemboursement+PMSI(donnéeshospitalières)• Caractérisationdelatrajectoiredesantédespatients
SNIIR AM
Chainage des données
Intégration des données
55
• Projet INSHARE(AOANR)(3ans):• PlateformeCloudd’Intégrationetpartagedesdonnéesensantépourlarecherche
• Protectiontatouagedesdonnées• Intégrationdesdonnéeshospitalières,SNIIRAM,etdesregistresépidémiologiques
• Analysededonnées:• Evaluationdespratiques:ProjetPREPSPACHA(AOPREPSobtenu)
• ObservatoiredesbonnepratiquedeprescriptiondesACO• Cardiophen :Sociétéfrancaise decardiologie
• Phénotypage del’insuffisancecardiaqueafractiond'éjectionpréservéeparlafouillededonnéesmassiveshospitalières
• Intégrationdedonnéesmultidomaine• Signaux:ProjetCardionode
• Intégrationdesdonnéesdesignauxelectrographique issusdedéfibrilateurs implantablescommunicant
• aideàladécision,• détectiondebiomarqueursbaséessurlessignauxélectrocardiographiques
• Biobanque :ProjetIBCB:IntegratingBioClinical dataforBiobanks• Annotationéchantillonsaveclesdonnéesclinico-biologiquedespatients• Fédérationd’entrepots dedonnéesnational
• ITFoc :IT:thefurure ofCancer(Flag-ERA- Digitalmedecine forCancer)• IntégrationdedonnéesCLINIC-OMIC
Dynamiquederecherche
Dynamiquederecherche
• Qualitédesdonnées:ProjetQualimed• Monotoring delaqualitédesdonnées• Utilisationdansl’améliorationducodageduPMSI
• Text mining etTraitementautomatiquedulangage• ProjetBIGCLIN:Big dataforclinical research (Cominlab)• Exploitationdesdonnéescliniquestextuelles pourlarechercheclinique• Machinelearning – Deep learning• Calculintensif
59
Dynamiqued’enseignement
• Nouvellestechnologiesè nouveauxmétiers• MasterdesSciencesdesDonnéesenSanté(2017)SDS
– Datascientists ensanté– 2champsd’applications:rechercheetpilotagedesétablissements
Informatique Biostatistiques
ExpertiseEnsanté
Biostatistiques etbio-mathématiquesInformatique algorithmique etbases dedonnéesBases enépidémiologie etrecherche clinique
TRONC COMMUNSystème d’information en santé
Sémantique des données Intégrationdes données massivesFouille dedonnées – recherched’information
Protection etgouvernance des données ensanté
ParcoursapplicationalaRECHERCHE
Recherche clinique etTranslationelleEpidémiologie
Pharmaco-epidémiologieEpidémiologie génétique
Parcoursapplicationàlal’évaluation etl’analyse
stratégiqueEvaluation médico
économiqueEvaluation des pratiques
STAGE (6mois)
MASTER1(S1/S3)
MASTER2(S3/S4)
MASTERSCIENCESDESDONNEESENSANTE(SDS)
Quefautilretenir?üLeBig dataensantéestconstituédedonnées:
• Hétérogènes• Multi-domaines• multi-échelles• Donnéessensibles
üLesentrepôts sontdesconcentrateurs dedonnéespermettantuneexploitationfacilitéedesdonnéesmaisquinécessitent:
• Unetechnicité:nouveauxmétiers• Desorganisationstiersdeconfiancepermettantleurexploitationsrespectantleprotectiondesdonnées
üCestechnologiespeuventmisesenœuvredansdenombreuxcasd’utilisationenrecherche(maisaussiaudelà)
• Ilssontcomplémentairesdesapprochesclassiquesderecueilpro-actifd’information
üLatendanceestlaconstitutionderéseauxdedonnéespouruneexploitationmulticentrique
üNousensommesaudébut62
Contact:
__________________________________________• Pr.MarcCUGGIA,MD,PhD• LTSI- UMRInserm- UniversitédeRennes1• Equipe-ProjetDonnéesmassivesensanté(DMS)• CampusdeVillejean- Bât.6• 35043RennesCedex- France-• Tel:+33223235350• Portable:+33672025620• Email:[email protected]__________________________________________________
• Départementd'informationMédicale• UFFouille dedonnées• Centred’investigationclinique• CHUPontchaillou• rueH.LeGuilloux- 35033Rennes__________________________________________________