RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME...

6
UNIVERSITE DE STRASBOURG ECOLE DOCTORALE MATHEMATIQUES SCIENCES DE L’INFORMATION ET DE L’INGENIEUR RESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée par : ALI, Nader Mahmoud Elshahat Elsayed (Nom Prénom du candidat) Titre : Localisation et Cartographie Simultanées par Vision Monoculaire pour la Réalité Médicale Augmentée Unité de Recherche : ICube (UMR CNRS 7357) (N° et Nom de l’Unité) Directeur de Thèse : Doignon, Christophe - Professeur (Nom Prénom Grade) Co-Directeur de Thèse: Montiel, José María Martínez - Professeur (Nom Prénom Grade) Localisation : IRCAD, Hôpitaux Universitaires 1, place de l’Hôpital, Strasbourg Thèse confidentielle : NON OUI

Transcript of RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME...

Page 1: RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée

UNIVERSITE DE STRASBOURG

ECOLE DOCTORALE MATHEMATIQUES SCIENCES DE L’INFORMATION ET DE L’INGENIEUR

RESUME DE LA THESE DE DOCTORAT

Discipline : Informatique Spécialité (facultative) :

Présentée par : ALI, Nader Mahmoud Elshahat Elsayed (Nom Prénom du candidat)

Titre : Localisation et Cartographie Simultanées par Vision Monoculaire pour la Réalité Médicale Augmentée

Unité de Recherche : ICube (UMR CNRS 7357) (N° et Nom de l’Unité)

Directeur de Thèse : Doignon, Christophe - Professeur (Nom Prénom – Grade)

Co-Directeur de Thèse: Montiel, José María Martínez - Professeur

(Nom Prénom – Grade)

Localisation : IRCAD, Hôpitaux Universitaires 1, place de l’Hôpital, Strasbourg

Thèse confidentielle : NON OUI

Page 2: RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée

Localisation et Cartographie Simultanées par VisionMonoculaire pour la Réalité Médicale Augmentée

Nader Mahmoud Elshahat Elsayed ALI1,3,Directeurs: Prof. José María Martínez MONTIEL2, and Prof. Christophe

DOIGNON3

1IRCAD (Institut de Recherche contre les Cancers de l’Appareil Digestif), France.2Instituto de Investigación en Ingeniería de Aragón (I3A), Universidad de Zaragoza, Spain.

3ICube (UMR 7357 CNRS), Université de Strasbourg, France.

April, 2018

Résumé de ThèseLa chirurgie mini-invasive (CMI) a connu un gain de popularité très important au cours des deuxdernières décennies. Lors de telles interventions chirurgicales une caméra endoscopique est intro-duite dans la cavité abdominale à travers de petites incisions effectuées sur la peau du patient,ce qui permet d’observer les structures internes de ce dernier, affichées sur un moniteur dans lasalle d’opération. Les avantages de la CMI par rapport à la chirurgie traditionnelle (ouverte) sontnombreux : un séjour hospitalier plus court, de plus petites cicatrices (car seules des incisionsde quelques millimètres sont nécessaires), moins de saignements, et de ce fait, un risque de trau-matisme post-chirurgical bien moindre. Néanmoins, bien que de nombreux bénéfices de la CMIsoient indéniables pour le patient, le geste chirurgical à exécuter est sensiblement plus difficile,et nécessite une grande expérience. Les principales difficultés rencontrées sont les suivantes : 1)la coordination œil-main dans une scène 3D observée sur un affichage 2D avec un point de vuedifférent des yeux du chirurgien. Il convient alors de surmonter le réflexe naturel pour diriger lesyeux sur l’activité des mains; 2) la perte de la vision directe. En effet, le chirurgien ne regarde quedes images 2D sur le moniteur et cela peut provoquer des perceptions erronées, en particulier laperception de la profondeur qui est cruciale pour évaluer correctement la relation spatiale entre lestissus; 3) le champ de vision (FOV) fourni par la caméra endoscopique est sensiblement plus petitque celui qu’offre la vision directe lors d’un geste par chirurgie ouverte; 4) la vision endoscopiquene fournit pas d’informations sur les structures anatomiques critiques telles que les tumeurs et lesvaisseaux puisqu’ils sont localisés sous la surface des organes. Par conséquent, la CMI peut s’avérerparticulièrement fastidieuse et augmente significativement la durée des opérations.

Pour surmonter les contraintes inhérentes aux interventions par la CMI, cette thèse se concentresur l’étude et l’apport de la localization et de la cartographie dense et simultanées par la visionmonoculaire (en anglais SLAM - Simultaneous Localisation and Mapping). Précisément, dans lecontexte d’une intervention par la CMI, les deux étapes fondamentales: 1) la reconstruction 3Dintra-opératoire dense du champ opératoire et 2) la localisation de l’endoscope dans la cavité ab-dominale du patient, doivent être réalisées en temps réel. Le SLAM, qui est un sujet populaireen robotique et en vision par ordinateur, est une approche qui permet de construire et de mettreà jour une reconstruction 3D (appelée aussi cartographie ou map) d’un environnement inconnutout en réalisant dans le même temps un suivi de la pose relative de la caméra par rapport à cettecarte. Ces informations sur la localisation et la cartographie sont indispensables dans la perspec-tive d’offiri une assistance par le guidage intra-opératoire pendant une intervention par la CMI.La représentation de la scène chirurgicale 3D dense compense le problème lié à la limitation duchamp de vision et elle améliore significativement la perception de la profondeur que peut avoirle chirurgien au cours du geste. En ajoutant à cela l’estimation en temps réel de la pose relativede l’endoscope, nous disposons alors de tous les ingrédients utiles à la conception d’un systèmecomplet de guidage par la réalité augmentée (RA).

1

Page 3: RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée

La RA permet de superposer à l’image endoscopique du patient un modèle géométrique préopéra-toire, véritable clone virtuel du patient. C’est du moins une des multiples manières de restituerdes informations utiles pour le chirurgien. A cette fin, des clones virtuels sont créés à partirde différentes modalités d’imagerie telles que la tomodensitométrie (CT) ou la résonance magné-tique (MRI). De cette manière, le chirurgien a la sensation de voir son patient en transparence.La RA peut fournir une information décisive durant la CMI comme par exemple l’identificationperopératoire de structures d’intérêt non visibles (tumeurs, vaisseaux et nerfs,...). Cela permetau chirurgien de ne plus devoir adapter mentalement les informations extraites des images médi-cales (CT/MRI) à la scène, ou bien de le guider durant les résections en affichant les trajectoiresde coupe et les marges préalablement planifiées sur les modèles préopératoires, en rendant sûr etoptimal les placements des trocarts, également préalablement planifiés sur un modèle préopératoire.

Le travail préliminaire que nous avons présenté dans [1], a introduit une approche fondée surle SLAM qui permet de visualiser avec précision les modèles préopératoires intraopératoires sur lapeau du patient, en utilisant seulement un Tablet-PC. Dans ce travail, une version non dense (diteclairsemée ou éparse) du SLAM visuel est utilisée pour localiser de manière robuste la positionrelative de la caméra du Tablet-PC par rapport au corps du patient. Cette version fonctionnesur des appareils mobiles et est destinée à la perception de scènes de petites tailles. En vue del’utiliser dans la salle d’opération par le personnel médical, nous avons développé un ensemble detraitements, allant de l’enregistrement à la visualisation, et qui nécessite des interactions minimalesde la part du personnel médical. En effet, les interactions avec le chirurgien sont réduites àl’identification de 4 à 6 références anatomiques au début de la procédure qui sont utilisées poureffectuer l’enregistrement des données préopératoires. Contrairement aux systèmes existants devisualisation par RA similaires, le système proposé ici effectue aussi le suivi de la caméra, lareconstruction peu dense de la scène observée, l’enregistrement et le rendu visuel par la RA entemps réel. De plus, il est robuste à un fort taux d’occultations de la scène et ne nécessite pas dedispositifs de suivi externes ni de repères (marqueurs) artificiels sur la peau du patient pour localiserla caméra. Ce système a été rigoureusement évalué dans une série d’expériences. Premièrement, laprécision géométrique a été évaluée au moyen de plusieurs expériences avec des marqueurs ajoutéspour disposer d’une vérité terrain; les premières expériences ont été effectuées in vivo sur descochons, les secondes sur un fantôme (ou mannequin). Une évaluation par le personnel médicalet une estimation du temps de calcul ont été réalisées avec deux volontaires, chacun d’entre euxreposant sur la table pendant que le praticien tenait le Tablet-PC et se déplaçait tout autour. LaFigure 1 montre une visualisation par la RA in vivo de données préopératoires sur un volontaireet sur un cochon.

(a) (b) (c)

Figure 1: Visualisation par réalité augmentée (RA) de données préopératoires, proposée dans [1].(a-b) Superposition des os, foie, reins gauche et droit sur un volontaire, pour deux points de vue.(c) Visualisation par la RA sur un cochon.

Dans un deuxième temps, nous nous sommes interessés aux images endoscopiques. Les imagesendoscopiques sont très difficiles à exploiter pour calculer une représentation dense de la scène eteffectuer le suivi de l’endoscope. En effet, parmi les difficultés à surmonter on peut citer le faitque de vastes régions à reconstruire sont très faiblement texturées, que l’illumination des surfacesen question varie énormément pour différentes prises de vue, avec parfois des zones spéculaires surl’image (ceci est dû principalement à la source de lumière utilisée qui, directement fixée à l’extrémitéde l’endoscope, est dirigée vers la scène). De plus, les recalages entre les vues et la scène sontfortement perturbés par les déformations des tissus et les mouvements brusques de l’endoscopedans la cavité abdominale. Nous apportons ici notre première contribution à l’exploitation duSLAM visuel dans le domaine médical. En utilisant un réglage approprié des différents paramètres

2

Page 4: RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée

du système actuel, les performances de la partie suivi sont excellentes, comme en attestent lesrésultats communiqués dans [2]. Cependant, nous avons été confronté à une limitation de laqualité de la partie cartographie en terme de densité. En effet, la reconstruction de la scènechirurgicale contient très peu de points 3D en raison du faible nombre d’amers fiables dans la scène(Fig. 2(b)). La faible densité de la carte résultante empêche son utilisation pour d’autres tâchesque la localisation de l’endoscope dans la cavité abdominale. Ainsi, notre deuxième contributiona consisté à proposer un algorithme de reconstruction qui améliore significativement la densitéde la carte et permet une reconstruction robuste de la scène chirurgicale avec une précision de4,9 mm [3, 4] (Fig. 2(c)). Pour cela, nous exploitons la phase d’exploration initiale de la cavitéabdominale qui est typiquement effectuée par le chirurgien avant l’intervention, et acquérons unensemble d’images clés sélectionnées. Ces images clés sont utilisées pour estimer la pose relativeet construire la cartographie à l’aide d’une technique d’optimisation par ajustement de faisceaux(Bundle Adjustement - BA). Après la phase d’exploration initiale, parmi les images clés acquises,celles pour lesquelles des correspondances ont été trouvées en utilisant un algorithme de patch-matching sans amer, sont associées pour former des couples d’images stéréo. Grâce au suivi robustede l’endoscope et à la représentation de la scène dense obtenue, le calcul de la visualisation (parRA intraopératoire sans marqueur) des structures internes du foie (Fig. 2 (d)) est exécuté entemps réel. La seule exigence est de transformer les modèles intra-opératoires ou préopératoires enune reconstruction dense (Fig. 2(e)). Une fois initialisée, la visualisation par RA est maintenue,pendant que les poses relatives sont estimées en continu pendant que l’endoscope explore la cavitéabdominale (Fig. 2 (f)).

(a) (b) (c)

(d) (e) (f)

Figure 2: Reconstruction de la scène chirurgicale. (a) Une image (échantillon) de la séquence.(b) Reconstruction clairsemée par SLAM visuel. (c) Reconstruction dense par SLAM visuel. (d)Modèles de veines hépatiques segmentés semi-automatiquement à partir d’images CT. (e) Recalagedu modèle intra-opératoire du foie avec une reconstruction dense. (e) Visualisation par RA sansmarqueur de la veine hépatique.

Dans [5], nous avons proposé une solution toujours basée sur le SLAM visuel et la reconstructiondense en temps réel, capable de faire face aux défis de l’endoscopie et qui a été appliqué avecsuccès à la laparoscopie in vivo. Le système proposé prolonge notre travail précédent [3, 4], maisen empruntant une approche de type multi-vue, dense et stéréoscopique pour la récupérationde la géométrie de la scène. Le système initial est amélioré tant du point de vue technique queméthodologique de plusieurs façons. Tout d’abord, une implémentation spécifique s’appuyant sur laprogrammation multitâche (multithreading) est mis en oeuvre : un nouveau fil d’exécution (thread)est ajouté au système en place et réalise la reconstruction dense de scène. Il s’exécute en directet en parallèle des autres fils d’exécution de suivi (tracking thread) et de cartographie (mapping

3

Page 5: RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée

SLAM thread). Ceci évite de devoir attendre la fin de l’exploration de la cavité abdominale pourdébuter le traitement dit de densification, autrement dit d’affiner la reconstruction dense. Nousprésentons ici une nouvelle technique qui permet de réduire significativement le temps de calcul dela tâche de densification de la reconstruction. Pour cela, nous sélectionnons parmi toutes les imagesde la vidéo utilisée, un sous-ensemble d’images représentatif de notre scène, appelé ensemble desimages clés. Ensuite, pour chacune de ces images clés, une carte de profondeur est calculée enutilisant les images contenues dans une petite fenêtre temporelle, juste avant et juste après cetteimage clé (appelé groupe de trames). Ces cartes de profondeurs sont ensuite fusionnées pour créerune unique reconstruction. La fenêtre temporelle est automatiquement ajustée afin que la cartede profondeur en question puisse être mise à jour de manière robuste : typiquement, si la camérabouge lentement (ce qui ce traduira par une parallaxe inter-image faible), la fenêtre est agrandieafin que la carte de profondeur puisse être calculée correctement. Grâce à cela, on s’assure quele changement de point de vue de la caméra est suffisant pour ne pas générer des erreurs tropimportantes dans le calcul de la profondeur. Pour calculer la carte de profondeur, nous utilisonsune méthode variationnelle qui est robuste aux forts changements d’illumination. Cette approcheest très différente des travaux précédents sur la densification utilisant le SLAM, qui supposent qu’iln’y a aucun changement dans la luminosité de chaque pixel au cours du temps. De plus, la méthodevariationnelle que nous utilisons permet d’appréhender les variations de textures et de reconstruiredes cartes de profondeurs présentant des discontinuités, ce qui se produit fréquemment dans lesscènes observées par laparoscopie où les organes et les outils chirurgicaux peuvent être occultésles uns par les autres. Notre chaîne de traitements fournit une reconstruction globale et cohérentede la scène chirurgicale en fusionnant et en alignant les cartes de profondeur des images clés enligne. Le système complet a été validé expérimentalement et évalué sur des séquences vidéo dela cavité abdominale de porcs. En outre, son exécution nécessite un temps de calcul raisonnableen utilisant les processurs graphiques récents comme unités d’exécution de calculs. De plus, nousavons effectué une comparaison avec d’autres méthodes de SLAM visuel denses et les performancesque nous obtenons sont supérieures en termes de précision, de densité et de réduction du temps decalcul.

En conclusion, grâce à la sélection efficace des trames vidéo pour générer une reconstructiondense fondée sur des critères de parallaxe, la méthode proposée peut surpasser les reconstructionspurement stéréoscopiques, car le groupe de trames peut fournir une plus grande parallaxe endo-scopique. Les figures 3(b-d) montrent les résultats de la reconstruction dense et incrémentale de lasurface du foie, utilisée pour calculer la visualisation à l’aide de la RA (Fig. 3(d)). La pose estiméede l’endoscope (frustum rouge dans la Fig. 3(d)) est alors utilisée pour mettre à jour l’angle devue du modèle virtuel pour la RA (Fig. 3(e)).

4

Page 6: RESUME DE LA THESE DE DOCTORAT - unistra.fred.math-spi.unistra.fr/.../2018/Resume_M._ALI.pdfRESUME DE LA THESE DE DOCTORAT Discipline : Informatique Spécialité (facultative) : Présentée

(a)

(b)(c)

(d)

(e)

Figure 3: Suivi visuel direct de l’endoscope et reconstruction dense incrémentale. (a) Échantillond’image d’une séquence exploratoire. (b-d) Reconstructions denses et incrémentales de la surfacedu foie. (e) Visualisation par RA pour une pose estimée de la caméra endoscopique (frustum rouge)en (d).

Publications[1] Nader Mahmoud, Óscar G. Grasa, Stéphane A. Nicolau, Christophe Doignon, Luc Soler,

Jacques Marescaux, and J. M. M. Montiel. On-patient see-through augmented reality basedon visual slam. International Journal of Computer Assisted Radiology and Surgery, 12(1):1–11,Jan 2017.

[2] Nader Mahmoud, Iñigo Cirauqui, Alexandre Hostettler, Christophe Doignon, Luc Soler,Jacques Marescaux, and J. M. M. Montiel. Orbslam-based endoscope tracking and 3d recon-struction. In Computer-Assisted and Robotic Endoscopy, pages 72–83, Cham, 2017. SpringerInternational Publishing.

[3] Nader Mahmoud, Alexandre Hostettler, Toby Collins, Luc Soler, Christophe Doignon, andJ. M. M. Montiel. Slam based quasi dense reconstruction for minimally invasive surgeryscenes. In ICRA 2017 C4 Surgical Robots: Compliant, Continuum, Cognitive, and Collabo-rative. arXiv:1705.09107, 2017.

[4] Nader Mahmoud, Toby Collins, Alexandre Hostettler, Luc Soler, Christophe Doignon, andJ. M. M. Montiel. Quasi-dense reconstruction from monocular laparoscopic video. In Surgeticaconference, 2017.

[5] Nader Mahmoud, Toby Collins, Alexandre Hostettler, Luc Soler, Christophe Doignon, andJ. M. M. Montiel. Live tracking and dense reconstruction for hand-held monocular endoscopy.IEEE Trans. on Medical Imaging (Submitted), 2018.

5