大阪電気通信大学

AR技術を用いた内視鏡下経鼻的手術支援システムにおけるVisual SLAMの有効性

はじめに

 内視鏡下経鼻的手術には、いくらかのリスクがある。例えば、下垂体の周辺には重要な神経や血管が存在し、傷つけてはならない。または、手術の時間を出来るだけ短くしなければならない。そのため、AR技術を用いた手術の支援システムを開発することによって、リスクを最小限に抑えることができると思われる。そこで、患者の患部の3Dモデルなどの何かしらのオブジェクトを内視鏡の映像に重畳表示しなければならないが、内視鏡の位置姿勢を求めなければない。その方法として、Visual SLAMを用いることができるのではないかと考えた。本研究では、5つのVisual SLAMを評価することによって、どのVisual SLAMがこの支援システムにおいて有効性を持つのかを求める。Visual SLAMとは、自己位置推定と環境地図作成を同時に行うSLAMの一種で、その中でも単眼カメラを入力にしたものである。

内視鏡下経鼻的手術

  内視鏡下経鼻的手術とは、脳の下にある腫瘍を内視鏡を用いて取り除く手術のことである。この手術方法が確立されていない頃は、開頭手術をしなければならなかった。開頭手術は頭蓋骨を切り開くため、リスクが高かった。しかし、内視鏡下経鼻的手術は鼻から内視鏡やハサミを入れて腫瘍にアプローチするため、開頭手術よりも遥かに低侵襲で手術をすることができるようななった。その代わりに、術者は鼻の中を直接見ることができないため、内視鏡を通してその状況を把握する。

AR技術を用いた内視鏡下経鼻的手術の支援システム

 本研究でいう内視鏡下経鼻的手術の支援システムとは、リアルタイムで変化する内視鏡の位置姿勢情報を基に、その映像に3Dモデルを重畳表示し、実際の映像には見えていない患部を透過して見せるものである。Visual SLAMは、カメラの位置姿勢を推定する手法の一つであり、内視鏡の映像を用いて内視鏡の位置姿勢を推定する。術者に表示するには、仮想空間にカメラとオブジェクトを正しい位置に配置し、Visual SLAMの推定結果を仮想空間内のカメラに適用する。そのカメラの映像に、内視鏡の映像、3Dオブジェクトの順で描画することで、3Dモデルを重畳表示している。

研究内容

 本研究では、内視鏡の映像を入力とするため、使用するデータセットはEndoSLAMが最も良いと思われる。EndoSLAMとは、「EndoSLAM Dataset and An Unsupervised Monocular Visual Odometry and Depth Estimation Approach for Endoscopic Videos: Endo-SfMLearner」の論文で作成された、SLAMとSfMLearnerのための内視鏡用のデータセットである。その中でも、Stomach、Small Intestine、Colonを使用する。下の画像は、Stomachの1フレーム目の画像である。また、評価対象となるVisual SLAMは、ORB-SLAM2、ORB-SLAM3、LSD-SLAM、GCNv2 SLAM、ORB-SLAM3 + Monodepth2の5つである。

ORB-SLAM2

 ORBで画像から特徴点を抽出し、位置姿勢推定と環境地図作成を行うORB-SLAMから、単眼カメラ以外にステレオカメラやRGB-Dカメラが使えるようになったSLAM。

Raul Mur-Artal and Juan D. Tardos “ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras”

ORB-SLAM3

 ORB-SLAM2からIMUが使えるようになり、環境地図を複数持つことができ、精度と速度が向上したSLAM。

Carlos Campos, Richard Elvira, Juan J. Gómez Rodríguez and José M. M. Montiel, “ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM”

LSD-SLAM

 特徴点を求めず画像全体の輝度を用いるSLAM。

J. Engel, T. Schöps and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM”

GCNv2 SLAM

 ORB-SLAM2の特徴点抽出を機械学習のモデルによって行うSLAM。

J. Tang, L. Ericson, J. Folkesson and P. Jensfelt, “GCNv2: Efficient Correspondence Prediction for Real-Time SLAM”

ORB-SLAM3 + Monodepth2

 ORB-SLAM3に単眼深度推定の技術を加えることで、単眼カメラでありながら深度画像も入力に加えることができるようにしたSLAM。

https://github.com/jan9419/ORB_SLAM3_Monodepth

結果

データセット名ORB-SLAM2ORB-SLAM3LSD-SLAMGCNv2 SLAMORB-SLAM3 + Monodepth2
Stomach××××
Small Intestine××××
Colon××××
3つのデータセットをそれぞれのSLAMに入力した結果

〇:最初から最後まで自己位置姿勢推定できた

△:一部のフレームで自己位置姿勢推定できた

×:最初から最後まで自己位置姿勢推定できなかった

考察

 5つのSLAMにEndoSLAMのデータセットを入力したところ、5つとも最初から最後まで自己位置姿勢推定できず、それに伴い誤差を測ることができなかった。これにより、これらのSLAMは内視鏡下経鼻的手術の支援システムにおいて有効性を持たないことが分かった。原因として考えられるものは、カメラの速度と画像の特徴量だと思われる。1つ目に、カメラの速度が速すぎるとシステムが初期化する前にその位置と離れてしまう。2つ目に、体内の映像から特徴点を抽出することは困難であるため機能しなかった。逆に、GCNv2 SLAMが3つのデータセットで△であるのは、特徴点抽出を機械学習のモデルで行ているからだと考えられる。これらのことから、SLAMを内視鏡下経鼻的手術の支援システムに用いることは、現実的でないと考えられる。

おわりに

 AR技術を用いた内視鏡下経鼻的手術の支援システムにおいてVisual SLAMは、有効性を持たないことが分かった。そのため、今後の課題としてはより精度の高い別の手法を用いる必要があると考えられる。例えば、マーカやモーションセンサーをVisual SLAMと組み合わせるなどである。

作者プロフィール

間島 悠登

大阪電気通信大学

ヒューマンインターフェース研究室

コメント