OpenCVでカメラ画像から自己位置認識 (Visual Odometry)

書籍「ROSではじめるロボットプログラミング」を一通り読み終わって、何となくロボットの自己位置認識の重要性を感じている。

オープンソースのロボットアプリケーションフレームワーク『ROS (Robot Operating System)』

ちょっと前からロボット関係で話題(？)になっていたROS(Robot Operating System)というものについて調べ始めた。名前からしてロボット用のOSなのかと思ったらそうじゃなくて、Linux(Ubuntu)上で動くミドルウェア...

ロボット自身の移動量を計測する手法全般を”Odometry“と言うらしい。
中でも1番簡単なやり方は、車輪などの駆動装置の回転数を加算して移動距離とみなす方法。これはWheel Odometryとか呼ばれるらしい。この手法は手軽だがもちろん欠点もあって、車輪が滑るなどして空転した分も移動量として加算されてしまう。そのため、Wheel Odometryではロボットが遠くへ移動するほど、どんどん誤差が溜まってしまう。

これに対して、カメラ画像を使って自己位置認識を行うのがVisual Odometry(VO)という分野。ロボットの自己位置認識では、ステレオカメラやDepthカメラといった3Dカメラを用いたVisual Odometryの手法がたくさんあるようだ。

以前見たコレは単眼カメラで撮影した2Dの画像を用いて自己位置を認識するMonocular Visual Odometry手法の1つ↓

画像認識による位置情報取得 - Semi-Direct Monocular Visual Odometry (SVO)

今日たまたまTwitterのTLで見かけたやつ。単眼のカメラ映像からリアルタイムに位置情報を取得している。論文はこちらそして、GitHubにROSで動作するソースコードが公開されている。

この技術のすごさがやっと分かってきた。
このSVO(Semi-Direct Monocular Visual Odometry)はROSで試せるようですよ↓
http://kivantium.hateblo.jp/entry/2014/07/01/000651

単眼カメラによるVisual Odometry技術に関するチュートリアル、およびOpenCVを使って実装したサンプルが公開されているのを知った↓
https://avisingh599.github.io/vision/visual-odometry-full/
https://avisingh599.github.io/vision/monocular-vo/

ソースコード(C++)はこちら↓

mono-vo

これは、OpenCV 3.0をベースにMonocular Visual Odometry手法(単眼カメラによる自己位置認識)を実装したものです。

アルゴリズム

基本行列の推定にNisterの5点アルゴリズムを使用し、トラッキングにはFAST特徴量とKanade-Lucas-Tomasi Feature Tracker(Lucas–Kanade法)を使用しています。
詳細はこちらのレポートとこちらのブログ記事をご覧ください。

注意事項：
このプロジェクトはまだ相対スケールの推定精度が低いです。そのため、スケール情報はKITTIデータセットのground truthファイルから取得しています。

見たところ、ソースコードはそれほど大規模じゃなさそうだけど、OpenCVを使うとそんなに簡単に書けちゃうものなのだろうか。

追記：中身を読んでみた↓

OpenCVのfindEssentialMat関数を使ったサンプルを読んでみる

本来なら例の書籍を読み進めて少しずつ理解していくつもりだったけど、しんどい。。。書籍はなかなか読み進められなかったので、飛ばし読みしてプログラムを動かしながら徐々にディティールを理解していく方針へ切り替えた(笑)何度か格闘するも上手くいかな...

ここで出てくるKITTIデータセットというのは自動車ビジョン向けの大規模データセットらしいです↓

自動車ビジョン向けの新しい大規模データセット「KITTI Vision Benchmark Suite」

このVisual Odometry技術でロボットの移動量を正確に認識して、さらにその情報から地図を作成するところまで発展するとSLAMなんですかね。(良く解ってない)

2020年5月追記：最近はPythonでVisual OdometryできるpySLAMというのがありますね↓
https://github.com/luigifreda/pyslam

2通りの再構成方法

カメラで撮影した連続画像(動画)から移動量を測るための再構成方法には大きく2通りあるらしい。

indirect (feature-based)：画像から特徴点を抽出し、疎(sparse)な情報のマッチングで再構成する
direct：密(dense)な画素情報をそのまま使って再構成する

上記mono-voのコードは特徴点ベースだから、indirectな方法を実装しているということですね。

単眼カメラによるSLAMで有名なLSD-SLAMは、directな手法↓
http://vision.in.tum.de/research/vslam/lsdslam

LSD-SLAMのソースコードは公開されてはいるけど、まだ試せるほど知識がない。

追記：directな手法とindirectな手法を組み合わせたDirect Sparse Odometry(DSO)という手法があるらしい↓
https://vision.in.tum.de/research/vslam/dso

ソースコードもある↓
https://github.com/JakobEngel/dso

追記：第1回3D勉強会@関東でDSOについて解説されていました↓

mono-vo

アルゴリズム

2通りの再構成方法

関連記事

WordPressのサーバ引っ越し方法を考える

DensePose：画像中の人物表面のUV座標を推定する

頭蓋骨からの顔復元と進化過程の可視化

OpenAR：OpenCVベースのマーカーARライブラリ

UnityでShaderの入力パラメータとして行列を渡す

MeshLab：3Dオブジェクトの確認・変換に便利なフリーウェア

UnityでLight Shaftを表現する

BGSLibrary：OpenCVベースの背景差分ライブラリ

AnacondaとTensorFlowをインストールしてVisual Studio 2015で使う

WordPressプラグインによるサイトマップの自動生成

AndroidもopenGLも初心者さ (でもJavaは知ってるよ)

フィーリングに基づくタマムシの質感表現

OpenCVのバージョン3が正式リリースされたぞ

PGGAN：段階的に解像度を上げて学習を進めるGAN

Windows10でPyTorchをインストールしてVSCodeで使う

trimesh：PythonでポリゴンMeshを扱うライブラリ

ArUco：OpenCVベースのコンパクトなARライブラリ

OpenGV：画像からカメラの3次元位置・姿勢を推定するライブラリ

画像生成AI Stable Diffusionで遊ぶ

Maya API Reference

機械学習のオープンソースソフトウェアフォーラム『mloss(machine learning ope...

MeshroomでPhotogrammetry

Autodesk Mementoでゴジラを3次元復元する

続・ディープラーニングの資料

PyMC：Pythonのベイズ統計ライブラリ

ブログの復旧が難航してた話

bpy-renderer：レンダリング用Pythonパッケージ

ポイントクラウドコンソーシアム

Raspberry Piでセンサーの常時稼働を検討する

UnityでARKit2.0

AmazonEC2のインスタンスをt1.microからt2.microへ移行する

iPhoneで3D写真が撮れるアプリ『seene』

布地のシワの法則性

ROSでガンダムを動かす

MFnMeshクラスのsplit関数

UnityのMonoBehaviourクラスをシングルトン化する

Adobeの手振れ補正機能『ワープスタビライザー』の秘密

スクラッチで既存のキャラクターを立体化したい

Unity Scriptコーディング→Unreal Engine Scriptコーディング

ブログが1日ダウンしてました

TensorFlowでCGを微分できる『TensorFlow Graphics』

ディープラーニング

コメント

個人情報に関するお知らせ