.wp-block-jetpack-rating-star span.screen-reader-text { border: 0; clip: rect(1px, 1px, 1px, 1px); clip-path: inset(50%); height: 1px; margin: -1px; overflow: hidden; padding: 0; position: absolute; width: 1px; word-wrap: normal; }

R-CNN (Regions with CNN features)：ディープラーニングによる一般物体検出手法

NegativeMind

6年前

今まで一般物体認識や一般物体検出にはあんまり興味が無かったんだけど、YOLOとかSSD、Mask R-CNNといった手法をベースにして特定のタスクを解く研究も結構登場しているので、その体系を知りたくなってきた。

幸い、ディープラーニングによる一般物体検出の研究はもう5, 6年経っていてネット上に教材が豊富なので、色々と漁りながら勉強してみる。スクラップブックみたいな感じで色んな人による解説資料を引用して並べるとディティールを補完しやすい。

一般物体検出(Generic Object Detection)

そもそも一般物体検出(Generic Object Detection)とは、画像に何が写っているかを識別する一般物体認識(Generic Object Recognition)に対して、さらに物体が画像のどの位置に写っているかも特定すること。
人の顔など、画像の中から特定の物体を検出して位置を特定する手法は特定物体認識と呼ばれる。

2013年に登場したR-CNN以降、一般物体検出の研究はディープラーニングの時代に突入した。
ディープラーニングによる一般物体検出手法の発展の時系列をまとめた図がGitHubで公開されている↓

赤字で表記されているのが後のランドマークとなる手法で、図の作者いわく「必読」だそうです。

R-CNNからMask R-CNNまでの各手法の継承関係を概観するのにこちらのスライドの6ページ目の系譜図がとても分かりやすかった↓

系譜図のように、まず大きく分けて2つのパラダイムがある。

NOT End-to-Endな手法：領域候補の検出と領域の分類を別々の手法で処理する
End-to-Endな手法：領域候補の検出と領域の分類を1つのニューラルネットワークで処理する

Faster R-CNNやYOLOからEnd-to-Endが主流となった。

では、ディープラーニングによる一般物体検出の始祖となるR-CNNから勉強しよう。

R-CNN (Regions with CNN features)

R-CNNはCVPR 2014で発表された論文 Rich feature hierarchies for accurate object detection and semantic segmentationで提案された一般物体検出手法。
論文で使われた実装はGitHubで公開されているけど、MATLABコードが含まれてるのよね↓
https://github.com/rbgirshick/rcnn

この手法の1番のポイントは、CNN(畳み込みニューラルネットワーク)を特徴抽出器として利用した点。
R-CNNの処理の全体像はこちらのスライドの30ページがまとまっていて分かりやすい↓

この図にそって処理の流れを4ステップで段階的に説明すると…

1. Input image (画像を入力する)

一般物体検出処理にかける画像を入力する。

2. Extract region proposals (物体領域の候補を抽出する)

入力画像からSelective Searchで物体が写っている領域の候補(region proposals)矩形を2000個ほど抽出し、CNNの入力画像とする。Selective Searchであらかじめ候補領域を絞り込むことで、画像全体に隈なく認識Windowを走らせるよりも高速化を図っている。
CNNの入力サイズ(ピクセル数)は固定なため、Selective Searchで抽出した領域はCNNの入力サイズに合わせて変形・リサイズする。

Selective Search

ここで使うSelective Searchは、ICCV 2011で発表された論文 Segmentation as Selective Search for Object Recognitionで提案されたもので、セグメンテーション手法をベースにしたObjectness (物体らしいもの)検出手法。

Selective Searchの処理の流れはこちらのスライドの10, 11ページ目が分かりやすい↓

スライドのように、Selective Searchはピクセルレベルで類似する領域を階層的に結合して1つの物体候補領域を抽出し、そのBounding Boxを出力する。
結合前の初期セグメンテーションには、2004年に提案されたGraph Based Image Segmentationが使われる。Dlibで言うとsegment_image関数↓
http://dlib.net/imaging.html#segment_image

DlibにはSelective Searchもfind_candidate_object_locations関数として実装されている↓
http://dlib.net/imaging.html#find_candidate_object_locations

そしてfind_candidate_object_locations関数をpythonで利用するサンプルコードも公開されている↓
http://dlib.net/find_candidate_object_locations.py.html

3. Compute CNN features (CNNで特徴量を抽出する)

特徴抽出器として使うCNNには、ImageNetデータセットで学習した一般物体認識のネットワークを流用する。(当時の代表的なCNNアーキテクチャであるAlexNetやVGG)

fine-tuning

しかし、一般物体認識用に学習したCNNをそのまま使うと、学習したクラスだけしか認識できず、学習していないクラスの画像は1番似ているクラスに分類(Classification)してしまう。これを防ぐために、ImageNetで学習したネットワークパラメータを初期値として別のデータセット(Pascal VOC)で学習を行う。
※これをfine-tuningまたは転移学習(transfer learning)と呼ぶ。

そしてこのCNNで分類(Classification)まで行うのではなく、出力層の1つ前の層である全結合層の値を特徴量(ベクトル)とする。

4. Classify regions (領域に何が写っているか分類する)

CNNで抽出した特徴量を使い、SVM(Support Vector Machine)によって領域を分類する。
SVMではyes, noの2クラス分類を行うだけなので、分類したい物体の種類の数だけSVMを学習する必要がある。
SVMの結果からその領域がどの物体なのか、あるいは背景なのかを判定する。

その後、回帰(Regression)によって物体のBounding Boxを推定する。

R-CNNの欠点

要するにR-CNNは、Selective Searchで大量に検出した物体領域候補(region proposals)を無理やりリサイズしてCNNで特徴抽出し、1つ1つをSVMで分類(Classification)するというもの。

R-CNNはディープラーニング以前の一般物体検出手法に比べて認識精度を大きく向上させたが、画像1枚あたりの推定時間がGPUを使っても10秒以上かかってしまう。
また、CNNのfine-tuning、分類を行う複数のSVM、Bounding Boxの回帰と、プロセスごとに別々に学習する必要がある。

参考図書

こちらの書籍の改訂第2版がディープラーニングの最近の動向まで簡潔にまとまっていて分かりやすかった↓

第2版ではR-CNNから始まる一般物体検出の歴史が解説されている他、前の版にあったボルツマンマシンの件がバッサリとカットされていて読みやすい(笑)

ところで、論文の発表時期を学会の開催時期とするかarXivでの公開時期とするかで結構時差が生まれるな。
R-CNNのarXiv公開は2013年11月だけど、CVPR2014の開催は2014年6月。

次はFast R-CNNについてまとめようと思う↓

Fast R-CNN：ディープラーニングによる一般物体検出手法

R-CNNに続き、Fast R-CNNのアルゴリズムについて勉強しよう。再びこちらの系譜図を引用する↓ 系譜図にはR-CNNとFast R-CNNの間にSPPnetというのがあるのでSPPnetについて軽く触れておく。

(必読推奨のOverFeatをスルーしている)

ディープラーニングによる一般物体検出アルゴリズムまとめ

これまで勉強したディープラーニングによる一般物体検出手法のアルゴリズム一覧。

一般物体検出(Generic Object Detection)

R-CNN (Regions with CNN features)

1. Input image (画像を入力する)

2. Extract region proposals (物体領域の候補を抽出する)

Selective Search

3. Compute CNN features (CNNで特徴量を抽出する)

fine-tuning

4. Classify regions (領域に何が写っているか分類する)

R-CNNの欠点

参考図書

関連記事

書籍『ジ・アート・オブ・シン・ゴジラ』の発売日が2016年12月30日(金)に決定

GoB：ZBrushとBlenderを連携させるアドオン

PythonでBlenderのAdd-on開発

PyMC：Pythonのベイズ統計ライブラリ

Python拡張モジュールのWindows用インストーラー配布サイト

Digital Emily Project：人間の顔をそっくりそのままCGで復元する

libigl：軽量なジオメトリ処理ライブラリ

OpenMesh：オープンソースの３Dメッシュデータライブラリ

書籍『「あなた」という商品を高く売る方法』読了

3Dスキャンに基づくプロシージャルフェイシャルアニメーション

機械学習のオープンソースソフトウェアフォーラム『mloss(machine learning ope...

立体視を試してみた

OpenMVS：Multi-View Stereoによる3次元復元ライブラリ

OpenGVの用語

Windows10でPyTorchをインストールしてVSCodeで使う

OpenCVでiPhone6sのカメラをキャリブレーションする

ArUco：OpenCVベースのコンパクトなARライブラリ

機械学習について最近知った情報

Unreal Engineの薄い本

Alice Vision：オープンソースのPhotogrammetryフレームワーク

BlenderProc：Blenderで機械学習用の画像データを生成するPythonツール

ニューラルネットワークで画像分類

書籍『伝わる イラスト思考』読了

書籍『開田裕治 怪獣イラストテクニック』

WordPressプラグインによるサイトマップの自動生成

タマムシっぽい質感

Web経由でRaspberry PiのGPIOを操作したい

KelpNet：C#で使える可読性重視のディープラーニングライブラリ

Regard3D：オープンソースのStructure from Motionツール

OpenGVのライブラリ構成

Deep Learningとその他の機械学習手法の性能比較

Point Cloud Consortiumのセミナー「3D点群の未来」に行ってきたよ

cvui：OpenCVのための軽量GUIライブラリ

C++始めようと思うんだ

SONYの自律型エンタテインメントロボット『aibo』

為替レートの読み方 2WAYプライス表示

Kinect for Windows v2の日本価格決定

Live CV：インタラクティブにComputer Visionコーディングができるツール

ブログをGoogle App EngineからAmazon EC2へ移行

UnityのTransformクラスについて調べてみた

ManimML：機械学習の概念を視覚的に説明するためのライブラリ

OpenCVで顔のランドマークを検出する『Facemark API』

書籍『伝わるイラスト思考』読了

書籍『開田裕治怪獣イラストテクニック』