R-CNN (Regions with CNN features):ディープラーニングによる一般物体検出手法

今まで一般物体認識一般物体検出にはあんまり興味が無かったんだけど、YOLOとかSSDMask R-CNNといった手法をベースにして特定のタスクを解く研究も結構登場しているので、その体系を知りたくなってきた。

幸い、ディープラーニングによる一般物体検出の研究はもう5, 6年経っていてネット上に教材が豊富なので、色々と漁りながら勉強してみる。スクラップブックみたいな感じで色んな人による解説資料を引用して並べるとディティールを補完しやすい。

一般物体検出(Generic Object Detection)

そもそも一般物体検出(Generic Object Detection)とは、画像に何が写っているかを識別する一般物体認識(Generic Object Recognition)に対して、さらに物体が画像のどの位置に写っているかも特定すること。
人の顔など、画像の中から特定の物体を検出して位置を特定する手法は特定物体認識と呼ばれる。

2013年に登場したR-CNN以降、一般物体検出の研究はディープラーニングの時代に突入した。
ディープラーニングによる一般物体検出手法の発展の時系列をまとめた図がGitHubで公開されている↓

deep learning object detection

赤字で表記されているのが後のランドマークとなる手法で、図の作者いわく「必読」だそうです。


スポンサーリンク


R-CNNからMask R-CNNまでの各手法の継承関係を概観するのにこちらのスライドの6ページ目の系譜図がとても分かりやすかった↓

系譜図のように、まず大きく分けて2つのパラダイムがある。

  • NOT End-to-Endな手法:領域候補の検出領域の分類を別々の手法で処理する
  • End-to-Endな手法:領域候補の検出領域の分類を1つのニューラルネットワークで処理する

Faster R-CNNYOLOからEnd-to-Endが主流となった。

では、ディープラーニングによる一般物体検出の始祖となるR-CNNから勉強しよう。

R-CNN (Regions with CNN features)

R-CNNCVPR 2014で発表された論文 Rich feature hierarchies for accurate object detection and semantic segmentationで提案された一般物体検出手法。
論文で使われた実装はGitHubで公開されているけど、MATLABコードが含まれてるのよね↓
https://github.com/rbgirshick/rcnn

この手法の1番のポイントは、CNN(畳み込みニューラルネットワーク)を特徴抽出器として利用した点。
R-CNNの処理の全体像はこちらのスライドの30ページがまとまっていて分かりやすい↓

この図にそって処理の流れを4ステップで段階的に説明すると…

1. Input image (画像を入力する)

一般物体検出処理にかける画像を入力する。

2. Extract region proposals (物体領域の候補を抽出する)

入力画像からSelective Searchで物体が写っている領域の候補(region proposals)矩形を2000個ほど抽出し、CNNの入力画像とする。Selective Searchであらかじめ候補領域を絞り込むことで、画像全体に隈なく認識Windowを走らせるよりも高速化を図っている。
CNNの入力サイズ(ピクセル数)は固定なため、Selective Searchで抽出した領域はCNNの入力サイズに合わせて変形・リサイズする。

Selective Search

ここで使うSelective Searchは、ICCV 2011で発表された論文 Segmentation as Selective Search for Object Recognitionで提案されたもので、セグメンテーション手法をベースにしたObjectness (物体らしいもの)検出手法。

Selective Searchの処理の流れはこちらのスライドの10, 11ページ目が分かりやすい↓


スポンサーリンク

スライドのように、Selective Searchはピクセルレベルで類似する領域を階層的に結合して1つの物体候補領域を抽出し、そのBounding Boxを出力する。
結合前の初期セグメンテーションには、2004年に提案されたGraph Based Image Segmentationが使われる。Dlibで言うとsegment_image関数↓
http://dlib.net/imaging.html#segment_image

DlibにはSelective Searchfind_candidate_object_locations関数として実装されている↓
http://dlib.net/imaging.html#find_candidate_object_locations

そしてfind_candidate_object_locations関数をpythonで利用するサンプルコードも公開されている↓
http://dlib.net/find_candidate_object_locations.py.html

3. Compute CNN features (CNNで特徴量を抽出する)

特徴抽出器として使うCNNには、ImageNetデータセットで学習した一般物体認識のネットワークを流用する。(当時の代表的なCNNアーキテクチャであるAlexNetVGG)

fine-tuning

しかし、一般物体認識用に学習したCNNをそのまま使うと、学習したクラスだけしか認識できず、学習していないクラスの画像は1番似ているクラスに分類(Classification)してしまう。これを防ぐために、ImageNetで学習したネットワークパラメータを初期値として別のデータセット(Pascal VOC)で学習を行う。
※これをfine-tuningまたは転移学習(transfer learning)と呼ぶ。

そしてこのCNNで分類(Classification)まで行うのではなく、出力層の1つ前の層である全結合層の値を特徴量(ベクトル)とする。

4. Classify regions (領域に何が写っているか分類する)

CNNで抽出した特徴量を使い、SVM(Support Vector Machine)によって領域を分類する。
SVMではyes, noの2クラス分類を行うだけなので、分類したい物体の種類の数だけSVMを学習する必要がある。
SVMの結果からその領域がどの物体なのか、あるいは背景なのかを判定する。

Classification

その後、回帰(Regression)によって物体のBounding Boxを推定する。

boundary box regression

R-CNNの欠点

要するにR-CNNは、Selective Searchで大量に検出した物体領域候補(region proposals)を無理やりリサイズしてCNNで特徴抽出し、1つ1つをSVMで分類(Classification)するというもの。

R-CNNはディープラーニング以前の一般物体検出手法に比べて認識精度を大きく向上させたが、画像1枚あたりの推定時間がGPUを使っても10秒以上かかってしまう。
また、CNNfine-tuning、分類を行う複数のSVM、Bounding Boxの回帰と、プロセスごとに別々に学習する必要がある。

参考図書

こちらの書籍の改訂第2版がディープラーニングの最近の動向まで簡潔にまとまっていて分かりやすかった↓

イラストで学ぶ ディープラーニング 改訂第2版 (KS情報科学専門書)

第2版ではR-CNNから始まる一般物体検出の歴史が解説されている他、前の版にあったボルツマンマシンの件がバッサリとカットされていて読みやすい(笑)

ところで、論文の発表時期を学会の開催時期とするかarXivでの公開時期とするかで結構時差が生まれるな。
R-CNNarXiv公開は2013年11月だけど、CVPR2014の開催は2014年6月。

次はFast R-CNNについてまとめようと思う↓



(必読推奨のOverFeatをスルーしている)


スポンサーリンク

関連記事

オープンソースのStructure from Motionライブラリ『Theia』
Mechanizeで要認証Webサイトをスクレイピング
書籍『AI vs. 教科書が読めない子どもたち』読了
SSII 2014 デモンストレーションセッションのダイジェスト動画
書籍『鈴木さんにも分かるネットの未来』読了
Unityからkonashiをコントロールする
OpenCVベースのマーカーARライブラリ『OpenAR』
自前Shaderの件 解決しました
UnityからROSを利用できる『ROS#』
OpenCVのバージョン3が正式リリースされたぞ
Faceshiftで表情をキャプチャしてBlender上でMakeHumanのメッシュを動かすデモ
Leap MotionでMaya上のオブジェクトを操作できるプラグイン
ニューラルネットワークと深層学習
HD画質の無駄遣い その2
Google Chromecast
Mayaのシェーディングノードの区分
Adobe MAX 2015
オープンソースの3Dメッシュデータライブラリ『OpenMesh』
ポリゴン用各種イテレータと関数セット
書籍『開田裕治 怪獣イラストテクニック』
C#で使える可読性重視のディープラーニングライブラリ『KelpNet』
UnityのMonoBehaviourクラスをシングルトン化する
SDカードサイズのコンピューター『Intel Edison』
「ベンジャミン·バトン数奇な人生」でどうやってCGの顔を作ったのか
PythonでMayaのShapeノードプラグインを作る
東京オリンピックと案内表示
スクラッチで既存のキャラクターを立体化したい
WordPressで数式を扱う
Houdiniのライセンスの種類
タマムシっぽい質感
Adobeの手振れ補正機能『ワープスタビライザー』の秘密
Maya API Reference
PythonのStructure from Motionライブラリ『OpenSfM』
Blenderの人体モデリングアドオン『MB-Lab』
BlenderでPhotogrammetryできるアドオン
Google App Engine上のWordPressでFlickrの画像を貼る
OpenCV 3.1のsfmモジュールのビルド再び
represent
この本読むよ
iOSデバイスのためのフィジカル・コンピューティングツールキット『konashi(こなし)』
OpenCV3.3.0でsfmモジュールのビルドに成功!
フォトンの放射から格納までを可視化した動画

コメント