.wp-block-jetpack-rating-star span.screen-reader-text { border: 0; clip: rect(1px, 1px, 1px, 1px); clip-path: inset(50%); height: 1px; margin: -1px; overflow: hidden; padding: 0; position: absolute; width: 1px; word-wrap: normal; }

Fast R-CNN：ディープラーニングによる一般物体検出手法

NegativeMind

6年前

R-CNNに続き、Fast R-CNNのアルゴリズムについて勉強しよう。

R-CNN (Regions with CNN features)：ディープラーニングによる一般物体検出手法

今まで一般物体認識や一般物体検出にはあんまり興味が無かったんだけど、YOLOとかSSD、Mask R-CNNといった手法をベースにして特定のタスクを解く研究も結構登場しているので、その体系を知りたくなってきた。幸い、ディープラーニングによる...

ディープラーニングによる一般物体検出アルゴリズムまとめ

これまで勉強したディープラーニングによる一般物体検出手法のアルゴリズム一覧。

再びこちらの系譜図を引用する↓

系譜図にはR-CNNとFast R-CNNの間にSPPnetというのがあるのでSPPnetについて軽く触れておく。

SPPnet

SPPnetは、ECCV2014で発表された論文 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitionで提案された手法。

R-CNNではSelective Searchで検出した領域候補をそれぞれ個別にCNNにかけて特徴抽出していたのに対し、SPPnetでは画像全体をCNNに入力して全体の特徴マップを抽出する。互いに重なる部分も多い2000個の矩形領域を個別にCNNにかける冗長性を排除したわけですね。

SPPnetの処理の全体像はこちらの図が分かりやすい↓

SPP(Spatial Pyramid Pooling)

元画像からSelective Searchで検出した矩形に対応する特徴マップの領域にSpatial Pyramid Pooling(空間ピラミッドプーリング)と呼ばれるpooling処理を施す。このSpatial Pyramid Poolingにより、矩形領域のサイズに関わらず固定長のベクトルを得ることができる。

Spatial Pyramid Poolingでは、特徴マップを異なるサイズのウィンドウ(16×16, 4×4, 1×1)でmax-poolingした結果を平坦化して連結し、固定長のベクトルにしてから次の全結合層の入力とする。

そして、全結合層からの出力をR-CNNと同様にSVMで分類(Classification)、回帰(Regression)でBounding Boxを求める。

SPPnetの欠点

R-CNNに比べてCNNによる特徴抽出の処理は効率化したが、特徴量を抽出する畳み込み層、全結合層、候補領域を分類するSVMやBounding Boxの回帰などは別々に学習しなければならないまま。

Fast R-CNN

R-CNNと同じ著者(Ross Girshick氏)がICCV2015で発表したFast R-CNNは、画像全体からCNN(ここではVGGを利用)で特徴マップを抽出するまではSPPnetと同様。違うのはこちらのスライドで言うと3～5のプロセス↓

ここからはRegion Proposal(候補領域)という言葉に代わってRegion of Interest(関心領域)という言葉が使われるけど、分類(Classification)対象となる領域を指しているので同じ意味です。

RoI (Region of Interest) Pooling

Fast R-CNNでは、SPP(Spatial Pyramid Pooling)のピラミッドレベルを1つに簡略化したRoI(Region of Interest)Poolingによって検出領域を固定サイズのベクトルに収める。

RoI Poolingは、アスペクト比の違いを考慮してMax Poolingを行う処理。
こちらのgifが分かりやすいか(オープンソースのRoIプーリング実装のページの画像)↓

ニューラルネットワークの分岐

RoI Poolingによって固定サイズ化された領域は、全結合層(Fully connected layers)を経てRoI feature vector(RoI特徴ベクトル)となる。このRoI feature vectorを、以下2つの全結合層の入力とする。

候補領域(物体)の分類(Classification)タスクを学習する全結合層
Bounding Boxの回帰(Regression)タスクを学習する全結合層

つまり、ここからニューラルネットワークが2つに分岐し、タスクごとの全結合層を経て出力層へ向かう。

Multi-task Loss

物体の分類とBounding Boxの回帰という2つのタスク(Multi-task)を学習するために、この2のタスクの推定誤差を同時に考慮した損失関数(loss function) Multi-task Lossが提案された。

Multi-task Lossを最小化するようニューラルネットワークを学習することで、2つのタスクを同時に習得させることができる。

ここで改めてFast R-CNNのニューラルネットワークの構造を見てみると、R-CNNやSPPnetでは特徴抽出のCNNと分類や回帰の学習が独立していたのに対し、Fast R-CNNでは分類・回帰の学習も同じニューラルネットワークとして繋がっていることが分かる↓

特徴抽出からタスクの学習までが1つのニューラルネットワークに繋がったことで、紫の矢印のように誤差逆伝搬で学習時にネットワークの全てのパラメーターが更新されるようになった。

Fast R-CNNの欠点

さて、特徴抽出から分類・回帰までを一貫したニューラルネットワークにしたことで、R-CNNの頃よりも遥かに効率化しました。
しかし、冒頭の系譜図にもあったようにFast R-CNNがNOT End-to-Endなアプローチに分類される理由は、RoIを求める処理がニューラルネットワークとは独立してSelective Searchで行われているからなのです。

次はFaster R-CNNについてまとめようと思う。

Faster R-CNN：ディープラーニングによる一般物体検出手法

R-CNN、Fast R-CNNに引き続きFaster R-CNNのアルゴリズムのお勉強。名前が似ていてややこしいですな。しつこくこちらの系譜図を引用する↓ Faster R-CNNからEnd-to-Endのアプローチが始まります。

ディープラーニングによる一般物体検出アルゴリズムまとめ

これまで勉強したディープラーニングによる一般物体検出手法のアルゴリズム一覧。

SPPnet

SPP(Spatial Pyramid Pooling)

SPPnetの欠点

Fast R-CNN

RoI (Region of Interest) Pooling

ニューラルネットワークの分岐

Multi-task Loss

Fast R-CNNの欠点

関連記事

機械学習について最近知った情報

疑似3D写真が撮れるiPhoneアプリ『Seene』がアップデートでついにフル3Dモデルが撮影できる...

Mitsuba 3：オープンソースの研究向けレンダラ

Googleが画像解析旅行ガイドアプリのJetpac社を買収

AI英語教材アプリ『abceed』

オンライン英会話ネイティブキャンプを始めてみた

海外ドラマのChromaKey

GoogleのDeep Learning論文

PeopleSansPeople：機械学習用の人物データをUnityで生成する

続・ディープラーニングの資料

手を動かしながら学ぶデータマイニング

OpenCV 3.1のsfmモジュールを試す

AnacondaとTensorFlowをインストールしてVisual Studio 2015で使う

UnityユーザーがUnreal Engineの使い方を学ぶには？

AfterEffectsプラグイン開発

Kornia：微分可能なコンピュータービジョンライブラリ

NeRF (Neural Radiance Fields)：深層学習による新規視点合成

OpenCVの顔検出過程を可視化した動画

OpenFace：Deep Neural Networkによる顔の個人識別フレームワーク

読みやすくて高速なディープラーニングのフレームワーク『Caffe』

TeleSculptor：空撮動画からPhotogrammetryするツール

Houdiniのライセンスの種類

オープンソースのロボットアプリケーションフレームワーク『ROS (Robot Operating S...

Faceshiftで表情をキャプチャしてBlender上でMakeHumanのメッシュを動かすデモ

Photogrammetry (写真測量法)

OpenGVのライブラリ構成

Autodesk Mementoでゴジラを3次元復元する

3D Gaussian Splatting：リアルタイム描画できるRadiance Fields

Two Minute Papers：先端研究を短時間で紹介するYouTubeチャンネル

iOSで使えるJetpac社の物体認識SDK『DeepBelief』

Adobeの手振れ補正機能『ワープスタビライザー』の秘密

PyTorch3D：3Dコンピュータービジョンライブラリ

畳み込みニューラルネットワーク (CNN: Convolutional Neural Network...

openMVG：複数視点画像から3次元形状を復元するライブラリ

書籍『3次元コンピュータビジョン計算ハンドブック』を購入

KelpNet：C#で使える可読性重視のディープラーニングライブラリ

MeshroomでPhotogrammetry

Netron：機械学習モデルを可視化するツール

PyDataTokyo主催のDeep Learning勉強会

UnityでOpenCVを使うには？

Mask R-CNN：ディープラーニングによる一般物体検出・Instance Segmentatio...

MLDemos：機械学習について理解するための可視化ツール