.wp-block-jetpack-rating-star span.screen-reader-text { border: 0; clip: rect(1px, 1px, 1px, 1px); clip-path: inset(50%); height: 1px; margin: -1px; overflow: hidden; padding: 0; position: absolute; width: 1px; word-wrap: normal; }

FCN (Fully Convolutional Network)：ディープラーニングによるSemantic Segmentation手法

NegativeMind

6年前

一般物体検出の歴史からちょっと脇道に逸れて、ディープラーニングによるSemantic Segmentationについて勉強する。

Semantic Segmentation

画像の領域を分割するタスクをSegmentation(領域分割)と呼び、Semantic Segmentationは「何が写っているか」で画像領域を分割するタスクのことを指す。
画像を物体領域単位で分類する物体認識や物体検出に対して、Semantic Segmentationは画像をpixel単位でどのクラスに属するか分類する。そのためPixel-labelingとも呼ばれる。

もちろんディープラーニング以前から様々な手法が提案されている。
https://news.mynavi.jp/article/cv_future-35/
https://news.mynavi.jp/article/cv_future-36/

ディープラーニングによるSemantic Segmentationの概要については、2年前のPreferred Networksのセミナー動画が分かりやすい↓

スライドはこちら。

一般物体認識を行うニューラルネットワークでは、入力ユニット数が入力画像のサイズ、出力ユニット数は分類するクラス数だったが、Semantic Segmentationでは出力ユニット数は画像サイズ×分類クラス数となる。(入力ユニット数は同様に画像サイズ)

pixelごとにラベル付けされた教師データを与えて学習することで、入力画像の各pixelがどのクラスに分類されるかの確率を出力できるようになる。

まずはSemantic Segmentationにディープラーニングを使った最初の手法 FCN (Fully Convolutional Network)から勉強しよう。

FCN (Fully Convolutional Network)

FCN (Fully Convolutional Network)は、CVPR 2015, PAMI 2016で発表された Fully Convolutional Networks for Semantic Segmentationで提案されたSemantic Segmentation手法。

公式でCaffeによる実装も公開されている↓
https://github.com/shelhamer/fcn.berkeleyvision.org

FCNの大きな特長は、全結合層を持たず、ネットワークが畳み込み層のみで構成されていること。(だからFully Convolutional Networkと呼ばれる)

一般物体認識用のCNNをSemantic Segmentation用に改良する

FCNでは、一般物体認識の畳み込みニューラルネットワーク(実装例ではVGG-16)の全結合層を1×1の畳み込み層に置き換えている。(実装例では、特徴抽出には一般物体認識向けにImageNetで学習したVGG-16の畳み込み層を流用してfine-tuningしている)

全結合層では、全pixelに対して接続しているノードごとに重みをかける処理を行っていた。これはつまり、ノードの数だけ1×1の畳み込みを行う処理と同等である。

全結合層を無くすことで、従来の畳み込みニューラルネットワークのように入力画像のサイズを固定する制約がなくなった。また、全結合層を畳み込み層に置き換えると、クラス分類の結果がヒートマップとして出力されるようになる。

特徴マップのサイズはMaxプーリングを経て小さくなっているため、入力画像H×Wに対して特徴マップのサイズはH/32×W/32になっている。

スポンサーリンク

アップサンプリング

そこで、小さくなった特徴マップを入力画像と同サイズにアップサンプリングしてpixel単位のクラス分類を行う。

逆畳み込み(Deconvolution)

アップサンプリングには逆畳み込み(Deconvolution)という処理を施す。
逆畳み込みと呼ばれているが、畳み込み(convolution)の逆プロセスというわけではない。そのため、誤解を生まないようup convolutionとかtransposed convolution(転置畳み込み？)などとも呼ばれる。

逆畳み込みのパラメータは畳み込みと似ており、kernel size, padding, strideにそれぞれpixel数を指定する。

逆畳み込みで実際に行われるのは、以下のように特徴マップを拡大してから畳み込む処理。

特徴マップの各pixelをstrideで指定したpixel数ずつ空けて配置し
kernel size-1だけ特徴マップの周囲に余白を取り
paddingで指定されたpixel数だけ余白を削り
畳み込み処理を行う

こちらのgifで具体的に見てみよう。(図中の青が入力、緑が出力)

kernel size=3, padding=0, stride=0の時の逆畳み込み↓

kernel size=3, padding=0, stride=1の時の逆畳み込み↓

kernel size=3, padding=1, stride=1の時の逆畳み込み↓

各pooling層の特徴マップを足し合わせる

特徴マップをアップサンプリングで入力画像と同サイズに拡大するだけではsemantic segmentationの結果は物体の境界がぼやけたものとなる。
そこで、特徴抽出の最終層だけでなく、途中のpooling層で出力される大きいサイズの特徴マップも活用する。特徴マップのサイズは各層で異なるので、最終層の特徴マップから順にアップサンプリングで前の層と同サイズに拡大し、チャンネルごとに足し算する。

以下の図は、VGG-16に5つあるpooling層の内、3～5番目の特徴マップを利用する例。

そして、足し算後の特徴マップに対して1×1の畳み込み処理を行う。
途中の層で出力されるサイズの大きい特徴マップを利用することで、物体の詳細な情報を捉えたsemantic segmentationが可能となる。(なんかSSDにも似てるな)

全体平均pooling

FCNの出力層の直前には全体平均poolingが導入されている。これにより、特徴マップの各チャンネルが特定の物体クラスを表すようになる。

サンプルコード

簡単に試せるサンプルコードを探してみたんだけど、データセットの読み込み回りでエラーになるコードが多くてしんどかった。(FCNは入力画像サイズが固定じゃなくなったとはいえ、どんなpixel数の画像でもOKというわけではなく、縦横がアップサンプリング層での拡大率の倍数である必要はある)

やっとシンプルなPyTorch実装のサンプルを見つけた↓(Readmeは中国語だけど)
https://github.com/bat67/pytorch-FCN-easiest-demo

次はSegNetを勉強しようか。

SegNet：ディープラーニングによるSemantic Segmentation手法

FCN (Fully Convolutional Network)に引き続きSemantic Segmentation手法のお勉強。次はSegNetについて。SegNetSegNetはPAMI 2017のSegNet: A Deep Con...

ディープラーニングによるSemantic Segmentationアルゴリズムまとめ

これまで勉強したディープラーニングによるSemantic Segmentation手法のアルゴリズム一覧。

オープンソースの物理ベースレンダラ『Mitsuba』をMayaで使う

Semantic Segmentation

FCN (Fully Convolutional Network)

一般物体認識用のCNNをSemantic Segmentation用に改良する

アップサンプリング

逆畳み込み(Deconvolution)

各pooling層の特徴マップを足し合わせる

全体平均pooling

サンプルコード

関連記事

オープンソースの物理ベースレンダラ『Mitsuba』をMayaで使う

CGALDotNet：計算幾何学ライブラリ CGALのC#ラッパー

SVM (Support Vector Machine)

Iterator

Math Inspector：科学計算向けビジュアルプログラミングツール

libigl：軽量なジオメトリ処理ライブラリ

ニューラルネットワークと深層学習

fSpy：1枚の写真からカメラパラメーターを割り出すツール

Live CV：インタラクティブにComputer Visionコーディングができるツール

書籍『OpenCV 3 プログラミングブック』を購入

3分の動画でプログラミングを学習できるサイト『ドットインストール』

ドットインストールのWordPress入門レッスン

Unityからkonashiをコントロールする

Unityで画面タッチ・ジェスチャ入力を扱う無料Asset『TouchScript』

OpenSfM：PythonのStructure from Motionライブラリ

SDカードサイズのコンピューター『Intel Edison』

FacebookがDeep learningツールの一部をオープンソース化

WordPress on Google App Engineを1週間運用してみて

ブログが1日ダウンしてました

Windows10でPyTorchをインストールしてVSCodeで使う

OpenFace：Deep Neural Networkによる顔の個人識別フレームワーク

PyMC：Pythonのベイズ統計ライブラリ

adskShaderSDK

ROSの薄い本

OpenCVの三角測量関数『cv::triangulatepoints』

Python.NET：Pythonと.NETを連携させるパッケージ

Faster R-CNN：ディープラーニングによる一般物体検出手法

動画で学ぶお絵かき講座『sensei』

ArUco：OpenCVベースのコンパクトなARライブラリ

機械学習での「回帰」とは？

iOSデバイスのためのフィジカル・コンピューティングツールキット『konashi(こなし)』

Physics Forests：機械学習で流体シミュレーションを近似する

OpenGV：画像からカメラの3次元位置・姿勢を推定するライブラリ

AMIMOTO（PVM版）で作成したインスタンスをAMIMOTO (HVM版)へ移行する

プログラミングスキルとは何か？

PSPNet (Pyramid Scene Parsing Network)：ディープラーニングによ...

機械学習手法『Random Forest』

網元AMIで作ったWordpressサイトのインスタンスをt1microからt2microへ移行した

ZBrushトレーニング

Unreal Engineの薄い本

HD画質の無駄遣い

Geogram：C++の3D幾何アルゴリズムライブラリ