DCGAN (Deep Convolutional GAN)：畳み込みニューラルネットワークによる敵対的生成

引き続きGAN(敵対的生成ネットワーク)手法のお勉強。

GAN (Generative Adversarial Networks)：敵対的生成ネットワーク

オイラはCG上がりの人間なので、ディープラーニングへの興味は画像認識のような識別系よりもっぱら生成系なのである。最近はCG系の学会でもお馴染みになりつつあるGAN(敵対的生成ネットワーク)についてちゃんと知りたくて、その前知識としてニューラ...

GAN (Generative Adversarial Network)：敵対的生成ネットワークアルゴリズムまとめ

これまで勉強したGAN (Generative Adversarial Network)：敵対的生成ネットワーク手法のアルゴリズム一覧。

次はGANsの発展形のDCGAN (Deep Convolutional GAN)について。
GANの例としてはオリジナルのGANよりもDCGANの方がよく紹介されているイメージ。

DCGAN (Deep Convolutional GAN)

DCGAN (Deep Convolutional GAN)はICLR 2016で発表された論文 Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networksで提案された生成モデル。
オリジナルのGANでは生成画像がぼやけていたが、DCGANではより自然な画像の生成が可能になっている。

DCGANも基本的にはオリジナルのGANの考え方に則っており、GeneratorとDiscriminatorを競わせるように学習する。なので、全体の構造を概念図として表すとオリジナルのGANと同様になる↓

オリジナルのGANとの大きな違いは、GeneratorとDiscriminatorそれぞれのネットワークに全結合層ではなく、畳み込み層(と転置畳み込み層)を使用している点。
そして、GANの学習が安定しない問題に対しては、Batch Normalization (バッチ正規化)の導入や、活性化関数にReLUだけでなくtanh, Leaky ReLUを使用している。

では、Generator, Discriminatorそれぞれのネットワーク構造について詳しく見て行こう。

Generatorのネットワーク構造

Generatorのネットワークでは以下の図のように、入力となる100次元のノイズベクトルZから転置畳み込みによって徐々に64×64サイズの画像へとアップサンプリングしていく↓

全結合層やpooling層は使用しない。
この図では省略されているけど、それぞれの転置畳み込み層の後にSegNetの記事でも解説したBatch Normalizationと活性化関数が入ります。活性化関数には基本的にReLUを使用し、最終層だけtanhを使用している。

転置畳み込み (transposed convolution)

やや余談ですが、この論文でfractional-strieded convolutionsと呼ばれているアップサンプリング処理は、基本的には以前FCNの記事で逆畳み込み(deconvolution)と呼んでいた処理と同様です。

FCN (Fully Convolutional Network)：ディープラーニングによるSemantic Segmentation手法

一般物体検出の歴史からちょっと脇道に逸れて、ディープラーニングによるSemantic Segmentationについて勉強する。Semantic Segmentation画像の領域を分割するタスクをSegmentation(領域分割)と呼び...

後の様々な論文で逆畳み込みという呼び方が否定されているので、以後は転置畳み込みと呼ぶことにしましょう。
fractional-strieded convolutionsは基本的にはこの図のような処理で、strideが2でpaddingが0の処理↓

追記；転置畳み込みについてはこちらの図解がとても分かりやすい↓

Discriminatorのネットワーク構造

Discriminatorは、Generatorのアップサンプリング過程を逆にしたようなダウンサンプリング構造になる。
基本的には画像識別の畳み込みニューラルネットワークの構造を踏襲しているが、pooling層が無く、活性化関数にはReLUの代わりにLeaky ReLUを使用する。

poolingを畳み込みで代用する

通常、物体認識の畳み込みニューラルネットワークでは、max poolingで特徴マップを縮小(集約)して被写体の並進移動や形状変化をある程度吸収できるようにしている。これは、物体認識では物体の細かな特徴よりも全体を表す特徴を捉えた方が効果的なため。

一方、GANでは細かな特徴が重要となるため、poolingで細かな情報が欠落しては困る。そこで、DCGANのDiscriminatorでは、poolingの代わりにstride 2の畳み込み処理を行うことで細かな特徴の欠落を防いでいる。

Leaky ReLU活性化関数

GANの学習の不安定性に対処するため、Discriminatorの活性化関数にはReLUの代わりにLeaky ReLUが導入されている。
通常のReLUでは入力が0未満の場合に出力が0になってしまうが、Leaky ReLUは入力が0未満でも出力が0にならず、負の値を出力する。これによって学習中に勾配が0になってしまうのを防ぐことができ、誤差逆伝搬が滞りにくくなっている。(その代わり、Leaky ReLU用のハイパーパラメータが増えている)

活性化関数ごとの出力値の違いはこちらの比較図が分かりやすい↓

DCGANの学習

DCGANの目的関数や学習ステップはオリジナルのGANと同様なので割愛。

GAN (Generative Adversarial Networks)：敵対的生成ネットワーク

DCGANによる画像生成

論文では、ベッドルームや人の顔画像の生成結果が紹介されている。

入力ベクトルの操作による生成画像の変化

入力ベクトルを変化させることで顔を別の向きへと滑らかに補間できる↓

さらに、生成元となる入力ベクトルの演算によって、要素の足し算、引き算を行うことができる。これは自然言語処理のWord2Vecと同じ考え方。
例えば。

笑った女性 – 無表情の女性 + 無表情の男性 = 笑った男性
メガネをかけた男性 – メガネをかけていない男性 + メガネをかけていない女性 = メガネをかけた女性

といった具合↓

ちなみに、入力ベクトルを変えると生成結果が変化する様子を体感できるデモサイトを見つけた↓
https://carpedm20.github.io/faces/

DCGANの実装

PyTorch公式で顔画像を生成するDCGANのチュートリアルがあるので、試すのは簡単。
チュートリアルのソースコードはこちら↓
https://github.com/pytorch/examples/tree/master/dcgan

オイラも試しにやってみた↓
https://github.com/NegativeMind/DCGAN-Face-Pytorch

学習過程の可視化

学習過程を可視化した動画↓

例のごとく、GeneratorとDiscriminatorのLossの変化だけを見ると学習が収束へ向かっているのかさっぱりわからない(笑)

次はCGAN (Conditional GAN)を勉強しよう。

CGAN (Conditional GAN)：条件付き敵対的生成ネットワーク

GAN, DCGANに引き続きGAN手法のお勉強。次はCGAN (Conditional GAN)を勉強しよう。日本語で言うと「条件付き敵対的生成ネットワーク」といったところでしょうか。CGAN (Conditional GAN)CGAN ...

GAN (Generative Adversarial Network)：敵対的生成ネットワークアルゴリズムまとめ

これまで勉強したGAN (Generative Adversarial Network)：敵対的生成ネットワーク手法のアルゴリズム一覧。

Zibra Liquids：Unity向け流体シミュレーショ...

Multi-View Environment：複数画像から3...

ブログをGoogle App EngineからAmazon ...

Kinect for Windows V2のプレオーダー開始

Geogram：C++の3D幾何アルゴリズムライブラリ

3D Gaussian Splatting：リアルタイム描画...

Leap MotionでMaya上のオブジェクトを操作できる...

Unity ARKitプラグインサンプルのチュートリアルを読...

OpenCVで平均顔を作るチュートリアル

OpenCV

Quartus II

OpenMVS：Multi-View Stereoによる3次...

Python拡張モジュールのWindows用インストーラー配...

Windows10でPyTorchをインストールしてVSCo...

スクラッチで既存のキャラクターを立体化したい

サンプルコードにも間違いはある？

UnityユーザーがUnreal Engineの使い方を学ぶ...

ZBrushで作った3Dモデルを立体視で確認できるVRアプリ...

OpenGVのライブラリ構成

Math Inspector：科学計算向けビジュアルプログラ...

書籍『ゼロから作るDeep Learning』で自分なりに学...

PythonでBlenderのAdd-on開発

Amazon EC2ログイン用の秘密鍵を無くした場合の対処方...

OpenCVで動画の手ぶれ補正

ZScript

iPhoneアプリ開発 Xcode 5のお作法

画像認識による位置情報取得 - Semi-Direct Mo...

書籍『3次元コンピュータビジョン計算ハンドブック』を購入

OpenCVで顔のランドマークを検出する『Facemark ...

ROSでガンダムを動かす

オープンソースのロボットアプリケーションフレームワーク『RO...

RefineNet (Multi-Path Refineme...

PythonのHTML・XMLパーサー『BeautifulS...

今年もSSII

第1回 3D勉強会＠関東『SLAMチュートリアル大会』

UnityからROSを利用できる『ROS#』

Raspberry Piでセンサーの常時稼働を検討する

OpenCV 3.3.0-RCでsfmモジュールをビルド

FreeMoCap Project：オープンソースのマーカー...

Netron：機械学習モデルを可視化するツール

Point Cloud Consortiumのセミナー「3D...

Houdiniのライセンスの種類

DCGAN (Deep Convolutional GAN)：畳み込みニューラルネットワークによる敵対的生成