.wp-block-jetpack-rating-star span.screen-reader-text { border: 0; clip: rect(1px, 1px, 1px, 1px); clip-path: inset(50%); height: 1px; margin: -1px; overflow: hidden; padding: 0; position: absolute; width: 1px; word-wrap: normal; }

畳み込みニューラルネットワーク (CNN: Convolutional Neural Network)

NegativeMind

7年前

例の書籍「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」を一通り読み終わりました。

書籍『ゼロから作るDeep Learning』で自分なりに学ぶ

もう1年以上前になりますが、書籍「イラストで学ぶディープラーニング」を購入して少しずつ読み進めていたのです。↓ところが、読み進めている途中で壁にぶち当たりました。この書籍、途中からどんどん数式率が上がって行き、あんまりイラストで教えてくれ...

「あえてPythonを使わずにUnity C#で実装しながら勉強する」とか言っておきながら、結局途中でコーディングを断念。意外と面倒だったので。。。

書籍のPythonコードをUnity C#で再現しようとしてMNISTデータセットをUnityのテクスチャとして読み込むコードとかも書いたりしたんだけど、lambda式や抽象クラス、インターフェイスあたりで混乱して躓いた。改めてPythonとNumPyの記述の手軽さを理解しましたとさ。抽象度が高い代わりに読みづらくもあるんだけど。

2018年7月追記：CNNではないけど、mattatzさんがUnity上で動くニューラルネットワークの実装を公開している。

Created GPU-based neural network implementation in #unity 🧠https://t.co/DeQAURpuLa Unity上で動くGPU使ったニューラルネットワークの実装、ひとまずgithubにあげました！CNNの実装はこれからやっていきたい⚡️ pic.twitter.com/8UKSqkznk1

— Masatatsu Nakamura (@mattatz) 2018年7月26日

MINISTデータセットをC#で読み込むやり方のサンプルあるのね↓
https://jamesmccaffrey.wordpress.com/2013/11/23/reading-the-mnist-data-set-with-c/

2019年追記：C#で使えるNumPyライクな数値計算ライブラリを知ったので、今ならコレを使う↓

NumSharp：C#で使えるNumPyライクな数値計算ライブラリ

C#で書かれたNumPy風の数値計算ライブラリ。Apache License 2.0だそうです。NumSharpNumSharpは.NET StandardをターゲットとしたNumPyのC#ポートです。NumSharpはC#で科学計算を行う...

さて、書籍でCNNの仕組みまでは分かったところで、ちょっとYouTubeで調べてみたら、CNNの動作の様子を可視化してくれてる人がチラホラいる。

畳み込み層 (Convolution Layer)

こちらは畳み込み層の動作を可視化した動画↓

プーリング層 (Pooling Layer)

こちらはプーリング層の動作を可視化した動画。(最大値を取るMax-Poolingの例)

追記：こちらの記事のgifがとても分かりやすい↓
http://pynote.hatenablog.com/entry/dl-convolutional-neural-network

追記：Max Poolingの処理は、要するにモルフォロジー変換であると言われてみれば確かに↓
https://blog.shikoan.com/morphological-transformations-maxpool/

3D Visualization of a Convolutional Neural Network

こちらはWeb上でインタラクティブにCNNの動作を見れるデモ。定番のMNISTデータセットを使った手書き数字認識。
http://scs.ryerson.ca/~aharley/vis/conv/

3D Multilayer Neural Network Simulation

https://tutorials.retopall.com/index.php/2019/02/17/neural-networks/
https://tutorials.retopall.com/index.php/2019/02/24/convolutional-neural-networks/
https://tutorials.retopall.com/index.php/2019/03/01/aieditor-neural-network-editor/

3Blue1Brown

そして、数学をアニメーションで視覚的に解説するYouTubeチャンネルを発見。
https://www.youtube.com/3blue1brown

今月ちょうどニューラルネットワーク(畳み込みではないけど)の動画が公開されたところ。

2022年追記：畳み込みについての解説動画も来た↓

仕組みを理解してからだとネット上の記事も読めるようになるけど、初見だとなかなか。
https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

ところで、探してみると、ニューラルネットワークを可視化している人が結構いることに気づいた↓
http://hhok777.hatenablog.com/entry/2016/11/08/184233

https://www.youtube.com/user/munimunibekkan/

アルゴリズムを物理的な機械構造へ落とし込むスキルがすごい。。。

マインクラフトでの例も↓

Blender_Neural_Network

BlenderのAnimation Nodeでニューラルネットワークを表現したもの。

https://www.youtube.com/channel/UC5bSCGdcE9x9ffqqgJlGp5Q
https://animatedai.github.io/

最近知ったDrawNetというやつ↓
http://people.csail.mit.edu/torralba/research/drawCNN/drawNet.html

2023年追記：書籍を参考にNNビジュアライザーというのを作った方がいらっしゃいます↓

https://t.co/4ODfExCdVR
ゼロから作るDeep Learningで学んだニューラルネットワークをリアルタイムにビジュアル化するサイト公開しました。
キャンバスに文字を描いたら、リアルタイムに数字を判定します。
Githubでも公開しました。https://t.co/Xw283dnO52 #deeplearning #NeuralNetworks pic.twitter.com/6zbm4wqo94

— Kenji Saito (@kenji_special) November 27, 2023

追記：こういうのもある↓

TensorSpace.js：ニューラルネットワークの構造を可視化するフレームワーク

Twitterで知ったブラウザ上でインタラクティブにCNN(Convolutional Neural Network)のネットワーク構造を3Dで可視化できるオープンソースのフレームワークTensorSpace.js。ネットワーク構造だけでな...

以前見つけたお勉強ツールのMLDemosは、各機械学習手法による処理結果の違いを可視化するツールだったけど、動作の仕組みそのものを可視化して眺めるともう一段踏み込んで理解ができるね。(MLDemosにDeepLearningは入ってなかったけど)

MLDemos：機械学習について理解するための可視化ツール

たまたま面白いツールを見つけた。機械学習のパラメータをいじるとインタラクティブに学習結果が可視化して見れるお勉強アプリ。MLDemos - A visualization tool for machine learningMLDemosは、...

読書再開

ということで、再びこちらの書籍に戻る。

階層型ネットワークである畳み込みニューラルネットワークまでは分かったので、グラフィカルモデル系の相互結合型ネットワークから読書再開。
ホップフィールドネットワークの可視化動画も見つけたけど、ちょっと理解できない。。。

写真に3Dオブジェクトを違和感無く合成する『3DPhotoMagic』

畳み込み層 (Convolution Layer)

プーリング層 (Pooling Layer)

3D Visualization of a Convolutional Neural Network

3D Multilayer Neural Network Simulation

3Blue1Brown

Blender_Neural_Network

読書再開

関連記事

写真に3Dオブジェクトを違和感無く合成する『3DPhotoMagic』

OpenCVのバージョン3が正式リリースされたぞ

Deep Fluids：流体シミュレーションをディープラーニングで近似する

顔画像処理技術の過去の研究

ディープラーニング

DCGAN (Deep Convolutional GAN)：畳み込みニューラルネットワークによる敵...

Maya LTのQuick Rigを試す

PCA (主成分分析)

SONY製のニューラルネットワークライブラリ『NNabla』

OpenGVのライブラリ構成

DensePose：画像中の人物表面のUV座標を推定する

U-Net：ディープラーニングによるSemantic Segmentation手法

CycleGAN：ドメイン関係を学習した画像変換

Active Appearance Models（AAM）

Gource：バージョン管理の履歴を可視化するツール

Point Cloud Consortiumのセミナー「3D点群の未来」に行ってきたよ

LLM Visualization：大規模言語モデルの可視化

Math Inspector：科学計算向けビジュアルプログラミングツール

OpenCV

ニューラルネットワークで画像分類

Blendify：コンピュータービジョン向けBlenderラッパー

映画から想像するVR・AR時代のGUIデザイン

UnityでOpenCVを使うには？

Live CV：インタラクティブにComputer Visionコーディングができるツール

Kaolin：3Dディープラーニング用のPyTorchライブラリ

UnityのMonoBehaviourクラスをシングルトン化する

機械学習に役立つPythonライブラリ一覧

Google Colaboratoryで遊ぶ準備

UnityからROSを利用できる『ROS#』

Adobe MAX 2015

OpenFace：Deep Neural Networkによる顔の個人識別フレームワーク

CNN Explainer：畳み込みニューラルネットワーク可視化ツール

OpenMVS：Multi-View Stereoによる3次元復元ライブラリ

SDカードサイズのコンピューター『Intel Edison』

3D Gaussian Splatting：リアルタイム描画できるRadiance Fields

書籍『OpenCV 3 プログラミングブック』を購入

顔追跡による擬似3D表示『Dynamic Perspective』

Python for Unity：UnityEditorでPythonを使えるパッケージ

TensorFlowでCGを微分できる『TensorFlow Graphics』

R-CNN (Regions with CNN features)：ディープラーニングによる一般物体...

Regard3D：オープンソースのStructure from Motionツール

Unityで学ぶC#