画像生成AI Stable Diffusionで遊ぶ

7月にDALL-E2やMidjourneyが公開されて以降、画像生成AIの話題が尽きない。
ほんの2,3ヶ月の間に、文章から画像を生成するtext to imageの新しい研究やサービス・ツールへの移植が毎日のように次々と公開されている。
https://note.com/yamkaz/m/mad0bd7dabc99

オイラも8月にMidjourneyを無料枠で試してみた↓

話題のmidjourneyに「H・R・ギーガーが描いたウルトラマン」を頼んだ結果#midjourney pic.twitter.com/dV9ANULIdO

— NegativeMind (@NegativeMind) August 5, 2022

Stability.Aiがtext to image手法の1つであるStable Diffusionをオープンソースで公開したことで、text to imageが色んなサービスやツールに組み込まれて一気に手軽に試せるようになった。
https://huggingface.co/CompVis/stable-diffusion-v1-4
https://github.com/CompVis/stable-diffusion

text to imageを利用できる有料サービスに課金しても良いけど、今はかなり円安なのでできれば自分のPCローカルでtext to image動かして好き放題遊びたい。そこそこ良いスペックのPCはあるので。

デスクトップPCを新調した！

色々と準備していたデスクトップPC新調の準備がようやく整った。メーカー在庫が欠品しているものもあって、なかなか必要なパーツが揃わなかったのだ。最終的に以下の構成になった。ケース：Thermaltake Core V71 TG 電源：Sea...

NVIDIA GeForce RTX 3080を購入

7月にデスクトップPCを新調したけど、グラフィックスボードだけは新製品が出るのを待っていた。NVIDIAのGeForce RTX 30シリーズが9月に発表され、発売と同時にGIGABYTE GV-N3080GAMING OC-10GDを注文...

少し調べてみると、今のところ最も手軽にtext to imageをローカルで試せるのはStable DiffusionをGUIで包んだこちらのアプリケーション↓

Stable Diffusion GRisk GUI

Stable Diffusionのモデルを実行するためのインターフェイスです。つまり、テキストのpromptを入力するとそれに対応した画像が返ってきます。

これは超アルファ版であるため、多くのバグがある可能性があります。Stable Diffusion GRisk GUI.exeを実行するだけで使用できます。
生成する画像の解像度設定は64の倍数(64, 128, 192, 256など)である必要があり、512×512解像度が最も良い生成結果を得られます。

重要事項:

一部のGTX 1660カードでは、Use Half-Precisionで実行すると問題が発生すると判明しています。(現時点でGUIではこのオプションにしか対応していません)

Samples per promptはまだ機能しておらず、promptごとに常に1つの画像が生成されます。同じpromptを複数行繰り返せばSamples per promptと同等の効果を得られます。

512X512で良好な結果を得られますが、他の解像度は品質に影響を与える可能性があります。

Step数を多くするとより品質が向上します。Step数を増やしてもメモリ消費量は増えず、処理時間が長くなります。

150 Step以下から始めると良いでしょう。

.exeの起動時に以下のエラーが表示されてもアプリは引き続き動作します。

torchvision\io\image.py:13: UserWarning: Failed to load image Python extension:
torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: . warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.") torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .
warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

オイラの環境だと640×640解像度まではエラー無く動作したけど、推奨解像度の512×512の方が生成品質は良くなるらしいです。
https://note.com/abubu_nounanka/n/n496a98677201

追記：もっとリッチなGUIアプリがあった↓

NMKD Stable Diffusion GUI

https://github.com/n00mkrad/text2image-gui
https://pajoca.com/stable-diffusion-gui-nmkd/
https://pajoca.com/stable-diffusion-gui-img2img/

promptとパラメータを色々工夫して好みの画像生成を模索してみた結果↓

ハイスペックなPCを持っていれば、パソコンを起点とした遊びは充実するね。

もはやGANの時代ではないらしい。Stable Diffusionの仕組みについてちゃんと勉強したいなぁ。
https://ja.stateofaiguides.com/20221012-stable-diffusion/

追記：Stable Diffusionをスマホローカルで動作させた例もチラホラ

The #stableDifusion running on-device on iOS beta is out! Running iOS 16 only right now. These took me about 4:30-5 min on my iPhone 14 Pro https://t.co/41OQSJQHC4

Also, signup here if you haven’t already to learn about the actual launch https://t.co/7tpiedKeJz pic.twitter.com/Q0G82BC4qb

— Matt Waller (@wattmaller1) October 15, 2022

I got Stable Diffusion running on my phone this weekend. It's slow, but usable! Code is here: https://t.co/mwq0YQiNcU pic.twitter.com/Ft29LWOk5p

— Ollin Boer Bohan (@madebyollin) October 9, 2022

ZBrushでアヴァン・ガメラを作ってみる下アゴの付け根を修正

OpenCV 3.1のsfmモジュールのビルド再び

CGのためのディープラーニング

株式会社ヘキサドライブの研究室ページ

3D映画のポストプロダクション 2D-3D変換

プロシージャル手法に特化した本が出てるみたい(まだ買わないけど)

ハイテクな暑さ対策グッズ

UnityからROSを利用できる『ROS#』

ツールの補助で効率的に研究論文を読む

物理ベースレンダリングのためのマテリアル設定チートシート

Stable Diffusion GRisk GUI

NMKD Stable Diffusion GUI

関連記事

ZBrushでアヴァン・ガメラを作ってみる 下アゴの付け根を修正

OpenCV 3.1のsfmモジュールのビルド再び

CGのためのディープラーニング

株式会社ヘキサドライブの研究室ページ

3D映画のポストプロダクション 2D-3D変換

プロシージャル手法に特化した本が出てるみたい(まだ買わないけど)

ハイテクな暑さ対策グッズ

UnityからROSを利用できる『ROS#』

ツールの補助で効率的に研究論文を読む

物理ベースレンダリングのためのマテリアル設定チートシート

ZBrushでアヴァン・ガメラを作ってみる 歯茎を別パーツへ分割

OpenSfM：PythonのStructure from Motionライブラリ

Facebookの顔認証技術『DeepFace』

『スター・ウォーズ/スカイウォーカーの夜明け』のVFXブレイクダウン

ZBrush用トポロジー転送プラグイン『ZWrap Plugin for ZBrush』

フィーリングに基づくタマムシの質感表現

『スター・ウォーズ フォースの覚醒』のVFXブレイクダウン まとめ

ゴジラの全てがわかる博覧会『Ｇ博』

Windows10でPyTorchをインストールしてVSCodeで使う

オープンソースのプリント基板設計ツール『KiCad』

SUMMER TERRACE 2017 LIVE TERRACE

科学技術計算向けスクリプト言語『Julia』

Transformers ”Reference & Bulid” Siggraph 2007

ヘッドマウントディスプレイとビジュアリゼーションの未来

Math Inspector：科学計算向けビジュアルプログラミングツール

TVML (TV program Making language)

ZBrush 2021.6のMesh from Mask機能を使ってみる

画像認識による位置情報取得 - Semi-Direct Monocular Visual Odome...

OpenCV 3.1から追加されたSfMモジュール

士郎正宗の世界展〜「攻殻機動隊」と創造の軌跡〜

PureRef：リファレンス画像専用ビューア

FacebookがDeep learningツールの一部をオープンソース化

Stanford Bunny

PS3用ソフト『ゴジラ-GODZILLA-』を買った

Deep Fluids：流体シミュレーションをディープラーニングで近似する

Windows Server 2008にAutodesk Maya 2009をインストール

書籍『メイキング・オブ・ピクサー 創造力をつくった人々』を読んだ

HD画質の無駄遣い その２

Blenderでよく使うaddon

Cartographer：オープンソースのSLAMライブラリ

法線マップを用意してCanvas上でShadingするサンプル

消費の記録

コメント

個人情報に関するお知らせ

ZBrushでアヴァン・ガメラを作ってみる下アゴの付け根を修正

ZBrushでアヴァン・ガメラを作ってみる歯茎を別パーツへ分割

『スター・ウォーズフォースの覚醒』のVFXブレイクダウンまとめ

書籍『メイキング・オブ・ピクサー創造力をつくった人々』を読んだ

HD画質の無駄遣いその２