画像生成AI Stable Diffusionで遊ぶ

7月にDALL-E2Midjourneyが公開されて以降、画像生成AIの話題が尽きない。
ほんの2,3ヶ月の間に、文章から画像を生成するtext to imageの新しい研究やサービス・ツールへの移植が毎日のように次々と公開されている。
https://note.com/yamkaz/m/mad0bd7dabc99

オイラも8月にMidjourneyを無料枠で試してみた↓



Stability.Aitext to image手法の1つであるStable Diffusionオープンソースで公開したことで、text to imageが色んなサービスやツールに組み込まれて一気に手軽に試せるようになった。
https://huggingface.co/CompVis/stable-diffusion-v1-4
https://github.com/CompVis/stable-diffusion


スポンサーリンク


text to imageを利用できる有料サービスに課金しても良いけど、今はかなり円安なのでできれば自分のPCローカルでtext to image動かして好き放題遊びたい。そこそこ良いスペックのPCはあるので。
デスクトップPCを新調した!
色々と準備していたデスクトップPC新調の準備がようやく整った。メーカー在庫が欠品しているものもあって、なかなか必要なパーツが揃わなかったのだ。最終的に以下の構成になった。 ケース:Thermaltake Core V71 TG 電源:Sea...

NVIDIA GeForce RTX 3080を購入
7月にデスクトップPCを新調したけど、グラフィックスボードだけは新製品が出るのを待っていた。NVIDIAのGeForce RTX 30シリーズが9月に発表され、発売と同時にGIGABYTE GV-N3080GAMING OC-10GDを注文...


少し調べてみると、今のところ最も手軽にtext to imageをローカルで試せるのはStable DiffusionをGUIで包んだこちらのアプリケーション↓

Stable Diffusion GRisk GUI


Stable Diffusionのモデルを実行するためのインターフェイスです。つまり、テキストのpromptを入力するとそれに対応した画像が返ってきます。

これは超アルファ版であるため、多くのバグがある可能性があります。Stable Diffusion GRisk GUI.exeを実行するだけで使用できます。
生成する画像の解像度設定は64の倍数(64, 128, 192, 256など)である必要があり、512×512解像度が最も良い生成結果を得られます。

重要事項:

  • 一部のGTX 1660カードでは、Use Half-Precisionで実行すると問題が発生すると判明しています。(現時点でGUIではこのオプションにしか対応していません)
  • Samples per promptはまだ機能しておらず、promptごとに常に1つの画像が生成されます。同じpromptを複数行繰り返せばSamples per promptと同等の効果を得られます。
  • 512X512で良好な結果を得られますが、他の解像度は品質に影響を与える可能性があります。
  • Step数を多くするとより品質が向上します。Step数を増やしてもメモリ消費量は増えず、処理時間が長くなります。
  • 150 Step以下から始めると良いでしょう。
  • .exeの起動時に以下のエラーが表示されてもアプリは引き続き動作します。


torchvision\io\image.py:13: UserWarning: Failed to load image Python extension:

torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .

warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .

warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

オイラの環境だと640×640解像度まではエラー無く動作したけど、推奨解像度の512×512の方が生成品質は良くなるらしいです。
https://note.com/abubu_nounanka/n/n496a98677201

追記:もっとリッチなGUIアプリがあった↓


スポンサーリンク

NMKD Stable Diffusion GUI


https://github.com/n00mkrad/text2image-gui
https://pajoca.com/stable-diffusion-gui-nmkd/
https://pajoca.com/stable-diffusion-gui-img2img/



promptとパラメータを色々工夫して好みの画像生成を模索してみた結果↓





























ハイスペックなPCを持っていれば、パソコンを起点とした遊びは充実するね。

もはやGANの時代ではないらしい。Stable Diffusionの仕組みについてちゃんと勉強したいなぁ。
https://ja.stateofaiguides.com/20221012-stable-diffusion/

追記:Stable Diffusionをスマホローカルで動作させた例もチラホラ



スポンサーリンク

関連記事

顔のモデリング
Oculus Goを購入!
顔追跡による擬似3D表示『Dynamic Perspective』
ZBrushでゴジラ2001を作ってみる 身体のSubToolを分割
CM
BlenderのRigifyでリギング
UnityのGameObjectの向きをScriptで制御する
ZBrushでアヴァン・ガメラを作ってみる 脚のトゲの作り直し
Open3D:3Dデータ処理ライブラリ
Point Cloud Libraryに動画フォーマットが追加されるらしい
THIS IS IT ⇔ IT IS NOT THIS!
ZBrushで仮面ライダー3号を造る 仮面編 ZRemesher
ZBrushでカスタムUIを設定する
参考書
Unityをレンダラとして活用する
フルCGのウルトラマン!?
ZBrushで仮面ライダー3号を造る 仮面編 PolyGroupを分割する
OpenMayaRender
OpenMayaのPhongShaderクラス
ZBrushからBlenderへモデルをインポート
生物の骨格
Mayaのレンダリング アトリビュート
天体写真の3D動画
iPadをハンディ3Dスキャナにするガジェット『iSense 3D Scanner』
iPhone 3GSがますます欲しくなる動画
ラクガキの立体化
消費の記録
レンダラ制作はOpenGL とか DirectX を使わなくてもできるんだぜ
ポイントクラウドコンソーシアム
Math.NET Numerics:Unityで使える数値計算ライブラリ
ZBrush用トポロジー転送プラグイン『ZWrap Plugin for ZBrush』
手を動かしながら学ぶデータマイニング
フリーで使えるスカルプト系モデリングツール『Sculptris 』
フォトンの放射から格納までを可視化した動画
OpenCVの超解像(SuperResolution)モジュールを試す
ファンの力
シフトカーを改造する人達
Siggraph Asia 2009 カンファレンスの詳細
シン・ゴジラのファンアート
書籍『イラストで学ぶ ディープラーニング』
映画『シン・ウルトラマン』 メイキング記事まとめ
ラクガキの立体化 背中の作り込み・手首の移植

コメント