画像生成AI Stable Diffusionで遊ぶ

7月にDALL-E2Midjourneyが公開されて以降、画像生成AIの話題が尽きない。
ほんの2,3ヶ月の間に、文章から画像を生成するtext to imageの新しい研究やサービス・ツールへの移植が毎日のように次々と公開されている。
https://note.com/yamkaz/m/mad0bd7dabc99

オイラも8月にMidjourneyを無料枠で試してみた↓



Stability.Aitext to image手法の1つであるStable Diffusionオープンソースで公開したことで、text to imageが色んなサービスやツールに組み込まれて一気に手軽に試せるようになった。
https://huggingface.co/CompVis/stable-diffusion-v1-4
https://github.com/CompVis/stable-diffusion


スポンサーリンク


text to imageを利用できる有料サービスに課金しても良いけど、今はかなり円安なのでできれば自分のPCローカルでtext to image動かして好き放題遊びたい。そこそこ良いスペックのPCはあるので。
デスクトップPCを新調した!
色々と準備していたデスクトップPC新調の準備がようやく整った。メーカー在庫が欠品しているものもあって、なかなか必要なパーツが揃わなかったのだ。最終的に以下の構成になった。 ケース:Thermaltake Core V71 TG 電源:Sea...

NVIDIA GeForce RTX 3080を購入
7月にデスクトップPCを新調したけど、グラフィックスボードだけは新製品が出るのを待っていた。NVIDIAのGeForce RTX 30シリーズが9月に発表され、発売と同時にGIGABYTE GV-N3080GAMING OC-10GDを注文...


少し調べてみると、今のところ最も手軽にtext to imageをローカルで試せるのはStable DiffusionをGUIで包んだこちらのアプリケーション↓

Stable Diffusion GRisk GUI


Stable Diffusionのモデルを実行するためのインターフェイスです。つまり、テキストのpromptを入力するとそれに対応した画像が返ってきます。

これは超アルファ版であるため、多くのバグがある可能性があります。Stable Diffusion GRisk GUI.exeを実行するだけで使用できます。
生成する画像の解像度設定は64の倍数(64, 128, 192, 256など)である必要があり、512×512解像度が最も良い生成結果を得られます。

重要事項:

  • 一部のGTX 1660カードでは、Use Half-Precisionで実行すると問題が発生すると判明しています。(現時点でGUIではこのオプションにしか対応していません)
  • Samples per promptはまだ機能しておらず、promptごとに常に1つの画像が生成されます。同じpromptを複数行繰り返せばSamples per promptと同等の効果を得られます。
  • 512X512で良好な結果を得られますが、他の解像度は品質に影響を与える可能性があります。
  • Step数を多くするとより品質が向上します。Step数を増やしてもメモリ消費量は増えず、処理時間が長くなります。
  • 150 Step以下から始めると良いでしょう。
  • .exeの起動時に以下のエラーが表示されてもアプリは引き続き動作します。


torchvision\io\image.py:13: UserWarning: Failed to load image Python extension:

torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .

warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .

warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

オイラの環境だと640×640解像度まではエラー無く動作したけど、推奨解像度の512×512の方が生成品質は良くなるらしいです。
https://note.com/abubu_nounanka/n/n496a98677201

追記:もっとリッチなGUIアプリがあった↓


スポンサーリンク

NMKD Stable Diffusion GUI


https://github.com/n00mkrad/text2image-gui
https://pajoca.com/stable-diffusion-gui-nmkd/
https://pajoca.com/stable-diffusion-gui-img2img/



promptとパラメータを色々工夫して好みの画像生成を模索してみた結果↓





























ハイスペックなPCを持っていれば、パソコンを起点とした遊びは充実するね。

もはやGANの時代ではないらしい。Stable Diffusionの仕組みについてちゃんと勉強したいなぁ。
https://ja.stateofaiguides.com/20221012-stable-diffusion/

追記:Stable Diffusionをスマホローカルで動作させた例もチラホラ



スポンサーリンク

関連記事

副業の基本と常識
Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentatio...
UnrealCV:コンピュータビジョン研究のためのUnreal Engineプラグイン
Yahoo!で「トランスフォーマー!」を検索すると
オープンソースのプリント基板設計ツール『KiCad』
Regard3D:オープンソースのStructure from Motionツール
Maya LTでFBIK(Full Body IK)
書籍『OpenCV 3 プログラミングブック』を購入
書籍『仕事ではじめる機械学習』を読みました
Python.NET:Pythonと.NETを連携させるパッケージ
オープンソースの物理ベースレンダラ『Mitsuba』をMayaで使う
ミニ四駆にステアリングを仕込んだ人
シフトカーを改造する人達
Maya LTのQuick Rigを試す
Fast R-CNN:ディープラーニングによる一般物体検出手法
Point Cloud Utils:Pythonで3D点群・Meshを扱うライブラリ
プロシージャル手法に特化した本が出てるみたい(まだ買わないけど)
映画『ブレードランナー 2049』のVFX
顔モデリングのチュートリアル
オープンソースのIT資産・ライセンス管理システム『Snipe-IT』
「ベンジャミン·バトン数奇な人生」でどうやってCGの顔を作ったのか
OpenCV 3.1とopencv_contribモジュールをVisual Studio 2015で...
ZBrushでアヴァン・ガメラを作ってみる 歯を配置
2012 昨日のクローズアップ現代を見た
MeshLab:3Dオブジェクトの確認・変換に便利なフリーウェア
Physics Forests:機械学習で流体シミュレーションを近似する
写真から3Dメッシュの生成・編集ができる無料ツール『Autodesk Memento』
無料で使える人体3DCG作成ツール
OpenGVの用語
OpenCV 3.3.0-RCでsfmモジュールをビルド
ZBrushでアヴァン・ガメラを作ってみる
UnityのAR FoundationでARKit 3
株式会社ヘキサドライブの研究室ページ
ZBrushでアヴァン・ガメラを作ってみる 脚のトゲの作り直し
3DCGのモデルを立体化するサービス
Adobe Photoshop CS4 Extendedの3Dモデル編集機能
ZBrushでゴジラ2001を作ってみる 身体のバランスを探る
ボールペンに変形するトランスフォーマー『TRANSFORMERS コンボイペン』
池袋パルコで3Dのバーチャルフィッティング『ウェアラブル クロージング バイ アーバンリサーチ』
Mitsuba 3:オープンソースの研究向けレンダラ
法線マップを用意してCanvas上でShadingするサンプル
Manim:Pythonで使える数学アニメーションライブラリ

コメント