画像生成AI Stable Diffusionで遊ぶ

7月にDALL-E2Midjourneyが公開されて以降、画像生成AIの話題が尽きない。
ほんの2,3ヶ月の間に、文章から画像を生成するtext to imageの新しい研究やサービス・ツールへの移植が毎日のように次々と公開されている。
https://note.com/yamkaz/m/mad0bd7dabc99

オイラも8月にMidjourneyを無料枠で試してみた↓



Stability.Aitext to image手法の1つであるStable Diffusionオープンソースで公開したことで、text to imageが色んなサービスやツールに組み込まれて一気に手軽に試せるようになった。
https://huggingface.co/CompVis/stable-diffusion-v1-4
https://github.com/CompVis/stable-diffusion



text to imageを利用できる有料サービスに課金しても良いけど、今はかなり円安なのでできれば自分のPCローカルでtext to image動かして好き放題遊びたい。そこそこ良いスペックのPCはあるので。


NVIDIA GeForce RTX 3080を購入
7月にデスクトップPCを新調したけど、グラフィックスボードだけは新製品が出るのを待っていた。NVIDIAのGeForce RTX 30シリーズが9月に発表され、発売と同時にGIGABYTE GV-N3080GAMING OC-10GDを注文...


少し調べてみると、今のところ最も手軽にtext to imageをローカルで試せるのはStable DiffusionをGUIで包んだこちらのアプリケーション↓

Stable Diffusion GRisk GUI


Stable Diffusionのモデルを実行するためのインターフェイスです。つまり、テキストのpromptを入力するとそれに対応した画像が返ってきます。

これは超アルファ版であるため、多くのバグがある可能性があります。Stable Diffusion GRisk GUI.exeを実行するだけで使用できます。
生成する画像の解像度設定は64の倍数(64, 128, 192, 256など)である必要があり、512×512解像度が最も良い生成結果を得られます。

重要事項:

  • 一部のGTX 1660カードでは、Use Half-Precisionで実行すると問題が発生すると判明しています。(現時点でGUIではこのオプションにしか対応していません)
  • Samples per promptはまだ機能しておらず、promptごとに常に1つの画像が生成されます。同じpromptを複数行繰り返せばSamples per promptと同等の効果を得られます。
  • 512X512で良好な結果を得られますが、他の解像度は品質に影響を与える可能性があります。
  • Step数を多くするとより品質が向上します。Step数を増やしてもメモリ消費量は増えず、処理時間が長くなります。
  • 150 Step以下から始めると良いでしょう。
  • .exeの起動時に以下のエラーが表示されてもアプリは引き続き動作します。


torchvision\io\image.py:13: UserWarning: Failed to load image Python extension:

torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .

warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function: .

warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")

オイラの環境だと640×640解像度まではエラー無く動作したけど、推奨解像度の512×512の方が生成品質は良くなるらしいです。
https://note.com/abubu_nounanka/n/n496a98677201

追記:もっとリッチなGUIアプリがあった↓

NMKD Stable Diffusion GUI


https://github.com/n00mkrad/text2image-gui
https://pajoca.com/stable-diffusion-gui-nmkd/
https://pajoca.com/stable-diffusion-gui-img2img/



promptとパラメータを色々工夫して好みの画像生成を模索してみた結果↓





























ハイスペックなPCを持っていれば、パソコンを起点とした遊びは充実するね。

もはやGANの時代ではないらしい。Stable Diffusionの仕組みについてちゃんと勉強したいなぁ。
https://ja.stateofaiguides.com/20221012-stable-diffusion/

追記:Stable Diffusionをスマホローカルで動作させた例もチラホラ


関連記事

R-CNN (Regions with CNN featur...

ディープラーニング

OpenCV

Cartographer:オープンソースのSLAMライブラリ

ZBrushでアヴァン・ガメラを作ってみる 下アゴと頭部を作...

ミニ四駆ブーム?

ZBrush 2018へのアップグレード

OpenCV 3.1から追加されたSfMモジュール

グローバルイルミネーションに手を出す前に、やり残したことがあ...

Yahoo!で「トランスフォーマー!」を検索すると

ZBrushで仮面ライダー3号を造る 仮面編

Photogrammetry (写真測量法)

書籍『イラストで学ぶ ディープラーニング』

Autodesk CompositeとAutodesk Ma...

Physically Based Rendering

Unreal Engine 5の情報が公開された!

Blenderでよく使うaddon

2012 昨日のクローズアップ現代を見た

Unityをレンダラとして活用する

マイケル・ベイの動画の感覚

豆腐みたいな付箋

SIGGRAPH ASIA 2009で学生ボランティア募集し...

VCG Library:C++のポリゴン操作ライブラリ

Adobe Photoshop CS5の新機能

ミニ四駆を改造してBluetoothラジコン化する

Leap MotionでMaya上のオブジェクトを操作できる...

ZBrushでアヴァン・ガメラを作ってみる 頭頂部と首周りを...

Houdiniのライセンスの種類

手を動かしながら学ぶデータマイニング

Polyscope:3Dデータ操作用GUIライブラリ

ZBrushでゴジラ2001を作ってみる 側頭部のボリューム...

ZBrushで仮面ライダー3号を造る 仮面編 リファレンス画...

ZBrushCoreのTransposeとGizmo 3D

UnrealCV:コンピュータビジョン研究のためのUnrea...

Composition Rendering:Blenderに...

MB-Lab:Blenderの人体モデリングアドオン

ラクガキの立体化 1年半ぶりの続き

HD画質の無駄遣い

Math Inspector:科学計算向けビジュアルプログラ...

HackerスペースとMakerスペース

海外ドラマのChromaKey

胡散臭いデザインの参考サイト

コメント