7月にDALL-E2やMidjourneyが公開されて以降、画像生成AIの話題が尽きない。
ほんの2,3ヶ月の間に、文章から画像を生成するtext to imageの新しい研究やサービス・ツールへの移植が毎日のように次々と公開されている。
https://note.com/yamkaz/m/mad0bd7dabc99
オイラも8月にMidjourneyを無料枠で試してみた↓
話題のmidjourneyに「H・R・ギーガーが描いたウルトラマン」を頼んだ結果#midjourney pic.twitter.com/dV9ANULIdO
— NegativeMind (@NegativeMind) August 5, 2022
Stability.Aiがtext to image手法の1つであるStable Diffusionをオープンソースで公開したことで、text to imageが色んなサービスやツールに組み込まれて一気に手軽に試せるようになった。
https://huggingface.co/CompVis/stable-diffusion-v1-4
https://github.com/CompVis/stable-diffusion
text to imageを利用できる有料サービスに課金しても良いけど、今はかなり円安なのでできれば自分のPCローカルでtext to image動かして好き放題遊びたい。そこそこ良いスペックのPCはあるので。


少し調べてみると、今のところ最も手軽にtext to imageをローカルで試せるのはStable DiffusionをGUIで包んだこちらのアプリケーション↓
Stable Diffusion GRisk GUI
Stable Diffusionのモデルを実行するためのインターフェイスです。つまり、テキストのpromptを入力するとそれに対応した画像が返ってきます。
これは超アルファ版であるため、多くのバグがある可能性があります。Stable Diffusion GRisk GUI.exeを実行するだけで使用できます。
生成する画像の解像度設定は64の倍数(64, 128, 192, 256など)である必要があり、512×512解像度が最も良い生成結果を得られます。
重要事項:
- 一部のGTX 1660カードでは、Use Half-Precisionで実行すると問題が発生すると判明しています。(現時点でGUIではこのオプションにしか対応していません)
- Samples per promptはまだ機能しておらず、promptごとに常に1つの画像が生成されます。同じpromptを複数行繰り返せばSamples per promptと同等の効果を得られます。
- 512X512で良好な結果を得られますが、他の解像度は品質に影響を与える可能性があります。
- Step数を多くするとより品質が向上します。Step数を増やしてもメモリ消費量は増えず、処理時間が長くなります。
- 150 Step以下から始めると良いでしょう。
- .exeの起動時に以下のエラーが表示されてもアプリは引き続き動作します。
torchvision\io\image.py:13: UserWarning: Failed to load image Python extension:torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function:
. warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")
torch\_jit_internal.py:751: UserWarning: Unable to retrieve source for @torch.jit._overload function:
. warnings.warn(f"Unable to retrieve source for @torch.jit._overload function: {func}.")
オイラの環境だと640×640解像度まではエラー無く動作したけど、推奨解像度の512×512の方が生成品質は良くなるらしいです。
https://note.com/abubu_nounanka/n/n496a98677201
追記:もっとリッチなGUIアプリがあった↓
NMKD Stable Diffusion GUI

https://github.com/n00mkrad/text2image-gui
https://pajoca.com/stable-diffusion-gui-nmkd/
https://pajoca.com/stable-diffusion-gui-img2img/
promptとパラメータを色々工夫して好みの画像生成を模索してみた結果↓














ハイスペックなPCを持っていれば、パソコンを起点とした遊びは充実するね。
もはやGANの時代ではないらしい。Stable Diffusionの仕組みについてちゃんと勉強したいなぁ。
https://ja.stateofaiguides.com/20221012-stable-diffusion/
追記:Stable Diffusionをスマホローカルで動作させた例もチラホラ
The #stableDifusion running on-device on iOS beta is out! Running iOS 16 only right now. These took me about 4:30-5 min on my iPhone 14 Pro https://t.co/41OQSJQHC4
Also, signup here if you haven’t already to learn about the actual launch https://t.co/7tpiedKeJz pic.twitter.com/Q0G82BC4qb
— Matt Waller (@wattmaller1) October 15, 2022
I got Stable Diffusion running on my phone this weekend. It's slow, but usable! Code is here: https://t.co/mwq0YQiNcU pic.twitter.com/Ft29LWOk5p
— Ollin Boer Bohan (@madebyollin) October 9, 2022
関連記事
R-CNN (Regions with CNN featur...
ディープラーニング
OpenCV
Cartographer:オープンソースのSLAMライブラリ
ZBrushでアヴァン・ガメラを作ってみる 下アゴと頭部を作...
ミニ四駆ブーム?
ZBrush 2018へのアップグレード
OpenCV 3.1から追加されたSfMモジュール
グローバルイルミネーションに手を出す前に、やり残したことがあ...
Yahoo!で「トランスフォーマー!」を検索すると
ZBrushで仮面ライダー3号を造る 仮面編
Photogrammetry (写真測量法)
書籍『イラストで学ぶ ディープラーニング』
Autodesk CompositeとAutodesk Ma...
Physically Based Rendering
Unreal Engine 5の情報が公開された!
Blenderでよく使うaddon
2012 昨日のクローズアップ現代を見た
Unityをレンダラとして活用する
マイケル・ベイの動画の感覚
豆腐みたいな付箋
SIGGRAPH ASIA 2009で学生ボランティア募集し...
VCG Library:C++のポリゴン操作ライブラリ
Adobe Photoshop CS5の新機能
ミニ四駆を改造してBluetoothラジコン化する
Leap MotionでMaya上のオブジェクトを操作できる...
ZBrushでアヴァン・ガメラを作ってみる 頭頂部と首周りを...
Houdiniのライセンスの種類
手を動かしながら学ぶデータマイニング
Polyscope:3Dデータ操作用GUIライブラリ
ZBrushでゴジラ2001を作ってみる 側頭部のボリューム...
ZBrushで仮面ライダー3号を造る 仮面編 リファレンス画...
ZBrushCoreのTransposeとGizmo 3D
UnrealCV:コンピュータビジョン研究のためのUnrea...
Composition Rendering:Blenderに...
MB-Lab:Blenderの人体モデリングアドオン
ラクガキの立体化 1年半ぶりの続き
HD画質の無駄遣い
Math Inspector:科学計算向けビジュアルプログラ...
HackerスペースとMakerスペース
海外ドラマのChromaKey
胡散臭いデザインの参考サイト



コメント