Stable Diffusionをざっくり理解しよう
Stable DiffusionはStability AIが開発した画像生成AIで、拡散モデル(Diffusion Model)を利用することでハイクオリティな画像を生成することが可能になっている。
拡散モデルは、画像にノイズを複数回付加してガウシアンノイズとなるプロセスを逆転し、ノイズ画像から複数回ノイズを除去することで画像を生成するモデルである。
なお、誰もが利用しやすいようにオープンソースソフトウェアとして公開されている。
まずは試しに使ってみる
以下のサイトでStable Diffusionのデモを利用することができる。
以下のプロンプトと呼ばれる部分に生成してほしい要素のキーワードを入力しよう。
ネガティブプロンプトは逆に生成して欲しくない要素のキーワードであり、入力した内容が反映されにくくなる。
おそらく、出力結果を見て大半の人は興味を失う結果となるはずだ。
生成する時間はとても長く、クオリティも低くて、ちっとも面白くない。
筆者が生成したこちらの画像は、美少女どころかもはや恐怖画像のようにも見える。
ストレスなく美少女画像を量産するためには
- ハイスペックPC(VRAMの容量が大きいGPU)を利用してローカル環境で高速で画像生成する
- 美少女画像生成に適したモデルを利用する
筆者はNVIDIA GeForce RTX 4090を搭載したALIENWARE AURORA R15を利用しているが、かなりサクサクと画像生成を行うことが出来ている。
なお、保有するPCのマシンスペックが十分でない場合はGoogle Colaboratoryを利用することでクラウドサービスとして高性能なGPUを利用することが可能だ。
ローカル版Stable Diffusionのインストール
ローカル版のStable Diffusionでは、AUTOMATIC1111氏が開発したフロントエンドであるStable Diffusion WebUIが一般的に利用されている。
以下のリポジトリからzipファイルをダウンロードしてインストールすることができる。
インストールの方法はいくつかあるが、先人の解説がたくさん存在するため、ここでは詳解しない。
以下などの外部ブログを参考にされると良い。
モデルを追加する
学習モデルであるAOM3(AbyssOrangeMix3)を追加して利用すれば、以下のような画像を簡単に作ることができる。
これは、筆者が保有する新星ギャルバース(Shinsei Galverse)のNFT画像を参考にimg2imgで画像を出力したものだ。
なお、AOM3は以下からDLすることができる。
AOM以外にもアニメ絵に適したモデルが多数存在するし、写真のようなリアルな人間の出力に適したモデルなどもあるので、作成目的に適合するモデルを探すと良いだろう。
操作をざっくり理解する
Stable Diffusion WebUIを触るうえで最低限知っておくべき事項を紹介する。
txt2imgとimg2img
txt2imgはtextからimage、つまり文字から画像を生成することである。
プロンプトに文字を入力することでモデルが画像を生成してくれる。
img2imgはimageからimage、つまり画像から画像を生成することである。
入力に利用した画像にプロンプトで指示を加えることで、当該画像の構図を利用して新たな画像を生成することができる。
プロンプト入力の基礎
プロンプトの入力はコツがあり、呪文と呼ばれユーザの間で研究が繰り広げられている。
筆者もプロンプトの入力について模索中であるが、基本的事項は以下の通りである。
- 英語で入力する
- プロンプト内での単語の位置が前であるほど影響を与えやすく、後ろであるほど与えにくい
- 単語を選択してCtrl + ↑↓で(XXXX: 1.1)や(YYYY: 0.9)と影響の重みの調整ができる
- ネガティブプロンプトは除外事項の指定
この程度の理解であっても画像を生成することができるので、習うより慣れろで色々なパラメータをいじりながら画像を生成してみると良いだろう。
プロンプトの研究をする
プロンプトの入力について研究するためには、他のユーザ生成したクオリティの高い画像のプロンプトの内容を参考にするのが手っ取り早い。
以下のLexica.artのようなサイトを利用することで、自分の好きな画像のプロンプトを知ることができる。
サイト上の画像をクリックすると、以下のようにプロンプトやモデルなどを知ることができる。
また、生成された画像をStable Diffusion WebUIのPNG Infoにドラッグアンドドロップすることでパラメータを確認することもできる。
Twitterなどには他のユーザにより生成されたハイクオリティな画像がたくさん掲載されているが、アップロードする過程で変換されてしまうため、Tweetに含まれる画像をダウンロードしてもパラメータ情報が残っていないので確認することができない。
しっかり勉強するための参考サイト
最後に、筆者がStable Diffusionを勉強する上で特に理解に寄与したサイトを紹介する。
二番目のサイトはアダルト向けな内容が含まれる(NSFW)ため注意が必要だ。
コメント