画像生成AIラボ活動レポート vol.2

以下はStable Diffusion+Loraで生成した女性ギタリストの画像です。 Ibanezっぽいリバースヘッドの24フレットカッタウェイなので、きっと速弾きが得意。
弦のゆがみなどの細かい部分は苦手ですが、ポーズをパッと出せるのは良いですよね。これをネームや絵コンテとするなど、大まかな構図作りには役立てるかもしれません。

F#のパワーコードだと思われる

img2imgで写真から生成

これまで「txt2img」でプロンプトによる生成を中心としていましたが、Stable Diffusionの機能である「img2img」での可能性を探るべく、燃えさかる炎の写真をアニメ調で生成。
「img2img」ではこのように写真からアニメに変換したり、逆にアニメから実写に変換すると良いでしょう。さらに、ここから各ツールで合成したり、ベクターデータにしてアニメーションにしたり、加工によって色々なシーンで使えそうです。

其ノ魂ヨ炎炎ノ炎ニ帰セラートム

生成AI画像はデザインに使えるのか

私たちの大いなる目標である、生成AI画像は実用性があるのか？という課題に対して、作成した以下のメインビジュアルをご覧ください。
こちらに掲載した人物は全てStable Diffusionで生成したものです。トリミングなどを工夫し、それらしくしてみました。CheckpointはBRAV6を使用普通にありそう、と評判でした

突然やってきたSDXL

次の画像は、SDXL1.0という最新のモデルを使用して作成した画像です。
2023年7月末リリースされたSDXL（Stable Diffusion XL）は、Stability AI社が開発した画像生成AIであるStable Diffusionの最新モデル。
その名の通り、生成されるサイズはSDの512x512から、1024x1024の4倍に。

SDXLで生成した猫の画像は、毛並みの細部までまるで命が吹き込まれているかのように精細に描かれています。
また、奥行きのあるレンズの絞りも再現されており、写真との見分けはもはやつかないと言っても過言ではないでしょう。
耳の透け具合もセクシー

SDXLはまだまだこれから

SDXLで高品質な猫の画像を無限に生成できることは、多くのストレスから解放されることでしょう。しかし、人物の生成は3Dゲームのようなドール感があり、リアルな人物写真とは程遠いものでした。
今後の学習や、マージモデルの登場によってよりリアルな人物が生成できることが期待されますが、現在も生成AIに関する著作権トラブルの声もよく聞きますので、生成AIの未来は不透明です。
イカダはとにかく新しい技術が好きなので、今後も新しいモデルが登場したらすぐに試してみようと思います。
どことなくコーエーテクモ感

SDXL生成にはメモリに注意

Google Colabでの生成は無料枠では難しく、有料枠でもメモリ不足でWeb UIが落ちてしまうことがあります。
その場合はpipelineを使った実行か、Web UIを使用する場合はハイメモリでの生成であれば安定して動作することができました。

Google Colab T4。GPU RAMがしんどそう

ハイメモリは「ランタイムのタイプを変更」から、ハイメモリにチェックすることで使用できます。

システム RAMとGPU RAMが同じくらい使用され、安定しました。

今回の画像生成AIラボのレポートは以上です。次回もお楽しみに！

デザイナー

イカダ

# 実験

一覧に戻る