これは何
SDXLの生成AIモデルで実写の写真に写っている被写体を美少女化した時にi2iで変換するとどこまで情報量が落ちるのか?
全体図

必要最小限で、
- 実写の元画像を読ませて720p程度の画質にダウンスケール(処理速度優先)
- SDXLのモデル(checkpoint)をロード(今回はwai-nsfw-illustrious)
- プロンプトを適当に書く
- サンプラーでは潜在画像(元ネタ画像)を無視する度合いが決められる
1 girl,solo, beautiful skin, {gothic lolita}, smily eyes, pink hair, wavy hair, super long hair & perm
playing guitar on live stage, standing
((Worse quality , low quality )) , normal quality , missing limb , missing arm , extra limb , extra fingers , disconnected limbs , bad face , bad anatomy, text, watermark
こんな感じのプロンプトで美少女を召喚します。
ノイズ除去の度合いによる出力の変化
Seed固定で、デノイズ(どれだけ元画像を無視するのか)によって出力が変わってきます。

ほぼ無視。かわいい。

0.9くらいまでは元画像の構図が無視されてる感じ。

ちょっと元画像の構図に近くなってきた

ちょっとまだ原作色が少ない

0.7くらいまで落とすと元の情報(後ろのドラムとかスクリーンとか)が入ってくる。

ちょっと写実的になった反面、ディティールが今度は逆に気になってくる

顔が崩壊

ここまで来ると2次元と3次元の構図のギャップで色々狂ってくる。
受肉したいならデノイズ0.7くらいが良さそう?
実写系モデルの場合
muchenSDXLPortrait_v10という実写系モデルを使う。


実写だと逆に楽器の不自然さがより際立つ。

逆にもう原型なくてええやんって時はもうペイントで塗っちゃう。
以上、確認終了。

エンジニアとして働く90年生まれ。Web系技術を追っかけたり、PCガジェットや自転車いじりが趣味。オーディオオタク。