i2iでバ美肉(静止画)できるのか

未分類

これは何

SDXLの生成AIモデルで実写の写真に写っている被写体を美少女化した時にi2iで変換するとどこまで情報量が落ちるのか?

全体図

必要最小限で、

  • 実写の元画像を読ませて720p程度の画質にダウンスケール(処理速度優先)
  • SDXLのモデル(checkpoint)をロード(今回はwai-nsfw-illustrious)
  • プロンプトを適当に書く
  • サンプラーでは潜在画像(元ネタ画像)を無視する度合いが決められる

1 girl,solo, beautiful skin, {gothic lolita}, smily eyes, pink hair, wavy hair, super long hair & perm
playing guitar on live stage, standing

((Worse quality , low quality )) , normal quality , missing limb , missing arm , extra limb , extra fingers , disconnected limbs , bad face , bad anatomy, text, watermark

こんな感じのプロンプトで美少女を召喚します。

ノイズ除去の度合いによる出力の変化

Seed固定で、デノイズ(どれだけ元画像を無視するのか)によって出力が変わってきます。

0.99

ほぼ無視。かわいい。

0.90

0.9くらいまでは元画像の構図が無視されてる感じ。

0.85

ちょっと元画像の構図に近くなってきた

0.8

ちょっとまだ原作色が少ない

0.7

0.7くらいまで落とすと元の情報(後ろのドラムとかスクリーンとか)が入ってくる。

0.6

ちょっと写実的になった反面、ディティールが今度は逆に気になってくる

0.5

顔が崩壊

0.4

ここまで来ると2次元と3次元の構図のギャップで色々狂ってくる。
受肉したいならデノイズ0.7くらいが良さそう?

実写系モデルの場合

muchenSDXLPortrait_v10という実写系モデルを使う。

0.8
0.6

実写だと逆に楽器の不自然さがより際立つ。

逆にもう原型なくてええやんって時はもうペイントで塗っちゃう。

以上、確認終了。