Flux1用のプロンプトではないのですが、gemma4に作ってもらったプロンプトをベースにしたものを流用してどんな差が出るのか比べてみました。(多分一般的ではない比較w)
そもそも(あくまでも量子化されたモデルで)devとschnellの違い。テキストエンコーダの量子化の違い。あと、Stepの違い。
この辺がどの程度変わるのか、気になったわけです。SD3.5では違いはあるものの、基本的な部分は変わらないかなと。
まず、devとschnellの違いとしては、似てるけど、別物という結論に至りました。SD3.5とFlux1との差ほど違いは無いですが、同じプロンプト、同じseed値、同じテキストエンコーダを使っても出力されているものは内容は同じものの、がらりと変わっています。
step数による違いは思っていた以上に出るような気がします。(SD3.5でStep50とかで動かしたことがないので比較はできませんがw)。とは言え、プロンプトに指定した内容は固定化されているので、指定されていない部分の差が出てくる感じでしょうか。
テキストエンコーダの量子化の差については乱数の誤差が出てくるためにやはり結果が異なってきますが、全体的なイメージはStepの影響よりは出にくいようで、この辺はSD3.5も同様だった感じです。実際のオブジェクトも誤差の結果で変わってきているようですがw
以下モデル、Step、ClipLの量子化状態のマトリクスが以下のようになります…まぁ未完成ですが、気が向いたら埋めていくかも?wあと、ClipLはsafetensorsのままでもいけると思うので、それとの比較や、あとは、現状512x512のみ出力サイズですが、サイズを変えたものも並べていきたいんだよなぁ…
| - | Steps | clip l | ||||
|---|---|---|---|---|---|---|
| Q4 | Q8 | |||||
| schnell | 4 | |||||
| 20 | ||||||
| dev | 20 | | ||||
| 50 | |
ちなみにClipLとT5xxlのエンコーダはFlux1に同梱されているものではない(SD3.5ベース)ですが、すべて同じプロンプト「Full body shot of a beautiful woman standing, dynamic pose, highly detailed, realistic photography, natural lighting, golden hour, soft shadows, cinematic quality.」で作成しています。Seed値はstable-diffusion.cppのデフォルト値(42)です。
恐ろしい話として、実行環境はN150 CPUのみで50Stepで出力時間は3時間。1Stepあたり3.6分。これはdevでもschnellでもほぼ変わらずでした。なので4Stepの画像でも15分程度かかってたりします(笑)てか、SYCLも試したい…w
サイズ違いでschnellでClipLはQ4_0、Step4、サイズを768x768にしたパターンが出来上がりました。なんかポージングから違ってるwこりゃぁ難しいですねwプロンプトで抑止すれば落ち着いてくれるのだろうか?ネガティブプロンプトもないのであれですが、指の本数が明らかに多いw






0 件のコメント:
コメントを投稿