2026年5月3日日曜日

Flux1で…

変換が終わって絵ができるかどうか?しか判断結果を気にしていなかったおかげでとんでもないミスをしていたことが後から分かりました…

LocalAIだと諸々の設定ができなければ実行状態にすらならないので気にしていなかったのですが、直接cliで叩くと結構動いちゃうもんなんですね…

何をミスしたかと言えばあとから実行コマンドを再利用していて上手くいかなくて出力メッセージを見ていたら、faildの文字出ているのに気づきました。

よくよく見てみると、T5xxlのテキストエンコーダが使われていなかったという事実…w

え? 肝心な方のエンコーダじゃないの?と思うわけですが、これがCLUP Lだけでも動いちゃったわけです…。どおりでプロンプトがあまり反映されないなぁとは思ったんですよ(笑)

でもなぜか画像の生成は成功しています。単純なプロンプトだからとかそんな感じなのもありますが。

いまだに仕組みは全く分かりませんが、どんな情報をテキストエンコーダから投げているのか気になります。

実際に動かすと、Flux1-devだと結構時間がかかります。出力された画像は、StableDiffusion3.5と比べても全体的な画像として品質が高いのは確かです。特に人体の四肢に関して、かなりいい感じのような気がします。全体的な質感は、プロンプト如何なところもあるとおもいますが、512x512で何枚か出力させた感じだと悪くなさそうです。が、いかんせん時間がw

しかも、後から調べてみると、Flux1-devってStep50が推奨値になってるっぽいので、今はstable-diffusion.cppのデフォルト値で20なのですが、それでも70分ぐらいかかってる気が…。他のモデルはどうなんだろう?とみてみると、Flux.2や、-devだけではなくなんか違うモデルも。pro向けの仕様としてのモデルも別にあるようで、本当に知らない世界です(笑)

簡易版として、Flux1-schnellがあるようなので、早速試してみました。最初はschnellでも20stepで出力させていて、全然早くない!と思ったのですが、調べてみると、モデルサイズこそあまり差はないようですが、こちらはStep4が推奨値で、処理時間がかからずに結果が出るようになっているとのこと。実際に出力させてみないとこの辺は良く分からないわけですが。

その後ちゃんとT5xxlのエンコーダーも指定して出力させてみましたが、比較対象がStableDiffusion3.5しかないのですが、こちらの方が出力されるものが安定している気がします。画像のサイズを変えても極端におかしくなるようなことは無さそうです。

ちなみにベースとなるFlux1-devは量子化Q4_K_Mの物をとりあえず使用しています。理由としてはテキストエンコーダのサイズを自由に切り替えたかったからです。stable-diffusion.cpp限定かどうかわかりませんが、cpuのみで動かす場合、StableDiffusion3.5ではベースモデルの量子化の影響があまりないように感じたのと、量子化の影響はCLIPやT5xxlなどのテキストエンコーダの方が大きく出てしまうように感じたので。

で、どちらがいいか悪いかと言うのは置いておいて、Flux1とかのほうがアダプターやLoarなどのプラグイン的な物が盛んな様なのでそっちも結構気になってきています。ファインチューニングには環境的に厳しそうですが、内容によるのでしょうが、アダプターやLoarはあまり環境を整えなくても作れそうな雰囲気を感じています。まったく良く分かっていませんがw

最後にいつものfish画像です…T5がQ4_K_MとQ8_0のものです。画質指定がないのでなんか絵の様な仕上がりになっているのが気になりますが、テキストエンコーダのT5xxlの量子化でQ4_K_MとQ8_0を比べると、Q8_0の方が全体的に節々がより誇張されている感じになっている感じがします。悪い言い方をすれば誇張されすぎてて不自然さが目立ちます。今のところQ4_K_Mの方がより自然に表現できる感じです。逆にいえば強調させるのが難しそうです。 

Q8_0
Q4_K_M
並べるとあまり差がないですが、重ねたりプレビューで切り替えると差が分かるかと思います。

あと、おなじfish画像を-dev(ただしstep20でやめてますw)のT5xxlをQ8_0で実行中ですが、まだ半分も終わってないです…w出来上がったら追加しておこうかなw 

色々とやり替えている間にdev(step20)が出来上がりました。描かれているものは全く違う魚ですが、質感は同じですね。おそらく乱数によって無指定の部分は決定されると思うので、逆に画像を与えるとどのようなプロンプトが指示されたか追えるといいかなぁ…というか、既にありそう。もしくは画像のどこかに埋め込まれてるかな?背景が無いのはStepが足りてないからなのかな?このへんも試してみないとわからないですね。 

0 件のコメント:

コメントを投稿