Qwen3.5 35B A3Bの量子化されたモデルを試していて、Qwen3.5でレスポンスが無くなった画像も試したものの、やはりこちらでも返ってこなくなったのですが、結構激しい量子化がかかったQ2とかQ3のもので試していたので、(Q2のものだと普通にレスポンスが怪しい状態なので)そのせいかもしれないなぁと。
以前、少しマルチモーダルな機能を試していてレスポンスが止まることがあったモデルで、最近のllama.cppをベースにしてるものなら動作が変わるかもしれないと思い、再び試してみました。
環境はLocalAI v4.1.3にbackendのllama-cppはmasterのgrpc-server.cppに差し替えたもの。llama.cppはexport LLAMA_VERSION=b8763で指定して現時点で最新の状態にしています。
明らかに引っかかったモデルファイルはQwen_Qwen3.5-4B-Q4_K_M.gguf。まぁこっちも結構きつい量子化されたQ4ですけどね…w。
makeしたのは素のCPUのみで実行できるバイナリとintelの内蔵GPUで動かせるAVX2が動作するバイナリを用意してみました。
結果から言えば、CPUのみのバイナリで画像の説明をお願いしたところ、結構な時間(10分程度?)放置していたら驚いたことに画像の説明が始まりました。
AVX2を使用するものを実行したところやはりレスポンスが返ってくる気配もなく、念のため20分程度放置しましたがGPUの使用率が0%で、topではCPUの1コアだけ100%になっているような状態になったので、停止させました。
以前試したときは、純粋にCPUのみで動作させるバイナリは用意しなかったので確定はできませんが、少なくても現状のAVX2のものはCPU単体の動作とは違う動きをしているのは確定しました。
とは言え、このモデルでレスポンスが10分もかかるのは、非力なPCとは言え、ちょっと異常なので普通の画像もちょっと見てもらいました。
何個か試してみたところやはり1~2分もあればレスポンスが返ってきました。
問題となる画像は5ch(2ch?)まとめ系のサイトのものなんですがw
0 件のコメント:
コメントを投稿