Siriuth's Diary: localAI Qwen_Qwen3.5-4B-Q4_K_M.ggufで思考表示モードの抑止

2026年3月28日土曜日

localAI Qwen_Qwen3.5-4B-Q4_K_M.ggufで思考表示モードの抑止

Qwen3は動かした気がしたのですが、3.5がlocalAIのギャラリーに並んでて少し気になったので動かしたのですが、何気に回答するまでの思考プロセスが言葉で表示され、かなり時間がかかった後に回答が得られるので、何とかならないかと少し検索していました。

色々見ると、テンプレートなどで表示だけ止めるのが一番無難な雰囲気だったので、最初はテンプレートを弄ろうかと思ったんですよ…。Rakuten AI 2.0 miniでちょっと自信がついたんで(笑)

ですが…localAI側の.yamlを覗くと思いっきりuse_jinja:trueとなっていて、ggufファイルのテンプレートつかってる…という始末。恐る恐るhfのサイトでテンプレートを確認すると、チョーなげぇーテンプレートが出てきました。

中を見ると…あ、これ無理ｗとか。それでも少しやる気になって手を入れ始めたんですが…すぐには無理っぽいと、あきらめることに。（geminiさんにでも相談したら.yaml用のテンプレートをサクッと作ってくれそうな気がする…ｗ）

思考プロセスの出力を止めることができるはずだから…とパラメータを見てみるとそれらしいものは無さそう（というか全く想像つかない）。少し途方に暮れながらlocalAIのドキュメントを thinking とかで検索し何度か繰り返しながらたどりついたのが、

reasoning:
disable: true

という設定。これで思考表示が止められるようです。ただ、いろいろ検索した記事の中では思考表示を停止させると、返される回答の内容が変わるとかなんとか書いてあったものはありました。普通に考えると、テキストをトークン単位に切り分けてそれに続くトークンを出力し続けているだけなのハズなので、思考表示のために乱数を使用して、結果的に乱数ずれが生じて出力される回答が、思考表示を止めたものと止めなかったものでは違う物になっているだけかとは思います。

思考表示が無くなるとそれなりの速度で回答が返ってくるようになったので少しチャットしてみましたが、Qwen3では日本語が不自由だった気がしますが、3.5ではかなり流暢に日本語が返ってきていました。QwenはGemma同様マルチモーダル系なので画像の確認もしてみましたが…mmprojがあってないだけなのかな？返答がいつまで待っても返ってきませんでした。

まぁその辺は諦めたとして…ただ、動作速度はGemma3n4Bと同じようなモデルのはずですが３倍ぐらい遅い感じがします。（そもそもの動作環境が貧弱なのであれなんですがｗ）

もう少し軽ければ…

Siriuth's Diary

2026年3月28日土曜日

localAI Qwen_Qwen3.5-4B-Q4_K_M.ggufで思考表示モードの抑止

0 件のコメント:

コメントを投稿