Qwen3は動かした気がしたのですが、3.5がlocalAIのギャラリーに並んでて少し気になったので動かしたのですが、何気に回答するまでの思考プロセスが言葉で表示され、かなり時間がかかった後に回答が得られるので、何とかならないかと少し検索していました。
メモやら記録やら
Qwen3は動かした気がしたのですが、3.5がlocalAIのギャラリーに並んでて少し気になったので動かしたのですが、何気に回答するまでの思考プロセスが言葉で表示され、かなり時間がかかった後に回答が得られるので、何とかならないかと少し検索していました。
結構試行錯誤の末になんとなくまともに動くようになった感じです。(contextの大きさなども含め動くだけの設定ですが。)
色々と試行錯誤してみると細かいところでlocalAIの中身がわからないのでソースを見ながら調整していました。
おもに.yamlファイルのtemplateを調整していたのですが、結局のところ何も考えなければ、
options:
- use_jinja: true
と設定すればllama-cppでgguf内の定義体からtokenizer.chat_templateをつかってプロンプトをいい感じに扱うようになりました。
localAIでいろいろと納得いかず、WindowsにOllamaをインストールして確認してます。
Ollamaのインストーラーもいつの間にか2G近いサイズになっていて驚きました。
インストールしたら、コマンドプロンプトでモデルのインストール。
> ollama pull hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0
ほんと、コマンドラインの履歴が残ってて助かりました…w
結局のところデバッグログを出しながら見てみるとlocalAI内部は意図通りに出力されているのが確認できました。
最終的にgeminiが下した判断は、パラメータでもう少し落ち着かせて冷静にさせてダメなら量子化などの影響が色濃く出ちゃってるんじゃ?とかなりRaktenAI2.0miniをオブラートに包んでダメ出しした感じですw
まぁ会話の最初で暴走気味しなければそれなりにいい感じなので、挨拶や会話調で話し始めるのはダメなのかもしれませんね。
今まで質問をぶつけてダメだった記憶は…あまり最初から質問をぶつけたことは無いか…