2026年3月28日土曜日

localAI Qwen_Qwen3.5-4B-Q4_K_M.ggufで思考表示モードの抑止

Qwen3は動かした気がしたのですが、3.5がlocalAIのギャラリーに並んでて少し気になったので動かしたのですが、何気に回答するまでの思考プロセスが言葉で表示され、かなり時間がかかった後に回答が得られるので、何とかならないかと少し検索していました。

2026年3月27日金曜日

localAIでのRakuten AI 2.0 mini

結構試行錯誤の末になんとなくまともに動くようになった感じです。(contextの大きさなども含め動くだけの設定ですが。)

色々と試行錯誤してみると細かいところでlocalAIの中身がわからないのでソースを見ながら調整していました。

おもに.yamlファイルのtemplateを調整していたのですが、結局のところ何も考えなければ、

options:
 - use_jinja: true

と設定すればllama-cppでgguf内の定義体からtokenizer.chat_templateをつかってプロンプトをいい感じに扱うようになりました。

OllamaのRakuten AI 2.0 mini instruct

localAIでいろいろと納得いかず、WindowsにOllamaをインストールして確認してます。

Ollamaのインストーラーもいつの間にか2G近いサイズになっていて驚きました。

インストールしたら、コマンドプロンプトでモデルのインストール。 

> ollama pull hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0

ほんと、コマンドラインの履歴が残ってて助かりました…w

2026年3月21日土曜日

さらに…

結局のところデバッグログを出しながら見てみるとlocalAI内部は意図通りに出力されているのが確認できました。

最終的にgeminiが下した判断は、パラメータでもう少し落ち着かせて冷静にさせてダメなら量子化などの影響が色濃く出ちゃってるんじゃ?とかなりRaktenAI2.0miniをオブラートに包んでダメ出しした感じですw

まぁ会話の最初で暴走気味しなければそれなりにいい感じなので、挨拶や会話調で話し始めるのはダメなのかもしれませんね。

今まで質問をぶつけてダメだった記憶は…あまり最初から質問をぶつけたことは無いか…

2026年3月20日金曜日

gemma3に初めて触れたとき以来熱心にチャットした気がする…

なんか今日はとても疲れた…
何だろこのやるせなさ(笑)

👨「こんばんは
🤖「おはようございます

 と返されたり、