🤖「結論から言うと、llama.cpp側の --override-tensor オプションは、LocalAIのYAML設定内で tensor_overrides(またはバックエンドへの直接引数渡し)として記述することが可能です。」
あったらよかったんだけどね…ありませんでしたよ。そんなもの…。
〇タップ細胞じゃないですが、さもあるように言われると期待しちゃったじゃないですか…ほんとに…
メモやら記録やら
🤖「結論から言うと、llama.cpp側の --override-tensor オプションは、LocalAIのYAML設定内で tensor_overrides(またはバックエンドへの直接引数渡し)として記述することが可能です。」
あったらよかったんだけどね…ありませんでしたよ。そんなもの…。
〇タップ細胞じゃないですが、さもあるように言われると期待しちゃったじゃないですか…ほんとに…
Qwen3.5とか出てるならgemmaの方は何かないのかな?とちょっと見てて
Gemma のリリース を見てました。シリーズとしてはLLMだけではなく、その他ツールも含まれていて今まで全く知らなかったMedGemmaなるものが。
2025/03/10にGemma3がリリースされた後、二か月後の2025/05/20にMedGemma、その翌月となる2025/06/25にGemma3nがリリースされていたようですが、MedGemmaなんて本当に知りませんでしたよ。
Qwen3は動かした気がしたのですが、3.5がlocalAIのギャラリーに並んでて少し気になったので動かしたのですが、何気に回答するまでの思考プロセスが言葉で表示され、かなり時間がかかった後に回答が得られるので、何とかならないかと少し検索していました。
結構試行錯誤の末になんとなくまともに動くようになった感じです。(contextの大きさなども含め動くだけの設定ですが。)
色々と試行錯誤してみると細かいところでlocalAIの中身がわからないのでソースを見ながら調整していました。
おもに.yamlファイルのtemplateを調整していたのですが、結局のところ何も考えなければ、
options:
- use_jinja: true
と設定すればllama-cppでgguf内の定義体からtokenizer.chat_templateをつかってプロンプトをいい感じに扱うようになりました。
localAIでいろいろと納得いかず、WindowsにOllamaをインストールして確認してます。
Ollamaのインストーラーもいつの間にか2G近いサイズになっていて驚きました。
インストールしたら、コマンドプロンプトでモデルのインストール。
> ollama pull hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0
ほんと、コマンドラインの履歴が残ってて助かりました…w