2026年4月9日木曜日

llama.cppのアップデートが激しい…

結構頻繁にアップデートされ続けているようですが、ここ数日に至ってはどうやらLocalAIのbackendのllama-cppに影響の出るような修正が入ってきました。

2026年4月8日水曜日

Qwen 3.5 4B Q4_K の画像認識

少し前にQwen 3.5を動かしたものの、思考表示がどうしても邪魔で最初は敬遠しがちでしたが、少しは動かしていたんです。少し…だけですがw

Gemma 4のリリースでここ数日どっぷりとハマっている感じですが、ふとllamaの動作確認を確認してた時にQwen3.5の画像認識がGemma 4より優っている感じがしました。

アップデートの影響

今のところベースとなる環境はLocalAIv4.1.1でllama.cppを最新のものに随時入れ替えている感じです。

モデルファイルはUnslothさんのところのgemma-4-26B-A4B-it-UD-Q3_K_XL.ggufかgemma-4-26B-A4B-it-UD-Q4_K_XL.ggufになるかな?と様子を見ています。

gemma-4-26b-a4b-it-UD-Q の動作

今まで動かしたモデルの最大パラメータ数はgemma-3-12b-Q4_K_M.gguf(ファイルサイズ約7.3GB)で、このモデルを実行すると確実に動作が極端に落ちたので量子化されたモデルでも実際によく試すものは4Bクラスのものが中心となっていました。

gemma 4のこのA4Bだとファイルキャッシュを含めてメモリーに格納できれば動作はそこまで極端に落ちない感じです。ほぼほぼCPUのみの動作に近い環境ですが。

なぜほぼCPU環境なのかと言えば、SYCLで動かしているとgpu_layers: 1より増やすと機動的無くなってしまうので…原因は単にGPUメモリの確保が足りないか、バグなのかはわかりません。

2026年4月7日火曜日

LocalAI v4.1.3

3時間前にリリースされたみたいですね。

個人的にはあまり関係が無さそうな修正ですが、grpcのバージョンが1.79.3 から 1.80.0 へ引き上げられているようです。 

bakend全体的なビルド元のバージョンもいくつか引き上げられていますね。 

https://github.com/mudler/LocalAI/releases/tag/v4.1.3

 

(追記 14:49)