Siriuth's Diary: llama.cppのアップデートが激しい…

2026年4月9日木曜日

llama.cppのアップデートが激しい…

結構頻繁にアップデートされ続けているようですが、ここ数日に至ってはどうやらLocalAIのbackendのllama-cppに影響の出るような修正が入ってきました。

もともと、LocalAIのbackendのllama-cppはllama.cppの実装例の中の一つを基にして作った様で、ビルドも通常のllama.cppからgitからclone(実際にはcloneではなくきちんとした手順)して、そのダウンロードしたソースに被せる形でbackend/cpp/llama-cpp内のソースをコピーしてmakeをかけています。

また、oneAPI用のmakeもgit環境を丸ごとコピーして環境変数を切り替えてmakeしています。その時にbackend/cpp/にllama-cpp-avx2-buildと言った感じでavxの性能別にmake用のテンポラリを複製しmakeをかけています。そのmakeされた実行ファイルをbackend/cpp/llama-cpp/ 内へコピーし、実行環境を作っています。

で、今日あたりのアップデートからチラホラbackend/cpp/llama-cpp/grpc-server.cppに影響の出る修正がかかっています。

LocalAIはv4.1.3へ移行はしていないのですが、それでもllama-cppを新しいllama.cppを基にしてmakeするためにはそれなりのものが必要なので、backend/cpp/llama-cpp/grpc-server.cppはできればgit上の最新のものを持ってきた方がよさげです。

で、ここでようやくv4.1.1上でbackendをv4.1.3のgrpc-server.cppのソースでmakeしたものが出来上がったのですが…v4.1.3で発生したチャットの不具合が表に出てきました。

なのでこれで原因としてbackendのllama-cpp以下で問題が発生していることになるのが明確になったわけですが…さらに悪いことに、このv4.1.3のgrpc-server.cppはmmprojにも悪影響を与えてしまっているのか、gemma-3n-E4B-it-Q8_0.ggufなどで画像などをつけると返答がおかしくなります。Qwen3.5-4B-Q4_K_M.ggufでは問題なく動いているようには見えます。（根本的にチャットの返答の最初のトークンがダブって出力されている部分が問題なのかもしれませんが。）

実際に、少しgrpc-server.cppを触っていますが、具体的にここがダメと言うところは単体で見た感じだと全く分からないので、llama.cppのソースと一緒にながめてみないとダメかな…

Siriuth's Diary

2026年4月9日木曜日

llama.cppのアップデートが激しい…

0 件のコメント:

コメントを投稿