2026年4月11日土曜日

local-ai backend/cpp/llama-cpp/grpc-server.cpp チャット時の最初のトークンのダブり対応

LocalAI v4.1.3でllama-cppを使用していて、個人的に非常に直したかった部分の対応が行われていました。(リリースは現時点ではかかっていません)

2026年4月10日金曜日

llama.cpp on ubuntu あれ?もしかしてvulkan?

今の今までllamaでintelならoneAPIでしょ?って思って疑わなかったんですが…もしかして正式にはvulkanじゃないとダメなのかなw

リリースの一覧を見ていると…Ubuntu x64 (CPU) Ubuntu arm64 (CPU) Ubuntu s390x (CPU) Ubuntu x64 (Vulkan) Ubuntu arm64 (Vulkan) Ubuntu x64 (ROCm 7.2) Ubuntu x64 (OpenVINO)あれ?さらに下を見ると…Windows x64 (Vulkan) Windows x64 (SYCL) Windows x64 (HIP)…SYCLってWindowsしかないんじゃ…(汗

SYCL どうもgpu_layersに0を設定してもGPUが動き続ける

結構軽めの動作確認をしているだけなので極端な差は出ていないけど、GPU(SYCL)の設定がいう事を聞いてくれない様だ。

0なら動かなくなるはずなのに、思いっきり動き続けている…しかもCPUコアは暇そうにしてるし(笑) 

llama.cpp: Gemma 4 26B A4B 量子化されたモデルの動作メモリ

妙に使用メモリが少ないと思ったんですよ(笑)

あと、今までも妙なメモリの変動があったのはあったんですが、A4BのモデルではCPUのみとは言え、メインメモリーには展開されるはずなので…

で、不思議なのはまともに会話が成立していた点はちょっと恐ろしくもあります。

2026年4月9日木曜日

llama.cppのアップデートが激しい…

結構頻繁にアップデートされ続けているようですが、ここ数日に至ってはどうやらLocalAIのbackendのllama-cppに影響の出るような修正が入ってきました。