Siriuth's Diary: llama.cpp backendによって地味に差がある？

2026年4月14日火曜日

手元の環境で実行できるbackendは、CPUのみとVulkanとSYCL。

この前動かした状態だとVulkanとSYCLではVulkanの方が遅かったのですが、再度環境を変えたところ両方ともほぼ同程度でした。

ただし、SYCLでは問題の無かった画像がVulkanだと無意味な出力ループが行われたりしました。安定度ではSYCLの方が高そうという部分は変わりません。

現時点（リリースb8775）では、（少なくともVulkan, SYCLでは）量子化されたモデルファイルでは結構不安定なようです。最近のモデルQwen3.5やGemma 4の動作を中心に修正が行われているために過去のGemma3などのモデルでの動作が不安定になる傾向が強くなっています。

特に過去に作成された量子化モデルを扱うと数回チャットを繰り返すと返答が不安定になりました。根本的な問題かと思い、同じモデルから作成された（量子化されていない）F16モデルで試したところ、正しく動いたので、特定の量子化で問題があるのか、量子化ファイル全体で問題が発生するのかは不明です。

ただ、CPUのみのバイナリで量子化されたモデルファイルを扱ったときに正しく動くので、Vulkan, SYCLの不具合と言う認識で、間違いないでしょう。

生成AIの特性上非常にデリケートな部分もあるので、llama.cppのリリースを取り込むのはできれば動作確認を一通り行った上で環境に取り込む必要があると思います。

Siriuth's Diary