Siriuth's Diary: llama.cpp on windows

2026年5月26日火曜日

llama.cpp on windows

結構簡単に考えていたwindows環境での実行ですが、結論から言えばバイナリー配布を素直に使うべしですね(笑)

cpuであれば、何も考えなくても素直にmakeが通る感じでしたが、ただ、avx2があると思ってたんですが、make中にavx関連のtestが失敗しているのを見て発覚ｗ

avxってARMのNEONとかと同類でほとんどもれなく入っていると思ったんですが、違うようで…orz

日本語から英語への翻訳に使えればいいかな？と言うレベルなのでまぁいいか…ｗ

とはいえoneAPIも試してみたかったのですが、oneAPIのtoolkitが結構時間がかかる感じでして…とりあえずllama.cppのバイナリを持ってきて動かしてみましたが、linuxみたいにtoolkitのライブラリを通さないと実行すらできませんでした。現状のバージョンではtoolkitが一本化されたようなのでインストールの手間は幾分楽なのですが、最後の最後の95%とか97%の残り5minからなかなか終わりませんでした。

一晩放置して一応環境が整ったようなので、実際に起動してみると…

get_memory_info: [warning] ext_intel_free_memory is not supported (export/set ZES_ENABLE_SYSMAN=1 to support), use total memory as free memory

とか表示が行われた後に…起動する直前のタイミングで

Device does not support USM device allocations!
Exception caught at file:D:\a\llama.cpp\llama.cpp\ggml\src\ggml-sycl\ggml-sycl.cpp, line:752, func:operator()
SYCL error: CHECK_TRY_ERROR(dev_ptr = (void *)ggml_sycl_malloc_device(size, *stream)): Exception caught in this line of code.
in function ggml_backend_sycl_buffer_type_alloc_buffer at D:\a\llama.cpp\llama.cpp\ggml\src\ggml-sycl\ggml-sycl.cpp:752
D:\a\llama.cpp\llama.cpp\ggml\src\ggml-sycl\..\ggml-sycl\common.hpp:143: SYCL error

という表示で終了…まぁいろいろなメモリーが足りてなさそうなので深くは探りませんが、小さいモデルの量子化がQ4_0の物を実行してもダメ…アプリなどを落としまくってもダメでした。Ubuntuで実行していた時にSYCLだと倍ぐらいのメモリーが必要なので、そう考えると、実行しようとしているモデルのファイルは3GiB程度なので6GiB程度必要。メモリーは8GiBなのですが、Windows11なのでメモリーは3～4GiB程度は常に消費しているので…残り4GiB。llama.cppのSYCLだとモデルはその半分の2GiB程度のモデルしか動かんかもという悲惨な状況が露にｗ

と、思ってQwen3.5 0.8BモデルのQ4_Kモデルをダウンロードして実行しても変わらず…よくよくエラーを見ると、

Device does not support USM device allocations!

このデバイスはUSMデバイス割り当てをサポートしていません！／(^o^)＼

そっか…ダメか…ｗ alloc_bufferって単語しか目に入ってなかったよｗ

なんちゃってavx512が使えるならもうワンちゃんありそうですが…どうでしょうねぇｗ

Siriuth's Diary

2026年5月26日火曜日

llama.cpp on windows

0 件のコメント:

コメントを投稿