結構簡単に考えていたwindows環境での実行ですが、結論から言えばバイナリー配布を素直に使うべしですね(笑)
cpuであれば、何も考えなくても素直にmakeが通る感じでしたが、ただ、avx2があると思ってたんですが、make中にavx関連のtestが失敗しているのを見て発覚w
avxってARMのNEONとかと同類でほとんどもれなく入っていると思ったんですが、違うようで…orz
日本語から英語への翻訳に使えればいいかな?と言うレベルなのでまぁいいか…w
とはいえoneAPIも試してみたかったのですが、oneAPIのtoolkitが結構時間がかかる感じでして…とりあえずllama.cppのバイナリを持ってきて動かしてみましたが、linuxみたいにtoolkitのライブラリを通さないと実行すらできませんでした。現状のバージョンではtoolkitが一本化されたようなのでインストールの手間は幾分楽なのですが、最後の最後の95%とか97%の残り5minからなかなか終わりませんでした。
一晩放置して一応環境が整ったようなので、実際に起動してみると…
get_memory_info: [warning] ext_intel_free_memory is not supported (export/set ZES_ENABLE_SYSMAN=1 to support), use total memory as free memory
とか表示が行われた後に…起動する直前のタイミングで
Device does not support USM device allocations!
Exception caught at file:D:\a\llama.cpp\llama.cpp\ggml\src\ggml-sycl\ggml-sycl.cpp, line:752, func:operator()
SYCL error: CHECK_TRY_ERROR(dev_ptr = (void *)ggml_sycl_malloc_device(size, *stream)): Exception caught in this line of code.
in function ggml_backend_sycl_buffer_type_alloc_buffer at D:\a\llama.cpp\llama.cpp\ggml\src\ggml-sycl\ggml-sycl.cpp:752
D:\a\llama.cpp\llama.cpp\ggml\src\ggml-sycl\..\ggml-sycl\common.hpp:143: SYCL error
という表示で終了…まぁいろいろなメモリーが足りてなさそうなので深くは探りませんが、小さいモデルの量子化がQ4_0の物を実行してもダメ…アプリなどを落としまくってもダメでした。Ubuntuで実行していた時にSYCLだと倍ぐらいのメモリーが必要なので、そう考えると、実行しようとしているモデルのファイルは3GiB程度なので6GiB程度必要。メモリーは8GiBなのですが、Windows11なのでメモリーは3~4GiB程度は常に消費しているので…残り4GiB。llama.cppのSYCLだとモデルはその半分の2GiB程度のモデルしか動かんかもという悲惨な状況が露にw
と、思ってQwen3.5 0.8BモデルのQ4_Kモデルをダウンロードして実行しても変わらず…よくよくエラーを見ると、
Device does not support USM device allocations!
このデバイスはUSMデバイス割り当てをサポートしていません!/(^o^)\
そっか…ダメか…w alloc_bufferって単語しか目に入ってなかったよw
なんちゃってavx512が使えるならもうワンちゃんありそうですが…どうでしょうねぇw
0 件のコメント:
コメントを投稿