2026年5月24日日曜日

llama-bench

ただ何らかの結果が欲しければ、単純に適当なモデルを選んで実行するだけでした。

もともとの性能が低いのであれですが、こんな感じで出力されました。

| model                          |       size |     params |
| ------------------------------ | ---------: | ---------: |
| gemma4 E4B Q8_0 | 7.46 GiB | 7.52 B |

| backend    | threads |            test |                  t/s | | ---------- | ------: | --------------: | -------------------: | | CPU        |       4 |           pp512 |        10.92 ± 0.39 | | CPU        |       4 |           tg128 |         3.51 ± 0.00 | | backend    | threads |            test |                  t/s | | ---------- | ------: | --------------: | -------------------: | | BLAS       |       4 |           pp512 |        14.57 ± 0.02 | | BLAS       |       4 |           tg128 |         3.59 ± 0.00 |
| backend    | ngl |            test |                  t/s | | ---------- | --: | --------------: | -------------------: | | SYCL       |  99 |           pp512 |        30.14 ± 0.02 | | SYCL       |  99 |           tg128 |         2.65 ± 0.00 | build: b0df4c0cf (9297)

一般的な見慣れた数値より2桁ほど低いですがこんな感じです(笑)

testのppが推論時の処理で、tgがテキストエンコード時の処理らしいです。体感時の数字がこんな気がします(笑)

backendがBLASとなっているのがAVX2のCPUでoneMKLによってAVX512を有効化したパターンです。こう見るとpp時に1.3倍程度になっているので、まともに設定ができなければoneMKLパターンもありかもしれませんね。まぁ誤差って言ってしまえば誤差ですが(笑) 

0 件のコメント:

コメントを投稿