Siriuth's Diary: llama-bench

2026年5月24日日曜日

llama-bench

ただ何らかの結果が欲しければ、単純に適当なモデルを選んで実行するだけでした。

もともとの性能が低いのであれですが、こんな感じで出力されました。

| model                          |       size |     params |
| ------------------------------ | ---------: | ---------: |
| gemma4 E4B Q8_0                |   7.46 GiB |     7.52 B |

| backend    | threads |            test |                  t/s |
| ---------- | ------: | --------------: | -------------------: |
| CPU        |       4 |           pp512 |        10.92 ± 0.39 |
| CPU        |       4 |           tg128 |         3.51 ± 0.00 |

| backend    | threads |            test |                  t/s |
| ---------- | ------: | --------------: | -------------------: |
| BLAS       |       4 |           pp512 |        14.57 ± 0.02 |
| BLAS       |       4 |           tg128 |         3.59 ± 0.00 |

| backend    | ngl |            test |                  t/s |
| ---------- | --: | --------------: | -------------------: |
| SYCL       |  99 |           pp512 |        30.14 ± 0.02 |
| SYCL       |  99 |           tg128 |         2.65 ± 0.00 |

build: b0df4c0cf (9297)

一般的な見慣れた数値より２桁ほど低いですがこんな感じです(笑)

testのppが推論時の処理で、tgがテキストエンコード時の処理らしいです。体感時の数字がこんな気がします(笑)

backendがBLASとなっているのがAVX2のCPUでoneMKLによってAVX512を有効化したパターンです。こう見るとpp時に1.3倍程度になっているので、まともに設定ができなければoneMKLパターンもありかもしれませんね。まぁ誤差って言ってしまえば誤差ですが(笑)

Siriuth's Diary

2026年5月24日日曜日

llama-bench

0 件のコメント:

コメントを投稿