ただ何らかの結果が欲しければ、単純に適当なモデルを選んで実行するだけでした。
もともとの性能が低いのであれですが、こんな感じで出力されました。
| model | size | params |
| ------------------------------ | ---------: | ---------: |
| gemma4 E4B Q8_0 | 7.46 GiB | 7.52 B |
| backend | threads | test | t/s | | ---------- | ------: | --------------: | -------------------: | | CPU | 4 | pp512 | 10.92 ± 0.39 | | CPU | 4 | tg128 | 3.51 ± 0.00 | | backend | threads | test | t/s | | ---------- | ------: | --------------: | -------------------: | | BLAS | 4 | pp512 | 14.57 ± 0.02 | | BLAS | 4 | tg128 | 3.59 ± 0.00 |
| backend | ngl | test | t/s | | ---------- | --: | --------------: | -------------------: | | SYCL | 99 | pp512 | 30.14 ± 0.02 | | SYCL | 99 | tg128 | 2.65 ± 0.00 | build: b0df4c0cf (9297)
一般的な見慣れた数値より2桁ほど低いですがこんな感じです(笑)
testのppが推論時の処理で、tgがテキストエンコード時の処理らしいです。体感時の数字がこんな気がします(笑)
backendがBLASとなっているのがAVX2のCPUでoneMKLによってAVX512を有効化したパターンです。こう見るとpp時に1.3倍程度になっているので、まともに設定ができなければoneMKLパターンもありかもしれませんね。まぁ誤差って言ってしまえば誤差ですが(笑)
0 件のコメント:
コメントを投稿