LocalAI経由で動作確認してるのが悪かったわけですが、結構手間取りました。
結果として、ggml-cpu : re-enable fast gelu_quick_f16(b8937)が含まれた状態のb8940をベースにしたllama-cppと、直前のリリース(b8936)をベースにしたllama-cppのバイナリを作って動作確認してみました。
メモやら記録やら
LocalAI経由で動作確認してるのが悪かったわけですが、結構手間取りました。
結果として、ggml-cpu : re-enable fast gelu_quick_f16(b8937)が含まれた状態のb8940をベースにしたllama-cppと、直前のリリース(b8936)をベースにしたllama-cppのバイナリを作って動作確認してみました。
v4辺りから派手に変えたなぁと言う印象だったんですが、実際に動作を確認していたところどうもパフォーマンスの差が誤差範囲レベルでしか差が出ないという結果に。
普段いじらないthreads値を変えて、htopで見てみると、どうもスレッド数が制御されていない。
LocalAIで遊んでいるminiPCと同一のminiPCでWindowsを使用しているのですが、windows用のintelグラフィックスドライバの更新をおこなったら、インテル・グラフィックソフトウェアが新しくなり、ようやく内蔵のGPUがどんなものなのか目視することができました。
なかなか魅力的な修正が入っているので現時点での最新のリリース(b8929)をベースとして実行したかったので、/backend/cpp/llama-cpp/grpc-server.cppへのLocalAIのmasterに反映されている部分の一部を取り込むことで何とかmakeしてみました。