2026年4月27日月曜日

あんまり変わらんかったw

LocalAI経由で動作確認してるのが悪かったわけですが、結構手間取りました。

結果として、ggml-cpu : re-enable fast gelu_quick_f16(b8937)が含まれた状態のb8940をベースにしたllama-cppと、直前のリリース(b8936)をベースにしたllama-cppのバイナリを作って動作確認してみました。

LocalAI の.yamlファイル内の設定値

v4辺りから派手に変えたなぁと言う印象だったんですが、実際に動作を確認していたところどうもパフォーマンスの差が誤差範囲レベルでしか差が出ないという結果に。

普段いじらないthreads値を変えて、htopで見てみると、どうもスレッド数が制御されていない。

2026年4月26日日曜日

確かにあまり変化なかったなぁ…

なんか結構インパクトありそうなリリースがかかってます。
ggml-cpu : re-enable fast gelu_quick_f16 (#22339)

更新内容を見るとggml_vec_gelu_quick_f16がインライン展開されるようになっていた部分がご丁寧に同じ内容でインライン展開されるものの、地味に処理が走る感じになっていました。
firefoxの自動翻訳に頼ってますが、コメントには「現在のバージョンは10〜20倍遅い。」と書かれています。最初はコードの間違え探しでしたが、内部のループが痛い感じに…

CPUで動かしていることが多いですが、じつはf16:trueにしても実際あまり変化を感じず…別件では量子化されたF16の物が物凄く重く感じたり…これが原因だったのかな?その結果Q8モデルファイルを中心にして色々考えていたのですがw

またちとF16を準備して試さないとあかんかな?

SYCLは蛇の道…

LocalAIで遊んでいるminiPCと同一のminiPCでWindowsを使用しているのですが、windows用のintelグラフィックスドライバの更新をおこなったら、インテル・グラフィックソフトウェアが新しくなり、ようやく内蔵のGPUがどんなものなのか目視することができました。

LocalAI v4.1.3 ベースで最新のllama.cppを使ってmake

なかなか魅力的な修正が入っているので現時点での最新のリリース(b8929)をベースとして実行したかったので、/backend/cpp/llama-cpp/grpc-server.cppへのLocalAIのmasterに反映されている部分の一部を取り込むことで何とかmakeしてみました。