ggml-cpu : re-enable fast gelu_quick_f16 (#22339)
更新内容を見るとggml_vec_gelu_quick_f16がインライン展開されるようになっていた部分がご丁寧に同じ内容でインライン展開されるものの、地味に処理が走る感じになっていました。
firefoxの自動翻訳に頼ってますが、コメントには「現在のバージョンは10〜20倍遅い。」と書かれています。最初はコードの間違え探しでしたが、内部のループが痛い感じに…
CPUで動かしていることが多いですが、じつはf16:trueにしても実際あまり変化を感じず…別件では量子化されたF16の物が物凄く重く感じたり…これが原因だったのかな?その結果Q8モデルファイルを中心にして色々考えていたのですがw
またちとF16を準備して試さないとあかんかな?
0 件のコメント:
コメントを投稿