2026年4月28日火曜日

llama-cpp llama.cpp(b8954)

llama.cppのリリースを確認していたところ、気になるリリースが上がってました。

以前、Qwen3.5とか3.6で認識できない(というか処理が進まなくなる)画像が認識できるようになりました。全部が全部、と言うわけではなく、特定の画像を見てもらうと処理が止まるというだけだったのですが。

ただ、その後、llama-cppの動作が不安定に陥るので、それが解消されたと思っていいのかな?

llama.cpp でコンパイルしててシステムがフリーズw

昨日になりますが、llama.cppを素の状態で動かして動作確認したかったのでmakeをかけてみました。

その途中で別のコンソールを立ち上げて接続すると、Ubuntuのaptのアップデートが20件以上あるというメッセージが…。とりあえず見なかったことにして作業を進めていたのですが…

そう言えばqwen3.6 35B A3Bについての雑感

メモリが16GB程度しかないと、実際に確実に動くレベルだと量子化でQ3辺りが限界ですかね。それでも、ちゃんとした環境なら動かすだけならメモリも全て収まらなくても動くはずなので。ただ、モデルファイルだけでも結構な存在感ですがw

2026年4月27日月曜日

あんまり変わらんかったw

LocalAI経由で動作確認してるのが悪かったわけですが、結構手間取りました。

結果として、ggml-cpu : re-enable fast gelu_quick_f16(b8937)が含まれた状態のb8940をベースにしたllama-cppと、直前のリリース(b8936)をベースにしたllama-cppのバイナリを作って動作確認してみました。

LocalAI の.yamlファイル内の設定値

v4辺りから派手に変えたなぁと言う印象だったんですが、実際に動作を確認していたところどうもパフォーマンスの差が誤差範囲レベルでしか差が出ないという結果に。

普段いじらないthreads値を変えて、htopで見てみると、どうもスレッド数が制御されていない。