2026年4月8日水曜日

アップデートの影響

今のところベースとなる環境はLocalAIv4.1.1でllama.cppを最新のものに随時入れ替えている感じです。

モデルファイルはUnslothさんのところのgemma-4-26B-A4B-it-UD-Q3_K_XL.ggufかgemma-4-26B-A4B-it-UD-Q4_K_XL.ggufになるかな?と様子を見ています。

LocalAIの最新版は昨日アップデートされたv4.1.3ですがどうもv4.1.2で修正されている部分なのかもしれませんが、チャットインタフェースでレスポンスの最初の言葉が繰り返されて表示されてしまうようになっていて、とりあえずv4.1.1を使用しています。変更点をみるとbackendのllama-cppで、gemma4への対応が施されているのですが、チャットだけならとりあえず問題が無さそうなので、LocalAIのアップデートをもう少し見守りたいと思います。(少しソースを手直ししても治りそうになかったw)あと、根本的な部分で通常のユーザープロセスで動かしていると、終了時の処理でエラーが出ている部分も何とかならないかと…ソースを見てみましたが良く分からないので放置してたりします。

backendのllama-cppで元となるllama.cppのアップデートの影響が少しづつ表面化してきています。

一つは先日までモデル定義でgpu_layers: 2とするとロードエラーが出てしまっていたのですが、モデルを切り替えながら様子を見ていたら回答される言葉がおかしい部分が出てきました。

文章の一部が日本語以外の文字になる現象が現れました。(例えば、「キャラクター own: グレー ToString の毛並みを持つ、猫のような動物が描かれています。頭には黄色いキャップ(または帽子)を被っており」「この画像には、以下のような特徴があります。1.- メインの被写体으로는: 灰味스로 곡구입이만el로 그려진、귀요-고」)話も若干会話にならなくなるような感じも。最初は量子化の劣化による影響かと思ったんですが、今までそんなことは無かったので正直「量子化モデルもダメなのかな?」とか落胆したのですが、モデルの設定を見たらgpu_layers: 2となっていて、逆に「なぜ動いたんだ?」となりました(笑)。

設定は3でも動いたのですが、返答される会話は破綻する一方…最終的にはレスポンスが途切れたまま処理が続いていました。

SYCL関連のバグ臭いのでとりあえずgpu_layers: 0で実行したところ問題が無くなったようです。ただ、0なのにGPUの使用率が上がったりするんですよね…w何の処理してるんでしょうか?(笑) 

先ほども結構大きな修正(kv-cache関連)がかかっていたようなので気にはなっているのですが、アップデートするとまともなモデルの評価がしづらくなるのが痛いですね…。 

0 件のコメント:

コメントを投稿