Siriuth's Diary: 2026.04

2026年4月29日水曜日

stablediffusion-ggml で F16をfalseにしたらヤバかったｗ

とりあえず、llama-cpp側のF16の件が自分の中で落ち着いた（詳細は見ていないが固定値でせっていしても変化が分からなかった）のと、画像を渡しても落ちなくなったので、先週ぶりにstablediffusion-ggmlをもう少し触ってみようかと。

設定のyamlが動くようにはなっていたものの、なんだか全く記憶に残ってない…。

なんかF16の設定もあってfalseになってるみたいだからとりあえず画像作成してみましょうかね…一番ちっちゃいさいずならかかっても5分で終わるでしょう…時間がかかる…のは仕方がないですｗ

続きを読む »

2026年4月28日火曜日

llama-cpp llama.cpp(b8954)

llama.cppのリリースを確認していたところ、気になるリリースが上がってました。

以前、Qwen3.5とか3.6で認識できない（というか処理が進まなくなる）画像が認識できるようになりました。全部が全部、と言うわけではなく、特定の画像を見てもらうと処理が止まるというだけだったのですが。

ただ、その後、llama-cppの動作が不安定に陥るので、それが解消されたと思っていいのかな？

続きを読む »

llama.cpp でコンパイルしててシステムがフリーズｗ

昨日になりますが、llama.cppを素の状態で動かして動作確認したかったのでmakeをかけてみました。

その途中で別のコンソールを立ち上げて接続すると、Ubuntuのaptのアップデートが20件以上あるというメッセージが…。とりあえず見なかったことにして作業を進めていたのですが…

続きを読む »

そう言えばqwen3.6 35B A3Bについての雑感

メモリが16GB程度しかないと、実際に確実に動くレベルだと量子化でQ3辺りが限界ですかね。それでも、ちゃんとした環境なら動かすだけならメモリも全て収まらなくても動くはずなので。ただ、モデルファイルだけでも結構な存在感ですがｗ

続きを読む »

2026年4月27日月曜日

あんまり変わらんかったｗ

LocalAI経由で動作確認してるのが悪かったわけですが、結構手間取りました。

結果として、ggml-cpu : re-enable fast gelu_quick_f16(b8937)が含まれた状態のb8940をベースにしたllama-cppと、直前のリリース(b8936)をベースにしたllama-cppのバイナリを作って動作確認してみました。

続きを読む »

LocalAI の.yamlファイル内の設定値

v4辺りから派手に変えたなぁと言う印象だったんですが、実際に動作を確認していたところどうもパフォーマンスの差が誤差範囲レベルでしか差が出ないという結果に。

普段いじらないthreads値を変えて、htopで見てみると、どうもスレッド数が制御されていない。

続きを読む »

2026年4月26日日曜日

確かにあまり変化なかったなぁ…

なんか結構インパクトありそうなリリースがかかってます。

ggml-cpu : re-enable fast gelu_quick_f16 (#22339)

更新内容を見るとggml_vec_gelu_quick_f16がインライン展開されるようになっていた部分がご丁寧に同じ内容でインライン展開されるものの、地味に処理が走る感じになっていました。

firefoxの自動翻訳に頼ってますが、コメントには「現在のバージョンは10〜20倍遅い。」と書かれています。最初はコードの間違え探しでしたが、内部のループが痛い感じに…

CPUで動かしていることが多いですが、じつはf16:trueにしても実際あまり変化を感じず…別件では量子化されたF16の物が物凄く重く感じたり…これが原因だったのかな？その結果Q8モデルファイルを中心にして色々考えていたのですがｗ

またちとF16を準備して試さないとあかんかな？

SYCLは蛇の道…

LocalAIで遊んでいるminiPCと同一のminiPCでWindowsを使用しているのですが、windows用のintelグラフィックスドライバの更新をおこなったら、インテル・グラフィックソフトウェアが新しくなり、ようやく内蔵のGPUがどんなものなのか目視することができました。

続きを読む »

LocalAI v4.1.3 ベースで最新のllama.cppを使ってmake

なかなか魅力的な修正が入っているので現時点での最新のリリース（b8929）をベースとして実行したかったので、/backend/cpp/llama-cpp/grpc-server.cppへのLocalAIのmasterに反映されている部分の一部を取り込むことで何とかmakeしてみました。

続きを読む »

2026年4月24日金曜日

stablediffusion-ggml 上手く動かないｗ

ベースとなるモデルが動いたので、他のモデルも簡単に動かせるかと期待したものの、結果から言えばほぼ全滅…昨日の夜からいろいろ試してみた物の何の成果も出ませんでした…。

遅いとか早いとか以前の問題ですね。ただ、どんな形でモデルが絡み合っているのかは見えてきました。とはいえ、ドキュメントはあくまでも参考程度で、ソースを見なければ設定した値がどのようにbackendに引き渡されるのかわからなかったりしますね。普通はこの辺りの事どうしてるんでしょうかね？

続きを読む »

2026年4月23日木曜日

LocalAI v4.1.3 ベースで最新のllama.cppからのmakeが厳しくなってきた…

現状 LocalAI v4.1.3 に /backend/cpp/llama-cpp/grpc-server.cppをmasterから上にかぶせてmakeしていたのですが、どうも5日前からLocalAIのgrpcインターフェースの変更が反映されてしまっているようで…

続きを読む »

Qwen 3.6が公開されてたんですね

４月１７１６日にQwen3.6が公開されていたようですね…

先週末は個人的なイベントとして議員選挙の投票があったので、ハマり始めた生成画像で少しずつ様子見をしているうちに週が明け、昨日も全く知らなかったモデルなども見始めたりしていました。

続きを読む »

2026年4月22日水曜日

バックエンドのmakeとか

実際にmakeして動かしてみるとSYCLを利用すると結構不安定な状態になるので、ほかのbackendとしてvulkanにしてみたら変わるのだろうか？という疑問が湧いてきていてもたってもいられなくなってしまいました。

続きを読む »

2026年4月21日火曜日

気づいたら、そのうちピカソの絵を超える絵ができるかもしれない。

その昔、サルがキーボードを適当にたたいて、シェイクスピアができる確率とかなんとかありましたが、まさにそのサルに自分がなっているかのような気分になっています。

続きを読む »

検索が見ずらくなったなぁと感じたので…

FireFoxの検索のサイト指定の除外を増やしてみました。

なーんか調べようと検索すると似たようなサイトがいくつかあって、中身はまともそうなんだけど広告がうざすぎるというか、コピーサイトみたいな感じのものが多かったので。

続きを読む »

2026年4月20日月曜日

選挙の得票数で小数点？

事情が全く分からないので良く分からないのですが、昨日行われた市議会議員の選挙結果で、得票数が小数点のものがちらほら含まれていました。

続きを読む »

2026年4月19日日曜日

LocalAI backend stablediffusion-ggml

llama.cppのリリースが落ち着いている様だったので他のバックエンドも様子を見てみようかと。

今までイメージ出力が上手く行っていなかったので、LocalAIでcommitされていたbackendのstablediffusion-ggmlをビルドしてみました。

続きを読む »

2026年4月17日金曜日

霧尾ファンクラブ

原作全く分かりませんが、テレビアニメであまり気にせず見始めたら一話目からハマってますｗまぁ確実に低予算系で、全く期待してなかったアニメが楽しめるというのはうれしい限り。

続きを読む »

2026年4月16日木曜日

llama.cpp b8809 [SYCL]のQ8_0のバグ修正

Q8_0って結構好んでるモデルですね…でもQ4とかほかのものもおかしい気が…

[SYCL] Fix Q8_0 reorder: garbage on 2nd prompt + crash on full VRAM
[SYCL] Fix Q8_0 reorder: add missing dequantize path for GEMM
SYCL: add RAII temp buffer class + macro guard for host fallback
SYCL: document GGML_SYCL_HOST_MEM_FALLBACK build option in SYCL.md
SYCL: add reorder-aware DMMV dequantizers for Q4_K and Q6_K

そもそもこのコード修正すでにAIが行ってるんですか？すごいですね…としか言えない…というかめちゃ怖いｗ

続きを読む »

2026年4月15日水曜日

結構精力的に活動が活発なようですが、今度はturboquantですか…

なんかこちらもホットなllama.cppフォークの様で…kvキャッシュの量子化で小さくすることで高速化するとか。確かに…

続きを読む »

cpuのみで動作させてるはずなのに、xpu-smiが表示される。

htopでcpuとメモリーの監視を行いながら、動作確認を行っているとなぜかxpu-msiというプロセスが動いていることに気づきました。

続きを読む »

2026年4月14日火曜日

MedGemma1.5が日本語で推論しはじめた！？

しまい込む前にモデルの設定ファイル(.yaml)のF16: falseにしたり効果はないもののreasoning: disable: true にして、ちょっと真面目に？聞いてみました。

続きを読む »

MedGemmaの推論過程の抑止ができない…

ほんのちょっとだけ動かしたMedGemma1.5ですが、どうやってもthoughtの表示を消すことができない…

続きを読む »

肥大化したモデルファイルを整理しようとしてるのに、なぜか増える件について…

闇雲に生成AIに触れながらいろいろ試しているうちに、結構肥大化してきたので整理しようとしてるのですが、何故か増えてるんですよ…

続きを読む »

llama.cpp backendによって地味に差がある？

手元の環境で実行できるbackendは、CPUのみとVulkanとSYCL。

この前動かした状態だとVulkanとSYCLではVulkanの方が遅かったのですが、再度環境を変えたところ両方ともほぼ同程度でした。

続きを読む »

2026年4月13日月曜日

local-ai ik-llama-cppを早く動かしてみたくて…

とりあえず、素のik-llama.cppをビルドしてみました。

レスポンスのトークンが３倍以上に跳ね上がるグラフを見てうずうずが止まりませんでした。（グラフの見方も良く分からんかったりするわけですがｗ）

仮に、１分のものが２０秒ぐらいで返ってくるのはでかいよなぁ？とか涎が止まらなくなりそうな状態のまま、書いてある手順に従ってサクッとmakeしてcpu単体で動かしてみました。

続きを読む »

2026年4月12日日曜日

ik-llama.cpp backendを追加？

電車の中で、githubでlocalAIリポジトリのコミットを見てみると、「feat(backends): add ik-llama-cpp」と出ていたのでなんだろうな？と検索してみると、少し前にllama.cppからforkされた物のようで、llama.cppで苦労してそうな古いアーキテクチャのサポートをは行わずにCPU+GPU、CPUの動作でllama.cppよりも効率的に実行できるようで…

Webuiは無いようですが。使ってないからええかなｗ

ざっくりと見るだけでも、結構評価は高そうです。さっそく動かしてみたいですね…ビルドがpytorch絡んで居なければ何とかなるはず…

はい…実はpythonベースの実行環境がよくわからなすぎてpythorchベースの物が思うようにビルドできてないんですよｗ

正直なところここまで試した結果、docker imageでいいんじゃね？的な部分もあるわけですが、昨日今日でネイティブならでわの利点というか、利便性が改めて実感してたりｗ

まぁライブラリバージョンの制限がキツイとどうしようも無さそうなのは変わりませんが…

Qwen 3.5 4B Q4_K_Mで特定の画像でレスポンスが返ってこなくなる

Qwen3.5 35B A3Bの量子化されたモデルを試していて、Qwen3.5でレスポンスが無くなった画像も試したものの、やはりこちらでも返ってこなくなったのですが、結構激しい量子化がかかったQ2とかQ3のもので試していたので、（Q2のものだと普通にレスポンスが怪しい状態なので）そのせいかもしれないなぁと。

以前、少しマルチモーダルな機能を試していてレスポンスが止まることがあったモデルで、最近のllama.cppをベースにしてるものなら動作が変わるかもしれないと思い、再び試してみました。

続きを読む »

2026年4月11日土曜日

local-ai backend/cpp/llama-cpp/grpc-server.cpp チャット時の最初のトークンのダブり対応

LocalAI v4.1.3でllama-cppを使用していて、個人的に非常に直したかった部分の対応が行われていました。（リリースは現時点ではかかっていません）

続きを読む »

2026年4月10日金曜日

llama.cpp on ubuntu あれ？もしかしてvulkan？

今の今までllamaでintelならoneAPIでしょ？って思って疑わなかったんですが…もしかして正式にはvulkanじゃないとダメなのかなｗ

リリースの一覧を見ていると…Ubuntu x64 (CPU) Ubuntu arm64 (CPU) Ubuntu s390x (CPU) Ubuntu x64 (Vulkan) Ubuntu arm64 (Vulkan) Ubuntu x64 (ROCm 7.2) Ubuntu x64 (OpenVINO)あれ？さらに下を見ると…Windows x64 (Vulkan) Windows x64 (SYCL) Windows x64 (HIP)…SYCLってWindowsしかないんじゃ…（汗

続きを読む »

SYCL どうもgpu_layersに0を設定してもGPUが動き続ける

結構軽めの動作確認をしているだけなので極端な差は出ていないけど、GPU(SYCL)の設定がいう事を聞いてくれない様だ。

0なら動かなくなるはずなのに、思いっきり動き続けている…しかもCPUコアは暇そうにしてるし(笑)

llama.cpp: Gemma 4 26B A4B 量子化されたモデルの動作メモリ

妙に使用メモリが少ないと思ったんですよ(笑)

あと、今までも妙なメモリの変動があったのはあったんですが、A4BのモデルではCPUのみとは言え、メインメモリーには展開されるはずなので…

で、不思議なのはまともに会話が成立していた点はちょっと恐ろしくもあります。

続きを読む »

2026年4月9日木曜日

llama.cppのアップデートが激しい…

結構頻繁にアップデートされ続けているようですが、ここ数日に至ってはどうやらLocalAIのbackendのllama-cppに影響の出るような修正が入ってきました。

続きを読む »

2026年4月8日水曜日

Qwen 3.5 4B Q4_K の画像認識

少し前にQwen 3.5を動かしたものの、思考表示がどうしても邪魔で最初は敬遠しがちでしたが、少しは動かしていたんです。少し…だけですがｗ

Gemma 4のリリースでここ数日どっぷりとハマっている感じですが、ふとllamaの動作確認を確認してた時にQwen3.5の画像認識がGemma 4より優っている感じがしました。

続きを読む »

アップデートの影響

今のところベースとなる環境はLocalAIv4.1.1でllama.cppを最新のものに随時入れ替えている感じです。

モデルファイルはUnslothさんのところのgemma-4-26B-A4B-it-UD-Q3_K_XL.ggufかgemma-4-26B-A4B-it-UD-Q4_K_XL.ggufになるかな？と様子を見ています。

続きを読む »

gemma-4-26b-a4b-it-UD-Q の動作

今まで動かしたモデルの最大パラメータ数はgemma-3-12b-Q4_K_M.gguf(ファイルサイズ約7.3GB)で、このモデルを実行すると確実に動作が極端に落ちたので量子化されたモデルでも実際によく試すものは4Bクラスのものが中心となっていました。

gemma 4のこのA4Bだとファイルキャッシュを含めてメモリーに格納できれば動作はそこまで極端に落ちない感じです。ほぼほぼCPUのみの動作に近い環境ですが。

なぜほぼCPU環境なのかと言えば、SYCLで動かしているとgpu_layers: 1より増やすと機動的無くなってしまうので…原因は単にGPUメモリの確保が足りないか、バグなのかはわかりません。

続きを読む »

2026年4月7日火曜日

LocalAI v4.1.3

３時間前にリリースされたみたいですね。

個人的にはあまり関係が無さそうな修正ですが、grpcのバージョンが1.79.3 から 1.80.0 へ引き上げられているようです。

bakend全体的なビルド元のバージョンもいくつか引き上げられていますね。

https://github.com/mudler/LocalAI/releases/tag/v4.1.3

(追記 14:49)

続きを読む »

デシベルとラウドネス

昔、小学生前かな？親の持っていたテープレコーダーにラウドネススイッチがついていてオンにすると音が良くなるとかなんとか言われた気がします。あとドルビーのスイッチもついていてなんか良く分からないけどこれも音が良くなるとかなんとか。正直良く分かりませんでしたが、スイッチのオンオフで低音が強調されたり高音が抑えられたりするのは気づきました。

そんなラウドネスと言う言葉ですが、まさかffmpegの音の調整で出てくるとは…

続きを読む »

Gemma 4 26B A4B 例のフィルター

実際問題あまり問題ない倫理フィルターですが、動作確認的にどの程度で引っかかってくるのか気にはなります。E2BとE4Bの引っかかり具合の差は明らかにE4Bの方が厳しくなっていたのですが、それが大きいパラメータを背負っているモデルではどのように変わるのでしょうか？

続きを読む »

2026年4月6日月曜日

Gemma 4 26B A4Bの画像認識について

最初に断わっておくと、E2BやE4Bはお笑いレベルでしたが、26B A4Bは道具レベルになっています。

E2B / E4Bモデルの量子化モデルを使って画像からの文字認識率を比較してベースのパラメータサイズがかなり影響を受けていることを感じていました。26B A4Bの量子化がかなりかかったモデルも動かせたので早速確認することにしました。

続きを読む »

…Gemma 4 26B A4Bの量子化版UD-Q2_K_XLが普通に使えて驚いた…

つい魔が差して手を出してしまいました。

ほら、やっぱりアクティブトークンが4Bレベルで動作するとか気になるじゃないですか？

続きを読む »

2B、4B、26Bとかのボリューム感

実際に生成AIに直接触れ始めたのは去年のGemma 3ぐらいからですが、どうもパラメータ数を表す単位が大きすぎて想像が全くつかなかったので、身近な（？）数字で感覚的にとらえられないかと考えていました。

続きを読む »

Gemma 4 E2BのQ8_0とかの画像認識

今までは「ギリ動かせる」モデルとしてE4Bベースのモデルを動かしていましたが、身の丈に合った小さいモデルがどの程度の実力なのか気になったので少し確認してみました。

実際に動かしてみると、ザックリと触れる分にはE4BもE2Bも大差がないのかもしれません。

続きを読む »

2026年4月5日日曜日

Gemma 4 update（多分正式リリースアナウンス版が反映されている感じ）

google/gemma-4-E4B 3日前にアップデートされunslothさんのものも昨日アップデートされていました。

続きを読む »

Local AI v4.1.1 がリリースされました。

リリース時間が１時間前となっているので結構タイムリーですね。

対応は主にGemma4関連だと思います。

続きを読む »

Gemmaの日本語識字率

画像認識で結構文字を拾ってたりしたのでOCR機能としては優秀なんだと勝手に思っていました…

結論から言うと、少なくても日本語に関しては万能ではなさそうです。

続きを読む »

Gemma 4 で（思考抑止で）くだらないチャットを続けてました。

Local AIでgguf内で定義されているトークナイザ用のテンプレートを利用した場合にシステムプロンプトがちゃんと扱われているかRakuten AI 2.0miniの時には半信半疑だったのですが、ちゃんと機能しているようです。

続きを読む »

llama.cpp LOGIT_SOFTCAPPINGがどうたらこうたら

Gemma 4関連でllama.cppのアップデートが行われていないかチェックしているのですが、にわかな私ですら結構インパクトのありそうな修正が入ってるような気がします。

続きを読む »

2026年4月4日土曜日

Gemma 4 （思考抑止モード）がどの程度遊びに付き合ってくれるか試してみた(笑)

Gemma 4の画像認識がどの程度なのかを見ていてどの程度のものが倫理フィルターに引っかかってしまうのか気になったので試してみました。

続きを読む »

Gemma 4 （主にE4B) の画像認識

まだ突っ込んだチャットはしていないのですが、mmprojが目についたのでvision機能について少し遊んでみました。(Unslothさんはほぼフルセットのggufが作成されているので私のようなにわかにとても助かります。ドキュメントも整備されていてものすごく理解が早まります。)

比較対象は主にGemma 3や3nとなりますが、複数のmmprojモデルが作成され選択肢として用意されていたので、その違いも改めて知ることになりました。

続きを読む »

2026年4月3日金曜日

Gemma 4 on LocalAI

何もしない(localAI v4.0.0)で.yamlを超手抜きで options: - use_jinja:trueだけ指定して実行すると下記の通りになります。

gemma-4n-e4b-it-Q8_0

Internal error: failed to load model with internal loader: could not load model: rpc error: code = Internal desc = Failed to load model: /usr/share/local-ai/models/gemma-4-E4B-it-Q8_0.gguf. Error: llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'; llama_model_load_from_file_impl: failed to load model; llama_params_fit: encountered an error while trying to fit params to free device memory: failed to load model; llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'; llama_model_load_from_file_impl: failed to load model

コンソール出力などにも同様のエラーが出ますが、チャットインタフェースでもエラーが表示されます。

続きを読む »

〇dobeのhostsファイルの書き換え

Adobe CCがhostsファイルを無断で変更か。批判の声相次ぐ https://pc.watch.impress.co.jp/docs/news/2098494.html

まとめ系で見ていてモラルが落ちたのかな？とか思ったんですが、どうしてこんなことになってるか？っていう事ですが、おそらくこれIPv4 over IPv6が原因で、仕方ないって感じがします。

続きを読む »

LocalAI 4.1.0 Release!

2時間前にリリースされたとのこと。

gemma4の対応かと思ったんですが違うようですね。

ちなみに、llama-cppがCommit 5208e2dのリリースもついさっき行われててこちらはfix: gemma 4 template (#21326)とのこと。テンプレートを使うとエラーになるようですね。変更を少し見るとテンプレートにIntegerとか変数型による分岐が追加されているようなので、function関連で型を厳密に見るようになってるのかな？まだgemma4はunslothさんのQ4_0.ggufをダウンロードしてサクッと動かそうとしてエラーになったから寝たんですが。

ふと、メールの着信音が聞こえたので

Gemma 4 だと！？

ただ、最近gemini使っててあれなのが、gemma3と同じで話の途中で結構入れ替わりが発生するんですよね。例えば、AとBについて話していると突然AとBが入れ替わってるという…。

根本的なところが補強されてればいいんだろうけど、おそらくマルチメディアよろしくいろいろなデータが扱えるようになっているとか出力できるようになったとかそういう系のような気がするんだよなぁ…期待はするけど…さて…どうでしょうかね？

2026年4月1日水曜日

IntelだけCPU

Qwen TTSのonoさん面白い…ｗ

完全に中国人がしゃべる日本語にしか聞こえない…

LocalAI v4.0.0でpocket-ttsがそのまま動いた＼(^_^)／

いや、普通は動くんじゃね？って思うでしょ？dockerのイメージを使って動かすなら動くんでしょうけど、こっちはソースからビルドしたネイティブ環境という茨の道を歩いている最中…。

続きを読む »

GOPって？

動画ファイルを不要な末尾のカットをしていて、再エンコードなしでカットすると、キーフレーム単位のような単位で切れるので、最初はこういうものだとあきらめていました。

そもそも動画ファイルがいい加減で、ffmpegもそこまで厳密に扱っていないだろうと。

そんな思い込みが強く、細かくソースを確認することもせず使っていたのですが、最近、とあるPCでカットをすると見事にフレーム単位で切れるんです。もうほんとフレーム単位でスパスパと。

続きを読む »

登録: 投稿 (Atom)