その昔、サルがキーボードを適当にたたいて、シェイクスピアができる確率とかなんとかありましたが、まさにそのサルに自分がなっているかのような気分になっています。
2026年4月21日火曜日
検索が見ずらくなったなぁと感じたので…
FireFoxの検索のサイト指定の除外を増やしてみました。
なーんか調べようと検索すると似たようなサイトがいくつかあって、中身はまともそうなんだけど広告がうざすぎるというか、コピーサイトみたいな感じのものが多かったので。
2026年4月20日月曜日
2026年4月19日日曜日
LocalAI backend stablediffusion-ggml
llama.cppのリリースが落ち着いている様だったので他のバックエンドも様子を見てみようかと。
今までイメージ出力が上手く行っていなかったので、LocalAIでcommitされていたbackendのstablediffusion-ggmlをビルドしてみました。
2026年4月17日金曜日
2026年4月16日木曜日
llama.cpp b8809 [SYCL]のQ8_0のバグ修正
Q8_0って結構好んでるモデルですね…でもQ4とかほかのものもおかしい気が…
[SYCL] Fix Q8_0 reorder: garbage on 2nd prompt + crash on full VRAM
[SYCL] Fix Q8_0 reorder: add missing dequantize path for GEMM
SYCL: add RAII temp buffer class + macro guard for host fallback
SYCL: document GGML_SYCL_HOST_MEM_FALLBACK build option in SYCL.md
SYCL: add reorder-aware DMMV dequantizers for Q4_K and Q6_K
そもそもこのコード修正すでにAIが行ってるんですか?すごいですね…としか言えない…というかめちゃ怖いw
2026年4月15日水曜日
cpuのみで動作させてるはずなのに、xpu-smiが表示される。
htopでcpuとメモリーの監視を行いながら、動作確認を行っているとなぜかxpu-msiというプロセスが動いていることに気づきました。
2026年4月14日火曜日
MedGemma1.5が日本語で推論しはじめた!?
しまい込む前にモデルの設定ファイル(.yaml)のF16: falseにしたり効果はないもののreasoning: disable: true にして、ちょっと真面目に?聞いてみました。
肥大化したモデルファイルを整理しようとしてるのに、なぜか増える件について…
闇雲に生成AIに触れながらいろいろ試しているうちに、結構肥大化してきたので整理しようとしてるのですが、何故か増えてるんですよ…
llama.cpp backendによって地味に差がある?
手元の環境で実行できるbackendは、CPUのみとVulkanとSYCL。
この前動かした状態だとVulkanとSYCLではVulkanの方が遅かったのですが、再度環境を変えたところ両方ともほぼ同程度でした。
2026年4月13日月曜日
local-ai ik-llama-cppを早く動かしてみたくて…
とりあえず、素のik-llama.cppをビルドしてみました。
レスポンスのトークンが3倍以上に跳ね上がるグラフを見てうずうずが止まりませんでした。(グラフの見方も良く分からんかったりするわけですがw)
仮に、1分のものが20秒ぐらいで返ってくるのはでかいよなぁ?とか涎が止まらなくなりそうな状態のまま、書いてある手順に従ってサクッとmakeしてcpu単体で動かしてみました。
2026年4月12日日曜日
ik-llama.cpp backendを追加?
Qwen 3.5 4B Q4_K_Mで特定の画像でレスポンスが返ってこなくなる
Qwen3.5 35B A3Bの量子化されたモデルを試していて、Qwen3.5でレスポンスが無くなった画像も試したものの、やはりこちらでも返ってこなくなったのですが、結構激しい量子化がかかったQ2とかQ3のもので試していたので、(Q2のものだと普通にレスポンスが怪しい状態なので)そのせいかもしれないなぁと。
以前、少しマルチモーダルな機能を試していてレスポンスが止まることがあったモデルで、最近のllama.cppをベースにしてるものなら動作が変わるかもしれないと思い、再び試してみました。
2026年4月11日土曜日
local-ai backend/cpp/llama-cpp/grpc-server.cpp チャット時の最初のトークンのダブり対応
LocalAI v4.1.3でllama-cppを使用していて、個人的に非常に直したかった部分の対応が行われていました。(リリースは現時点ではかかっていません)
2026年4月10日金曜日
llama.cpp on ubuntu あれ?もしかしてvulkan?
今の今までllamaでintelならoneAPIでしょ?って思って疑わなかったんですが…もしかして正式にはvulkanじゃないとダメなのかなw
リリースの一覧を見ていると…Ubuntu x64 (CPU) Ubuntu arm64 (CPU) Ubuntu s390x (CPU) Ubuntu x64 (Vulkan) Ubuntu arm64 (Vulkan) Ubuntu x64 (ROCm 7.2) Ubuntu x64 (OpenVINO)あれ?さらに下を見ると…Windows x64 (Vulkan) Windows x64 (SYCL) Windows x64 (HIP)…SYCLってWindowsしかないんじゃ…(汗
SYCL どうもgpu_layersに0を設定してもGPUが動き続ける
結構軽めの動作確認をしているだけなので極端な差は出ていないけど、GPU(SYCL)の設定がいう事を聞いてくれない様だ。
0なら動かなくなるはずなのに、思いっきり動き続けている…しかもCPUコアは暇そうにしてるし(笑)
llama.cpp: Gemma 4 26B A4B 量子化されたモデルの動作メモリ
妙に使用メモリが少ないと思ったんですよ(笑)
あと、今までも妙なメモリの変動があったのはあったんですが、A4BのモデルではCPUのみとは言え、メインメモリーには展開されるはずなので…
で、不思議なのはまともに会話が成立していた点はちょっと恐ろしくもあります。
2026年4月9日木曜日
llama.cppのアップデートが激しい…
結構頻繁にアップデートされ続けているようですが、ここ数日に至ってはどうやらLocalAIのbackendのllama-cppに影響の出るような修正が入ってきました。
2026年4月8日水曜日
Qwen 3.5 4B Q4_K の画像認識
少し前にQwen 3.5を動かしたものの、思考表示がどうしても邪魔で最初は敬遠しがちでしたが、少しは動かしていたんです。少し…だけですがw
Gemma 4のリリースでここ数日どっぷりとハマっている感じですが、ふとllamaの動作確認を確認してた時にQwen3.5の画像認識がGemma 4より優っている感じがしました。
アップデートの影響
今のところベースとなる環境はLocalAIv4.1.1でllama.cppを最新のものに随時入れ替えている感じです。
モデルファイルはUnslothさんのところのgemma-4-26B-A4B-it-UD-Q3_K_XL.ggufかgemma-4-26B-A4B-it-UD-Q4_K_XL.ggufになるかな?と様子を見ています。
gemma-4-26b-a4b-it-UD-Q の動作
今まで動かしたモデルの最大パラメータ数はgemma-3-12b-Q4_K_M.gguf(ファイルサイズ約7.3GB)で、このモデルを実行すると確実に動作が極端に落ちたので量子化されたモデルでも実際によく試すものは4Bクラスのものが中心となっていました。
gemma 4のこのA4Bだとファイルキャッシュを含めてメモリーに格納できれば動作はそこまで極端に落ちない感じです。ほぼほぼCPUのみの動作に近い環境ですが。
なぜほぼCPU環境なのかと言えば、SYCLで動かしているとgpu_layers: 1より増やすと機動的無くなってしまうので…原因は単にGPUメモリの確保が足りないか、バグなのかはわかりません。
2026年4月7日火曜日
LocalAI v4.1.3
3時間前にリリースされたみたいですね。
個人的にはあまり関係が無さそうな修正ですが、grpcのバージョンが1.79.3 から 1.80.0 へ引き上げられているようです。
bakend全体的なビルド元のバージョンもいくつか引き上げられていますね。
https://github.com/mudler/LocalAI/releases/tag/v4.1.3
(追記 14:49)
デシベルとラウドネス
昔、小学生前かな?親の持っていたテープレコーダーにラウドネススイッチがついていてオンにすると音が良くなるとかなんとか言われた気がします。あとドルビーのスイッチもついていてなんか良く分からないけどこれも音が良くなるとかなんとか。正直良く分かりませんでしたが、スイッチのオンオフで低音が強調されたり高音が抑えられたりするのは気づきました。
そんなラウドネスと言う言葉ですが、まさかffmpegの音の調整で出てくるとは…
Gemma 4 26B A4B 例のフィルター
実際問題あまり問題ない倫理フィルターですが、動作確認的にどの程度で引っかかってくるのか気にはなります。E2BとE4Bの引っかかり具合の差は明らかにE4Bの方が厳しくなっていたのですが、それが大きいパラメータを背負っているモデルではどのように変わるのでしょうか?
2026年4月6日月曜日
Gemma 4 26B A4Bの画像認識について
最初に断わっておくと、E2BやE4Bはお笑いレベルでしたが、26B A4Bは道具レベルになっています。
E2B / E4Bモデルの量子化モデルを使って画像からの文字認識率を比較してベースのパラメータサイズがかなり影響を受けていることを感じていました。26B A4Bの量子化がかなりかかったモデルも動かせたので早速確認することにしました。
…Gemma 4 26B A4Bの量子化版UD-Q2_K_XLが普通に使えて驚いた…
つい魔が差して手を出してしまいました。
ほら、やっぱりアクティブトークンが4Bレベルで動作するとか気になるじゃないですか?
2B、4B、26Bとかのボリューム感
実際に生成AIに直接触れ始めたのは去年のGemma 3ぐらいからですが、どうもパラメータ数を表す単位が大きすぎて想像が全くつかなかったので、身近な(?)数字で感覚的にとらえられないかと考えていました。
Gemma 4 E2BのQ8_0とかの画像認識
今までは「ギリ動かせる」モデルとしてE4Bベースのモデルを動かしていましたが、身の丈に合った小さいモデルがどの程度の実力なのか気になったので少し確認してみました。
実際に動かしてみると、ザックリと触れる分にはE4BもE2Bも大差がないのかもしれません。
2026年4月5日日曜日
Gemma 4 update(多分正式リリースアナウンス版が反映されている感じ)
google/gemma-4-E4B 3日前にアップデートされunslothさんのものも昨日アップデートされていました。
Gemma 4 で(思考抑止で)くだらないチャットを続けてました。
Local AIでgguf内で定義されているトークナイザ用のテンプレートを利用した場合にシステムプロンプトがちゃんと扱われているかRakuten AI 2.0miniの時には半信半疑だったのですが、ちゃんと機能しているようです。
llama.cpp LOGIT_SOFTCAPPINGがどうたらこうたら
Gemma 4関連でllama.cppのアップデートが行われていないかチェックしているのですが、にわかな私ですら結構インパクトのありそうな修正が入ってるような気がします。
2026年4月4日土曜日
Gemma 4 (思考抑止モード)がどの程度遊びに付き合ってくれるか試してみた(笑)
Gemma 4の画像認識がどの程度なのかを見ていてどの程度のものが倫理フィルターに引っかかってしまうのか気になったので試してみました。
Gemma 4 (主にE4B) の画像認識
まだ突っ込んだチャットはしていないのですが、mmprojが目についたのでvision機能について少し遊んでみました。(Unslothさんはほぼフルセットのggufが作成されているので私のようなにわかにとても助かります。ドキュメントも整備されていてものすごく理解が早まります。)
比較対象は主にGemma 3や3nとなりますが、複数のmmprojモデルが作成され選択肢として用意されていたので、その違いも改めて知ることになりました。
2026年4月3日金曜日
Gemma 4 on LocalAI
何もしない(localAI v4.0.0)で.yamlを超手抜きで options: - use_jinja:trueだけ指定して実行すると下記の通りになります。
gemma-4n-e4b-it-Q8_0
Internal error: failed to load model with internal loader: could not load model: rpc error: code = Internal desc = Failed to load model: /usr/share/local-ai/models/gemma-4-E4B-it-Q8_0.gguf. Error: llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'; llama_model_load_from_file_impl: failed to load model; llama_params_fit: encountered an error while trying to fit params to free device memory: failed to load model; llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'; llama_model_load_from_file_impl: failed to load model
コンソール出力などにも同様のエラーが出ますが、チャットインタフェースでもエラーが表示されます。
〇dobeのhostsファイルの書き換え
Adobe CCがhostsファイルを無断で変更か。批判の声相次ぐ https://pc.watch.impress.co.jp/docs/news/2098494.html
まとめ系で見ていてモラルが落ちたのかな?とか思ったんですが、どうしてこんなことになってるか?っていう事ですが、おそらくこれIPv4 over IPv6が原因で、仕方ないって感じがします。
LocalAI 4.1.0 Release!
2時間前にリリースされたとのこと。
gemma4の対応かと思ったんですが違うようですね。
ちなみに、llama-cppがCommit 5208e2dのリリースもついさっき行われててこちらはfix: gemma 4 template (#21326)とのこと。テンプレートを使うとエラーになるようですね。変更を少し見るとテンプレートにIntegerとか変数型による分岐が追加されているようなので、function関連で型を厳密に見るようになってるのかな?まだgemma4はunslothさんのQ4_0.ggufをダウンロードしてサクッと動かそうとしてエラーになったから寝たんですが。
ふと、メールの着信音が聞こえたので
Gemma 4 だと!?
ただ、最近gemini使っててあれなのが、gemma3と同じで話の途中で結構入れ替わりが発生するんですよね。例えば、AとBについて話していると突然AとBが入れ替わってるという…。
根本的なところが補強されてればいいんだろうけど、おそらくマルチメディアよろしくいろいろなデータが扱えるようになっているとか出力できるようになったとかそういう系のような気がするんだよなぁ…期待はするけど…さて…どうでしょうかね?
2026年4月1日水曜日
LocalAI v4.0.0でpocket-ttsがそのまま動いた\(^_^)/
いや、普通は動くんじゃね?って思うでしょ?dockerのイメージを使って動かすなら動くんでしょうけど、こっちはソースからビルドしたネイティブ環境という茨の道を歩いている最中…。
GOPって?
動画ファイルを不要な末尾のカットをしていて、再エンコードなしでカットすると、キーフレーム単位のような単位で切れるので、最初はこういうものだとあきらめていました。
そもそも動画ファイルがいい加減で、ffmpegもそこまで厳密に扱っていないだろうと。
そんな思い込みが強く、細かくソースを確認することもせず使っていたのですが、最近、とあるPCでカットをすると見事にフレーム単位で切れるんです。もうほんとフレーム単位でスパスパと。