つい魔が差して手を出してしまいました。
ほら、やっぱりアクティブトークンが4Bレベルで動作するとか気になるじゃないですか?
最初は量子化された中でも普通に動きそうなUD-Q8_K_XLモデルをダウンロードしたんですよ…でもファイルサイズだけで27Gとか…量子化されていない物に比べれば十分小さいですけども。
しかし、手元の環境にあるのはメモリー16GBの非力なミニPCデス!GPUも内蔵のものしかありません。
なので、さすがにメインメモリーから溢れるサイズのモデルはどうかな?と思い、一番量子化されまくっているモデルのUD-Q2_K_XLをダウンロード。
適当に他のものの設定を流用して動かしたところ、メモリーが消費されはじめ…いい感じに伸びたところで
「failed to load model with internal loader: could not load…」
と表示され、動き出したメモリーは解放されてしまいました。
あぁやっぱダメか?と、ひとまずllama.cppの動作に直結するオプションをカットしてデフォルトで動かしてみたところ…状況変わらず(´・ω・`)
oneAPIのオプションでビルドしたから、いっそのこと gpu_layers: 0 にしたら動いたりしないかな?と、もう一度挑戦すると…
メモリーが消費され…とどまっています。チャット画面を見ると…
👨「こんばんは
🤖「こんばんは!何かお手伝いできることはありますか?
お話ししたいことや、質問したいことがあれば何でも気軽にどうぞ。
👨「うお。。。動いた!
と、思わず言ってしまいました…w
その後、くだらない話に付き合ってもらっちゃいましたが、とても有意義な時間を過ごせました。ついでにどの程度の会話ができるのか少しチャットしていましたが、普通の会話なら日本語でも問題ないですね。
そこまで難しいやり取りはしていませんが、会話も破綻することなく続けられています。ただしCPUのみの動作なので、ストリームのトークンが肥大化するにつれてレスポンスは極端に悪くなっていきます。さすがにこの程度の会話なら1時間待ちなんてことは無いですが、それでも10分はかかる感じになってしまいます。
Gemma 4はGemma 3と比べると日本語を使っていてもトークンの消費が低くなってる感じがするのですが、その効果のためにレスポンスも全体的に上がってはいると思います。(逆に会話の最初などのレスポンスは若干低下している感じはあります。pythonなどで直接何かの処理の一部に組み込んでいる場合は、結構なオーバーヘッドが発生するかもしれません。)
量子化が極端に行われているものの、E4Bモデルにはないとてもユーモラスな表現や振る舞いが随所に26Bモデルを匂わせる感じを得ることができました。
なので、この記事も書いたら、付き合ってもらったチャットに貼り付けて読んでもらおう(笑)
もう少し、このA4Bの癖を見定めたいかな?
0 件のコメント:
コメントを投稿