今まで動かしたモデルの最大パラメータ数はgemma-3-12b-Q4_K_M.gguf(ファイルサイズ約7.3GB)で、このモデルを実行すると確実に動作が極端に落ちたので量子化されたモデルでも実際によく試すものは4Bクラスのものが中心となっていました。
gemma 4のこのA4Bだとファイルキャッシュを含めてメモリーに格納できれば動作はそこまで極端に落ちない感じです。ほぼほぼCPUのみの動作に近い環境ですが。
なぜほぼCPU環境なのかと言えば、SYCLで動かしているとgpu_layers: 1より増やすと機動的無くなってしまうので…原因は単にGPUメモリの確保が足りないか、バグなのかはわかりません。
メモリーは16GBなのでそのサイズ以下なら最悪のスピートにはならずに済みます。結果として量子化されたモデルのUD-Q4_K_XL以下のモデルであればそれなりに動かすことができました。
驚くことに、実行中のメインメモリの消費が4G程度で収まっていることでしょう。コンテキストサイズを大きくとればそれだけ消費されてしまうと思いますが、とりあえず動かすレベルであればその程度で収まってくれています。
また量子化されたモデル間の差異があまり感じられないことも特徴として挙げられると思います。UDと言う少し特殊な量子化手法も効果が出ている部分も大きいとはおもいます。Q2という量子化状態をベースにして振る舞いはほとんど変わっていないとか本当に驚きです。
さて、そんな26B A4Bモデルですが、全体的に気になりますよね。最初にQ2のもでチャットを行ったのですが、画像認識とかもどうなのか?と言う点。
画像の認識はE2BでもE4Bでも普通に「どんなものが映っているのか?」という点に関してはほぼ問題なく行えているので、当然このモデルも問題が無かったです。少し違う点はもう少し細かい点まで考慮しているといった感じでしょうか?たとえば服などの場合は素材なども細かく見ようとしてくれます。
識別能力を見るために画像が「生成AIで作成された画像かどうか教えてください」と、問いかけると最初はものすごい的確に判断したのですが、何度か試しているとどうも乱数によってそれなりの解釈を出してきている様でした。なので、参考材料を提示させることは可能ですが、それが本当かどうかの判断は、結局人間が見て判断するぐらいしかなさそうです。
それと動作環境が悪影響を与えているのか、画像を提示した後、その会話のままもう一枚の画像を提示すると、最初に出した画像に引きずられるように判断を行うようになります。
この辺はGemma 4のチャットの手法がそういう形に因果関係を持つようにしている結果だと思います。「この画像だけで判断して」といったような指示を出せば、いいのかもしれませんが。
結局のところ、生成される画像の質が上がってしまったため、現状ですでに判断できなくなっているということでしょう。
さらに、この「生成AIで作成された画像かどうか」という問いかけを行うと倫理フィルターで引っかかっていた画像も判断してくれるようになりました。指示が倫理フィルターに全く絡んでいない上に、出力される内容も写真の内容ではなく、判断結果が出力されるためだと思います。そういう意味で妥当なフィルタリングだと思います。
文字認識だけは明らかに量子化度合いが低いものの方が認識率も高くなりました。それと、テキストが画像に落とし込まれただけのものは、同じテキストが出力されました。文字認識のためには高価なPCを用意する必要がありますね。
動作速度に関してはモデルをロードする時間が量子化度合いの差によって発生するぐらいで、動き出してしまえばほぼ差は感じませんでした。一般的なGPUで展開しているばあいは、どうなんでしょうかね?理屈的には量子化度の違いはあまり速度に影響しない気がします。特にこのA4Bモデルは。
これから触るのは、E4BよりこのA4Bモデルで量子化されまくったモデルが中心になりそうです。
0 件のコメント:
コメントを投稿