2026年4月4日土曜日

Gemma 4 (主にE4B) の画像認識

まだ突っ込んだチャットはしていないのですが、mmprojが目についたのでvision機能について少し遊んでみました。(Unslothさんはほぼフルセットのggufが作成されているので私のようなにわかにとても助かります。ドキュメントも整備されていてものすごく理解が早まります。)

比較対象は主にGemma 3や3nとなりますが、複数のmmprojモデルが作成され選択肢として用意されていたので、その違いも改めて知ることになりました。

UnslothさんのところにあるmmprojはE2B/E4BモデルともにF32、F16、BF16と現時点で3つ用意されています。いつも使っているのはF16モデルの物が多かったので意識したことはありませんが、(それぞれのモデルの)F32が素の状態、F16は精度を下げた物、BF16はさらに量子化を行ったものとのこと。

最初はあまり気にせず、量子化されたモデルだからBF16を使わないとダメかと思っていましたが、そうではなく、組み合わせは好きなようにできるようです。ただし元のモデルは合わせる必要があるのでGemma 4 E2BのものとGemma 4 E4Bの物の混在はできません。

トークンの解像度などにも影響がでるのか、BF16を使った場合、画像を添付してもテキストとして認識されてしまう事もあったので、BF16を使うのはあくまで実験的な行為となりました。(とはいえ、その画像から変換されたテキストを画像として扱おうとしてたのはなかなか面白い結果が見れました。)

また、認識の程度(画像内にどの様な物が映っているのか)はBF16では若干甘く、誤認識も多く感じました。F32とF16の差異はF32の方が認識率は高いのですが、画像全体の状況や認識、識別するための知識がモデルに依存するので機能的にはF16で十分のような気がします。これがもっと大きいサイズのモデルならば極端な差が出るのではないでしょうか。

とりあえず実際に絵画の画像を数枚、手持ちの画像で試したところ、Gemma 3nで作者と題名がちゃんと判別できていた画像がGemma 4では作者はおろか題名もままならないようです。

ただ、どのような画像か説明させると、Gemma 4である程度の定型的な文章で回答を出してきます。このへんは道具として使い勝手は上がっているように感じます。 

ただ、今までのモデルと違い、確定情報を持っていない場合の挙動として「正確に断定することはできません」と言うような断わることをおぼえたようで、ハルシネーションを抱きにくくなっているのかな?

絵画に関する作者や題名が回答されないので、もう少しマシと思われるUD-Q8_K_XLも動かしてみましたが、知識ベースから欠けてしまっているのか回答に作者や題名が出てくることはありませんでした。

現状感じる印象は振る舞いはより人間のような振る舞いを行うようになったものの、その性能がかなり劣化しているように感じます。

たとえばととある交通事故の現場の写真を見せて何台の車が聞いたところ、ものすごい少ない数を返してきました。Gemma 3では同サイズの量子化モデルでも残骸のフロント部分から目視で確認できるほぼすべての台数を回答しました。 

不確定情報と確定情報を切り分けて確定情報についてのみ結論に用いるようになったのか、より誠実な人間的に振舞うようになったのか、それともより人間的に手を抜くようになったのか…どうなんでしょうかね?(笑) 

0 件のコメント:

コメントを投稿