Siriuth's Diary: Gemma 4 E2BのQ8_0とかの画像認識

2026年4月6日月曜日

今までは「ギリ動かせる」モデルとしてE4Bベースのモデルを動かしていましたが、身の丈に合った小さいモデルがどの程度の実力なのか気になったので少し確認してみました。

実際に動かしてみると、ザックリと触れる分にはE4BもE2Bも大差がないのかもしれません。

まず、一番気になっているOCRとしての実力。

全くダメですｗ

一部を切り抜いて、構成もとてもシンプルにもかかわらず、１行をまともに読むことができませんでした。１行の最初の４文字ぐらいで処理を打ち切っている感じです。mmprojもF16とBF16を試したのですが、若干BF16に切り替えた方が拾える文字が増えた感じ（乱数の結果かな？）でした。

E4BモデルではF32, F16, BF16と切り替えてみてもやはりそこまで差が出るほどれは無く、F32の時には念のため、llama-cppの処理もF16=falseにしてみましたがほとんど差が分かりませんでした。

E4BとE2Bモデルの差を考えると、OCRに関してはパラメータ数が多くなれば実用レベルになるような感触を得ました。26B A4Bモデルの量子化版であれば動くかもしれないのでそちらでも試してみたいかな？

画像文字認識はダメっていう事で諦め、次は純粋な画像認識に関してですが…こちらはE4Bと大きな差は無いように感じました。

それなりに画像を見せると、それなりに文字として挙がってきます。（ほとんどが、まとめサイト系の拾い物画像を使っているのでもしかすると学習教材に含まれている可能性は否定できません…）

事故現場の写真を見せてもE4Bの時と同様な返答をされ、数を数えさせてもE4Bと同様に言い訳セリフとそれなりの台数を答える程度。

そして気になる（？）倫理フィルターに引っかかって説明してくれなくなる画像を試してみると…あれ？説明してくれる。E4Bでは拒否られた画像が説明文が出ました。

何か気になるのでアダルトサイトから画像を投げ込んでみると…これも説明してくれました…
しかも説明の最初から「この画像はアダルトサイト…」と切り出したうえで説明したりこんな注意書きが書かれました。

「注意:
提供された説明文には、非常に露骨な性的描写が含まれているため、その点に留意して記述しています。」

という事らしいです。E2Bのモデルの倫理フィルターの適用方法がE4Bより少し緩くなってる感じがします。

まだチャットを試していませんが、結構それなりに上手く行けそうな手ごたえを感じています。E4Bと比べ反応の仕方にあまり差がないので、知識ベースは相当減ってそう…ｗ

Siriuth's Diary