Siriuth's Diary: Gemmaの日本語識字率

2026年4月5日日曜日

画像認識で結構文字を拾ってたりしたのでOCR機能としては優秀なんだと勝手に思っていました…

結論から言うと、少なくても日本語に関しては万能ではなさそうです。

用意した画像

ネットで拾った「〇森会長のトリセツ（抜粋）」画像。

何も考えずにただ文字おこしを頼んでみたのですが、量子化版となりますが、Gemma 4 E4B / 3n E4B / 3 4B ともに同じような感じでダメでした。

まずどれもマルチモーダルとしてチャット形式で画像を提示してみたところGemma 4でさえ読み取れた文字を起点としてそこから類推する文章を組み立てて想像（推論）で文章を組み立てる始末。

認識できた数少ない文字から知っている文章を引用している感じでした。

試しに google_gemma-3-12b-it-qat-Q4_0.ggufを使ってみましたが、これが一番マシでしたが、それでもやってることは同様です。認識できた文字をそれらしいものに当てはめて出力してきます。

一言でいえば、AI補正ってやつでしょうかね？

今からすると大昔のomronのOCRの方がよっぽど識字率は高いです。

チューニングや重みづけで量子化した場合、一番犠牲になっているのが文字認識部分という事でしょうか？、できれば量子化してないモデルで、パラメータ数の大きめのものを使うほかないのかもしれません。

一番いけそうなパターンは化石のようなOCRで読み込んでテキスト化したあと、生成AIにテキストの補完をしてもらうのが現実的なのかもしれませんｗ

逆にレシートとかの数字とかの拾い上げはいけそうですが、なんだかわからない画像のOCRの日本語認識は実用性は無さそうです。

Siriuth's Diary