2026年4月6日月曜日

Gemma 4 26B A4Bの画像認識について

最初に断わっておくと、E2BやE4Bはお笑いレベルでしたが、26B A4Bは道具レベルになっています。 

E2B / E4Bモデルの量子化モデルを使って画像からの文字認識率を比較してベースのパラメータサイズがかなり影響を受けていることを感じていました。26B A4Bの量子化がかなりかかったモデルも動かせたので早速確認することにしました。

今まで手こずっていた元画像を直接投げて文字を起こしてもらうと…

E4Bでは画像が欠けているだのなんだのと元画像に対するケチを散々つけてきましたが、26B A4Bの量子化されたものは、全体的に文字を起こしてくれました。

変換の癖として特徴的だったのが、特定の文字「守」という文字を「寿」と認識したらしく、全体的に「守」と言う文字が「寿」になっていました。

全体的な動きはE2BやE4Bと同様で、認識できない部分を推測して当てはめようとします。E2BやE4Bでは認識できる部分が少なすぎて、最終的に「何かの文章」を作ってはくれますが、内容は全く別物のドキュメントが出来上がります。(ある意味、何かの文字を一文字書けばドキュメントを作ってくれるというすごい機能なのかもしれない(笑))

ただ、26B A4Bは全体的に文字認識が出来ているような雰囲気だったので、文字おこしの指示で、不明な文字は「■」としてください。という指示を行うと推測や憶測で文章を組み立てることはほとんどなくなりました。それでも文字として読み取れないとその■も出してくれずに無視されますが。

それでも元画像が元画像なので…こんなものかな?というレベルには文字になったと思います。 

モノトーンにして画像を調整したものや、さらにブロックに切り分けたものなどの文字おこしをしてもらいましたが、モノトーン化したものの、識字率は多少上がりましたし、モノトーン化してブロックで切り出した画像内の文字は100%テキストになりました。

日本語でも、この程度なら実用化できそうなレベルかと思います。 

おそらくベースモデルの方針としてモデルを小さくするにあたり、文字認識部分が犠牲になっているのでしょう。結論として、文字認識させたいならパラメータ数の大きいモデルを使って、用途によって明確な指示を出すと求めているテキストを作ってもらえると思います。

 

(追記 23:26)

古い新聞の株式欄からスマホで撮影して認識させてみました。

これをも文字おこししてもらった結果が以下の通り

🤖「画像内のテキストを書き起こしました。
石油・窯業
・日本コークス 97 99 97 0 20674
・ニチレキG 2500 2510 2481 2488 △7 190
・富士石油 292 293 285 285 △1 9738
・出光興産 1036.5 1038.5 1011.5 1015.5 △4.5 31834
・ENEOS 820.8 822 805.5 805.5 ▼0.3 93888
・コスモHD 6840 6931 6801 6821 △81 3450
・浜油 G 3169 3174 3134 3142 △6 4596
・TOYO 2429 2438 2400.5 2406 △10 10970
・ブリヂ 5388 5398 5325 5327 △10 14524
・住友 G 1738.5 1741 1716.5 1719 △0.5 7673
・廣コンブ 1523 1541 1518 1518 ▼12 621
・オカモト 5820 5860 5720 5760 ▼40 267
・フコク 1702 1730 1702 1727 △22 304
・ニッタ 3605 3625 3550 3570 △5 504
・住友理工 1584 1605 1575 1576 △10 1334
・三星ペ 4120 4150 4090 4100 △15 648
・バンドー 1885 1888 1861 1876 0 440
・日東紡 5920 6000 5790 5930 △10 3554
・AGC 4738 4743 4679 4681 △23 9382
・板硝子 334 355 332 343 △14 22990
・日電硝 3417 3422 3400 3415 △2 3429
・住友セ 3350 3376 3336 3350 ▼3 786
・太平洋セ 3752 3773 3684 3685 ▼66 8057
・日ヒュム 1307 1307 1283 1284 ▼17 223
・日コン 379 379 374 374 ▼2 752
・アジアパイル 799 805 795 797 ▼4 1260
・廣東カボブ 920 935.9 919.8 922 △16 11297
・カーボン 4550 4550 4510 4510 ▼20 797
・東洋炭素 4425 4470 4385 4400 △10 2043
・ノリタケ 3775 3790 3755 3755 ▼5 317
・TOYO 4146 4280 4146 4214 △138 17884
・ガイシ 2000 2003.5 1980.5 1988 △9 4478
・特殊硝 4714 4730 4670 4670 ▼11 4234
・MARUWA 46200 46650 45070 46230 ▼320 759
・品リフラ 1656 1676 1656 1669 △16 614
・黒崎播磨 2405 2418 2389 2397 △23 544
・ヨタイ 1547 1557 1547 1556 △1 242
・FUJIMI 2408 2463 2395 2454 △70 2362
・ニチアス 5850 5889 5778 5867 △42 3353
・ニチハ 2933 2933 2880 2889 ▼6 486

ザックリとみるだけでも、いきなり最初で97が2つあるところが一つしかなく飛ばされていたり、「品川リフラ」とあるべきところが「品リフラ」 となっていたり、そのままではダメですが、ゆがんだ画像がこんな感じにローカル環境だけでテキストになります。

もっとまともな環境が準備できればいい感じですね! 

0 件のコメント:

コメントを投稿