google/gemma-4-E4B 3日前にアップデートされunslothさんのものも昨日アップデートされていました。
まぁ実際にはllama.cppのアップデートを見ていて再度量子化されたものがアップデートされるかな?という期待からチェックして、その元のモデルをチェックしたわけですが。
Preparing for release! (リリース準備中!)
っていう事で、手元にあるggufたちの元はプレリリース版だったようですね。
実際にunslothさんのQ8_K_XL化されたものとそれに付随するmmprojをダウンロードし、かなりがっかりだった結果の画像からの文字おこしを試してみました。
若干認識率が上がったような気がします(おそらくプラセボw)が、大筋の流れは変わらず。
ただ、「画像が欠けている」といった表現が無くなった(乱数表現なので確定ではない)のでvision機能内のノイズが減った結果認識率が向上したと考えますが…どうでしょうね?
あまりにも認識率が低いので、画像の一部のブロックを切り取って加工したものをGemma 4に文字おこししてもらうと、それなりの結果となりました。使えるか使えないか、と言われれば微妙かな?w
生成AIの文字認識って画面のスクリーンショットとかから取り込むことを前提としてるのかな?そうすれば認識率が上がるのかな?
0 件のコメント:
コメントを投稿