2026年1月12日月曜日

gemmaの画像認識

LocalAI 3.9.0でテキストのチャットは安定しているようなので、せっかくなのでいろいろ遊んでみようかと。

最初のころ(3.6.0ぐらいかな?)テキストファイルやPDFや写真をLLMに提示したときの反応を試したことがあったものの、写真に関してあまり上手くいかず、何が引っ掛かっているのか良く分からず、その後、3.7.0や3.8.0ではWebUI上のチャットインターフェイス(ChatterBox?)がうまく機能していなかったので放置していました。

とは言え、現状では必要なmmprojはgemma3のものしか自動的に設置されないので、LLMにマルチモーダル機能があったとしてもllama-cppでggulを使って動かすと別途mmprojが必要になるという。元となるモデルファイルやsafetensorsファイルを直接動かす形であればすべてがそろっているのでそれをllama-cppから直接使えればと考えましたが、現実的には元となるファイルから変換してmmproj~.ggulファイルを作成する形になっているようですね(できるのかどうかはやってみるまで分かりませんが)。

とりあえず、手元にあるものだけで動かせるもので動かしてみると…何も考えずに画像の認識をしてくれました。試したモデルはgemma-3-4b-it-qatとかgemma-3-12b-it-qatで試してみました。どちらもあまり差は感じませんでした。ただ、画像認識後の出力時に色々な制限がかかり答えてくれなかったりすることがありました。(例えば女性の写真などを認識させたうえでバストサイズなどを聞いた場合は、推定であっても直接的な質問では答えてくれませんでした。理由は個人情報のため、答えられない。といった感じだったかな?性的にどうのこうのより、撮影された本人が聞かれて直接答えたくないような質問は返さないような印象を受けました。)

画像認識に関しては予想していた以上にまともに返されました。例えば適当な場所で撮影した写真を見せても、それなりに撮影場所、此処の被写体、撮影時の状況を認識してくれました。極端な外れは無さそうかな?というのが感想です。

年末27日に発生した関越道の事故現場の写真を使ってみましたが、例えばトラックの台数や乗用車の台数などザックリと数えたりしてくれましたし、燃えてしまった車の台数も推定で構わないと条件付けしたところそれなりに数えてくれました。

あと、カスタマイズされたモデルでも試したのですが、黒人の顔写真を用意しましたが、ちゃんと黒人と認識しました。一時期ゴリラと区別ができないと話題になっていましたが、識別していて、「ゴリラではないのですか?」と聞いたところちゃんと違う点も説明してくれました。

これだけの認識力があるなら、大量の写真の自動整理も手軽に行えそうです。

PDFも画像が含まれたPDFを要約してもらったのですが、結構いい感じで要約してくれました。下手なナナメ読みよりしっかりと要約してくれるので、大量のPDFファイルの中から何かを探すときにも使えそうです。なにより、PDFってファイル名が良く分からないものが多かったりするのでこの辺の機能も単純に便利そうです。

それとは別に、他のモデルも再度触りなおしてたりします。IBMのモデルを触ってみましたが、以前よりもっとまともに反応が返ってくるような?3.6.0の頃は結構ボロボロだったのかな?gemma3と比べて知識ベースが結構しっかりしてくれている感じです。モデルサイズによって知識の深さは確実に違うのですが、それでもgemmaよりまともに(学習時点での)日本の総理大臣とか答えてくれます。ただ…花高々と経歴まで紹介してくれるのですが、A部元総理は共産党出身らしいです…平気で嘘ついたりするので全く信用なりません(笑) 

0 件のコメント:

コメントを投稿