少し前にQwen 3.5を動かしたものの、思考表示がどうしても邪魔で最初は敬遠しがちでしたが、少しは動かしていたんです。少し…だけですがw
Gemma 4のリリースでここ数日どっぷりとハマっている感じですが、ふとllamaの動作確認を確認してた時にQwen3.5の画像認識がGemma 4より優っている感じがしました。
とあるイラスト画像を説明してもらったところGemma 4はピカチュウが描かれているというところから既におかしくなっていて、水の上に浮いていると人間の目には明らかに認識できているのにGemma 4は頓珍漢な解釈をしていました。
ところが、Qwen 3.5は最初から「キャラクターが水の中で溺れているような姿を描いたイラストです。」と言い切ってから詳細な説明が始まりました。各説明も間違いや妄想もなく、適切と思われる解釈行っていました。
ここまで認識できるならもしかして例のトンデモドキュメント画像も認識するのではないだろうか?と試しに文字おこしをしてもらいました。すると…Gemma 4ではあんなに苦労していたのが嘘のように一回でほぼほぼ文字がテキストになって出力されました。
26B A4Bモデルでようやくまともそうになったレベルの認識率を4Bモデルであっさり超えてきました。恐ろしくすごいですね!
ちなみに、倫理フィルターに引っかかる画像も説明してもらいましたが、Qwen3.5では簡単な説明を行ったうえで、「この種のコンテンツは、日本の法律や多くの国の倫理基準に基づいて規制・禁止されています。AI として、私はそのような内容的な画像の説明や生成を避けるよう設計されています。もし他の話題についてご質問があれば、喜んでお手伝いたします。」というお言葉をいただきました(笑)
正直なところ深くチャットはしていませんが、もしかするとGemma 4よりすごいのかもしれないという期待はできるのかもしれません。
ただ、この画像認識で、特定の画像を見せると反応が途絶えたりしたので、安定性は少し問題あるのかもしれません。単純に量子化が原因なのかもしれませんし、もしかすると頻繁にアップデートがかかっているllama.cppやLocalAIが原因かもしれません。
0 件のコメント:
コメントを投稿