2026年4月28日火曜日

そう言えばqwen3.6 35B A3Bについての雑感

メモリが16GB程度しかないと、実際に確実に動くレベルだと量子化でQ3辺りが限界ですかね。それでも、ちゃんとした環境なら動かすだけならメモリも全て収まらなくても動くはずなので。ただ、モデルファイルだけでも結構な存在感ですがw
比較対象はgemma4ぐらいしかないですが、gemma4 26B A4Bの時はQ2モデル(UD-Q2_K_XLなのでかなりQ3に近いと思います)でも、会話がまともだったので同じUD-Q2_K_XLで試してみました。
単純な量子化よりはunsloth独自の調整が入っているモデルは、チャットする上での劣化が少ないので結構好みだったりします。ただ実行速度は単純な量子化よりかなり遅くなります。
 
動かしてみるとモデルサイズが大きいので読み込みに結構待たされる印象です。致し方ない部分ではありますが…。チャットしてみると、A3Bという部分を感じます。会話の幅の広がり方や、やり取りでそれなりの違和感があります。とはいえこれはQ2ですからねwただ、Gemma4のA4Bと比べるとどうしても物足りなさが残ります。
OCR機能はさすがのQwenと言うほかありません。ほんとにすごいなぁと。文字認識であればE4Bとかの方が全体的には上なような気がします…(これも量子化がQ2と言うのが効いていると思います…)
Gemma4のOCR機能は、スクリーンショット系以外のソースはダメですから比較にもならないぐらい差があります。
ただ、35Bという部分を上手く活かせるようなチャットの話題を思いつかず、評価不能です。持っている知識に対して直接問いかければよかったかな?ただ、個人的な問題としてチャットしてい面白みを感じないんですよねw
 
全体的な感触としては、A3BとA4Bの差はおそらく主言語ではない会話を行う場合は最低4B程度のサイズがないと厳しいという感触は得ました。逆に主言語であれば3Bでも十分なのかもしれませんね。純日本語ベースの生成AIを作ってみたいなぁ…ゼロからとかどうすればいいんでしょうね?

0 件のコメント:

コメントを投稿