2026年4月14日火曜日

肥大化したモデルファイルを整理しようとしてるのに、なぜか増える件について…

闇雲に生成AIに触れながらいろいろ試しているうちに、結構肥大化してきたので整理しようとしてるのですが、何故か増えてるんですよ…

例えばGemma 3の1Bモデルなんですが、ちょっとyamlの編集をしていると、「これの量子化がきつくないモデルだとどうなるのかな?」とか、「どうせならBF16とかで量子化ゆるゆるな物だとどう変わるのかな?」とか…。トドメで、「このモデルファイル古いバグがあるバージョンじゃないのかな?」とか…

で、1Bモデルなのも相まってサクッとダウンロードしてるんですよ(笑)

そして、どうするか? もちろん実行環境に入れるでしょ…

ダメです。これ。整理になってないw

 

最初は不要そうなモデルファイルを落とそうとしたんですが、その時に軽く動かしてみるわけで…するとyamlファイルを見てどうせcpuで動かしてるならF16じゃなくてもいいんじゃね?とか気づいてしまうわけです。

すると…モデルの反応が明らかに変わっちゃうんですよ…すると…気になりますよね?量子化されてなければもっと違うんじゃ?とw


結論とすれば、小さいモデルファイルなので量子化されてないモデルファイル以外はいらないんじゃないか?って結論に(笑)

若干 1Bモデル自体いらないんじゃ?って感じにもなったんですが、レスポンスが快適だったのと、記憶にあるよりまともに返答が安定してたんですよ…今まではGemma 3 1Bでも会話がかみ合わない状態であまりまともに使えなさそうという印象でしかなかったのですが、CPUだけで動かして、F16の制限を外すと会話が成り立つようになったり、量子化されているものやF16のモデルであっても結構まともに動いたという事実にちょっとショックを受けながら再確認作業に入ってしまうという。

Gemma 3でもモデルファイルがそれぞれ何度か更新されていて、githubの一般的なリポジトリと違ってリリースタグなどなくてわかりづらいですけど、1B-itのmodel.safetensorsは2025/05/12に更新がかけられていたりします。なのでファインチューニングやggufへの変換はこれ以降の日付でない限り古いものとなります。

最終的に、この辺までスッキリと確認したくなるのですが、手作業だともうあきらめしか(笑)

てか、どうやって整理するべきだろうか…w 

 

0 件のコメント:

コメントを投稿