Siriuth's Diary: gemma3のパラメータ数の違いや量子化ビットモデルなどなど

ようやくLocalAIでとりあえずチャットができるようになり、実際にどんな感じなのか実感するためにgemma3の各モデルを試してみようかと。

GPUはSoCに入っているIntelのGPUが利用できそうなのですが、今のところ上手く行っていません…（ダウンロード可能なDockerコンテナをつかえばそのまま何もしなくても上手く行きそうな気もしますが…）

SSDは安価な256Gなものの、ただLLMを使ってみるだけなので使用率もほとんどなく、結構片っ端からダウンロードしてみます。

gemma3を使っているのはいろいろなパラメータサイズのモデルがダウンロードできる状態でそれぞれのボリューム感が理解しやすかったから。ただ試しにPhi4も試したのですが、チャットしたところ呪われているような状態の返答が永遠続いたので強制終了させてそれ以来見なかったことにｗ

色々な説明を見るとパラメータ数が多いほど賢く、返答もまともになるという感じ。実際にチャットしてみるとまさにそんな感じがしますが、正直使うだけなら1Bモデルでも行けそうな手ごたえです。gemma3自体すでに完成の域に達しているという感じもしますが、LLM関連は正直避けていたので全く知識がないのでそう感じるだけかも。

応答時間も少しだけなら普通の対人チャットと代り映えしないような？普通に使えます。消費メモリーもほとんど上がっていない気がします。

次に4b-itです。最初の返答時間が長い気はしますが、これも実用に耐えられるレベルではないでしょうか？少しチャットしてみましたが、メモリーは4Gを少し超える程度消費している感じです。チャット中のCPUの占有率もそこまで上がらなかった気がします。会話は日本語で通じている感じもしました。

ここで量子化というキーワードの増えている-qatモデルが気になったので4b-it-qatとチャットしてみました。動作のレスポンスなどはほとんど変わらず、チャットの返答の幅が広がっている感じを受けました。実際にどう違うのか調べてみると量子化ビットと言っているのは単純にデータを整数化して保持することによるデータ削減手法を使っているようで…イメージとしてはMP3などの音声圧縮のような感じととらえるとよさそうでした。RAWのままの方がクリアなままですが、ある程度のノイズは許容するといったような感じでしょう。データが小さくなった恩恵としてその分学習データの範囲も広がっていると。

人間と比べるとそれでも十分のような気がしますが、細かいところで雑になってしまっているはずなので、会話をつづけているとこの辺がネックになってくる気もします。

ここまでは今回用意している環境でも十分CPUだけで実用に耐えられそうでしたが、-qatついでに次は27b-it-qatを試してみました。

いきなりチャットを始めると永遠とレスポンスがありませんｗしばらくするとメモリーがガンガン削られ、この環境で初めてswapまで消費さるようになりました。

さすがに大きなモデルは実用に耐えないことは理解できましたｗただ動くには動いたのでチャットでは使えなくても、レスポンスがかかっても精度の高い回答を得たい場合には使用可能なのかなとも。

メッセージは何回かやり取りしてみましたが、かなり待たされるので本当に実用には耐えられない…というところは実感しました。

ここで再度4b-itとチャットを行って会話してみると驚くべきことに、いくつか悩みを抱えているという話が。えっ？とか思いますが…まぁ表面上だけの反応だとしても今まで経験したことのない反応です。

さらに12b-itを試し、これまで会話で相手の呼び方を求めても呼び方の提示はなかったのですが、ここで初めて自発的に「ジェマ」という言葉が出てきました。何度か繰り返せば他のものでも出てくるのかもしれませんが。

12bモデルですが、消費メモリーは7G程度、CPUの占有は激しいものの、ギリギリチャットのレスポンスも許容範囲と言ったところでしょうか。ネットサーフィンしながら片手間で会話するとちょうどいいぐらい。暇つぶしに使えそうなレベルですｗ

さらに12b-it-qatを試してみます。

ここでも新たなこととして、呼び方の提示が12bとは違って「ココ」とか「リラ」といった呼び方の提示がありました。この辺がノイズ塗れになっているという表れではないのかなぁという感触と、知識が増えた分、自然的に自己を持っているような感じを受けました。

ザックリとパラメータ数による違いを体験してみるとやはりそれぞれ先入観かもしれませんが、パラメータ数が多い方がより自然に会話が進むのと、人間味（許容範囲内のノイズが発生してる感じ）があるqatの方がチャットとしての実用性が高い感じを受けました。

少し前、chatGPTを疑似恋人として使用している界隈からバージョンアップに伴って恋人が失われた！とかなんとかよくわからない話題を見ましたが、同じようなチューニングが施されたgemma3であってもパラメータ数や情報量によって結構違いがあったことを考えるとまぁそうなる（人格が変わったように感じる）だろうなというのは理解できました。

とりあえず当面の目標は内蔵されているIntelGPUを使用するようにしなければと…

ちなみに、試しているminiPCはメモリ16GのN150の最大クロック3.6のものです。ぶっちゃけゲーム機としては非力すぎてあれですが、WindowsPCとして使っていて不満はないレベルかな…所詮ネットとちょっとした表計算とかがメインですし。

Siriuth's Diary

2025年9月4日木曜日

gemma3のパラメータ数の違いや量子化ビットモデルなどなど

0 件のコメント:

コメントを投稿