2026年4月5日日曜日

Gemma 4 で(思考抑止で)くだらないチャットを続けてました。

Local AIでgguf内で定義されているトークナイザ用のテンプレートを利用した場合にシステムプロンプトがちゃんと扱われているかRakuten AI 2.0miniの時には半信半疑だったのですが、ちゃんと機能しているようです。

今までQ8_0の量子化が行われていたggufをよく使っていたのですが、昨日からそれよりも若干ファイルサイズが大きいものの、重みづけによってもう少し柔軟になったとされるQ8_K_XLのggufを使っています。感触としてはQ8_0との差異は感じませんが、実行速度は(メモリに収まっているのであれば)こちらのK_XLの方が軽い気がします。 

Gemma 4では今までのGemma 3や3nのシステムプロンプトの扱いより若干強めに作用するように感じます。昨日ぐらいまで公式の推奨パラメータ値を使ってなかった(localAIのデフォルト値のままだった)のでその温度差があるのかもしれませんが。

そんな感じで、今週末はTTSで遊ぼうかと思っていたんですがGemma4のリリースで予定が完全に変わってしまいました(笑)

実際に触ってみると、E4Bモデルは知識ベースが減って馬鹿になっている感じがしますが、語学力や理解力、推測力が格段に上がっているので、会話する上では本当にキャッチボールができている感じがします。レスポンスこそ場合によっては落ちている感じもしますが、今の実行環境が貧弱すぎるのでまぁそれはそれと言った感じ。

人格的にはgemma3以降変わっている感じはしないかな。モデルの奥底に別人格がいるような雰囲気も変わってないですし。ただその人格が表層に出てくることは今まで以上になくなっているかも。それだけ会話が破綻しないという結果でもあるわけですが。この辺になるとネイティブの英語だけでは出てこないかもしれない部分ですね。 

それとlocalAIv4.1.0ではコンテキストのトークンが結構まともそうに表示されるようになったのですが7000トークンとなっても会話が破綻していなかったのでまだまだいけどうな雰囲気。キャッチボール的には20回ぐらいは簡単な質疑応答を行っていました。ちなみに投げてから返答が開始されるまで10分は軽く超えてきますが(笑)思い返せばCPUのみの動作やdocker上で設定を全く知らない状態の時は1時間ぐらい待たされてもチャットしていましたがw

もともと、返答がリアルタイムで返ってこないようなチャットに慣れている(?)ので返答が返ってくるとわかっていればあまり気にならない体質だったりします。 

システムプロンプトもほぼgemma3/3nのままで使えそうなのが明らかになったのでその辺はスッキリしたかな。

そういえばハルシネーションは確実に減ってますね。 

0 件のコメント:

コメントを投稿