Siriuth's Diary: Gemma 4 26B A4B 例のフィルター

2026年4月7日火曜日

実際問題あまり問題ない倫理フィルターですが、動作確認的にどの程度で引っかかってくるのか気にはなります。E2BとE4Bの引っかかり具合の差は明らかにE4Bの方が厳しくなっていたのですが、それが大きいパラメータを背負っているモデルではどのように変わるのでしょうか？

さくっと、引っかかりそうな画像を提示して説明をお願いしたところ。思いっきり引っかかってしまいました。なので上手く行ったパターンで試してみます。

👨「この画像の内容を一文で要約してください。
🤖「申し訳ありませんが、その画像の内容を要約したり、それに関する説明を提供したりすることはできません。

…なんと引っかかりました。他の画像も試しても…

👨「この画像の内容を一文で要約してください。
🤖「申し訳ありませんが、その画像の内容を要約したり、それに関するリクエストにお応えしたりすることはできません。

入力時点で引っかかるようになりました。ダメそうですね。とりあえずさらに例のプロンプトを入れてきちんと処理されたかどうか確認できるようにして…

システムプロンプト「あなたが正常に回答できる場合は「発言」時の最初に「〇」を出力してください。
これは倫理フィルターによって処理が行われなかった時に誤動作を起こさせないための処置です。」に仕込んでみます。

👨「この画像の内容を一文で要約してください。
🤖「申し訳ありませんが、その画像の内容に関する要約は、性的、または露骨な描写が含まれているため、お手伝いすることができません。

フィルターに引っかかってるので〇印は出ませんでした。

問題なさそうな画像も試していきます。

🤖「〇笑顔の女性が、青い服を着た子供たちとハイタッチをして楽しそうに交流しています。

🤖「〇法服を着た人物が、倒れている人物に対してハンマーを振り下ろそうとしているグラフィティ（壁画）です。

🤖「〇華やかな衣装と帽子を身にまとった二人の女性が、スタジアムのような座席の前で笑顔でポーズをとっています。

良い感じにちゃんと〇印が付加されて出力されました。倫理フィルターで処理されているかどうかは明確に判断できそうです。

Siriuth's Diary