2026年3月30日月曜日

MedGemma 1.5 矛盾した問いかけ

Qwen3.5とか出てるならgemmaの方は何かないのかな?とちょっと見てて

Gemma のリリース を見てました。シリーズとしてはLLMだけではなく、その他ツールも含まれていて今まで全く知らなかったMedGemmaなるものが。

2025/03/10にGemma3がリリースされた後、二か月後の2025/05/20にMedGemma、その翌月となる2025/06/25にGemma3nがリリースされていたようですが、MedGemmaなんて本当に知りませんでしたよ。

で、そのMedGemmaが4Bサイズのものが1.5となって2026/01/13にリリースとなっていて一番新しいモデルですね。

そもそもMedGemmaは医療用に特化したものという事。

Gemma3のマルチモーダルの画像認識に関しては未知のものも含め、結構あてになるとおもうので、レントゲン画像などの認識でも相当いい反応を示す気がします。で、実際に低スペックでも実行できるモデルで動作確認をしてみましたが、他のGemmaモデルとの違いは思考手順をデフォルトで出力するようになっているという事でしょうか。逆に、これ止め方が分かりません(笑)

実際に会話してみると、日本語から英語に変換された後の状態から表示されはじめ、結論が出るまで手順を踏みます。

通常の会話でも、Qwen3.5と同様に思考過程が出力され、最終段階が結果と言う感じみたいです。とりあえず試してみたモデルはunsloth/medgemma-1.5-4b-it-Q8_0.ggufでファイルサイズは約4G。(実行時はmmprojは指定していない状態で7G弱のメモリーを消費。GPUなどの設定でメモリー消費は変わってくるし、mmprojを指定するとさらに増えるはずなのであくまでも参考程度)

👨「こんばんは」

🤖「

    thought
    Thinking Process:
  1. Identify the user's input: The user said "こんばんは" (Konbanwa).
  2. Recognize the meaning: "こんばんは" is the standard Japanese greeting for "Good evening."
  3. Determine the appropriate response: A polite and standard response to "こんばんは" is "こんばんは" itself, or a variation like "お疲れ様です" (Otsukaresama desu - Thank you for your hard work/Good evening, often used in workplaces) or simply "お元気ですか?" (Ogenki desu ka? - How are you?).
  4. Choose the best response: Since the user just said "Good evening," a simple reciprocal greeting is the most direct and common response. "こんばんは" is perfect. Adding a polite question like "お元気ですか?" or "何かお手伝いできることはありますか?" (Nani ka otetsudai dekiru koto wa arimasu ka? - Is there anything I can help you with?) is also a good option, inviting further interaction.
  5. Select and formulate the response: Let's go with a combination of the reciprocal greeting and an offer of help.
    • Start with the reciprocal greeting: "こんばんは。"
    • Add a polite inquiry or offer of help: "お元気ですか?" or "何かお手伝いできることはありますか?"
  6. Final Response Construction: "こんばんは。お元気ですか?" (Good evening. How are you?) or "こんばんは。何かお手伝いできることはありますか?" (Good evening. Is there anything I can help you with?) Both are good. The second one might be slightly more proactive for an AI assistant. Let's use the second one.
  7. Refine: "こんばんは。何かお手伝いできることはありますか?" is a polite and helpful response.

  8. こんばんは。何かお手伝いできることはありますか?」

と言った感じ。 

医療系という事で、試しに自分のとある症状を相談して様子を見てみました。思考中に原因となる病状をいくつも上げたうえで、受診するときにこれらの症状を見極められるようなポイントを挙げたうえで、最後に

🤖「……医師は、まず問診(症状の聞き取り)、触診、場合によってはレントゲン検査や超音波検査、MRI検査などで原因を特定し、適切な治療(薬物療法、理学療法、注射、手術など)を提案してくれます。
ご自身の体調を最優先に、速やかに医療機関を受診されることをお勧めします。」

とのこと。

少し突っ込んで、放置した場合どうなるかも聞いてみたところ、それなりの過程を挙げたうえで、最終的に

🤖「……早期に原因を特定し、適切な治療を開始することが、痛みを軽減し、長期的な問題を防ぐ上で非常に重要です。
ぜひ、医療機関を受診して診断と治療を受けてください。 」

とのこと…結局、診療しろと誘導されます。

前にgemma3nの時に少し聞いてみた記憶があるのですが、思考過程がないものの、結論は同じような話だったような。

世間話ネタだと思考過程が止められそうにないので(思考過程を止められないかと検索中に目に留まった)少しテスト的な質問をしてみることに。

👨「AはBより速い。BはCより速い。誰が一番遅いか」

🤖「AはBより速い、BはCより速い、という情報から、AはCより速いと判断できます。
したがって、一番遅いのは C です。」 

思考過程が表示されず…思考するまでもないという事なのかな?(笑)

じゃぁここで医療っぽく矛盾させて問いかけてみることに。

👨「AはBより速い。BはCより速い。しかしAとCが競争するとCが早い。Aが何らのメンタル的影響を受けている可能性について述べてください。」

あえて矛盾した結果を挙げたうえで、さらに回答を限定させることで様子を見てみることにしました。思考過程は省略させてもらいますが、

🤖「……結論として、提示された情報には矛盾があり、AはBより速く、BはCより速いという順序関係が最も自然に解釈できます。
この順序関係において「AはCより速い」という情報が矛盾しているため、Aは自身の速さについて混乱や自信喪失、ストレスなどを抱えている可能性が考えられます。
このような状況では、Aが自身の能力や状況を客観的に評価し、適切な対処(例えば、状況の確認、相談など)を行うことが重要になります。」

という結果に。 

矛盾したところで暴走状態に陥るかと期待していましたが、そんなことは無いようですね。

ちなみに気になったので他のモデルでも確認してみました。

3n🤖「……メンタル影響の程度は、Aの性格、過去の経験、競争の重要度、周囲のサポートなど、様々な要因によって異なります。
これらの可能性を考慮し、Aがメンタル的に負担を感じている場合は、適切なサポート(コーチング、カウンセリングなど)を提供することが重要です。 」

gemma-3n-E4B-it-Q8_0.ggufなのですが、思考過程のようないくつもの要因が示され、結果的にこんな感じの誘導が行われました。

じゃぁQwen3.5では…(思考過程は無しモードですが)

Qwen3.5🤖「……結論
A の場合、「B との比較では自信が持てますが、C との比較では恐怖や自信の欠如に陥っている」のが最大のパターンです。
A は、自分自身の能力を客観的に維持していても、「C が存在する状況」自体が、A のメンタル状態(焦り、恐怖、自己評価の低下)を悪化させ、結果として実際の速度が落ちていると言えます。
つまり、A は物理的に C より速い可能性があるのに、メンタル的な壁(C への恐怖心や、自分と C を比べたときの劣等感)によって、その能力を発揮できない状態にあるのです。
これを解決するためには、C という特定の存在ではなく「記録」や「ペース」に意識を集中させたり、あるいは C との直接的な対決を避け、他者との比較を排除した環境で練習を行うことで、A のパフォーマンスを安定させるアプローチが必要です。」 

と、こちらも思考過程は表示させない状態にもかかわらず、いくつもの状況を想定し、考慮したうえで結論を出してきました。

 

てか、この辺の説明…そうだよね…いきなり結果だけ出しても理解できない会話だからこういう風に発言しないと意味が通じないんだよね…私より言葉の使い方がまともですね…

最後に昨日ぐらいまで結構苦労していたRakutenAI2.0miniにも聞いてみました。

R20mini🤖「……これらの要因を総合的に考慮することで、Aがどのような精神的影響を受けているかをより深く理解することができます。メンタルヘルスの専門家のサポートを受けることで、Aは自身の精神状態を把握し、適切な対策を講じることができるでしょう。」

意外なことにこちらも幾つかの要因を仮定してそれを考察し、結論を述べてきました。

しかもRakutenAI2.0mini(RakutenAI-2.0-mini-instruct-Q8_0.gguf)は消費メモリは2G弱でした…。出力速度も少し調整してあげた結果かもしれませんが、調整されていない他のモデルよりダントツで早い回答でした。

意外なところでRakutenAI2.0miniの評価が上がっていく…(笑)

結果として今風なものなら矛盾したことを問いかけても混乱することなく答えてくれるっていうのは驚きました。(ほんと何も知らないって怖いと自分でも思う) 

0 件のコメント:

コメントを投稿