2026年5月10日日曜日

生成した画像を見せてみた。

現状使えそうなモデルはあまりないのですが、ここ最近生成された画像から写真っぽい画像をGemma4 E4B it UD_Q8_0とQwen3.6 35B A3B UD_Q2_K_XLのモデルでどちらも若干ハンデがある感じになっているのですが…そこはいまストレージに入ってるモデルを減らしているのですみません…w mmprojはどちらもBF16のモデルを使用しました。

「この画像について説明してください。また、この画像が写真か、生成された画像か判断してください。」


という言葉で判断してもらいました。

どちらが優れているかと言うよりは、どのような反応を返すのか興味があったので。

結論から言えば、Gemma4は写真かもしれない要素も多いいが、生成された画像と判断するのが妥当との回答でしたが、Qwen3.6でははっきりと生成された画像だと断定しました。

この辺はGemma4は結論を出すというよりは、可能性を提示するタイプなので妥当かなとも思える回答でした。Qwen3.6では画像の扱いはかなり優れているのと35Bの部分が効いているのだと思います。でもハッキリと断定してくるのはすごいかな。その結果の後、その判断に至る理由を箇条書きで述べてくれて理解もしやすかったです。

Gemma4は画像はまだ今一歩と言うのは文字認識の時にも感じていましたが、画像の認識もやはり差が出ていますね。

というより、Flux1の凄さを改めて感心させられました。写真撮影を前提とした場合、ほぼ完ぺきと思えるような状態というある意味最高の誉め言葉がどちらからも出ていることが印象的でもありました。

以下回答内容をそのまま貼り付け。 

Gemma 4 E4B it
画像の説明

この画像は、夕日(または早朝の太陽)を背にして立つ若い女性を捉えたポートレート写真です。

被写体:
中央にいる女性は、明るい茶色の長い髪をしており、自然な表情をしています。彼女はオレンジやコーラル系の色合いの、レースや網目のような質感のあるランジェリー(ブラジャーとショートパンツのような下着)を着用しています。

光と雰囲気:
画面の左側から非常に強く、温かい光が差し込んでおり、強いフレア(光芒)とリムライト(輪郭を縁取る光)を作り出しています。この逆光効果により、女性の髪や体が光に照らされ、ドラマチックでロマンチックな雰囲気を醸し出しています。背景は柔らかくボケており(ボケ味)、遠くに低木や自然の風景が見えます。全体のトーンは暖色系で、非常にムーディーでエモーショナルな印象です。

構図:
女性はカメラをまっすぐに見つめており、構図は全身に近いミディアムショットです。
画像の性質(写真か、生成された画像か)の判断

総合的な判断としては、「プロのカメラマンによって撮影された写真(フォトグラフィー)」である可能性が高いですが、高度な画像生成AI(例:Midjourney, Stable Diffusionなど)によって、写真のようなスタイルで「生成された画像」である可能性も排除できません。

その根拠:

写真の可能性が高い点(実写感):

    光の質: 夕日特有の暖かく拡散した光、逆光によるドラマチックなリムライトの質感が非常にリアルです。
    肌の質感: 肌のトーンや陰影の落ち方が、実写のポートレート写真に非常に近いです。
    雰囲気作り: スタイリング(衣装、ポージング)とライティングの組み合わせが、ファッションまたはポートレート撮影の意図を強く感じさせます。

生成AIの可能性が考えられる点(完璧すぎる要素):

    完璧なライティング: 光の配置やコントラストが「理想的」すぎて、意図的に調整されたAI的な美しさを感じさせる場合があります。
    ディテールの均一性: 画像全体に非常に均一で美しいトーンが適用されている点も、AIによる一括処理の痕跡かもしれません。

結論として:
もしこの画像が実在するものであるならば、非常に高品質なファッションポートレート写真です。もしAI生成物であるならば、非常に洗練されたプロンプトと高品質なモデルを使用して生成された、「写真のような(Photorealistic)」画像であると判断するのが最も正確です。


Qwen3.6 35B A3B

この画像は、夕日(ゴールデンアワー)の光に包まれた女性を捉えたものです。彼女はオレンジ色のビキニトップと、同系色の透け感のあるスカーフやスカート風のアウターを身にまとい、自然なポーズでカメラを見つめています。背景はぼかされており、砂浜や草むらがうっすらと見え、全体的に暖色系のトーンで統一された幻想的で美しい雰囲気を持っています。
判断:これは**生成された画像(AI生成画像)**です。

その理由は以下の通りです:

    肌の質感と光の反射が不自然
    女性の肌は非常に滑らかで、影の乗り方が一様に整っており、現実の皮膚の微細な凹凸や毛穴、汗の反射などが欠けています。これはAI生成特有の「理想化された美しさ」を示しています。

    服の質感と垂れ方が不合理
    オレンジ色のスカート・スカーフ部分は、布の重みや風による自然な揺れではなく、まるで立体モデルのように均一に配置されています。特に足元から垂れ下がる部分の皺や透明度が人工的に処理されているように見えます。

    顔のバランスと表情の「完璧さ」
    顔のプロポーションが非常に整っており、目・鼻・唇の配置が数学的に計算されたような対称性を持っています。また、表情にわずかな「無機質さ」があり、感情のニュアンスが欠けています。

    背景のぼかし方と被写界深度の違和感
    背景のぼかし(ボケ)が均一的で、レンズ光学に基づく自然な被写界深度ではなく、デジタル処理による人工的なぼけのように見えます。また、人物の輪郭と背景の境界線が少し溶け合っている部分もあります。

    手の指の形状
    右手の指先が若干歪んでおり、指の関節や爪の形が自然ではありません。これはAI生成画像でよく見られるアーティファクト(欠陥)の一つです。

結論:

この画像は、Stable Diffusion や Midjourney などのAI画像生成ツールで作られたものと推測されます。写真ではなく、デジタルアートとしての美しさを追求した生成画像であり、現実の撮影ではなく、アルゴリズムによる合成・補正が施されています。

もし写真のように見せたい場合は、後加工で肌ノイズを追加したり、光の当たり方を調整したりする必要がありますが、現在の状態では明確にAI生成であると言えます。

 

0 件のコメント:

コメントを投稿