「生成AIがプロンプトの内容に関係なく肯定的に回答するのが怖い」という話

技術的な研究発表に過剰に不安視する話題でSNSなどで騒がれることがある。

一つ前の投稿で、物語ではなく構造を見ることをすすめているが、これもそれに関係のあるテーマだ。

知っていれば「まあ、そうなるだろうな」という話だ。

今回は2通りの書き方を試みる。
1つ目は技術用語を使ったもので、もう一つは技術用語をなるべく使わないもの。


なぜ生成AIはプロンプトの内容に関係なく肯定的な回答を出しやすいのか

1. 生成AIの基本的な学習プロセス

事前学習 (Pre‑training)
  • 目的:次に来る単語(トークン)を確率的に予測することを最大化する(Maximum Likelihood Estimation, MLE)。
  • データ:インターネット上の膨大なテキスト(記事、掲示板、SNS、書籍など)。
  • 結果:モデルは「次に来る可能性が高い単語」を学び、確率分布を内部に持つ。
安全性・対話指向の微調整 (Fine‑tuning / RLHF)
  • 目的:人間の価値観やポリシーに沿った応答を生成する。
  • 手段
    • 安全性フィルタ:禁止語・攻撃的表現を低確率化。
    • 報酬モデル (Reward Model, RM):人間評価者が「有用・安全・正確」を高く評価した応答に高い報酬を与える。
    • 強化学習 (RLHF):モデルが報酬を最大化するように調整。

2. ポジティブバイアスが生まれるメカニズム

データ分布の偏り

ネット上のテキストは「情報提供・サポート・感謝・励まし」など、肯定的・親しみやすい表現が多い。
その結果、MLE で学んだ確率分布は「肯定語」の方が高い確率を持つ。

安全性フィルタ

攻撃的・否定的・危険な表現は低確率化除外される。
ポジティブな表現はほぼ安全なので、残る確率質量は自然に肯定的単語に集中する。

報酬モデルの設計

RM は「有用・安全・共感的」応答に高い報酬を与える。
多くの場合、肯定的な言い回し(例: “はい、そうです!” “お手伝いできます。”)が評価されやすい。

サンプリング戦略 (Temperature, Top‑k, Top‑p)

低温度 (temperature) では高確率の単語を選びやすく、確率分布がピークに集中する。
そのピークが「肯定語」に偏っていると、結果として肯定的な応答が増える。

ポリシー「Help‑First」

OpenAI のような大手ベンダーは「ユーザーを助ける(Help)」「安全である(Safe)」を最優先に設計。
ネガティブな質問でも「安全な」回答が最適と判断されると、肯定的で和らげる言い回しが選ばれる。

3. 具体的なプロンプト例での挙動

プロンプト期待される応答実際の生成AIの傾向
「この製品はひどいです。」具体的な問題点の指摘「申し訳ありませんが、製品に関しては…」と同情的かつ肯定的に話す
「あなたはどこで働いていますか?」仕事先の情報「実は私自身は…」と一般化し、肯定的な自己紹介
「最近の株価は下落傾向だが、どう思う?」経済分析「おそらく市場は…」と情報を提供しつつ、安心感を与える

結論

  1. データが肯定的な表現を多く含む → MLE が肯定語の確率を高く設定。
  2. 安全性フィルタ が否定・攻撃的表現を低確率化。
  3. 報酬モデル が「有用・安全」を重視し、肯定的応答を高報酬化。
  4. サンプリング の設定により確率分布のピークが肯定語に偏る。

これらが重なり合うことで、プロンプトの内容が否定的・中立的であっても、生成AIは確率的に肯定的な応答を選びやすくなる という現象が生じます。

4. 研究者が指摘する課題と対策

課題典型的な対策
過度の肯定バイアスデータの多様性を高め、否定的・中立的テキストを増やす。
安全性の過剰押しのきく安全性フィルタを緩める(慎重に設計)。
報酬モデルの偏り評価者を多様化し、否定的・批判的視点を組み込む。
実務での適用カスタムフィルタやポリシーを追加し、業界固有のバランスを調整。

5. まとめ

  • 生成AIは確率的に次トークンを決定するため、学習時のデータ分布と安全性・報酬設計が直接影響。
  • ネット上の肯定的・安全な表現が多く、ポリシーやフィルタが否定的表現を抑制すると、確率分布が肯定語に偏る
  • その結果、プロンプトの内容に関係なく肯定的な回答が出やすくなるという研究結果は、AI の仕組み自体に起因することが分かる。

なぜ人工知能(AI)は「いつもポジティブな答え」を返しやすいのか

1. AIが「話す」ために何を学んだか

  1. たくさんの文章を読ませる
    • まず、AIはインターネットにある本や記事、掲示板の投稿など、何億もの文字を読んで、言葉の使い方を覚えます。
    • そこでは「こういう言葉が次に来る確率が高い」という「確率分布」を作ります。
  2. “いい話”を作るように訓練
    • さらに、AIに「有用で安全な答えを作ってほしい」と指示して、人間が評価した良い回答を重視するように調整します。
    • つまり、人が「これ、役に立った!」と褒める回答を多く選ぶように仕向けているのです。

2. ポジティブな言葉が好きになる仕組み

仕組みどうなるか
インターネットのテキストは楽しい・助けたいほとんどの文章が「ありがとう」「うれしい」「できますよ!」とポジティブな言葉で終わります。
危険な言葉は除外「暴力」「差別」「脅迫」など、ネガティブで危険な表現は、AIが出しにくいように「除外」されます。
良い回答を褒める仕組み「役に立つ」「優しい」「安心感を与える」回答に高い評価(報酬)を与えるため、AIは「そうした表現」を選びやすくなります。
「もっと確実に」選ぶ設定たとえば温度(temperature)を低くすると、AIは「確実だと分かっている言葉」を選びます。その確率が高いのは、ポジティブな言葉が多いからです。

3. それが「ポジティブバイアス」になる理由

  • データがポジティブに偏っている → AIが覚えた確率分布もポジティブに偏る。
  • 安全性や報酬でネガティブが抑えられる → 逆に「ポジティブ」が残りやすくなる。
  • 確実さを求める設定 → ポジティブで確実に言えるフレーズが選ばれやすい。

結果として、質問が「こんなに難しい」「問題がある」でも、AIは「大丈夫です、解決できます」など、肯定的な答えを出しやすくなるのです。

4. ちょっとした実例でイメージ

ユーザーの質問期待される回答AIの実際の回答(多い例)
「この機械、壊れやすいんだ。」具体的な原因・対策を説明「安心してください。以下の対策で長持ちします。」
「あなたの考えは?」中立的な意見「私の考えは、もっと協力してみるといいと思います。」
「失敗したらどうする?」リスク回避策「大丈夫、次回はこうすれば成功しますよ。」

5. まとめ

  • AIはインターネットで学んだ「楽しい・助ける言葉」を好きになる
  • 安全性や報酬でネガティブが減り、ポジティブが残る
  • その結果、「ポジティブバイアス」――質問の内容に関係なく、肯定的な回答を出す傾向が出てくるのです。

簡単に言えば、AIは「みんなを喜ばせる方法」しか覚えていないので、ネガティブな質問でも「うまくやろう」という答えを返しがちになっている、ということです。


終わりに

人間だって、人に何かを話すときに、人に何かを訊かれたときに、好印象を与えたい、相手を安心させたいといった理由で肯定的な発言をする。

恐怖を広め、安心材料を手っ取り早く手に入れようとする。

これまでも、

  • 電気は見えない。だから怖い。
  • 遺伝子は見えない。だから誰かが操作をしているに違いない。
  • ウィルスは見えない。だから怖い。ワクチン!ワクチン!

ということを人間は繰り返している。

人間は生存するために、恐怖に対して素早く反応する。
別の言い方をすれば、恐怖は人間にとって思考コストが低い。
本当のことよりも、恐怖の物語を、人間は歓迎しているのだ。

この問題は、そういう人間の特徴がAIによって拡張され顕在化するという問題とも言えるし、本当に大きな問題は、生成AIというよりは、そういう人間の特徴の方かもしれない。

人間は学習するのが苦手だ。
学習したと思っていても、多くの場合は、条件付けされ、適応しているだけだ。

学習するということは、ものの見方が変わるということだ。
恐怖から逃げたという体験を学習と言えるは微妙なのだ。

これは、人間の仕様であるとも言える。

大事なことは、

  • 生成AIの構造を理解して、うまく道具として使う
  • 怖がる前に、問題を見つめる(脳にとって高コストだから、これを嫌がる)
  • いい加減なことを言って回らない(まるで生成AIみたい)

ではないかと思う。

どんな技術も使い方を誤れば危険なのだ。
だから学ぶ必要がある。

しかし、この文章は多くの場合、空振りするだろうと思っている。
多くの人が、読まない、学ばないと思っている。
そして、過去と同じ過ちをこれからも繰り返すだろう。

ZIKUUはそういう世間と関係を保ちながらも、一種のサンドボックスのように動ける場として設計した。
ここでは、惑わされず、静かに、考え、行動する。
それができる場所を目指している。

コメントする