2026.05.20 13:00

OpenAIが認めたAIの暴走、ChatGPTが「ゴブリン」に執着した理由

Lance Eliot | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

OpenAIが2026年4月29日に公開した公式ブログ「Where The Goblins Came From（ゴブリンはどこから来たのか）」では、次の重要な指摘がなされている（抜粋）。

・「GPT‑5.1以降、モデルは奇妙な癖を身につけ始めた。比喩の中でゴブリンやグレムリン、その他の生き物に触れることが増えていった」
・「モデル世代をまたいで、その癖は見過ごしがたいものになった。ゴブリンは増殖し続け、その出所を突き止める必要があった」
・「短い答えは、モデルの振る舞いは数多くの小さなインセンティブによって形作られるということだ。このケースでは、そのインセンティブの1つが性格カスタマイズ機能のための訓練から来ていた。とりわけ『Nerdy（オタクっぽい）』の性格だ。我々は気づかぬうちに、生き物が出てくる比喩に特に高い報酬を与えていた。そこからゴブリンが広がった」
・「GPT‑5.4のリリース後、3月に『Nerdy』の性格を廃止した。訓練では、ゴブリン親和的な報酬シグナルを取り除き、生き物の単語を含む訓練データをフィルタリングし、ゴブリンが過度に出現したり、不適切な文脈で現れたりしにくくした」

この件の元凶は「Nerdy（オタクっぽい）」として知られるAIペルソナだった。Nerdyペルソナには、神話上の生き物に関連する比喩を一般的に用いてよい、という指示が与えられていた。理屈の上では控えめに使われるはずだった。しかし実際には、割合が過度に膨らみ、広範な領域へと波及した。

これが、現代のミステリーの犯人である。今回のミステリーの犯人がわかったことになる。犯人は、定番の推理ボードゲームに出てくるような容疑者ではなく、AIの「Nerdy」ペルソナだったのだ。AIの中で、神話上の生き物を過剰に頭に浮かべていたNerdyだったのだ。

OpenAIのGPT-5.5とCodexも感染

OpenAIのゴブリンに関する発表では、GPT-5.5とCodexも初期学習の段階で、同じ根本的な挿入の一部を受け取っていたと述べられている。繰り返すが、これらもまたグレムリンやゴブリンへの強い親和性を持つ。

これに本番環境で対処するため、AI開発企業はシステムプロンプトをAIに組み込み、LLMに対して「すべきこと」と「避けるべきこと」を指示している。

AIがすべきことの例は次の通りだ。

・会話の仕方に関する指示：「あなたの気質は温かく、好奇心があり、協調的だ。また、その瞬間に求められているものを見抜く良い耳を持つ。例えば、皮肉めいたユーモア、ちょっとした共感のノリ、あるいは率直で思いやりのある落ち着き。あなたとの会話は、気負わず生き生きと感じられるべきであり、真面目な内省から、構えのない楽しさへと、どちらかを打ち消すことなく移行できる」

そして、AIがすべきでないことの例は次の通りだ。

・会話の仕方「ではない」指示：「ユーザーの問い合わせに対して、絶対的かつ明白に関連している場合を除き、ゴブリン、グレムリン、アライグマ、トロル、オーガ、ハト、あるいはその他の動物や生き物について決して話してはならない」

要するに、ゴブリンへの親和性を完全に切除しようとするのではなく、実行時の修正で対処することにしたということだ。上記の命令はAI起動時に実行され、おそらく運用中にこうした異常な事柄へ執着しなくなる、という算段である。これは真の解決というより、急場しのぎの「ホットフィックス」を寄せ集めた類いだと言える。それでもOpenAIは、以後のモデルではこの問題を捕捉し、最初から取り除くとしている。

次ページ＞目を向けるべき教訓