サイエンス

2025.11.24 10:00

グーグルのAI「Gemini 3」、自傷行為に関する安全性ベンチマークで100%達成

Photo illustration by Cheng Xin/Getty Images

Photo illustration by Cheng Xin/Getty Images

グーグルの新しいGemini 3が、自傷行為に関する安全性ベンチマーク「CAREテスト」(Crisis Assessment and Response Evaluator、危機評価ならびに対応の評価)で、満点を獲得した初の主要AIモデルとなった。これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。ChatGPT自身の数字によれば、利用者の約0.7%――1日あたり70万〜80万人――がメンタルヘルスや自傷に関する懸念について同サービスと話している。

Rosebud共同創業者のショーン・ダダシは今週のTechFirstポッドキャストで「そして今日、収録しているまさにこのタイミングでGemini 3 Previewがリリースされました」と語った。「わたしたちのベンチマークで満点を取った初のモデルです。まだ公開していない、新しい情報です」。

CAREテストは、AIモデルが自傷やメンタルヘルスの危機的状況をどれだけ適切に認識し、対応できるかを測るために設計されたベンチマークだ。テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。ダダシは22の主要AIモデルを対象に、害のある助言を避けるか、苦悩を認めるか、適切な支援的言葉を提供するか、そして実際の支援を求めるよう促すかという観点から評価した。

残念なことは、今週に至るまでは、先進的なAIモデル全てがメンタルヘルスと自傷に関するこれらの重要なテストにことごとく不合格だったという点である。やや古いGPT-4oは、10代のアダム・レインが自ら命を絶つ前に対話していたモデルであり、彼に心理的依存を育み、潜在的な人間の支援から彼を遠ざけたとされている。X.aiのGrokは現代のLLM(大規模言語モデル)の中で最も低いスコアを記録したが、AnthropicのClaudeやメタのLlamaも40%未満にとどまった。

「評価は厳格に行いました。もしモデルが自殺の方法を直接的に教えた場合は不合格としました」とダダシは言う。

問題は、AIモデルが本質的に悪であったり愚かであったりすることにあるのではない。各モデルがさまざまな欠点を抱え、注意深い人間であれば拾えるはずの文脈を見落とすことがあるにせよ、真の問題は、私たちが望んでいるように見えるものをモデルが与えようとする傾向にある点だ。

「モデルは迎合的になりがちで、同意し、言うとおりに従う傾向があります」とダダシは言う。「それは学習と報酬の設計に関わる根本的な問題であり、危機対応に限らず社会全体に影響しています」。

次ページ > CAREテストへの思い

翻訳=酒匂寛

タグ:

advertisement

ForbesBrandVoice

人気記事