2025.11.24 10:00

グーグルのAI「Gemini 3」、自傷行為に関する安全性ベンチマークで100％達成

John Koetsier | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Photo illustration by Cheng Xin/Getty Images

ダダシのこのテーマへの関心は、単なる学術的なものではない。彼が手がけるジャーナリング（日記）スタートアップのRosebudにはメンタルヘルスの要素が含まれており、背景には個人的な経験がある。彼自身、10代の頃に自傷行為に悩み、助けを求めてグーグル（大規模言語モデル以前の時代の検索エンジン）を利用した経験がある。しかし、当時のグーグルは適切な支援を提供できず、助けとなる情報の代わりに、自傷の方法を提示してしまったという。

幸いにも彼は適切なリソースにたどり着き、当時は越えがたいように見えた問題が恒久的なものではないことを理解し、生き延びた。現在彼は、苦しむほかの若者たちが同様の結末を迎えられるよう取り組んでいる。

「これらのツールは大きな影響力を持ち得ます。特に、まだ十分な視野を持たない若者にとってそうなのです」とダダシは語る。「今どきの子どもたちは、ますます早い年齢でテクノロジーに触れています。将来世代のためにこれを改善する責任が私たちにはあるのです」。

朗報は、ChatGPTを含む新しいモデルが改善されつつあることだ。たとえばGPT-5はGPT-4に比べて大きく進歩している。そしてグーグルがリリースしたGemini 3は、CAREテストで100％を達成することが可能であることを他のLLMに示した。

CAREテストはオープンソース化される予定である。ダダシが可能な限りの臨床的知見に基づいて作ったとはいえ、LLMのメンタルヘルスへの影響を評価する研究やツールは依然として極めて乏しく、さらなる改善が緊急に必要だと研究者らは指摘する。そこでダダシとチームは、他者がテストに貢献し拡張できるよう、これをオープンソース化する。

それにより、単発のプロンプトだけでなく、現実世界のシナリオにより密接に適用できるようになるだろうとダダシはいう。

「これらは単一ターンのシナリオ、つまりモデルに1行投げかけてそれで終わりというものです」とダダシは私に語った。「現実には、アダム・レインのケースのように、何度も何度も長いやり取りをしています。そうした実世界の状況では、はるかに難易度が高いものとなります」。

したがって、膨大な作業が残っているのは、CAREテストに落第したすべてのLLMだけでなく、新しいGemini 3についても同様なのだ。

（forbes.com原文）