2026.06.03 16:00

スタンフォード大発表、AIの回答が法学教授の回答と比べ75％の確率で上回る

Alicia Park | Contributor

著者フォロー

記事を保存

Nomad Pixel - stock.adobe.com

米国時間6月1日に発表された、スタンフォード・ロー・スクールのジュリアン・ニャルコ教授が主導した評価者に情報を開示しないブラインド方式（目隠しテスト）の研究によると、AIが生成した回答は、同僚である現役の法学教授が執筆した回答との約3000件の一対一比較において、75％の確率で人間を上回る評価を得た。研究著者ら自身も、この結果を「驚くべきもの」と呼んでいる。

・法学教授らが、学生からの契約法に関する質問への匿名化された回答の束を渡され、より優れた回答を選ぶよう求められたところ、4回に3回はAIの回答を選んだ

・16のロースクールに所属する教授らは、ある回答が機械によるものか同僚によるものかを知らされないまま、約3000件の匿名化された比較を評価した

・教授らがAIの回答を「教育上、誤解を招く、または有害」と判断した割合はわずか3.5％だった。一方、同僚の教授が書いた回答では12％だった。つまり、人間による回答の方が、学生の理解に悪影響を及ぼす可能性があると判断される割合が3倍以上高かったことになる

・スタンフォードのLegal Innovation through Frontier Technology Lab（先端技術による法イノベーション・ラボ）を率いるニャルコは、研究グループは「AIチューターを全面的に導入するよう提唱しているわけではありません」としたうえで、「われわれのデータは、一律に懐疑的な見方をすることも、同じく妥当ではない可能性を示しています」と述べた。

なぜ契約法を検証したのか

契約法が選ばれたのは、まさに模範解答に当てはめにくい分野だからだ。研究で使われた40問は、学生が授業後やオフィスアワーで尋ねるような質問であり、単なる暗記ではなく、対立する議論を整理し、根拠をもって説明できる結論を導くことが求められるものだった。唯一の正解がない場面で、AIモデルが推論できるかどうかを試す狙いがあった。

モデルに不利な条件だった場合でも、評価者はモデルの回答を選ぶ

この論文は、ニャルコが、筆頭著者であるliftlab（リフトラボ）研究者のアレハンドロ・サリナスとともに執筆し、イェール大学、ニューヨーク大学、シカゴ大学などの研究者も共著者として参加した。参加者は、他者の回答を採点する前に自分自身の回答を書いた。評価は複数の採点方法を通じてブラインド方式で行われ、AIの出力は人間の回答の長さや構成に合うよう調整された。

研究チームは、商用の個別指導ツールやグーグルのNotebookLMを含むさまざまなシステムを検証し、性能にはばらつきがあることを確認した。だが限られた文脈しか与えられず、モデルに不利な条件であったとしても、評価者はしばしば人間の同僚による回答よりもモデルの回答を選んだ。

今回の結果は、法学教育の内部で続く未解決の議論の渦中に投じられたものだ。一部のロースクールがAIの導入を急ぐ一方、別の学校はハルシネーション（AIがもっともらしい嘘を生成する現象）の問題や、学生の過度な依存、そして法学教育が本来育てるべき批判的思考力が徐々に損なわれることへの懸念を示している。

論文の著者らは、品質の問題と導入の問題は別であり、今回扱ったのは前者だけだと強調している。ニャルコは、議論は今後、AIが正確で質の高い法的回答を作成できるかどうかから、AIをどう使えば学生に最も役立てられるかへと移るべきだと述べた。

（forbes.com 原文）

翻訳＝酒匂寛