2026.04.24 12:30

米FRB理事会が受けた異例のプレゼン「研究労働のためのAIエージェント」──生産性のパラドックスとは何か

John Drake | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Country Gate Prod. - stock.adobe.com

エージェントがFRBで実際に行ったこと

FRBでのプレゼンはデモを中心に構成されていた。1つ目では、カニンガムが、140年分の議会における移民関連演説を分類した2022年のPNAS論文（Cardら）を再現した。原論文は、人間が注釈を付けた7626例を用いてRoBERTa言語モデルをファインチューニング（微調整）した。複数の研究助手が何週間、場合によっては何カ月もかけた仕事である。カニンガムはAIエージェントでOpenAIのbatch APIをオーケストレーション（複数の処理を統合的に制御）し、30万5000本すべての演説をゼロショットのプロンプトで2.6時間で分類した。大きなトレンドは維持された。1970年代以降の党派的分極化、民主党の移民賛成方向への傾斜、そして時間とともに広がるギャップである。ラベルが一致しない箇所では、言語モデルは「中立」へ傾く傾向があった。ランダムノイズではなく、圧縮バイアスである。

この圧縮は重要だ。そして、Ludwig、Mullainathan、Rambachanによるワーキングペーパーが、その理由を説明している。言語モデルの分類誤差は、古典的な測定誤差とはまったく異なる振る舞いをする。誤差が研究対象のアウトカムと相関している場合、そしてLLM（大規模言語モデル）が生成したラベルでは容易にそうなりうるが、下流の統計推定は深刻にバイアスを受けうる。人間ラベルと機械ラベルの一致率が69％（カニンガムが議会演説分析の再現で達成した精度）あったとしても、妥当な推論の保証にはならない。小規模な人手コーディングの検証サンプルは問題の診断と補正に役立つが、その修正を適用するには、利便性の下にある理論を理解している必要がある。

2つ目のデモでは、カニンガムは、彼がクロス言語リプリケーション（cross-language replication）と呼ぶ手法を用いて、ブラジルの精神医療改革に関する公開済み論文を監査した。根底にある論理はシンプルで巧みだ。R、Stata、Pythonにおけるコーディングエラーは言語固有であり、相互に独立である可能性が高い。3つすべての言語でパイプラインを再現し、各ステップで比較すれば、厳密なチェックになる。複数の小数点以下の桁まで一致すれば信頼度は高く、乖離すれば何かがおかしい。カニンガムのエージェントは、1回のセッションで3言語にわたる96本のスクリプトを書き、実際の問題を見つけた。時間とともに機械的に減少する不審な変数、測定された背景特性のほぼ半分で治療群と対照群の大きな差、そして未記載の重複である。

カニンガムは、自分の言葉で言えば「これらのエージェントを常に自分のコードに対して攻撃的に差し向ける」カスタムツールを構築している。自分の仕事に査読者レポートを書かせ、結果をストレステストし、言語間で分析を再現する。「高品質なコードを作るコストは、基本的にゼロになった」と彼は筆者に語った。クロス言語監査は、現実の問題に対する説得力あるアプローチであり、特定の言語のデフォルト設定やエッジケースの産物ではないことを示す独立の証拠を生み出す方法である。カニンガムが語ったのは、単なる研究の高速化ではなく、彼の言う「失敗をより速く通過する」ことだった。致命的な欠陥を抱えたプロジェクトが、何カ月ではなく数日で正体を現す地点に到達するのである。

新たな均衡

学術研究にも産業研究にも、その含意は厳然としている。カニンガムの見立てでは、経済学にはおよそ87の学術誌があり、掲載枠は3800本、年間投稿数は約1万2000人の研究活動を行う経済学者から3万9000本にのぼる。もし平均的研究者のアウトプットが年3本から10本に増え、投稿料とAIツールに年約3200ドルかかるとしても、そのコストは学会出張1回分にも満たない。投稿数は15万本以上に膨らみうる。掲載枠は固定だ。無償のボランティアで、すでに限界まで引き伸ばされている査読者プールが増えることはまずない。現状維持のためだけに、デスク・リジェクト（編集段階での即時不採択）率を概ね50％から89％まで引き上げる必要があるだろう。筆者が以前書いたように、多くの科学者は査読システムがすでにメルトダウンしていると考えている。

カニンガムは均衡を率直な言葉で表した。現在、経済学のアカデミックは6年間で6本の論文を揃えてテニュア審査に臨む。「これまで6本必要だったなら、これからは12本必要になる」と彼は言った。「すべてが調整されていく。そして、その均衡がどんなものになるのかは誰にもわからない」。今学期、カニンガムはハーバードで2つの新しい授業、博士課程の確率論と学部の統計学を教えながら、4本の論文を投稿に向けて進め、Amazonのコンサルティングをし、週次のSubstackを書いている。「授業だけでも、本来なら不可能だと思う」と彼は言った。ツールはこの仕事量を可能にする。新しい均衡は、それを必須にする。

カニンガムの数字は経済学についてのものだが、この力学は広く当てはまる。ボランティア査読と固定された学術誌のキャパシティに依存する分野は、同じ算術に直面する。そして課題は量だけではない。AIが文章の質、体裁、統計的提示の最低水準を押し上げると、編集者が長年、原稿のトリアージに使ってきた表層的な手がかりは機能しなくなる。中身のある真剣な科学と、磨かれてはいるが空疎なアウトプットを見分けるには、より深く、よりコストのかかる評価が必要になる。しかも、それはシステムが最もそれを負担できない局面で起きる。

カニンガムのプレゼンは、FRBが真剣に受け止めるべき問いで締めくくられた。しかも、それは経済学に限らない。「どうすれば人間を曲線の正しい側に留められるのか？」。研究者が指揮し、エージェントが実行するパートナーモデルは、人的資本の蓄積を保つ。エージェントがすべてを行う自動化モデルは、個人にとっては合理的だが、集団としては腐食的である。研究における制約条件は、生産から評価へと移りつつある。制度、学術誌、テニュア委員会、助成機関は、研究を生み出すことが難しかった世界に合わせて作られている。それらは、研究を判断することが難しい世界に向けて作り直されねばならない。

（forbes.com 原文）