文章の質は劣化している。AIスコアとFlesch Reading Ease(可読性指標)には、投稿全体で負の相関が見られた。AI含有度の高い原稿は、読み解くのにより高い学年相当の読解力を要し、名詞化(「conceptualization」「operationalization」のような語)を多用し、専門用語が多い。興味深いことに、AI文がより良かった側面もいくつかある。より具体的で、断定を避ける表現が少ない傾向があったのだ。だが総合すると、文章はより密で、読みにくくなる。ガーテンバーグは、政治家が抽象表現で意味を埋没させる例を挙げたジョージ・オーウェルのエッセイ「Politics and the English Language」を引いた。AIの文章は、彼女によれば、あの政治家たちのように、密度が高く、ぼんやりと立派に見え、追いにくいという。
論文タイトルは問題の枠組みを示している。「More Versus Better(量か、質か)」である。「今日使われているAIは、より良い研究よりも、より多くの研究を生み出す制度的インセンティブと衝突している」とガーテンバーグは言う。「AI単体の問題ではない。AIと、『出版しなければ生き残れない』というインセンティブの組み合わせだ」
誰が、なぜ使うのか?
本論文には、これがChatGPTを使う少数の悪質な人物の問題にすぎないと思っている人なら誰でも不安になるはずの発見が含まれている。教員の評価が歴史的に「論文数ランキング」に強く反応してきたビジネススクールほど、ChatGPTの利用可能化後にAI投稿を不均衡に増やしていた。問題のランキングは、テキサス大学ダラス校が維持するUTDリストである。これは、指定された上位24誌に教員が何本の論文を発表したかでビジネススクールをスコア化する。ビジネス系の学術界で最も注視される指標の1つであり、これで競う学校の研究者には量を最大化する強い誘因がある。
この効果は統計的に有意である。UTDランキングで競う学校はChatGPT以降により多くの論文を投稿し、その追加分はAIによって書かれた割合が不均衡に高かった。これは、原稿における大量のAI使用がランダムではなく、制度的インセンティブに追従していることを示唆している。出版数のカウントが最も重要な学校の著者こそが、機械に最も強く依存している。
ガーテンバーグは、このプロジェクトから得た中心的洞察だと考える点をこう述べた。AIは価値中立のツールである。質に向けることも、量に向けることもできる。「いまは量へのインセンティブがあまりに強力で」と彼女は言い、「本当に破壊的になりうる」
査読側
AIは投稿の流れにとどまらない。Organization Scienceでは、査読の30%以上に検出可能なAI使用が見られるようになった。ChatGPT以前はほぼゼロだった。これらの査読は投稿と同じパターンを示す。読みにくく、名詞化が多く、専門用語が多い。さらに、データや実証手法から理論へと重点を移す傾向があり、この評価範囲の狭まりが続けば、どのような科学が報われるかを変えてしまう可能性がある。


