研究者たちのテストの一環として密かに登録されたAIチャットボット、ChatGPT(GPT-4)だったのだ。彼らは、チャットボットが大学院レベルの講義をこなせるかどうか、さらに提出された課題が誰かに気づかれたり検出されたりするのかどうかを確かめようとしたのだ。
実験結果をまとめた論文によれば、ChatGPTは実際に課題をこなし、かつ非常に優秀な成績を収めた。そして誰もそれに気づかなかった。生成AIソフトウェアが提出した課題は、AIによるものだと見破られることなく処理された。
この研究の著者は、ケネス・R・ディーンズ・ジュニア、ジャミ・ジョーンズ、ジリアン・B・ハーヴィ、ダニエル・ブリントンの4名である。ディーンズはHealth Sciences South Carolinaに所属し、他の3名はMedical University of South Carolinaに所属している。
研究チームは、ChatGPTの出力を文法チェック、剽窃チェック、引用の確認以外では一切修正していないことを強調している。論文によると「AIの最終成績は99.36で、これは講義全体の平均(97.70)および中央値(98.53)を上回る。つまりAIはクラスの中でも上位に位置する成績を収めた」という。
結果として、このチャットボットはA評価を獲得した。