引用文献の60%が捏造の論文や「常習犯」も発覚
とくにひどい「F判定」(fail=落第=というよりfabrication=捏造=のFだ)を与えられるべき論文のひとつは、2025年、あるオープンアクセスの腫瘍学誌に発表されたものだ。驚くべきことに、その論文で引用されていた参考文献30件のうち、60%にあたる18件が捏造されたものだった。引用文献のかなりの割合が捏造だった論文は、ほかにも複数見つかった。参考文献の捏造が3件以上ある論文は、全体で246本確認された。
研究チームは、捏造された参考文献が含まれる論文を複数発表している著者も特定している。たとえば、ある研究者ペアは2025年に同一の外科学誌に論文を11本発表していたが、それらには捏造文献が計15件含まれていた。研究チームは、いわゆる「ペーパーミル(論文工場)」にも言及している。これは論文を粗製乱造する研究グループを指す。論文の種類別では、捏造文献が含まれる割合が最も高かったのは「総説(レビュー)論文」で、1万本あたり16.7件と、ほかの種類(同10.6件)より57%多かった。
LLMのハルシネーションが主因か
著者たち本人に直接話を聞かない限り、論文に捏造引用が入り込んでいる理由は断定しがたい。たぶん、テイラー・スウィフトとジャスティン・ビーバーが共著者の科学論文を仕立ててやろうといったノリで、面白がってやったわけではないのだろう。捏造の大半は、AIのひとつである大規模言語モデル(LLM)によるハルシネーションの産物ではないかと疑われている。
というのも、捏造引用の増加は、米オープンAIの「ChatGPT」、今回の研究にも使われたClaude、米パープレキシティの「Perplexity」といった、LLMに基づく生成AIプラットフォームの利用拡大と時期的に重なるからだ。筆者は以前、心理学メディアの「サイコロジー・トゥデイ」に寄稿した記事でもこの種のハルシネーションについて取り上げたことがあるが、LLMはとくにハルシネーションを起こしやすい性質がある。なぜなら、LLMはインターネット上の膨大なデータの中で何と何が結びついているかを学習しているにすぎず、何が正確で何が正確でないのかを専門家のように批判的に判断しているわけではないからだ。


