第2の論文は、元研究の頑健性(robustness)を検討した。これは、元データを別の方法で分析しても、公表された実験と同じ結果が得られる度合いを測る指標である。研究者が再解析した100本の論文のうち、5人の再解析者が独立に元研究の報告結果を確認できたのは約3分の1にとどまった。一方で、少なくとも1つの再解析が概ね同じ結論に到達したケースは74%だった。しかし24%の論文では、再解析で元論文が報告した効果が見いだせず、2%では別の分析が公表研究とは正反対の結論に至った。
第3の論文は再現可能性(replicability)を検討した。これは、特に新規の研究発見について頻繁に問われる核心的な問題であり、別の研究者が実験を繰り返したときに確認されるかどうかを指す。研究チームは、54の学術誌にわたり、複数年に公表された164本の論文から、ポジティブな結果の主張274件について再現実験を試みた。
その結果、統計的に有意な結果を再現できたのは、274件中151件で、再現率は55.1%だった。164本の論文単位での再現成功率は49.3%である。しかし、注目すべき別の結果もあった。相関の平均効果量は元研究では0.25だったのに対し、再現研究では0.10へと縮小したのである。これは大幅な低下であり、すべての分野で起きていた。
再現実験の結果は分野によっても異なったが、再現性(reproducibility)で見られた傾向とは別の方向だった。経済学は再現率が最も低く、再現性では振るわなかった教育分野は、再現の面では他分野より良好だった。
研究の再現可能性を予測するのは難しい
いわゆる「再現性の危機(replication crisis)」は、社会・行動科学に限った問題ではない。医学を含む複数の分野の研究者を悩ませてきた、長年認識されている問題である。そのため、ある研究が信頼に欠ける可能性があるのか、あるいは特に信頼できるのかを示す指標を見いだそうとする試みが続いてきた。
今回の新研究でSCOREの研究者は、研究の特性(例えばデータ共有を提供しているか、他者にどの程度引用されているか)が、結果の再現可否の予測に役立つかを検証した。しかし、信頼性指標の探索は概して成果が乏しかった。考え得る関係のうち、再現性(reproducibility)と強く相関した要因は1つだけで、それはデータが一般公開されているかどうかだった。


