2026.06.08 08:16

大学キャンパスでAI利用が増えるほど不正行為も増加、しかし専攻分野全体では逆の傾向

John Drake | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

Science誌に掲載された新たな分析は、ChatGPTが登場して以来、大学教員を悩ませてきた疑問に数値を示している。生成AIを使って不正行為を行う学生はどれくらいいるのか。主要な公立研究大学20校の代表的なサンプルから9万5513人の学生を対象に調査した結果、著者らは、これらのツールを使用する学生の約9%が、許可されていない可能性があると知りながらAI生成の課題を提出したと推定している。著者らは、9%という数字は、AIが大規模な不正行為を常態化させているという多くの報告よりも低いことに注意を促している。

この結果を数字そのものよりも興味深いものにしているのは、著者らがどのようにしてこの数字に到達したか、そして専攻分野別に分析した場合に何が起こるかという2つの点だ。AI利用と不正行為は、専攻分野全体では一方向に、学生個人では逆方向に動く。

認めようとしない不正行為者をどう数えるか

不正行為に関する統計は、学生が不正行為について嘘をつくという明白な反論を招くが、著者らはそれを回避するように推定値を構築した。

誰にも告白を求めるのではなく、リスト実験を使用した。学生は無作為に2つのグループに分けられた。一方のグループは、クラスメートにChatGPTを説明したことがあるなど、AI利用に関する3つの無害な記述を見て、自分に当てはまるものがいくつあるかだけを報告した。もう一方のグループは、これら3つに加えて4つ目の記述、つまり許可されていない可能性があると知りながらAI生成の課題を自分のものとして提出したことがあるという記述を見て、やはり該当数だけを報告した。誰も機密項目を単独でマークすることはないため、グループ間の平均カウントの差から、すべての回答を否認可能な状態に保ちながら、不正行為を認める割合を算出できる。

著者らは、一部の学生は自分の使用がルール違反であることに気づいていないため、この数字は過小評価である可能性があると付け加えているが、この過小評価は無意識に違反を犯した者のみである。

何が変動し、何が安定しているか

当然のことながら、学生の生成AI利用は専攻分野によって大きく変動する。コンピューターサイエンス専攻の学生は62%が定期的にAIを使用していると報告しているのに対し、芸術専攻では24%だ。それに比べて不正行為率はほとんど動かない。著者らは、採用率が低い傾向にある非STEM分野でやや高く、経済学で17%、ジャーナリズムで16%であり、生物学など5%のSTEMの一部では低いことを発見した。したがって、専攻分野全体では、採用率が高いほど不正行為はわずかに少なくなる。

しかし、不正行為の変動は利用の変動よりもはるかに小さい。採用率は分野によって学生の4分の1から3分の2近くまで変動するが、不正行為を行うユーザーの割合はおおむね5%から17%の間にとどまる。ある専攻分野がどれだけAIを受け入れているかは、その学生がどれだけ不正行為を行っているかについてほとんど何も教えてくれない。両方の数値が高い経済学は、この2つが常に連動するわけではないことを示している。

個々の学生のレベルでは、関係は逆転し、鮮明になる。毎日AIを使用する学生の不正行為率は26%であるのに対し、月に1回しか使用しない学生は7%だ。特定の学生がツールに依存すればするほど、その依存が不正行為に発展する可能性が高くなる。

専攻分野全体での弱い負の相関と学生個人での強い正の相関は、シンプソンのパラドックスの一種であり、そのギャップは誤読されやすい。不正行為はすでにAIを使用している学生の間でのみ推定されるため、芸術のような採用率の低い分野は、全体ではなく、小規模で自己選択されたグループを記述している。専攻分野への集約も個人のシグナルを埋もれさせる。なぜなら、ある分野には、その存在が不正行為率を抑制する多くの時々の正当なユーザーが含まれる可能性があるからだ。

アクセスに関する懸念

著者らは、精査に値する2つ目の点を提起している。彼らは、誰がAIを使用するかに関してかなりのギャップがあることを記録している。女性の33%が定期的な使用を報告しているのに対し、男性は45%、過小評価されているマイノリティの学生は29%であるのに対し、白人とアジア系の学生は39%だ。彼らはこれらのギャップを公平なアクセスの問題として解釈し、過小評価されている背景を持つ学生は、ツールへのアクセスや習熟度が低い可能性があることを示唆している。

その説明のアクセスの部分は信じがたい。汎用サブスクリプションは月額約20ドルであるのに対し、米国の授業料は数万ドルに達するため、在籍学生にとってコストが障壁になる可能性は低い。ギャップは価格では説明できない方法でも動いており、健康科学と経済学では性別による差が最も大きく、芸術、人文科学、コンピューターサイエンスでは人種による差が最も大きい。習熟度とAIに依存することが適切である時期に関する異なる規範が、より可能性の高い要因であり、それらは異なる救済策を必要とする。著者らは、学生がAIをうまく使用できると仮定するあらゆる改革にギャップが関係すると正しく指摘しているが、私には原因は経済的というよりも文化的であるように思われる。

今、何を評価する価値があるのか

枠組みを取り除けば、どちらの解釈にも依存しない発見が浮かび上がる。AIが普及するにつれて、洗練された最終成果物は、学生が助けなしで何ができるかの証拠として弱くなり、それを生み出した作業ではなく成果物を評価するあらゆる評価を脅かす。著者らはこの主張を慎重に行っており、通常の修正には懐疑的で、検出をいたちごっこと呼び、表向きはAI対応の試験が学位が証明することを意図している判断力をめったに捉えないと警告している。

より困難な含意は、彼らが触れていないものだ。これらの評価が測定する能力の多く、つまり洗練された文章と動作するコードの日常的な作成は、まさに雇用主が機械に任せ始めている能力だ。モデルが合格できる評価は、すでに市場価値を失いつつあるスキルをテストしていることが多く、それは妥当性の問題を検出よりも鋭い問いに変える。日常的な作成が自動化されたら、学位は何を証明すべきか。2つの可能性は判断力と統合力、つまり完成した文書に還元されない推論だが、それに応じてテストするのは難しい。

Science誌の研究は測定として最も価値がある。これは、AI支援による不正行為がどれだけ発生しているかについて、我々が持つ最大の慎重な推定値であり、その方法は質問の限界について明確だ。これは2024年に実施されたため、その使用数値は最低限として読むのが最善だ。誰もが引用する数字は9%だ。じっくり考える価値がある数字は、機械がコマンドでそれを実行できるようになったら、現在評価しているもののうちどれだけが評価する価値があり続けるかということだ。

（forbes.com 原文）