ブレインロット(脳の劣化)はもはや人間だけのものではない。この現代特有の弊害は、人工知能にも影響するという研究結果が示されている。
「ブレインロット」という語は、取るに足らない、あるいは刺激に乏しいオンラインコンテンツを終わりなく摂取することで、人間の認知が鈍り、集中力、記憶、規律、社会的判断が損なわれる現象を指す略語として定着している。この表現はスクリーン漬けの時代性を象徴する語として広まり、オックスフォード大学出版局は2024年の「Word of the year」(今年の単語)に選出した。
そして、テキサス大学オースティン校、テキサスA&M大学、パデュー大学の研究者たちはこう考えた──我々が情報源としてますます依拠する大規模言語モデル(LLM)が、人間が常時消費しているのと同じ低質情報の洪水で訓練されているとしたら、そのツール自体の「脳」にとって何を意味するのだろう。彼らはこの問いを新たな研究で探っており、研究成果はプレプリント(正式な査読を受けていない論文)として研究プラットフォームarXiv(アーカイブ)に掲載され、現在ピアレビュー(査読)中だ。
研究者たちが最も警戒したのは、オンラインで流行するバイラルなテキストや注目を集めるテキストが、人間の認知と同じようにAIのアウトプットにも影響を与えることがわかったことだ。もちろん、AIモデルは「思考」も「理解」もできないが、質の低いコンテンツにさらされると、「推論」の誤り、事実の不一致、長いコンテキストで論理的一貫性を維持できないなどの欠点が見られた。なお研究者たちは、人間と人工知能の類似性を示すために、「思考」「理性」「理解」「認知」といった用語を意図的に使用している。
「最大の示唆は、言語モデルがデータの質を私たちの想定以上に緊密に反映するということです」と、研究共著者のジュンユアン・ホンとアトラス・ワンは筆者からの質問への共同書面回答で述べた。「ジャンクなテキストにさらされると、モデルは単に見かけの話しぶりが悪くなるだけでなく、考え方そのものが悪くなるのです」。ホンはテキサス大学オースティン校のポスドク研究員で、シンガポール国立大学の次期助教。ワンは同大学電気・コンピュータ工学科の准教授だ。
「ジャンクコンテンツ」をどう定義するのか?
研究チームは「LLMブレインロット仮説」を検証するため、ソーシャルメディアプラットフォームX(エックス)から「ジャンク」データセットと対照データセットを構築した。ジャンク集合には、最小限の情報で注意を奪うよう設計された高人気コンテンツ、たとえばクリックベイト系のスレッド、使い回しのミーム解説、怒りを誘発するよう仕掛けられた投稿、アルゴリズム生成によるリスティクル(listicle、箇条書き記事)などが含まれていた。
この種のコンテンツは「見た目は整って流暢に見えるため、従来型のデータ品質分類器は良好と判断しがちだが、モデルに『理解』ではなく『注目の模倣』を教え込み、推論を密かに劣化させる」とホンとワンは述べる。
彼らはその後、メタのオープンソース版Llama3やアリババのQwen系LLMの各種バージョンをジャンクデータで訓練し、その結果としての認知的劣化を観察した。特筆すべきは、低品質コンテンツによる損傷がモデルに長期的な影響を残した点である。
「大規模な『リハビリ』としてよりクリーンなデータで追加学習を施した後でさえ、劣化したモデルは完全には回復しなかった」と研究者たちは報告している。「この持続性は、『AIのブレインロット』が一時的な不具合ではないことを意味します。いわば認知的な傷跡です。ユーザーにとっては、流暢に見えるのに浅い推論しかできない——自信満々だが混乱している——ようなモデルとして現れるのです」。



