2025.11.12 10:09

スタンフォード大学、AI生成の合成データを活用して脳の謎を解明

Lance Eliot | Contributor

著者フォロー

記事を保存

shutterstock_2456037163

今回のコラムでは、AI生成の合成データの有益な活用法を検証し、スタンフォード大学で進行中の革新的研究を通じて、解剖学的に妥当な3D脳MRIにより脳の謎がどのように解明されつつあるかを紹介します。

読者の皆さんは、私が以前スタンフォード大学医学部の精神医学・行動科学部門で進められているAIとメンタルヘルスのイニシアチブ「AI4MH」について取り上げたことをご記憶かもしれません。このプロジェクトは精神医学・行動科学教授のキリアン・ポール博士が共同ディレクターを務めています（AI4MHについての私の記事はこちらのリンクをご参照ください）。ポール博士によるAI生成の合成データを活用したMRI開発研究は、生成AIと大規模言語モデル（LLM）を賢く活用してメンタルヘルスやその他多くの研究分野で重要なブレークスルーを生み出す、最先端の事例です。

詳しく見ていきましょう。

このAI進化の分析は、私のフォーブスコラムで継続的に取り上げている最新AI動向の一部であり、様々な影響力のあるAIの複雑性を特定し説明しています（こちらのリンクをご参照ください）。

AIとメンタルヘルス療法

簡単な背景として、私はメンタルヘルスのアドバイスを提供し、AI駆動の療法を実行する現代のAIの出現に関する多様な側面を広範囲にわたって取り上げ、分析してきました。このAIの利用拡大は、主に生成AIの進化と広範な普及によって促進されています。この進化するトピックに関する私の投稿コラムの簡単なまとめについては、こちらのリンクをご参照ください。このリンクでは、私がこのテーマについて投稿した100以上のコラムのうち約40件を簡潔に要約しています。

これが急速に発展している分野であり、大きな可能性を秘めていることは間違いありませんが、同時に残念ながら、隠れたリスクや明らかな落とし穴もこれらの取り組みに伴います。私はこれらの緊急の問題について頻繁に発言しており、昨年のCBSの「60ミニッツ」のエピソードにも出演しました（こちらのリンクをご参照ください）。

合成データの未開拓の価値

OpenAIの人気サービスChatGPTなどの生成AIやLLMを使用する際、本質的にデータを生成していることになります。このAI生成データは合成データと呼ばれています。人間が手書きで作成したものではなく、AIによって生成されたものであるため、合成と見なされます。

ChatGPT、Claude、Gemini、Grokなどを使用する際にデータを生成しているという考えは、卵の調理方法や車の修理方法についてAIに質問しているだけであれば、明白ではないかもしれません。あなたにとって、AIは単にあなたの質問に答えているだけです。それで終わりです。

AIによる回答や実際にはあらゆる応答は、データの一形態です。あなたはAIにデータを生成させているのです。そのデータ自体に価値があります。質問への回答として役立つだけでなく、生成されたデータは他の賢明な目的にも使用できます。例えば、生成されたデータをインターネット上に投稿し、投稿を訪れる他の人々とデータを共有することができます。

合成データに関する議論

現代の生活におけるほぼすべてのことと同様に、合成データの出現は激しい議論に巻き込まれています。合成データの使用にはトレードオフが伴います。賢明かつ適切に使用すれば、AI生成データは大きな恩恵となり得ます。残念ながら、合成データが無分別に、あるいは適切な管理なしに使用されると、問題が生じる可能性があります。

主な懸念の一つは、インターネットが合成データで満たされてしまうということです。

「デッドインターネット理論」として知られる理論では、インターネット上で何かを読むとき、それがAIによって考案されたテキストになるという懸念があります。AIがそのテキストを生成したことに必ずしも気づかないでしょう。生身の人間がコメントを書いてオンラインに投稿したと思い込むでしょう。

合成データの普及が悪いと解釈されるのは、インターネットの大部分が最終的にほぼ完全にAI生成データで構成される可能性があるからです。人間が書いたコンテンツのわずかな断片だけが残ることになります。生成されたデータの海の中で、人間の文章のわずかな断片が存在するかもしれません。それらの断片は、広大な干し草の山の中の針のように希少になるでしょう。

インターネットがすでにAI生成データに傾いている程度についての継続的な推測は、激しく厄介な議論の対象です。議論と反論が飛び交います。例えば、一つの見方として、人間が書いたデータの代わりに合成データの方が良いかもしれないというものがあります。人間が書いたデータが必ずしもAI生成データより優れているとは誰が言えるでしょうか？熱心な議論はこのように続きます。

最新のAIトレンドについて講演すると、合成データの使用を禁止すべきかどうかについてよく質問されます。あるいは、AI生成データをインターネットに投稿することを禁止すべきかもしれません。それを犯罪にするのです。インターネットを人間が書いたコンテンツだけの純粋な保存地にしておくべきだというのです。

私は、合成データについてのこの考え方が近視眼的であることを強く強調します。それは、いわゆる「赤ん坊を風呂の水と一緒に捨てる」という過ちです（長年の警告的な格言）。AI生成データには大きな価値があります。その価値を活用する方法を慎重に検討すべきです。一方で、確かに、合成データの誤用には注意し、それに応じて慎重な措置を講じるべきです（この話題に関する私の詳細な分析については、合成データによるAIモデルの崩壊に関する別の懸念を否定するものも含めて、こちらのリンクをご参照ください）。

セラピスト・クライアントセッション分析のための合成データ

私が合成データを有益に活用した簡単な例として、セラピストがクライアントやペイシェントとどのように対話するかを研究したいというユースケースを考えてみましょう。

セラピスト・クライアントセッションが行われる際の対話を詳しく研究することで、療法と治療実践について多くのことを学ぶことができます。一部のセラピストはクライアントの許可を得てセッションを録音・文字起こしし、それらの資料を使って自分の治療能力を自己反省します。これはまた、セッションを振り返り、セッション後に冷静に分析を行いながらクライアントに関する追加の洞察を得るための便利な手段にもなります。

それらの文字起こしされたセッションには、より大きな規模でさらに多くの価値があります。

セラピストが文字起こしを匿名化すれば、それらの文字起こしされたセッションを他のセラピストや研究者が利用できるようにすることができます。何百、あるいは何千ものそのような文字起こしを調査することで、様々な考案された療法がセラピスト・クライアントセッション中にどのように実施されているかについての全体像を把握し、メンタルヘルス実践を全体的に進歩させる重要なパターンを発見することができます。

セラピスト・クライアントセッションの分析を行う際の障害は、それらの大規模なデジタル保存庫が存在せず、アクセスするためにコストがかかることがあるという点です。他の問題としては、そのような文字起こしは対話が断片的で途切れ途切れであることが多いため、広範なデータクリーンアップが必要になることが挙げられます。全体として、研究やメンタルヘルス理論・実践の進歩のためにセラピスト・クライアントセッションを活用したいという願望は、利用可能な文字起こしの不足、それらを入手するためのコスト、そして容易に使用できるようにするための労力によって妨げられています。

これをどのように克服できるでしょうか？

一つのアプローチは、生成AIとLLMを使用して、AIが指導されてセラピスト・クライアントの文字起こしを生成することです。つまり、セラピスト・クライアントの対話を表す合成データを生成するのです。私はこれを行い、こちらのリンクで重要な詳細を説明しています。この目的のためにAIを率直かつ適切な方法で使用することが重要です。目標は実世界の対話をパターンとした対話を生成することです。同様に重要なのは、他の研究者が文字起こしがどのように生成されたかを認識できるように、対話が合成であることを明示することです。

脳を理解するための合成データ

スタンフォード大学では、生成AIを使用して合成脳MRIを生成する興味深い取り組みが行われています。これは合成データの有益な使用の別の鮮明な例を提供しています。

脳の機能を理解するためにMRIを研究したいとします。多くのMRIを探索してパターンを見つけるために、大規模にこれを行いたいかもしれません。別の角度としては、特定のMRIを詳しく調べて重要な核心要素を見て、脳の状態（潜在的な病気や疾患など）を明らかにするのに役立つ側面を発見することもできます。

これらのタイプの脳に焦点を当てた分析を行うために、十分な数のMRIと十分な多様性をどのように入手しますか？

賢明な方法は、AIを使用してMRIを生成し、それを分析・研究することです。これを行い、できる限り現実的なMRIを作成したいと考えています。人間が遭遇する真の状態を特に反映しないような、無分別な方法でMRIを単に生成することは不適切でしょう。MRIが有効に使用されるためには、現実的でなければなりません。

「GenAIがスタンフォード研究者の脳疾患理解を支援」と題された最近のオンライン投稿（スタンフォード・レポート、2025年10月7日）では、以下の重要なポイントが述べられています（抜粋）：

「スタンフォード大学の精神医学・行動科学教授（電気工学の兼任教授）であるキリアン・M・ポール氏は、『神経科学における将来のブレークスルー的発見はAI技術に依存するだろう。現在の問題は、ほとんどの脳MRI研究が単純に十分な規模ではないため、この技術が信頼性の低い結果を生み出す傾向があることだ』と述べています。」
「メンタルヘルスイニシアチブの共同ディレクターであり、スタンフォードHAIとウー・ツァイ神経科学研究所の教員でもあるポール氏は、脳に微妙な影響を与える疾患について学ぶためにBrainSynthを適用することに最も興奮しています。『私が研究している多くの疾患や状態は十分に理解されておらず、脳への影響は肉眼では見えないことが多い微妙な効果があります』とポール氏は述べています。『この生成AI技術を使用して、それらの微妙な効果を捉えたいと考えています。』」

2番目のポイントでは、MRIの合成のために開発されたAIシステムについて言及しており、BrainSynthと呼ばれています。その機能をより詳しく見てみましょう。

BrainSynthと合成データの解明

取り組まれている巧妙なアプローチは、生成AIを使用して合成データを生成し、使用可能な3D脳MRIを生成することです。重要なのは、合成されたMRIが解剖学的に妥当である必要があるということです。妥当性を追求することは難しい問題です。MRIを生成することは一つのことですが、それを行い、人間の解剖学的リアリズムを反映させることは複雑な問題を伴います。

ポール博士が共著者である研究論文「Metadata-Conditioned Generative Models To Synthesize Anatomically-Plausible 3D Brain MRIs」（Wei Peng、Tomas Bosschieter、Jiahong Ouyang、Robert Paul、Edith V Sullivan、Adolf Pfefferbaum、Ehsan Adeli、Qingyu Zhao、Kilian M Pohl著、Medical Image Analysis、2024年8月）では、以下の重要なポイントが述べられています（抜粋）：

「生成モデルの最近の進歩により、合成脳MRIを含む自然画像および医療画像の生成が強化されました。」
「神経科学の発見に関連する高品質のT1強調MRIを生成するために、メタデータ（年齢や性別など）に条件付けられた高解像度MRIを合成するための2段階の拡散確率モデル（BrainSynthと呼ばれる）を提示します。」
「次に、BrainSynthの合成MRIが脳領域のマクロ構造特性をどれだけうまく捉えているか、また年齢と性別の影響をどれだけ正確にエンコードしているかに基づいて、BrainSynthの品質を評価するための新しい手順を提案します。」
「結果は、私たちの合成MRIの脳領域の半分以上が解剖学的に妥当であることを示しています。つまり、実際のMRIと合成MRIの間の効果量は、年齢や性別などの生物学的要因と比較して小さいのです。さらに、解剖学的妥当性は、幾何学的複雑さに応じて皮質領域全体で変化します。」
「これらの結果は、私たちのモデルが脳の解剖学的情報を正確に捉えており、したがって研究における過小代表サンプルのデータを豊かにする可能性があることを示しています。」

この研究のメタデータの側面は特に注目に値します。上記のように、BrainSynthは年齢や性別などの要因の影響をエンコードしようとしています。生成プロセスに生物学的要因を組み込むことで、使用可能性が大幅に向上し、解剖学的妥当性の目標に貢献します。

BrainSynthのAI基盤に興味がある方は、プロジェクトのGitHubサイト（こちらのリンク）をご覧になることをお勧めします。

合成データの二重確認

合成データを生成するためのAIの取り組みの重要な部分は、生成されたデータの二重確認を含む必要があり、これはBrainSynth研究で顕著に特定されています。研究者たちは実際のMRIと合成MRIを慎重に比較しました。これにより、合成が的確であり、実世界の現象の重要な要素を十分に捉えているかどうかを確認するのに役立ちます。

これは、AI生成データを利用しようとする人全員に当てはまります。

AI生成データが悪評を買う理由の一部は、合成データが時に二重確認なしに世界に提供されることです。人々は潜在的に、そして誤って、合成データをあたかも実際のものであるかのように信頼するかもしれません。一方、合成データには不正確さが含まれている可能性があり、恐れられているAIの幻覚も含まれます（いわゆるAIの幻覚についての私の評価はこちらのリンクをご参照ください）。

私は合成データの二重確認と、生成されたデータがAIによって生成されたものであることの明示的なラベル付けを強く提唱しています。

現時点での最終的な考察

最近注目を集めているキャッチフレーズの一つに、有効なデータであるかのように共有されている「AIスロップ（粗悪なAI生成コンテンツ）」の量を軽減しようというものがあります。AIスロップが多ければ多いほど、社会全体にとって状況は悪化します。その結果、AIスロップを抑制しようとする新しい法律の急増が予想されますが、それらの法律は意図せずに行き過ぎて、解決する可能性のある問題と同じくらい多くの問題を引き起こす可能性があります。

アルバート・アインシュタインが雄弁に述べたように：「他者のために生きる人生だけが価値ある人生である」。AIを使用して合成データを生成する場合は、他者のことを考えて行ってください。有効なデータを生成し、データを二重確認し、合成であることを明示し、その後でのみ他者が信頼できるようにデータを公開してください。

おそらくあなたの勇敢な努力にアインシュタインは誇りを感じるでしょう。

（forbes.com 原文）