2026.02.23 09:56

AIは本当に賢いのか？ LLMの実力を検証する

Hadi Alsibassi | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock

最近の多くのリーダーと同様、私が繰り返し耳にする議論の中心もAIだ。ホワイトカラーのテック労働者の仕事を奪いに来る「見えない脅威」だというささやきとしてであれ、生活から退屈な部分を自動化してくれるはずの便利な相棒としてであれ、あるいは人工汎用知能（AGI）による次なる「意識の進化」としてであれ。

多くの人と同じように、私もニュースを読んだり、テック企業CEOのポッドキャストを聴いたり、友人とこの話題について語り合ったりするたびに、真実はどこにあるのだろうかと考えてしまう。

最初の問い：AIは本当に知的なのか？

AIが知的かどうかを誠実に答える前に、まず「知能」とは何かを定義する必要がある。

心理学において、人間の知能は広く定義すると、学習し、推論し、新しい環境に適応し、新奇な問題を解く能力である。（技術に詳しい人なら、すでに気づいているはずだが、大規模言語モデル（LLM）がトークン予測マシンである以上、「新奇な問題を解く」という点だけで失格である。）また、古典的な定義では、単に物事を想起できることだけではなく、変化する環境への適応と、その中での成功した行為が必要条件であることも強調されている。

これと対比して、現在人々がAIという言葉を聞いたときに思い浮かべる主流であるLLMが、実際にどのように機能しているかを考えてみよう。実際のところ、LLMは膨大なテキストコーパスで学習された統計的予測マシンであり、プロンプトを入力すると、見てきたデータのパターンに基づいて、次に来る可能性が最も高いトークンを生成する。

ヤン・ルカンに馴染みのある人なら、すでにこの話を聞いたことがあるかもしれない。つまり、世界の内的モデルがなく、出来事についての真の因果的理解もなく、学習データのパターンの外側で本当に新しい概念を独自に生み出す能力もLLMにはない、という点だ。これは、LLMやAIが示す振る舞いは知能のように見えることはあっても、本質的には自律的思考ではなく、予測にもとづくパターン照合にすぎないことを意味する。会話できる途方もなく賢いオウムを想像してほしい（それでもまだ控えめな比喩だが）。

ここでAIを批判したいわけではない。実際、研究者たちでさえ、現在のAIは真の知能と見なすべきものよりも、達成度や専門性を示していると主張している。つまり、AIは特定の狭いタスクでは優れているが、それは汎用的あるいは適応的な知能とは根本的に異なるのだ。

では、LLM、そしてAIは本当に知的なのか。結論から言えば、そうではない。少なくとも、私たちが「知能」と聞いて思い浮かべる意味においては。

これは私たちの仕事やビジネスに何を意味するのか？

ここから先は、現実と誇張がやや分かれる領域だ。率直に言えば、定量的に見ると、AIが最も効果を発揮するのは役割の代替ではなく、タスク単位の自動化である。マッキンゼーによる2000以上の業務活動を対象とした大規模な分析では、完全に自動化できる仕事は約5%にとどまる一方、約60%の仕事には部分的に自動化可能なタスクが含まれることが分かった。

この区別は重要である。反復、構造化された入力、表層的な言語操作に依存するタスクは、AI支援の最有力候補だ。一方、判断、創造性、戦略、文脈を要するタスクはそうではない。世界経済フォーラムも同様に、AIが一部のタスクを置き換える一方で、分析的思考、創造性、リーダーシップといった人間のスキルは需要の伸びが最も速い分野に含まれると結論づけている（ダウンロードが必要）。

実務的には、AIは従業員というより、加速装置として機能するということだ。これは悪い知らせではない。ビジネスが成長し成功するのを助ける新技術は、常に良いものである。

現実は何を示しているのか？

マーケティング用デモの外側でLLMがテストされたとき、データは何を示すのかを見てみよう。

1. 新奇性の下で精度が崩壊する

これは聞いたことがあるだろう。ハルシネーションと呼ばれるものだ。タスクが学習分布から外れると、LLMの性能は急激に落ちる。ある研究では、分布外データ（OODデータ、つまりLLMの学習セットに含まれないデータ）で、いくつかのセットにおいて平均性能が最大24.9%超も低下したことが示された。

2. 科学的な誤表現は定量化できる

AIが生成した科学要約を分析したある人間行動の研究では、元論文が逐語で提示されている場合でさえ、LLMは人間の専門家に比べて、重要な但し書きを省いたり結論を誇張したりする確率が3〜5倍高いことが分かった。誤解しないでほしい。私たち人間も、時に論文の所見に対して少し自信過剰になることはある。しかし、逐語で明示されているときにそれをやってはならない。

3. ベンチマークは推論と同義ではない

試験で高得点を取ることが、知能の証拠としてしばしば引用される。だが、MITとハーバードの研究者は、LLMのベンチマーク性能が抽象的推論能力ではなく、学習データとの重なりと強く相関することを示している。

馴染みのあるパターンを見分けてテストに合格することは、確かに知能と関係はある。しかし、基礎となる概念を理解することとは本質的に異なる。概念の理解こそが、実際の知能をより端的に示す兆候である。

まとめ

つまり、そう、結局のところ、この話題の多くは誇張のサイクルの中にある。だが同時に、LLMやAIは、誰もやるべきではない仕事を自動化して取り除く機会も開きつつある。その結果、企業のあらゆる階層の人々が、より重要で成果に直結する仕事に意識と時間を振り向けられるようになる。

ビジネスリーダーにとって重要なのは、戦略的投資を優先し、人間の洞察の代替として汎用AIを追いかけないことだ。代わりに、判断と実行を増幅する、焦点を絞ったAIツールによって人間の強みを補強することに目を向けるべきである。

経営幹部は、ビジネス成果に紐づく形で導入を進め、意思決定サイクルの改善、顧客体験の向上、エラー率の低減を図るとともに、リスクを抑えるために明確なガバナンスとAIを組み合わせるべきだ。創業者や意思決定者はまた、人間がライバルではなくパートナーとしてAIと並走できるよう、チームのスキルアップとリスキリングにも投資すべきである。

実務的な結論はこうだ。AIは仕事の進め方を変える。しかし、人間が持つ戦略的・創造的・適応的な能力を置き換えるとは、私は予見していない。最も競争力のある組織は、AIが最も強い領域、すなわちタスク単位の作業を自動化することにAIを活用しつつ、最も重要な場面では人間ならではのスキルにいっそう注力する組織になる。

（forbes.com 原文）