一方ベンチマークは華々しい
GPT‑5について最初に耳にする・目にする話題の多くは、各種AI業界ベンチマークでの性能だ。
ベンチマーク成績は上々のようだ。想定の範囲内である。一部はその成績に熱狂するだろうが、何を期待するかによって受け止めは異なる。過去の成績や他のLLMとの比較に満足するなら、喜ぶ理由は確かにある。
一方、AGIに近づいているはずだという心構えなら、その成績は失望といわざるを得ない。ベンチマークがAGIの瀬戸際を示しているという突飛な主張を鵜呑みにしてはならない。以前の分析でも述べたが、現在主流のベンチマークはAGIに関してはせいぜい周辺的な指標にすぎない。
本気でAGIを目指すなら、基準を引き上げる必要がある。
ちなみに、サム・アルトマンは、GPT‑5はAGIへの道のりにおける重要な1歩だと述べる一方で、AGIに必要な主要特性をGPT‑5が欠いていることも率直に認めている。たとえば、初期の本番投入後に継続的に自律学習することはできないと述べている。AGIの本質的要件のひとつがAIの自己学習能力であるというのが一般的な見解・前提だ。
コーディングとライティングの強化
GPT‑5は、従来モデルよりプログラムコードの生成に優れるようだ。
補足しておくと、生成AIの用途として「vibe coding」(バイブ・コーディング)が人気を増している。どんなプログラムを作りたいかをAIに自然言語で伝えると、AIがそのプログラムのソースコードを生成するというものだ。英語などの自然言語で要件を指定すればコードが自動生成される――これはプログラミング創世記からの夢である。
もっとも、生成AIやLLMでコードを作るには、なお多くの落とし穴がある。バグを含むことがある。意図の一部しか実現しないことがある。頼んでもいないことまでやってしまい、困ることもある。等々だ。
いずれにせよ、GPT‑5はデバッグ能力が向上し、ユーザーインターフェースやフロントエンドの作成でも改善が見られるようだ。いわゆるバイブ・コーダーたちがGPT‑5を手にして徹底的に試せば、ほどなく限界や落とし穴についての記事が出てくるだろう。
文章生成の面でも、GPT‑5は多岐にわたって改善されているようだ。詩の生成能力が強化され、文章の深みや、より説得力のある物語やナラティブを作る力が増しているという。とはいえ、日常的なユーザーは大差を感じないかもしれない。より高度な構成力を求めていた層だけが、AIが以前よりうまく書いていると実感するのだろう。


