AI

2025.12.13 14:00

ChatGPTの新モデル「GPT‑5.2」登場、その驚異と可能性とは

Shutterstock

Shutterstock

グーグルなどの競合との激しい競争のさなか、OpenAIのCEOであるサム・アルトマンは数週間前、新モデルの投入を早めるため「コードレッド(緊急事態)」を発令し、総動員体制での取り組みを指示した。そして今、その成果が出た。ChatGPTの「GPT‑5.2」が正式に公開され、好奇心を抱く人々はすでに、その能力を探り始めている。最先端のモデル設計がどこまで進んだのか、そしてこうしたLLM(大規模言語モデル)が私たちに何をしてくれるのかを確かめるためだ。

「スプレッドシートの作成、プレゼンテーションの構築、コードの記述、画像の認識、長い文脈の理解、ツールの利用、複雑で多段階のプロジェクトの処理において、より優れています」と、OpenAIの広報担当者は米国時間12月11日に公開された同モデルの公式発表で説明し、SWE-Benchの指標とARCテストにおけるGPT‑5.2の成績を示した。

発表では、企業名を挙げた言及も興味深い。OpenAIは、Notion、Box、Shopify、Harvey、Zoomが、GPT‑5.2について「最先端の長時間推論とツール呼び出し性能」で卓越していることを確認したと示唆している。またDatabricks、Hex、Triple Whaleは、エージェント型(自律的)データサイエンスと文書解析のタスクにおける手際の良さを評価したという。さらにCognition、Warp、Charlie Labs、JetBrains、Augment Codeでは、エージェント型のコーディングで優れた性能が確認されたとしている。

経済的な専門性

OpenAI関係者は、GPT‑5.2を「一般的な専門業務」を支援し、ユーザーにとって「さらなる経済的価値を解き放つ」ために作ったと説明している。資本構成表や人員計画といった作業に取り組めるモデルであり、あるレビュアーは、「より強い抽象化、より明確で、より現実的なバランスと戦略的な応答、そして……より深い概念的洞察と『雰囲気(バイブス)』」があると評した。さらに、高度な分析力や数理推論が求められるタスクで、GPT‑5.2は優れているとも述べている。

価値の面では、OpenAIのGPTエンタープライズ調査で、従来モデルがプロのユーザーの時間を1日あたりおよそ40〜60分節約していたことが分かっており、GPT‑5.2はこれを上回ると見込まれている。

SWEやARCテスト以外にも、モデルの進化を測る具体的な方法がある。今年初め、OpenAIはGDPVal(ジーディーピーバル)という概念を強調し、国内総生産(GDP)の考え方を用いて、ビジネスにおける大規模言語モデルの役割を説明した。

「難度の高い学術テストや競技プログラミングのような従来のAI評価は、モデルの推論能力の限界を押し広げるうえで不可欠でしたが、それらは多くの人が日々の仕事で扱う種類のタスクという点では、不十分であることが多いのです。このギャップを埋めるため、私たちは、より現実的で経済的な関連性が高い能力を測る評価を開発してきました」と同社は述べた。

これはほとんどGPT‑5.2のために書かれたかのようにも見える。そして、内部関係者がこのモデルの力として語っているのも、まさにこうした点である。

適用範囲にも幅がある。GDPValは、米国のGDPに寄与する上位9業界における44の職種と、1320の専門的タスクを対象にしている。

GDPValが測っている内容の広範さと、他のベンチマークと比べた実用性について、OpenAIは次のようにも述べている。「GDPValは、評価されるタスクの現実性と多様性の両面で際立っています。経済価値に結びつく他の評価が特定領域(例:SWE-Lancer)に集中するのとは異なり、GDPValは多くのタスクと職種をカバーしています。また、学術試験のような形式でタスクを合成的に作成するベンチマーク(例:Humanity’s Last Exam[HLE]やMMLU)とは異なり、GDPValは、今日実在する実際の成果物(仕事や製品)か、同様の形で構成された成果物に基づくタスクに焦点を当てています」。

筆者がHLEへの言及が的確だと感じたのは、先週、筆者がその分析ツールについて書いたからでもあり、またAIの進歩を踏まえると、HLEが本当に、人間の専門性が支配する最後の「試験」になるようにも思えるからでもある。

次ページ > より詳しく

翻訳=酒匂寛

タグ:

advertisement

ForbesBrandVoice

人気記事