2026.05.04 10:00

アンソロピックClaudeやChatGPTなど、AIのトークンがかつてない速さで枯渇──その理由とは？

Ron Schmelzer | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Koshiro K - stock.adobe.com

Anthropicが公表データとして示す、AI推論の実勢価格

長大なコンテキストは、もはや自慢の材料ではなく、高いコストと引き換えに柔軟性をもたらす課金対象の機能になりつつある。実用的な観点から、Anthropic自身のClaude Codeの資料は、日常的にAIを使用する開発者にトークンコストがどのような影響を与えるかを示している。同社によると、平均的な利用コストは開発者1人あたり1日約6ドル（約936円。1ドル＝156円換算）で、ほとんどの開発者は12ドル（約1872円）以下に収まり、月間チームコストはツールの使用方法によって開発者1人あたり100〜200ドル（約2万～3万円））の範囲に収まることが多いという。同様のパターンが市場全体で見られる。

OpenAIの公表価格では、GPT-5.4は入力100万トークンあたり2.50ドル（約390円）、出力100万トークンあたり15ドル（約2340円）で、キャッシュされた入力ははるかに低価格となっている。AnthropicはClaude Sonnet 4.6を入力100万トークンあたり3ドル（約468円）、出力100万トークンあたり15ドル（約2340円）とし、バッチ処理はその半額である。これらの数字は、繰り返し推論や後回しの推論は、プレミアムなリアルタイム利用に比べてベンダーのコストがはるかに低い可能性がある一方で、長大コンテキストとエージェント的ワークロードは依然として支援コストが高いことを示唆している。

同時に、ベンダー自身の製品変更は、こうしたワークロードの提供に実コストが伴うことを示している。顧客が支払う額は、ベンダーのリクエスト当たりの素の提供コストより高い可能性が高いが、その差分はGPU時間だけでなく、はるかに多くを賄わねばならない。Anthropicは今、Claudeのヘビーユーザーを別料金の「extra usage」へ誘導し、OpenAIはツール、コンテナ、長時間稼働のCodex作業に別料金を設定している。もし最先端の推論がすでに規模の経済で安価に提供できるのなら、こうした区分はほとんど意味をなさないだろう。Epoch AIは、能力調整後の推論コストが年あたりおよそ5〜10倍のペースで低下してきたと推計している。つまりベンダーは、素の推論コストを上回る価格設定に見える一方で、基礎的なコスト曲線が急速に下がり、長大コンテキストのエージェントが依然としてマージンと容量に現実の圧力をかける市場で、その価格設定を行っている。

ベンダーが上限を変えているのか、利用者がより速く上限に達しているのか？

サブスクリプションの上限を下げたり、トークン消費の速度を操作したりする「陰謀」があるのではないかと考える人もいる。ケースによっては、確かにベンダーが上限を調整している。OpenAIは、ChatGPT（チャットGPT）Plusの使用上限は需要が高い時期やシステム状況に応じて変動し得るとしており、上限そのものが常に固定ではないことへの苛立ちには現実味がある。ユーザーは「締め付け」を想像しているわけではない。一部のシステムでは、公式の上限が変動し得る。

ただし、以前にも増して速く上限に達する最大の理由は、人々がモデルに対し、1年前よりもはるかに多くの仕事を1セッションで求めていることだ。OpenAIによれば、Codexは、大規模なコードベース、長時間のタスク、より多くのコンテキスト保持を要する長いセッションでは、許容量の消費が速くなる。Codexのコストとサブスクリプション利用量は、モデルの選択、タスク規模、ローカル実行かクラウド実行か、そしてシステムが保持すべきコンテキスト量に左右される。同社はまた、より大きなコードベース、より長時間の作業、より多くのコンテキストを伴うより長いセッションほど、メッセージ当たりの消費が増えるとも明言している。

Anthropicも別の角度から同様の点を述べており、Claudeの利用量はメッセージの長さ、添付ファイルのサイズ、現在の会話の長さ、ツール利用によって変動するとしている。つまり、同じセッションでも長いコンテキストや大きなファイル、重いツール利用を含むと、許容量の消費が単純に速くなる。

要するに、多くのユーザーが突然、効率の悪いモデルや、追加課金へ追い込もうとする吝嗇なベンダーに直面しているわけではない。ユーザーの側が、よりエージェント的な使い方をしているのだ。より長い記憶、より多くのファイル、より多くのツール、そして1つのタスクに詰め込まれる往復回数の増加。結果として、実際の変化が「各セッションがより重く、より高コストで、提供が難しくなった」ことにある場合でも、上限が縮んだように感じられる。

OpenClawなどのサードパーティシステムに、Anthropicが制限を設定

さらにAnthropicは、OpenClawのようなトークン大量消費型のサードパーティシステムに対し、より厳しい姿勢を取るようになった。ヘビーユーザーの上限を下げる代わりに、標準のClaudeサブスクリプション上限がOpenClawのようなサードパーティのエージェント実行基盤をカバーしないようにし、そうしたツールが自社システムに「過度な負荷」を与えたと述べた上で、該当ユーザーを別建て課金のAPIないし追加利用へと誘導した。これは、Claude製品の自社内利用と、モデルを長時間稼働させ続ける外部のエージェントフレームワークとを、Anthropicがより明確に区別し始めていることを示唆する。

これが、AI利用をめぐる最近の公的な苛立ちの背景である。ユーザーはメッセージ上限に達するだけでなく、AIシステムが単純なチャットボットとして振る舞うのをやめ、ソフトウェア労働者のように振る舞い始めた瞬間に高コスト化することも突きつけられている。Claude Coworkのような製品リリースや、トークン消費を強く押し上げるエージェント的ツールの登場により、これは切迫した課題になりつつある。

次ページ＞ Anthropicは入力の取捨選択を促し、ユーザーは「原始人」風に話し始める