2026.05.04 10:00

アンソロピックClaudeやChatGPTなど、AIのトークンがかつてない速さで枯渇──その理由とは？

Ron Schmelzer | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Koshiro K - stock.adobe.com

アプリを「バイブコーディング」で作ったり、出力コンテンツを生成したりと調子よく進めていると、突然、作業が壁に当たる。トークンを使い切り、サブスクリプションの利用上限に達してしまうのだ。始めた頃は、たまに遭遇する程度の小さな煩わしさに感じられたこの制限が、今や、トークンを燃やすように消費し、これまで以上の速さで上限にぶつかっているように思える。そう感じているのはあなただけではない。トークンを使い切ったり、レート制限の時間枠に引っかかったり、サブスクリプションに含まれるAI利用量を想定よりはるかに早く超過したりするという不満が、今相次いでいる。

Anthropic（アンソロピック）の最近の変更により、そうした制限は一段と目立つようになった。有料版Claude（クロード）のユーザーは、含まれる利用量に達した後も作業を続けるには、別料金で請求される「extra usage」をオンにする必要がある。支出上限は、製品内でユーザーが設定できる。同社はまた、OpenClawなどのサードパーティアプリケーションにおけるClaudeサブスクリプション利用に厳格な上限を設け、コンテキスト管理をより効率化するための指針も提示した。

この変化は、AIの「何でもあり」の時代が終わりに近づいている兆候である。過去数年、AI業界は「潤沢さ」という感覚を売ってきた。リポジトリを丸ごとアップロードする。契約書を全文貼り付ける。文字起こしを全部食わせる。プラットフォームは、答えがしっくりくるまで反復を続け、長く多段のワークフロー全体にわたるエージェント的な対話を使うよう促してきた。だが、メーターが本当に止まっていたわけではない。終わりなき会話に見えたものは、借り物の計算資源であり、ベンダーはますます、それに見合う形で価格を付け始めている。

コンテキストウィンドウの拡大が、トークン消費を押し上げている

トークンは、モデルに入出力する情報にゆるく対応する言語上の構成要素にとどまらない。トークンは、モデルのメモリー、時間、コストを配分する単位である。Anthropicのドキュメントは、トークンをClaudeが処理する最小単位と定義し、平均すると1トークンは英語でおよそ3.5文字に相当すると記している。

あらゆるプロンプト、あらゆるファイル、あらゆるツールのトレース、あらゆるリトライ、そして長い返信はすべてコンテキストを増やし、定額サブスクリプションの時間単位または週単位の上限に近づけていく。API経由でやり取りしている場合は、従量課金の請求額を押し上げる。通常、単発の簡単なプロンプトや基本的なやり取りでは大きな問題になりにくいが、コーディングエージェントが毎ターン、コードベース全体と膨張した履歴を引きずるような場合には、深刻な問題になり得る。

コンテキストウィンドウは、会話的なやり取りの一部としてモデルが理解できる情報量の尺度である。巨大なコンテキストウィンドウへ向かう動きは、開発者が、より多くのコードを読み、より多くの指示を保持し、多段階タスクの際に多くの状態を生かせるモデルを求めたことを考えれば、理にかなっていた。Anthropicは現在、一部の新しいClaudeモデルについて、入力トークンが20万を超えるリクエストに対し、ベータ版として100万トークンのコンテキストウィンドウを提供している。

長年、モデルベンダーは、コンテキストウィンドウの拡大を売り文句として扱ってきた。しかし現実はもっと複雑だ。ウィンドウが大きいほど、ユーザーは指示やファイルの刈り込みをやめてしまいがちになる。チームによっては、リポジトリ丸ごと、長い会議メモ、大きな指示ファイルなどを放り込み、モデルがうまく仕分けてくれると信じてしまう。するとツール出力がターンを追うごとに積み上がる。古い計画、陳腐化した制約、繰り返された説明がメモリーに残り、次のリクエストを散らかす。モデルのコンテキストは、雑多な引き出しのように情報で詰まっていく。

次ページ＞ Anthropicが公表データとして示す、AI推論の実勢価格