Anthropicは入力の取捨選択を促し、ユーザーは「原始人」風に話し始める
Anthropicのサポート指針も今、トークン大量消費の現実を反映している。ツールやコネクタはトークン集約的になり得ると警告し、プロジェクト指示を削り、ファイルを刈り込み、会話に残す内容を制限するようユーザーに促している。言い換えれば、同社はひそかに、経験豊富なエンジニアが希少資源に対して常に行ってきたこと、すなわち入力のキュレーションをユーザーに教え始めているのだ。Anthropicの新しい利用体系の本当の意味は、ヘビーユーザーの支払いが増えるかもしれないという点だけではない。すべての利用が同等ではないことを、製品の言葉として認め始めた点にある。
単発のチャット質問は安い。コードベースを読み、ファイルを編集し、コマンドを実行し、失敗をループし、各ステップを語りながら進む、常駐型のコーディングエージェントは安くない。AnthropicはClaude Codeを、ファイルやツールを横断して作業し、コードベースを理解し、開発タスクを自動化できるエージェント的コーディングツールだと説明している。これは非常に有用であり得る一方で、数時間おき、あるいは毎週リセットされる厳格な利用上限を持つサブスクリプションとは、相性が良いとは言い難い。
最近拡散したReddit投稿では、「原始人のように話す」とトークン使用量が減り、サブスクリプション上限を引き伸ばせたとユーザーが主張した。出力トークンの使用を削る狙いで、余計な言葉やお世辞、説明を省き、非常に短い削ぎ落とした文で答えるようモデルに指示する、というものだ。あるRedditユーザーの言葉を借りれば「Why waste time say lot word when few word do trick?(少ない言葉、足りる。なぜ多く言葉、時間ムダ?)」。この米コメディ『The Office』由来のミームが広まったのは、ユーザーがトークン消費を強く意識するようになり、セッションを長持ちさせるためにモデルの話し方まで変えているという、実際の不満を捉えていたからである。
ローカルモデルの運用が、もう1つの選択肢として浮上
サブスクリプションのトークン問題を解決する別のアプローチは、自分で実行しホストするモデルを使うことだ。Ollamaのようなシステム上で動く、オープンウェイトおよびサードパーティの各種ベンダーが提供するローカルモデルは、同じファイルをモデルに読ませ直すたびにベンダーへ支払うことに疲れた人々にとって魅力的に映る。自前のハードウェアでモデルを動かせば、少なくともベンダーの意味でのトークンメーターは、背景へと退く。
もちろんトレードオフは、システムのメモリーと処理能力に制約されることだ。コンテキスト長は利用可能なGPU用ビデオメモリー(VRAM)の容量に依存する。エージェントやウェブ検索、コーディングツールを追加するほど、より大きなコンテキストが必要になる。すると痛点が移る。ClaudeやCodexであれば、含まれる利用量を超えそうなのか、追加利用に料金を支払うべきかが問題になり得る。Ollamaでは、ワークフローが必要とするコンテキスト長でモデルを有用に保てるだけの性能が、そのマシンにあるかどうかが問題になる。
ローカルモデルが最も理にかなうのは、まず作業が反復的で、プライベートで、あるいは一定の稼働が見込めることだ。またハードウェアを購入した方が、トークン単位で最先端の知能を借りるより得になる場合である。一方で、最強の推論、最も広い世界知識、処理速度、あるいは今利用可能な最も洗練されたコーディング性能が必要なタスクでは、魅力は薄れる。
AI使い放題の時代は、終わりを迎えつつある
トークンが尽きることは、タスク次第で小さな煩わしさにも、大きな支障にもなる。ビジネス利用では、トークンのコストと利用可能性が、かつてクラウドコンピューティングのコストが中心課題になったのと同じように、重要になり始めている。業界は、AIが定額月額でほぼ無限の魔法として振る舞えた段階を過ぎた。ベンダーは今、計算資源の価格をより公然と提示せざるを得ず、ユーザーはより意図的にコンテキストを管理しなければならない。買い手は、どの仕事をサブスクリプションに載せ、どれを従量課金に載せ、どれをローカルマシンに載せるべきかを判断する必要がある。それは市場にとって、より健全な場所である。たとえ、AIがもたらすものを、そのコストに照らしてより冷静に精算することを迫るとしてもだ。少なくて済むのに、なぜより多くを支払うのか。


