AI時代のベータテスト
実際のユーザーに製品を試してもらうベータテストも、AIを使って自動化できる。
「私はクロード・コードをコーディングにしか使っていなかったが、稼働中のサイトで異なるペルソナによるユーザーテストを実施し、その結果をレポートにまとめるよう指示したところ、クロードは私のコンピューター上のウェブブラウザに接続する機能を使って自身が作成したサイトにアクセスし、人間のユーザーのようにスクロールしながら操作をした」とモリックは述べている。彼は、ややお世辞めいた評価を予想していたという。
「最初のレポートは、かなり楽観的だった。より批判的なレポートを依頼したところ、潜在的な問題を的確に指摘し、サイト上にあった怪しい偽レビューも見抜いた。その結果、私自身の入力は最小限にとどめながら、提案された改善策の実装を簡単に依頼できた」と彼は書いている。
このように、AIはテスターの役割も果たすことができる。これは、専門家が「アンサンブル学習」や「モデル蒸留」、あるいは「混合専門家(MoE)」といった用語で説明する内容に通じ、複数のAIが互いの作業を検証し、改善し合う能力が重要な要素だと言える。
コンテキストウィンドウの拡張
AIのエージェント的な行動をさらに高度化するには、より大きなメモリと、作業の途中経過を覚えて処理を続ける仕組みが必要であり、そのための変化が目前に迫っている。
モリックは、クロードが従来の限界を独自の圧縮手法で克服している仕組みを次のように説明する。
「AIが一度に記憶できる情報量には、限界がある。このコンテキストウィンドウは、人間の基準ではかなり大きい場合が多いが、驚くほど早く一杯になる。なぜなら、そこには会話全体、AIが読む全ての文書、撮影する全ての画像、そしてAIを導く初期のシステムプロンプトが含まれているからだ。コンテキストウィンドウが限界を超えると、それ以上の情報をAIは記憶できなくなる」。
ではクロードはどう対応しているのか。
「コンテキストウィンドウが上限に達すると、クロードは処理を一旦停止し、その時点の情報をメモに記録して会話を圧縮する。その後、コンテキストウィンドウをクリアし、新たに起動したクロード・コードがそのメモを読み込み、これまでの進捗を確認する。こうしてクロードは、処理を続けるために必要な情報を全て得ることができる。作業の過程で進行中の内容を注意深く記録すると同時に、後から参照可能なソフトウェアやレポートといった中間成果物も生成するのだ」。
これらの機能は非常に洗練されており、AI 1.0と次世代エージェントとの違いを明確に示している。例えるなら、ユーザー固有の情報が全く反映されていない旧型のXboxと、オンライン会員サービスを通じてあらゆるカスタマイズが可能な新型Xboxのようなものだと言えるだろう。


