OpenAIでは、データパイプラインが壊れても、もはやエンジニアが目を覚ますのを待たない。AIエージェントが起動するのだ。トリアージの待ち行列に滞留する代わりに、障害は調査され、デバッグされ、場合によっては人間がダッシュボードを開く前に解決される。リリースは手動のオーケストレーションなしに前へ進み、オンコール対応の知見は散在するSlackスレッドの中に閉じ込められなくなった。
OpenAIの社内データプラットフォーム──モデルの学習や安全性パイプラインから、プロダクト分析や財務報告まであらゆるものを支えるシステム──の内部では、ソフトウェアが本番規模で自ら運用され始めている。このプラットフォームは3500人超の社内ユーザーを支え、およそ7万のデータセットにまたがる600ペタバイト超のデータを管理している。その下層には、高速なKafkaストリーム、分散Apache Sparkジョブ、そしてシステムをまたいで数千のワークフローを調整するオーケストレーション層から成る、絶えず動き続けるアーキテクチャがある。
あらゆるプロンプト、あらゆるモデルの反復、あらゆるエンタープライズ・ワークフローがこの層に触れる。
中心にあるのは、インフラに直接組み込まれたCodex搭載のAIエージェントだ。エージェントはパイプラインをリアルタイムに監視し、スループット、レイテンシー、データ品質を追跡する。異常──停止したジョブ、不正なイベント、スキーマドリフト──が現れると、原因を追跡して対処する。ジョブを再起動したり、リソースを再配分したりすることもある。実際には、修正を生成し、検証し、デプロイの準備を整えるということだ。
「私たちの社内データエージェントは、単にスキーマのダンプやBIカタログのエクスポートを受け取っているのではない。テーブル定義、所有者、ドキュメント、クエリ履歴、リネージ、ダッシュボード、権限、そしてデータを生成する本番コードを参照できる」とOpenAIのデータプラットフォーム責任者エマ・タンは筆者に語った。「大きな違いは、意図的に構築したデータ基盤の上でモデルが動作している点だ。OpenAIには統合データレイクがあり、正規のデータセット、クリーンな生成パイプライン、コードで定義されたテーブルロジック、維持されたメタデータ、所有者、ドキュメント、リネージ、権限管理がある」。
切迫感は規模に由来する。OpenAIのストリーミングシステム全体のイベント量は、1年でおよそ50倍に増えた。このレベルになるとダッシュボードは壊れ、シグナルが人間の対応ループを圧倒する。エージェントをインフラそのものに埋め込むことで、OpenAIは運用を連続的なプロセスへと変えつつある。システムは自らの状態を観測し、起きていることを推論し、リアルタイムに行動する。
データエンジニアにとって、その変化は微妙でありながら重大だ。役割はシステムを「運用する」ことから、それを「監督する」ことへと移る。「現代のデータアナリストやデータサイエンティストは、より上位レイヤーへ上がるべきだ」とタンは語った。「エージェントがクエリを書き、適切なデータソースを見つけ、反復的な分析を実行し、切り口を繰り返し、人の足を引っ張る手作業を担うべきだ」。



