スピロス・ザンソス氏は20年以上にわたり、エンジニアが複雑なソフトウェアを監視し、トラブルシューティングするためのシステムを構築してきた。しかし、この仕事で最も過酷な部分は決して変わらない。何かが壊れたとき、オンコール担当のエンジニアは、たとえ真夜中であっても、それを修正する責任を負うのだ。
サイバーセキュリティおよびデータプラットフォーム企業Splunk(スプランク)のソフトウェア監視チームを統括していた際、ザンソス氏は、チームが新たに買収したツールを統合しながら既存システムの稼働を維持しようとする中で、この負担を直接目の当たりにした。
「サイト信頼性エンジニアにとって、あまりにも過酷でした」とザンソス氏は語る。「6カ月間で、90%のエンジニアを失いました。完全な燃え尽き症候群でした」
この経験が、ザンソス氏と共同創業者のマヤンク・アガルワル氏が2024年にResolve AI(リゾルブAI)を立ち上げるきっかけとなった。同社は、本番環境の問題に対応する苦痛なプロセスを自動化することを目指している。従来、チームはオンコール担当を交代制にしており、システムに障害が発生すると開発者に呼び出しがかかる。Resolveのシステムでは、問題が検出されると複数のエージェントが調査を開始する。これらのエージェントは、多数のAIモデルとツールを統合し、ログやメトリクスを分析し、トラフィックの急増や不具合のあるコードなど、さまざまな仮説を検証する。Resolveが問題を自動的に修正できる場合は修正し、より複雑な場合は、推奨される解決策を人間のエンジニアに提示し、エンジニアがそれを確認して承認できるようにする。
「私たちはまだ、人間がループ内にいるプロセスを採用しています」とザンソス氏は言う。「しかし、私たちは『人間がループ上にいる』という概念により近づいています。つまり、人間はResolveが行うことを確認できますが、一時停止して決定する必要はないのです」
Coinbase(コインベース)、DoorDash(ドアダッシュ)、Salesforce(セールスフォース)などのResolveの顧客は、インシデントの修正と原因調査にかかる時間が劇的に改善されたという。Resolveによると、DoorDashは調査時間を約40分から約1分に短縮し、根本原因の特定にかかる時間は最大87%削減された。Coinbaseでは、エンジニアがResolveを使用した場合、単独で作業する場合と比較して、インシデントの解決が約72%速くなったとザンソス氏は述べている。
これにより、投資家はResolveにさらに4000万ドルを投資することを決定した。これは、同社がわずか数カ月前にLightspeed Venture Partners(ライトスピード・ベンチャー・パートナーズ)主導で企業価値評価額10億ドルで調達したシリーズA1億2500万ドルに続くものだ。この追加ラウンドにより、Resolveの総調達額は1億9000万ドル超、企業価値評価額は15億ドルとなった。同スタートアップは、フォーブスの初のAI 50 Brinkリストに選出された。
この取引を主導したDST Global(DST・グローバル)の投資家ラフル・メータ氏によると、ある顧客は、Resolveが調査時間を短縮するだけでなく、他のツールでは検出できなかった問題を特定できることを発見したという。
「本番システムは非常に複雑で、ミッションクリティカルです。だからこそ、高い精度と信頼性が必要なのです」と、Facebook(フェイスブック)やSpotify(スポティファイ)への初期投資を行い、2019年以来ミダスリストの常連であるメータ氏は語る。「エラーの許容範囲が低いため、ほぼ完璧なシステムである必要があり、AIが果たすべき真の役割があります」
Resolveには現在約140人の従業員がおり、Google DeepMind(グーグル・ディープマインド)から引き抜いた20人以上が含まれている。価格は公開されていないが、同社は固定の使用料ではなく、プラットフォームが実行する作業量に応じたクレジットベースのモデルで製品を販売している。
ともに43歳のザンソス氏とアガルワル氏は、2004年にイリノイ大学アーバナ・シャンペーン校の博士課程の学生として初めて出会った。ザンソス氏は最終的にプログラムを修了せずに退学したが、2人はつながりを保ち、後にOpenTelemetry(オープンテレメトリー)の創設に貢献した。これは、企業がソフトウェアの機能に関するデータを収集する方法を標準化するオープンソースプロジェクトだ。この概念を基に、2018年に2人はOmnition(オムニション)を共同創業した。これは、企業がユーザーのアクションがシステムのさまざまな部分をどのように移動するかを追跡するのを支援するスタートアップで、PitchBook(ピッチブック)によると、Splunkが2019年に5250万ドルで買収した。
Resolveは、メータ氏が「本番環境向けAI」ツールという新興カテゴリーと表現するものの一部であり、企業が不完全で複雑なソフトウェアシステムの問題を診断し修正する方法を自動化するように設計されている。また、ソフトウェア開発と運用のさまざまな側面を自動化しようとするスタートアップの広範な波の一部でもある。293億ドルの企業価値評価額を持つCursor(カーソル)のようなコーディングアシスタントから、セキュリティの脆弱性を修正するための独自モデルを構築する企業価値評価額5億8000万ドルのAIサイバーセキュリティ企業Depthfirst(デプスファースト)まで、さまざまなものがある。同様に、AIサイバースタートアップのCorridor(コリドー)は最近、攻撃者より先にコードエラーを検出するために、企業価値評価額2億ドルで資金を調達した。そして、この分野には800ポンドのゴリラがいる。それはAnthropic(アンソロピック)のClaude Code(クロード・コード)だ。
しかし、ソフトウェア生産の中核的な側面をAIに委ねることは、新たなリスクをもたらす。エンジニアがClaude CodeやCodex(コーデックス)のようなツールにコードの大部分を書かせることに依存するようになると、彼らが作業しているコードベースを部分的にしか理解していない可能性があり、セキュリティと信頼性に関する懸念が高まる。
限定的な監視の結果は、すでに現れ始めている。例えば、3月にはアマゾンが混乱に直面した。同社のコーディングアシスタントQが、本番環境にプッシュされたコード変更の生成を支援した結果、顧客への配達時間が不正確になり、12万件の注文が失われ、160万件のウェブサイトエラーが発生したと、Business Insider(ビジネス・インサイダー)が報じている。Financial Times(フィナンシャル・タイムズ)は2月に、12月にAmazon Web Services(アマゾン・ウェブ・サービス)で発生した13時間の障害が、同社のKiro AIツールによる変更に関連していたと報じた。アマゾンは、この事象は範囲が限定的であり、その後追加の安全対策を実施したと述べた。
さらに、オープンソースプロジェクトのLiteLLMは、3月に大規模なサイバーセキュリティ攻撃を受けた。一部の観察者は、雑なバイブコーディングが侵害の原因であると示唆しており、OpenAI(オープンAI)の共同創業者で現在は教育スタートアップEureka Labs(ユーレカ・ラボ)を運営するアンドレイ・カルパシー氏もその1人だ。
Resolveの創業者たちは、セキュリティが最優先事項だと述べている。同社のCTOであるアガルワル氏は、すべての顧客のセキュリティチームと個人的に話し、コードベースで実行されているアクションを確認するためのコントロールを提供していると語る。
しかし、より大きな課題は、現在の変化のペースに追いつくことだと彼は言う。「顧客は魔法のような体験を期待するようになっており、それに応えるには、常に再設計し、適切なアプローチを再評価する必要があります」
そのため、Resolveは現在、LLMが本番環境の複雑さにより効果的に対処できるようにするAIツールの構築に焦点を当てた独自の社内AIラボを構築している。本番環境では、インシデントが複数のチームやツールにまたがる可能性がある。同社は最近、Meta(メタ)のSuperintelligence(スーパーインテリジェンス)グループからドゥルーヴ・マハジャン氏を採用し、ラボを運営し、Resolveの最高AI科学者を務めることになった。コロンビア大学でコンピューターサイエンスの博士号を取得したマハジャン氏は、本番ワークフロー全体をエンドツーエンドで運用できるAIシステムの構築を主導する。
Resolveは、この技術がまだ人間を完全に置き換えるほど正確ではないことを認めているが、ザンソス氏は、来年末までにResolveがほとんどの本番環境の問題に自動的に対処できるようになると予想している。
「このタスクをAIに任せることを喜ばない開発者はいません」とザンソス氏は語る。
MORE FROM FORBES



