2025.12.23 10:51

AIの時代に求められるDevOps：AIOpsのためのプラットフォームエンジニアリング戦略

Priya Sawant | Contributor

著者フォロー

記事を保存

stock.adobe.com

プリヤ・サワント氏はASAPPのエンジニアリングチームを率い、エンタープライズAIを大規模に提供している。

プラットフォームエンジニアリングは、標準化された明確なワークフローを提供することで、開発者がソフトウェアを迅速かつ安全に構築、デプロイ、運用できるようにする。標準化は、大多数のワークロードに焦点を当て、ほとんどが限られた数のカテゴリにグループ化できることを認識することで実現可能になる。

しかし、AIワークロードは本質的に異なる。計算能力、ストレージ、ライフサイクルのニーズが異なる場合がある。例えば、決定論的なテキスト要約ツールはコードベースであり、CPU拡張が必要だ。基盤モデルプロバイダーの台頭により、ほとんどの企業は社内で大規模言語モデルを構築・訓練する必要がなくなった。

ここでプラットフォームエンジニアリングの役割は、マイクロサービスの実現から、エンジニアリングおよび研究組織内での安全で効率的かつスケーラブルなAI活用の実現へとシフトする。AIOpsにプラットフォームエンジニアリングの確立された手法を適用することで、エンタープライズAI開発で期待される厳格な信頼性と安全性の基準を満たしながら、スピードの障壁を取り除くことができる。

このシフトを無視すると、コスト管理の欠如、AIの信頼性の低下、データセキュリティの問題など深刻なリスクがある。以下では、DevOpsの原則をAIOpsに適用することで違いを生み出せる主要分野を検討する。

適応すべき主要分野

コアインフラストラクチャとコンピューティング

組織がモデルのトレーニングとファインチューニングにGPUの使用を拡大するにつれて、インフラストラクチャがスケーラブルで観測可能かつ適切に管理されていることを確保することが重要だ。

CoreWeaveなどの専門GPUクラウドプロバイダーを活用する組織では、マルチクラウドアーキテクチャがセキュリティ、コンプライアンス、アクセス制御の基準に合致しながら、環境間（例：合理化されたCI/CDワークフロー）で一貫した開発者エクスペリエンスを維持する必要がある。AWS Bedrockのような完全管理型サービスを採用して基盤モデルにアクセスする場合、組織はその機能を最大限に活用して可用性、パフォーマンス、コスト効率を向上させるべきだ。

データレイヤーの進化

組織がAI機能を拡大するにつれて、音声、テキスト、動画、画像を含む非構造化およびマルチモーダルデータをサポートできるデータインフラストラクチャを構築することが不可欠になる。この基盤は、信頼性、コンプライアンス、スケーラビリティを確保するために、データのバージョン管理、系統、ガバナンス、アクセス制御を中核原則として組み込む必要がある。

検索拡張生成（RAG）システムでは、ベクトルデータベースを統合することで埋め込みの効率的な保存と検索が可能になり、知識に基づくユースケースの精度とパフォーマンスが向上する。パーソナライゼーションを推進するために、組織はフィーチャーストアを活用して、ユーザーとコンテキスト固有のデータをモデル間で一貫して管理・提供し、インテリジェントな体験を実現する統一的で適応性のあるデータレイヤーを作成すべきだ。

デプロイメントとオーケストレーション

組織が生成AIワークロードをサポートするためにDevOpsの実践を進化させるにつれて、パイプラインは従来のインフラストラクチャとシステムヘルスメトリクスを超えて、モデル品質、ビジネス成果、ユーザーエクスペリエンスのシグナル、ガードレールを組み込む必要がある。

ビジネス要件に合わせて複数の大規模言語モデルプロバイダー間の相互作用をオーケストレーションする統一ゲートウェイを確立することで、アプリケーション内のレジリエンス、標準化、安全なアクセスをさらに強化できる。

ガバナンス、セキュリティ、コンプライアンス

データアクセスのためのロールベースのアクセス制御（RBAC）を確立することは、AI生態系全体のガバナンスとコンプライアンスを強化するために不可欠だ。敵対的テストとプロンプトインジェクション防止を開発者と研究のワークフローに直接組み込むことで、安全対策が後付けではなくシームレスに統合されることを保証する。

同時に、HIPAA、GDPR、NIST AIスタンダードなどの規制や業界コンプライアンスのためのポリシーを、PCIやSOC 2などのフレームワークとともに実施することで、AIシステムが組織全体で拡大するにつれて、信頼性、説明責任、運用の成熟度を強化する。

AIのための開発者エクスペリエンス

LLMオーケストレーションレイヤーとプロキシのための組み込み統合を備えたプログラミング言語全体のベースフレームワークを強化することで、サービスの作成と管理を簡素化し、生成AIアプリケーションの開発と採用を加速させる。AIとLLMの可観測性を開発者エクスペリエンスに直接統合することも、モデルとプロンプトの動作を可視化するために同様に重要だ。

GrafanaやDatadogなどの従来の可観測性スタックとは異なるが、LLM可観測性ツールはそれらを補完する。MLとプラットフォームまたはDevOpsチーム間のコミュニケーションギャップを埋めることも不可欠だ。これには、共通の語彙の確立（例：モデルはデプロイ可能なアーティファクトとして扱われ、ドリフトはSLOの劣化として理解される）が含まれる。これにより摩擦が減少し、コラボレーションが促進され、チームは深いクロスドメインの専門知識なしで効果的に運用できるようになる。

文化的・組織的変化

プラットフォームエンジニアリングチーム内でAIドメインの懸念事項を相互に取り入れることで、組織は急速に進化するテクノロジースタックの最先端で高度に活用された生成AIアプリケーションを開発できる。一方、プラットフォームチームはマインドセットをシフトする必要がある。これはユースケースの80％を解決するだけでなく、共通ツールを通じてスピードを実現することに重点を置くことだ。

結論

AIが現代のソフトウェア開発の中心になるにつれて、プラットフォームエンジニアリングはその独自の要求に応えるために進化しなければならない。目標はもはやマイクロサービスを標準化したりCI/CDパイプラインを最適化したりするだけでなく、AIを安全かつ効率的に開発、デプロイ、スケールできる基盤を作ることだ。

プラットフォームエンジニアリングは今や、従来のソフトウェア提供と新興のインテリジェントシステムの世界を結ぶ架け橋となっている。今日その未来のために構築することで、運用の卓越性だけでなく、AI主導のエンタープライズにおける競争優位性も確保される。

（forbes.com 原文）