2025.11.07 10:54

大規模クラウド環境における可観測性の課題（とその解決策

Expert Panel® | Forbes Staff

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock

小規模なクラウドやマイクロサービスベースのシステムでは、可観測性は単純明快に思える—ログ、トレース、メトリクスが連携して明確な状況を示してくれる。優れた可観測性により、チームは障害を早期に発見し、依存関係を追跡し、ワークロードが増大しても性能を維持できる。しかし、ハイパースケール環境では、何千ものマイクロサービスからデータが流れ込むにつれ、明確さが混沌に変わることがある。最も高度な監視ツールでさえ、テレメトリデータの量と速度に対応するのに苦戦することが多い。

可観測性を負債にしないために、組織は分散システム全体で可観測性シグナルの設計、収集、解釈方法を再考する必要がある。ここでは、Forbes Technology Councilのメンバーが、ハイパースケールで強まる可観測性の課題と、チームが明確さ、制御、信頼性を維持するのに役立つ戦略を共有する。

1. 負荷の分離による集中リスクの軽減

クラウド顧客からの集中リスクは、ハイパースケーラーにとって課題となりうる。特に主要顧客（ブラックフライデーの大手小売業者やAIモデルを大規模に訓練する企業など）が単一リージョンに負荷を集中させると、ハイパースケーラーの自動スケーリングが対応する前に共有物理リソースを飽和させる可能性がある。影響を受けるCSC（クラウドサービスコンポーネント）を特定して分離することで、この問題に対処できる。- アカシュ・ヴァーマ氏、 Google

2. スマートなサンプリングによるカーディナリティ爆発の制御

ハイパースケールでは、可観測性はカーディナリティ爆発に悩まされる—あまりにも多くのユニークなラベルとトレースがノイズとコストを生み出す。解決策：SLO駆動型メトリクスに焦点を当て、テールベースのサンプリングを使用し、カーディナリティ制限を適用し、エッジで集約する。これにより、可観測性を効率的に保ち、本当に重要なことに集中できる。- サンジェイ・クマール博士氏、ニューオーリンズ市

Forbes Technology Councilは、一流のCIO、CTO、テクノロジーエグゼクティブのための招待制コミュニティです。参加資格を確認する

3. スケーラブルなインサイトのためのテレメトリ一元化

ハイパースケールでは、可観測性には、ログ、メトリクス、トレースなどの膨大なテレメトリデータを使いやすく、コスト効率良く保つことが必要だ。これらを一箇所にアクセスしやすく、スケーラブルで高性能な方法で保存することで、組織はテレメトリデータから直接AIと分析を実行し、異常、問題領域、脅威を特定しながら、データ集約型ワークロードに対応するインフラを将来にわたって確保できる。- ガリマ・カプール氏、 MinIO

4. ターゲットを絞ったサンプリングによるトレース深度とコストのバランス

トレースは可観測性に不可欠だが、ハイパースケールではコストがかさみ、管理が難しくなる。クラウドツールは持続不可能なほど高価になる可能性があり、自己管理型オプションでは運用オーバーヘッドが大きくなる可能性がある。2つの重要な緩和策：1. システム動作を代表するトレースのサンプリング、2. 一貫して伝播されるトランザクションIDを使用した適切に設計されたロギングとの組み合わせ。- エリオット・コルド氏、 Data Futures

5. ノイズをフィルタリングして高価値シグナルに集中

製造業では、機械、センサー、検査システムから得られるデータ量は膨大になることがある。温度測定値、トルク仕様、振動データ、寸法チェック、そして時には部品ごとに何千ものデータポイントがある。大規模になると、クラウドシステムで見られるのと同様の問題が生じる：ノイズが多すぎて、シグナルが不足している。最も重要なことに焦点を当て、それを捉えるよう調整することが重要だ。- アレクサンダー・クワピス氏、 FusionPKG（Aptar Beauty Company）

6. スマートなマイクロサービス制限による複雑さの抑制

マイクロサービスの管理の複雑さは、マイクロサービスの数に比例して線形に増加するのではなく、指数関数的に増加する。緩和策には複数のアプローチが必要だ：マイクロサービスの数を制限する；十分な可観測性戦略が堅牢でありながら軽量であるべき従来のアプローチを使用する；組織内で可観測性ベースの運用、ツール、スキルを民主化する；そして重労働と運用自動化のためにAIを活用する。- ムルティユンジャイ・モハパトラ氏、 Alix Partners

7. 包括的なDSPMプラクティスによる移動中データの保護

保存データの保護は重要だが、プラットフォーム、デバイス、ユーザー間を移動するデータの安全を確保することはさらに重要だ—特に分散クラウド環境が拡大し続ける中では。DSPMに対する有能で包括的なアプローチは、リモートワーカーのデスクトップから独立したAI駆動型マイクロサービスソリューションまで、機密データがどこを移動しても監視、追跡、保護されることを確実にする。- ティヤガ・ヴァスデヴァン氏、 Skyhigh Security

8. マイクロサービス間のトレースとコンプライアンスの統一

ハイパースケールでは、何千ものマイクロサービスにわたるリクエストの追跡がブラインドスポットを生み出す。統一された計装にはOpenTelemetryを使用し、トレースコンテキストの伝播を強制し、スマートサンプリングを適用する。AIモデルのバージョン管理、使用ログ、ドリフトの監視を追跡する。アラート付きのAI可観測性ツールを組み込む。強力な可観測性とガバナンスにより、大規模なパフォーマンス、信頼性、コンプライアンスを確保する。- マダヴィ・ナジャナ氏、 Federal Home Loan Bank Of Cincinnati

9. コンテナコストをビジネス成果に合わせる

ハイパースケールでは、共有リソースと一時的なワークロードのため、コンテナコスト帰属が主要なFinOps課題となる。解決には、一貫したタグ付け、自動コスト割り当てツール、サービスレベルのテレメトリを通じてビジネスメトリクスと支出を連携させることが必要だ。我々はIBMのCloudabilityなどのツールを導入し、この課題に成功裏に対処している。- キム・ボゼラ氏、 Protiviti

10. 「可観測性メッシュ」によるデータレイヤーの相関付け

ハイパースケールでは、可観測性はコンテキストのない過剰なログ、トレース、メトリクスからのシグナルノイズに埋もれてしまう。解決策は左シフト計装と、レイヤー間でデータを相関付ける「可観測性メッシュ」であり、生のイベントだけでなく異常や根本原因を浮き彫りにするためにAI/MLを適用する。- サイ・クリシュナ・マノハル・チーマクルティ氏、 U.S. Bank

11. システム障害前に依存関係のドリフトを予測

一つの課題は一時的な依存関係のドリフトだ。ハイパースケールでは、マイクロサービスが急速に消滅し、依存関係マップが壊れ、障害の根本が隠れてしまう。嵐の中で幽霊を追いかけるようなものだ。リアルタイムの依存関係スナップショットとドリフトパターンを予測するAIでこれを解決できる。チームは真のサービスウェブを見て、問題を早期に発見し、クラウドがどれほど荒れても、アプリケーションを円滑に保つことができる。- ドゥルガ・クリシュナムーティ氏、 Cognizant Technology Solutions

12. 適応型トレースサンプリングによる可視性の維持

ハイパースケールでは、可観測性の喪失が隠れた課題の一つだ。長いコールチェーンがトレースサンプリングによって切断され、最も複雑なワークフローが見えなくなる。解決策は、ビジネスクリティカルなパスを完全に可視化する適応型サンプリングとターゲットを絞った計装であり、チームが断片ではなく全体像を把握できるようにする。- プリヤダルシニ・バラチャンドラン氏、 Walmart Global Tech

13. エンドツーエンドの明確さのための断片化したシグナルの統合

ハイパースケールでは、断片化したログ、メトリクス、トレースから明確なビューを構築することが大きな課題となる。無数のサービスからシグナルが殺到し、洞察がノイズに埋もれてしまう。一つの解決策：相関ロジックとコンテキストタグ付けを備えた統一された可観測性プラットフォームだ。これにより混沌が明晰さに変わり、チームが問題をより速く発見し、根本原因を追跡し、プレッシャーの下でもシステムを安定させることができる。- ママン・イブラヒム氏、 EugeneZonda Cyber Consulting Services

14. エッジ集約による分散トレースの簡素化

分散トレースは、膨大なデータ量とクロスサービス依存関係により、ハイパースケールで指数関数的に複雑になる。エラーパスの優先順位付け、コンテキスト対応のトレース集約、中央取り込み前にテレメトリを前処理するエッジコレクターの導入などの戦略を実装することで、重要なトランザクションの診断能力を維持しながらストレージコストを削減できる。- サウラブ・サクセナ氏、Amazon Web Services

15. データ量よりもシグナルの忠実度を優先

マイクロサービスアーキテクチャがハイパースケールに達すると、可観測性の中核的課題はデータ収集ではなく、シグナルの忠実度だ。数十億のログとトレースがダッシュボードを圧倒し、チームが最も必要とする因果パターンを隠してしまう。答えはコンテキストが豊富な可観測性—テレメトリとビジネスKPIを相関させ、異常検出を層状に重ねること—これによりインサイトがノイズの上に浮かび上がり、実際のアクションを促進する。- トー・クアン・ドゥイ氏、 Newwave Solutions JSC

16. 根本原因検出を加速するためのコンテキスト復元

ハイパースケールでは、メトリクスが爆発し、トレースがキュー間で分断され、アラートがノイズを増やすため、障害の特定が困難だ。解決策は、より多くのダッシュボードではなく、コンテキストだ。トレースIDを標準化し、スマートサンプリングを適用し、可観測性データをコード変更とビジネス目標に接続する。これによりエンドツーエンドの可視性が回復し、ノイズが減少し、大規模システムの根本原因解決が迅速化する。- アルン・ゴヤル氏、 Octal IT Solution LLP

17. 重要データに焦点を当てるための「ゴールデンシグナル」の定義

ハイパースケールでは、可観測性はシグナル過負荷に直面する—マイクロサービス全体で数百万のメトリクスがノイズを生み出す。これは国際宇宙ステーションのすべてのセンサーを追跡するようなもの—優先順位付けがなければ、重要なアラートが失われる。リーダーは「ゴールデンシグナル」を定義し、カーディナリティ予算を適用し、サンプリングを適用して異常を浮き彫りにすることで、複雑さを制御しながらミッションクリティカルなデータに焦点を当てることができる。- シェリ・ブランズウィック氏、 SB Global LLC

18. コアテレメトリストリームとしての構成ドリフトの追跡

自己修復型の自動スケーリングマイクロサービスシステムにおける動的構成ドリフトは、解決すべき重要な問題の一つだ。効果的な解決策には、ランタイム状態の内省、第一級テレメトリストリームとしての構成ドリフトの追跡、時間的ドリフト再生エンジン、宣言的シャドーイングによる拡張可観測性パイプライン、ドリフト敏感アラートの抑制などがある。- バラジ・サウンダララジャン氏、 Adroitts

19. イベント相関を加速するためのAIOpsの活用

ハイパースケールでは、可観測性データ（メトリクス、ログ、トレース）の固有次元の数が劇的に増加し、ストレージ、コスト、パフォーマンスを破壊する。主な課題は、アプリケーションのMTTD（平均検出時間）とMTTR（平均復旧時間）の削減に不可欠なイベント相関と根本原因検出だ。BigPandaのような製品を使用したAIOpsは、ビジネスが要求するスピードとスケールでこれに対処できる。- アシシュ・アナンド氏、 Marriott International

20. コンテキスト伝播による可観測性サイロの接続

ハイパースケールでは、断片化したサービス間でシグナルを相関付けることが可観測性の大きな課題だ。メトリクス、ログ、トレースはしばしばサイロに存在し、根本原因分析が遅くなる。サービス間で統一されたコンテキスト伝播を持つ分散トレースを実装することで、問題をより迅速に特定し、パフォーマンスをユーザーへの影響に直接リンクさせることができる。- ヘマンス・ヴォリカトラ氏、 SAP America INC.

（forbes.com 原文）