サービス

2025.09.30 08:18

危機に強いシステム構築へ:20人のIT専門家が指摘する緊急システムの弱点と対策

Adobe Stock

Adobe Stock

2025年7月にペンシルベニア州で発生した911システムの大規模障害は、重要な公共安全システムがいかに脆弱であるかを浮き彫りにした。この障害により住民は緊急サービスへの信頼できるアクセスを失い、時代遅れのインフラ、集中型の依存関係、脆弱な変更管理、システムアクセスの可視性の制限など、様々な脆弱性が明らかになった。

advertisement

将来の障害を防ぐには短期的な修正だけでは不十分である。ベンダーの説明責任の強化、アーキテクチャの近代化、実際の条件下でのシステムのストレステスト、そしてテクノロジーとプロセスの両方に回復力を構築することが必要である。以下では、フォーブス・テクノロジー・カウンシルのメンバーが、ペンシルベニア州の911障害によって露呈した弱点を指摘し、必要なときに重要な公共安全システムの信頼性を確保するための提言を共有している。

1. 定期的なベンダーレビューとRFPの実施

政府機関は、一度機能する製品やソリューションを導入すると、めったにベンダーを切り替えない。公共の利益のために最良のソリューションが導入されるよう、定期的なレビューとそうした製品・サービスのオープン入札を実施する必要がある。これによりシステムの強化につながる。- レーン・キャンベル氏、 GovSoft

2. NG911ベンダー向け連邦レジリエンス登録制度の創設

連邦規則集第47編パート9の現行規制では、911サービスプロバイダーに回線の多様性、バックアップ電源、ネットワーク監視に関する年次認証を義務付けている。しかし、これらの規則にはIP基盤の911インフラのレジリエンス基準が欠けている。連邦レジリエンス登録制度と認証機関があれば、リアルタイムのフェイルオーバー検証が可能になり、NG911ベンダーが障害耐性を実証できるようになる。- クリスチャン・ランディエリ氏、 Intellisystem Technologies

advertisement

フォーブス・テクノロジー・カウンシルは、世界クラスのCIO、CTO、テクノロジーエグゼクティブのための招待制コミュニティです。参加資格を確認する


3. 自動フェイルオーバーを追加してサービス継続性を強化

ペンシルベニア州の911障害は、単一の障害が重要なサービスを中断させる可能性を示した。冗長性、リアルタイム監視、自動フェイルオーバーを組み込むことで、ネットワークの一部がダウンしても不可欠なシステムを稼働し続けるために必要なレジリエンスを構築できる。- リチャード・ダンフォース氏、 Genasys

4. ハイブリッドクラウドアーキテクチャを採用してサイロを排除

この障害は、時代遅れまたはサイロ化されたインフラ上に構築された重要な通信システムがいかに脆弱であるかを浮き彫りにした。レジリエンスを向上させるため、組織はリアルタイム監視、冗長性、シームレスなフェイルオーバーをサポートするクラウド対応のハイブリッド対応アーキテクチャを採用すべきである。これらのシステムはより高い柔軟性を提供し、リスクが高くダウンタイムが許されない状況でも継続性を確保する。- ルイス・ドミンゴス氏、 Mitel

5. 変更関連の障害に対する迅速なロールバック計画の開発

あらゆる組織の主要業績評価指標の一つは平均復旧時間である。この事例では、問題は変更に関連していたが、ロールバックと復旧に12時間以上を要した。堅牢な変更ロールバック戦略を持つことは、レジリエントなインフラとシステムを構築する上で不可欠である。- アビナブ・シャルマ氏、 JPモルガン・チェース

6. SLAとリグレッションテストプロトコルによるベンダー監査

NG911は機能を追加する一方で、障害リスクも増加させる。エンタープライズ展開には、完全にテストされた冗長性とフェイルオーバー、実環境での負荷テスト、自動化されたリグレッションチェックが必要である。サービスレベル契約と監査によってベンダーに責任を持たせ、信頼性を確保し、重要なサービス中断を防止する。- デブディープ・マズムダー氏、Tradeweb Markets

7. 展開ギャップを防ぐための運用プロセスの成熟化

システム全体の壊滅的な障害をもたらすノード障害などの技術的問題は、プロセスの未熟さの結果である。この事例では、システムのステージングとテストのプロセスが守られなかった。その結果、脆弱なシステムが展開された。技術的な単一障害点に焦点を当てると、より重要な根本原因が見えなくなる:ステップが省略されたのだ。プロセスを成熟させることで、これを回避できる。- ジェームズ・スタンガー氏、 CompTIA

8. 分散型クラウドネイティブインフラモデルへの移行

ペンシルベニア州の911障害は、冗長性を欠いた単一障害点とレガシーインフラへの過度の依存を露呈した。これに対処するため、公共システムは分散型のクラウドネイティブアーキテクチャを採用し、リアルタイムフェイルオーバー、継続的監視、厳格な災害復旧訓練を実施する必要がある—これにより障害やサイバー脅威に対するレジリエンスを確保できる。- カテリナ・アクセルソン氏、 Tastry

9. 依存関係チェーンのマッピングとストレステスト

この障害は、レジリエンスがバックアップだけの問題ではなく、依存関係チェーンをエンドツーエンドで把握し、各リンクがストレス下でどのように動作するかを理解することの重要性を明らかにした。このようなマッピングとテストを行っているシステムはほとんどない。制御された障害訓練を通じて実践される依存関係マップを作成することで、あるリンクが破損しても、システム全体がためらうことなく適応できるようになる。- アブヘシュ・クマール氏、 Springline Advisory

10. 監視を維持しながら意思決定を分散化

ペンシルベニア州の事例は、硬直した階層構造に閉じ込められた企業に何が起こるかを正確に示している—意思決定と復旧が遅いため、一つの障害がシステム全体に波及する可能性がある。重要なシステムは分散化されながらも、優れた傘の下で運営される必要がある。そこでは、ローカルな自律性がスピードとレジリエンスを推進し、中央の監視が標準、調整、信頼が決して損なわれないことを保証する。- ダグ・シャノン

11. 即時自己修復のためのAI駆動型自動化の統合

レガシーの緊急システムはリアルタイムの適応性とインテリジェントな冗長性を欠いている。一つの障害がネットワーク全体に連鎖した。トークン化されたデータストリームを持つAI駆動型自動化を統合することで、機関は自己修復インフラを構築でき、アラートが即座に再ルーティングされ、人間の遅延や地域全体の集中型ボトルネックなしに重要なサービスが稼働し続ける。- チャールズ・モーリー氏、MobilEyes Inc.

12. 冗長性を検証するためのライブオーケストレーション障害のシミュレーション

この障害は、単一点依存関係が最新のシステムにも埋もれたままであることを露呈した。冗長性はハードウェア向けに設計されることが多いが、オーケストレーションロジック自体には設計されていない。対策は地味だが効果的だ:四半期ごとに、理論だけでなく実際の障害パスをシミュレーションする。クリーンな実験室ではなく、ライブ負荷の下でフェイルオーバーが機能することを検証する。- ザミール・リズビ氏、 Odesso Inc.

13. 段階的展開による変更管理の強化

あらゆる障害と同様に、ペンシルベニア州の911障害は、ハードウェア、ソフトウェア、構成における制御されていない変更が重要なシステムを混乱させる可能性を浮き彫りにした。厳格なテスト、段階的展開、フェイルオーバー計画による変更管理の強化が、同様の事故を防ぐ鍵となる。- ヨゲシュ・マリク氏、Way2Direct

14. ソフトウェアの脆弱性を軽減するための地理的冗長性の活用

定期的な更新が緊急サービスの重大な障害を引き起こし、ソフトウェアの脆弱性のリスクが露呈した。将来の障害を避けるため、組織は段階的な展開を実施し、地理的冗長性を維持し、フェイルオーバーシステムを定期的にテストする必要がある。インフラが公共安全に貢献する場合、レジリエントな設計は選択肢ではなく必須である。- ディリープ・ライ氏、 Hachette Book Group

15. ID アクセス制御強化のためのナレッジグラフの適用

ペンシルベニア州の911障害は重要な脆弱性を浮き彫りにした:相互接続されたシステム全体のIDアクセスの可視性の欠如である。アクセス制御が時代遅れまたは管理されていない場合、一つの弱いリンクが稼働時間を損なう可能性がある。ナレッジグラフとデジタルツインを使用することで、組織はアクセス関係をマッピングして監視し、このような障害に直面した際のリスクを軽減しレジリエンスを向上させることができる。- クレイグ・デイビス氏、 Gathid

16. リアルタイム監視機能を備えたクラウドプラットフォームへのレガシーシステムのアップグレード

この事故は、適切な冗長性とフェイルオーバーメカニズムを欠く重要な公共システムの脆弱性を明らかにした。組み込みのレジリエンス、冗長性、リアルタイム監視を備えたクラウドベースのシステムにアップグレードすることで、障害発生時の継続性を確保できる。これらのシステムの定期的なテストとメンテナンスは、信頼性を向上させ、同様の障害のリスクを軽減するのに役立つ。- タンヌ・ジワニ氏、マイクロソフト

17. クラウド依存関係のバランスを取るためのローカライズされたフェイルセーフの展開

ペンシルベニア州の911障害は、「クラウドベース」が「嵐に強い」ことを意味するわけではないことを思い出させた。本当の脆弱性は何か?ローカライズされたフェイルセーフのない集中型テクノロジー依存関係だ。それは船の片側にすべての救命ボートを置くようなものだ。解決策は?ハイブリッドレジリエントアーキテクチャ—クラウドが窒息したときに筋肉の記憶のように作動するローカルバックアップだ。- ジョエル・フレネット氏、 TravelFun.Biz

18. 災害復旧監査と自動フェイルオーバーの義務付け

この障害は重要な欠陥を露呈した:不十分な災害復旧とレジリエンス計画、そして不十分なテストである。重要な政府通信システムは、法律によって組み込みのレジリエンスと自動フェイルオーバーを含むことが義務付けられるべきである。これらの機能は、緊急時の準備を確保するために、定期的に—理想的には年に一度、あるいはさらに頻繁に—監査およびテストされなければならない。- ハリクリシュナン・ムトゥクリシュナン氏、 Florida Blue

19. 理論を実践に変えるためのライブフェイルオーバー訓練の実施

この障害は、重要なシステムが実際の障害条件下でテストされることがいかに稀であるかを示した。コアノードが実際にダウンした場合に何が起こるかをシミュレーションしなければ、紙の上の冗長性はほとんど意味がない。定期的なライブフェイルオーバー訓練と分散型バックアップルートを組み合わせることで、理論上のレジリエンスを次の危機が発生したときの実際の継続性に変えることができる。- ウメシュ・クマール・シャルマ

20. 自動フェイルオーバーによる緊急インフラの近代化

この障害は、緊急システムがいかに脆弱で時代遅れであるかを厳しく思い出させた。一つの障害が命を危険にさらすべきではない。リアルタイム監視と自動フェイルオーバーを備えたクラウドネイティブインフラへの移行が必要だ。これらのアップグレードは単なる技術的なものではなく、一秒一秒が重要な場面で不可欠なサービスを稼働し続けるために必須である。- ハーベンドラ・シン氏、Publix Super Markets Inc.

forbes.com 原文

advertisement

ForbesBrandVoice

人気記事