米国クラウドがCrowdStrikeのサービス停止を乗り切るために顧客を導いた方法
すべてのシステムがブルースクリーンに陥った時、我々が真っ先に駆けつけた
事例研究の概要
2024年7月19日、クラウドアストライクの失敗した更新プログラムが、マイクロソフトAzure、Google Cloud、無数の企業環境を含む世界中のITインフラストラクチャで広範なシステム障害を引き起こした。数百万のエンドポイントがブートループ状態に陥り始めると、米国のクラウドクライアント数百社がサポートチャネルに深刻度1のチケットを殺到させた。
US Cloudの重大インシデント対応チームは数時間以内に動員され、Microsoftよりも最大2日早く修正を提供し、混乱の中でお客様の業務復旧を支援しました。
事件統計
組織:CrowdStrikeを利用するすべてのクライアント(100社以上)
業界:ほぼ全ての業界
テクノロジー:Azure、Hyper-V、Windows 10、Windows 11、Server
深刻度レベル:1
発生した事象:不具合のあるドライバーが世界中のエンドポイントを停止させた
広く利用されているエンドポイント保護プラットフォームであるCrowdStrikeは、中部時間午後11時頃にFalconセンサー向けの不具合のある更新プログラムを公開した。 この更新にはドライバ(C0000000291*.sys)が含まれており、メモリ境界外読み取りを引き起こしたため、影響を受けた全システムが起動時にブルースクリーン(BSOD)を発生させた。FalconドライバはOSカーネルより先にロードされるため、システムは回復やロールバックを行う前にクラッシュし、無限の再起動ループに陥った。
深夜までに、US CloudはWindows 10、11、Server、および仮想化環境(Hyper-V、VMware)全体でサービス停止を経験したクライアントから、深刻度の高いチケットの波を受け取り始めた。AzureとGoogle Cloudも、バックエンドシステムにおけるCrowdStrikeの存在により影響を受け、混乱がさらに深刻化した。
クラウドアストライクのサービス停止の影響は広範囲かつ長期に及んだ。例えば、1年後にはデルタ航空が2024年7月の混乱による損失として5億ドルの損害賠償を求めて同社を提訴した。停止後の接続システムは現在復旧しているものの、多くの顧客にとってこの事故とそれに伴うダウンタイムの影響は依然として収束途上にある。
別の事例では、情報筋が明らかにしたところによると、CrowdStrikeのシステム障害により、全米数百の病院で医療サービスが混乱した。影響を受けた病院の最低推定数は759施設で、200以上の病院では患者ケアに直接関連するシステム障害が発生した。
この統計は、停電が医療緊急事態や医療サービスの失敗に直接的な原因となったことを示すものではありませんが、ITシステムの稼働時間を維持することの極めて重要な意義を物語っています。言い換えれば、現実には、いかなる組織のITインフラのダウンタイムも、その組織がサービスを提供する人々に対して悪影響の連鎖を引き起こす可能性があるのです。
US Cloudの対応:迅速な対応、カスタマイズされたソリューション
マイクロソフトやCrowdStrikeの対応を待つ代わりに、US Cloudは独自に問題をリバースエンジニアリングし、複数の復旧戦略を開発した:
- 根本原因の特定: 午前8時30分までに 、当社のエンジニアは破損したドライバの問題を診断しました。
- マルチパス解決策: お客様のニーズに合わせて、3つの異なるソリューションを提供しました:
- セーフモードでのアクセスと手動でのファイル削除。
- システムのロールバック手順。
- 繰り返し再起動戦略(パッチ適用後の修正認識)
- 仮想環境の復旧: AzureまたはVMwareをご利用のお客様に対し 、仮想ディスクをセカンダリマシンに接続する方法、問題のあるファイルを削除する方法、クリーンブートのために再接続する方法を順を追って説明しました。
- ポータル+メールによる連絡:クライアントには 早期にCrowdStrikeの更新を行わないよう通知され、さらなる被害を防止した。
- スケーラブルなドキュメント:大規模で多様な環境全体で使用可能な実行準備完了スクリプトとISOビルド手順を提供しました。これは数千のエンドポイントを抱えるクライアントにとって極めて重要です。
お客様は迅速なサポートを得ただけでなく、多くの場合、何が故障したのかすら気づく前に正確な支援を受けられました。
問題解決のタイムライン:パニックからプレイブックへ
- ~午前0時(中部時間):最初の障害発生。クライアントからブルースクリーンが報告される。
- 午前2時~午前5時(中部時間):CrowdStrikeは 自社側で問題を修正したが、統一的な回避策はまだ提供されていない。
- 午前8時15分(中部時間):米国 クラウド部門が 、日勤シフト開始に伴い戦況室を稼働させる。
- 午前8時30分(中部時間):当社の エンジニアが不具合のあるドライバーとその影響を特定しました。
- 午前9時(中部時間):セーフモード 削除スクリプト、仮想マシン起動手順、ロールバックオプションがポータルおよびメール経由でクライアントに公開されます。
- 午前9時30分(中部時間):復 旧のためのISO作成 ガイダンスが策定される。
- 中部時間午後1時:完全 復旧プレイブックがクライアント向けに公開—マイクロソフトの公式対応より2日早い対応。
US Cloud:最も重要な時に専門家のサポートを提供
US CloudがCrowdStrikeのサービス停止に迅速に対応した事例は、サードパーティのMicrosoftサポートプロバイダーとしての当社の価値を体現しています。正午までに50件以上の重要チケットを解決し、Microsoftより数日早くガイダンスを提供したことで、大規模なグローバル障害発生時においても、お客様はより迅速な復旧、内部遅延の低減、ストレス軽減を実現しました。
障害の発生は防げませんでしたが、そのコストを最小限に抑え、ダウンタイム関連の損失でお客様に数百万ドルの節約をもたらしました。サポートパートナーを検討中の組織にとって、この事例はUS Cloudが単なる約束ではなく、確かな成果をもたらすことを証明しています。