미국 클라우드 기업이 크라우드스트라이크 서비스 중단 사태에서 고객을 어떻게 이끌었는가
모든 것이 블루스크린으로 변했을 때, 우리가 가장 먼저 달려갔습니다
사례 연구 개요
2024년 7월 19일, 크라우드스트라이크의 업데이트 오류로 인해 마이크로소프트 애저, 구글 클라우드 및 수많은 기업 환경을 포함한 전 세계 IT 인프라 전반에 걸쳐 대규모 시스템 장애가 발생했습니다. 수백만 개의 엔드포인트가 부팅 루프에 빠지기 시작하자, 수백 명의 미국 클라우드 고객들이 심각도 1 티켓으로 지원 채널을 마비시켰습니다.
US Cloud의 중대 사고 대응팀은 몇 시간 내에 가동되어 마이크로소프트보다 최대 이틀 빠르게 해결책을 제공했으며, 혼란 속에서도 고객사가 운영을 복구할 수 있도록 지원했습니다.
사건 통계
조직: 크라우드스트라이크를 사용하는 모든 고객사 (100개 이상)
산업: 거의 모든 산업
기술: Azure, Hyper-V, Windows 10, Windows 11, Server
중요도 수준: 1
발생한 일: 결함이 있는 드라이버가 전 세계 엔드포인트를 마비시켰다
크라우드스트라이크(CrowdStrike)는 널리 사용되는 엔드포인트 보호 플랫폼으로, 현지 시간 기준 오후 11시경 자사 팰컨(Falcon) 센서에 결함이 있는 업데이트를 배포했습니다. 이 업데이트에는 메모리 범위를 벗어난 읽기(out-of-bounds memory read)를 유발하는 드라이버(C0000000291*.sys)가 포함되어, 영향을 받은 모든 시스템이 부팅 시 블루스크린(BSOD)을 발생시켰습니다. Falcon 드라이버가 OS 커널보다 먼저 로드되기 때문에 시스템은 복구 또는 롤백 단계까지 도달하지 못해 끝없는 충돌-재부팅 루프가 발생했습니다.
자정 무렵, US Cloud는 Windows 10, 11, Server 및 가상화 환경(Hyper-V, VMware) 전반에서 서비스 중단을 경험한 고객들로부터 고위험 티켓이 대량으로 접수되기 시작했습니다. 백엔드 시스템에 크라우드스트라이크가 존재했기 때문에 Azure와 Google Cloud도 영향을 받아 장애가 더욱 확대되었습니다.
크라우드스트라이크 서비스 중단 사태의 영향은 광범위하고 장기적이었다. 예를 들어, 1년 후 델타항공은 2024년 7월 발생한 혼란으로 인한 손실 5억 달러를 청구하며 크라우드스트라이크를 상대로 소송을 제기했다. 중단 사태 이후 연결된 시스템이 다시 가동되고 있음에도 불구하고, 해당 사건과 이에 따른 가동 중단의 여파는 여전히 많은 고객사에게 미치고 있다.
또 다른 사례로, 크라우드스트라이크 시스템 장애가 미국 전역 수백 개 병원의 의료 서비스에 차질을 빚은 것으로 확인되고 있다. 영향을 받은 병원은 최소 759개 기관으로 추정되며, 환자 치료와 직접 연관된 시스템 장애를 경험한 병원은 200개 이상이다.
이 통계가 정전이 의료 비상사태나 의료 서비스 실패의 직접적인 원인이었음을 시사하는 것은 아니지만, IT 가동 시간 유지의 중대한 중요성을 보여줍니다. 즉, 어떤 조직의 IT 인프라가 다운되면 해당 조직이 서비스를 제공하는 대상에게 피해가 파급 효과를 일으킬 수 있다는 것이 현실입니다.
US Cloud의 대응: 신속한 대응, 맞춤형 솔루션
마이크로소프트나 크라우드스트라이크의 대응을 기다리기보다, US Cloud는 독자적으로 문제를 역설계하여 여러 복구 전략을 개발했습니다:
- 근본 원인 파악: 오전 8시 30분까지 엔지니어들은 손상된 드라이버로 인한 문제를 진단했습니다.
- 다중 경로 해결 방안: 고객 요구에 맞춰 세 가지 차별화된 솔루션을 제공했습니다 :
- 안전 모드 접근 및 수동 파일 삭제.
- 시스템 롤백 지침.
- 반복 재부팅 전략 (패치 후 수정 사항 인식).
- 가상 환경 복구: Azure 또는 VMware를 사용하는 고객의 경우 , 보조 머신에 가상 디스크를 연결하고, 결함 파일을 삭제한 후, 클린 부팅을 위해 재연결하는 과정을 안내했습니다.
- 포털 + 이메일 커뮤니케이션: 고객들에게 크라우드스트라이크 업데이트를 하지 말라는 조기 통지가 이루어져 추가 피해를 방지했습니다.
- 확장 가능한 문서화: 대규모의 다양한 환경 전반에서 사용 가능한 즉시 실행 가능한 스크립트와 ISO 빌드 단계를 제공했습니다. 이는 수천 개의 엔드포인트를 보유한 고객에게 필수적인 요소입니다.
고객들은 단순히 빠른 도움을 받은 것이 아니라, 대부분이 무엇이 고장났는지조차 알기도 전에 정확한 도움을 받았습니다.
문제 해결 타임라인: 패닉에서 플레이북으로
- ~오전 12시(중부 표준시): 초기 서비스 중단 발생; 클라이언트에서 블루 스크린 발생 보고.
- 오전 2시 – 오전 5시 (중부 표준시): CrowdStrike 측에서 해당 문제를 패치했으나, 아직 통합된 해결 방법은 제공되지 않습니다.
- 오전 8시 15분(중부 표준시): 미국 클라우드, 주간 근무 시작과 함께 전쟁 상황실 가동.
- 오전 8시 30분(중부 표준시): 당사 엔지니어들이 결함 있는 드라이버와 그 영향을 확인했습니다.
- 오전 9시(중부 표준시): 안전 모드 삭제 스크립트, 가상 머신 부팅 지침 및 롤백 옵션이 포털과 이메일을 통해 클라이언트에 게시됩니다.
- 오전 9시 30분(중부 표준시): 복구를 위한 ISO 생성 지침이 마련됩니다.
- 오후 1시(중부 표준시): 고객을 위한 완전한 복구 플레이북이 공개되었습니다—마이크로소프트의 공식 대응보다 이틀 앞서.
US Cloud: 가장 중요한 순간에 제공되는 전문가 지원
US Cloud의 CrowdStrike 서비스 중단 사태에 대한 선제적 대응은 당사가 제3자 Microsoft 지원 제공업체로서 지닌 가치를 입증합니다. 정오 이전에 50건 이상의 중대한 티켓을 해결하고 Microsoft보다 며칠 앞서 지침을 제공함으로써, 고객사는 대규모 글로벌 장애 상황에서도 더 빠른 복구, 내부 지연 최소화, 스트레스 감소를 경험했습니다.
정전을 막지는 못했지만, 그로 인한 손실을 최소화하여 고객사들이 가동 중단으로 인한 수백만 달러의 손실을 피할 수 있도록 했습니다. 지원 파트너를 검토 중인 기업들에게 이 사례는 US Cloud가 단순한 약속이 아닌 실질적인 성과를 제공한다는 증거입니다.