Wie US Cloud Kunden durch den Ausfall von CrowdStrike führte
Als alles blau wurde, waren wir als Erste zur Stelle
Übersicht über die Fallstudie
Am 19. Juli 2024 löste ein fehlgeschlagenes CrowdStrike-Update weitreichende Systemabstürze in der globalen IT-Infrastruktur aus – darunter Microsoft Azure, Google Cloud und unzählige Unternehmensumgebungen. Als Millionen von Endgeräten in einen Boot-Loop gerieten, überschwemmten Hunderte von US-Cloud-Kunden die Supportkanäle mit Tickets der Schweregradstufe 1.
Das Critical Incident Response Team von US Cloud wurde innerhalb weniger Stunden mobilisiert, lieferte Lösungen bis zu zwei Tage schneller als Microsoft und half Kunden dabei, ihren Betrieb inmitten des Chaos wiederherzustellen.
Fallstatistik
Organisation: Alle Kunden, die CrowdStrike nutzen (über 100)
Branche: Nahezu alle Branchen
Technologie: Azure, Hyper-V, Windows 10, Windows 11, Server
Schweregrad: 1
Was geschah: Ein defekter Treiber legte Endpunkte weltweit lahm
CrowdStrike, eine weit verbreitete Endpoint-Schutzplattform, veröffentlichte gegen 23 Uhr CT ein fehlerhaftes Update für seinen Falcon-Sensor. Das Update enthielt einen Treiber (C0000000291*.sys), der einen Speicherzugriff außerhalb des zulässigen Bereichs verursachte, wodurch alle betroffenen Systeme beim Booten einen Bluescreen erhielten. Da der Falcon-Treiber vor dem Betriebssystem-Kernel geladen wird, konnten die Systeme nicht weit genug kommen, um sich zu erholen oder zurückzusetzen, was zu einer endlosen Absturz-Neustart-Schleife führte.
Um Mitternacht erhielt US Cloud eine Flut von Tickets mit hohem Schweregrad von Kunden, die Ausfälle unter Windows 10, 11, Server und in virtualisierten Umgebungen (Hyper-V, VMware) verzeichneten. Azure und Google Cloud waren aufgrund der Präsenz von CrowdStrike in Backend-Systemen ebenfalls betroffen, was die Störung noch verschlimmerte.
Die Auswirkungen des Ausfalls von CrowdStrike waren weitreichend und langanhaltend. So verklagte beispielsweise Delta Airlines ein Jahr später CrowdStrike auf 500 Millionen Dollar Schadenersatz für Verluste, die durch die Panne im Juli 2024 entstanden waren. Auch wenn die verbundenen Systeme nach dem Ausfall nun wieder laufen, sind die Folgen des Vorfalls und die damit verbundenen Ausfallzeiten für viele Kunden noch immer nicht vollständig geklärt.
In einem weiteren Beispiel haben Quellen herausgefunden, dass der Ausfall von CrowdStrike die medizinische Versorgung in Hunderten von Krankenhäusern in den Vereinigten Staaten beeinträchtigt hat. Die Mindestschätzung für betroffene Krankenhäuser liegt bei 759 Einrichtungen, wobei mehr als 200 Krankenhäuser Ausfälle erlitten haben, die in direktem Zusammenhang mit der Patientenversorgung standen.
Diese Statistik bedeutet zwar keineswegs, dass der Ausfall direkt für einen medizinischen Notfall oder ein Versagen im Gesundheitswesen verantwortlich war, aber sie verdeutlicht, wie wichtig es ist, die IT-Verfügbarkeit aufrechtzuerhalten. Mit anderen Worten: Die Realität sieht so aus, dass Ausfallzeiten der IT-Infrastruktur eines Unternehmens eine Kettenreaktion von Schäden für die Kunden des Unternehmens auslösen können.
Die Antwort von US Cloud: Schnelle Reaktion, maßgeschneiderte Lösungen
Anstatt auf eine Reaktion von Microsoft oder CrowdStrike zu warten, hat US Cloud das Problem eigenständig rückentwickelt und mehrere Wiederherstellungsstrategien entwickelt:
- Identifizierung der Grundursache: Um 8:30 Uhr hatten unsere Techniker das Problem mit dem beschädigten Treiber diagnostiziert.
- Multi-Path-Lösungspläne: Wir haben drei unterschiedliche, auf die Bedürfnisse des Kunden zugeschnittene Lösungen bereitgestellt:
- Zugriff im abgesicherten Modus und manuelles Löschen von Dateien.
- Anweisungen zum Zurücksetzen des Systems.
- Strategie für wiederholten Neustart (Erkennung der Fehlerbehebung nach dem Patch).
- Wiederherstellung der virtuellen Umgebung: Kunden, die Azure oder VMware verwenden, haben wir dabei unterstützt, virtuelle Festplatten an sekundäre Maschinen anzuschließen, die fehlerhafte Datei zu löschen und sie für einen sauberen Neustart erneut anzuschließen.
- Portal + E-Mail-Kommunikation: Die Kunden wurden frühzeitig darauf hingewiesen, CrowdStrike nicht zu aktualisieren, um weiteren Schaden zu verhindern.
- Skalierbare Dokumentation: Wir haben sofort einsatzbereite Skripte und ISO-Build-Schritte für den Einsatz in großen, vielfältigen Umgebungen bereitgestellt – entscheidend für Kunden mit Tausenden von Endpunkten.
Unsere Kunden erhielten nicht nur schnelle Hilfe, sondern auch präzise Unterstützung, noch bevor die meisten überhaupt wussten, was kaputt war.
Zeitplan für die Problemlösung: Von der Panik zum Playbook
- ~12:00 Uhr CT: Erste Ausfälle treten auf; Kunden melden Bluescreens.
- 2:00 Uhr – 5:00 Uhr CT: CrowdStrike behebt das Problem auf seiner Seite, aber es gibt noch keine einheitliche Abhilfe.
- 8:15 Uhr CT: US Cloud aktiviert einen Krisenstab, sobald die Tagesschicht ihren Dienst antritt.
- 8:30 Uhr CT: Unsere Ingenieure identifizieren den fehlerhaften Treiber und dessen Auswirkungen.
- 9:00 Uhr CT: Skripte zum Löschen im abgesicherten Modus, Anweisungen zum Starten der VM und Rollback-Optionen werden über das Portal und per E-Mail an die Kunden veröffentlicht.
- 9:30 Uhr CT: Es werden Leitlinien zur Erstellung von ISO-Dateien für die Wiederherstellung entwickelt.
- 13:00 Uhr CT: Vollständige Wiederherstellungsleitfäden stehen Kunden zur Verfügung – zwei Tage vor der offiziellen Stellungnahme von Microsoft.
US Cloud: Kompetente Unterstützung, wenn es darauf ankommt
Die proaktive Reaktion von US Cloud auf den Ausfall von CrowdStrike verdeutlicht unseren Wert als Drittanbieter von Microsoft-Support. Mit über 50 kritischen Tickets, die noch vor Mittag gelöst wurden, und einer Beratung, die bereits Tage vor Microsoft erfolgte, konnten unsere Kunden während einer massiven globalen Störung eine schnellere Wiederherstellung, weniger interne Verzögerungen und weniger Stress erleben.
Wir konnten den Ausfall zwar nicht verhindern, aber wir haben die Kosten minimiert und unseren Kunden wahrscheinlich Millionen an Ausfallverlusten erspart. Für Unternehmen, die Support-Partner evaluieren, ist dieser Fall ein Beweis dafür, dass US Cloud echte Ergebnisse liefert und nicht nur Versprechungen macht.
Wie Automobilhersteller im Jahr 2026 die Kosten für den Microsoft Unified Support senken und die Vorgaben in den Bereichen SDV, KI und Cybersicherheit finanzieren können
Warum kluge Unternehmen Azure MACC niemals mit Unified Support bündeln
KI verwandelt SaaS-Verträge in Infrastrukturverpflichtungen