Hoe US Cloud klanten door de storing bij CrowdStrike loodste

Toen alles blauw werd, waren wij er als eerste

Overzicht van casestudy's

Op 19 juli 2024 veroorzaakte een mislukte update van CrowdStrike grootschalige systeemstoringen in de wereldwijde IT-infrastructuur, waaronder Microsoft Azure, Google Cloud en talloze bedrijfsomgevingen. Toen miljoenen eindpunten in een opstartlus terechtkwamen, overspoelden honderden Amerikaanse cloudklanten de ondersteuningskanalen met tickets van ernstniveau 1.

Het Critical Incident Response Team van US Cloud kwam binnen enkele uren in actie, leverde oplossingen die tot twee dagen sneller waren dan die van Microsoft en hielp klanten hun activiteiten te herstellen te midden van de chaos.

Zaakstatistieken

Organisatie: elke klant die CrowdStrike gebruikt (100+)

Sector: Bijna elke sector

Technologie: Azure, Hyper-V, Windows 10, Windows 11, Server

Ernstniveau: 1

Wat er gebeurde: een defecte driver legde eindpunten over de hele wereld plat

CrowdStrike, een veelgebruikt platform voor eindpuntbeveiliging, bracht rond 23.00 uur CT een foutieve update uit voor zijn Falcon-sensor. De update bevatte een stuurprogramma (C0000000291*.sys) dat een geheugenlezing buiten het bereik uitvoerde, waardoor alle getroffen systemen bij het opstarten een blauw scherm kregen. Omdat het Falcon-stuurprogramma vóór de OS-kernel wordt geladen, konden de systemen nooit ver genoeg komen om te herstellen of terug te draaien, waardoor een eindeloze crash-reboot-lus ontstond.

Om middernacht begon US Cloud een golf van ernstige tickets te ontvangen van klanten die te maken hadden met storingen in Windows 10, 11, Server en gevirtualiseerde omgevingen (Hyper-V, VMware). Azure en Google Cloud werden ook getroffen door de aanwezigheid van CrowdStrike in backend-systemen, wat de verstoring nog verergerde.

De gevolgen van de storing bij CrowdStrike waren verstrekkend en langdurig. Zo heeft Delta Airlines een jaar later CrowdStrike aangeklaagd voor een schadevergoeding van 500 miljoen dollar als gevolg van de chaos in juli 2024. Hoewel de aangesloten systemen na de storing weer operationeel zijn, zijn de gevolgen van het incident en de daarmee gepaard gaande downtime voor veel klanten nog steeds niet helemaal opgelost.

In een ander voorbeeld ontdekken bronnen dat de storing bij CrowdStrike de medische zorg in honderden ziekenhuizen in de Verenigde Staten heeft verstoord. Het minimumaantal getroffen ziekenhuizen wordt geschat op 759, waarbij meer dan 200 ziekenhuizen te maken hadden met storingen die rechtstreeks verband hielden met de patiëntenzorg.

Hoewel deze statistiek op geen enkele manier aangeeft dat de storing direct verantwoordelijk was voor medische noodsituaties of tekortkomingen in de gezondheidszorg, onderstreept het wel het enorme belang van het handhaven van de uptime van IT. Met andere woorden, de realiteit is dat downtime van de IT-infrastructuur van een organisatie een domino-effect kan hebben op degenen die door de organisatie worden bediend.

Reactie van US Cloud: snelle reactie, oplossingen op maat

In plaats van te wachten op een reactie van Microsoft of CrowdStrike, heeft US Cloud het probleem zelfstandig gereverse-engineerd en meerdere herstelstrategieën ontwikkeld:

  • Identificatie van de hoofdoorzaak: Om 8.30 uur hadden onze technici het probleem met het beschadigde stuurprogramma vastgesteld.
  • Multi-Path-oplossingsplannen: We hebben drie verschillende oplossingen geboden die zijn afgestemd op de behoeften van de klant:
    • Toegang tot de veilige modus en handmatig verwijderen van bestanden.
    • Instructies voor het terugdraaien van het systeem.
    • Herhaalde herstartstrategie (herkenning van reparaties na patch).
  • Herstel van virtuele omgevingen: Voor klanten die Azure of VMware gebruiken, hebben we hen geholpen bij het koppelen van virtuele schijven aan secundaire machines, het verwijderen van het defecte bestand en het opnieuw koppelen voor een schone start.
  • Portal + e-mailcommunicatie: Klanten werden vroegtijdig gewaarschuwd om CrowdStrike niet te updaten, waardoor verdere schade werd voorkomen.
  • Schaalbare documentatie: we hebben kant-en-klare scripts en ISO-buildstappen geleverd voor gebruik in grote, diverse omgevingen – cruciaal voor klanten met duizenden eindpunten.

Onze klanten kregen niet alleen snelle hulp, maar ook accurate hulp nog voordat de meesten wisten wat er kapot was.

Tijdlijn voor het oplossen van problemen: van paniek naar draaiboek

  • ~12:00 uur CT: Eerste storingen beginnen; klanten melden blauwe schermen.
  • 2:00 uur – 5:00 uur CT: CrowdStrike lost het probleem aan hun kant op, maar er is nog geen uniforme oplossing beschikbaar.
  • 8:15 uur CT: US Cloud activeert een crisiscentrum wanneer de dagdienst online komt.
  • 8:30 uur CT: Onze technici identificeren de defecte driver en de gevolgen daarvan.
  • 9:00 uur CT: Scripts voor verwijdering in veilige modus, instructies voor het opstarten van VM's en rollback-opties worden via de portal en e-mail aan klanten gepubliceerd.
  • 9:30 uur CT: Er worden richtlijnen voor het maken van ISO's ontwikkeld voor herstel.
  • 13:00 uur CT: Volledige herstelplannen zijn beschikbaar voor klanten – twee dagen voor de officiële reactie van Microsoft.

US Cloud: deskundige ondersteuning wanneer dat het belangrijkst is

De proactieve reactie van US Cloud op de storing bij CrowdStrike illustreert onze waarde als externe Microsoft-ondersteuningsprovider. Met meer dan 50 kritieke tickets die voor de middag waren opgelost en begeleiding die dagen voor Microsoft werd geboden, konden onze klanten profiteren van een sneller herstel, minder interne vertragingen en minder stress tijdens een enorme wereldwijde storing.

Hoewel we de storing niet konden voorkomen, hebben we de kosten ervan tot een minimum beperkt, waardoor klanten waarschijnlijk miljoenen aan verliezen als gevolg van downtime hebben bespaard. Voor organisaties die ondersteuningspartners evalueren, is dit geval het bewijs dat US Cloud echte resultaten levert, en niet alleen beloftes doet.

Vraag een offerte aan bij US Cloud om Microsoft te laten besluiten de prijzen voor Unified Support te verlagen.

Onderhandel niet blindelings met Microsoft

In 91% van de gevallen krijgen bedrijven die een schatting van de Amerikaanse cloudkosten aan Microsoft voorleggen, onmiddellijk kortingen en snellere concessies.

Zelfs als u nooit overstapt, biedt een schatting van US Cloud u:

  • Echte marktprijzen om Microsofts 'slikken of stikken'-houding aan te vechten
  • Concrete besparingsdoelen – onze klanten besparen 30-50% ten opzichte van Unified
  • Onderhandelen over munitie – bewijs dat je een legitiem alternatief hebt
  • Risicovrije informatie – geen verplichtingen, geen druk

 

"US Cloud was de hefboom die we nodig hadden om onze Microsoft-factuur met $ 1,2 miljoen te verlagen."
— Fortune 500, CIO