Come US Cloud ha guidato i clienti attraverso l'interruzione di CrowdStrike

Quando tutto è andato in tilt, siamo stati i primi ad arrivare

Panoramica del caso di studio

Il 19 luglio 2024, un aggiornamento mal riuscito di CrowdStrike ha causato crash di sistema diffusi nell'infrastruttura IT globale, inclusi Microsoft Azure, Google Cloud e innumerevoli ambienti aziendali. Mentre milioni di endpoint iniziavano a bloccarsi in un ciclo di avvio continuo, centinaia di clienti US Cloud hanno inondato i canali di assistenza con ticket di gravità 1.

Il team di risposta agli incidenti critici di US Cloud si è mobilitato nel giro di poche ore, fornendo soluzioni fino a due giorni più rapidamente rispetto a Microsoft e aiutando i clienti a ripristinare le operazioni in un contesto di grande caos.

Statistiche del caso

Organizzazione: tutti i clienti che utilizzano CrowdStrike (oltre 100)

Settore: quasi tutti i settori

Tecnologia: Azure, Hyper-V, Windows 10, Windows 11, Server

Livello di gravità: 1

Cosa è successo: un driver danneggiato ha messo fuori uso endpoint in tutto il mondo

CrowdStrike, una piattaforma di protezione degli endpoint ampiamente utilizzata, ha rilasciato un aggiornamento difettoso per il suo sensore Falcon intorno alle 23:00 CT. L'aggiornamento includeva un driver (C0000000291*.sys) che effettuava una lettura della memoria fuori limite, causando lo schermo blu su tutti i sistemi interessati all'avvio. Poiché il driver Falcon viene caricato prima del kernel del sistema operativo, i sistemi non sono mai riusciti a recuperare o ripristinare il sistema, creando un ciclo infinito di crash e riavvio.

A mezzanotte, US Cloud ha iniziato a ricevere una serie di segnalazioni di grave entità da parte di clienti che avevano riscontrato interruzioni di servizio su Windows 10, 11, Server e ambienti virtualizzati (Hyper-V, VMware). Anche Azure e Google Cloud sono stati colpiti a causa della presenza di CrowdStrike nei sistemi di backend, aggravando il disservizio.

Gli effetti dell'interruzione di CrowdStrike sono stati di vasta portata e di lunga durata. Ad esempio, un anno dopo, Delta Airlines ha citato in giudizio CrowdStrike per 500 milioni di dollari di perdite derivanti dal pasticcio del luglio 2024. Anche se i sistemi collegati sono ora nuovamente operativi dopo l'interruzione, le conseguenze dell'incidente e il relativo tempo di inattività sono ancora in fase di risoluzione per molti clienti.

In un altro esempio, alcune fonti stanno scoprendo che l'interruzione di CrowdStrike ha causato disagi all'assistenza medica in centinaia di ospedali negli Stati Uniti. La stima minima degli ospedali interessati è di 759 strutture, con oltre 200 ospedali che hanno subito interruzioni direttamente correlate all'assistenza dei pazienti.

Sebbene questa statistica non indichi in alcun modo che l'interruzione sia stata direttamente responsabile di emergenze mediche o disservizi sanitari, essa evidenzia comunque l'estrema importanza di garantire la continuità operativa dei sistemi IT. In altre parole, la realtà è che i tempi di inattività dell'infrastruttura IT di qualsiasi organizzazione possono causare un effetto a catena con conseguenze negative per gli utenti dei servizi offerti dall'organizzazione stessa.

La risposta di US Cloud: risposta rapida, soluzioni su misura

Anziché attendere una risposta da Microsoft o CrowdStrike, US Cloud ha analizzato autonomamente il problema e sviluppato diverse strategie di ripristino:

  • Identificazione della causa principale: alle 8:30 del mattino, i nostri tecnici avevano diagnosticato il problema con il driver danneggiato.
  • Piani di risoluzione multi-percorso: abbiamo fornito tre soluzioni distinte su misura per le esigenze del cliente:
    • Accesso alla modalità provvisoria ed eliminazione manuale dei file.
    • Istruzioni per il ripristino del sistema.
    • Strategia di riavvio ripetuto (riconoscimento della correzione post-patch).
  • Ripristino dell'ambiente virtuale: per i clienti che utilizzano Azure o VMware, abbiamo fornito assistenza per collegare i dischi virtuali alle macchine secondarie, eliminare il file difettoso e ricollegarli per un avvio pulito.
  • Portale + Comunicazione via e-mail: i clienti sono stati avvisati tempestivamente di non aggiornare CrowdStrike, evitando così ulteriori danni.
  • Documentazione scalabile: abbiamo fornito script pronti per l'esecuzione e passaggi di creazione ISO da utilizzare in ambienti grandi e diversificati, fondamentali per i clienti con migliaia di endpoint.

I nostri clienti non hanno ricevuto solo un aiuto rapido, ma anche un aiuto accurato prima ancora che la maggior parte di loro sapesse cosa si fosse rotto.

Tempistica per la risoluzione dei problemi: dal panico al playbook

  • ~12:00 AM CT: Iniziano le prime interruzioni; i clienti segnalano schermate blu.
  • 2:00 – 5:00 CT: CrowdStrike risolve il problema dal proprio lato, ma non è ancora disponibile una soluzione alternativa unificata.
  • 8:15 AM CT: US Cloud attiva una sala operativa quando il turno diurno entra in servizio.
  • 8:30 AM CT: I nostri ingegneri identificano il driver difettoso e il suo impatto.
  • 9:00 AM CT: gli script di eliminazione in modalità provvisoria , le istruzioni di avvio della VM e le opzioni di rollback vengono pubblicati ai clienti tramite portale ed e-mail.
  • 9:30 AM CT: Vengono elaborate le linee guida per la creazione di ISO per il ripristino.
  • 13:00 CT: I playbook completi per il ripristino sono disponibili per i clienti, con due giorni di anticipo rispetto alla risposta ufficiale di Microsoft.

US Cloud: assistenza di esperti quando serve davvero

La risposta proattiva di US Cloud all'interruzione di CrowdStrike esemplifica il nostro valore come fornitore di supporto Microsoft di terze parti. Con oltre 50 ticket critici risolti prima di mezzogiorno e indicazioni fornite giorni prima di Microsoft, i nostri clienti hanno beneficiato di un ripristino più rapido, minori ritardi interni e meno stress durante un'interruzione globale su larga scala.

Sebbene non siamo riusciti a prevenire l'interruzione, abbiamo ridotto al minimo i costi, consentendo ai clienti di risparmiare milioni di dollari in perdite legate al tempo di inattività. Per le organizzazioni che stanno valutando i partner di assistenza, questo caso è la prova che US Cloud offre risultati concreti, non solo promesse.

Richiedi un preventivo a US Cloud per ottenere da Microsoft una riduzione dei prezzi del supporto Unified.

Non negoziare alla cieca con Microsoft

Nel 91% dei casi, le aziende che presentano a Microsoft un preventivo relativo al cloud statunitense ottengono sconti immediati e concessioni più rapide.

Anche se non cambi mai, una stima di US Cloud ti offre:

  • Prezzi di mercato reali per sfidare la posizione intransigente di Microsoft
  • Obiettivi di risparmio concreti: i nostri clienti risparmiano dal 30 al 50% rispetto a Unified.
  • Negoziare le munizioni: dimostrare di avere un'alternativa legittima
  • Informazioni senza rischi: nessun obbligo, nessuna pressione

 

"US Cloud è stata la leva di cui avevamo bisogno per ridurre la nostra fattura Microsoft di 1,2 milioni di dollari"
— Fortune 500, CIO