Cómo US Cloud guió a los clientes durante la interrupción del servicio de CrowdStrike

Cuando todo se quedó en pantalla azul, fuimos los primeros en aparecer.

Resumen del caso práctico

El 19 de julio de 2024, una actualización fallida de CrowdStrike provocó fallos generalizados en los sistemas de la infraestructura informática mundial, incluidos Microsoft Azure, Google Cloud y un sinfín de entornos empresariales. Cuando millones de terminales comenzaron a reiniciarse continuamente, cientos de clientes de US Cloud inundaron los canales de asistencia con tickets de gravedad 1.

El equipo de respuesta ante incidentes críticos de US Cloud se movilizó en cuestión de horas, proporcionando soluciones hasta dos días antes que Microsoft y ayudando a los clientes a restablecer sus operaciones en medio del caos.

Estadísticas del caso

Organización: Todos los clientes que utilizan CrowdStrike (más de 100)

Sector: casi todos los sectores

Tecnología: Azure, Hyper-V, Windows 10, Windows 11, Server

Nivel de gravedad: 1

Qué ocurrió: un controlador defectuoso inutilizó terminales en todo el mundo.

CrowdStrike, una plataforma de protección de terminales muy utilizada, lanzó una actualización defectuosa para su sensor Falcon alrededor de las 11 p. m. CT. La actualización incluía un controlador (C0000000291*.sys) que realizaba una lectura de memoria fuera de límites, lo que provocaba que todos los sistemas afectados mostraran una pantalla azul al arrancar. Dado que el controlador Falcon se carga antes que el núcleo del sistema operativo, los sistemas nunca llegaron a recuperarse o revertirse, lo que provocó un bucle infinito de bloqueos y reinicios.

A medianoche, US Cloud comenzó a recibir una avalancha de tickets de alta gravedad de clientes que experimentaban interrupciones en Windows 10, 11, Server y entornos virtualizados (Hyper-V, VMware). Azure y Google Cloud también se vieron afectados debido a la presencia de CrowdStrike en los sistemas backend, lo que agravó la interrupción.

Las repercusiones de la interrupción del servicio de CrowdStrike fueron de gran alcance y duraderas. Por ejemplo, un año después, Delta Airlines demandó a CrowdStrike por 500 millones de dólares en concepto de pérdidas derivadas del desastre de julio de 2024. Aunque los sistemas conectados ya vuelven a funcionar tras la interrupción, las consecuencias del incidente y el tiempo de inactividad correspondiente aún se están resolviendo para muchos clientes.

En otro ejemplo, las fuentes están descubriendo que la interrupción del servicio de CrowdStrike interrumpió la atención médica en cientos de hospitales de Estados Unidos. La estimación mínima de hospitales afectados es de 759 instituciones, con más de 200 hospitales que sufrieron interrupciones directamente relacionadas con la atención a los pacientes.

Aunque esta estadística no indica en modo alguno que la interrupción fuera la causa directa de ninguna emergencia médica o fallo en la atención sanitaria, sí pone de manifiesto la enorme importancia de mantener el tiempo de actividad de los sistemas informáticos. En otras palabras, la realidad es que el tiempo de inactividad de la infraestructura informática de cualquier organización puede provocar un efecto dominó de daños a las personas a las que presta servicio la organización.

Respuesta de US Cloud: respuesta rápida, soluciones personalizadas

En lugar de esperar a que Microsoft o CrowdStrike respondieran, US Cloud analizó el problema de forma independiente mediante ingeniería inversa y desarrolló múltiples estrategias de recuperación:

  • Identificación de la causa raíz: A las 8:30 a. m., nuestros ingenieros habían diagnosticado el problema con el controlador dañado.
  • Planes de resolución multipath: proporcionamos tres soluciones distintas adaptadas a las necesidades del cliente:
    • Acceso al modo seguro y eliminación manual de archivos.
    • Instrucciones para revertir el sistema.
    • Estrategia de reinicio repetido (reconocimiento de correcciones posteriores al parche).
  • Recuperación del entorno virtual: para los clientes que utilizan Azure o VMware, les guiamos a través del proceso de conectar discos virtuales a máquinas secundarias, eliminar el archivo defectuoso y volver a conectarlos para realizar un arranque limpio.
  • Portal + Comunicación por correo electrónico: Se notificó a los clientes con antelación que no actualizaran CrowdStrike, lo que evitó daños mayores.
  • Documentación escalable: proporcionamos scripts listos para ejecutar y pasos de compilación ISO para su uso en entornos grandes y diversos, algo fundamental para clientes con miles de terminales.

Nuestros clientes no solo recibieron ayuda rápida, sino que obtuvieron ayuda precisa antes de que la mayoría supiera siquiera qué se había roto.

Cronología de resolución de problemas: del pánico al manual de estrategias

  • ~12:00 a. m. CT: Comienzan las primeras interrupciones del servicio; los clientes informan de pantallas azules.
  • 2:00 a. m. – 5:00 a. m. CT: CrowdStrike corrige el problema por su parte, pero aún no hay disponible ninguna solución unificada.
  • 8:15 a. m. CT: US Cloud activa una sala de crisis cuando comienza el turno de día.
  • 8:30 a. m. CT: Nuestros ingenieros identifican el controlador defectuoso y su impacto.
  • 9:00 a. m. CT: Las secuencias de comandos de eliminación del modo seguro , las instrucciones de arranque de máquinas virtuales y las opciones de restauración se publican para los clientes a través del portal y el correo electrónico.
  • 9:30 a. m. CT: Se elaboran directrices para la creación de ISO con fines de recuperación.
  • 1:00 p. m. CT: Los manuales de recuperación completos están disponibles para los clientes, dos días antes de la respuesta oficial de Microsoft.

US Cloud: asistencia de expertos cuando más importa

La respuesta proactiva de US Cloud ante la interrupción del servicio de CrowdStrike ejemplifica nuestro valor como proveedor externo de soporte técnico de Microsoft. Con más de 50 incidencias críticas resueltas antes del mediodía y orientación proporcionada días antes que Microsoft, nuestros clientes experimentaron una recuperación más rápida, menos retrasos internos y menos estrés durante una interrupción global masiva.

Aunque no pudimos evitar la interrupción del servicio, minimizamos su coste, lo que probablemente supuso un ahorro de millones de dólares para los clientes en pérdidas relacionadas con el tiempo de inactividad. Para las organizaciones que están evaluando socios de soporte, este caso es una prueba de que US Cloud ofrece resultados reales, no solo promesas.

Solicite un presupuesto a US Cloud para que Microsoft reduzca el precio de su soporte técnico unificado.

No negocies a ciegas con Microsoft

En el 91 % de los casos, las empresas que presentan un presupuesto de US Cloud a Microsoft obtienen descuentos inmediatos y concesiones más rápidas.

Incluso si nunca cambia, una estimación de US Cloud le ofrece:

  • Los precios reales del mercado desafían la postura de «lo tomas o lo dejas» de Microsoft.
  • Objetivos de ahorro concretos: nuestros clientes ahorran entre un 30 % y un 50 % en comparación con Unified.
  • Negociar munición: demuestra que tienes una alternativa legítima.
  • Inteligencia sin riesgos: sin obligaciones, sin presiones.

 

«US Cloud fue la palanca que necesitábamos para reducir nuestra factura de Microsoft en 1,2 millones de dólares».
— Fortune 500, director de informática