Cómo US Cloud guió a los clientes durante la interrupción del servicio de CrowdStrike
Cuando todo se quedó en pantalla azul, fuimos los primeros en aparecer.
Resumen del caso práctico
El 19 de julio de 2024, una actualización fallida de CrowdStrike provocó fallos generalizados en los sistemas de la infraestructura informática mundial, incluidos Microsoft Azure, Google Cloud y un sinfín de entornos empresariales. Cuando millones de terminales comenzaron a reiniciarse continuamente, cientos de clientes de US Cloud inundaron los canales de asistencia con tickets de gravedad 1.
El equipo de respuesta ante incidentes críticos de US Cloud se movilizó en cuestión de horas, proporcionando soluciones hasta dos días antes que Microsoft y ayudando a los clientes a restablecer sus operaciones en medio del caos.
Estadísticas del caso
Organización: Todos los clientes que utilizan CrowdStrike (más de 100)
Sector: casi todos los sectores
Tecnología: Azure, Hyper-V, Windows 10, Windows 11, Server
Nivel de gravedad: 1
Qué ocurrió: un controlador defectuoso inutilizó terminales en todo el mundo.
CrowdStrike, una plataforma de protección de terminales muy utilizada, lanzó una actualización defectuosa para su sensor Falcon alrededor de las 11 p. m. CT. La actualización incluía un controlador (C0000000291*.sys) que realizaba una lectura de memoria fuera de límites, lo que provocaba que todos los sistemas afectados mostraran una pantalla azul al arrancar. Dado que el controlador Falcon se carga antes que el núcleo del sistema operativo, los sistemas nunca llegaron a recuperarse o revertirse, lo que provocó un bucle infinito de bloqueos y reinicios.
A medianoche, US Cloud comenzó a recibir una avalancha de tickets de alta gravedad de clientes que experimentaban interrupciones en Windows 10, 11, Server y entornos virtualizados (Hyper-V, VMware). Azure y Google Cloud también se vieron afectados debido a la presencia de CrowdStrike en los sistemas backend, lo que agravó la interrupción.
Las repercusiones de la interrupción del servicio de CrowdStrike fueron de gran alcance y duraderas. Por ejemplo, un año después, Delta Airlines demandó a CrowdStrike por 500 millones de dólares en concepto de pérdidas derivadas del desastre de julio de 2024. Aunque los sistemas conectados ya vuelven a funcionar tras la interrupción, las consecuencias del incidente y el tiempo de inactividad correspondiente aún se están resolviendo para muchos clientes.
En otro ejemplo, las fuentes están descubriendo que la interrupción del servicio de CrowdStrike interrumpió la atención médica en cientos de hospitales de Estados Unidos. La estimación mínima de hospitales afectados es de 759 instituciones, con más de 200 hospitales que sufrieron interrupciones directamente relacionadas con la atención a los pacientes.
Aunque esta estadística no indica en modo alguno que la interrupción fuera la causa directa de ninguna emergencia médica o fallo en la atención sanitaria, sí pone de manifiesto la enorme importancia de mantener el tiempo de actividad de los sistemas informáticos. En otras palabras, la realidad es que el tiempo de inactividad de la infraestructura informática de cualquier organización puede provocar un efecto dominó de daños a las personas a las que presta servicio la organización.
Respuesta de US Cloud: respuesta rápida, soluciones personalizadas
En lugar de esperar a que Microsoft o CrowdStrike respondieran, US Cloud analizó el problema de forma independiente mediante ingeniería inversa y desarrolló múltiples estrategias de recuperación:
- Identificación de la causa raíz: A las 8:30 a. m., nuestros ingenieros habían diagnosticado el problema con el controlador dañado.
- Planes de resolución multipath: proporcionamos tres soluciones distintas adaptadas a las necesidades del cliente:
- Acceso al modo seguro y eliminación manual de archivos.
- Instrucciones para revertir el sistema.
- Estrategia de reinicio repetido (reconocimiento de correcciones posteriores al parche).
- Recuperación del entorno virtual: para los clientes que utilizan Azure o VMware, les guiamos a través del proceso de conectar discos virtuales a máquinas secundarias, eliminar el archivo defectuoso y volver a conectarlos para realizar un arranque limpio.
- Portal + Comunicación por correo electrónico: Se notificó a los clientes con antelación que no actualizaran CrowdStrike, lo que evitó daños mayores.
- Documentación escalable: proporcionamos scripts listos para ejecutar y pasos de compilación ISO para su uso en entornos grandes y diversos, algo fundamental para clientes con miles de terminales.
Nuestros clientes no solo recibieron ayuda rápida, sino que obtuvieron ayuda precisa antes de que la mayoría supiera siquiera qué se había roto.
Cronología de resolución de problemas: del pánico al manual de estrategias
- ~12:00 a. m. CT: Comienzan las primeras interrupciones del servicio; los clientes informan de pantallas azules.
- 2:00 a. m. – 5:00 a. m. CT: CrowdStrike corrige el problema por su parte, pero aún no hay disponible ninguna solución unificada.
- 8:15 a. m. CT: US Cloud activa una sala de crisis cuando comienza el turno de día.
- 8:30 a. m. CT: Nuestros ingenieros identifican el controlador defectuoso y su impacto.
- 9:00 a. m. CT: Las secuencias de comandos de eliminación del modo seguro , las instrucciones de arranque de máquinas virtuales y las opciones de restauración se publican para los clientes a través del portal y el correo electrónico.
- 9:30 a. m. CT: Se elaboran directrices para la creación de ISO con fines de recuperación.
- 1:00 p. m. CT: Los manuales de recuperación completos están disponibles para los clientes, dos días antes de la respuesta oficial de Microsoft.
US Cloud: asistencia de expertos cuando más importa
La respuesta proactiva de US Cloud ante la interrupción del servicio de CrowdStrike ejemplifica nuestro valor como proveedor externo de soporte técnico de Microsoft. Con más de 50 incidencias críticas resueltas antes del mediodía y orientación proporcionada días antes que Microsoft, nuestros clientes experimentaron una recuperación más rápida, menos retrasos internos y menos estrés durante una interrupción global masiva.
Aunque no pudimos evitar la interrupción del servicio, minimizamos su coste, lo que probablemente supuso un ahorro de millones de dólares para los clientes en pérdidas relacionadas con el tiempo de inactividad. Para las organizaciones que están evaluando socios de soporte, este caso es una prueba de que US Cloud ofrece resultados reales, no solo promesas.
Cómo pueden los fabricantes de automóviles reducir los costes del servicio de asistencia unificada de Microsoft en 2026 y financiar los requisitos en materia de vehículos de software (SDV), inteligencia artificial (IA) y ciberseguridad
Por qué las empresas inteligentes nunca combinan Azure MACC con el servicio de soporte unificado
La IA está convirtiendo los contratos de SaaS en compromisos de infraestructura