Como a US Cloud orientou os clientes durante a interrupção da CrowdStrike

Quando tudo ficou com o ecrã azul, nós aparecemos primeiro

Visão geral do estudo de caso

Em 19 de julho de 2024, uma atualização malfeita da CrowdStrike provocou falhas generalizadas em sistemas de infraestrutura de TI em todo o mundo, incluindo Microsoft Azure, Google Cloud e inúmeros ambientes empresariais. À medida que milhões de terminais começaram a entrar em loop de inicialização, centenas de clientes da US Cloud inundaram os canais de suporte com tickets de gravidade 1.

A equipa de resposta a incidentes críticos da US Cloud mobilizou-se em poucas horas, fornecendo correções até dois dias mais rápido do que a Microsoft e ajudando os clientes a restaurar as operações em meio ao caos.

Estatísticas do caso

Organização: Todos os clientes que utilizam o CrowdStrike (mais de 100)

Setor: Quase todos os setores

Tecnologia: Azure, Hyper-V, Windows 10, Windows 11, Servidor

Nível de gravidade: 1

O que aconteceu: um driver defeituoso derrubou terminais em todo o mundo

A CrowdStrike, uma plataforma de proteção de terminais amplamente utilizada, lançou uma atualização defeituosa para o seu sensor Falcon por volta das 23h (horário central dos EUA). A atualização incluía um controlador (C0000000291*.sys) que fazia uma leitura de memória fora dos limites, fazendo com que todos os sistemas afetados apresentassem uma tela azul ao arrancar. Como o controlador Falcon é carregado antes do kernel do sistema operativo, os sistemas nunca conseguiam avançar o suficiente para recuperar ou reverter, criando um ciclo infinito de falhas e reinicializações.

À meia-noite, a US Cloud começou a receber uma onda de tickets de alta gravidade de clientes que estavam enfrentando interrupções no Windows 10, 11, Server e ambientes virtualizados (Hyper-V, VMware). O Azure e o Google Cloud também foram afetados devido à presença do CrowdStrike nos sistemas de back-end, agravando a interrupção.

Os impactos da interrupção da CrowdStrike foram de longo alcance e duradouros. Por exemplo, um ano depois, a Delta Airlines processou a CrowdStrike por US$ 500 milhões em perdas resultantes da confusão de julho de 2024. Embora os sistemas conectados estejam novamente em funcionamento após a interrupção, as consequências do incidente e o tempo de inatividade correspondente ainda estão a ser resolvidos para muitos clientes.

Noutro exemplo, fontes estão a descobrir que a interrupção da CrowdStrike interrompeu os cuidados médicos em centenas de hospitais nos Estados Unidos. A estimativa mínima de hospitais afetados é de 759 instituições, com mais de 200 hospitais a sofrerem interrupções diretamente relacionadas com os cuidados aos pacientes.

Embora esta estatística não indique, de forma alguma, que a interrupção tenha sido diretamente responsável por qualquer emergência médica ou falha nos cuidados de saúde, ela demonstra a extrema importância de manter o tempo de atividade da TI. Em outras palavras, a realidade é que o tempo de inatividade da infraestrutura de TI de qualquer organização pode causar um efeito cascata de danos às pessoas atendidas pela organização.

Resposta da US Cloud: resposta rápida, soluções personalizadas

Em vez de esperar pela resposta da Microsoft ou da CrowdStrike, a US Cloud fez engenharia reversa do problema de forma independente e desenvolveu várias estratégias de recuperação:

  • Identificação da causa raiz: Às 8h30, os nossos engenheiros diagnosticaram o problema com o controlador corrompido.
  • Planos de resolução multipath: Fornecemos três soluções distintas adaptadas às necessidades do cliente:
    • Acesso ao Modo de Segurança e eliminação manual de ficheiros.
    • Instruções para reverter o sistema.
    • Estratégia de reinicialização repetida (reconhecimento de correção pós-patch).
  • Recuperação do ambiente virtual: para clientes que utilizam Azure ou VMware, orientámos-os sobre como anexar discos virtuais a máquinas secundárias, eliminar o ficheiro defeituoso e voltar a anexar para uma inicialização limpa.
  • Portal + Comunicação por e-mail: Os clientes foram notificados antecipadamente para não atualizarem o CrowdStrike, evitando danos adicionais.
  • Documentação escalável: Fornecemos scripts prontos para execução e etapas de compilação ISO para uso em ambientes grandes e diversificados — essenciais para clientes com milhares de terminais.

Os nossos clientes não receberam apenas ajuda rápida, mas também ajuda precisa antes mesmo que a maioria soubesse o que estava avariado.

Cronograma de resolução de problemas: do pânico ao manual de procedimentos

  • ~12:00 AM CT: Início das falhas iniciais; clientes relatam ecrãs azuis.
  • 2h00 – 5h00 CT: A CrowdStrike corrige o problema do seu lado, mas ainda não há uma solução alternativa unificada disponível.
  • 8h15 CT: A US Cloud ativa uma sala de guerra quando o turno diurno entra em funcionamento.
  • 8h30 CT: Os nossos engenheiros identificam o controlador defeituoso e o seu impacto.
  • 9h00 CT: Os scripts de eliminação do Modo de Segurança , as instruções de arranque da VM e as opções de reversão são publicados para os clientes através do portal e do e-mail.
  • 9h30 CT: São desenvolvidas orientações para a criação de ISO para recuperação.
  • 13h00 CT: Os manuais completos de recuperação estão disponíveis para os clientes — dois dias antes da resposta oficial da Microsoft.

US Cloud: Suporte especializado quando mais importa

A resposta proativa da US Cloud à interrupção da CrowdStrike exemplifica o nosso valor como fornecedor terceirizado de suporte da Microsoft. Com mais de 50 tickets críticos resolvidos antes do meio-dia e orientações fornecidas dias antes da Microsoft, os nossos clientes tiveram uma recuperação mais rápida, menos atrasos internos e menos stress durante uma grande interrupção global.

Embora não tenhamos conseguido evitar a interrupção, minimizámos o seu custo, provavelmente poupando aos clientes milhões em perdas relacionadas com o tempo de inatividade. Para as organizações que estão a avaliar parceiros de suporte, este caso é a prova de que a US Cloud oferece resultados reais, e não apenas promessas.

Obtenha uma estimativa da US Cloud para que a Microsoft reduza os preços do suporte unificado

Não negocie às cegas com a Microsoft

Em 91% dos casos, as empresas que apresentam uma estimativa da US Cloud à Microsoft obtêm descontos imediatos e concessões mais rápidas.

Mesmo que nunca mude, uma estimativa da US Cloud oferece:

  • Preços reais de mercado para desafiar a postura de «é pegar ou largar» da Microsoft
  • Metas de economia concretas – os nossos clientes economizam 30-50% em comparação com a Unified
  • Negociar munições – prove que tem uma alternativa legítima
  • Inteligência sem riscos – sem compromisso, sem pressão

 

“A US Cloud foi a alavanca de que precisávamos para reduzir a nossa conta da Microsoft em US$ 1,2 milhão”
— Fortune 500, CIO