Comment US Cloud a guidé ses clients pendant la panne de CrowdStrike

Quand tout s'est figé, nous avons été les premiers à intervenir

Aperçu de l'étude de cas

Le 19 juillet 2024, une mise à jour bâclée de CrowdStrike a provoqué des pannes généralisées dans les infrastructures informatiques mondiales, notamment Microsoft Azure, Google Cloud et d'innombrables environnements d'entreprise. Alors que des millions de terminaux entraient en boucle de démarrage, des centaines de clients américains du Cloud ont inondé les canaux d'assistance de tickets de gravité 1.

L'équipe d'intervention en cas d'incident critique de US Cloud s'est mobilisée en quelques heures, fournissant des correctifs jusqu'à deux jours plus rapidement que Microsoft et aidant les clients à rétablir leurs opérations dans un contexte chaotique.

Statistiques des cas

Organisation : tous les clients utilisant CrowdStrike (plus de 100)

Secteur d'activité : Presque tous les secteurs

Technologie : Azure, Hyper-V, Windows 10, Windows 11, Server

Niveau de gravité : 1

Ce qui s'est passé : un pilote défectueux a mis hors service des terminaux dans le monde entier.

CrowdStrike, une plateforme de protection des terminaux largement utilisée, a publié une mise à jour défectueuse de son capteur Falcon vers 23 heures, heure centrale. Cette mise à jour comprenait un pilote (C0000000291*.sys) qui effectuait une lecture de mémoire hors limites, provoquant un écran bleu au démarrage de tous les systèmes concernés. Le pilote Falcon se chargeant avant le noyau du système d'exploitation, les systèmes n'ont jamais pu récupérer ou revenir en arrière, ce qui a créé une boucle infinie de plantage et de redémarrage.

À minuit, US Cloud a commencé à recevoir une vague de tickets de haute gravité provenant de clients confrontés à des pannes sur Windows 10, 11, Server et des environnements virtualisés (Hyper-V, VMware). Azure et Google Cloud ont également été touchés en raison de la présence de CrowdStrike dans les systèmes backend, ce qui a aggravé la perturbation.

Les répercussions de la panne de CrowdStrike ont été considérables et durables. Par exemple, un an plus tard, Delta Airlines a poursuivi CrowdStrike en justice pour 500 millions de dollars de pertes résultant de la pagaille de juillet 2024. Même si les systèmes connectés sont à nouveau opérationnels après la panne, les conséquences de l'incident et du temps d'arrêt correspondant sont encore en cours de règlement pour de nombreux clients.

Dans un autre exemple, des sources ont découvert que la panne de CrowdStrike a perturbé les soins médicaux dans des centaines d'hôpitaux à travers les États-Unis. On estime qu'au moins 759 établissements ont été touchés, dont plus de 200 hôpitaux ont subi des pannes directement liées aux soins prodigués aux patients.

Bien que cette statistique n'indique en aucun cas que la panne ait été directement responsable d'une urgence médicale ou d'une défaillance des soins de santé, elle souligne l'importance cruciale du maintien de la disponibilité des systèmes informatiques. En d'autres termes, la réalité est que toute interruption de l'infrastructure informatique d'une organisation peut avoir des répercussions négatives sur les personnes desservies par cette organisation.

Réponse de US Cloud : réponse rapide, solutions sur mesure

Plutôt que d'attendre la réponse de Microsoft ou de CrowdStrike, US Cloud a procédé de manière indépendante à une ingénierie inverse du problème et a développé plusieurs stratégies de récupération :

  • Identification de la cause profonde : À 8 h 30, nos ingénieurs avaient diagnostiqué le problème lié au pilote corrompu.
  • Plans de résolution multi-voies : Nous avons proposé trois solutions distinctes adaptées aux besoins du client :
    • Accès au mode sans échec et suppression manuelle des fichiers.
    • Instructions pour la restauration du système.
    • Stratégie de redémarrage répété (reconnaissance de correction post-patch).
  • Récupération de l'environnement virtuel : pour les clients utilisant Azure ou VMware, nous les avons guidés dans la procédure consistant à connecter des disques virtuels à des machines secondaires, à supprimer le fichier défectueux et à les reconnecter pour un démarrage propre.
  • Portail + communication par e-mail : les clients ont été informés rapidement de ne pas mettre à jour CrowdStrike, ce qui a permis d'éviter des dommages supplémentaires.
  • Documentation évolutive : nous avons fourni des scripts prêts à l'emploi et des étapes de création ISO pouvant être utilisés dans des environnements vastes et diversifiés, ce qui est essentiel pour les clients disposant de milliers de terminaux.

Nos clients n'ont pas seulement bénéficié d'une aide rapide, ils ont également reçu une aide précise avant même que la plupart d'entre eux ne sachent ce qui n'allait pas.

Chronologie de la résolution du problème : de la panique au plan d'action

  • ~12 h 00 CT : début des premières pannes ; les clients signalent des écrans bleus.
  • 2 h 00 – 5 h 00 (heure centrale) : CrowdStrike corrige le problème de son côté, mais aucune solution de contournement unifiée n'est encore disponible.
  • 8 h 15 (heure centrale) : US Cloud active une cellule de crise alors que l'équipe de jour prend le relais.
  • 8 h 30 (heure centrale) : Nos ingénieurs identifient le pilote défectueux et son impact.
  • 9 h 00 (heure centrale) : les scripts de suppression en mode sans échec , les instructions de démarrage des machines virtuelles et les options de restauration sont publiés à l'intention des clients via le portail et par e-mail.
  • 9 h 30 (heure centrale) : Élaboration de directives pour la création d'un ISO en vue de la restauration.
  • 13 h 00 CT : Les guides de reprise complets sont disponibles pour les clients, deux jours avant la réponse officielle de Microsoft.

US Cloud : une assistance experte quand vous en avez le plus besoin

La réponse proactive de US Cloud à la panne de CrowdStrike illustre parfaitement notre valeur en tant que fournisseur tiers de support Microsoft. Avec plus de 50 tickets critiques résolus avant midi et des conseils fournis plusieurs jours avant Microsoft, nos clients ont bénéficié d'une reprise plus rapide, de moins de retards internes et d'un stress moindre lors d'une perturbation mondiale massive.

Bien que nous n'ayons pas pu empêcher la panne, nous avons minimisé son coût, permettant ainsi à nos clients d'économiser plusieurs millions de dollars en pertes liées à l'indisponibilité. Pour les organisations qui évaluent leurs partenaires d'assistance, ce cas prouve que US Cloud offre des résultats concrets, et pas seulement des promesses.

Obtenez un devis auprès de US Cloud pour que Microsoft réduise ses tarifs d'assistance Unified.

Ne négociez pas à l'aveuglette avec Microsoft

Dans 91 % des cas, les entreprises qui soumettent une estimation du cloud américain à Microsoft bénéficient immédiatement de remises et de concessions plus rapides.

Même si vous ne changez jamais, une estimation US Cloud vous donne :

  • Les prix réels du marché remettent en question la position « à prendre ou à laisser » de Microsoft
  • Objectifs d'économies concrets: nos clients économisent 30 à 50 % par rapport à Unified.
  • Négocier les munitions – prouver que vous disposez d'une alternative légitime
  • Renseignements sans risque – aucune obligation, aucune pression

 

« US Cloud nous a permis de réduire notre facture Microsoft de 1,2 million de dollars. »
— Fortune 500, directeur informatique