كيف قادت US Cloud العملاء خلال انقطاع خدمة CrowdStrike

عندما ظهرت الشاشة الزرقاء، كنا أول من ظهر

نظرة عامة على دراسة الحالة

في 19 يوليو 2024، تسبب تحديث فاشل لبرنامج CrowdStrike في تعطل واسع النطاق للأنظمة عبر البنية التحتية العالمية لتكنولوجيا المعلومات، بما في ذلك Microsoft Azure وGoogle Cloud والعديد من بيئات المؤسسات. مع بدء ملايين النقاط الطرفية في الدوران في حلقة تشغيل، غمر مئات من عملاء US Cloud قنوات الدعم بطلبات دعم من الدرجة الأولى.

تم حشد فريق الاستجابة للحوادث الحرجة التابع لشركة US Cloud في غضون ساعات، حيث قدم حلولاً أسرع بمقدار يومين من Microsoft وساعد العملاء على استعادة عملياتهم وسط الفوضى.

إحصائيات القضية

المنظمة: كل عميل يستخدم CrowdStrike (100+)

الصناعة: جميع الصناعات تقريبًا

التكنولوجيا: Azure، Hyper-V، Windows 10، Windows 11، Server

مستوى الخطورة: 1

ما حدث: سائق معطل تسبب في تعطيل نقاط النهاية حول العالم

أصدرت CrowdStrike، وهي منصة حماية النقاط الطرفية المستخدمة على نطاق واسع، تحديثًا خاطئًا لمستشعر Falcon حوالي الساعة 11 مساءً بتوقيت وسط أمريكا. تضمن التحديث برنامج تشغيل (C0000000291*.sys) قام بقراءة ذاكرة خارج النطاق، مما تسبب في ظهور شاشة زرقاء على جميع الأنظمة المتأثرة عند التشغيل. ونظرًا لأن برنامج تشغيل Falcon يتم تحميله قبل نواة نظام التشغيل، لم تتمكن الأنظمة من الوصول إلى مرحلة الاسترداد أو التراجع، مما أدى إلى حدوث حلقة لا نهائية من التعطل وإعادة التشغيل.

بحلول منتصف الليل، بدأت US Cloud في تلقي موجة من التذاكر عالية الخطورة من العملاء الذين يعانون من انقطاع الخدمة عبر Windows 10 و 11 و Server والبيئات الافتراضية (Hyper-V و VMware). كما تأثر Azure و Google Cloud بسبب وجود CrowdStrike في أنظمة الخلفية، مما زاد من حدة الاضطراب.

كانت آثار انقطاع خدمة CrowdStrike بعيدة المدى وطويلة الأمد. على سبيل المثال، بعد عام، قامت شركة Delta Airlines بمقاضاة CrowdStrike للحصول على تعويض قدره 500 مليون دولار عن الخسائر الناتجة عن الفوضى التي حدثت في يوليو 2024. على الرغم من أن الأنظمة المتصلة تعمل مرة أخرى بعد انقطاع الخدمة، إلا أن عواقب الحادث ووقت التعطل المرتبط به لا يزالان قيد المعالجة بالنسبة للعديد من العملاء.

وفي مثال آخر، اكتشفت المصادر أن انقطاع خدمة CrowdStrike تسبب في تعطيل الرعاية الطبية في مئات المستشفيات في جميع أنحاء الولايات المتحدة. ويقدر العدد الأدنى للمستشفيات المتضررة بـ 759 مؤسسة، حيث تعرضت أكثر من 200 مستشفى لانقطاع الخدمة بشكل مباشر فيما يتعلق برعاية المرضى.

على الرغم من أن هذه الإحصائية لا تشير بأي شكل من الأشكال إلى أن الانقطاع كان السبب المباشر لأي حالة طبية طارئة أو فشل في الرعاية الصحية، إلا أنها توضح الأهمية البالغة للحفاظ على استمرارية عمل تكنولوجيا المعلومات. بعبارة أخرى، الحقيقة هي أن تعطل البنية التحتية لتكنولوجيا المعلومات في أي مؤسسة يمكن أن يتسبب في سلسلة من الأضرار التي تمس المستفيدين من خدمات تلك المؤسسة.

استجابة US Cloud: استجابة سريعة وحلول مخصصة

بدلاً من انتظار رد Microsoft أو CrowdStrike، قامت US Cloud بشكل مستقل بعملية هندسة عكسية للمشكلة ووضعت عدة استراتيجيات للاستعادة:

تحديد السبب الجذري: بحلول الساعة 8:30 صباحًا، كان مهندسونا قد شخّصوا المشكلة المتعلقة ببرنامج التشغيل التالف.
خطط حلول متعددة المسارات: قدمنا ثلاثة حلول متميزة مصممة خصيصًا لتلبية احتياجات العملاء:

الوصول إلى الوضع الآمن وحذف الملفات يدويًا.
تعليمات استعادة النظام.
استراتيجية إعادة التشغيل المتكررة (التعرف على الإصلاح بعد التصحيح).

استعادة البيئة الافتراضية: بالنسبة لل عملاء الذين يستخدمون Azure أو VMware، قمنا بإرشادهم إلى كيفية توصيل الأقراص الافتراضية بالأجهزة الثانوية، وحذف الملف التالف، وإعادة التوصيل من أجل إجراء عملية تشغيل نظيفة.
بوابة + اتصال عبر البريد الإلكتروني: تم إخطار العملاء مبكراً بعدم تحديث CrowdStrike، مما منع حدوث المزيد من الضرر.
وثائق قابلة للتطوير: قدمنا نصوص برمجية جاهزة للتنفيذ وخطوات إنشاء ISO للاستخدام في بيئات كبيرة ومتنوعة — وهو أمر بالغ الأهمية للعملاء الذين لديهم آلاف النقاط النهائية.

لم يحصل عملاؤنا على مساعدة سريعة فحسب، بل حصلوا على مساعدة دقيقة قبل أن يعرف معظمهم ما الذي تعطل.

جدول زمني لحل المشكلة: من الذعر إلى خطة العمل

~12:00 صباحًا بتوقيت وسط أمريكا: بدء الانقطاعات الأولية؛ أبلغ العملاء عن ظهور شاشات زرقاء.
2:00 صباحًا – 5:00 صباحًا بتوقيت وسط أمريكا: قامت CrowdStrike بإصلاح المشكلة من جانبها، ولكن لا يوجد حتى الآن حل موحد متاح.
8:15 صباحًا بتوقيت وسط أمريكا: US Cloud تنشط غرفة العمليات مع بدء نوبة العمل النهارية.
8:30 صباحًا بتوقيت وسط أمريكا: يحدد مهندسونا برنامج التشغيل المعيب وتأثيره.
9:00 صباحًا بتوقيت وسط أمريكا: يتم نشر نصوص حذف الوضع الآمن وتعليمات تشغيل VM وخيارات التراجع للعملاء عبر البوابة الإلكترونية والبريد الإلكتروني.
9:30 صباحًا بتوقيت وسط أمريكا: تم وضع إرشادات إنشاء ISO من أجل الاستعادة.
1:00 مساءً بتوقيت وسط أمريكا: تم توفير أدلة الاستعادة الكاملة للعملاء — قبل يومين من رد Microsoft الرسمي.

السحابة الأمريكية: دعم الخبراء عندما يكون ذلك ضروريًا للغاية

إن استجابة US Cloud الاستباقية لانقطاع خدمة CrowdStrike تجسد قيمتنا كمزود دعم خارجي لـ Microsoft. مع حل أكثر من 50 تذكرة حرجة قبل الظهر وتقديم التوجيهات قبل Microsoft بأيام، تمتع عملاؤنا باستعادة أسرع وأقل تأخير داخلي وأقل ضغط خلال انقطاع عالمي واسع النطاق.

على الرغم من أننا لم نتمكن من منع انقطاع الخدمة، إلا أننا قللنا من تكلفته إلى الحد الأدنى، مما وفر على العملاء على الأرجح ملايين الدولارات من الخسائر المرتبطة بانقطاع الخدمة. بالنسبة للمؤسسات التي تقيّم شركاء الدعم، فإن هذه الحالة هي دليل على أن US Cloud تحقق نتائج حقيقية، وليس مجرد وعود.