خطأ غير مقصود تسبب في انقطاع خدمات فيسبوك عن ملايين المستخدمين

  • أحد مهندسي شركة فيسبوك تسبب في انقطاع عمل خدمات الشركة
  • بيان فيسبوك يوضح أن الخلل وقع في النظام الرئيسي لتنظيم حركة الاتصالات
  • عجز مهندسو الشركة عن إعادة تشغيل خدمات فيسبوك بسرعة

أوضحت شركة فيسبوك، مساء الثلاثاء، أسباب انقطاع خدماتها لمدة أكثر من 6 ساعات، مشيرة إلى إلى أن العطل نتج عن “خطأ غير مقصود من جانب أحد مهندسيها خلال صيانة دورية لأحد مراكز البيانات”، ما تسبب في قطع اتصال كافة مراكز بيانات الشركة بشبكة الإنترنت.

وقال سانتوش جاناردهان، نائب رئيس قطاع البنية التحتية في فيسبوك عبر مدونة الشركة، إن المشكلة “وقعت نتيجة خلل في النظام الرئيسي لتنظيم حركة الاتصالات على شبكة مراكز البيانات الرئيسية للشركة، وهذا النظام هو المسؤول عن ربط كافة الوحدات الحاسوبية الرئيسية لفيسبوك، والتي تتكون من عشرات الآلاف من كابلات الألياف الضوئية، والتي تربط مراكز بيانات فيسبوك حول العالم”.

وأوضح أنه رغم تصميم أنظمة الشبكة لمراجعة أوامر لمنع حدوث مثل هذه الأخطاء، “حدث خطأ في أداة التدقيق منعها من إيقاف الأمر بشكل صحيح”،  وبسبب هذا التغيير، حدث “انقطاع كامل لاتصالات بين مراكز البيانات  والإنترنت، وهو ما تسبب في مشكلة ثانية جعلت الأمور أسوأ” وتتعلق المشكلة الثانية بما يسمى إدارة أوامر أسماء النطاقات (DNS) التي تسمح لعناوين الويب بنقل المستخدمين إلى وجهاتهم.”

وقال سانتوش جاناردهان إن مراكز البيانات بدأت في رفض الطلبات القادمة من هذه الخوادم مع تعطل الشبكة الرئيسية، ما جعل الخوادم الخاصة بالشركة غير قابلة للوصول على الرغم من أنها كانت لا تزال تعمل، “وهذا جعل من المستحيل على بقية الإنترنت العثور على الخوادم.

وأشار البيان إن  عملية الانقطاع حدثت بسرعة كبيرة فيما عجز مهندسو الشركة عن الوصول إلى مراكز البيانات الخاصة بالشركة من خلال الوسائل العادية لأن شبكاتهم كانت معطلة، وبسبب هذا العطل، تم إرسال المهندسين إلى مراكز البيانات لتصحيح المشكلة وإعادة تشغيل الأنظمة، وهو ما احتاج إلى الكثير من الوقت لأن هذه المراكز مصممة بدرجة أمان عالية، فهي لا تسمح بإجراء تعديلات حتى مع الدخول إليها، لذلك استغرق الأمر وقتا إضافيا لتنشيط بروتوكولات الوصول الآمن اللازمة لتصحيح المشكلة.

وأكد سانتوش جاناردهان أنه من الآن فصاعدًا  تتمثل مهمة الشركة في تعزيز الاختبارات والتدريبات الشاملة للتأكد من أن مثل هذه الأخطاء لن تحدث مجددا، منوها أن هذا الخطأ مثل فرصة للتعلم والتقدّم، فقد علم جميع الموظفين درسا جديدا، حيث أن شركة فيسبوك تقوم بعد كل مشكلة صغيرة كانت أو كبيرة بعملية مراجعة لفهم  الخطأ وجع الأنظمة أكثر مرونة.

وبعد انقطاع دام حوالي ست ساعات، أعلنت شركة فيسبوك الإثنين، عودة خدماتها إلى العمل، وأنها تبذل جهودا للعودة بالكامل إلى العمليات المنتظمة.