كيف تكتب تحديثات الانقطاع بعد تعرض خدمتك / موقعك للتوقف


Mohammad S. Dayoub

لقد توقف العالم بأسره في يوم 24 كانون الثاني/يناير 2014، ربما تتذكر ذلك اليوم المشؤوم في حال كنت واحدًا من بين ال 42 مليون شخصًا الذين تضرروا يومها. إنه اليوم الذي انهارت فيه خدمات غوغل بشكل مفاجئ Google crashed. حيث توقفت خدمات جيميل Gmail، غوغل درايف Google Drive، تقويم غوغل Google Calendar، بالإضافة إلى غوغل بلس +Google حوالي الساعة 11 مساءً بتوقيت المحيط الهادئ. لقد اضطرب العالم وحدثت موجة عارمة من التغريدات على تويتر التي تتحدث عن نهاية الزمان لمدة نصف ساعة أو على الأقل حتى تم إصلاح الخلل وعاد عملاق الويب للوقوف على قدميه من جديد.

outage-updates.png.293981d6bb390b4d48312

إن إمكانية حدوث انقطاعات خطيرة مثل هذه هي حقيقة مؤسفة بالنسبة للأعمال التجارية على الإنترنت.

هناك العديد من الأجزاء التي توثر على بقاء موقعك الإلكتروني متوفرًا للزوار والتي بدورها قد تتوقف عن العمل أحيانًا. وكما هو الحال بالنسبة للكثير من الأشياء، فإن الأمر الأكثر أهمية من حدوث الخلل هي الآلية التي تتبعها لتصحيحه. وفي حال حدوث انقطاع خطير لمدة كافية في موقعك الإلكتروني فإن كتابة منشور بعد تصحيح الخلل هو من أفضل الطرق لإعادة الأمور إلى نصابها.

ما هي تحديثات الانقطاع Outage Updates ولماذا يجب استخدامها؟

عادةً ما تدعى تحديثات الانقطاع postmortems وهي تقارير تقنية دقيقة وشاملة متاحة للجميع تتكلم عن حدث التوقف. وغالبًا ما تُنشر في صفحة الحالة status page. توفر تحديثات الانقطاع جدول زمني لبدء حدوث المشاكل في الموقع، بالإضافة إلى ما تم القيام به لإصلاح كل مشكلة.

وإليك مجموعة من الأسباب التي توضح لماذا عليك أن توليها اهتمامك:

تؤمّن فهمًا أفضل لفريق التطوير والتشغيل DevOps: إن إجراء تحديث انقطاع شامل يعطي فريق التطوير والتشغيل لديك معلومات أكثر عن أداء البنية التحتية لموقعك في ظروف معينة. من النادر أن يكون السبب الذي يجعل موقعك يتوقف عن العمل سببًا سطحيًا، إنه غالبًا ما يكون مزيجًا من عدة مشاكل متنوعة تؤدي إلى توقف الموقع. لذلك إن إجراء تحقيق شامل يعطيك المعرفة اللازمة للتعامل مع المشاكل المشابهة التي قد تحدث في المستقبل ومنع حدوثها في نهاية المطاف.

إعادة بناء ثقة العملاء: عندما يتوقف موقعك أو تطبيقك لفترة طويلة من الوقت، سيفقد عملاءك قدرًا من ثقتهم بامتلاك فريقك للمهارات التقنية اللازمة للحفاظ على كل شيء متاحًا ويعمل بشكل صحيح. وإذا اعتقد العملاء في مرحلة ما بأنك ستستمر في المعاناة من مشاكل التوقف فإنهم سيفكرون في الانتقال إلى أحد منافسيك.

إن كتابة تحديث انقطاع جيد سيساعدك على إحياء ثقة العملاء التي فقدتها بسبب حدوث الانقطاع.

الكتابة بشكل عام ليست أمرًا سهلًا، ولا يختلف الأمر بالنسبة لكتابة تحديثات الانقطاع، لكن هناك بعض الإرشادات التي يمكنك اتباعها لتكون تحديثات الانقطاع واضحة، متماسكة، ومفيدة.

كتابة تحديث انقطاع ممتاز

يقوم تحديث الانقطاع الجيد بثلاثة أشياء: الاعتذار عن التوقف الذي حصل، وإظهار معرفتك بما حدث بالضبط ولماذا حدث، بالإضافة إلى تقديم خطة تضمن ألا تتكرر نفس المشكلة مرة أخرى.

الاعتذار

من المحتمل أن يكون توقف موقعك قد أحبط عملاءك وبالتأكيد هم محقون في ذلك. لذلك اعتذر مباشرةً وأنت تعني ما تقول، فلا تقل مثلاً: "نحن نعتذر عن أي ضرر قد يكون حصل" ﻷنك هكذا تلقي باللوم على العملاء، كما أن الكلام المنافق يُكتشف على الفور. هنالك أشخاص يرغبون في الاستمرار بدعم شركتك، وهم يستحقون منك أن تكلمهم بلغة صادقة، موثوقة، وشخصية.

إظهار فهمك للمشكلة

الشيء التالي الذي يجب أن يقوم به تحديث الانقطاع هو إثبات معرفتك الكاملة لما حدث بالضبط ولماذا حدث. لأن التفسير المرتبك يضر سمعتك بطريقتين: يجعلك تظهر بمظهر غير الكفؤ، ويترك انطباعًا لدى عملائك بأنك شخص غير مبالي. لذلك عليك إيجاد طريقة لإيصال ما تود قوله بوضوح.

تتوقف كمية التفاصيل التي يجب الحديث عنها في تحديثات الانقطاع على نوعية جمهورك. إذا كنت شركة تجارة إلكترونية فعليك الحذر بشكل خاص من عدم إغراق عملائك بالمصطلحات التقنية المربكة. أما إذا كان عملائك مطورون -بطريقة ما- فإنهم سيقدرون سماع أهم التفاصيل العملية لما حدث: تفاصيل مثل الرسوم البيانية، جدول زمني للأحداث، والخطوات المحددة التي اتخذتها لمعالجة المشكلة.

ملاحظة جانبية: إذا كان سبب التوقف ناتج عن مزود خدمة الإنترنت الرئيسي upstream provider الذي تعتمد بنية موقعك التحتية عليه، فهذه ليست فرصة لإدانتهم وإعفاء نفسك من المسؤولية، لأنك اخترت استخدام خدمتهم وبناء تطبيقك بمثل هذه الطريقة التي أدت إلى حدوث نقطة الفشل هذه.

إن اعترافك بأخطائك لا يتضمن أبدًا إلقاء اللوم على الآخرين.

خطة لتجنب المشاكل المستقبلية

يريد عملاءك معرفة ماذا ستفعل لضمان عدم تكرار هذه المشكلة مجددًا. هذه فرصة لتفصيل الإصلاحات، التعديلات، أو التحديثات التي تنوي القيام بها مع وضع جدول زمني لتنفيذها. وهناك فائدة ثانية لكتابة ذلك وهي أنك في هذه الحالة تكون عرضة للمساءلة عن التنفيذ الفعلي للإصلاحات التي وعدت بها.

متى يتطلب الأمر كتابة تحديث انقطاع؟

هناك سؤال أسمعه كثيرًا: "ما هي الحوادث التي تتطلب تقديم تحديث انقطاع للعملاء؟". والجواب هو أن ذلك يعتمد على الظرف و نوع الخدمة.

الخدمات الحرجة

معرفة متى ولماذا تنشر تحديث انقطاع يعتمد على الخدمة التي تقدمها وعدد الأشخاص الذين يعتمدون عليك. يتوقع من خدمات مثل غوغل وAmazon Web Services أن تعمل بنسبة 100% من الوقت. إذا حدث انقطاع لدى AWS، فمن الممكن أن يصبح أولئك الذين يستعملون الخدمة غير متوفّرين نهائيًا لعملائهم. وفي هذه الحالة فإن أي مشكلة طفيفة أو انقطاع لمدة دقيتين يتطلب نشر تحديث انقطاع.

نعود إلى مثال غوغل السابق، لقد انقطعت خدماتهم لمدة 30 دقيقة، مما دفع Ben Treynor نائب رئيس مهندسي غوغل إلى كتابة تحديث انقطاع رائع للأشخاص الذين تأثروا بما حدث. لقي الاعتذار استحسان الناس وكانوا ممتنين عمومًا لهذا التقرير المفصل.

خدمات مهمة ولكنها ليست حرجة

نحن نستعمل خدمة Wistia لاستضافة فيديوهاتنا التسويقية والمعرفية. ومن المهم توفرّ هذه الفيديوهات لمساعدة عملائنا، لكن تأثير انقطاع خدمة Wistia لا يشابه الوضع الخانق الذي ستكون به عند انقطاع خدمات AWS. إن خدمات مثل Wistia يجب أن تنشر تحديثات انقطاع بعد حدوث توقف لمدة 30 دقيقة أو أكثر.

في كانون الأول/ديسمبر 2014 شهدت خدمة إدارة النطاقات DNSimple انقطاعًا طويلًا ناجمًا عن هجوم DDoS ضخم. حيث أصبح موقعهم-ومن ثم مواقع عملائهم- غير متوفرة لعدة ساعات متواصلة. لقد كانت هذه قضية كبيرة كما أن العديد من عملائهم كانوا غير قادرين كليًا على العمل في ذلك اليوم. لقد ترقب أولئك العملاء تقرير انقطاع من DNSimple يشرح بالتفصيل ماذا حدث بالضبط، ولماذا حدث، وماذا فعلوا حيال ذلك، وبالفعل نشرت DNSimple تحديث انقطاع.

لقد قرأت أطنان من تحديثات الانقطاع بحكم عملي في خدمة statuspage.io ، ودائمًا ما أشير إلى هذا التحديث كمثال يحتذى به.

56d0bc89dabbd_1outage-status-update-dns-

الاعتذار. الخطوة الأولى لإصلاح الوضع هي الاعتذار، عليك أن تتحمل مسؤولية المشكلة. ولقد قام المدير التنفيذي Anthony Eden بعمل رائع بما يتعلق بهذه النقطة، فهو لم يلقي اللوم على أحد وتحمل المسؤولية منذ بداية المنشور-لم يتصرف هكذا لأنه درامي زيادة عن اللزوم، ولكن لأنه يقرّ بحاجة العديد من العملاء الذين خذلهم توقف DNSimple إلى الاعتراف بالخطأ.

ماذا حدث ولماذا؟ إن DNSimple منتج تقني، والمنتجات التقنية لديها عملاء تقنيون، والعملاء التقنيون يتوقعون نشر تحديث انقطاع تقني. هنالك دائمًا خطر في تضمين تفاصيل زائدة في تحديثات الانقطاع، لكن معظم الناس لا يقلّلون من شأن ما يجب توضيحه.

لقد قدّم تحديث الانقطاع هذا توضيحًا رائعًا حول ما حدث ولماذا. حيث تحدثوا عن حجم هجوم DDoS وكيف ولماذا لم تتمكن الأجهزة المتوفرة بين أيديهم من التعامل مع حركة مرور البيانات المتدفقة.

نحن نعمل بجهد لتجنب حصول حوادث أخرى. لا يمكنك أبدًا (ولا يجب أن تقوم بذلك نهائيًا) ضمان عدم حدوث الانقطاع مرة أخرى. ما يمكنك القيام به على أية حال هو الحديث عن الخطوات التي اتخذتها لتجنب حدوث مشاكل مشابهة مرة أخرى. ولقد تحدث Anthony في هذه النقطة عن خدمات الطرف الثالث التي سيستخدمونها، كما تحدث بالتفصيل عن بعض ميزات يخططون لإضافتها والتي ستوفر طريقة للتغلب على المشاكل بالنسبة لعملائهم الذين سيتأثرون في حال حدوث أي هجوم DDoS مستقبلي.

القيام بالعمل الصحيح

حدوث الانقطاعات حقيقة محزنة بالنسبة للمشاريع التجارية على الإنترنت. وحتى أكثرنا خبرة قاسى من هذا الأمر، كما أنها قد تضر بسمعتنا. إن كتابة تحديث انقطاع جيد يساعد في تخفيف الآثار السلبية التي تترافق مع الانقطاعات الطويلة.

إن عملائك يدعمونك، فلا تخذلهم.

ترجمة وبتصرف للمقال How to Recover After Your Website Crashes لصاحبه Steve Klein.





تفاعل الأعضاء


لا توجد أيّة تعليقات بعد



يجب أن تكون عضوًا لدينا لتتمكّن من التعليق

انشاء حساب جديد

يستغرق التسجيل بضع ثوان فقط


سجّل حسابًا جديدًا

تسجيل الدخول

تملك حسابا مسجّلا بالفعل؟


سجّل دخولك الآن