التنبيهات والخطأ في التخزين ، وكيفية التعامل معها؟

منذ وقت ليس ببعيد ، نجحت شركة تكنولوجيا معلومات واحدة متخصصة في العمل مع بيانات العملاء في مدينة N بنجاح في عملها في DC 24/7. نفس الحالة عندما "صانع الأحذية في الأحذية" ، أي في شركة تكنولوجيا المعلومات تم تصحيحه بشكل جيد. بدأ الأمر المثير للاهتمام ، بعد سنوات عديدة من العمل ، ترك المدير الفني منصبه ، الذي وقف عند الأساسيات ، حيث تم الاحتفاظ بالسيطرة على التشغيل السليم لقطاع تكنولوجيا المعلومات بأكمله. تم استبداله بشخص لا يقل خبرة (يشار إليه فيما يلي باسم "الايجابيات") ، وحتى مع آفاق أوسع ، فقد فتن حرفيا "الأعمال" بآفاق التنمية الجديدة. ولكن ، كما يحدث في كثير من الأحيان ، فإن الأشخاص الذين يحلقون على ارتفاع عال يحجمون عن النزول إلى الأرض على مستوى الإدارة العادية.

صورة

توقيت الحادثة:

اليوم الأول (أبريل) : بدأ نظام تخزين محلي في صب التنبيهات ، ثم ظهرت الأخطاء الأولى فيما بينها. بعد الاطلاع على ذلك ، قام المشرف بإبلاغ المشرف عليه وفقًا للتعليمات. ولوح محترفونا بالرد باتباع "القاعدة الذهبية للمبرمج" - "هل تعمل؟" لا تلمس!".

التراجع في اليوم الأول - عادة ما يتصل نظام التخزين باستخدام التنبيهات ، ومن بينها تسليط الضوء على التنبيهات (من "التنبيه") - التنبيهات. في الواقع ، هذه تنبيهات تشير إلى حدث إنذار أو تنبهه. أنواع التنبيهات:
تحذيرات (من "تحذير") - تحذيرات ؛ عادة ما يمنح الوقت للتفكير بهدوء.
Errora (من "خطأ") - الأخطاء ؛ على سبيل المثال ، تعطل أحد الأقراص ، ولكن لم تتم مقاطعة الوصول إلى البيانات ؛ هنا لا يستحق تأجيل قرارهم حتى وقت لاحق.
( “Critical Error”) – , , .

(/) , ( /) , . ( ) ,

صورة
(): مهندسنا (Agat-A) ، الذي يعمل على مشروع آخر للعميل ، يكتشف هذه الأخطاء ، ويتساءل "ماذا فعلوا؟" ، والجواب هو "لا شيء ، وحالة في نظامك الداخلي ، والإدارة محدثة ، ..." . من جانب المسؤول المحلي ، تم عمل كل شيء وفقًا للعملية القياسية ، بوضوح وفقًا للتعليمات قبل شهرين. على السؤال - ربما تحتاج إلى مساعدة ، أجاب المشرف أنه أكمل دوره ، ولكن لم تكن هناك فرق.

تراجع اليوم الثاني:

سيساعد تقديم قائمة التحقق من التعافي من الكوارث واستعمالها الحصيف على استعادة الصورة العامة للأعمال ، ويمكن أن يساعد أيضًا في تجنب الأخطاء الواضحة والضجيج غير الضروري.

مثال على قائمة مرجعية لاستعادة البيانات المعقدة للمجمع:
, .
— . — .

, , .

, — .


صورة

(): تجاهل الأخطاء أدى إلى حقيقة أن نظام التخزين أصبح أقل استجابة ، ولسبب ما لم يقم دائمًا بسحب المهام التي تراكمت ، ظهرت أول شكاوى العملاء حول سرعة العمل خلال ساعات الذروة. وهنا بالفعل من المؤيد (مدير تكنولوجيا المعلومات) سئل في اجتماع التخطيط. أدرك أن الوقت قد حان للقيام بشيء ما ونزل إلى "غرفة المحرك". خلاصة القول - خلال اليوم ، تم فتح حالة على بوابة البائع حول ... وحدة تحكم فاشلة!

بعد ذلك ، طلب منا مهندس العملاء بأدب المساعدة. بشكل منفصل ، من الضروري الإشارة إلى أنه من أجل توفير دعم الشركات التابعة والبائعين في الموقع عند شراء النظام ، قمنا "بقطع" وبحكم القانون لم يكن علينا التعامل مع هذه المشكلات على الإطلاق ، ولكن نظرًا لوجود علاقات جيدة مع العميل والمشاريع التي يتم تنفيذها مرة واحدة كل عام ونصف ، نحن متصلون لحل المشكلة بناء على طلب العميل. اطلب على الفور إزالة السجلات ، ونستلمها على الفور ، أوصف بشكل أوضح موقف الاتصال بالبائع ، وحدد الأهمية ، وما إلى ذلك. تظهر السجلات أن وحدة تحكم واحدة ماتت ، وتعطلت الثانية ، لكنها تعمل على إصلاح الأخطاء أثناء الطيران ، كما أن البطارية في وحدة التحكم الثانية قد ماتت أيضًا. نعلن عن التشخيص (حسنًا ، هذه ليست جملة) ، نقوم بتسريع ترتيب وحدات التحكم من الشركة المصنعة ، كالمعتاد ، لم يكونوا في المستودع الروسي.

— , . . / .

.
:

.
: ____________________.
: ____________________.
.
: ____________________.
: ____________________.

, .
, .

, , , . , .

:

  • , .. , , .
  • , .. IT-.
  • .
  • IT-.

اليوم الرابع (أغسطس) : بعد بضعة أسابيع ، تجاوزت وحدات التحكم الجمارك ووصلت إلى عميل الخادم (على طول الطريق ، نعيد كتابة الأرقام التسلسلية ، ستكون هناك حاجة لإغلاق الحالة لدعم البائع عند إرسال وحدات التحكم القديمة). المسار من الجمارك إلى الخادم هو يومين. وبعد ذلك ... بدأ الواقع على مهل مرة أخرى. ولماذا كنا في عجلة من أمرنا؟ رفض العميل الاستبدال المقترح لوحدات التحكم بأخصائيينا ، أو على الأقل مصاحبة لهذه العملية ، فنحن أنفسنا لن نكون حمقى ، وسنكتشف ذلك (كما أظهرت الممارسة خلال عمل المدير الفني السابق ، كان هذا صحيحًا بنسبة 100 ٪). وفقًا لشروط الخدمة ، من الضروري (مرغوب جدًا!) إرسال وحدات التحكم القديمة المستبدلة إلى الشركة المصنعة في غضون أسبوعين. قامت الشركة المصنعة بتذكير العميل بالعودة أكثر من مرة.

تراجع اليوم الرابع - الناس بشر ، لا تخافوا من طرح سؤال ، لا تترددوا في طلب المساعدة ولا تستهينوا بفحص نفسك مرة أخرى. بالطبع ، هناك أشخاص يمكنهم ، بسحبهم وخبرتهم وقدرتهم على العمل 12 ساعة في اليوم ، سحب المكون التنظيمي بأكمله. يعني العمل الجماعي أن كل شخص يستخدم نقاط قوته وليس العكس. كأخصائيين ، قم بالعمل من خلال خيارات النسخ الاحتياطي قبل حدوث المواقف الحرجة. استعد لهم مقدمًا ودعهم يمرون بك. وحتى إذا حدث شيء ما ، فستكون جاهزًا وقادرًا على اجتياز هذه الاختبارات بأقل الخسائر.

اليوم الخامس (أكتوبر ، ذروة): فيما

يلي نص كتبه مهندس الشخص الأول.

في الصباح الباكر ، عندما كان المكتب حوالي 5 دقائق سيرًا على الأقدام ، جاءت مكالمة من رقم غير معروف. أجب على المكالمة - صوت منزعج يطلب من محترفيهم المساعدة في حل المشكلة مع تخزينهم ، لأن لا يمكن للعملاء الوصول إلى خدمتهم. أثناء المحادثة أحاول التعرف على العميل. ومثلهم تمامًا ، أتذكر أنه (المحترفون) على ما يبدو قد قضى على SPoF (نقطة فشل واحدة) كوحدة تحكم معطلة تمامًا ، لكنه أجل باستمرار استبدال الثاني ، فاشلًا. حسنًا ، سيخبر الفني فقط المزيد من التفاصيل الفنية ، لذلك ننسق ونجري اتصالًا فوريًا مع المحترفين والمدير ، بالمناسبة مع مسؤول جديد تمامًا ، والذي تبين أنه تم تعيينه في أوائل سبتمبر.

أبدأ بطرح الأسئلة ، أسئلة أكثر وأكثر دقة ، في محاولة لتوطين المشكلة. أقتبس بعض الإجابات في مجموعة من المشرفين والمشرفين الجدد: "وحدة التحكم القديمة الميتة للبدائل على الفور تقريبًا ، في نهاية أغسطس أو بداية سبتمبر" ... "لم يغيروا الإجابة الثانية ، أرادوا القيام ببعض العمل مع استبداله الذي يتطلب إغلاق النظام" ... "حتى الآن نجح كل شيء" ... "ذهب الإرهابيون والانتقادات" ... "لقد انتهى نظام التخزين" ... "لا يوجد وصول إلى الشبكة" ... "سقطت جميع الخدمات" ... "جزء من الأضواء مطفأ" ... "لا يومض حيث يومض عادة "..." أنا لا أفهم ما يعنيه هذا. "

بعد بضع دقائق ، وبفضل الإجابات على أسئلتي ، ظهرت صورة ، ولكن بعد ذلك حدث الغلاف الأول. لسؤال آخر: هل هناك نسخة احتياطية من إعدادات وحدة التحكم ، سمعت فجأة صمت تام. بعد دقيقة ، اكتملت الصورة: قام بروفي باستبدال (إزالة جسديًا القديم وإدخال جهاز جديد في مكانه ، أقتبس: اختفى الخطأ الفادح) وحدة تحكم واحدة (وحدة التحكم التي ماتت تمامًا) دون إيقاف تشغيل نظام التخزين. وفي الواقع ، هذا كل شيء! بعد ذلك ، لم يفعل شيئاً معه ، لا شيء !!! "النور مضاء والخطأ الفادح ذهب." غادر استبدال الثاني (وحدة التحكم الحية بالكاد) حتى تم إيقاف التخزين ، والذي تأخر لمدة شهر ونصف تقريبًا (مرة أخرى ، القاعدة الثانية في العمل). ثم طلبت وقفة للتفكير (في الواقع هضم ، لأن الدماغ ببساطة رفض تصديق ما سمعوه).

بعد أن تعافت قليلاً (ربما لحظة صمت) ، أدركت أخيرًا أن أحدهم توفي ، وتم استبداله بأخرى جديدة فارغة ، والثاني عاش حياته (لأكثر من ثلاثة أشهر ، قام الرجل الفقير وحده بسحب نظامه بالكامل ببطارية ميتة وتصحيحها على الفور بأخطاء فردية) وتوفي أيضًا. لا توجد نسخة من الإعدادات ، حيث لا يستطيع الأشخاص الحصول على الإعدادات بأنفسهم على الفور ، ولا يمكنهم فعليًا إعطاء جهاز التحكم عن بُعد ("شيء ما" مع الإنترنت) ، وتضيع ساعات العمل.

أولاً اكتشفت كيفية إصلاح ذلك ، ثم بدأت في توضيح الشبكة ، هل من الممكن الحصول على خريطة الشبكة بسرعة (لا ، لا ، لا شيء تقريبًا في متناول اليد). بعد دقيقتين من طرق بدون مقابل على بوابات مختلفة لخدمات مختلفة ومعدات تخزين وشبكة (سألت وقلت ماذا أفعل ، أجابوني أنه اتضح أن كل شيء يحدث بدون جهاز تحكم عن بعد ، لأنه "لسبب ما لا يوجد إنترنت أيضًا". يصلني السؤال والجواب أن خوادم dhcp افتراضية وتبدأ من نظام التخزين هذا ، وليس لديك أي إحصائيات في أي مكان ، وبالتالي فإن كل شيء غير متوفر. كان هذا هو الغطاء الثاني (اعتقدت للتو أنه لا يوجد مكان يمكن النزول فيه أدناه ، حيث تم إغلاق منافذ التحكم دون الإحصائيات شريرة.) حسنًا ، هذه المرة وجدت نفسي أسرع بكثير ، رسمت خطة عمل تقريبية في رأسي وشرحتها إلى "زملائي":أنك بحاجة إلى جهاز كمبيوتر أو كمبيوتر محمول مزود بسلك رقعة بجوار نظام التخزين وأيدي قريبة. علاوة على ذلك ، نحتاج إلى: تعليمات لإعداد وحدة التحكم (إذا كانت مفقودة / مفقودة ، فسوف أجدها على الفور وأرسلها) و "قطعة" من خريطة الشبكة حول نظام التخزين ("قطعة" = إعدادات الشبكة الأساسية). عندما كان كل هذا جاهزًا ، قمنا في الأساس بتكوين وحدات تحكم التخزين الجديدة ، والاتصال بها مباشرة من جهاز الكمبيوتر المحمول الخاص بنا بسلك التصحيح وفقًا للتعليمات ، باستخدام إعدادات الشبكة الموجودة ، ورفع DHCP الخاص بك وتكوين وحدات تحكم التخزين الموجودة بالفعل في المعركة ، ورفع كل نظام والتحقق من أنه يعمل حسب الحاجة. أجد التعليمات وأرسلها (بالمناسبة ، لا يعمل بريد الشركات أيضًا ، لأنه يعتمد أيضًا على هذا SHD ، لذلك أستخدم البريد الشخصي ...) ، بالإضافة إلى ذلك الوقت وجد المحترفون على الأقل إعدادات الشبكة الأساسية لـ SHD (عناوين IP لكل من وحدات التحكم ، وما إلى ذلك) ص.). أخيرا فهم المحترفون ما يجب القيام به ،وقال إنه سيدير ​​الأمور بشكل أكبر. تذكرت أن أكون على اتصال وترك. بعد مرور بعض الوقت ، اكتسبت خدمة "24/7" من هذا العميل.

بالنسبة لي ، فإن الحادث برمته يصل إلى أربع وعشرون دقيقة ، ويسرني من ناحية أنه كان من الممكن حل المشكلة فورًا عبر الإنترنت وعبر الهاتف ، من ناحية أخرى ، فوجئت جدًا بكيفية الوصول إلى مثل هذه الحياة. وعملاء شركة تكنولوجيا المعلومات هذه لم يقدروا هذا الحادث ، لأن كان من المفترض أن تعمل خدمة الوعد على مدار الساعة طوال أيام الأسبوع ، وكانت هذه بداية يوم العمل (وبالنظر إلى المناطق الزمنية ، كان لدى شخص ما ارتفاع يوم العمل)

صورة

قد تكون هذه هي النهاية ، لكن بالنسبة لي الانتهاء من القضية هو العمل على البق. لذلك ، حاولت أنا وزملائي الكتابة: ما الذي يمكن / يجب تغييره في عملنا (وليس عملنا فقط) من أجل منع حدوث ذلك في المستقبل.

تحولت هذه القضية إلى مجرد عمل مجاني ، ولم نشكر حتى الشكر. من الواضح ، لأنه رأينا ما يود العميل نسيانه بسرعة ، ودفن الشهود في الغابة. لكن هذه الحالة أضافت إلى مجموعتنا من أوراق الغش / القوالب الخاصة بالمواقف الأكثر شيوعًا التي يواجهها المسؤولون والمهندسون والشركات عند استخدام وصيانة أنظمة التخزين والأنظمة ذات الصلة. على الرغم من أنه بالنسبة للبعض ، قد تبدو أوراق الغش هذه والتعليمات بسيطة للغاية أو حتى ضيقة. على أي حال ، لكل نظام ، تحتاج إلى إدخال بياناتك في أوراق / نماذج الغش هذه (لأن لكل شخص مناظر طبيعية خاصة به ، ومتطلباته الخاصة للمعلومات والخدمات ، وما إلى ذلك) ، ورسم مخططاته الخاصة ، وتطوير خوارزمياته الخاصة.

أخيرًا ، نقدم مثالاً لسياسة النسخ الاحتياطي.

صورة
يمكن أن تساعد ورقة الغش المماثلة التي تم إنشاؤها لنظامك بشكل كبير كل من المبتدئ والسيد. حتى لو تمكن السيد من الاحتفاظ بكل شيء في رأسه ، فهو ليس روبوتًا بيولوجيًا بجدول عمل 24/7. وعلى أي حال ، فإن أي أداة تتطلب استخدامها المعقول.

ونهتف "وننام أولئك الذين ينامون ، نوم جيد" ننهي قصتنا.

All Articles