كيف قمنا بإخلاء نوبة عمل ياندكس



عندما يتناسب العمل مع كمبيوتر محمول واحد ويمكن إجراؤه بشكل مستقل عن أشخاص آخرين ، فلا توجد مشكلة في الانتقال إلى موقع بعيد - فقط ابق في المنزل في الصباح. لكن لم يكن الجميع محظوظين.

Duty Shift هو فريق من المتخصصين في توفر الخدمة (SRE). وهي تشمل مديري المهام والمطورين والمديرين ، بالإضافة إلى "لوحة تحكم" مشتركة من 26 لوحة LCD يبلغ حجم كل منها 55 بوصة. يعتمد استقرار خدمات الشركة وسرعة حل المشكلات على عمل التحول في الخدمة.

اليوم ديمتري ميليكوفtal10n، المشرف على النوبات ، سيتحدث عن كيفية تمكنهم من نقل المعدات إلى منازلهم وإنشاء عمليات عمل جديدة في غضون أيام. أعطيه الكلمة.



- عندما يكون لديك وقت لا نهاية له من الوقت ، يمكنك التحرك بشكل مريح مع أي شيء في أي مكان. لكن الانتشار السريع للفيروس التاجي وضعنا في ظروف مختلفة تمامًا. كان موظفو Yandex من بين أول من تحولوا إلى العمل عن بعد - حتى قبل إدخال نظام العزل الذاتي. حدث مثل هذا. طُلب مني يوم الخميس 12 مارس تقييم فرصة نقل عمل الفريق إلى المنزل. يوم الجمعة الثالث عشر كان هناك توصية بالانتقال إلى العمل عن بعد. في ليلة الثلاثاء 17 مارس ، كان كل شيء جاهزًا بالنسبة لنا: عمل الحاضرون في المنزل ، وتم نقل المعدات ، وكتابة البرنامج المفقود ، وتم إعادة تكوين العمليات. والآن سأخبرك كيف قمنا بذلك. ولكن عليك أولاً أن تتذكر تلك المهام التي تم حلها عن طريق التحول في الواجب.

من نحن


ياندكس هي شركة كبيرة بها مئات الخدمات. لا يعتمد استقرار البحث ومساعد الصوت وجميع المنتجات الأخرى على المطورين فقط. قد يقاطع مركز البيانات مصدر الطاقة. قد يتلف العامل عن طريق الخطأ كبل بصري أثناء استبدال الأسفلت. أو قد تكون هناك زيادة كبيرة في نشاط المستخدم ، الأمر الذي يتطلب إعادة تخصيص عاجلة للسلطة. علاوة على ذلك ، نعيش جميعًا في بنية تحتية كبيرة ومعقدة ، وقد يؤدي إطلاق أحد المنتجات عن طريق الخطأ إلى تدهور الآخر.

26 لوحة في فضاءنا المفتوح هي ألف ونصف تنبيه وأكثر من مائة مخطط ولوحة من خدماتنا. في الواقع ، هذه لوحة تشخيص ضخمة. تفهمها مديرة مهمة من ذوي الخبرة ، بسرعة ، في حالة العقد الهامة ويمكنها تحديد اتجاه للتحقيق في مشكلة تكنولوجية. هذا لا يعني أن الشخص يجب أن ينظر باستمرار إلى جميع الأجهزة: الأتمتة نفسها ستجذب الانتباه عن طريق إرسال إشعار إلى الواجهة الخاصة للشخص في الخدمة ، ولكن بدون لوحة بصرية ، قد يتأخر حل المشكلة.

عندما تظهر المشاكل ، يقوم الخادم أولاً بتقييم أولويتها. ثم يعزل المشكلة أو يقلل من تأثيرها على المستخدمين.

هناك عدة طرق قياسية لعزل المشكلة. أحدها هو تدهور الخدمات ، عندما يقوم المسؤول المناوب بتعطيل بعض الوظائف التي يلاحظها المستخدمون على الأقل. هذا يسمح لك بتقليل الحمل مؤقتًا ومعرفة ما حدث. إذا كانت هناك مشكلة في مركز البيانات ، فإن المصاحب يتصل بفريق العمليات ، ويفهم المشكلة ، ويرصد توقيت حلها ، وإذا لزم الأمر ، يربط الفرق المتخصصة.

عندما يتعذر على المسؤول المناوب عزل المشكلة التي نشأت بسبب الإصدار ، يقوم بإبلاغ فريق الخدمة - ويبحث المطورون عن أخطاء في الرمز الجديد. إذا لم يتمكنوا من معرفة ذلك ، فإن المسؤول يجذب المطورين من المنتجات أو المهندسين الآخرين لتوافر الخدمات.

يمكنني التحدث لفترة طويلة حول كيفية ترتيب كل شيء معنا ، لكنني أعتقد أنني قد نقلت الجوهر بالفعل. ينسق مناوبة العمل عمل جميع الخدمات ويتحكم في المشاكل العالمية. من المهم للمدير المناوب أن يكون لديه لوحة تشخيص أمام العينين. لهذا السبب عند التبديل إلى العمل عن بُعد ، لا يمكنك فقط أن تأخذ الكمبيوتر المحمول وتعطيه للجميع. الرسوم البيانية والتنبيهات لا تلائم الشاشة. ماذا أفعل؟

فكرة


في المكتب ، يعمل جميع المسؤولين العشرة في الخدمة في نوبات خلف لوحة تحكم واحدة ، والتي تتضمن 26 شاشة وجهازين كمبيوتر وأربع بطاقات فيديو NVIDIA Quadro NVS 810 ووحدتي إمداد طاقة غير منقطعة والعديد من عمليات الوصول المستقلة إلى الشبكة. لكننا كنا بحاجة إلى إتاحة الفرصة للجميع للعمل في المنزل. لن يعمل على تجميع مثل هذا الجدار في الشقة (ستكون زوجتي سعيدة بشكل خاص بهذا الأمر) ، لذلك قررنا إنشاء نسخة محمولة يمكن إحضارها وتجميعها في المنزل.

بدأنا في تجربة التكوين. كنا بحاجة إلى احتواء جميع الأجهزة على عدد أقل من الشاشات ، لذلك كان المتطلب الرئيسي للشاشة هو كثافة بكسل عالية. من بين شاشات 4K المتوفرة في بيئتنا ، تم اختيار Lenovo P27u-10 للاختبار.

من أجهزة الكمبيوتر المحمولة ، أخذوا جهاز MacBook Pro مقاس 16 بوصة. يحتوي على نظام فرعي رسومات قوي إلى حد ما ، وهو ضروري لعرض الصور على العديد من شاشات 4K ، وأربعة موصلات عالمية من النوع C. قد تسأل: لماذا لا سطح المكتب؟ استبدال الكمبيوتر المحمول بنفس المستودع بالضبط أسهل وأسرع من تجميع وتكوين وحدة نظام متطابقة. نعم ، وتزن أقل.

الآن كان من الضروري فهم عدد الشاشات التي يمكننا توصيلها بالفعل بالكمبيوتر المحمول. والمشكلة هنا ليست عدد الموصلات ، يمكننا معرفة ذلك فقط عن طريق اختبار النظام الكامل.



اختبارات


لقد وضعنا جميع الرسوم البيانية والتنبيهات بشكل مريح للغاية على أربعة شاشات حتى وصلناها بكمبيوتر محمول ، لكننا واجهنا مشكلة. يؤدي عرض 4 × 4K بكسل على الشاشات المتصلة إلى تحميل بطاقة الفيديو بحيث يتم تفريغ الكمبيوتر المحمول حتى أثناء الشحن. لحسن الحظ ، تم حل المشكلة بمساعدة محطة الإرساء Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. تمكنا من توصيل شاشة وقوة وماوس مفضل بلوحة مفاتيح بمحطة الإرساء.

ولكن على الفور ظهرت مشكلة أخرى: لقد انتفخ GPU كثيرًا لدرجة أن الكمبيوتر المحمول كان محمومًا للغاية ، مما يعني أن البطارية سخونة أيضًا ، مما أدى إلى وضع الحماية وتوقف عن الشحن. بشكل عام ، هذا وضع مفيد للغاية يحمي من المواقف الخطرة. في بعض الحالات ، تم حل المشكلة بمساعدة جهاز عالي التقنية - قلم حبر جاف ، يوضع تحت كمبيوتر محمول لتحسين التهوية. لكن هذا لم يساعد الجميع ، لذا قمنا أيضًا بتحريف سرعة المروحة العادية.

كانت هناك ميزة أخرى غير سارة. يجب وضع جميع الرسوم البيانية والتنبيهات في مكان محدد بدقة. تخيل أنك تقود طائرة إلى الأرض - وهنا تبدأ مؤشرات السرعة ، وأجهزة تحديد الارتفاع ، والمقاييس المتغيرة ، ومؤشرات الأفق ، والبوصلة ومؤشرات الموقع في تغيير الحجم والقفز إلى أماكن مختلفة. لذلك قررنا تقديم تطبيق يساعد في ذلك. في إحدى الليالي ، كتبناها على Electron.js ، وأخذنا واجهة برمجة تطبيقات جاهزة لإنشاء النوافذ وإدارتها. أضفنا معالج التكوين والتحديث الدوري لها ، بالإضافة إلى دعم عدد محدود من الشاشات. بعد ذلك بقليل ، أضفنا الدعم لمختلف الإعدادات.

التجميع والتسليم


بحلول يوم الاثنين ، كان لدى معالجات مكتب المساعدة 40 شاشة ، وعشرة أجهزة كمبيوتر محمولة ، والعديد من محطات الإرساء لنا. أنا لا أعرف كيف فعلوا ذلك ، ولكن شكرا جزيلا.



بقيت حمل كل هذا إلى شقق المديرين المناوبين. وهذه عشرة عناوين في أجزاء مختلفة من موسكو: الجنوب والشرق والوسط ، وكذلك بالاشيخا ، التي تقع على بعد 45 كيلومترًا من المكتب (بالمناسبة ، تمت إضافة متدرب من سيربوخوف لاحقًا). كان من الضروري توزيع كل هذا بطريقة أو بأخرى بين الناس ، لبناء الخدمات اللوجستية.

لقد قمت بقيادة جميع العناوين على خرائطنا ، لا تزال هناك فرصة لتحسين المسار بين النقاط المختلفة (استخدمت الإصدار التجريبي المجاني من الأداة للسعاة). قمنا بتقسيم فريقنا إلى أربعة فرق مستقلة من شخصين ، لكل منها طريقها الخاص. كانت سيارتي هي الأكثر سعة ، لذلك أخذت المعدات لأربعة موظفين في وقت واحد.



استغرق التسليم بالكامل رقما قياسيا ثلاث ساعات. غادرنا المكتب في العاشرة مساء يوم الاثنين. في أحد الصباح كنت في المنزل بالفعل. في نفس الليلة ذهبنا في العمل بمعدات جديدة.

ما هي النتيجة


بدلاً من وحدة تحكم تشخيصية كبيرة ، جمعنا عشر وحدات محمولة نسبيًا في شقة كل شخص في الخدمة. بالطبع ، بقي تسوية بعض الأشياء الصغيرة. على سبيل المثال ، في وقت سابق كان لدينا هاتف "حديد" للشخص المسؤول عن الإخطارات. في الظروف الجديدة ، لم يفلح ذلك ، لذلك توصلنا إلى "هواتف افتراضية" لمن هم في الخدمة (في الواقع ، القنوات في برنامج المراسلة). كانت هناك تغييرات أخرى. لكن الشيء الرئيسي هو أنه في وقت قياسي تمكنا من نقل ليس فقط الناس ، والحد من خطر الإصابة بالعدوى ، ولكن كل عملنا في المنزل دون الإضرار بالعمليات واستقرار المنتجات. في هذا الوضع ، كنا نعمل لمدة شهر.

ستجد أدناه صورًا للوظائف الحقيقية للمشاركين لدينا.










All Articles