Bagaimana kami mengevakuasi shift tugas Yandex



Ketika pekerjaan itu pas di satu laptop dan dapat dilakukan secara mandiri dari orang lain, maka tidak ada masalah pindah ke lokasi terpencil - hanya tinggal di rumah di pagi hari. Tapi tidak semua orang beruntung.

Duty Shift adalah tim Spesialis Ketersediaan Layanan (SRE). Ini termasuk administrator tugas, pengembang, manajer, serta "dasbor" umum dari 26 panel LCD masing-masing 55 inci. Stabilitas layanan perusahaan dan kecepatan penyelesaian masalah tergantung pada pekerjaan shift yang bertugas.

Hari ini Dmitry Melikovtal10n, supervisor shift, akan berbicara tentang bagaimana mereka berhasil mengangkut peralatan ke rumah mereka dan menetapkan proses kerja baru dalam hitungan hari. Saya memberinya lantai.



- Ketika Anda memiliki persediaan waktu yang tidak ada habisnya, Anda dapat dengan nyaman bergerak dengan apa saja di mana saja. Tetapi penyebaran coronavirus yang cepat membuat kami dalam kondisi yang sangat berbeda. Karyawan Yandex adalah yang pertama beralih ke pekerjaan jarak jauh - bahkan sebelum pengenalan rezim isolasi diri. Itu terjadi seperti ini. Pada hari Kamis, 12 Maret, saya diminta untuk mengevaluasi kesempatan untuk mentransfer pekerjaan tim ke rumah. Pada hari Jumat tanggal 13 ada rekomendasi untuk beralih ke pekerjaan jarak jauh. Pada malam Selasa, 17 Maret, semuanya sudah siap untuk kami: para pelayan bekerja di rumah, peralatan diangkut, perangkat lunak yang hilang ditulis, prosesnya dikonfigurasi ulang. Dan sekarang saya akan memberi tahu Anda bagaimana kami melakukannya. Tetapi pertama-tama Anda harus mengingat tugas-tugas yang diselesaikan oleh shift bertugas.

Siapa kita


Yandex adalah perusahaan besar dengan ratusan layanan. Stabilitas pencarian, asisten suara dan semua produk lainnya tidak hanya bergantung pada pengembang. Pusat data dapat mengganggu catu daya. Seorang pekerja dapat secara tidak sengaja merusak kabel optik saat mengganti aspal. Atau mungkin ada lonjakan aktivitas pengguna, yang akan membutuhkan realokasi daya yang mendesak. Selain itu, kita semua hidup dalam infrastruktur yang besar dan kompleks, dan pelepasan salah satu produk dapat secara tidak sengaja menyebabkan degradasi yang lain.

26 panel di ruang terbuka kami adalah satu setengah ribu peringatan dan lebih dari seratus grafik dan panel layanan kami. Sebenarnya, ini adalah panel diagnostik yang sangat besar. Administrator tugas yang berpengalaman, memandangnya, dengan cepat memahami status simpul-simpul penting dan dapat menentukan arah untuk menyelidiki masalah teknologi. Ini tidak berarti bahwa seseorang harus terus-menerus melihat semua perangkat: otomatisasi itu sendiri akan menarik perhatian dengan mengirimkan pemberitahuan ke antarmuka khusus orang yang bertugas, tetapi tanpa panel visual, solusi untuk masalah mungkin tertunda.

Ketika masalah muncul, petugas pertama menilai prioritas mereka. Dia kemudian mengisolasi masalah atau meminimalkan dampaknya pada pengguna.

Ada beberapa cara standar untuk mengisolasi masalah. Salah satunya adalah degradasi layanan, ketika administrator yang bertugas menonaktifkan beberapa fungsi yang paling sedikit diperhatikan pengguna. Ini memungkinkan Anda untuk sementara mengurangi beban dan mencari tahu apa yang terjadi. Jika ada masalah dengan pusat data, maka petugas menghubungi tim operasi, memahami masalah, memantau waktu solusinya dan, jika perlu, menghubungkan tim khusus.

Ketika administrator yang bertugas tidak dapat mengisolasi masalah yang muncul karena rilis, ia melaporkannya ke tim layanan - dan pengembang mencari kesalahan dalam kode baru. Jika mereka tidak dapat mengetahuinya, maka administrator menarik pengembang dari produk atau insinyur lain untuk ketersediaan layanan.

Saya bisa berbicara lama tentang bagaimana semuanya diatur dengan kami, tetapi saya pikir saya sudah menyampaikan esensinya. Pergeseran tugas mengoordinasikan pekerjaan semua layanan dan mengendalikan masalah global. Penting bagi administrator yang bertugas untuk memiliki panel diagnostik di depan mata. Itu sebabnya ketika beralih ke pekerjaan jarak jauh, Anda tidak bisa hanya mengambil dan memberi semua orang laptop. Bagan dan peringatan tidak pas di layar. Apa yang harus dilakukan?

Ide


Di kantor, kesepuluh administrator yang bertugas bekerja secara bergiliran di belakang satu dasbor, yang mencakup 26 monitor, dua komputer, empat kartu video NVIDIA Quadro NVS 810, dua unit catu daya tanpa gangguan dan beberapa akses jaringan independen. Tetapi kami perlu memberi setiap orang kesempatan untuk bekerja di rumah. Itu tidak akan berhasil untuk merakit dinding seperti itu di apartemen (istri saya akan sangat senang tentang hal ini), jadi kami memutuskan untuk membuat versi portabel yang dapat dibawa dan dipasang di rumah.

Kami mulai bereksperimen dengan konfigurasi. Kami harus menyesuaikan semua perangkat pada layar yang lebih sedikit, jadi persyaratan utama untuk monitor ini adalah kerapatan piksel yang tinggi. Dari monitor 4K yang tersedia di lingkungan kita, Lenovo P27u-10 dipilih untuk pengujian.

Dari laptop mereka mengambil MacBook Pro 16 inci. Ini memiliki subsistem grafik yang cukup kuat, diperlukan untuk menampilkan gambar pada beberapa tampilan 4K, dan empat konektor Tipe-C universal. Anda mungkin bertanya: mengapa bukan desktop? Mengganti laptop dengan yang persis sama dari gudang jauh lebih mudah dan lebih cepat daripada merakit dan mengkonfigurasi unit sistem yang sama. Ya, dan itu lebih ringan.

Sekarang perlu untuk memahami berapa banyak monitor yang sebenarnya bisa kita hubungkan ke laptop. Dan masalahnya di sini bukan jumlah konektor, kita bisa mengetahuinya hanya dengan menguji sistem yang lengkap.



Pengujian


Kami cukup nyaman menempatkan semua grafik dan peringatan pada empat monitor dan bahkan menghubungkannya ke laptop, tetapi kami mengalami masalah. Rendering 4 Γ— 4K piksel pada monitor yang terhubung sehingga memuat kartu video sehingga laptop habis bahkan saat mengisi daya. Untungnya, masalahnya diselesaikan dengan bantuan stasiun dok Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Kami berhasil menghubungkan monitor, daya, dan bahkan mouse favorit dengan keyboard ke stasiun dok.

Namun segera muncul masalah lain: GPUnya terlalu besar sehingga laptopnya kepanasan, yang berarti baterainya juga kepanasan, yang akibatnya beralih ke mode pelindung dan berhenti mengambil alih daya. Secara umum, ini adalah mode yang sangat berguna yang melindungi terhadap situasi berbahaya. Dalam beberapa kasus, masalahnya diselesaikan dengan bantuan perangkat berteknologi tinggi - pulpen, ditempatkan di bawah laptop untuk meningkatkan ventilasi. Tapi ini tidak membantu semua orang, jadi kami juga memutar kecepatan kipas biasa.

Ada fitur lain yang tidak menyenangkan. Semua grafik dan peringatan harus ditempatkan di tempat yang ditentukan secara ketat. Bayangkan bahwa Anda sedang menerbangkan pesawat ke darat - dan di sini indikator kecepatan, altimeter, variometer, indikator horizon, kompas, dan indikator posisi mulai mengubah ukuran dan melompat ke tempat yang berbeda. Jadi kami memutuskan untuk membuat aplikasi yang akan membantu ini. Dalam suatu malam, kami menulisnya di Electron.js, mengambil API yang sudah jadi untuk membuat dan mengelola windows. Kami menambahkan pengendali konfigurasi dan pembaruan berkala mereka, serta dukungan untuk sejumlah monitor. Beberapa saat kemudian, kami menambahkan dukungan untuk berbagai pengaturan.

Perakitan dan pengiriman


Pada hari Senin, penyihir meja bantuan telah mendapatkan 40 monitor, sepuluh laptop, dan sebanyak mungkin stasiun dok untuk kami. Saya tidak tahu bagaimana mereka melakukannya, tetapi terima kasih banyak.



Tetap membawa semua ini ke apartemen administrator tugas. Dan ini adalah sepuluh alamat di berbagai bagian Moskow: selatan, timur, tengah, dan juga Balashikha, yang ada 45 kilometer dari kantor (omong-omong, magang dari Serpukhov juga ditambahkan kemudian). Penting untuk mendistribusikan semua ini di antara orang-orang, untuk membangun logistik.

Saya mengemudikan semua alamat di Maps kami, masih ada peluang untuk mengoptimalkan rute antara titik yang berbeda (saya menggunakan versi beta gratis alat untuk kurir). Kami memecah tim kami menjadi empat tim independen yang terdiri dari dua orang, masing-masing mendapat rute sendiri. Mobil saya adalah yang paling luas, jadi saya mengambil peralatan untuk empat karyawan sekaligus.



Seluruh pengiriman memakan waktu tiga jam. Kami meninggalkan kantor jam sepuluh malam pada hari Senin. Pada suatu pagi saya sudah di rumah. Malam itu juga kami pergi bertugas dengan peralatan baru.

Apa hasilnya


Alih-alih satu konsol diagnostik besar, kami mengumpulkan sepuluh yang relatif portabel di apartemen setiap orang yang bertugas. Tentu saja, itu tetap untuk menyelesaikan beberapa hal kecil. Sebagai contoh, sebelumnya kami memiliki satu telepon "besi" dari orang yang bertugas untuk pemberitahuan. Dalam kondisi baru, ini tidak berhasil, jadi kami datang dengan "telepon virtual" untuk mereka yang bertugas (sebenarnya, saluran di messenger). Ada perubahan lainnya. Tetapi hal utama adalah bahwa dalam catatan waktu kami berhasil mentransfer tidak hanya orang, mengurangi risiko infeksi, tetapi semua pekerjaan kami di rumah tanpa membahayakan proses dan stabilitas produk. Dalam mode ini, kami telah bekerja selama sebulan.

Di bawah ini Anda akan menemukan foto-foto pekerjaan nyata dari petugas kami.










All Articles