Dan tunjukkan, atau Bagaimana kami melewati audit Keberlanjutan Operasional di Uptime Institute


Kepala departemen operasi naik ke lubang penyimpanan bahan bakar bawah tanah untuk menunjukkan tanda pada katup solenoid.

Pada awal Februari, pusat data Tier III NORD-4 terbesar kami disertifikasi ulang oleh Uptime institute (UI) di bawah standar Keberlanjutan Operasional. Hari ini kami akan memberi tahu Anda apa yang dilihat auditor dan dengan hasil apa yang telah kami selesaikan.

Bagi mereka yang memiliki pusat data di "Anda," kami akan membahas materi secara singkat. Tier Tier mengevaluasi dan mensertifikasi pusat data dalam tiga tahap:

  • project (Desain): paket dokumentasi proyek dicentang. Ini hanya ditugaskan untuk semua orang yang dikenal Tier . Ada 4 diantaranya: Tingkat I - IV. Yang terakhir, masing-masing, adalah yang tertinggi.
  • (Facility): - . - : (, , , , ..) , . Tier III - -.

    Facility , - Dsign.
    NORD-4 Design 2015 , Facility —  2016.
  • (Operational Sustainability). , . - Tier ( Operational Sustainability, Facility). - Tier IV .

    : Bronze, Silver Gold. 88,95 100 , Silver. Gold — 1,05 . 



Bagaimana memeriksa bahwa proses yang diperlukan telah diatur dan berfungsi sebagaimana mestinya? Selain itu, bagaimana melakukan ini dalam dua hari - ini adalah berapa banyak sertifikasi ulang yang diperlukan. Singkatnya, sertifikasi didasarkan pada perbandingan yang sungguh-sungguh dari apa yang tertulis dalam peraturan, cerita “bagaimana semuanya bekerja” dan praktik nyata. Informasi tentang yang terakhir diperoleh dari putaran pusat data dan percakapan dengan insinyur pusat data - "konfrontasi", sebagaimana kami menyebutnya dengan sayang. Itu yang mereka lihat.

Tim


Pertama-tama, auditor UI memeriksa untuk melihat apakah ada cukup staf di pusat data. Mereka mengambil jadwal kepegawaian, jadwal tugas, dan secara selektif memeriksa laporan shift dan data ACS untuk memastikan bahwa jumlah insinyur yang tepat benar-benar ada di lokasi hari itu.

Auditor juga mencermati jumlah jam pemrosesan. Ini kadang-kadang terjadi ketika klien besar memanggil dan pada saat yang sama puluhan rak harus dikirim. Pada saat-saat seperti itu, orang-orang dari shift lain datang untuk menyelamatkan, dan mereka dibayar uang ekstra untuk ini.

NORD-4 7 : 6 . , 247, , . . . — . 247.


NORD , .

Ketika angka-angka diurutkan, kualifikasi tim diperiksa. Auditor secara acak melihat file pribadi insinyur untuk memastikan bahwa mereka memiliki ijazah, sertifikat, izin yang diperlukan (misalnya, sertifikat keselamatan listrik) untuk bekerja di posisi ini.

Mereka juga memeriksa bagaimana kami melatih staf. Selama audit terakhir, sistem kami untuk melatih insinyur tugas baru mengesankan spesialis UI. Bagi mereka, kami melakukan kursus pelatihan tiga bulan dalam magang berbayar, di mana kami memperkenalkan mereka pada proses dan prinsip kerja di pusat data kami.

Insinyur yang sudah bekerja juga harus menerima pelatihan reguler, termasuk pekerjaan darurat. Auditor tentu akan memeriksa program pelatihan dan materi pelatihan seperti itu, dan juga secara selektif memeriksa para insinyur. Mereka tidak akan meminta siapa pun untuk beralih ke DGU, tetapi mereka akan meminta Anda untuk memberi tahu langkah demi langkah apa yang harus dilakukan ketika catu daya kota dimatikan. Berdasarkan hasil audit, kami akan membawa semua program pelatihan ke satu standar sehingga tidak berbeda untuk tim yang berbeda.


Kami menunjukkan auditor ruang relaksasi untuk insinyur shift.

Operasi dan pemeliharaan sistem teknik 


Dalam bagian besar audit ini, kami menunjukkan bahwa semua peralatan dan sistem teknik menerima perawatan rutin sesuai dengan jadwal yang direkomendasikan oleh vendor, gudang memiliki suku cadang yang diperlukan, kontrak yang ada dengan kontraktor layanan, dan untuk setiap operasi dengan peralatan prosedurnya sendiri dan algoritma kerja untuk berbagai kasus.

MMS Ketika Anda mengoperasikan lusinan UPS, generator diesel, AC, dan hal-hal lainnya, Anda perlu tempat untuk mengumpulkan semua informasi tentang ekonomi ini. Berikut ini kira-kira sebuah dokumen yang dibuat untuk setiap peralatan bersama kami:

  • model dan nomor seri;
  • menandai;
  • spesifikasi dan pengaturan teknis;
  • tempat pemasangan;
  • tanggal produksi, commissioning, akhir garansi;
  • kontrak layanan;
  • jadwal dan riwayat pemeliharaan;
  • dan seluruh "riwayat medis" - gangguan, perbaikan.

Bagaimana dan di mana mengumpulkan semua informasi ini, masing-masing operator pusat data memutuskan sendiri. UI tidak membatasi alat. Ini bisa berupa Excel sederhana (kami mulai dengan ini) atau Sistem Manajemen Pemeliharaan yang ditulis sendiri, seperti yang kita miliki sekarang. Omong-omong, meja layanan , kontrol inventaris, jurnal online, pemantauan juga ditulis sendiri.


Inilah "masalah pribadi" untuk setiap peralatan.

Kami menunjukkan praktik kami di bidang ini, termasuk dengan contoh infrastruktur UPS ini (foto), yang menyumbangkan salah satu komponen UPS-nya ke beban TI. Ya, menurut standar, hanya peralatan infrastruktur yang memasok AC, pencahayaan darurat, tetapi bukan beban TI, yang dapat menangani “donasi” tersebut.



Setelah itu, auditor diminta untuk menunjukkan tiket yang sesuai di Service Desk:



Dan profil UPS di MMS:



suku cadang. Untuk perawatan tepat waktu dan perbaikan darurat untuk peralatan teknik, kami menjaga suku cadang kami. Ada gudang umum dengan suku cadang besar untuk peralatan dan lemari kecil dengan suku cadang di ruang teknik (sehingga Anda tidak perlu lari jauh).

Dalam foto: kami memeriksa ketersediaan suku cadang untuk mesin diesel. Kami menghitung 12 filter. Kemudian mereka memeriksa data dalam MMS.  



Latihan serupa dilakukan di gudang utama, di mana suku cadang besar disimpan: kompresor, pengontrol, otomatisasi, kipas, pelembap uap, dan ratusan posisi lainnya. Menulis ulang tanda secara selektif dan "meninju" mereka melalui MMS.




Data stok suku cadang. Merah adalah apa yang hilang dan perlu dibeli.

Pemeliharaan preventif. Selain pemeliharaan dan perbaikan, UI merekomendasikan untuk melakukan pemeliharaan preventif. Ini membantu mengubah potensi kecelakaan menjadi perbaikan terjadwal. Untuk setiap parameter, kami mengonfigurasi nilai ambang batas dalam pemantauan. Jika terlampaui, mereka yang bertanggung jawab menerima alarm dan mengambil tindakan yang diperlukan. Sebagai contoh, kami:

  • Kami memeriksa panel listrik dengan imager termal untuk menemukan cacat pada instalasi listrik tepat waktu: kontak yang buruk, overheating lokal dari konduktor atau mesin. 
  • Kami memantau getaran dan konsumsi pompa pompa saat ini. Ini memungkinkan Anda untuk mengidentifikasi penyimpangan tepat waktu dan dengan cepat merencanakan untuk mengganti komponen.
  • Kami melakukan analisis bahan bakar dan minyak dari generator diesel, kompresor.
  • Menguji glikol dalam sistem pasokan dingin untuk konsentrasi.


Pompa grafik getaran sebelum dan sesudah perbaikan.

Bekerja dengan kontraktor. Perbaikan pemeliharaan dan peralatan dilakukan oleh kontraktor eksternal. Untuk bagian kami, ada spesialis individu dalam genset diesel, AC, dan UPS yang memantau pekerjaan mereka. Mereka memeriksa apakah kontraktor memiliki alat dan bahan yang diperlukan untuk pekerjaan perbaikan / pemeliharaan, sertifikat profesional, kerak pengaman listrik, toleransi. Mereka menerima semua pekerjaan.


Seperti inilah daftar periksa untuk penerimaan pekerjaan pemeliharaan AC.


Di kantor pas kami memeriksa apakah izin dikeluarkan untuk perwakilan resmi dari kontraktor, apakah mereka lulus pemeliharaan pada waktu yang ditentukan dan apakah mereka berkenalan dengan peraturan.

Dokumentasi.Proses yang mapan untuk sistem servis dan peralatan adalah setengah dari perjuangan. Semua prosedur yang dilakukan oleh seseorang di pusat data harus didokumentasikan. Tujuannya sederhana: agar semuanya tidak terisolasi pada satu orang tertentu dan jika terjadi kecelakaan, insinyur mana pun dapat mengambil instruksi yang jelas dan melakukan semua operasi yang diperlukan untuk menghilangkannya.

UI memiliki metodologi sendiri untuk dokumentasi tersebut.

Untuk tindakan sederhana dan berulang-ulang, Prosedur Operasional Standar (SOP) dikompilasi. Sebagai contoh, ada SOP untuk menghidupkan / mematikan chiller, mengatur UPS pada memotong.

Untuk pemeliharaan atau operasi yang rumit, seperti mengganti baterai di UPS, Metode Prosedur (MOP) dibuat. Ini mungkin termasuk SOP. Setiap jenis peralatan teknik harus memiliki MOP sendiri.

Akhirnya, ada Prosedur Operasi Darurat (EOP) - instruksi darurat. Daftar darurat khusus dikompilasi dan instruksi ditulis untuk mereka. Berikut adalah bagian dari daftar darurat, yang merinci tanda-tanda kecelakaan, tindakan, orang yang bertanggung jawab dan orang-orang untuk pemberitahuan:

  • shutdown catu daya kota: DGU mulai / tidak dimulai;
  • Kecelakaan UPS; 
  • kecelakaan pada sistem pemantauan pusat data;
  • terlalu panas dari ruang mesin;
  • kebocoran sistem pendingin;
  • kecelakaan pada jaringan dan peralatan komputasi;

Dan seterusnya.

Menulis volume dokumentasi seperti itu adalah pekerjaan yang melelahkan. Bahkan lebih sulit untuk terus memperbarui (ini, omong-omong, auditor juga memeriksa). Dan yang paling penting - staf harus mengetahui instruksi ini, mengerjakannya dan melakukan perbaikan jika perlu.


Ya, instruksi harus tersedia di tempat yang mungkin diperlukan, dan tidak hanya mengumpulkan debu di arsip.


Menandai perubahan dalam regulasi pemeliharaan sistem rekayasa pusat data.

Selama audit, mereka juga melihat dokumentasi teknis untuk sistem, eksekutif dan dokumentasi kerja, tindakan menempatkan sistem ke dalam operasi. 

Menandai.Selama tur di sekitar pusat data, mereka memeriksanya di mana pun mereka bisa menjangkau. Di mana tidak bisa mencapai - dicapai dari tangga langkah :). Kami melihat keberadaannya di setiap perisai, mesin, katup. Mereka memeriksa keunikan, ketidakjelasan dan kepatuhan dengan skema dokumentasi eksekutif saat ini. Dalam foto di bawah ini: kami di pompa penyimpanan bahan bakar membandingkan tanda pada katup solenoida dengan skema dokumentasi eksekutif. 



Semuanya setuju dengannya, tetapi dengan diagram aksonometrik "dekoratif" lokal di dinding dalam satu parameter tidak cocok.



Di lokasi pusat data, skema sistem yang ada di sana juga harus digantung. Dalam hal terjadi kecelakaan, mereka membantu untuk dengan cepat mengetahui di mana apa yang berada dan membuat keputusan. Dalam foto tersebut, misalnya, diagram garis tunggal di ruang switchboard utama.



Relevansi skema diperiksa sebagai berikut: mereka menyebut pelabelan elemen pada skema dan diminta untuk menunjukkan "dalam bentuk". 



Di sini auditor mengambil gambar pengaturan (setting) dari rilis papan utama dari papan utama, kemudian untuk memeriksa dengan indikator pada diagram garis tunggal dalam kertas dan salinan elektronik. Di salah satu mesin, QF-3, indikatornya tidak sesuai dengan skema kertas, dan kami mendapat poin penalti. Sekarang dua insinyur akan memeriksa kepatuhan tanda dalam diagram garis-tunggal dengan fakta.



Ini tidak semua yang diperiksa auditor tentang proses layanan. Inilah yang ada di agenda:


UI


Keamanan dan kontrol akses. Audit juga memeriksa operasi sistem keamanan dan keselamatan. Sebagai contoh, auditor mencoba masuk ke salah satu kamar di mana ia tidak memiliki akses, dan kemudian memeriksa apakah itu tercermin dalam sistem ACS dan apakah keamanan memiliki pemberitahuan tentang hal itu (ada spoiler).

Jika di pusat data kami pintu ke ruangan mana pun tetap terbuka selama lebih dari dua menit, maka peringatan dipicu di pos keamanan. Untuk memverifikasi ini, auditor mendukung salah satu pintu dengan pemadam api. Benar, kami tidak menunggu sirene - penjaga keamanan melihat ada sesuatu yang salah melalui kamera video dan tiba di "TKP" sebelumnya.

Ketertiban dan kebersihan.Auditor mencari debu, kotak peralatan yang diletakkan secara acak, dengan frekuensi berapa kamar dibersihkan. Di sini, misalnya, auditor tertarik pada objek yang tidak dikenal di koridor ventilasi. Ini adalah blok dari sistem ventilasi, yang sudah bersiap untuk menggantikannya. Tapi tetap minta tanda tangan.



Masih dalam urutan pesanan di pusat data - ini adalah lemari dengan semua alat yang diperlukan untuk pekerjaan darurat pada peralatan yang terletak di papan induk utama. 



Lokasinya.Pusat data dievaluasi sesuai dengan kondisi lokasi - apakah ada pangkalan militer, bandara, sungai, gunung berapi dan benda berbahaya lainnya di dekatnya. Dalam foto kami hanya menunjukkan bahwa sejak sertifikasi terakhir pada tahun 2017, tidak ada pembangkit listrik tenaga nuklir dan fasilitas penyimpanan minyak telah tumbuh di sekitar pusat data. Tetapi di sana, sebuah pusat data NORD-5 baru sedang dibangun, yang juga harus melalui semua tingkat sertifikasi dari Uptime Institute Tier III. Tetapi ini adalah kisah yang sangat berbeda).


All Articles