Et démontrer, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute


Le responsable des opérations est monté dans la trappe du stockage souterrain de carburant pour montrer les marques sur l'électrovanne.

Début février, notre plus grand centre de données Tier III NORD-4 a été recertifié par l'institut Uptime (UI) en vertu de la norme de durabilité opérationnelle. Aujourd'hui, nous vous dirons ce que les auditeurs regardent et avec quels résultats nous avons terminé.

Pour ceux qui ont des centres de données sur "vous", parcourez brièvement le matériel. Tier Standards évalue et certifie les centres de données en trois étapes:

  • projet (Design): le package de documentation du projet est vérifié, il n'y a que le Tier bien connu . Il y en a 4: Tier I - IV. Ce dernier, respectivement, est le plus élevé.
  • (Facility): - . - : (, , , , ..) , . Tier III - -.

    Facility , - Dsign.
    NORD-4 Design 2015 , Facility —  2016.
  • (Operational Sustainability). , . - Tier ( Operational Sustainability, Facility). - Tier IV .

    : Bronze, Silver Gold. 88,95 100 , Silver. Gold — 1,05 . 



Comment vérifier que les processus nécessaires sont organisés et fonctionnent comme ils le devraient? De plus, comment faire cela en deux jours - c'est combien de re-certification prend. En bref, la certification est basée sur une comparaison minutieuse de ce qui est écrit dans la réglementation, des histoires «comment tout fonctionne» et des pratiques réelles. Les informations sur ce dernier sont obtenues à travers des tournées du centre de données et des conversations avec les ingénieurs du centre de données - «confrontations», comme nous les appelons affectueusement. Voilà ce qu'ils regardent.

Équipe


Tout d'abord, les auditeurs de l'interface utilisateur vérifient s'il y a suffisamment de personnel dans le centre de données. Ils prennent le calendrier de dotation, le calendrier de service et vérifient de manière sélective avec les rapports de quart et les données ACS pour s'assurer que le bon nombre d'ingénieurs était vraiment sur le site ce jour-là.

Les auditeurs examinent également de près le nombre d'heures de traitement. Cela se produit parfois lorsqu'un gros client appelle et en même temps des dizaines de racks doivent être livrés. À ces moments-là, les gars des autres équipes viennent à la rescousse, et ils sont payés pour cela.

NORD-4 7 : 6 . , 247, , . . . — . 247.


NORD , .

Lorsque les chiffres sont triés, les qualifications de l'équipe sont vérifiées. Les auditeurs examinent au hasard les dossiers personnels des ingénieurs pour s'assurer qu'ils ont les diplômes, certificats, permis (par exemple, certificats de sécurité électrique) nécessaires pour occuper ce poste.

Ils vérifient également comment nous formons le personnel. Lors du dernier audit, notre système de formation de nouveaux ingénieurs de service a impressionné les spécialistes de l'interface utilisateur. Pour eux, nous effectuons trois mois stage de formation dans un stage rémunéré, au cours de laquelle nous les présentons les processus et les principes de travail dans notre centre de données.

Les ingénieurs qui travaillent déjà devraient également recevoir une formation régulière, y compris des travaux d'urgence. Les auditeurs vérifieront certainement les programmes de formation et le matériel de ces formations, et examineront également de manière sélective les ingénieurs. Ils ne demanderont à personne de passer à la DGU, mais ils vous demanderont de dire étape par étape ce qu'il faut faire lorsque l'alimentation électrique de la ville est coupée. Sur la base des résultats de l'audit, nous amènerons tous les programmes de formation à une seule norme afin qu'ils ne diffèrent pas selon les équipes.


Nous montrons aux auditeurs une salle de relaxation pour les ingénieurs de quart.

Exploitation et maintenance des systèmes d'ingénierie 


Dans cette grande partie de l'audit, nous montrons que tous les équipements et systèmes d'ingénierie reçoivent une maintenance régulière selon le calendrier recommandé par les fournisseurs, l'entrepôt dispose des pièces de rechange nécessaires, des contrats existants avec les prestataires de services et pour chaque opération avec des équipements, ses propres procédures et algorithmes de travail pour différents cas.

MMS Lorsque vous utilisez des dizaines d'onduleurs, de générateurs diesel, de climatiseurs et d'autres choses, vous avez besoin d'un endroit pour collecter toutes les informations sur cette économie. Voici environ un dossier créé pour chaque équipement chez nous:

  • modèle et numéro de série;
  • marquage;
  • spécifications techniques et réglages;
  • lieu d'installation;
  • dates de production, mise en service, fin de garantie;
  • contrats de service;
  • calendrier et historique de l'entretien;
  • et l'ensemble des «antécédents médicaux» - pannes, réparations.

Comment et où collecter toutes ces informations, chaque opérateur de centre de données décide par lui-même. L'interface utilisateur ne limite pas les outils. Il peut s'agir d'un simple Excel (nous avons commencé par cela) ou d'un système de gestion de la maintenance (MMS) auto-écrit, comme nous l'avons maintenant. Soit dit en passant, le service desk , le contrôle des stocks, le journal en ligne, la surveillance sont également auto-écrits.


Voici une "affaire personnelle" pour chaque pièce d'équipement.

Nous avons montré nos pratiques dans ce domaine, notamment en utilisant l'exemple de cette infrastructure UPS (photo), qui a fait don d'un de ses composants UPS à la charge informatique. Oui, selon la norme, seuls les équipements d'infrastructure qui fournissent la climatisation, l'éclairage de secours, mais pas la charge informatique, peuvent faire face à ce «don».



Après cela, les auditeurs ont demandé de montrer le ticket correspondant dans Service Desk:



Et le profil UPS dans MMS:



pièces de rechange. Pour l'entretien et les réparations urgentes des équipements d'ingénierie, nous conservons nos pièces de rechange. Il y a un entrepôt commun avec de grandes pièces de rechange pour l'équipement et de petites armoires avec des pièces de rechange dans les salles d'ingénierie (pour que vous n'ayez pas à courir loin).

Sur la photo: nous vérifions la disponibilité des pièces détachées pour les moteurs diesel. Nous avons compté 12 filtres. Ils ont ensuite vérifié les données dans MMS.  



Un exercice similaire a été effectué dans l'entrepôt principal, où sont stockées de grandes pièces de rechange: compresseurs, contrôleurs, automatisation, ventilateurs, humidificateurs à vapeur et des centaines d'autres positions. Réécriture sélective des marquages ​​et «perforation» via MMS.




Données sur les stocks de pièces détachées. Le rouge est ce qui manque et doit être acheté.

Maintenance préventive. En plus de la maintenance et des réparations, UI recommande d'effectuer une maintenance préventive. Il aide à transformer un accident potentiel en réparation planifiée. Pour chaque paramètre, nous configurons des valeurs de seuil dans la surveillance. En cas de dépassement, les responsables reçoivent des alarmes et prennent les mesures nécessaires. Par exemple, nous:

  • Nous vérifions les panneaux électriques avec un imageur thermique afin de trouver un défaut dans les installations électriques dans le temps: mauvais contact, surchauffe locale du conducteur ou de la machine. 
  • Nous surveillons les vibrations et la consommation de courant des pompes du système de réfrigération. Cela vous permet d'identifier rapidement les écarts et de planifier rapidement le remplacement des pièces.
  • Nous effectuons des analyses de carburant et d'huile de groupes électrogènes diesel, compresseurs.
  • Test de concentration de glycol dans un système d'alimentation à froid.


Tableau des vibrations de la pompe avant et après réparation.

Travailler avec des entrepreneurs. L'entretien et les réparations de l'équipement sont effectués par des entrepreneurs externes. Pour notre part, il existe des spécialistes individuels des groupes électrogènes diesel, des climatiseurs et des onduleurs qui surveillent leur travail. Ils vérifient si les entrepreneurs disposent des outils et matériels nécessaires pour les travaux de réparation / maintenance, les certificats professionnels, les certificats de sécurité électrique, les agréments. Ils acceptent tout le travail.


Voici à quoi ressemble une liste de contrôle pour l'acceptation des travaux d'entretien d'un climatiseur.


Au bureau des laissez-passer, nous vérifions si les laissez-passer sont délivrés aux représentants autorisés des entrepreneurs, s'ils ont réussi l'entretien à l'heure indiquée et s'ils ont pris connaissance des règles.

Documentation.Des processus bien établis pour l'entretien des systèmes et des équipements représentent la moitié de la bataille. Toutes les procédures effectuées par une personne dans un centre de données doivent être documentées. L'objectif est simple: pour que tout ne devienne pas isolé sur une personne en particulier et en cas d'accident, tout ingénieur pourrait prendre des instructions claires et effectuer toutes les opérations nécessaires pour l'éliminer.

UI a sa propre méthodologie pour une telle documentation.

Pour les actions simples et répétitives, la procédure opérationnelle standard (SOP) est compilée. Par exemple, il existe des SOP pour allumer / éteindre le refroidisseur et mettre l'onduleur en dérivation.

Pour la maintenance ou les opérations complexes, telles que le remplacement des batteries dans l'onduleur, des méthodes de procédures (MOP) sont créées. Il peut s'agir de SOP. Chaque type d'équipement d'ingénierie doit avoir ses propres MOP.

Enfin, il existe des procédures d'exploitation d'urgence (EOP) - instructions d'urgence. Une liste des urgences spécifiques est compilée et des instructions sont écrites pour elles. Voici une partie de la liste des urgences, qui détaille les signes de l'accident, les actions, les personnes responsables et les personnes à signaler:

  • arrêt de l'alimentation électrique de la ville: la DGU a démarré / n'a pas démarré;
  • Accident UPS; 
  • accidents sur le système de surveillance du centre de données;
  • surchauffe de la salle des machines;
  • fuite du système de réfrigération;
  • accident sur le réseau et les équipements informatiques;

Etc.

Composer un tel volume de documentation est un travail laborieux en soi. Il est encore plus difficile de le tenir à jour (ceci, soit dit en passant, les auditeurs vérifient également). Et le plus important - le personnel doit connaître ces instructions, y travailler et apporter des améliorations si nécessaire.


Oui, les instructions doivent être disponibles là où elles peuvent être nécessaires, et pas seulement accumuler de la poussière dans les archives.


Marques sur les changements dans la réglementation de la maintenance des systèmes d'ingénierie du centre de données.

Au cours de l'audit, ils examinent également la documentation technique des systèmes, la documentation exécutive et de travail, les actes de mise en service des systèmes. 

Marquage.Lors d'une visite du centre de données, ils l'ont vérifié partout où ils pouvaient se rendre. Où ne pouvait pas atteindre - atteint à partir d'une échelle :). Nous avons regardé sa présence sur chaque bouclier, machine, valve. Ils ont vérifié l'unicité, l'ambiguïté et la conformité avec les schémas actuels de documentation exécutive. Sur la photo ci-dessous: dans la pompe de stockage de carburant, nous comparons le marquage sur les électrovannes avec le schéma de la documentation exécutive. 



Tout était d'accord avec elle, mais avec le diagramme axonométrique "décoratif" local sur le mur dans un paramètre ne correspondait pas.



Dans les locaux du centre de données, les schémas des systèmes qui s'y trouvent devraient également se bloquer. En cas d'accident, ils aident à trouver rapidement où se trouve ce qui se trouve et à prendre une décision éclairée. Sur la photo, par exemple, un schéma unifilaire dans le tableau principal.



La pertinence des régimes a été vérifiée comme suit: ils ont appelé l'étiquetage de l'élément sur le régime et ont demandé de montrer "en nature". 



Ici, l'auditeur prend des photos des réglages (réglages) de la libération du tableau principal du tableau principal, puis pour vérifier avec les indicateurs sur un schéma unifilaire en papier et en copies électroniques. Sur l'une des machines, QF-3, l'indicateur ne coïncidait pas avec le schéma papier, et nous avons gagné un point de pénalité. Maintenant, deux ingénieurs vérifieront la conformité des marquages ​​dans les schémas unifilaires avec le fait.



Ce n'est pas tout ce que les auditeurs ont vérifié concernant les processus de service. Voici ce qui était à l'ordre du jour:


UI


Sécurité et contrôle d'accès. L'audit vérifie également le fonctionnement des systèmes de sécurité et de sûreté. Par exemple, l'auditeur a essayé d'entrer dans l'une des pièces où il n'a pas accès, puis a vérifié si cela se reflétait dans le système ACS et si la sécurité avait une notification à ce sujet (il y avait un spoiler).

Si dans nos centres de données la porte d'une pièce reste ouverte pendant plus de deux minutes, un avertissement est déclenché au poste de sécurité. Pour vérifier cela, les auditeurs ont soutenu l'une des portes avec un extincteur. Certes, nous n'avons pas attendu les sirènes - les gardes de sécurité ont vu quelque chose qui clochait à travers les caméras vidéo et sont arrivés plus tôt sur la «scène du crime».

Ordre et propreté.Les auditeurs recherchent la poussière, des boîtes d'équipement posées au hasard, à quelle fréquence les chambres sont nettoyées. Ici, par exemple, les auditeurs étaient intéressés par un objet non identifié dans le couloir de ventilation. Ceci est un bloc du système de ventilation, qui se préparait déjà à prendre sa place. Mais toujours demandé de signer.



Toujours en cours de commande dans le centre de données - ce sont les armoires avec tous les outils nécessaires pour les travaux d'urgence sur les équipements situés dans le tableau principal. 



L'emplacement.Le centre de données est évalué en fonction des conditions de localisation - y a-t-il des bases militaires, des aéroports, des rivières, des volcans et d'autres objets dangereux à proximité. Sur la photo, nous venons de montrer que depuis la dernière certification en 2017, aucune centrale nucléaire et aucune installation de stockage de pétrole ne s'est développée autour du centre de données. Mais là-bas, un nouveau centre de données NORD-5 est en construction, qui doit également passer par tous les niveaux de certification de l'Uptime Institute Tier III. Mais c'est une histoire complètement différente).


All Articles