Und zeigen Sie, oder wie wir das Operational Sustainability Audit am Uptime Institute bestanden haben


Der Leiter der Betriebsabteilung stieg in die Luke des unterirdischen Kraftstoffspeichers, um die Markierungen auf dem Magnetventil anzuzeigen.

Anfang Februar wurde unser größtes Tier III NORD-4- Rechenzentrum vom Uptime Institute (UI) nach dem Standard für betriebliche Nachhaltigkeit erneut zertifiziert. Heute werden wir Ihnen sagen, was die Prüfer sehen und mit welchen Ergebnissen wir fertig sind.

Für diejenigen mit Rechenzentren bei „Sie“ werden wir das Material kurz durchgehen. Tier Standards bewertet und zertifiziert Rechenzentren in drei Schritten:

  • Projekt (Design): Das Paket der Projektdokumentation wird überprüft. Es wird nur jeder bekannten Ebene zugewiesen . Es gibt 4 davon: Tier I - IV. Letzteres ist jeweils das höchste.
  • (Facility): - . - : (, , , , ..) , . Tier III - -.

    Facility , - Dsign.
    NORD-4 Design 2015 , Facility —  2016.
  • (Operational Sustainability). , . - Tier ( Operational Sustainability, Facility). - Tier IV .

    : Bronze, Silver Gold. 88,95 100 , Silver. Gold — 1,05 . 



Wie kann überprüft werden, ob die erforderlichen Prozesse so angeordnet sind und funktionieren, wie sie sollten? Darüber hinaus, wie dies in zwei Tagen zu tun ist - so viel Neuzertifizierung ist erforderlich. Kurz gesagt, die Zertifizierung basiert auf einem sorgfältigen Vergleich der Bestimmungen, der Geschichten „wie alles funktioniert“ und der tatsächlichen Praktiken. Informationen über Letzteres erhalten Sie aus Runden des Rechenzentrums und Gesprächen mit Ingenieuren des Rechenzentrums - „Konfrontationen“, wie wir sie liebevoll nennen. Das sehen sie sich an.

Mannschaft


Zunächst überprüfen UI-Prüfer, ob im Rechenzentrum genügend Mitarbeiter vorhanden sind. Sie nehmen den Personalplan, den Dienstplan und prüfen selektiv anhand von Schichtberichten und ACS-Daten, ob an diesem Tag wirklich die richtige Anzahl von Ingenieuren vor Ort war.

Die Prüfer sehen sich auch die Anzahl der Bearbeitungsstunden genau an. Dies passiert manchmal, wenn ein großer Client anruft und gleichzeitig Dutzende von Racks geliefert werden müssen. In solchen Momenten kommen die Jungs aus anderen Schichten zur Rettung, und sie bekommen dafür zusätzliches Geld bezahlt.

NORD-4 7 : 6 . , 247, , . . . — . 247.


NORD , .

Wenn die Zahlen aussortiert sind, werden die Qualifikationen des Teams überprüft. Auditoren prüfen nach dem Zufallsprinzip die Personalakten der Ingenieure, um sicherzustellen, dass sie über die erforderlichen Diplome, Zertifikate und Genehmigungen (z. B. elektrische Sicherheitszertifikate) verfügen, um in dieser Position arbeiten zu können.

Sie überprüfen auch, wie wir Mitarbeiter schulen. Während des letzten Audits beeindruckte unser System zur Schulung neuer Dienstingenieure die UI-Spezialisten. Für sie führen wir eine dreimonatige Schulung in einem bezahlten Praktikum durch, in der wir sie in die Prozesse und Prinzipien der Arbeit in unserem Rechenzentrum einführen.

Bereits arbeitende Ingenieure sollten regelmäßig geschult werden, einschließlich Notfallarbeiten. Auditoren werden sicherlich die Schulungsprogramme und Materialien solcher Schulungen überprüfen und auch die Ingenieure selektiv untersuchen. Sie werden niemanden bitten, zur DGU zu wechseln, aber sie werden Sie bitten, Schritt für Schritt zu sagen, was zu tun ist, wenn die Stadtstromversorgung ausgeschaltet ist. Basierend auf den Ergebnissen des Audits werden wir alle Schulungsprogramme auf einen einzigen Standard bringen, damit sie sich nicht für verschiedene Teams unterscheiden.


Wir zeigen den Auditoren einen Ruheraum für Schichtingenieure.

Betrieb und Wartung von technischen Systemen 


In diesem großen Teil des Audits zeigen wir, dass alle technischen Geräte und Systeme gemäß dem von den Anbietern empfohlenen Zeitplan regelmäßig gewartet werden. Das Lager verfügt über die erforderlichen Ersatzteile, bestehende Verträge mit Serviceanbietern und für jeden Betrieb mit Geräten eigene Verfahren und Arbeitsalgorithmen für verschiedene Fälle.

MMS Wenn Sie Dutzende von USVs, Dieselgeneratoren, Klimaanlagen und anderen Dingen betreiben, benötigen Sie einen Ort, an dem Sie alle Informationen über diese Wirtschaft sammeln können. Hier ist ungefähr ein Dossier, das für jedes Gerät bei uns erstellt wurde:

  • Modell- und Seriennummer;
  • Markierung;
  • technische Spezifikationen und Einstellungen;
  • Installationsort;
  • Produktionsdaten, Inbetriebnahme, Garantieende;
  • Serviceverträge;
  • Zeitplan und Wartungsverlauf;
  • und die ganze "Krankengeschichte" - Pannen, Reparaturen.

Wie und wo all diese Informationen gesammelt werden sollen, entscheidet jeder Rechenzentrumsbetreiber für sich. Die Benutzeroberfläche ist in Tools nicht eingeschränkt. Es kann ein einfaches Excel (wir haben damit begonnen) oder ein selbst geschriebenes Maintenance Management System (MMS) sein, wie wir es jetzt haben. Service Desk , Bestandskontrolle, Online-Journal und Überwachung sind übrigens auch selbst geschrieben.


Hier ist eine "persönliche Angelegenheit" für jedes Gerät.

Wir haben unsere Praktiken in diesem Bereich gezeigt, einschließlich am Beispiel dieser Infrastruktur-USV (im Bild), die eine ihrer USV-Komponenten für die IT-Last gespendet hat. Ja, gemäß dem Standard können nur Infrastrukturgeräte, die Klimaanlagen und Notbeleuchtung liefern, aber nicht die IT-Last, mit einer solchen „Spende“ umgehen.



Danach baten die Prüfer, das entsprechende Ticket in Service Desk:



und das UPS-Profil in MMS:



Ersatzteile anzuzeigen. Für die rechtzeitige Wartung und Notfallreparatur von technischen Geräten behalten wir unsere Ersatzteile. In den Technikräumen gibt es ein gemeinsames Lager mit großen Ersatzteilen für Geräte und kleinen Schränken mit Ersatzteilen (damit Sie nicht weit laufen müssen).

Auf dem Foto: Wir prüfen die Verfügbarkeit von Ersatzteilen für Dieselmotoren. Wir haben 12 Filter gezählt. Dann überprüften sie die Daten in MMS.  



Eine ähnliche Übung wurde im Hauptlager durchgeführt, wo große Ersatzteile gelagert werden: Kompressoren, Steuerungen, Automatisierung, Lüfter, Dampfbefeuchter und Hunderte weiterer Positionen. Die Markierungen wurden selektiv neu geschrieben und über MMS „gestanzt“.




Daten zu Ersatzteilbeständen. Rot ist , was fehlt und Bedürfnisse direkt zu bestellen gibt .

Vorbeugende Wartung. Zusätzlich zu Wartung und Reparaturen empfiehlt UI eine vorbeugende Wartung. Es hilft, einen möglichen Unfall in eine geplante Reparatur umzuwandeln. Für jeden Parameter konfigurieren wir Schwellenwerte bei der Überwachung. Wenn sie überschritten werden, erhalten die Verantwortlichen Alarme und ergreifen die erforderlichen Maßnahmen. Zum Beispiel:

  • Wir überprüfen die Schalttafeln mit einer Wärmebildkamera, um den Defekt in elektrischen Anlagen rechtzeitig festzustellen: schlechter Kontakt, lokale Überhitzung des Leiters oder der Maschine. 
  • Wir überwachen die Vibration und den Stromverbrauch der Pumpen der Kälteanlage. Auf diese Weise können Sie Abweichungen rechtzeitig erkennen und schnell planen, Teile auszutauschen.
  • Wir führen Kraftstoff- und Ölanalysen von Dieselaggregaten und Kompressoren durch.
  • Testen von Glykol in einem Kaltversorgungssystem auf Konzentration.


Pumpenvibrationsdiagramm vor und nach der Reparatur.

Arbeiten Sie mit Auftragnehmern zusammen. Wartungs- und Gerätereparaturen werden von externen Auftragnehmern durchgeführt. Unsererseits gibt es einzelne Spezialisten für Dieselaggregate, Klimaanlagen und USVs, die ihre Arbeit überwachen. Sie prüfen, ob die Auftragnehmer über die erforderlichen Werkzeuge und Materialien für Reparatur- / Wartungsarbeiten, Berufszertifikate, elektrische Sicherheitskrusten und Toleranzen verfügen. Sie akzeptieren die ganze Arbeit.


So sieht eine Checkliste für die Annahme von Arbeiten zur Wartung von Klimaanlagen aus.


Im Passbüro prüfen wir, ob Pässe an Bevollmächtigte der Auftragnehmer ausgestellt werden, ob sie die Wartung zum angegebenen Zeitpunkt bestanden haben und ob sie mit den Regeln vertraut geworden sind.

Dokumentation.Gut etablierte Prozesse für die Wartung von Systemen und Geräten sind die halbe Miete. Alle Vorgänge, die von einer Person in einem Rechenzentrum ausgeführt werden, sollten dokumentiert werden. Der Zweck ist einfach: Damit sich nicht alles auf eine bestimmte Person beschränkt, und im Falle eines Unfalls kann jeder Ingenieur klare Anweisungen einholen und alle erforderlichen Maßnahmen ergreifen, um ihn zu beseitigen.

Die Benutzeroberfläche verfügt über eine eigene Methodik für diese Dokumentation.

Für einfache und sich wiederholende Aktionen wird die Standard Operational Procedure (SOP) kompiliert. Zum Beispiel gibt es SOPs zum Ein- und Ausschalten des Kühlers, um die USV auf Bypass zu stellen.

Für Wartungs- oder komplexe Vorgänge, z. B. zum Ersetzen der Batterien in der USV, werden Verfahrensmethoden (MOP) erstellt. Dies können SOPs sein. Jede Art von technischer Ausrüstung muss über eigene MOPs verfügen.

Schließlich gibt es Emergency Operating Procedures (EOP) - Notfallanweisungen. Eine Liste spezifischer Notfälle wird zusammengestellt und Anweisungen für sie geschrieben. Hier ist ein Teil der Liste der Notfälle, in der Anzeichen des Unfalls, Handlungen, verantwortliche Personen und Personen zur Benachrichtigung aufgeführt sind:

  • Abschaltung der Stadtstromversorgung: DGU gestartet / nicht gestartet;
  • UPS Unfall; 
  • Unfälle im Rechenzentrumsüberwachungssystem;
  • Überhitzung des Maschinenraums;
  • Leckage des Kühlsystems;
  • Unfall an Netzwerk- und Computergeräten;

Und so weiter.

Ein solches Dokumentationsvolumen zu verfassen, ist an sich schon eine mühsame Aufgabe. Es ist noch schwieriger, es auf dem neuesten Stand zu halten (dies überprüfen übrigens auch die Prüfer). Und vor allem: Die Mitarbeiter sollten diese Anweisungen kennen, daran arbeiten und gegebenenfalls Verbesserungen vornehmen.


Ja, die Anweisungen sollten dort verfügbar sein, wo sie benötigt werden, und nicht nur Staub in den Archiven sammeln.


Markierungen zu Änderungen in der Regelung der Wartung von Engineering-Systemen des Rechenzentrums.

Während des Audits prüfen sie auch die technische Dokumentation der Systeme, die Exekutiv- und Arbeitsdokumentation sowie die Maßnahmen zur Inbetriebnahme der Systeme. 

Markierung.Während einer Tour durch das Rechenzentrum überprüften sie es, wo immer sie es erreichen konnten. Wo konnte nicht erreichen - von einer Trittleiter erreicht :). Wir haben uns die Anwesenheit an jedem Schild, jeder Maschine und jedem Ventil angesehen. Sie überprüften die Einzigartigkeit, Eindeutigkeit und Einhaltung der aktuellen Systeme der Exekutivdokumentation. Auf dem Foto unten: Wir in der Kraftstoffspeicherpumpe vergleichen die Kennzeichnung auf den Magnetventilen mit dem Schema der ausführenden Dokumentation. 



Alles stimmte mit ihr überein, aber mit dem lokalen "dekorativen" axonometrischen Diagramm an der Wand in einem Parameter stimmte nicht überein.



In den Räumlichkeiten des Rechenzentrums sollten auch Schemata der dort befindlichen Systeme hängen. Im Falle eines Unfalls helfen sie, schnell herauszufinden, wo sich das befindet, und treffen eine fundierte Entscheidung. Auf dem Foto zum Beispiel ein einzeiliges Diagramm in der Hauptschalttafel.



Die Relevanz der Schemata wurde wie folgt überprüft: Sie nannten die Kennzeichnung des Elements auf dem Schema und baten um "Sachleistungen". 



Hier macht der Auditor Fotos von den Einstellungen (Einstellungen) der Freigabe der Hauptschalttafel der Hauptschalttafel, um sie dann anhand der Anzeigen auf einem einzeiligen Diagramm in Papier- und elektronischen Kopien zu überprüfen. Auf einer der Maschinen, QF-3, stimmte der Indikator nicht mit dem Papierschema überein, und wir erhielten einen Strafpunkt. Nun werden zwei Ingenieure die Übereinstimmung der Markierungen in einzeiligen Diagrammen mit der Tatsache überprüfen.



Dies ist nicht alles, was die Prüfer in Bezug auf die Serviceprozesse überprüft haben. Folgendes stand noch auf der Tagesordnung:


UI


Sicherheit und Zugangskontrolle. Das Audit überprüft auch den Betrieb von Sicherheits- und Schutzsystemen. Zum Beispiel versuchte der Prüfer, in einen der Räume zu gelangen, in denen er keinen Zugang hat, und überprüfte dann, ob dies im ACS-System widergespiegelt wurde und ob der Sicherheitsdienst eine Benachrichtigung darüber hatte (es gab einen Spoiler).

Wenn in unseren Rechenzentren die Tür zu einem Raum länger als zwei Minuten offen bleibt, wird am Sicherheitsposten eine Warnung ausgelöst. Um dies zu überprüfen, unterstützten die Auditoren eine der Türen mit einem Feuerlöscher. Wir haben zwar nicht auf die Sirenen gewartet - die Sicherheitskräfte haben gesehen, dass etwas durch die Videokameras nicht stimmte, und sind früher am "Tatort" angekommen.

Ordnung und Sauberkeit.Auditoren suchen nach Staub, zufällig liegenden Kisten mit Geräten, mit welcher Häufigkeit die Räume gereinigt werden. Hier interessierten sich die Prüfer beispielsweise für ein nicht identifiziertes Objekt im Lüftungskorridor. Dies ist ein Block vom Lüftungssystem, das sich bereits darauf vorbereitete, seinen Platz einzunehmen. Aber immer noch gebeten zu unterschreiben.



Im Rechenzentrum noch Gegenstand der Bestellung - dies sind die Schränke mit allen notwendigen Werkzeugen für Notarbeiten an den Geräten in der Hauptschalttafel. 



Der Standort.Das Rechenzentrum wird anhand der Standortbedingungen bewertet. Befinden sich Militärstützpunkte, Flughäfen, Flüsse, Vulkane und andere gefährliche Objekte in der Nähe? Auf dem Foto zeigen wir nur, dass seit der letzten Zertifizierung im Jahr 2017 keine Kernkraftwerke und Ölspeicher im Rechenzentrum gewachsen sind. Dort drüben wird jedoch ein neues NORD-5-Rechenzentrum gebaut, das auch alle Zertifizierungsstufen des Uptime Institute Tier III durchlaufen muss. Aber das ist eine ganz andere Geschichte.


All Articles