Überwachung im Rechenzentrum: Wie wir das alte BMS durch ein neues ersetzt haben. Teil 3

Wir setzen unsere Geschichte darüber fort, wie wir das BMS-System in unseren Rechenzentren geändert haben ( Teil 1 , Teil 2 ). Gleichzeitig haben wir nicht nur die Lösung eines Anbieters auf einen anderen geändert, sondern das System von Grund auf neu entwickelt, um unseren Anforderungen gerecht zu werden. Zum Abschluss unserer Geschichte teilen wir die Ergebnisse der geleisteten Arbeit und interessante Lösungen mit, die für Sie nützlich sein können.

Neue Schnittstelle


Hier, wie sie sagen, ist es besser, einmal zu sehen.

Gestelle.

Lassen Sie uns die Unterschiede analysieren.

  • Zum einen ist es schön bequem. Beachten Sie, wie einfach es geworden ist, die Belastung der Module („Banken“ oder nur „Banken“) der PDU und die Summe der parallelen Belastungen der gepaarten Module zu verfolgen. Beim Rack-Modell des neuen BMS sehen wir sofort, dass die unteren gepaarten PDUs überlastet sind (der Gesamtstrom über den zulässigen 16A ist eine „blaue“ Benachrichtigung) und die oberen unterlastet sind. Wenn einer der Eingänge getrennt ist, wird die gesamte Last auf den zweiten übertragen, und das untere Modul, das unter Spannung bleibt, wird aufgrund von Überlast getrennt. Um dies zu verhindern, warnt der Support-Service des Rechenzentrums den Kunden im Voraus und sendet eine Empfehlung zur Umverteilung der Last.
  • . BMS PDU. BMS , , - « ».
  • . . . , ( ) . , . 
  • Intuitive Schnittstelle. In der neuen Oberfläche gibt es keine Haufen von Symbolen, Lüfter drehen sich, Schalter "klicken". Am bequemsten ist es, den Status der PDU-Leitung A / B in den Racks anzuzeigen. Wir haben versucht, im alten BMS etwas Ähnliches zu tun, aber die Anzahl der zusammengeführten Symbole pro Quadratzentimeter der Karte hat uns gezwungen, sie aufzugeben.

Jetzt freut sich das Auge zu sehen:


Server


Fragment der Hauptschalttafel.


Lüftungsbedienfeld.

Und du kannst das neue BMS für das neue Jahr dekorieren :-)


Eine Seite - Verstehen und ohne TK


Lange Zeit wollten wir einen weiteren „Trick“ in BMS implementieren: Auf einer Seite die Hauptparameter des Rechenzentrums zusammenstellen, sodass ein Blick auf den Bildschirm ausreichen würde, um den Status der Hauptsysteme zu beurteilen. Wir haben jedoch nicht ganz verstanden, wie es aussehen sollte.

Noch bevor die Entwicklung des neuen BMS begann, besuchten wir Dutzende von Rechenzentren in den Niederlanden mit Exkursionen. Eines der Ziele war es, Beispiele für die Implementierung einer solchen Seite zu sehen.

Und sie wurden uns in keinem Rechenzentrum gezeigt - irgendwo war es nicht, irgendwo "es wurde gerade entwickelt", irgendwo war es ein "großes Geschäftsgeheimnis". Daher fehlte in unserem ToR für die Erstellung eines neuen BMS eine genaue Beschreibung dieser Seite, die für uns sehr wichtig ist.

Als Ergebnis haben wir es buchstäblich "unterwegs" erfunden. In diesem Moment musste ich Kollegen im Rechenzentrum aus der Ferne konsultieren. Das Scrollen durch die BMS-Seiten des Telefons auf der Suche nach unterschiedlichen Daten war sehr unpraktisch, und tatsächlich wurde die erste Version von One page auf eine Serviette gekritzelt . Es wurde von den Entwicklern des Fotos implementiert. 

Nach dem Vorbild vorsichtiger niederländischer Kollegen werden wir die endgültige Version unserer Hauptseite nicht demonstrieren, zumal jedes Rechenzentrum einzigartig ist und das Kopieren keinen Sinn macht. Wir beschreiben jedoch zwei Hauptprinzipien seiner Entstehung:

  1. , ( , ), . «» , . 
  2. ( ). , .  - – . .

Tatsächlich werden jetzt absolut alle Schlüsselmerkmale des Rechenzentrums vom zuständigen Ingenieur und Manager auf demselben Bildschirm des Smartphones / Monitors gruppiert und dargestellt, während die Verbindung zur physischen und logischen Topographie des Rechenzentrums implementiert wird. 

Hier ist ein Foto des allerersten Entwurfs, obwohl diese Version natürlich überarbeitet und finalisiert wurde.



Bestätigung und Zusammenfassung von Vorfällen


Lassen Sie uns über ein weiteres neues Konzept für uns sprechen, das als Ergebnis des Projekts zur Aktualisierung des Überwachungssystems entstanden ist.

Anerkennung ist ein eher seltener Begriff, den der Entwickler des neuen BMS verwenden wollte. Dies bedeutet eine Bestätigung, dass der Bediener den Vorfall gesehen, bestätigt und die Verantwortung für die Beseitigung übernommen hat.  

Das Wort hat Wurzeln geschlagen, und jetzt "erkennen" wir die Vorfälle an.

Der in der Basisversion des neuen BMS festgelegte Algorithmus passte nicht zu uns. Tatsächlich waren dies Kommentare im Ereignisprotokoll, dh die gelösten Vorfälle sind nicht aus dem Journal verschwunden, und die empfangenen ("bestätigten") Nachrichten wurden nicht nach neuen Nachrichten sortiert.

Als Ergebnis wurde ein Fenster unter dem Namen "Zusammenfassung" entwickelt, in dem:

  1. Im Servicemodus werden nur aktive Vorfälle und Geräte angezeigt (ohne kommerzielle "blaue" Benachrichtigungen).
  2. Die Vorfälle NEW und ACCEPTED sind klar voneinander getrennt.
  3. Es wird angegeben, wer den Vorfall akzeptiert hat.

Der Dienstalgorithmus im neuen BMS lautet wie folgt:

  1. Neue Vorfälle werden gemeldet und warten auf Bestätigung. Sie können nicht lange in diesem Bereich sein, der diensthabende Ausrüstungsbeauftragte sollte den Vorfall sofort auf sich nehmen.
  2. Der Mitarbeiter akzeptiert den Vorfall, indem er auf das Häkchen rechts klickt. Da sich alle Mitarbeiter unter eindeutigen Konten befinden, wird automatisch angezeigt, wer den Vorfall akzeptiert hat. Wenn nötig, hinterlasse einen Kommentar.
  3. Der Vorfall wird in den Bereich "Bestätigt" verschoben. Der Rest der Teilnehmer und der Manager verstehen, dass der verantwortliche Beamte an dem Vorfall beteiligt ist.



Ein Beispiel für ein Zusammenfassungsfenster mit einer neuen und bereits bestätigten Nachricht.

Nachdem wir das Zusammenfassungsfenster mit der Einseitentabelle verbunden haben, erhalten wir einen vollwertigen Hauptbildschirm des BMS-Systems, auf dem Sie sofort sehen können: 

  • den Zustand der wichtigsten Rechenzentrumsysteme;
  • das Vorhandensein neuer unverarbeiteter Vorfälle;
  • das Vorhandensein akzeptierter Vorfälle und Daten darüber, wer sie speziell beseitigt.

Zugriff über Browser und Popup-Benachrichtigungen auf dem Telefon


Die Weboberfläche, auf die von jedem Gerät von überall auf der Welt aus zugegriffen werden kann, ist ein starker Kontrast zum "fetten" Client, der für externe Benutzer vollständig geschlossen ist. 

Der alte Ansatz führte zu einer Reihe von Unannehmlichkeiten, von Problemen bei der Organisation der Remote-Arbeit von Mitarbeitern des Überwachungsdienstes bis hin zur Notwendigkeit, „dicke“ Clients aus Verteilungen auf Mitarbeiterjobs im Rechenzentrum zu installieren.

Jetzt hat jede Seite in BMS eine eindeutige Adresse, mit der Sie nicht nur die direkte Adresse der Seite oder des Geräts freigeben können, sondern auch Links zu eindeutigen Grafiken / Berichten. 

Der Zugriff auf das System erfolgt jetzt über die LDAP-Authentifizierung über Active Directory, wodurch die Sicherheitsstufe erhöht wird. 

Mobilität ist heute ein Schlüsselfaktor für die Qualitätsarbeit von Dienstingenieuren. Neben der Überwachung der Überwachung im Schichtraum machen die Ingenieure Umwege, führen Routinearbeiten außerhalb des „Dienstraums“ durch und verlieren dank des für den mobilen Bildschirm optimierten BMS-Hauptbildschirms keine Sekunde lang die Kontrolle darüber, was in den Räumen geschieht. 

Die Qualität der Kontrolle wird durch die Funktionalität von Arbeits-Chats verbessert. Sie beschleunigen die Arbeitsabläufe und ermöglichen es Ihnen, die Korrespondenz von Dienstingenieuren mit BMS zu "verknüpfen". Zum Beispiel verwenden wir die Team-Anwendung, mit der Sie interne Korrespondenz führen und alle Nachrichten von BMS auf dem Telefon in Form von Popup-Push-Benachrichtigungen empfangen können, wodurch die Pflicht des diensthabenden Beamten entfällt, ständig auf den Telefonbildschirm zu schauen.


 Push-Benachrichtigung auf dem Smartphone-Bildschirm.


Die Benachrichtigungen werden daher in der Team-Anwendung angezeigt.

Gleichzeitig werden Popup-Benachrichtigungen nur für Nachrichten zu Vorfällen konfiguriert, wodurch die Ablenkung minimiert wird. Die Mitarbeiter wissen, dass Sie zur BMS-Seite gehen und den Vorfall akzeptieren müssen, wenn auf dem Bildschirm des Smartphones eine Push-Benachrichtigung für Teams angezeigt wird. Korrekturmeldungen werden bereits auf der BMS-Seite verfolgt.


Auf dem Foto die BMS-Oberfläche im Smartphone.

Zusammenfassen


Angesichts der Kosten für die Aktualisierung des BMS unseres alten Anbieters, vergleichbar mit der Entwicklung eines neuen Systems von Grund auf (ca. 100.000 US-Dollar), stellte sich heraus, dass der Unterschied in der Funktionalität der Produkte enorm war. Wir haben ein flexibles System erhalten, das für unsere Geschäftsaufgaben und -prozesse optimiert ist. Wir haben auch erhebliche Einsparungen bei den laufenden Kosten für die Wartung und Aktualisierung des Systems erzielt. 

Aber natürlich gab es Schwierigkeiten. 

  • -, , BMS, . , , , , . , . , , . 
  • -, , . BMS, . . , , .
  • -, . ( ) , , , .

Die radikale Aktualisierung unseres BMS-Systems heute kann als das wichtigste Projekt des vergangenen Jahres bezeichnet werden, das die Qualität des Betriebsmanagements unserer Standorte in Zukunft ernsthaft beeinträchtigen wird. 

Natürlich haben wir den alten Eisenserver nicht weggeworfen, sondern „einfacher gemacht“: Wir haben Tausende von „kommerziellen“ virtuellen Sensoren und PDUs gereinigt und nur ein paar Dutzend der kritischsten Geräte wie Dieselgeneratorsätze, USVs, Klimaanlagen, Pumpen, Leckagesensoren und Temperaturen. In diesem Modus kehrte es zu seiner früheren Geschwindigkeit zurück und kann eine "Reservereserve" sein. Übrigens, nachdem Sie die PDU aus dem alten BMS entfernt haben, wurden ungefähr 1000 jetzt unnötige Lizenzen freigegeben. Wissen Sie zufällig, was Sie damit tun sollen?

All Articles