Überwachung im Rechenzentrum: Wie wir das alte BMS durch ein neues ersetzt haben. Teil 2



Im ersten Teil haben wir darüber gesprochen, warum wir beschlossen haben, das alte BMS-System in unseren Rechenzentren durch ein neues zu ersetzen. Und nicht nur ändern, sondern von Grund auf neu entwickeln, um Ihren Anforderungen zu entsprechen. Im zweiten Teil erzählen wir, wie wir es gemacht haben.

Marktanalyse


Basierend auf den im ersten Teil beschriebenen Wünschen und Entscheidungen, das bestehende System nicht zu aktualisieren, haben wir eine Arbeitserklärung verfasst, um eine Lösung auf dem Markt zu finden, und mehrere große Unternehmen befragt, die nur an der Schaffung industrieller SCADA-Systeme beteiligt sind. 

Die ersten Antworten zeigten, dass die Marktführer für Überwachungssysteme hauptsächlich weiterhin an Eisenservern arbeiten, obwohl der Prozess der Migration in die Clouds in diesem Segment bereits begonnen hat. Bei virtuellen Sicherungsmaschinen wird diese Option von niemandem unterstützt. Darüber hinaus gab es das Gefühl, dass keiner der auf dem Markt sichtbaren Entwickler überhaupt ein Verständnis für die Notwendigkeit von Redundanz zeigte: "Die Cloud fällt nicht", war die häufigste Antwort. Tatsächlich wurde uns angeboten, die Überwachung von Rechenzentren in einer Cloud zu platzieren, die sich physisch im selben Rechenzentrum befindet.

Hier ist es notwendig, einen kleinen Exkurs über den Prozess der Auswahl eines Auftragnehmers zu machen. Der Preis spielt natürlich eine Rolle, aber während einer Ausschreibung für die Umsetzung eines komplexen Projekts in der Phase des Dialogs mit den Lieferanten spürt man, welcher der Kandidaten mehr Interesse hat und in der Lage ist, es umzusetzen. 

Dies macht sich insbesondere bei komplexen Projekten bemerkbar. 

Aufgrund der Art der Klärungsfragen für TK ist es möglich, die Auftragnehmer in diejenigen zu unterteilen, die einfach verkaufen möchten (der Standarddruck des Verkaufsleiters ist zu spüren), und diejenigen, die daran interessiert sind, das Produkt zu entwickeln, nachdem sie den Kunden gehört und verstanden haben, konstruktive Änderungen an den technischen Spezifikationen bereits vor der endgültigen Auswahl vorzunehmen (auch trotz der tatsächlichen Risiko, die TK eines anderen zu verbessern und das Angebot zu verlieren), am Ende einfach bereit, die berufliche Herausforderung anzunehmen und ein gutes Produkt herzustellen.

All dies hat uns dazu gebracht, einem relativ kleinen lokalen Entwickler Aufmerksamkeit zu schenken - der Sunline-Unternehmensgruppe, die sofort auf die meisten unserer Anforderungen reagierte und bereit war, alle Anforderungen in Bezug auf das neue BMS zu erfüllen. 

Die Risiken


Während die großen Akteure versuchten zu verstehen, was wir wollen, und wir mit Hilfe von Vorverkaufsspezialisten gemächlich korrespondierten, vereinbarte ein lokaler Entwickler unter Beteiligung seines technischen Teams einen Termin in unserem Büro. Bei diesem Treffen zeigte der Auftragnehmer erneut den Wunsch, an dem Projekt teilzunehmen, und erklärte vor allem, wie das erforderliche System implementiert wird.    

Vor dem Treffen sahen wir zwei Risiken bei der Zusammenarbeit mit einem Team, das nicht über die Ressourcen eines großen nationalen oder internationalen Unternehmens verfügt:

  1. Spezialisten könnten ihre Fähigkeiten überschätzen und könnten dies einfach nicht bewältigen. Sie werden beispielsweise ausgefeilte Software verwenden oder undurchführbare Sicherungsalgorithmen entwerfen.
  2. Nach der Implementierung des Projekts kann sich das Projektteam trennen und daher ist die Produktunterstützung gefährdet.

Um diese Risiken zu minimieren, haben wir unsere eigenen Entwicklungsspezialisten zu dem Treffen eingeladen. Die Mitarbeiter eines potenziellen Auftragnehmers wurden gründlich befragt, worauf das System basiert, wie es geplant ist, Reservierungen umzusetzen, und zu anderen Themen, in denen wir als Betriebsdienstleister nicht kompetent genug sind.

Das Urteil war positiv: Die Architektur der bestehenden BMS-Plattform ist modern, einfach und zuverlässig, kann finalisiert werden, das vorgeschlagene Backup- und Synchronisationsschema ist logisch und effizient. 

Sie haben das erste Risiko gemeistert. Sie schlossen die zweite aus, nachdem sie vom Auftragnehmer die Bestätigung erhalten hatten, dass sie bereit waren, uns den Quellcode für das System und die Dokumentation zu geben, sowie die Python-Programmiersprache, die unseren Spezialisten bekannt ist. Dies garantierte uns die Möglichkeit, das System ohne Schwierigkeiten selbstständig zu warten, und eine lange Einarbeitungszeit für die Mitarbeiter, falls das Entwicklerunternehmen den Markt verlässt.

Ein weiterer Vorteil der Plattform bestand darin, dass sie in Docker-Containern implementiert wurde: In dieser Umgebung funktionieren der Kernel, die Weboberfläche und die Produktdatenbank. Dieser Ansatz bietet viele Vorteile, einschließlich voreingestellter Einstellungen für die höchste Bereitstellungsgeschwindigkeit der Lösung im Vergleich zu den "Klassikern" und dem einfachen Hinzufügen neuer Geräte zum System. Das Prinzip „Alles zusammen“ vereinfacht die Implementierung des Systems so weit wie möglich: Es reicht aus, das System zu entpacken, und Sie können es sofort bedienen. 

Mit einer solchen Lösung ist es einfacher, Kopien des Systems zu erstellen, und es ist möglich, es zu verbessern und Upgrades in einer separaten Umgebung durchzuführen, ohne die Lösung als Ganzes anzuhalten.  

Nachdem beide Risiken minimiert worden waren, stellte der Auftragnehmer KP zur Verfügung. Es hat für uns alle wichtigen Parameter des BMS-Systems herausgearbeitet.

Reservierung


Das neue BMS-System sollte sich auf einer virtuellen Maschine in der Cloud befinden. 

Keine Hardware, keine Server und alle mit diesem Bereitstellungsmodell verbundenen Unannehmlichkeiten und Risiken - die Cloud-Lösung ermöglichte es uns, sie für immer loszuwerden. Es wurde beschlossen, dass das System in unserer Cloud an zwei Rechenzentrumsstandorten in St. Petersburg und Moskau funktioniert. Dies sind zwei voll funktionsfähige Systeme, die im aktiven Standby-Modus arbeiten und für alle autorisierten Spezialisten zugänglich sind. 

Die beiden Systeme versichern sich gegenseitig und bieten eine volle Reserve für Rechenleistung und Datenübertragungskanäle. Darüber hinaus werden zusätzliche Sicherheitsmaßnahmen eingerichtet, darunter das Sichern von Daten und Kanälen, Systemen, virtuellen Maschinen im Allgemeinen und eine separate Sicherung der Datenbank einmal im Monat (die im Hinblick auf Verwaltung und Analyse wertvollste Ressource). 

Beachten Sie, dass Redundanz als Option der BMS-Lösung speziell für unsere Anfrage entwickelt wurde. Das Sicherungsschema selbst sah folgendermaßen aus:



Unterstützung



Der wichtigste Punkt für den effektiven Betrieb einer BMS-Lösung ist der technische Support. 

Hier ist alles einfach: Ein neues System würde uns in diesem Indikator 35.000 Rubel kosten. pro Monat für die SLA "Antwort innerhalb von 8 Stunden", dh 35.000 x 12/80 = 5.250 USD pro Jahr. Das erste Jahr ist frei. 

Zum Vergleich: Die Unterstützung des alten BMS durch den Anbieter kostete 18.000 US-Dollar pro Jahr, wobei der Betrag für jedes neue hinzugefügte Gerät erhöht wurde! Gleichzeitig stellte das Unternehmen keinen dedizierten Manager zur Verfügung. Die gesamte Interaktion erfolgte über einen Vertriebsleiter, der sich für uns als potenziellen Käufer mit einem entsprechenden Schwerpunkt bei der Bearbeitung von Anfragen interessiert. 

Für weniger Geld erhielten wir volle Unterstützung für das Produkt, mit einem Account Manager, der an der Entwicklung des Produkts teilnehmen würde, mit einem einzigen Einstiegspunkt usw. Der Support wurde viel flexibler - dank des direkten Zugriffs auf Entwickler für betriebliche Anpassungen aller Systemaspekte, Integration über API usw.

Aktualisierung


Gemäß dem im neuen BMS vorgeschlagenen KP sind alle Aktualisierungen in den Supportkosten enthalten, d. H. erfordern keine zusätzliche Zahlung. Eine Ausnahme bildet die Entwicklung zusätzlicher Funktionen, die über die im ToR angegebenen hinausgehen. 

Das alte System übernahm die Zahlung sowohl für die Aktualisierung der Firmware der freien Software (wie Java) als auch für die Behebung von Fehlern. Es war unmöglich, dies abzulehnen, da das System aufgrund von Aktualisierungen aufgrund alter Versionen interner Komponenten insgesamt nicht „verlangsamt“ wurde.

Und natürlich war es unmöglich, die Software zu aktualisieren, ohne ein Support-Paket zu kaufen.

Flexibler Ansatz


Eine weitere Grundvoraussetzung betraf die Schnittstelle. Wir wollten den Zugriff über einen Webbrowser von überall aus ermöglichen, ohne dass ein Techniker im Rechenzentrum anwesend ist. Darüber hinaus haben wir uns bemüht, eine animierte Benutzeroberfläche zu erstellen, damit die Funktionsdynamik der Infrastruktur für die diensthabenden Ingenieure besser sichtbar wird. 

Auch im neuen System mussten Formeln zur Berechnung des Betriebs virtueller Sensoren in technischen Systemen unterstützt werden - zum Beispiel für die optimale Verteilung der elektrischen Leistung auf Racks mit Geräten. Dazu müssen Sie über alle üblichen mathematischen Operationen verfügen, die für die Indikatoren von Sensoren gelten. 

Ferner war ein Zugriff auf die SQL-Datenbank erforderlich, um die erforderlichen Daten zum Betrieb des Geräts abrufen zu können - nämlich alle Aufzeichnungen zur Überwachung von zweitausend Geräten und zweitausend virtuellen Sensoren, die etwa 20.000 Variablen erzeugen. 

Wir brauchten auch ein Modul für die Abrechnungsausrüstung im Rack, das eine grafische Darstellung der Position der Geräte in jeder Einheit mit der Berechnung des Gesamtgewichts der Hardware, der Verwaltung einer Gerätebibliothek und detaillierten Informationen zu jedem Element bietet. 

Harmonisierung von TK und Unterzeichnung einer Vereinbarung


Zu diesem Zeitpunkt, als es notwendig war, mit der Arbeit an dem neuen System zu beginnen, war die Korrespondenz mit "großen" Unternehmen noch weit davon entfernt, die Kosten ihrer Vorschläge zu erörtern. Daher verglichen wir den erhaltenen KP mit den Kosten für die Aktualisierung des alten BMS (siehe erster Teil ) Infolgedessen erwies es sich als preislich attraktiver und entsprach unseren Anforderungen.

Die Wahl wurde getroffen.

Nach der Auswahl eines Auftragnehmers begannen die Anwälte mit der Ausarbeitung eines Vertrags, und die technischen Teams auf beiden Seiten polierten die technischen Spezifikationen. Wie Sie wissen, ist eine detaillierte und kompetente TK die Grundlage für den Erfolg jeder Arbeit. Je genauer TK ist, desto weniger Enttäuschungen wie "aber das hat uns nicht gefallen".

Ich werde zwei Beispiele für den Detaillierungsgrad der Anforderungen in TK geben:

  1. BMS , PDU. BMS «», , . . . , : , . .
  2.   BMS : – , – , – «».  «» , , . , BMS . , , «» , , «» , .

Mit einem ähnlichen Detaillierungsgrad wurden Diagramm- und Berichtsformate, Schnittstellenumrisse, eine Liste der Geräte, die überwacht werden mussten, und viele andere Dinge vorgeschrieben. 

Es war eine wirklich kreative Arbeit von drei Arbeitsgruppen - Kundenservice, der seine Anforderungen und Bedingungen diktierte; technische Spezialisten beider Seiten, deren Aufgabe es war, diese Bedingungen in technische Dokumentation umzuwandeln; Teams von Programmierern von Auftragnehmern, die Kundenanforderungen für die entwickelte technische Dokumentation implementiert haben ... Infolgedessen haben wir einige unserer prinzipienlosen Anforderungen an die Funktionalität einer vorhandenen Plattform angepasst, was der Auftragnehmer für uns hinzugefügt hat. 

Parallelbetrieb zweier Systeme



Es ist Zeit für die Umsetzung. In der Praxis bedeutete dies, dass wir dem Auftragnehmer die Möglichkeit gaben, einen BMS-Prototyp in unserer virtuellen Cloud bereitzustellen und Netzwerkzugriff auf alle Geräte bereitzustellen, die überwacht werden müssen.

Darüber hinaus war das neue System noch nicht betriebsbereit. In dieser Phase war es uns wichtig, die Überwachung im alten System aufrechtzuerhalten und gleichzeitig Zugriff auf die Geräte des neuen Systems zu gewähren. Es ist unmöglich, ein System normal aufzubauen, ohne Geräte darin zu sehen, die wiederum nicht von der Überwachung durch das alte System getrennt werden können. 

Ob die Geräte einer gleichzeitigen Abfrage durch zwei Systeme standhalten können, war ohne echte Tests nicht offensichtlich. Es war möglich, dass eine doppelte gleichzeitige Umfrage zu einer häufigen Ablehnung von Antworten von Geräten führen würde und wir aufgrund der Nichtverfügbarkeit von Geräten viele Fehler erhalten würden, was wiederum den Betrieb des alten Überwachungssystems blockieren würde.

Die Netzwerkabteilung hat virtuelle Routen vom Prototyp des neuen BMS, das in der Cloud bereitgestellt wird, auf Geräte übertragen, und wir haben die Ergebnisse erhalten: 

  • Geräte, die über das SNMP-Protokoll verbunden sind, wurden aufgrund gleichzeitiger Anrufe praktisch nicht getrennt. 
  • Geräte, die über Gateways mit Modbas-TCP-Protokollen verbunden waren, hatten Probleme, die durch eine angemessene Reduzierung der Häufigkeit ihrer Abfragen behoben wurden.  

Und dann begannen wir zu beobachten, wie ein neues System vor unseren Augen gebaut wird. Die Geräte, die wir bereits kennen, erscheinen darin, aber auf einer anderen Oberfläche - bequem, schnell und sogar vom Telefon aus zugänglich.

Wir werden im dritten Teil unseres Artikels darüber sprechen, was als Ergebnis passiert ist.

All Articles