Surveillance dans le centre de données: comment nous avons changé l'ancien BMS en un nouveau. 3e partie

Nous continuons notre histoire sur la façon dont nous avons changé le système BMS dans nos centres de données ( partie 1 , partie 2 ). Dans le même temps, nous n'avons pas seulement changé la solution d'un fournisseur à un autre, mais développé le système à partir de zéro pour répondre à nos besoins. Pour conclure notre histoire, nous partageons les résultats du travail accompli et des solutions intéressantes qui pourraient vous être utiles.

Nouvelle interface


Ici, comme on dit, il vaut mieux voir une fois.

Racks.

Analysons les différences.

  • Tout d'abord, il est magnifiquement confortable. Notez à quel point il est devenu facile de suivre la charge sur les modules («banques» ou simplement «banques») de la PDU et la somme des charges parallèles des modules appariés. Sur le modèle de rack du nouveau BMS, nous voyons immédiatement que les PDU appariés inférieurs sont surchargés (le courant total au-dessus du 16A autorisé est une notification «bleue»), et les supérieurs sont sous-chargés. Si l'une des entrées est déconnectée, la charge entière sera transférée à la seconde et le module inférieur restant sous tension sera déconnecté en raison d'une surcharge. Pour éviter cela, le service de support du centre de données avertira le client à l'avance et enverra une recommandation sur la façon de redistribuer la charge.
  • . BMS PDU. BMS , , - « ».
  • . . . , ( ) . , . 
  • Interface intuitive. Dans la nouvelle interface, il n'y a pas de tas d'icônes, les fans tournent, les interrupteurs «cliquent». Et le plus pratique est la possibilité d'indiquer l'état de la ligne PDU A / B à l'intérieur des racks. Nous avons essayé de faire quelque chose de similaire dans l'ancien BMS, mais le nombre d'icônes de fusion par centimètre carré de la carte nous a forcés à l'abandonner.

Maintenant, l'œil est content de regarder:


Serveur


Fragment du tableau principal.


Panneau de commande de ventilation.

Et vous pouvez décorer le nouveau BMS pour la nouvelle année :-)


Une page - Comprendre et sans savoirs traditionnels


Pendant très longtemps, nous avons voulu implémenter une autre «astuce» dans BMS: composer sur une seule page les principaux paramètres du datacenter, de sorte qu'un simple coup d'œil à l'écran serait suffisant pour évaluer l'état des principaux systèmes. Cependant, nous n'avons pas entièrement compris à quoi cela devrait ressembler.

Avant même le début du développement du nouveau BMS, nous avons visité des dizaines de centres de données aux Pays-Bas avec des excursions. L'un des objectifs était de voir des exemples de mise en œuvre d'une telle page.

Et ils ne nous ont été montrés dans aucun centre de données - quelque part ce n'était pas le cas, quelque part "il était en cours de développement en ce moment", quelque part c'était un "grand secret commercial". Par conséquent, dans nos TdR pour la création d'un nouveau BMS, une description exacte de cette page, qui est très importante pour nous, manquait.

En conséquence, nous l'avons inventé littéralement «en déplacement». À ce moment-là, j'ai dû consulter à distance des collègues du centre de données. Faire défiler les pages BMS sur le téléphone à la recherche de données disparates était très gênant, et en fait, la première version de One page était griffonnée sur une serviette . Il a été mis en œuvre par les développeurs de la photo. 

Suivant l'exemple de collègues néerlandais prudents, nous ne démontrerons pas la version finale de notre page principale, d'autant plus que chaque centre de données est unique et qu'il n'a aucun sens de copier. Mais nous décrivons deux grands principes de sa formation:

  1. , ( , ), . «» , . 
  2. ( ). , .  - – . .

En fait, désormais, toutes les caractéristiques clés du centre de données sont regroupées et présentées sur le même écran du smartphone / moniteur par l'ingénieur et le gestionnaire responsables, tandis que la connexion à la topographie physique et logique du centre de données est mise en œuvre. 

Voici une photo du tout premier projet, bien que, bien sûr, cette version ait été repensée et finalisée.



Reconnaissance et résumé des incidents


Parlons d'un autre nouveau concept pour nous, qui est apparu à la suite du projet de mise à jour du système de surveillance.

La reconnaissance est un terme assez rare que le développeur du nouveau BMS a proposé d'utiliser. Cela signifie que l'opérateur a vu l'incident, l'a confirmé et a assumé la responsabilité de son élimination.  

Le mot a pris racine, et maintenant nous "reconnaissons" les incidents.

L'algorithme prévu dans la version de base du nouveau BMS ne nous convenait pas. En fait, il s'agissait de commentaires sur le journal des événements, c'est-à-dire que les incidents résolus n'avaient pas disparu du journal et que les messages reçus («reconnus») n'étaient pas triés des nouveaux.

En conséquence, une fenêtre a été développée sous le nom de "résumé", dans laquelle:

  1. Seuls les incidents et les appareils actifs sont affichés en mode service (sans notifications commerciales "bleues").
  2. Les incidents NOUVEAU et ACCEPTÉ sont clairement séparés.
  3. Il est indiqué qui a accepté l'incident.

L'algorithme de devoir dans le nouveau BMS est le suivant:

  1. De nouveaux incidents sont signalés et attendent d'être reconnus. Ils ne peuvent pas rester longtemps dans cette section, le responsable de l'équipement en service doit immédiatement prendre en charge l'incident.
  2. L'employé accepte l'incident en cliquant sur la coche à droite. Étant donné que tous les employés sont sous des comptes uniques, il affiche automatiquement qui a accepté l'incident. Si nécessaire, laissez un commentaire.
  3. L'incident est déplacé vers la section "Accusé de réception", le reste des préposés et le gestionnaire comprennent que l'officier responsable est impliqué dans l'incident.



Un exemple de fenêtre récapitulative avec un nouveau message déjà acquitté.

Après avoir connecté la fenêtre de résumé au tableau d'une page, nous avons obtenu un écran principal à part entière du système BMS, sur lequel vous pouvez immédiatement voir: 

  • état des principaux systèmes de centre de données;
  • la présence de nouveaux incidents non traités;
  • la présence d'incidents acceptés et de données sur les personnes qui les éliminent spécifiquement.

Accès via navigateur et alertes pop-up sur le téléphone


L'interface Web, accessible à partir de n'importe quel appareil de n'importe où dans le monde, contraste fortement avec le client "gras", complètement fermé aux utilisateurs extérieurs. 

L'ancienne approche entraînait un ensemble d'inconvénients, allant des problèmes d'organisation du travail à distance des employés des services de surveillance à la nécessité d'installer des clients «épais» des distributions aux emplois du personnel dans le centre de données.

Désormais, chaque page de BMS possède une adresse unique, ce qui vous permet de partager non seulement l'adresse directe de la page ou du périphérique, mais également des liens vers des graphiques / rapports uniques. 

L'accès au système est désormais fourni via l'authentification LDAP via Active Directory, ce qui améliore son niveau de sécurité. 

La mobilité est aujourd'hui un facteur clé dans le travail de qualité des ingénieurs de service. En plus de surveiller la surveillance dans la salle de travail, les ingénieurs font des détours, effectuent des travaux de routine en dehors de la «salle de service» et, grâce à l'écran principal BMS optimisé pour l'écran mobile, ne perdent pas le contrôle de ce qui se passe dans les salles pendant une seconde. 

La qualité du contrôle est renforcée par la fonctionnalité des chats de travail. Ils accélèrent les flux de travail, vous permettant de «lier» la correspondance des ingénieurs de service à BMS. Par exemple, nous utilisons l'application Équipes, qui vous permet de mener une correspondance interne et de recevoir tous les messages de BMS sur le téléphone sous la forme de notifications push pop-up, ce qui élimine le devoir de l'agent de garde de regarder constamment l'écran du téléphone.


 Notification push sur l'écran du smartphone.


Et donc les notifications apparaissent dans l'application Teams.

Dans le même temps, les notifications contextuelles sont configurées uniquement pour les messages sur les incidents, minimisant ainsi la distraction, le personnel sait que si la notification push des équipes apparaît sur l'écran du smartphone, vous devez vous rendre sur la page BMS et accepter l'incident. Les messages d'actions correctives sont déjà suivis sur la page BMS.


Sur la photo, l'interface BMS dans le smartphone.

Résumer


Avec le coût de la mise à jour de BMS de notre ancien fournisseur, comparable au développement d'un nouveau système à partir de zéro (environ 100 000 $), la différence dans la fonctionnalité des produits s'est avérée énorme. Nous avons reçu un système flexible optimisé pour nos tâches et processus commerciaux. Nous avons également réalisé des économies importantes sur les coûts de fonctionnement pour la maintenance et la mise à jour du système. 

Mais, bien sûr, il y avait des difficultés. 

  • -, , BMS, . , , , , . , . , , . 
  • -, , . BMS, . . , , .
  • -, . ( ) , , , .

La mise à jour radicale de notre système BMS aujourd'hui peut être qualifiée de projet le plus important de l'année écoulée, ce qui affectera sérieusement la qualité de la gestion opérationnelle de nos sites à l'avenir. 

Bien sûr, nous n'avons pas jeté l'ancien serveur de fer, mais «rendu les choses plus faciles»: nous avons nettoyé des milliers de capteurs virtuels et PDU «commerciaux» et n'y avons laissé que quelques dizaines des appareils les plus critiques, tels que les groupes électrogènes diesel, les onduleurs, les climatiseurs, les pompes, les capteurs de fuite, et les températures. Dans ce mode, il est revenu à son ancienne vitesse, et il peut s'agir d'une «réserve de réserve». Au fait, après avoir retiré la PDU de l'ancien BMS, environ 1000 licences désormais inutiles ont été libérées, savez-vous quoi en faire?

All Articles