Monitoreo en el centro de datos: cómo cambiamos el viejo BMS a uno nuevo. Parte 3

Continuamos nuestra historia sobre cómo cambiamos el sistema BMS en nuestros centros de datos ( parte 1 , parte 2 ). Al mismo tiempo, no solo cambiamos la solución de un proveedor a otro, sino que desarrollamos el sistema desde cero para cumplir con nuestros requisitos. En conclusión de nuestra historia, compartimos los resultados del trabajo realizado y soluciones interesantes que pueden ser útiles para usted.

Nueva interfaz


Aquí, como dicen, es mejor ver una vez.

Bastidores

Analicemos las diferencias.

  • En primer lugar, es maravillosamente cómodo. Tenga en cuenta lo fácil que ha sido rastrear la carga en los módulos ("Bancos" o simplemente "Bancos") de la PDU y la suma de las cargas paralelas de los módulos emparejados. En el modelo de bastidor del nuevo BMS, vemos de inmediato que las PDU emparejadas inferiores están sobrecargadas (la corriente total por encima del 16A permitido es una notificación "azul"), y las superiores están subcargadas. En caso de desconexión de una de las entradas, toda la carga irá a la segunda, y el módulo inferior que permanece energizado se desconectará debido a una sobrecarga. Para evitar esto, el servicio de soporte del centro de datos advertirá al cliente por adelantado y enviará una recomendación sobre cómo redistribuir la carga.
  • . BMS PDU. BMS , , - « ».
  • . . . , ( ) . , . 
  • Interfaz intuitiva En la nueva interfaz no hay pilas de iconos, los ventiladores giran, los interruptores "hacen clic". Y lo más conveniente es la capacidad de indicar el estado de la línea PDU A / B dentro de los bastidores. Intentamos hacer algo similar en el antiguo BMS, pero la cantidad de iconos fusionados por centímetro cuadrado de la tarjeta nos obligó a abandonarlo.

Ahora el ojo se complace en mirar:


Servidor


Fragmento de la centralita principal.


Panel de control de ventilación.

Y puedes decorar el nuevo BMS para el Año Nuevo :-)


Una página: comprensión y sin conocimientos tradicionales


Durante mucho tiempo quisimos implementar otro "truco" en BMS: componer en una página los parámetros principales del centro de datos, de modo que una mirada a la pantalla sería suficiente para evaluar el estado de los sistemas principales. Sin embargo, no entendimos completamente cómo debería verse.

Incluso antes de que comenzara el desarrollo del nuevo BMS, visitamos docenas de centros de datos en los Países Bajos con excursiones. Uno de los objetivos era ver ejemplos de la implementación de dicha página.

Y no nos los mostraron en ningún centro de datos: en algún lugar no estaba, en algún lugar "se estaba desarrollando en este momento", en algún lugar era un "gran secreto comercial". Por lo tanto, en nuestros Términos de Referencia para la creación de un nuevo BMS, faltaba una descripción exacta de esta página, que es muy importante para nosotros.

Como resultado, se nos ocurrió literalmente "sobre la marcha". Justo en ese momento, tuve que consultar remotamente a colegas en el centro de datos. Desplazarse por las páginas de BMS en el teléfono en busca de datos dispares era muy inconveniente, y de hecho, la primera versión de Una página estaba garabateada en una servilleta . Fue implementado por los desarrolladores de la foto. 

Siguiendo el ejemplo de cautelosos colegas holandeses, no mostraremos la versión final de nuestra página principal, especialmente porque cada centro de datos es único y no tiene sentido copiarlo. Pero describimos dos principios principales de su formación:

  1. , ( , ), . «» , . 
  2. ( ). , .  - – . .

De hecho, ahora absolutamente todas las características clave del centro de datos están agrupadas y presentadas en la misma pantalla del teléfono inteligente / monitor por el ingeniero y gerente responsable, mientras se implementa la conexión a la topografía física y lógica del centro de datos. 

Aquí hay una foto del primer borrador, aunque, por supuesto, esta versión fue repensada y finalizada.



Acuse de recibo y resumen de incidentes.


Hablemos de otro concepto nuevo para nosotros, que apareció como resultado del proyecto para actualizar el sistema de monitoreo.

El reconocimiento es un término bastante raro que el desarrollador del nuevo BMS propuso utilizar. Significa confirmación de que el operador vio el incidente, lo confirmó y asumió la responsabilidad de eliminarlo.  

La palabra ha echado raíces y ahora "reconocemos" los incidentes.

El algoritmo establecido en la versión básica del nuevo BMS no nos convenía. De hecho, estos fueron comentarios en el registro de eventos, es decir, los incidentes resueltos no desaparecieron del diario, y los mensajes recibidos ("reconocidos") no se clasificaron de los nuevos.

Como resultado, se desarrolló una ventana con el nombre "resumen", en la que:

  1. Solo los incidentes y dispositivos activos se muestran en modo de servicio (sin notificaciones comerciales "azules").
  2. Los incidentes NUEVOS y ACEPTADOS están claramente separados.
  3. Se indica quién aceptó el incidente.

El algoritmo de trabajo en el nuevo BMS es el siguiente:

  1. Se informan nuevos incidentes y esperan su reconocimiento. No pueden estar en esta sección durante mucho tiempo, el oficial de equipo en servicio debe asumir el incidente inmediatamente.
  2. El empleado acepta el incidente haciendo clic en la marca de verificación a la derecha. Como todos los empleados tienen cuentas únicas, muestra automáticamente quién aceptó el incidente. Si es necesario, deja un comentario.
  3. El incidente pasa a la sección "Reconocido", el resto de los asistentes y el gerente entienden que el oficial responsable está involucrado en el incidente.



Un ejemplo de una ventana de resumen con un mensaje nuevo y ya reconocido.

Después de conectar la ventana de resumen con la tabla de una página, obtuvimos una pantalla principal completa del sistema BMS, en la que puede ver de inmediato: 

  • el estado de los principales sistemas de centros de datos;
  • la presencia de nuevos incidentes no procesados;
  • la presencia de incidentes aceptados y datos sobre quién los elimina específicamente.

Acceso a través del navegador y alertas emergentes en el teléfono


La interfaz web, accesible desde cualquier dispositivo desde cualquier parte del mundo, es un marcado contraste con el cliente "gordo", completamente cerrado para usuarios externos. 

El viejo enfoque arrastraba una serie de inconvenientes, desde problemas para organizar el trabajo remoto de los empleados del servicio de monitoreo hasta la necesidad de instalar clientes “gruesos” desde las distribuciones en los trabajos del personal en el centro de datos.

Ahora cualquier página en BMS tiene una dirección única, que le permite compartir no solo la dirección directa de la página o dispositivo, sino también enlaces a gráficos / informes únicos. 

El acceso al sistema ahora se proporciona a través de la autenticación LDAP a través de Active Directory, lo que mejora su nivel de seguridad. 

La movilidad actual es un factor clave en el trabajo de calidad de los ingenieros de servicio. Además de monitorear el monitoreo en la sala de turnos de servicio, los ingenieros hacen desvíos, realizan trabajos de rutina fuera de la “sala de servicio” y, gracias a la pantalla principal BMS optimizada para la pantalla del móvil, no pierden el control de lo que sucede en las habitaciones por un segundo. 

La calidad del control se ve reforzada por la funcionalidad de los chats de trabajo. Aceleran los flujos de trabajo, lo que le permite "vincular" la correspondencia de los ingenieros de servicio con BMS. Por ejemplo, utilizamos la aplicación Teams, que le permite realizar correspondencia interna y recibir todos los mensajes de BMS en el teléfono en forma de notificaciones push emergentes, lo que elimina el deber del oficial de servicio de mirar constantemente la pantalla del teléfono.


 Notificación push en la pantalla del teléfono inteligente.


Y así, las notificaciones se ven en la aplicación Teams.

Al mismo tiempo, las notificaciones emergentes se configuran solo para mensajes sobre incidentes, minimizando así la distracción, el personal sabe que si aparece la notificación Push de Teams en la pantalla del teléfono inteligente, debe ir a la página BMS y aceptar el incidente. Los mensajes de acciones correctivas ya se rastrean en la página BMS.


En la foto, la interfaz BMS en el teléfono inteligente.

Resumiendo


Con el costo de actualizar el BMS de nuestro antiguo proveedor, comparable al desarrollo de un nuevo sistema desde cero (alrededor de $ 100,000), la diferencia en la funcionalidad de los productos resultó ser enorme. Recibimos un sistema flexible optimizado para nuestras tareas y procesos comerciales. También logramos ahorros significativos en los costos de funcionamiento para mantener y actualizar el sistema. 

Pero, por supuesto, hubo dificultades. 

  • -, , BMS, . , , , , . , . , , . 
  • -, , . BMS, . . , , .
  • -, . ( ) , , , .

La actualización radical de nuestro sistema BMS hoy se puede llamar el proyecto más importante del año pasado, lo que afectará seriamente la calidad de la gestión operativa de nuestros sitios en el futuro. 

Por supuesto, no tiramos el viejo servidor de hierro, sino que "lo hicimos más fácil": limpiamos miles de sensores virtuales y PDU "comerciales" y dejamos solo unas pocas docenas de los dispositivos más críticos, como grupos electrógenos diesel, UPS, aires acondicionados, bombas, sensores de fugas y temperaturas En este modo, volvió a su velocidad anterior, y puede ser una "reserva de reserva". Por cierto, después de eliminar la PDU del antiguo BMS, se han liberado alrededor de 1000 licencias innecesarias, ¿sabe qué hacer con ellas?

All Articles