Monitoramento no data center: como alteramos o antigo BMS para um novo. Parte 3

Continuamos nossa história sobre como alteramos o sistema BMS em nossos data centers ( parte 1 , parte 2 ). Ao mesmo tempo, não mudamos apenas a solução de um fornecedor para outro, mas desenvolvemos o sistema do zero para atender aos nossos requisitos. Para concluir nossa história, compartilhamos os resultados do trabalho realizado e soluções interessantes que podem ser úteis para você.

Nova interface


Aqui, como se costuma dizer, é melhor ver uma vez.

Racks.

Vamos analisar as diferenças.

  • Em primeiro lugar, é lindamente confortável. Observe como ficou fácil rastrear a carga nos módulos ("Bancos" ou apenas "Bancos") da PDU e a soma das cargas paralelas dos módulos emparelhados. No modelo de rack do novo BMS, vemos imediatamente que as PDUs emparelhadas inferiores estão sobrecarregadas (a corrente total acima dos 16A permitidos é uma notificação "azul") e as superiores estão sobrecarregadas. Se uma das entradas for desconectada, toda a carga será transferida para a segunda e o módulo inferior restante energizado será desconectado devido à sobrecarga. Para evitar isso, o serviço de suporte do data center avisará o cliente com antecedência e enviará uma recomendação sobre como redistribuir a carga.
  • . BMS PDU. BMS , , - « ».
  • . . . , ( ) . , . 
  • Interface intuitiva. Na nova interface, não há muitos ícones, os fãs giram, os interruptores "clicam". E o mais conveniente é a capacidade de indicar o status da linha A / B da PDU dentro dos racks. Tentamos fazer algo semelhante no antigo BMS, mas o número de ícones mesclados por centímetro quadrado do cartão nos forçou a abandoná-lo.

Agora, o olho tem o prazer de assistir:


Servidor


Fragmento do quadro principal.


Painel de controle de ventilação.

E você pode decorar o novo BMS para o Ano Novo :-)


Uma página - Compreendendo e sem TK


Por muito tempo, queríamos implementar outro "truque" no BMS: compor em uma página os principais parâmetros do data center, para que apenas uma olhada na tela fosse suficiente para avaliar o status dos principais sistemas. No entanto, não entendemos completamente como deveria ser.

Mesmo antes do início do desenvolvimento do novo BMS, visitamos dezenas de data centers na Holanda com excursões. Um dos objetivos era ver exemplos da implementação dessa página.

E eles não foram mostrados para nós em nenhum data center - em algum lugar que não estava, em algum lugar "estava sendo desenvolvido agora", em algum lugar era um "grande segredo comercial". Portanto, em nosso ToR para a criação de um novo BMS, faltava uma descrição exata desta página, que é muito importante para nós.

Como resultado, criamos isso literalmente "em movimento". Nesse momento, tive que consultar remotamente colegas no data center. Rolar as páginas do BMS no telefone em busca de dados diferentes era muito inconveniente e, de fato, a primeira versão da página One estava rabiscada em um guardanapo . Foi implementado pelos desenvolvedores da foto. 

Seguindo o exemplo de colegas holandeses cautelosos, não demonstraremos a versão final da nossa página principal, principalmente porque cada data center é único e não faz sentido copiar. Mas descrevemos dois princípios principais de sua formação:

  1. , ( , ), . «» , . 
  2. ( ). , .  - – . .

De fato, agora absolutamente todas as principais características do data center são agrupadas e apresentadas na mesma tela do smartphone / monitor pelo engenheiro e gerente responsável, enquanto a conexão com a topografia física e lógica do data center é implementada. 

Aqui está uma foto do primeiro rascunho, embora, é claro, essa versão tenha sido repensada e finalizada.



Reconhecimento e resumo de incidentes


Vamos falar sobre outro novo conceito para nós, que surgiu como resultado do projeto de atualização do sistema de monitoramento.

Reconhecimento é um termo bastante raro que o desenvolvedor do novo BMS propôs usar. Significa confirmação de que o operador viu o incidente, confirmou e assumiu a responsabilidade de eliminá-lo.  

A palavra se enraizou e agora "reconhecemos" os incidentes.

O algoritmo estabelecido na versão básica do novo BMS não nos convinha. De fato, esses foram comentários no log de eventos, ou seja, os incidentes resolvidos não desapareceram do diário e as mensagens recebidas ("confirmadas") não foram classificadas entre as novas.

Como resultado, uma janela foi desenvolvida sob o nome "resumo", na qual:

  1. Somente incidentes e dispositivos ativos são exibidos no modo de serviço (sem notificações "azuis" comerciais).
  2. Os incidentes NOVO e ACEITO são claramente separados.
  3. É indicado quem aceitou o incidente.

O algoritmo de serviço no novo BMS é o seguinte:

  1. Novos incidentes são relatados e aguardam reconhecimento. Eles não podem ficar nesta seção por um longo tempo; o oficial de equipamentos de plantão deve assumir imediatamente o incidente.
  2. O funcionário aceita o incidente clicando na marca de seleção à direita. Como todos os funcionários estão em contas exclusivas, ele exibe automaticamente quem aceitou o incidente. Se necessário, deixe um comentário.
  3. O incidente passa para a seção "Reconhecida", o restante dos atendentes e o gerente entendem que o oficial responsável está envolvido no incidente.



Um exemplo de uma janela de resumo com uma mensagem nova e já confirmada.

Depois de conectar a janela de resumo à tabela de uma página, obtivemos uma tela principal de pleno direito do sistema BMS, na qual você pode ver imediatamente: 

  • o estado dos principais sistemas de data center;
  • a presença de novos incidentes não processados;
  • a presença de incidentes e dados aceitos sobre quem os elimina especificamente.

Acesso via navegador e alertas pop-up no telefone


A interface da Web, acessível a partir de qualquer dispositivo de qualquer lugar do mundo, contrasta fortemente com o cliente "gordo", completamente fechado para usuários externos. 

A abordagem antiga arrastou-se por um conjunto de inconvenientes, desde problemas na organização do trabalho remoto dos funcionários de serviços de monitoramento até a necessidade de instalar clientes “grossos”, de distribuições a trabalhos de equipe no data center.

Agora, qualquer página no BMS possui um endereço exclusivo, que permite compartilhar não apenas o endereço direto da página ou dispositivo, mas também links para gráficos / relatórios exclusivos. 

O acesso ao sistema agora é fornecido através da autenticação LDAP através do Active Directory, o que aprimora seu nível de segurança. 

Hoje, a mobilidade é um fator chave no trabalho de qualidade dos engenheiros de serviço. Além de monitorar o monitoramento na sala de plantão, os engenheiros fazem desvios, realizam trabalhos de rotina fora da “sala de plantão” e, graças à tela principal do BMS otimizada para a tela móvel, não perdem o controle do que está acontecendo nas salas por um segundo. 

A qualidade do controle é aprimorada pela funcionalidade dos chats de trabalho. Eles aceleram os fluxos de trabalho, permitindo que você "vincule" a correspondência dos engenheiros de serviço ao BMS. Por exemplo, usamos o aplicativo Equipes, que permite realizar correspondências internas e receber todas as mensagens do BMS no telefone na forma de notificações push pop-up, o que elimina o oficial de serviço de olhar constantemente a tela do telefone.


 Empurre a notificação na tela do smartphone.


E assim as notificações são exibidas no aplicativo Equipes.

Ao mesmo tempo, as notificações pop-up são configuradas apenas para mensagens sobre incidentes, minimizando assim a distração, a equipe sabe que, se a Notificação por push das equipes aparecer na tela do smartphone, você precisará acessar a página BMS e aceitar o incidente. As mensagens de ação corretiva já são rastreadas na página BMS.


Na foto, a interface do BMS no smartphone.

Resumindo


Com o custo de atualização do BMS do nosso antigo fornecedor, comparável ao desenvolvimento de um novo sistema do zero (cerca de US $ 100.000), a diferença na funcionalidade dos produtos acabou sendo enorme. Recebemos um sistema flexível otimizado para nossas tarefas e processos de negócios. Também alcançamos economias significativas nos custos operacionais para manter e atualizar o sistema. 

Mas, é claro, houve dificuldades. 

  • -, , BMS, . , , , , . , . , , . 
  • -, , . BMS, . . , , .
  • -, . ( ) , , , .

A atualização radical de nosso sistema BMS hoje pode ser chamada de projeto mais importante do ano passado, o que afetará seriamente a qualidade do gerenciamento operacional de nossas instalações no futuro. 

Obviamente, não descartamos o antigo servidor de ferro, mas "facilitamos": limpamos milhares de sensores e PDUs virtuais "comerciais" e deixamos apenas algumas dezenas de dispositivos mais críticos nele, como grupos geradores a diesel, no-breaks, condicionadores de ar, bombas, sensores de vazamento e temperaturas. Nesse modo, ele retornou à sua velocidade anterior e pode ser uma "reserva de reserva". A propósito, depois de remover a PDU do antigo BMS, cerca de 1000 licenças agora desnecessárias foram liberadas, você sabe o que fazer com elas?

All Articles