E demonstrar, ou como passamos na auditoria de sustentabilidade operacional no Uptime Institute


O chefe do departamento de operações subiu na escotilha do depósito subterrâneo de combustível para mostrar as marcações na válvula solenóide.

No início de fevereiro, nosso maior data center NORD-4 de nível III foi certificado novamente pelo Uptime Institute (UI) sob o padrão Operational Sustainability. Hoje, informaremos o que os auditores estão vendo e com quais resultados terminamos.

Para aqueles com datacenters em "você", examinaremos brevemente o material. Os padrões de camada avaliam e certificam os data centers em três estágios:

  • projeto (design): o pacote de documentação do projeto é verificado. Ele é atribuído a todos os níveis conhecidos . Existem 4 deles: Nível I - IV. O último, respectivamente, é o mais alto.
  • (Facility): - . - : (, , , , ..) , . Tier III - -.

    Facility , - Dsign.
    NORD-4 Design 2015 , Facility —  2016.
  • (Operational Sustainability). , . - Tier ( Operational Sustainability, Facility). - Tier IV .

    : Bronze, Silver Gold. 88,95 100 , Silver. Gold — 1,05 . 



Como verificar se os processos necessários estão organizados e funcionando como deveriam? Além disso, como fazer isso em dois dias - é a quantidade de recertificação necessária. Em resumo, a certificação é baseada em uma comparação minuciosa do que está escrito nos regulamentos, nas histórias “como tudo funciona” e nas práticas reais. Informações sobre este último são obtidas em rodadas do data center e em conversas com engenheiros do data center - “confrontos”, como os chamamos afetuosamente. É para isso que eles olham.

Equipe


Antes de tudo, os auditores da interface do usuário verificam se há pessoal suficiente no data center. Eles tomam o cronograma de pessoal, o horário de serviço e verificam seletivamente com relatórios de turno e dados do ACS para garantir que o número certo de engenheiros estivesse realmente no local naquele dia.

Os auditores também analisam atentamente o número de horas de processamento. Às vezes, isso acontece quando um grande cliente liga e, ao mesmo tempo, dezenas de racks precisam ser entregues. Nesses momentos, os caras de outros turnos vêm ao resgate e recebem dinheiro extra por isso.

NORD-4 7 : 6 . , 247, , . . . — . 247.


NORD , .

Quando os números são classificados, as qualificações da equipe são verificadas. Os auditores examinam aleatoriamente os arquivos pessoais dos engenheiros para garantir que eles tenham os diplomas, certificados e permissões necessários (por exemplo, certificados de segurança elétrica) para trabalhar nessa posição.

Eles também verificam como treinamos os funcionários. Durante a última auditoria, nosso sistema de treinamento de novos engenheiros de serviço impressionou os especialistas em UI. Para eles, realizamos um curso de treinamento de três meses em um estágio remunerado, durante o qual os apresentamos aos processos e princípios de trabalho em nosso data center.

Os engenheiros que já trabalham também devem receber treinamento regular, incluindo trabalho de emergência. Os auditores certamente verificarão os programas e materiais de treinamento desses treinamentos e também examinarão seletivamente os engenheiros. Eles não solicitarão a ninguém que mude para a DGU, mas solicitarão que você diga passo a passo o que fazer quando a fonte de alimentação da cidade estiver desligada. Com base nos resultados da auditoria, levaremos todos os programas de treinamento para um único padrão, para que eles não sejam diferentes para equipes diferentes.


Mostramos aos auditores uma sala de relaxamento para engenheiros de turno.

Operação e manutenção de sistemas de engenharia 


Nesta grande seção da auditoria, mostramos que todos os equipamentos e sistemas de engenharia recebem manutenção regular de acordo com o cronograma recomendado pelos fornecedores, o armazém possui as peças de reposição necessárias, contratos existentes com prestadores de serviços e, para cada operação com equipamento, seus próprios procedimentos e algoritmos de trabalho para diferentes casos.

MMS Quando você opera dezenas de no-breaks, geradores a diesel, condicionadores de ar e outras coisas, precisa de um local para coletar todas as informações sobre essa economia. Aqui está aproximadamente um dossiê criado para cada equipamento conosco:

  • modelo e número de série;
  • marcação;
  • especificações e configurações técnicas;
  • local de instalação;
  • datas de produção, comissionamento, fim da garantia;
  • contratos de serviço;
  • cronograma e histórico de manutenção;
  • e toda a "história médica" - avarias, reparos.

Como e onde coletar todas essas informações, cada operador do data center decide por si mesmo. A interface do usuário não se limita às ferramentas. Pode ser um simples Excel (que começamos com isso) ou um Sistema de Gerenciamento de Manutenção (MMS) auto-escrito, como temos agora. A propósito, a central de atendimento , o controle de estoque, o diário on-line e o monitoramento também são auto-escritos.


Aqui está uma "questão pessoal" é para cada peça de equipamento.

Mostramos nossas práticas nessa área, inclusive usando o exemplo dessa infraestrutura UPS (foto), que doou um de seus componentes UPS à carga de TI. Sim, de acordo com o padrão, apenas equipamentos de infraestrutura que fornecem ar-condicionado, iluminação de emergência, mas não a carga de TI, podem lidar com essa "doação".



Depois disso, os auditores pediram para mostrar o ticket correspondente no Service Desk:



E o perfil do no-break no MMS:



peças de reposição. Para manutenção oportuna e reparos de emergência de equipamentos de engenharia, mantemos nossas peças de reposição. Existe um armazém comum com grandes peças de reposição para equipamentos e pequenos armários com peças de reposição nas salas de engenharia (para que você não precise ir muito longe).

Na foto: verificamos a disponibilidade de peças de reposição para motores a diesel. Contamos 12 filtros. Em seguida, eles verificaram os dados no MMS.  



Um exercício semelhante foi realizado no armazém principal, onde grandes peças de reposição são armazenadas: compressores, controladores, automação, ventiladores, umidificadores a vapor e centenas de outras posições. Reescreva seletivamente as marcações e as perfurei por meio de MMS.




Dados sobre estoques de peças de reposição. Vermelho é o que está faltando e precisa ser comprado.

Manutenção preventiva. Além de manutenção e reparos, a UI recomenda fazer manutenção preventiva. Ajuda a transformar um possível acidente em um reparo programado. Para cada parâmetro, configuramos os valores limite no monitoramento. Se forem excedidos, os responsáveis ​​recebem alarmes e tomam as ações necessárias. Por exemplo, nós:

  • Verificamos os painéis elétricos com um termovisor, a fim de encontrar um defeito nas instalações elétricas a tempo: mau contato, superaquecimento local do condutor ou da máquina. 
  • Monitoramos a vibração e o consumo atual das bombas do sistema de refrigeração. Isso permite identificar desvios em tempo hábil e planejar rapidamente a substituição de peças.
  • Fazemos análises de combustível e óleo de grupos geradores a diesel, compressores.
  • Teste de glicol em um sistema de suprimento a frio para concentração.


Gráfico de vibração da bomba antes e após o reparo.

Trabalhe com contratados. A manutenção e os reparos dos equipamentos são realizados por empresas externas. De nossa parte, existem especialistas individuais em grupos geradores a diesel, condicionadores de ar e no-breaks que monitoram seu trabalho. Eles verificam se os contratados possuem as ferramentas e materiais necessários para trabalhos de reparo / manutenção, certificados profissionais, crostas de segurança elétrica, tolerâncias. Eles aceitam todo o trabalho.


É assim que uma lista de verificação se parece com a aceitação do trabalho de manutenção de um ar condicionado.


Na bilheteria, verificamos se os passes são emitidos para representantes autorizados dos contratados, se eles passaram na manutenção no horário indicado e se eles se familiarizaram com as regras.

Documentação.Processos bem estabelecidos para manutenção de sistemas e equipamentos são metade da batalha. Todos os procedimentos executados por uma pessoa em um data center devem ser documentados. O objetivo disso é simples: para que tudo não fique isolado em uma pessoa em particular e em caso de acidente, qualquer engenheiro pode seguir instruções claras e executar todas as operações necessárias para eliminá-lo.

A interface do usuário tem sua própria metodologia para essa documentação.

Para ações simples e repetitivas, o Procedimento Operacional Padrão (POP) é ​​compilado. Por exemplo, há POPs para ligar / desligar o chiller, colocando o no-break em bypass.

Para manutenção ou operações complexas, como a substituição das baterias no no-break, métodos de procedimentos (MOP) são criados. Isso pode incluir POPs. Cada tipo de equipamento de engenharia deve ter seus próprios MOPs.

Por fim, existem Procedimentos Operacionais de Emergência (EOP) - instruções de emergência. Uma lista de emergências específicas é compilada e instruções são escritas para elas. Aqui está uma parte da lista de emergências, que detalha sinais do acidente, ações, pessoas responsáveis ​​e pessoas para notificação:

  • desligamento da fonte de energia da cidade: DGU iniciado / não iniciado;
  • Acidente com UPS; 
  • acidentes no sistema de monitoramento de data center;
  • superaquecimento da casa das máquinas;
  • vazamento do sistema de refrigeração;
  • acidente em equipamentos de rede e informática;

E assim por diante.

Compor esse volume de documentação já é um trabalho trabalhoso. É ainda mais difícil mantê-lo atualizado (a propósito, isso também é verificado pelos auditores). E o mais importante - a equipe deve conhecer essas instruções, trabalhar nelas e fazer melhorias, se necessário.


Sim, as instruções devem estar disponíveis onde forem necessárias, e não apenas coletar poeira nos arquivos.


Marcas de alterações na regulamentação da manutenção de sistemas de engenharia do data center.

Durante a auditoria, eles também examinam a documentação técnica dos sistemas, a documentação executiva e de trabalho, os atos de colocar os sistemas em operação. 

Marcação.Durante um passeio pelo data center, eles verificaram onde quer que pudessem chegar. Onde não foi possível alcançar - alcançado a partir de uma escada :). Observamos sua presença em cada escudo, máquina e válvula. Eles verificaram a singularidade, a ambiguidade e a conformidade com os esquemas atuais da documentação executiva. Na foto abaixo: nós, na bomba de armazenamento de combustível, comparamos a marcação nas válvulas solenóides com o esquema da documentação executiva. 



Tudo concordava com ela, mas com o diagrama axonométrico "decorativo" local na parede em um parâmetro não correspondia.



Nas instalações do data center, os esquemas dos sistemas localizados lá também devem travar. Em caso de acidente, eles ajudam a descobrir rapidamente onde está localizado e tomar uma decisão informada. Na foto, por exemplo, um diagrama de uma linha na sala do quadro principal.



A relevância dos esquemas foi verificada da seguinte forma: eles chamaram a rotulagem do elemento no esquema e pediram para mostrar "em espécie". 



Aqui, o auditor tira fotos das configurações (configurações) da liberação do painel principal do painel principal e, em seguida, verifica os indicadores em um diagrama unifilar em cópias impressas e eletrônicas. Em uma das máquinas, QF-3, o indicador não coincidiu com o esquema do papel e conquistamos um ponto de penalidade. Agora, dois engenheiros verificarão a conformidade das marcações nos diagramas de linha única com o fato.



Isso não é tudo o que os auditores verificaram em relação aos processos de serviço. Aqui está o que mais estava na agenda:


UI


Segurança e controle de acesso. A auditoria também verifica o funcionamento dos sistemas de proteção e segurança. Por exemplo, o auditor tentou entrar em uma das salas onde ele não tem acesso e, em seguida, verificou se isso estava refletido no sistema ACS e se a segurança tinha uma notificação sobre isso (houve um spoiler).

Se em nossos datacenters a porta de qualquer sala permanecer aberta por mais de dois minutos, um aviso será acionado no posto de segurança. Para verificar isso, os auditores apoiaram uma das portas com um extintor de incêndio. É verdade que não esperamos pelas sirenes - os seguranças viram que algo estava errado através das câmeras de vídeo e chegaram à "cena do crime" mais cedo.

Ordem e limpeza.Os auditores procuram poeira, caixas de equipamentos espalhadas aleatoriamente, com que frequência as salas são limpas. Aqui, por exemplo, os auditores estavam interessados ​​em um objeto não identificado no corredor de ventilação. Este é um quarteirão do sistema de ventilação, que já estava se preparando para tomar seu lugar. Mas ainda pediu para assinar.



Ainda no pedido no data center - esses são os gabinetes com todas as ferramentas necessárias para o trabalho de emergência no equipamento localizado no quadro principal. 



A localização.O data center é avaliado de acordo com as condições da localização - existem bases militares, aeroportos, rios, vulcões e outros objetos perigosos nas proximidades. Na foto, mostramos apenas que desde a última certificação em 2017, nenhuma usina nuclear e instalações de armazenamento de petróleo cresceram em torno do data center. Mas lá está sendo construído um novo data center NORD-5, que também precisa passar por todos os níveis de certificação do Uptime Institute Tier III. Mas esta é uma história completamente diferente).


All Articles