Alerta-e erro-s de armazenamento, como lidar com eles?

Há pouco tempo, na cidade de N, uma empresa de TI especializada em trabalhar com dados de clientes conduziu com sucesso seu trabalho em seu DC 24/7. O mesmo caso quando o "sapateiro de botas", ou seja, na empresa de TI, a TI foi bem depurada. O interessante começou quando, após muitos anos de trabalho, o diretor técnico deixou seu cargo, que era o básico, no qual era mantido o controle sobre o funcionamento adequado de toda a vertical de TI. Ele foi substituído por uma pessoa não menos experiente (doravante denominada "profissionais") e, mesmo com horizontes mais amplos, ele literalmente fascinou "negócios" com novos horizontes de desenvolvimento. Mas, como acontece com frequência, as pessoas que voam alto relutam em descer ao chão no nível da administração comum.

imagem

Momento do incidente:

Primeiro dia (abril) : um sistema de armazenamento local começou a emitir alertas e, em seguida, os primeiros erros apareceram entre eles. Vendo isso, o administrador notificou seu supervisor de acordo com as instruções. Nossos profissionais acenaram com a resposta seguindo a “regra de ouro do programador” - “Funciona?” Não toque!".

Retirada do primeiro dia - Normalmente, o sistema de armazenamento se comunica usando alertas, entre os quais vale destacar Alertas (de “Alerta”) - alarmes. De fato, são alertas que sinalizam um evento de alarme ou o alertam. Tipos de alertas:
Avisos (de "Aviso") - avisos; geralmente dá tempo para pensar com calma.
Errora (de “Erro”) - erros; por exemplo, um disco travou, mas o acesso aos dados não foi interrompido; aqui não vale adiar a decisão deles até mais tarde.
( “Critical Error”) – , , .

(/) , ( /) , . ( ) ,

imagem
(): nosso engenheiro (Agat-A), trabalhando em outro projeto do cliente, descobre esses erros e se pergunta “o que eles fizeram?”, a resposta é “nada, entendeu seu sistema interno, o gerenciamento está atualizado ...” . Do lado do administrador local, tudo foi feito de acordo com o processo padrão, claramente de acordo com as instruções de dois meses atrás. Para a pergunta - talvez você precise de ajuda, o administrador respondeu que ele concluiu sua parte, mas não havia equipes.

Retiro do dia dois: A

introdução e o uso prudente da lista de verificação de recuperação de desastre ajudará a restaurar o quadro geral das ações e também evitarão erros óbvios e barulho desnecessário.

Um exemplo de uma lista de verificação para recuperação de desastre de um complexo:
, .
— . — .

, , .

, — .


imagem

(): ignorar erros levou ao fato de o sistema de armazenamento se tornar menos responsivo e já "por algum motivo" nem sempre arrastar as tarefas empilhadas, surgiram as primeiras queixas dos clientes sobre a velocidade do trabalho nos horários de pico. E aqui já de um profissional (o gerente de TI) perguntou em uma reunião de planejamento. Ele percebeu que estava na hora de fazer alguma coisa e desceu à "casa das máquinas". Conclusão - durante o dia, um caso foi aberto no portal do fornecedor sobre ... um controlador com falha!

Depois disso, o engenheiro do cliente educadamente nos pediu para ajudar. Separadamente, é necessário mencionar que, para economizar parceria no local e suporte ao fornecedor ao comprar o sistema, nós "cortamos" e de jure não deveríamos ter lidado com esses problemas, mas, devido à presença de boas relações com o cliente e projetos sendo implementados uma vez a cada ano e meio, Estamos conectados para resolver o problema a pedido do cliente. Peça imediatamente para remover os logs, nós os receberemos prontamente, descrever mais claramente a situação para entrar em contato com o fornecedor, definir a importância etc. Os registros mostram que um controlador morreu e o segundo travou, mas corrige erros em tempo real, e a bateria no segundo controlador também morreu. Anunciamos o diagnóstico (bem, isso não é uma sentença), aceleramos a ordem dos controladores do fabricante, como de costume, eles não estavam no armazém russo.

— , . . / .

.
:

.
: ____________________.
: ____________________.
.
: ____________________.
: ____________________.

, .
, .

, , , . , .

:

  • , .. , , .
  • , .. IT-.
  • .
  • IT-.

Quarto dia (agosto) : algumas semanas depois, os controladores atravessaram a alfândega e chegaram ao cliente do servidor (ao longo do caminho, reescrevemos os números de série, eles seriam necessários para fechar o caso em apoio ao fornecedor ao enviar controladores antigos). O caminho da alfândega para o servidor é de 2 dias. E então ... a realidade de lazer começou de novo. E por que estávamos com tanta pressa? O cliente recusou a proposta de substituição de controladores por nossos especialistas, ou pelo menos acompanhando esse processo, nós mesmos não seremos tolos, vamos descobrir (como a prática mostrou durante o trabalho do diretor técnico anterior, isso era 100% verdadeiro). De acordo com as condições do serviço, é necessário (muito desejável!) Enviar os controladores antigos substituídos de volta ao fabricante em duas semanas. O fabricante lembrou ao cliente o retorno mais de uma vez.

O recuo do quarto dia - as pessoas são humanas, não tenham medo de fazer uma pergunta, não hesitem em pedir ajuda e não desdenha de se checar. Claro, existem pessoas que podem trabalhar em sua corcunda, experiência e capacidade de trabalhar 12 horas por dia, arrastar todo o componente organizacional. O trabalho em equipe implica que todos usem seus pontos fortes, e não vice-versa. Como especialistas, trabalhe nas opções de backup antes que situações críticas ocorram. Prepare-se para eles com antecedência e deixe-os passar por você. E mesmo que algo aconteça, você estará pronto e poderá passar nesses testes com perdas mínimas.

Dia Cinco (Outubro, Climax): A

seguir, um texto escrito por nosso engenheiro em primeira pessoa.

No início da manhã, quando o escritório estava a cerca de 5 minutos a pé, uma ligação veio de um número desconhecido. Atendo a chamada - uma voz alarmada pede aos profissionais que ajudem a resolver o problema com o armazenamento, porque os clientes não podem acessar seus serviços. No decorrer da conversa, estou tentando identificar o cliente. E, assim como eles, lembro que ele (os profissionais) parecia ter eliminado o SPoF (um único ponto de falha) como um controlador completamente inoperante, mas ele constantemente adiava a substituição do segundo, com falha. Tudo bem, apenas o técnico contará mais detalhes técnicos; portanto, coordenamos e fazemos imediatamente a ligação com os profissionais e o administrador, a propósito de um administrador completamente novo, que acaba de ser contratado no início de setembro.

Começo a fazer perguntas, muitas mais e mais precisas, tentando localizar o problema. Cito algumas respostas em vários novos administradores + profissionais: "o antigo controlador morto para substituições quase imediatamente, no final de agosto ou no início de setembro" ... "eles não mudaram o segundo, eles queriam fazer algum trabalho com o substituto que exigia o desligamento do sistema" ... "até agora tudo funcionou" ... "terroristas e críticas se foram" ... "e aqui o sistema de armazenamento desapareceu" ... "nenhum acesso à rede" ... "todos os serviços caíram" ... "parte das luzes está apagada" ... "não pisca onde geralmente piscou "..." Eu não entendo o que isso significa. "

Alguns minutos depois, graças às respostas às minhas perguntas, uma foto apareceu, mas a primeira capa aconteceu. Para outra pergunta: existe uma cópia de backup das configurações do controlador, de repente ouvi um silêncio completo. Um minuto depois, a imagem foi concluída: Profi substituiu (removeu fisicamente a antiga e inseriu uma nova em seu lugar, cito: o erro crítico desapareceu) um controlador (o que estava completamente morto) sem desligar o sistema de armazenamento. E, na verdade, é isso! Depois disso, ele não fez mais nada com ele, NADA !!! "A luz está acesa, o erro crítico se foi." Ele deixou a substituição do segundo (controlador quase morto) até que o armazenamento fosse desligado, que foi adiado por quase um mês e meio (novamente, a segunda regra em ação). Então pedi uma pausa para pensar (na verdade, digerir, porque o cérebro simplesmente se recusava a acreditar no que ouviam).

Tendo chegado um pouco ao meu juízo (provavelmente um momento de silêncio), finalmente percebo: um morreu, foi substituído por um novo vazio, o segundo viveu sua vida (por mais de três meses, o pobre coitado puxou todo o sistema com uma bateria descarregada e imediatamente corrigido por erros únicos) e também morreu. Não há cópia das configurações, onde as pessoas não podem obtê-las imediatamente, não podem fornecer fisicamente o controle remoto ("algo" com a Internet) e as horas de trabalho são perdidas.

Primeiro eu descobri como consertar isso, depois comecei a esclarecer sobre a rede, é possível obter rapidamente um mapa de rede (não, não, quase nada à mão). Depois de alguns minutos de uma batida não correspondida em diferentes portões para diferentes serviços, equipamentos de armazenamento e rede (perguntei e disse o que fazer, eles me responderam que acabou, tudo acontece sem um controle remoto, porque "por algum motivo também não há Internet". a pergunta e a resposta me chegam de que os servidores DHCP são virtuais e iniciam neste sistema de armazenamento, você não tem estática em lugar algum e, portanto, TUDO não está disponível. Esta foi a segunda cobertura (eu apenas pensei que não havia nenhum lugar para descer abaixo, as portas de controle derrubadas sem estática é má.) Ok, desta vez eu me encontrei muito mais rápido, desenhei um plano de ação difícil em minha cabeça e expliquei aos meus "colegas":que você precisa de um computador ou laptop com um cabo de conexão próximo ao sistema de armazenamento e com as mãos próximas. Precisamos então de: instruções para configurar o controlador (se estiver ausente / perdido, vou encontrá-lo e enviá-lo agora) e um "pedaço" do mapa de rede em torno do sistema de armazenamento ("pedaço" = configurações básicas de rede). Quando tudo estava pronto, basicamente configuramos os novos controladores de armazenamento, conectando-os diretamente a partir de nosso laptop com cabo de correção de acordo com as instruções, usando as configurações de rede encontradas, elevando o DHCP e configurando os controladores de armazenamento já em batalha, levantando cada sistema e verificando se ele funciona conforme necessário. Eu localizo e envio instruções (a propósito, o correio corporativo também não funciona, porque também depende deste SHD, portanto, uso correio pessoal ...); além disso, os profissionais encontraram pelo menos as configurações básicas de rede para o SHD (endereços IP de ambos os controladores, etc.) .P.). Os profissionais finalmente entenderam o que fazer,e ele disse que iria administrar mais. Lembrei-me de estar em contato e deixar ir. Após algum tempo, o serviço "24/7" deste cliente ganhou.

Para mim, todo o incidente cabia em quatro dúzias de minutos e, por um lado, fiquei satisfeito por ter sido possível resolver o problema prontamente on-line e por telefone; por outro, fiquei muito surpreso de como você pode chegar a essa vida. E os clientes desta empresa de TI também não gostaram desse incidente, porque o serviço de promessas deveria funcionar 24 horas por dia, 7 dias por semana e este era o começo do dia útil (e, devido aos fusos horários, alguém tinha a altura do dia útil).

imagem

Este pode ser o fim, mas para mim a conclusão do caso é um trabalho sobre os bugs. Portanto, meus colegas e eu tentamos escrever: o que pode / deve ser alterado em nosso (e não apenas em nosso) trabalho, a fim de impedir que isso aconteça no futuro.

Esse caso acabou sendo apenas um trabalho gratuito, nem nos queixamos graças a nós. Está claro, porque vimos o que o cliente gostaria de esquecer rapidamente e enterramos as testemunhas na floresta. Mas esse caso foi adicionado à nossa coleção de dicas / modelos para as situações mais comuns enfrentadas por administradores, engenheiros e empresas ao usar e manter sistemas de armazenamento e sistemas relacionados. Embora, para alguns, essas dicas e instruções possam parecer muito simples ou até estreitas. De qualquer forma, para cada sistema, você precisa inserir seus dados nessas folhas de dicas / modelos (afinal, todos têm seu próprio cenário, seus próprios requisitos de informações e serviços, etc.), desenham seus próprios esquemas, desenvolvem seus próprios algoritmos.

Por fim, damos um exemplo de uma política de backup.

imagem
Uma folha de dicas semelhante criada para o seu sistema pode ajudar muito um novato e um mestre. Mesmo que o mestre consiga manter tudo em mente, ele não é um biorobô com um horário de trabalho 24 horas por dia, 7 dias por semana. E, em qualquer caso, qualquer ferramenta requer seu uso razoável.

E cantando "E para quem vai dormir, durma bem", terminamos nossa história.

All Articles