O que pensar ao implementar o dever

Ryn Daniels, autor do Effective DevOps, compartilha estratégias que qualquer um pode usar para criar rotações melhores, não irritantes e mais estáveis ​​do serviço Oncall.



Com o advento do Devops, muitos engenheiros hoje em dia de alguma forma organizam turnos, que antes eram de responsabilidade exclusiva dos administradores de sistemas ou engenheiros de manutenção. Assistir, especialmente fora do horário comercial, não é uma tarefa que a maioria das pessoas gosta. O Duty Oncall pode atrapalhar nosso sono, interferir no trabalho habitual que tentamos fazer durante o dia e interferir em nossas vidas em geral. À medida que mais e mais equipes participam do plantão, nos perguntamos: "O que podemos fazer, como indivíduos, equipes e organizações, para tornar o plantio mais humano e estável?"

Mantenha o sono


Muitas vezes, a primeira coisa que as pessoas pensam quando pensam no dever é que isso afetará negativamente o sono; ninguém quer um alerta para acordá-los no meio da noite. Se sua organização ou equipe se tornar grande o suficiente, você poderá usar a rotação "siga o sol", quando equipes localizadas em vários fusos horários participarem da mesma rotação, com as trocas de tarefas sendo mais curtas, para que cada fuso horário fique em serviço somente durante as horas de trabalho (ou pelo menos acordando). Instalar essa rotação pode maravilhosamente ajudar a reduzir a carga noturna que o oficial de serviço assume.

Se você não possui engenheiros e sua distribuição geográfica suficientes para fornecer rotação “siga o sol”, ainda há algo a ser feito para reduzir a probabilidade de que as pessoas sejam despertadas desnecessariamente no meio da noite. No final, uma coisa é sair da cama às 4 da manhã para resolver um problema urgente que o cliente enfrenta; é completamente diferente acordar apenas para descobrir que você está lidando com um alarme falso. Isso pode ajudar a verificar todos os alertas configurados e perguntar à sua equipe quais você realmente precisa para acordar alguém após o expediente, e se esses alertas podem esperar até de manhã. Pode ser difícil convencer as pessoas a desativar alguns alertas que não funcionem, principalmente se problemas perdidos causaram problemas no passado, mas é importante lembrarque um engenheiro privado de sono não é o engenheiro mais eficaz. Defina esses alertas para o horário comercial quando forem realmente importantes. Atualmente, a maioria das ferramentas de notificação permite configurar regras diferentes para notificações fora do horário de trabalho, seja nos períodos de notificação do Nagios ou na configuração de agendas diferentes no PagerDuty.

Sono, dever e cultura de equipe


Outras maneiras de resolver o problema dos distúrbios do sono estão associadas a mudanças culturais mais significativas. Uma maneira de resolver esse problema é rastrear alertas, prestando atenção especial quando eles chegam e se são eficazes. Opsweekly é uma ferramenta criada e publicada pela Etsy que permite que as equipes rastreiem e classifiquem os alertas recebidos. Ele pode gerar gráficos mostrando quantos avisos despertaram as pessoas (usando os dados "Sobre o sono" dos rastreadores de fitness), bem como quantos avisos realmente precisavam de ação da pessoa. Usando essas tecnologias, você pode acompanhar a eficácia da rotação de tarefas e seus efeitos no sono ao longo do tempo.

A equipe pode desempenhar um papel no fornecimento de descanso suficiente para cada oficial de serviço. Crie uma cultura que incentive as pessoas a cuidarem de si mesmas: se você perder o sono por ter sido chamado à noite, poderá dormir um pouco mais pela manhã para tentar recuperar o tempo perdido. Os membros da equipe podem ficar de olho um no outro: quando as equipes compartilham informações sobre o sono entre si através de algo como Opsweekly, eles podem procurar seus colegas de serviço e dizer: “Ei, parece que você teve uma noite difícil com o PagerDuty na noite passada "Você quer que eu te cubra hoje à noite para que você possa descansar um pouco?" Incentive as pessoas a apoiarem-se dessa maneira e não aprovem a "cultura dos heróis", onde as pessoas atingirão o limite, evitando pedidos de ajuda.

Reduzindo o impacto das trocas de tarefas no trabalho


Quando os engenheiros estão cansados ​​porque foram acordados em serviço, obviamente não trabalham com 100% de força durante o dia, mas mesmo sem levar em conta a falta de sono, o serviço também pode ter outras consequências para o trabalho. Uma das perdas mais significativas durante o serviço está relacionada ao fator de interrupção, uma mudança no contexto: uma interrupção pode levar a uma perda de pelo menos 20 minutos devido à perda de foco e mudança de contexto. É provável que suas equipes tenham outras fontes de interrupções, como tickets gerados por outras equipes, solicitações ou perguntas recebidas por bate-papo e / ou email. Dependendo do escopo dessas outras interrupções, considere adicioná-las a uma rotação existente enquanto estiver em serviço ou configurando uma segunda rotação apenas para lidar com essas outras solicitações.

É importante levar isso em consideração ao planejar o trabalho que a equipe executará, tanto a longo quanto a curto prazo. Se sua equipe tem uma tendência a turnos de trabalho bastante intensivos, esse fato deve ser levado em consideração durante o planejamento a longo prazo, pois você pode ter uma situação em que todos os funcionários estão efetivamente envolvidos em serviço a qualquer momento, e não em outro trabalho. No planejamento de curto prazo, você pode achar que o oficial de serviço não pode cumprir os prazos devido a suas funções de serviço - isso é de se esperar, e o restante da equipe deve estar pronto para se adaptar e ajudar a garantir que o trabalho seja feito e o oficial de serviço obtenha apoio em suas tarefas de trabalho. Independentemente de o atendente ser chamado,um turno de serviço afetará sua capacidade de realizar outro trabalho - não espere que o atendente trabalhe à noite para concluir os projetos planejados, além do serviço de folga.

As equipes precisarão encontrar uma maneira de lidar com o trabalho extra gerado em serviço. Este trabalho pode ser um trabalho real para corrigir problemas reais detectados pelos sistemas de monitoramento e aviso, ou pode ser um trabalho para corrigir monitoramento e alertas para reduzir o número de alertas positivos falsos. Qualquer que seja a natureza do trabalho que está sendo criado, é importante distribuir esse trabalho de maneira justa e constante pela equipe. Nem todas as trocas de tarefas são equivalentes, algumas são mais complicadas que outras; portanto, a afirmação de que a pessoa que recebeu o alerta é a pessoa responsável por eliminar todas as consequências desse alerta pode levar a uma distribuição desigual do trabalho. Pode ser mais razoável que o atendente seja responsável por agendar ou distribuir o trabalho, esperandoque o resto da equipe esteja pronta para ajudar na conclusão do trabalho criado.

(work-life balance)


Pense no impacto de estar de serviço fora do trabalho. Quando você está de serviço, provavelmente se sentirá conectado ao seu telefone celular e laptop, o que significa que você sempre carrega um laptop e um roteador móvel (modem usb) com você ou simplesmente não sai de sua casa / escritório. Estar de plantão geralmente significa desistir de coisas como encontrar amigos ou família durante o seu turno. Isso significa que a duração de cada turno depende do número de pessoas em sua equipe e a frequência dos turnos pode ser um fardo indevido para as pessoas. Pode ser necessário experimentar a duração e o horário de seus turnos para encontrar um horário adequado para pelo menos a maioria das pessoas envolvidas, uma vez que equipes e pessoas diferentes terão prioridades e preferências diferentes.

É imperativo estar ciente do impacto que o dever terá na vida das pessoas, tanto no nível gerencial quanto no individual. Note-se que o impacto será sentido mais por pessoas com menos privilégios. Por exemplo, se você tiver que gastar algum tempo cuidando de crianças ou outros membros da família ou se achar que a maior parte do trabalho doméstico cai sobre seus ombros, você já tem menos tempo e energia do que alguém que não possui esses deveres. Esse trabalho de "segundo turno" ou "terceiro turno" tende a afetar desproporcionalmente as pessoas e, se você definir uma rotação de plantão com um cronograma ou intensidade que pressupõe que os participantes não tenham uma vida pessoal fora do escritório, limite as pessoas que poderão participar ao seu comando.

Incentive as pessoas a tentar manter a maior parte de sua programação regular. Você deve pensar em fornecer à equipe roteadores móveis (modems USB) para que as pessoas possam sair de casa com o laptop e ainda ter alguma aparência de vida. Incentive as pessoas a trocar horas de serviço, se necessário, por curtos períodos de tempo, para que as pessoas possam ir à academia ou visitar um médico enquanto estão de serviço. Não crie uma cultura em que o dever deva significar que os engenheiros literalmente não fazem nada além de observar. Um equilíbrio entre trabalho e vida pessoal é uma parte importante de qualquer trabalho, mas especialmente quando você considera o horário não comercial, os membros mais velhos da sua equipe devem dar um exemplo para os outros em termos de equilíbrio entre trabalho e vida pessoal, tanto quanto possível durante o trabalho.

Em nível individual, não se esqueça de explicar o que é dever para com seus amigos, familiares, parceiros, animais de estimação etc. (seus gatos provavelmente não se importarão, porque acordam às quatro da manhã quando você recebe um alerta, embora eles nunca desejem ajudá-lo com sua decisão). Certifique-se de compensar o tempo perdido após o término do turno, seja para encontrar amigos, familiares ou, por exemplo, um sonho. Se puder, pense em definir um despertador silencioso (por exemplo, um relógio inteligente) que possa acordá-lo apertando o pulso para não acordar ninguém ao seu redor. Encontre maneiras de cuidar de si mesmo quando estiver no meio de um turno de turno e quando terminar. Convém montar um "kit de sobrevivência de plantão" que o ajude a relaxar: ouça a lista de reprodução da sua música favorita,leia seu livro favorito ou reserve um tempo para brincar com seu animal de estimação. Os gerentes devem incentivar o autocuidado, dando às pessoas um dia de folga após uma semana de serviço e certificando-se de que as pessoas peçam (e recebam) ajuda quando precisarem.


Em geral, estar de plantão não deve ser encarado apenas como um péssimo trabalho: você tem a oportunidade e a responsabilidade de participar do dever para trabalhar ativamente para torná-lo melhor para as pessoas que estarão de plantão no futuro, o que significa que as pessoas receberão menos mensagens e serão mais precisas. Novamente, acompanhar o valor de seus alertas, usando algo como Opsweekly, pode ajudar a descobrir o que torna seu dever irritante e consertá-lo. Para notificações inativas, pergunte-se se há maneiras de se livrar dessas notificações - talvez isso signifique que elas funcionem apenas durante o horário comercial, porque há algumas coisas às quais você simplesmente não precisa responder no meio da noite. Não tenha medo de excluir alertas,altere-os ou altere o método de envio de "enviar por telefone e email" para "somente email". Experimentação e iteração são a chave para melhorar o watchdog ao longo do tempo.

Para alertas realmente válidos, considere como é fácil para o engenheiro concluir as ações necessárias. Todo alerta de trabalho deve ter um runbook que o acompanha - considere usar uma ferramenta como nagios-herald para adicionar links do Runbook aos seus alertas. Se o alerta é tão simples que não precisa de um módulo Runbook, provavelmente é simples o suficiente para que você possa automatizar a resposta usando algo como os manipuladores de eventos do Nagios, que evitam que as pessoas precisem acordar ou interromper para tarefas facilmente automatizadas. Runbooks e nagios-herald podem ajudá-lo a adicionar um contexto valioso aos seus alertas, o que ajuda as pessoas a responder com mais eficácia a eles. VejaVocê pode responder a perguntas comuns como: Quando foi a última vez que este alerta foi acionado? Quem o respondeu da última vez e que ações foram tomadas (se houver)? Quais outros alertas aparecem ao mesmo tempo e estão relacionados? Esse tipo de informação contextual geralmente é encontrado apenas no cérebro das pessoas, portanto, incentivar uma cultura de documentação e compartilhamento de informações contextuais pode reduzir a quantidade de sobrecarga necessária para responder a avisos.portanto, incentivar uma cultura de documentação e compartilhamento de informações contextuais pode reduzir a sobrecarga necessária para responder a avisos.portanto, incentivar uma cultura de documentação e compartilhamento de informações contextuais pode reduzir a sobrecarga necessária para responder a avisos.

Uma parte significativa do cansaço que surge dos turnos é que eles nunca terminam - se sua equipe tiver turnos, é improvável que terminem a qualquer momento no futuro próximo. O dever nunca acaba, e podemos sentir que sempre serão terríveis. Essa falta de esperança é um grande problema mental que pode contribuir para o estresse e a exaustão; portanto, voltar à percepção (além da realidade) de que estar de plantão sempre será terrível é um bom começo para começar a pensar em seu dever a longo prazo.

Para dar às pessoas a esperança de que a situação de plantão melhore, é necessário ter um sistema observável (o mesmo rastreamento e categorização de plantão, que mencionei anteriormente). Acompanhe quantos avisos você tem, qual porcentagem deles exige a intervenção de um atendente, quantos deles acordam as pessoas e depois trabalha para criar uma cultura que incentive as pessoas a fazer melhor as coisas. Se você tem uma equipe grande, pode ser tentador, assim que seu dever estiver prestes a terminar, desista e diga "este é o problema do futuro oficial de serviço" e não se preocupe em consertar algo - quem quer gastar mais esforço em serviço do que com eles É necessário? É aqui que uma cultura de empatia pode fazer uma grande diferença, porque você se preocupa não apenas com seu bem-estar de plantão, mas também com seus colegas.

É tudo sobre empatia.


A empatia é uma parte importante do que nos permite estimular o trabalho que melhora a experiência de plantão. Como gerente ou participante, você pode avaliar positivamente ou até recompensar as pessoas por seu comportamento, o que torna o dever melhor. O suporte a sistemas (operações) é uma daquelas áreas em que os engenheiros costumam sentir que as pessoas prestam atenção apenas quando algo dá errado: as pessoas estarão lá para gritar quando o site falhar, mas raramente eles aprenderão sobre os esforços fora da tela que os engenheiros-operadores colocam para fazer o site funcionar o resto do tempo. O reconhecimento do trabalho pode ser de grande importância, seja uma gratidão a alguém na reunião ou em um e-mail geral por melhorar um alerta específico, o aspecto técnico do dever,ou dar a alguém tempo para substituir outro engenheiro por um turno por um tempo.

Incentive as pessoas a gastar tempo e esforço para melhorar a situação de plantão a longo prazo. Se houver um dever em sua equipe, você deve planejar e priorizar esse trabalho como faria com qualquer outro trabalho em seu roteiro. O dever é 90% de entropia e, se você não trabalhar ativamente para melhorá-los, com o tempo eles se tornarão cada vez piores. Trabalhe com sua equipe para descobrir o que motiva e encoraja melhor as pessoas e, em seguida, use-a para incentivar as pessoas a reduzir o ruído de alertas, escrever runbooks e criar ferramentas que resolverão seus problemas de serviço. Faça o que fizer, não aceite um dever terrível, como parte invariável da situação.

All Articles