En qué pensar al implementar el deber

Ryn Daniels, autor de Effective DevOps, comparte estrategias que cualquiera puede usar para crear rotaciones mejores, no molestas y más estables del servicio Oncall.



Con el advenimiento de Devops, muchos ingenieros actualmente organizan turnos de alguna manera, que alguna vez fue responsabilidad exclusiva de los administradores de sistemas o ingenieros de mantenimiento. Mirar, especialmente durante las horas libres, no es una tarea que la mayoría de la gente disfruta. Duty Oncall puede interrumpir nuestro sueño, interferir con el trabajo habitual que intentamos hacer durante el día e interferir con nuestras vidas en general. A medida que más y más equipos participan de turno, nos preguntamos: "¿Qué podemos hacer, como individuos, equipos y organizaciones, para que el deber sea más humano y estable?"

Mantener el sueño


A menudo, lo primero que piensan las personas cuando piensan en el deber es que afectará negativamente su sueño; nadie quiere una alerta para despertarlos en medio de la noche. Si su organización o equipo se vuelve lo suficientemente grande, puede usar la rotación "seguir al sol" cuando los equipos ubicados en varias zonas horarias participan en la misma rotación, con turnos de servicio más cortos, para que cada zona horaria esté en servicio solo durante sus horas de trabajo (o al menos al despertar). Instalar tal rotación puede ayudar maravillosamente a reducir la carga nocturna que el oficial de servicio asume.

Si no tiene suficientes ingenieros y su distribución geográfica para proporcionar la rotación de "seguir al sol", todavía hay algo que puede hacer para reducir la probabilidad de que las personas se despierten innecesariamente en medio de la noche. Al final, una cosa es levantarse de la cama a las 4 a.m. para resolver un problema urgente que enfrenta el cliente; es completamente diferente despertarse solo para descubrir que se trata de una falsa alarma. Esto puede ayudar a verificar todas las alertas que configuró y preguntarle a su equipo cuáles necesita realmente para despertar a alguien después de horas y si estas alertas pueden esperar hasta la mañana. Puede ser difícil lograr que las personas acepten desactivar algunas alertas que no funcionan, especialmente si los problemas perdidos causaron problemas en el pasado, pero es importante recordarque un ingeniero privado de sueño no es el ingeniero más efectivo. Configure estas alertas para el horario comercial cuando sean realmente importantes. La mayoría de las herramientas de notificación en estos días le permiten configurar varias reglas para las notificaciones durante las horas de inactividad, ya sean períodos de notificación de Nagios o la configuración de varios horarios en PagerDuty.

Sueño, deber y cultura de equipo


Otras formas de resolver el problema de las alteraciones del sueño están asociadas a cambios culturales más significativos. Una forma de resolver este problema es realizar un seguimiento de las alertas, prestando especial atención a cuándo llegan y si son efectivas. Opsweekly es una herramienta creada y publicada por Etsy que permite a los equipos rastrear y clasificar las alertas recibidas. Puede generar gráficos que muestren cuántas advertencias despertaron a las personas (utilizando los datos "Acerca del sueño" de los rastreadores de actividad física), así como cuántas advertencias realmente necesitaban la acción de la persona. Usando estas tecnologías, puede rastrear la efectividad de su rotación de servicio y su efecto sobre el sueño con el tiempo.

El equipo puede desempeñar un papel en proporcionar suficiente descanso para cada oficial de servicio. Cree una cultura que aliente a las personas a cuidarse a sí mismas: si pierde el sueño debido a que lo llaman por la noche, puede dormir un poco más por la mañana para tratar de recuperar el tiempo perdido. Los miembros del equipo pueden vigilar el uno al otro: cuando los equipos comparten información sobre su sueño entre ellos a través de algo como Opsweekly, pueden ir a sus colegas de servicio y decirles: "Oye, parece que tuviste una noche difícil con PagerDuty anoche". "¿Quieres que te cubra esta noche para que puedas descansar un poco?" Aliente a las personas a apoyarse mutuamente de esta manera y no apruebe la "cultura de los héroes", donde las personas llegarán al límite, evitando solicitudes de ayuda.

Reducción del impacto de los turnos de trabajo en el trabajo.


Cuando los ingenieros están cansados ​​porque los despertaron mientras estaban de servicio, obviamente no trabajarán con un 100% de fuerza durante el día, pero incluso sin tener en cuenta la falta de sueño, el trabajo también puede tener otras consecuencias para el trabajo. Una de las pérdidas más significativas durante el servicio está relacionada con el factor de interrupción, un cambio de contexto: una interrupción puede conducir a una pérdida de al menos 20 minutos debido a la pérdida de enfoque y cambio de contexto. Es probable que sus equipos tengan otras fuentes de interrupciones, como tickets generados por otros equipos, solicitudes o preguntas recibidas por chat y / o correo electrónico. Dependiendo del alcance de estas otras interrupciones, puede considerar agregarlas a una rotación existente mientras está de servicio o configurar una segunda rotación solo para manejar estas otras solicitudes.

Es importante tener esto en cuenta cuando planifique el trabajo que realizará el equipo, tanto a largo como a corto plazo. Si su equipo tiene una tendencia hacia turnos de turnos bastante intensos, este hecho debe tenerse en cuenta durante la planificación a largo plazo, ya que puede tener una situación en la que todo el personal está efectivamente comprometido en cualquier momento, y no en otro trabajo. En la planificación a corto plazo, es posible que el oficial de turno no pueda cumplir con los plazos debido a sus deberes; esto es de esperarse, y el resto del equipo debe estar listo para adaptarse y ayudar a asegurarse de que el trabajo se completará y el oficial de turno recibirá apoyo en sus tareas laborales. Independientemente de si se llama al asistente,un turno en servicio afectará su capacidad para realizar otro trabajo; no espere que el asistente trabaje de noche para completar los proyectos planificados además del servicio fuera de servicio.

Los equipos necesitarán encontrar una manera de manejar el trabajo extra generado en servicio. Este trabajo puede ser un trabajo real para solucionar problemas reales detectados por los sistemas de monitoreo y advertencia, o puede ser un trabajo para arreglar el monitoreo y las alertas para reducir la cantidad de alertas falsas positivas. Cualquiera sea la naturaleza del trabajo que se está creando, es importante distribuir este trabajo de manera justa y constante en todo el equipo. No todos los turnos de trabajo son equivalentes, algunos son más complicados que otros, por lo tanto, la declaración de que la persona que recibió la alerta es la persona responsable de eliminar todas las consecuencias de esta alerta puede conducir a una distribución desigual del trabajo. Puede ser más razonable que el asistente sea responsable de programar o distribuir el trabajo, esperandoque el resto del equipo estará listo para ayudar con la finalización del trabajo creado.

(work-life balance)


Piense en el impacto de estar de servicio fuera del trabajo. Cuando esté de servicio, probablemente se sentirá conectado a su teléfono móvil y computadora portátil, lo que significa que siempre lleva una computadora portátil y un enrutador móvil (módem usb) con usted o simplemente no sale de su hogar / oficina. Estar de servicio generalmente significa renunciar a cosas como reunirse con amigos o familiares durante su turno. Esto significa que la duración de cada turno depende de la cantidad de personas en su equipo, y la frecuencia de los turnos puede ser una carga excesiva para las personas. Es posible que necesite experimentar con la duración y el horario de sus turnos para encontrar un horario adecuado para al menos la mayoría de las personas involucradas, ya que diferentes equipos y personas tendrán diferentes prioridades y preferencias.

Es imperativo ser consciente del impacto que el deber tendrá en la vida de las personas, tanto a nivel gerencial como a nivel individual. Cabe señalar que el impacto se sentirá más por las personas con menos privilegios. Por ejemplo, si tiene que dedicar tiempo al cuidado de niños u otros miembros de la familia, o si descubre que la mayor parte del trabajo doméstico recae sobre sus hombros, ya tiene menos tiempo y energía que alguien que no tiene estos deberes Tal trabajo de "segundo turno" o "tercer turno" tiende a afectar desproporcionadamente a las personas, y si establece una rotación de turno con un horario o intensidad que asume que los participantes no tienen una vida personal fuera de la oficina, limita las personas que podrán participar A sus ordenes.

Anime a las personas a tratar de mantener la mayor parte de su horario regular. Debería pensar en proporcionar al equipo enrutadores móviles (módems usb) para que las personas puedan salir de la casa con su computadora portátil y aún así tener un poco de vida. Aliente a las personas a intercambiar horas de servicio entre sí, si es necesario, por períodos cortos de tiempo para que las personas puedan ir al gimnasio o visitar a un médico mientras están de servicio. No cree una cultura donde el deber deba significar que los ingenieros literalmente no hacen nada más que mirar. Un equilibrio entre el trabajo y la vida personal es una parte importante de cualquier trabajo, pero especialmente cuando se considera el tiempo libre, los miembros mayores de su equipo deben dar un ejemplo a los demás en términos de equilibrar el trabajo y la vida personal, tanto como sea posible mientras estén de servicio.

A nivel individual, no olvides explicar lo que significa el deber para tus amigos, familiares, parejas, mascotas, etc. (a tus gatos probablemente no les importará, porque se levantan a las 4 a.m. cuando recibes una alerta, aunque de ninguna manera querrán ayudarte con su decisión). Asegúrese de recuperar el tiempo perdido después de que termine su turno, ya sea conociendo amigos, familiares o, por ejemplo, un sueño. Si puede, piense en configurar un despertador silencioso (por ejemplo, un reloj inteligente) que pueda despertarlo tocando su muñeca para no despertar a nadie a su alrededor. Encuentre maneras de cuidarse cuando esté en medio de un turno de turno y cuando haya terminado. Es posible que desee armar un "kit de supervivencia en servicio" que lo ayude a relajarse: escuche la lista de reproducción de su música favorita,lee tu libro favorito o tómate un tiempo para jugar con tu mascota. Los gerentes deben fomentar el autocuidado dando a las personas un día libre después de una semana de servicio y asegurándose de que las personas soliciten (y reciban) ayuda cuando la necesiten.


En general, estar en servicio no debe ser percibido solo como un trabajo terrible: tiene la oportunidad y la responsabilidad como persona que participa en el servicio para trabajar activamente para mejorarlos para las personas que estarán en servicio en el futuro, lo que significa que las personas recibirán menos mensajes y serán más precisos. Una vez más, realizar un seguimiento del valor de sus alertas, usando algo como Opsweekly, puede ayudar a descubrir qué hace que su deber sea molesto y solucionarlo. Para las alertas inactivas, pregúntese si hay formas de deshacerse de estas alertas, tal vez esto significa que solo funcionarán durante el horario comercial, porque hay algunas cosas a las que simplemente no necesita responder en medio de la noche. No tengas miedo de eliminar alertas,cámbielos o cambie el método de envío de "enviar por teléfono y correo electrónico" a "solo correo electrónico". La experimentación y la iteración son la clave para mejorar el perro guardián con el tiempo.

Para las alertas que son realmente válidas, debe considerar cuán fácil es para el ingeniero completar las acciones necesarias. Cada alerta de trabajo debe tener un runbook que venga con ella; considere usar una herramienta como nagios-herald para agregar enlaces Runbook a sus alertas. Si la alerta es tan simple que no necesita un módulo Runbook, probablemente sea lo suficientemente simple como para que pueda automatizar la respuesta usando algo como los controladores de eventos de Nagios, lo que evita que las personas tengan que despertarse o interrumpir para tareas fácilmente automatizadas. Tanto runbooks como nagios-herald pueden ayudarlo a agregar un contexto valioso a sus alertas, lo que ayuda a las personas a responder de manera más efectiva. Mira¿Puede responder preguntas tan comunes como: ¿Cuándo fue la última vez que se activó esta alerta? ¿Quién le respondió la última vez y qué acciones tomaron en última instancia (si hubo alguna)? ¿Qué otras alertas aparecen al mismo tiempo y están relacionadas? Este tipo de información contextual a menudo se encuentra solo en el cerebro de las personas, por lo tanto, fomentar una cultura de documentar y compartir información contextual puede reducir la cantidad de sobrecarga requerida para responder a las advertencias.por lo tanto, fomentar una cultura de documentar y compartir información contextual puede reducir los gastos generales necesarios para responder a las advertencias.por lo tanto, fomentar una cultura de documentar y compartir información contextual puede reducir los gastos generales necesarios para responder a las advertencias.

Una parte importante de la fatiga que surge de los turnos es que nunca terminan; si su equipo tiene turnos, es poco probable que terminen en algún momento en el futuro previsible. El deber nunca termina, y podemos sentir que siempre serán terribles. Esta falta de esperanza es un gran problema mental que puede contribuir al estrés y al agotamiento, por lo que recurrir a la percepción (además de la realidad) de que estar en servicio siempre será terrible es un buen comienzo para comenzar a pensar en su deber a largo plazo.

Para dar a la gente la esperanza de que la situación en el servicio mejorará, es necesario tener un sistema observable (el mismo seguimiento y categorización del deber, que mencioné anteriormente). Mantenga un registro de cuántas advertencias tiene, qué porcentaje de ellas requieren la intervención de un asistente, cuántas de ellas despiertan a las personas y luego trabajan para crear una cultura que aliente a las personas a hacer las cosas mejor. Si tienes un equipo grande, puede ser tentador, tan pronto como tu deber esté por terminar, ríndete y di "este es el problema del futuro oficial de servicio", y no busques algo para arreglar algo, ¿quién quiere gastar más esfuerzo en el deber que en ellos? ¿es requerido? Aquí es donde una cultura de empatía puede marcar una gran diferencia, porque te preocupas no solo por tu bienestar en servicio, sino también por tus colegas.

Se trata de empatía.


La empatía es una parte importante de lo que nos permite estimular el trabajo que mejora la experiencia de servicio. Como gerente o participante, puede evaluar positivamente o incluso recompensar a las personas por su comportamiento, lo que mejora el deber. El soporte de sistemas (operaciones) es una de esas áreas donde los ingenieros a menudo sienten que las personas les prestan atención solo cuando algo sale mal: las personas estarán allí para gritarles cuando el sitio se cuelgue, pero rara vez aprenderán sobre los esfuerzos fuera de la pantalla que los ingenieros-operadores ponen en hacer que el sitio funcione el resto del tiempo. El reconocimiento del trabajo puede ser de gran importancia, ya sea para agradecer a alguien en la reunión o en un correo electrónico general por mejorar una alerta específica, el aspecto técnico del deber,o darle a alguien tiempo para reemplazar a otro ingeniero por un turno por un tiempo.

Aliente a las personas a dedicar tiempo y esfuerzo a mejorar la situación de servicio a largo plazo. Si hay un deber en su equipo, debe planificar y priorizar este trabajo como lo haría con cualquier otro trabajo en su hoja de ruta. El deber es 90% de entropía, y si no trabajas activamente para mejorarlos, con el tiempo empeorarán cada vez más. Trabaje con su equipo para descubrir qué motiva y alienta mejor a las personas, y luego úselo para alentar a las personas a reducir el ruido de las alertas, escribir runbooks y crear herramientas que resuelvan sus problemas de turno. Hagas lo que hagas, no te conformes con el deber terrible, como una parte invariable de la situación.

All Articles