🙉 🎣 🙎🏼 Problemas con DNS en Kubernetes. Post-mortem público 🚬 🍜 😡

Nota perev.: es una traducción del post-mortem público del blog de ingeniería de Preply . Describe un problema de conntrack en el clúster de Kubernetes que provocó cierto tiempo de inactividad de algunos servicios de producción.

Este artículo puede ser útil para aquellos que quieran aprender un poco más sobre la autopsia o para prevenir posibles problemas con DNS en el futuro.

DNS
DNS
DNS

Preply

- . , , , .

Seeking SRE

En las reuniones semanales con pizza, en el círculo del equipo técnico, compartimos información diversa. Una de las partes más importantes de tales reuniones es la autopsia, que a menudo se acompaña de una presentación con diapositivas y un análisis más profundo del incidente. A pesar del hecho de que no "aplaudimos" después de la autopsia, tratamos de desarrollar una cultura "sin culpa " ( rutina sin culpa ). Creemos que escribir y presentar una autopsia puede ayudarnos (y no solo) a prevenir incidentes similares en el futuro, por eso los compartimos.

Las personas involucradas en el incidente deben sentir que pueden hablar en detalle al respecto sin temor a castigos o represalias. No hay censura! Escribir un post-mortem no es un castigo, sino una oportunidad de aprender para toda la empresa.

Mantenga CALMS y DevOps: S es para compartir

Problemas con DNS en Kubernetes. Post mortem

Fecha: 28/02/2020

Autores: Amet U., Andrei S., Igor K., Aleksey P.

Estado: Completado

Resumen: indisponibilidad parcial de DNS (26 min) para algunos servicios en el grupo de Kubernetes

Impacto: 15,000 eventos se perdieron para los servicios A,

Causa raíz B y C : Kube-proxy no pudo eliminar correctamente la entrada anterior de la tabla conntrack, por lo que algunos servicios aún intentaron conectarse a envíos inexistentes

E0228 20:13:53.795782       1 proxier.go:610] Failed to delete kube-system/kube-dns:dns endpoint connections, error: error deleting conntrack entries for UDP peer {100.64.0.10, 100.110.33.231}, error: conntrack command returned: ...

Disparador: debido a la baja carga dentro del clúster Kubernetes, CoreDNS-autoscaler redujo el número de pods en la implementación de tres a dos

decisiones: otra aplicación de implementación inició la creación de nuevos nodos, CoreDNS-autoscaler agregó más plataformas para el servicio de clúster, lo que provocó sobrescribir la

detección de la tabla de conntrack : La monitorización de Prometheus detectó una gran cantidad de errores 5xx para los servicios A, B y C e inició una llamada a los ingenieros de servicio

5xx errores en Kibana

Comportamiento

Actuar	Un tipo	Responsable	Tarea
Deshabilitar autoescaler para CoreDNS	prevenido	Amet U.	DEVOPS-695
Instalar el servidor DNS de almacenamiento en caché	disminución	Max V.	DEVOPS-665
Configurar la supervisión de conntrack	prevenido	Amet U.	DEVOPS-674

Lecciones aprendidas

Qué salió bien:

El monitoreo funcionó claramente. La reacción fue rápida y organizada.

, conntrack
, ()
, DNS,

CoreDNS-autoscaler, conntrack

(EET)


22:13	CoreDNS-autoscaler
22:18
22:21
22:39
22:40	5xx ,

Tiempo de detección: 4 min.
Tiempo para completar la acción: 21 min.
Tiempo para arreglar: 1 min

Información Adicional

Registros de CoreDNS:

I0228 20:13:53.507780       1 event.go:221] Event(v1.ObjectReference{Kind:"Deployment", Namespace:"kube-system", Name:"coredns", UID:"2493eb55-3dc0-11ea-b3a2-02bb48f8c230", APIVersion:"apps/v1", ResourceVersion:"132690686", FieldPath:""}): type: 'Normal' reason: 'ScalingReplicaSet' Scaled down replica set coredns-6cbb6646c9 to 2

Enlaces a Kibana (recortado), Grafana (recortado)
Donde Linux Conntrack ya no es tu amigo
Sutilezas de kube-proxy: depuración de un restablecimiento de conexión intermitente
Rant conntrack y tiempos de espera de búsqueda de DNS

Para minimizar la utilización del procesador, el kernel de Linux usa algo como conntrack. En resumen, esta es una utilidad que contiene una lista de entradas NAT que se almacenan en una tabla especial. Cuando el próximo paquete provenga del mismo pod al mismo pod que antes, la dirección IP final no se volverá a calcular, sino que se tomará de la tabla conntrack.

Cómo funciona conntrack

Resumen

Este fue un ejemplo de uno de nuestros post-mortem con algunos enlaces útiles. Específicamente en este artículo compartimos información que puede ser útil para otras compañías. Es por eso que no tenemos miedo de cometer errores y es por eso que hacemos público uno de nuestros post-mortem. Aquí hay algunos temas públicos post mortem más interesantes:

GitLab: postmortem de interrupción de la base de datos del 31 de enero
Dropbox: interrupción post mortem
Spotify: la relación de amor / odio de Spotify con DNS
Muchos otros de este histograma y del repositorio de Kubernetes Failure Stories
También un ejemplo de una autopsia pública con SRE Book

Problemas con DNS en Kubernetes. Post-mortem público