🚇 👂 🍢 etcd 3.4.3: investigación de seguridad y confiabilidad de almacenamiento 👳 👧🏻 🧜🏾

Nota perev. : El contenido de este artículo no es del todo típico de nuestro blog. Sin embargo, como mucha gente sabe, etcd se encuentra en el corazón de Kubernetes, por lo que este estudio, realizado por un consultor independiente en el campo de la confiabilidad, resultó ser interesante entre los ingenieros que operan este sistema. Además, es interesante en el contexto de cómo los proyectos de código abierto que ya han demostrado su eficacia en la producción se están mejorando incluso a un nivel tan "bajo".

La bóveda de valor-clave (KV), etc. es una base de datos distribuida basada en el algoritmo de consenso Raft. En un análisis realizado en 2014 , encontramos que etcd 0.4.1 se vio afectado por las llamadas lecturas obsoletas por defecto(lea las operaciones que devuelven un valor antiguo e irrelevante debido a un retraso en la sincronización - aprox. transl.) . Decidimos volver a etcd (esta vez, a la versión 3.4.3) para evaluar nuevamente en detalle su potencial en el campo de la confiabilidad y la seguridad.

Hemos encontrado que la operación con pares de "clave-valor" estrictamente serializable y que los procesos del observador (relojes) entregados a cada cambio en la clave de orden. Sin embargo, los bloqueos en etcd son fundamentalmente inseguros, y los riesgos asociados con ellos se ven exacerbados por un error, como resultado de lo cual no se verifica la relevancia del arrendamiento después de esperar el bloqueo. Puede leer el comentario de los desarrolladores de etcd en nuestro informe en el blog del proyecto .

El estudio fue patrocinado por la Cloud Native Computing Foundation (CNCF), parte de The Linux Foundation. Se llevó a cabo en pleno cumplimiento de las políticas éticas de Jepsen .

1. Antecedentes

El repositorio de Etc KV es un sistema distribuido diseñado para ser utilizado como base para la coordinación. Al igual que Zookeeper y Consul , etcd almacena pequeñas cantidades de estados raramente actualizados ( por defecto, hasta 8 GB ) en forma de un mapa de valores clave y proporciona lecturas, escrituras y microtransacciones estrictamente serializables en todo el almacén de datos, así como primitivas de coordinación como bloqueos , seguimiento (relojes) y selección de líderes. Muchos sistemas distribuidos, como Kubernetes y OpenStack , usan etcd para almacenar metadatos de clúster, coordinar vistas coordinadas de datos, elegir un líder, etc.

En 2014, ya realizamos una evaluación de etcd 0.4.1 . Luego descubrimos que, por defecto, es propenso a lecturas obsoletas debido a la optimización. Si bien el trabajo sobre los principios de Raft discute la necesidad de dividir las operaciones de lectura en subprocesos y pasarlos a través de un sistema de consenso para garantizar la viabilidad, etcd lee en cualquier líder local sin verificar un estado más actual en el líder más nuevo. El equipo de desarrollo de etcd implementó el indicador de quórum opcional , y en la API de la versión 3.0 de etcd , la linealización para todas las operaciones, excepto las operaciones de seguimiento, apareció de forma predeterminada . La API etcd 3.0 se concentra en un mapa plano KV donde las claves y los valores son opacos

( opacos ) conjuntos de bytes. Usando consultas de rango, puede simular claves jerárquicas. Los usuarios pueden leer, escribir y eliminar claves, así como monitorear el flujo de actualizaciones para una sola clave o rango de claves. El kit de herramientas etcd se complementa con arrendamientos (objetos variables con una vida útil limitada, que se mantienen en estado activo mediante solicitudes de latidos del cliente), bloqueos (objetos con nombre dedicados vinculados a arrendamientos) y la elección de líderes.

En la versión 3.0, etcd ofrece una API transaccional limitadapara operaciones atómicas con muchas claves. En este modelo, una transacción es una expresión condicional con un predicado, una rama verdadera y una rama falsa. Un predicado puede ser una conjunción de varias comparaciones clave: igualdad o diversas desigualdades, de acuerdo con las versiones de una clave, revisión global, etc., o el valor clave actual. Las ramas verdaderas y falsas pueden incluir múltiples operaciones de lectura y escritura; todos ellos se aplican atómicamente dependiendo del resultado de la estimación de predicados.

1.1 Garantías de consistencia en la documentación

A partir de octubre de 2019, la documentación de etcd para la API establece que "todas las llamadas a la API demuestran coherencia constante, la forma más sólida de garantía de coherencia disponible en los sistemas distribuidos". Esto no es así: la consistencia constante es estrictamente más débil que la linealización, y la linealización es definitivamente alcanzable en sistemas distribuidos. Además, la documentación establece que "durante la operación de lectura, etcd no garantiza la transferencia del valor [más reciente (medido por el reloj externo después de la finalización de la consulta)] disponible en cualquier representante del clúster" Esta también es una afirmación demasiado conservadora: si etcd proporciona linealización, las operaciones de lectura siempre están asociadas con el estado comprometido más reciente en orden de linealización.

La documentación también afirma que etcd garantiza el aislamiento serializable: todas las operaciones (incluso las que afectan a varias teclas) se realizan en un orden general. Los autores describen el aislamiento serializable como "el nivel de aislamiento más fuerte disponible en sistemas distribuidos". Esto (dependiendo de lo que quiere decir con el "nivel de aislamiento") tampoco es cierto; la serialización estricta es más fuerte que la simple serialización, mientras que la primera también se puede lograr en sistemas distribuidos.

La documentación dice que todas las operaciones (excepto el seguimiento) en etcd son linealizables por defecto. En este caso, la linealización se define como la consistencia con relojes globales débilmente sincronizados. Cabe señalar que dicha definición no solo es incompatible con la definición de linealizaciónHerlihy & Wing, pero también implica una violación de la causalidad: los nodos con horas de atención intentarán leer los resultados de las operaciones que ni siquiera han comenzado. Suponemos que etcd todavía no es una máquina del tiempo, y dado que se basa en el algoritmo Raft, se debe aplicar la definición generalmente aceptada de linealización.

Dado que las operaciones de KV en etcd son serializables y linealizables, creemos que, de hecho, etcd proporciona una serialización estricta por defecto . Esto tiene sentido, ya que todas las teclas, etcd están en una sola máquina de estado, y Raft proporciona un pedido completo de todas las operaciones en esta máquina de estado. De hecho, todo el conjunto de datos etcd es un único objeto linealizable.

Bandera opcional serializable bajaEl nivel de operaciones de lectura de consistencia serializable estricta a regular, que permite la lectura de un estado comprometido desactualizado. Tenga en cuenta que la bandera serializableno afecta la serialización de la historia; Las operaciones de KV, etc. son serializables en todos los casos.

2. Prueba de desarrollo

Para crear un conjunto de pruebas, utilizamos la biblioteca Jepsen adecuada. Se analizó la versión, etcd 3.4.3 (la última a partir de octubre de 19), trabajando en clústeres de Debian Stretch que constan de 5 nodos. Hemos implementado una serie de fallas en estos grupos, incluyendo particiones de red, aislando nodos individuales, dividiendo el grupo en una mayoría y una minoría, así como particiones no transitivas con una mayoría superpuesta. Ellos "cayeron" y suspendieron subconjuntos aleatorios de nodos, y también desactivaron deliberadamente a los líderes. Se introdujeron distorsiones temporales de hasta varios cientos de segundos, tanto a intervalos de varios segundos como a milisegundos ("parpadeo" rápido). Dado que etcd admite el cambio dinámico de la cantidad de componentes, agregamos y eliminamos nodos al azar durante las pruebas.

Las cargas de prueba incluyeron registros, conjuntos y pruebas transaccionales para verificar operaciones en KV, así como cargas especializadas para cerraduras y relojes.

2.1 Registros

Para evaluar la confiabilidad de etcd durante las operaciones KV, se desarrolló una prueba de registro durante la cual se realizaron operaciones aleatorias de lectura, escritura, comparación y configuración en las teclas de la unidad. Los resultados se evaluaron utilizando la herramienta de linealización de Knossos utilizando el modelo de registro de comparación / instalación y la información de versión.

2.2 Conjuntos

Para cuantificar las lecturas obsoletas, se desarrolló una prueba que utilizaba una transacción de comparar y establecer para leer un conjunto de enteros de una sola clave y luego agregar un valor a este conjunto. Durante la prueba, también realizamos una lectura paralela de todo el conjunto. Después de completar la prueba, los resultados se analizaron para detectar casos en los que el elemento, que se sabía que estaba presente en el conjunto, estaba ausente en los resultados de lectura. Estos casos se usaron para cuantificar las lecturas obsoletas y las actualizaciones perdidas.

2.3 Anexar prueba

Para verificar la serialización estricta, se desarrolló una prueba de adición durante la cual las transacciones se leían en paralelo y se agregaban valores a las listas que constaban de conjuntos únicos de enteros. Cada lista se almacenó en una clave etcd, y se hicieron adiciones dentro de cada transacción, leyendo cada clave que necesitaba ser cambiada en una transacción, y luego estas claves se escribieron y las lecturas se realizaron en la segunda transacción, que estaba protegidapara asegurarse de que no haya cambiado ninguna clave grabada desde la primera lectura. Al final de la prueba, trazamos la relación entre las transacciones en función de la prioridad en tiempo real y la relación de las operaciones de lectura y adición. La verificación de este gráfico en busca de bucles permitió determinar si las operaciones eran estrictamente serializables.

Si bien etcd evita que las transacciones escriban la misma clave varias veces, puede crear transacciones con hasta un registro por clave. También nos aseguramos de que las operaciones de lectura dentro de la misma transacción reflejaran operaciones de escritura anteriores de la misma transacción.

2.4 cerraduras

Como servicio de coordinación, etcd promete soporte integrado para bloqueo distribuido . Investigamos estas cerraduras de dos maneras. Al principio, se generaron solicitudes aleatorias de bloqueo y desbloqueo , recibiendo un contrato de arrendamiento para cada bloqueo y dejándolo abierto utilizando el cliente incorporado, etc. en el cliente Java keepalivehasta su lanzamiento . Probamos los resultados con Knossos para ver si forman una implementación linealizada del servicio de bloqueo.

Para una prueba más práctica (y para cuantificar la frecuencia de fallas de bloqueo), utilizamos bloqueos y etcd para organizar la exclusión mutua al realizar actualizaciones en el conjunto en memoriay busqué actualizaciones perdidas en este conjunto. Esta prueba nos permitió confirmar directamente si los sistemas que usan etcd como mutex pueden actualizar de manera segura el estado interno.

La tercera versión de la prueba de bloqueo involucró guardias en la clave de arrendamiento para modificar el conjunto almacenado en etcd.

2.5 Seguimiento

Para verificar que los relojes proporcionan información sobre cada actualización de clave, se creó una clave como parte de la prueba y se asignaron ciegamente valores enteros únicos. Mientras tanto, los clientes compartieron esta clave durante varios segundos a la vez. Cada vez después del inicio del reloj, el cliente comenzó con la revisión en la que se había detenido la última vez.

Al final de este proceso, nos aseguramos de que cada cliente observara la misma secuencia de cambios clave.

3. Resultados

3.1 Seguimiento desde la 0ª revisión

Al rastrear una clave, los clientes pueden especificar una revisión inicial , que es "una revisión opcional con la que se inicia el rastreo (inclusive)". Si el usuario desea ver cada operación con una determinada clave, puede especificar la primera revisión de etcd. ¿Qué es esta auditoría? El modelo de datos y el glosario no proporcionan una respuesta a esta pregunta; las revisiones se describen como contadores de 64 bits que aumentan monotónicamente, pero no está claro si etcd comienza desde 0 o 1. Es razonable suponer que la cuenta regresiva es desde cero (por si acaso).

Por desgracia, esto está mal. Al solicitar la revisión número 0, etcd comienza a transmitir actualizaciones, comenzando con la revisión actual en el servidor más una, pero no con el primero. La solicitud de la primera revisión da todos los cambios. Este comportamiento no está documentado en ninguna parte .

Creemos que, en la práctica, es poco probable que esta sutileza provoque problemas en la producción, ya que la mayoría de los clústeres no persisten en la primera revisión. Además, etcd comprime la historia de todos modos con el tiempo, por lo que en aplicaciones del mundo real, lo más probable, en cualquier caso, no requiere leer todas las versiones, comenzando con la primera revisión. Tal comportamiento está justificado, pero no dañaría la descripción correspondiente en la documentación.

3.2 Cerraduras míticas

La documentación de la API para los bloqueos establece que una clave bloqueada "se puede usar junto con las transacciones para garantizar que las actualizaciones en etc. se produzcan solo cuando el bloqueo sea de su propiedad". Es extraño, pero no proporciona ninguna garantía para las cerraduras en sí mismas y su propósito no se explica.

Sin embargo, en otros materiales, los mantenedores, etc., aún comparten información sobre el uso de cerraduras. Por ejemplo, el anuncio de lanzamiento de etcd 3.2 describe una aplicación etcdctlpara bloquear cambios en el intercambio de archivos en un disco. Además, en un problema en GitHub con una pregunta sobre el propósito específico de los bloqueos, uno de los desarrolladores de etcd respondió lo siguiente:

etcd , ( ) , ( etcd), - :

etcd;
- ( , etcd);
.

Solo se da un ejemplo de este tipo etcdctl: se usó una cerradura para proteger al equipo put, pero no vinculó la clave de la cerradura a la actualización.

Por desgracia, esto no es seguro porque permite que varios clientes mantengan simultáneamente el mismo bloqueo. El problema se ve agravado por la suspensión de procesos, bloqueos de red o particiones, sin embargo, también puede ocurrir en grupos completamente sanos sin fallas externas. Por ejemplo, en esta ejecución de prueba, el proceso número 3 establece con éxito el bloqueo, y el proceso 1 obtiene el mismo bloqueo en paralelo incluso antes de que el proceso 3 tenga la oportunidad de eliminarlo:

La violación de mutex fue más notable en los contratos de arrendamiento con TTL cortos: los TTL de 1, 2 y 3 segundos no pudieron proporcionar una exclusión mutua después de solo unos minutos de prueba (incluso en grupos sanos). Las suspensiones de proceso y las particiones de red provocaron problemas aún más rápido.

En una de nuestras variantes de prueba de bloqueo, se utilizaron mutexes etcd para proteger las actualizaciones conjuntas de un conjunto de enteros (como sugiere la documentación, etcd). Cada actualización lee el valor de muestra actual en memoria y, después de aproximadamente un segundo, vuelve a escribir esta colección con la adición de un elemento único. Con arrendamientos con un TTL de dos segundos, cinco procesos paralelos y una pausa de proceso cada cinco segundos, pudimos causar una pérdida constante de aproximadamente el 18% de las actualizaciones confirmadas.

Este problema fue exacerbado por el mecanismo de bloqueo interno en etcd. Si el cliente esperó a que el otro cliente lo desbloqueara, perdió su contrato de arrendamiento y, después de eso, se liberó el bloqueo, el servidor no verificó dos veces el contrato de arrendamiento para asegurarse de que todavía es válido antes de informarle al cliente que el bloqueo ahora está detrás de él.

La inclusión de una verificación de arrendamiento adicional, así como la selección de TTL más largos y el establecimiento cuidadoso de los tiempos de espera de las elecciones , reducirán la frecuencia de este problema. Sin embargo, las violaciones de mutex no se pueden eliminar por completo, ya que los bloqueos distribuidos son fundamentalmente inseguros en los sistemas asincrónicos. El Dr. Martin Kleppmann describe convincentemente esto en su artículo.Sobre cerraduras distribuidas. Según él, los servicios de bloqueo deben sacrificar la corrección para mantener la viabilidad en los sistemas asíncronos: si el proceso falla mientras se controla el bloqueo, el servicio de bloqueo necesita alguna forma de forzar el desbloqueo. Sin embargo, si el proceso en realidad no cayó, sino que simplemente se ejecuta lentamente o no está disponible temporalmente, desbloquearlo puede llevar a que se mantenga en varios lugares al mismo tiempo.

Pero incluso si el servicio de bloqueo distribuido usa, por ejemplo, algún tipo de detector de falla mágica y puede garantizar la exclusión mutua, en el caso de algún recurso no local, su uso seguirá siendo inseguro. Suponga que el proceso A envía un mensaje a la base de datos D mientras mantiene un bloqueo. Después de eso, el proceso A se bloquea y el proceso B recibe un bloqueo y también envía un mensaje a la base D. El problema es que un mensaje del proceso A (debido a la asincronía) puede aparecer después de un mensaje del proceso B, violando la excepción mutua que se suponía que debía proporcionar el bloqueo. .

Para evitar este problema, es necesario confiar en el hecho de que el propio sistema de almacenamiento admitirá la corrección de las transacciones o, si el servicio de bloqueo proporciona dicho mecanismo, utiliceToken de " cercado" que se incluirá en todas las operaciones realizadas por el titular de la cerradura. Asegurará que no se produzcan operaciones repentinas del titular de la cerradura anterior entre las operaciones del propietario de la cerradura actual. Por ejemplo, en el servicio de bloqueo Chubby de Google , estos tokens se llaman secuenciadores . En etcd, puede usar la revisión de la clave de bloqueo como un token de bloqueo ordenado globalmente.

Además, las teclas de bloqueo en etcd se pueden usar para proteger las actualizaciones transaccionales en el propio etcd. Verificación de la versión de la clave de bloqueo como parte de la transacción, los usuarios pueden evitar una transacción si el bloqueo ya no se mantiene (es decir, la versión de la clave de bloqueo es mayor que cero). En nuestras pruebas, este enfoque nos permitió aislar con éxito las operaciones de lectura-modificación-escritura en las que la escritura era la única transacción protegida por bloqueo. Este enfoque proporciona un aislamiento similar a los tokens de barrera, pero (como los tokens de barrera) no garantiza la atomicidad: un proceso puede bloquearse o perder un mutex durante una actualización que consta de muchas operaciones, dejando a etcd en un estado lógicamente inconsistente.

Los resultados del trabajo en los temas del proyecto:

Los relojes que comienzan en la revisión 0 comienzan más tarde , no se ha decidido;
Los bloqueos regresan después de bloquear sin verificar la propiedad - en el maestro;
Las cerraduras no están documentadas como inseguras , no resueltas.

4. Discusión

En nuestras pruebas, etc. 3.4.3 estuvo a la altura de las expectativas con respecto a las operaciones de KV: observamos una consistencia estrictamente serializable de lectura, escritura e incluso transacciones de múltiples claves, a pesar de la suspensión de procesos, bloqueos, manipulación del reloj y la red, así como un cambio en el número de miembros del clúster . El comportamiento estrictamente serializable se implementó por defecto en las operaciones KV; El rendimiento de las lecturas con el serializableconjunto de indicadores condujo a la aparición de lecturas obsoletas (como se describe en la documentación).

El monitor (relojes) funciona correctamente, al menos en las teclas individuales. Hasta que la compresión del historial destruyó los datos antiguos, el reloj emitió con éxito cada actualización clave.

Sin embargo, resultó que los bloqueos en etcd (como todos los bloqueos distribuidos) no proporcionan exclusión mutua. Diferentes procesos pueden mantener la cerradura al mismo tiempo, incluso en clústeres saludables con relojes perfectamente sincronizados. La documentación con la API de bloqueo no decía nada al respecto, y los ejemplos de bloqueos presentados no eran seguros. Sin embargo, algunos de los problemas con los bloqueos tuvieron que desaparecer después del lanzamiento de este parche .

Como resultado de nuestra colaboración, el equipo de etcd realizó varias modificaciones a la documentación (ya han aparecido en GitHub y se publicarán en futuras versiones del sitio web del proyecto). La página API de garantías de GitHub ahora establece que, por defecto, etcd es estrictamente serializabley se ha eliminado la afirmación de que serial y serializable son los niveles más fuertes de consistencia disponibles en los sistemas distribuidos. Con respecto a las revisiones, ahora se indica que el inicio debe ser desde la unidad (1) , aunque la documentación de la API todavía no dice que un intento de comenzar desde la 0ª revisión dará como resultado "eventos de salida que ocurrieron después de la revisión actual más 1" en lugar del esperado "despacho de todos los eventos". La documentación de los problemas de seguridad de la cerradura está en desarrollo .

Algunos cambios en la documentación, como describir el comportamiento especial de etcd al intentar leer, comenzando con una revisión cero, aún requieren atención.

Como de costumbre, enfatizamos que Jepsen prefiere un enfoque experimental para la verificación de seguridad: podemos confirmar la presencia de errores, pero no su ausencia. Se están haciendo esfuerzos considerables para encontrar problemas, pero no podemos probar la corrección general de etcd.

4.1 Recomendaciones

Si usa bloqueos en etcd, piense si los necesita por seguridad o simplemente para aumentar el rendimiento limitando probabilísticamente la concurrencia. Los bloqueos Etcd se pueden usar para aumentar el rendimiento, pero usarlos por motivos de seguridad puede ser arriesgado.

En particular, si usa el bloqueo etcd para proteger un recurso compartido como un archivo, base de datos o servicio, este recurso debería garantizar la seguridad sin bloqueo. Una forma de lograr esto es usar una ficha de bombardeo monótono . Puede ser, por ejemplo, una revisión de etcd asociada con la clave de bloqueo retenida actual. El recurso compartido debe garantizar que una vez que el cliente haya utilizado el tokenypara realizar alguna operación, cualquier operación con un token x < yserá rechazada. Este enfoque no garantiza la atomicidad, pero sí garantiza que las operaciones dentro del marco de bloqueo se realicen en orden y no de forma intermitente.

Sospechamos que es poco probable que los usuarios comunes encuentren este problema. Pero si todavía confía en leer todos los cambios de etcd, comenzando con la primera revisión, recuerde que necesita pasar 1, no 0. como parámetro. Nuestros experimentos muestran que una revisión cero en este caso significa "revisión actual", no "Lo más temprano".

Finalmente, los bloqueos y etcd (como todos los bloqueos distribuidos) engañan a los usuarios: pueden querer usarlos como bloqueos normales, pero se sorprenderán mucho cuando se den cuenta de que estos bloqueos no proporcionan exclusión mutua. La documentación de la API, las publicaciones de blog, los problemas en GitHub no dicen nada sobre este riesgo. Recomendamos que incluya información en la documentación de etcd que los bloqueos no proporcionan exclusión mutua y proporcione ejemplos de uso de tokens de barrera para actualizar el estado de los recursos compartidos en lugar de ejemplos que podrían conducir a la pérdida de actualizaciones.

4.2 Planes adicionales

El proyecto etcd se ha considerado estable durante varios años: el algoritmo Raft basado en él ha funcionado bien, la API para operaciones KV es simple y directa. Aunque algunas características adicionales han recibido recientemente una nueva API, su semántica es relativamente simple. Creemos que ya hemos estudiado suficientes comandos básicos como gety put, transacciones, bloqueo y seguimiento. Sin embargo, hay otras pruebas que deben realizarse.

Por el momento, no hemos realizado una evaluación suficientemente detallada de las eliminaciones.: Puede haber casos límite asociados con versiones y revisiones, cuando los objetos se crean y eliminan constantemente. En futuras pruebas, pretendemos someter las operaciones de eliminación a un estudio más cuidadoso. Tampoco probamos las consultas de rango ni las operaciones de seguimiento con varias claves, aunque sospechamos que su semántica es similar a las operaciones con claves únicas.

En las pruebas, utilizamos la suspensión de procesos, bloqueos, manipulaciones con el reloj, la red se dividió y la composición del clúster cambió; Entre bastidores había problemas como daños en el disco y otras fallas bizantinas a nivel de un nodo. Estas oportunidades pueden explorarse en futuras investigaciones.

El trabajo fue apoyado por la Cloud Native Computing Foundation., parte de The Linux Foundation , y cumple con las políticas éticas de Jepsen . Queremos agradecer al equipo de etcd por su ayuda, y a los siguientes representantes en particular: Chris Aniszczyk, Gyuho Lee, Xiang Li, Hitoshi Mitake, Jingyi Hu y Brandon Philips.

PD del traductor

Lea también en nuestro blog:

etcd 3.4.3: investigación de seguridad y confiabilidad de almacenamiento