🔅 🚶🏻 👩🏼‍⚕️ ¿Qué es Azure Stack HCI y cómo funciona? 👩🏾‍🤝‍👩🏼 😷 🧝🏼

Hola Habr! Hoy queremos hablar sobre de qué se trata la plataforma Azure Stack HCI. Incluyendo lo que es en general, de qué hardware se ensambla, qué software contiene, cómo funciona y eso es todo. ¡Únete ahora!

Esta es una publicación invitada de los chicos de AltaStor. AltaStor es un integrador de sistemas especializado en la creación de soluciones para el almacenamiento confiable de datos. Gracias a la experiencia acumulada en la creación de clústeres de conmutación por error y HCI, se selecciona una solución individual para cada cliente que mejor se adapte a sus tareas.

¿Qué es la Azure Stack HCI?

Esta es una solución hiperconvergente que combina varios productos:

Hardware de un socio OEM certificado de Microsoft.
Sistema operativo Windows Server 2019 Datacenter.
Software del Centro de administración de Windows.
Servicios de Microsoft Azure si es necesario.

Esta solución ha existido en el mercado durante mucho tiempo, y algunos de nuestros clientes la han utilizado durante mucho tiempo. Sin embargo, no publican los resultados de la prueba de rendimiento de su instalación. Decidimos llenar este vacío y hablar sobre nuestra experiencia con Azure Stack HCI con un ejemplo específico.

Para obtener documentación e información general sobre Azure Stack HCI, haga clic aquí .

Diseño de la cabina

Equipo

Crear una solución requiere una plataforma de hardware recomendada por Microsoft. Los principales fabricantes de hardware de servidor (HPE, Dell EMC, Fujitsu, Hitachi, Lenovo, etc.) desarrollaron sus configuraciones, probaron su compatibilidad y certificaron para Azure Stack HCI.

Una lista completa de equipos compatibles está disponible en .

Dependiendo de los tipos de unidades utilizadas, los componentes de la plataforma variarán.

Preferimos construir tales soluciones sobre la base de los servidores Fujitsu con el sistema operativo Windows Server 2019 Datacenter preinstalado. Este fabricante después de la venta admite todo el complejo de software y hardware como una solución completa, y no solo su hardware. Esto es importante tanto para nosotros, como socios, y para el cliente final.

Actualmente, Fujitsu tiene cinco configuraciones certificadas para diferentes tipos de unidades, modelos de servidor y número de nodos. El número máximo de nodos para Azure Stack HCI es 16, el mínimo es 2, pero algunas configuraciones se limitan a 4.

Todas las configuraciones de Fujitsu compatibles se pueden ver aquí .

Para la instalación, elegimos la configuración más eficiente de la actualmente certificada: Fujitsu Primergy con unidades SSD para almacenar datos, y módulos de memoria ultrarrápida Intel Optane conectados a través de la interfaz NVMe como caché del sistema. Esperamos obtener una matriz All-Flash definida por software con un rendimiento comparable al almacenamiento clásico con unidades SSD y caché NVMe.

Los sistemas de almacenamiento All-Flash de los líderes de la industria tienen configuraciones de tipo de medios similares. Sabemos qué IOPS y las métricas de latencia se pueden obtener en la práctica de sistemas similares y esperamos un rendimiento similar de Azure Stack HCI basado en la configuración Fujitsu seleccionada.

La arquitectura de esta solución Fujitsu se describe en detalle en un documento disponible aquí .

Le recomendamos que se familiarice con él antes de la instalación.

El documento describe las limitaciones de la arquitectura, los esquemas de conexión típicos y mucha otra información útil en la etapa de implementación.

Interruptores

La solución de Fujitsu utiliza su propio conmutador Ethernet PSWITCH. Para nosotros, notamos las siguientes ventajas:

Los interruptores de esta serie son muy productivos, a bajo costo.
Los conmutadores son bastante simples de configurar y utilizan la interfaz tipo CISCO. Los ingenieros no encontraron dificultades durante la instalación.
No hay excesos de propiedad en la administración y hay documentación competente disponible.

El equipo de conmutación Fujitsu es uno de los líderes de la industria en Japón. Recientemente ha estado disponible en el mercado ruso, pero nuestros arquitectos y otros socios de Fujitsu ya lo utilizan regularmente en proyectos. Actualmente hay un número limitado de modelos disponibles.

Obtenga más información sobre los conmutadores Fujitsu en el sitio web oficial .

Servidor

Dentro del servidor, las tarjetas de memoria Intel Optane ocupan una parte importante del espacio.

Intel presta mucha atención al rendimiento bajo alta demanda de calor. Por un lado, para una refrigeración de máxima calidad, se utilizan radiadores grandes. Por otro lado, esto limita el flujo de aire de enfriamiento dentro de todo el servidor.

Este es uno de los puntos clave que se tiene en cuenta al certificar la configuración: es necesario proporcionar todos los escenarios posibles en los que, debido a una refrigeración insuficiente, los servidores pueden sobrecalentar el módulo Optane, o viceversa.

Al trasladar la sala de servidores, nuestros clientes se han enfrentado más de una vez a una situación en la que el sistema de aire acondicionado aún no se ha puesto en funcionamiento. Por lo tanto, decidimos verificar cuán exigente es esta instalación para el sistema de enfriamiento y medir la vida útil de la plataforma bajo carga fuera de la sala de servidores enfriada.

Las pruebas se llevaron a cabo a temperatura ambiente, pero no encontramos ninguna limitación térmica, o una disminución en el rendimiento o la aparición de errores debido al sobrecalentamiento. Hemos visto por nuestra propia experiencia que los servidores probados admiten la capacidad de trabajo declarada a una temperatura ambiente de hasta +45 grados Celsius.

Nota.Este experimento no debe tomarse como una recomendación para abandonar el uso de salas de servidores especiales con ventilación de alta calidad. Al elegir un proveedor de soluciones de hardware, asegúrese de prestar atención al paquete de temperatura máxima.

Ensamblaje de plataforma de hardware

Vista frontal: Vista

posterior:

solo se usó un interruptor en la prueba. Para uso comercial, siempre recomendamos que reserve rutas de acceso utilizando al menos dos conmutadores. Según nuestras estadísticas, la falla de hardware más común en los clústeres es una rotura accidental del cable o un contacto roto en el conector.

Fujitsu RX1330 se utilizó como servidor con software de control. También se le asignaron las funciones de árbitro y servidor de quórum.

Despliegue de clúster

La primera etapa consistió en la instalación física de componentes de hardware, cables de interfaz de conexión, etc. Esto fue seguido por la configuración del software, como El sistema operativo ya está preinstalado. Implementamos Storage Space Direct en cada servidor y creamos un clúster de 2 nodos y un árbitro.

Luego, utilizamos la utilidad Fujitsu Infrastructure Manager, una extensión del Centro de administración de Windows que se integra estrechamente con el hardware del servidor Fujitsu y contiene todas las herramientas de administración de Azure, como:

Azure Site Recovery ofrece alta disponibilidad y recuperación ante desastres como servicio (DRaaS).
Azure Monitor es un sitio centralizado para monitorear el funcionamiento de aplicaciones, redes e infraestructura con análisis en profundidad basados en inteligencia artificial.
«-» Azure .
Azure Backup , -.
« Azure» Windows, Azure .
Azure Azure VPN- « — ».
« Azure» .

La extensión le permite automatizar una serie de tareas que también se pueden realizar directamente en el Centro de administración.

Grupo de almacenamiento reunido, volúmenes creados en él. Estos volúmenes se ubican posteriormente en máquinas virtuales para las cuales realizamos pruebas de rendimiento. Tanto los volúmenes como las máquinas virtuales se gestionan convenientemente desde una sola ventana.

A través de Fujitsu Infrastructure Manager, también es conveniente hacer muchas cosas sobre el mantenimiento programado y las actualizaciones de microcódigo. El estado de todos los equipos se muestra claramente, mucho se puede automatizar.

Existen dos versiones de la utilidad Fujitsu Infrastructure Manager: de pago y gratuitas:

Gratis. Disponible para descargar desde el sitio web del fabricante, es suficiente para la administración del servidor.
. Microsoft Azure HCI — Windows Server .

Para una integración profunda de Primergy con Microsoft Azure Stack HCI, necesita un complemento de administración del servidor de Windows Server, que está disponible solo en la versión paga. Por lo tanto, el FUJITSU Integrated System PRIMEFLEX para Microsoft Azure Stack HCI es parte de ella.

Cuanta más instalación tenga, más valiosa será la automatización que proporciona la utilidad.
Solo hay 2 nodos en nuestro stand y podríamos hacer todo el trabajo manualmente. Si tiene 4 nodos o más, el software reducirá significativamente sus esfuerzos de instalación y administración. El costo de los servicios públicos es inferior al 1% del proyecto, pero acelera significativamente la puesta en marcha de los equipos.

Para el Centro de administración de Windows, Fujitsu Infrastructure Manager Orchestra es un paquete de expansión:

La misma captura de pantalla muestra la composición del subsistema de disco del servidor: dos módulos Optane se usan como extensión de caché y cinco discos SSD como un grupo de almacenamiento de nivel 1.

Puntos importantes

Al crear una solución, hay varios matices que se deben tener en cuenta:

puede administrar Microsoft Azure Stack HCI de dos maneras: a través del Centro de administración de Windows o el Administrador de infraestructura de Fujitsu.

Admin Center también tiene sus ventajas: puede implementarlo en cualquier cosa, incluso en una computadora portátil; Existe la posibilidad de controlar desde la línea de comandos. Con él, el administrador puede hacer casi cualquier cosa.

También hay Cluster Manager, una herramienta indispensable para cualquier problema con el clúster.

Al implementar Witness (servidor de quórum), es importante agregarlo a Active Directory y verificar su disponibilidad para todos los nodos. Los requisitos para esta tarea son mínimos y se puede colocar en cualquier servidor base.

Desde el punto de vista de Windows Server, existen tres tipos de dispositivos de disco: NVMe, SSD y HDD. La lógica del trabajo es la siguiente: los dispositivos NVMe son el caché de lectura / escritura, SSD es el nivel de almacenamiento de Nivel 1; HDD: nivel de almacenamiento de nivel 2. A continuación, puede configurar políticas para mover datos entre grupos. Los NVDIMM también se pueden usar como caché.

El tamaño de bloque predeterminado para el desgarro es 4K, pero puede variar según el tipo de sistema de archivos en la máquina virtual. Esto posteriormente afectará el rendimiento.

Utilizamos módulos NVMe como caché, por lo que la velocidad de lectura y escritura de datos será muy diferente, esto se verá claramente en las pruebas de rendimiento:

( ), SSD (Tier-1, ).
NVMe , , . .

Antes de crear un clúster, se debe completar la validación y todas las pruebas en el Administrador de clústeres de conmutación por error. El informe debe guardarse, porque sin él no será posible abrir una llamada de servicio en el soporte de Microsoft, si alguna vez es necesario.

Al agregar nuevos nodos a un clúster existente, los nodos se agregarán automáticamente al grupo de almacenamiento. Después de 15 minutos, el clúster reconstruirá, reconstruirá y equilibrará automáticamente el grupo de Almacenamiento. Esto puede afectar el rendimiento durante la reconstrucción.

Pruebas de rendimiento

Ahora pasemos a la parte más interesante: la prueba de carga.

Configuración de prueba:

dos servidores Fujitsu PRIMERGY RX2540 ensamblados en un clúster;
cada servidor tiene instalados dos módulos de memoria de clase de almacenamiento Intel Optane, utilizados para expandir la caché de lectura / escritura;
SSD, ,
erasure coding ( RAID-5).

De hecho, es un sistema de almacenamiento definido por software que ejecuta Windows Server 2019 Azure Stack HCI.

Comenzamos la primera prueba con 12 máquinas virtuales que se ejecutan en ambos nodos. El perfil de carga de lectura / escritura es 70:30, tamaño de bloque = 8k. El tamaño del bloque se eligió en función del hecho de que la mayoría de las bases de datos transaccionales modernas y las cargas OLTP usan tal tamaño de bloque y aproximadamente la misma relación de lectura / escritura.

El rendimiento del clúster en estado estable es de 428k IOPS con un retraso de 0.487 ms. Este es un resultado realmente digno, que es bastante comparable a lo que puede obtener en un sistema especializado de almacenamiento todo flash de muchos fabricantes.

Se proporcionan pruebas independientes con un perfil de carga similar en el recurso spcresults.org: esta es la prueba SPC-1. La diferencia con nuestra configuración es solo en el tamaño del bloque: es 4k.

Si simplificamos significativamente la metodología para comparar los resultados, podemos dividirlos en dos indicadores IOPS obtenidos para sistemas de almacenamiento todo flash y compararlos con las cifras que recibimos al mismo tiempo de respuesta. Los resultados obtenidos en nuestro clúster de dos servidores de nivel medio son bastante comparables con la mayoría de los sistemas de almacenamiento.

Por supuesto, tal comparación no es muy correcta, porque En nuestro caso, un aumento en el número de discos afectará el rendimiento y las demoras de manera muy diferente que con un sistema de almacenamiento especializado. Pero, incluso teniendo en cuenta todas estas suposiciones, se puede decir que hace un par de años esas cifras de rendimiento solo se podían ver en un medio de almacenamiento externo con múltiples controladores o incluso en un nivel superior. Hoy esto se puede lograr con una solución hiperconvergente.

La imagen de rendimiento cambia significativamente cuando la deduplicación y las mediciones se activan con el tamaño de bloque anterior = 8k. Si simplemente habilita la deduplicación en el mismo perfil de carga, el rendimiento será inferior a 300k IOPS.

Si ejecutamos dos perfiles de carga con un bloque de 8 KB donde un perfil es 100% leído y el otro 100% escrito, a continuación se encuentran los mejores números que pudimos obtener:

Vemos excelentes resultados de lectura, especialmente si tenemos en cuenta un retraso de 12 μs. Aquí Optane realmente hace un gran trabajo como caché de lectura con algoritmos proactivos para la transferencia predictiva de datos al caché. Sí, y el grupo de almacenamiento en sí, ubicado en el SSD, también muestra muy buenos números de lectura.

Pero la velocidad de escritura es muy diferente. Aquí hay algunos factores serios:

La arquitectura de la solución, cuando los datos que caen en la memoria caché de un nodo se copian a través de la red en la memoria caché del segundo nodo.
: — , Optane. .

45%, , — , . .
SSD SSD — 3D-NAND , 3D-NAND.

OLTP- – 8k .
La desduplicación se puede habilitar en cualquier momento, pero reduce significativamente el rendimiento. La eficiencia de la deduplicación en nuestras pruebas fue del 45% con una caída del rendimiento de más del 25%.

Esto le da libertad de elección, ya sea un mayor rendimiento de almacenamiento o casi el doble de capacidad. Además, mucho dependerá del perfil de carga y la capacidad de comprimir los datos grabados.

Debido a la arquitectura de la solución, las operaciones de escritura secuencial aumentan significativamente el tiempo de respuesta.
No es en vano que Microsoft requiera que cree una solución solo sobre la base de configuraciones validadas de socios OEM; esto le permite evitar muchos problemas tanto durante la instalación inicial como durante el trabajo posterior.
Trabajar con el hardware de Fujitsu, como siempre, solo dejó una impresión positiva. Esta es una documentación sensata y muchas adiciones útiles de Infrastructure Manager: este paquete de software realmente simplifica enormemente la administración del sistema. Esto es especialmente importante al aumentar el número de nodos.
La solución PRIMEFLEX de Fujitsu incluye un conjunto de scripts que agiliza el proceso de implementación. Facilitan el inicio y la configuración en general, y los servidores Fujitsu PRIMERGY en particular.

Para aquellos que no están interesados en autoajustar la solución, existe la oportunidad de concluir un Contrato de solución técnica con Fujitsu. En este caso, los especialistas técnicos del proveedor desplegarán todo de forma llave en mano y proporcionarán más soporte.

¿Qué es Azure Stack HCI y cómo funciona?