O que é o Azure Stack HCI e como ele funciona

Olá Habr! Hoje, queremos falar sobre o que é a plataforma HCI Stack do Azure. Incluindo o que é em geral, de que hardware está montado, que software contém, como funciona e isso é tudo. Entrar!



Este é um post convidado dos caras do AltaStor. O AltaStor é um integrador de sistemas especializado em criar soluções para armazenamento de dados confiável. Graças à experiência acumulada na criação de clusters de failover e HCI, uma solução individual é selecionada para cada cliente que melhor se adequa às suas tarefas.

O que é o HCI da pilha do Azure?


Esta é uma solução hiperconvergente que combina vários produtos:

  • Hardware de um parceiro OEM certificado da Microsoft.
  • Sistema operacional do Windows Server 2019 Datacenter.
  • Software Windows Admin Center.
  • Serviços do Microsoft Azure, se necessário.

Essa solução existe no mercado há muito tempo e alguns de nossos clientes a utilizam há muito tempo e com sucesso. No entanto, eles não publicam os resultados do teste de desempenho de sua instalação. Decidimos preencher essa lacuna e falar sobre nossa experiência usando o Azure Stack HCI com um exemplo específico.
 
Para documentação e informações gerais sobre o Azure Stack HCI, clique aqui .
 

Layout do estande

 

 

Equipamento


Construir uma solução requer uma plataforma de hardware recomendada pela Microsoft. Os principais fabricantes de hardware de servidor - HPE, Dell EMC, Fujitsu, Hitachi, Lenovo etc. - desenvolveram suas configurações, testaram sua compatibilidade e certificaram-se para o Azure Stack HCI.
 
Uma lista completa de equipamentos compatíveis está disponível em .
 
Dependendo dos tipos de unidades usadas, os componentes da plataforma variam.
 
Preferimos criar essas soluções com base nos servidores Fujitsu com o sistema operacional Windows Server 2019 Datacenter pré-instalado. Esse fabricante, após a venda, oferece suporte a todo o complexo de software e hardware como uma solução completa, e não apenas ao seu hardware. Isso é importante para nós, como parceiros e para o cliente final.
 
Atualmente, a Fujitsu possui cinco configurações certificadas para diferentes tipos de unidades, modelos de servidor e número de nós. O número máximo de nós para o Azure Stack HCI é 16, o mínimo é 2, mas algumas configurações limitam a 4.
 
Todas as configurações compatíveis do Fujitsu podem ser exibidas aqui .
 
Para instalação, escolhemos a configuração mais eficiente das certificadas atualmente - Fujitsu Primergy com unidades SSD para armazenamento de dados e módulos de memória ultrarrápida Intel Optane conectados via interface NVMe como cache do sistema. Esperamos obter um array All-Flash definido por software com desempenho comparável ao armazenamento clássico com unidades SSD e cache NVMe.
 
Os sistemas de armazenamento totalmente em Flash dos líderes do setor têm configurações de tipo de mídia semelhantes. Sabemos quais IOPS e indicadores de latência podem ser obtidos na prática desses sistemas e esperamos um desempenho semelhante do Azure Stack HCI com base na configuração Fujitsu selecionada.


 
A arquitetura desta solução Fujitsu é descrita em detalhes em um documento disponível aqui .
 
Recomendamos que você se familiarize com ele antes da instalação.
 

 
O documento descreve as limitações da arquitetura, esquemas de conexão típicos e muitas outras informações úteis no estágio de implementação.
 


Comuta

 
A solução da Fujitsu usa seu próprio switch Ethernet PSWITCH. Para nós mesmos, observamos as seguintes vantagens: 
 
  • Os comutadores desta série são muito produtivos, a baixo custo.
  • Os switches são bastante simples de configurar e usar a interface do tipo CISCO. Os engenheiros não encontraram dificuldades durante a instalação.
  • Não há excessos proprietários na administração e a documentação competente está disponível.

O equipamento de comutação da Fujitsu é um dos líderes da indústria no Japão. Recentemente, tornou-se disponível no mercado russo, mas já é usado regularmente em projetos por nossos arquitetos e outros parceiros da Fujitsu. Um número limitado de modelos está disponível no momento. 
 
Saiba mais sobre os switches Fujitsu no site oficial .
 

Servidor


Dentro do servidor, os cartões de memória Intel Optane ocupam uma parte significativa do espaço. 
 



 
A Intel presta muita atenção ao desempenho sob alta demanda de calor. Por um lado, para refrigeração de qualidade máxima, grandes radiadores são usados. Por outro lado, isso limita o fluxo de ar de resfriamento dentro de todo o servidor. 
 
Esse é um dos pontos principais que são levados em consideração ao certificar a configuração - é necessário fornecer todos os cenários possíveis nos quais, devido ao resfriamento insuficiente, os servidores podem superaquecer o módulo Optane ou vice-versa.
 
Ao mudar a sala do servidor, nossos clientes mais de uma vez enfrentaram uma situação em que o sistema de ar condicionado ainda não foi colocado em operação. Portanto, decidimos verificar o quão exigente é essa instalação para o sistema de refrigeração e medir a vida útil da plataforma sob carga fora da sala de servidores refrigerada.  
 
Os testes foram realizados em temperatura ambiente, mas não encontramos limitações térmicas, diminuição no desempenho ou aparecimento de erros devido ao superaquecimento. Vimos por nossa própria experiência que os servidores testados suportam a capacidade de trabalho declarada a uma temperatura ambiente de até +45 graus Celsius. 
 
Nota.Esse experimento não deve ser tomado como uma recomendação para abandonar o uso de salas de servidores especiais com ventilação de alta qualidade. Ao escolher um fornecedor de soluções de hardware, preste atenção ao pacote de temperatura máxima.
 

Montagem da plataforma de hardware

 
Vista frontal: Vista
 

 
traseira:
 

 
Apenas um interruptor foi usado no teste. Para uso comercial, sempre recomendamos que você reserve caminhos de acesso usando pelo menos dois comutadores. De acordo com nossas estatísticas, a falha de hardware mais comum nos clusters é uma quebra acidental de cabos ou um contato quebrado no conector. 
 
O Fujitsu RX1330 foi usado como servidor com software de controle. Ele também recebeu as funções de um servidor árbitro e quorum.
 

Implantação de Cluster

 
O primeiro estágio consistiu na instalação física de componentes de hardware, na conexão de cabos de interface etc. Isto foi seguido pela configuração do software, como O sistema operacional já está pré-instalado. Implantamos o Storage Space Direct em cada servidor e construímos um cluster de 2 nós e um árbitro.
 
Em seguida, usamos o utilitário Fujitsu Infrastructure Manager, uma extensão do Windows Admin Center que se integra ao hardware do servidor Fujitsu e contém todas as ferramentas de gerenciamento do Azure, como:

  • O Azure Site Recovery fornece alta disponibilidade e recuperação de desastre como um serviço (DRaaS).
  • O Azure Monitor é um site centralizado para monitorar a operação de aplicativos, redes e infraestrutura com análises aprofundadas baseadas em IA.
  • «-» Azure .
  • Azure Backup , -.
  • « Azure» Windows, Azure .
  • Azure Azure VPN- « — ».
  • « Azure» . 

A extensão permite automatizar várias tarefas que também podem ser executadas diretamente no Centro de administração.

Reuniu Conjunto de Armazenamento, criou Volumes nele. Esses volumes são posteriormente máquinas virtuais localizadas para as quais realizamos testes de desempenho. Tanto os volumes quanto as máquinas virtuais são convenientemente gerenciados a partir de uma única janela.
 

 
Por meio do Fujitsu Infrastructure Manager, também é conveniente fazer muitas coisas sobre manutenção agendada e atualizações de microcódigo. O status de todos os equipamentos é exibido claramente, muito pode ser automatizado.
 

 
Existem duas versões do utilitário Fujitsu Infrastructure Manager - pagas e gratuitas:
 
  • Livre. Disponível para download no site do fabricante, é suficiente para o gerenciamento de servidores.
  • . Microsoft Azure HCI — Windows Server .

Para uma profunda integração do Primergy com o Microsoft Azure Stack HCI, você precisa de um plug-in de gerenciamento de servidor do Windows Server, disponível apenas na versão paga. Portanto, a solução PRUEFLEX para sistema integrado FUJITSU para pilha do Microsoft Azure HCI faz parte dela. 
 
Quanto mais instalação você tiver, mais valiosa será a automação que o utilitário fornece.
Existem apenas 2 nós em nosso estande e poderíamos fazer todo o trabalho manualmente. Se você tiver 4 nós ou mais, o software reduzirá significativamente seus esforços de instalação e administração. O custo da concessionária é inferior a 1% do projeto, mas acelera significativamente o comissionamento do equipamento.
 
Para o Windows Admin Center, a Fujitsu Infrastructure Manager Orchestra é um pacote de expansão:
 

 
A mesma captura de tela mostra a composição do subsistema de disco do servidor: dois módulos Optane são usados ​​como uma extensão de cache e cinco discos SSD como um pool de armazenamento de camada 1.
 

Pontos importantes


Ao criar uma solução, há várias nuances que devem ser lembradas:
 
Você pode gerenciar o Microsoft Azure Stack HCI de duas maneiras - por meio do Windows Admin Center ou do Fujitsu Infrastructure Manager. 
 
O Admin Center também tem suas vantagens - você pode implantá-lo em qualquer coisa, mesmo em um laptop; existe a capacidade de controlar a partir da linha de comando. Com isso, o administrador pode fazer quase tudo. 
 
Há também o Gerenciador de Cluster - uma ferramenta indispensável para qualquer problema com o cluster. 
 
Ao implantar o Witness (servidor de quorum), é importante adicioná-lo ao Active Directory e verificar sua disponibilidade em todos os nós. Os requisitos para esta tarefa são mínimos e podem ser colocados em qualquer servidor base.

 
Do ponto de vista do Windows Server, existem três tipos de dispositivos de disco - NVMe, SSD e HDD. A lógica do trabalho é a seguinte: os dispositivos NVMe são o cache de leitura / gravação; o SSD é o nível de armazenamento de camada 1; HDD - Nível 2 de armazenamento. Em seguida, você pode configurar políticas para mover dados entre conjuntos. NVDIMMs também podem ser usados ​​como cache.
 
O tamanho padrão do bloco para rasgar é 4K, mas pode variar dependendo do tipo de sistema de arquivos na máquina virtual. Isso afetará posteriormente o desempenho.
 
Como usamos os módulos NVMe como cache, a velocidade de leitura e gravação de dados será muito diferente - isso será claramente observado nos testes de desempenho:
 
  • ( ), SSD (Tier-1, ).
  • NVMe , , . .

Antes de criar um cluster, a validação e todos os testes no Gerenciador de Cluster de Failover devem ser concluídos. O relatório precisa ser salvo, pois sem ele não será possível abrir uma chamada de serviço no suporte da Microsoft, se necessário.
 
Ao adicionar novos nós a um cluster existente, os nós serão automaticamente adicionados ao pool de armazenamento. Após 15 minutos, o cluster reconstruirá, reconstruirá e equilibrará automaticamente o pool de armazenamento. Isso pode afetar o desempenho durante a reconstrução.
 

Testes de performance


Agora vamos para a parte mais interessante - teste de carga.
 
Testando a configuração:
 
  • dois servidores Fujitsu PRIMERGY RX2540 montados em um cluster;
  • cada servidor possui dois módulos de memória de classe de armazenamento Intel Optane instalados, usados ​​para expandir o cache de leitura / gravação;
  • SSD, ,
  • erasure coding ( RAID-5).

Na verdade, é um sistema de armazenamento definido por software que executa o Windows Server 2019 Azure Stack HCI.
 
Iniciamos o primeiro teste com 12 máquinas virtuais em execução nos dois nós. O perfil de carregamento de leitura / gravação é 70:30, tamanho do bloco = 8k. O tamanho do bloco foi escolhido com base no fato de que os bancos de dados transacionais mais modernos e as cargas OLTP usam exatamente esse tamanho de bloco e aproximadamente a mesma proporção de leitura / gravação.
 

 
O desempenho do cluster em estado estacionário é de 428k IOPS com um atraso de 0,487 ms. Esse é um resultado realmente digno, que é bastante comparável ao que você pode obter em um sistema de armazenamento all-flash especializado de muitos fabricantes. 
 
Testes independentes com um perfil de carga semelhante são fornecidos no recurso spcresults.org - este é o teste SPC-1. A diferença com a nossa configuração é apenas no tamanho do bloco - é 4k.
 
Se simplificarmos significativamente a metodologia de comparação dos resultados, podemos dividir em dois indicadores IOPS obtidos para sistemas de armazenamento totalmente flash e compará-los com os valores que recebemos no mesmo tempo de resposta. Os resultados obtidos em nosso cluster de dois servidores de nível médio são bastante comparáveis ​​com a maioria dos sistemas de armazenamento. 

Obviamente, essa comparação não é muito correta, porque no nosso caso, um aumento no número de discos afetará o desempenho e atrasará de maneira bastante diferente do que com um sistema de armazenamento especializado. Mas, mesmo levando em conta todas essas suposições, pode-se dizer que, há alguns anos, esses números de desempenho só podiam ser vistos em um sistema de armazenamento externo com vários controladores de nível médio ou até mais alto. Hoje, isso é possível em uma solução hiperconvergente.
 
A imagem do desempenho muda significativamente quando a desduplicação e as medições são ativadas com o tamanho do bloco anterior = 8k. Se você simplesmente ativar a desduplicação no mesmo perfil de carregamento, o desempenho será menor que 300k IOPS. 

Se executarmos dois perfis de carga com um bloco de 8 KB, em que um perfil é 100% de leitura e o outro 100% de gravação, abaixo estão os melhores números que conseguimos obter:
 

 
Vemos excelentes resultados de leitura, especialmente se considerarmos um atraso de 12 μs. Aqui o Optane realmente funciona muito bem como um cache de leitura com algoritmos proativos para transferência de dados preditiva para o cache. Sim, e o próprio pool de armazenamento, localizado no SSD, também mostra números de leitura muito bons.
 
Mas a velocidade de gravação é muito diferente. Aqui estão alguns fatores sérios:

  • A arquitetura da solução, quando os dados que caem no cache de um nó são copiados pela rede para o cache do segundo nó.
  • : — , Optane. .

    45%, , — , . .
  • SSD SSD — 3D-NAND , 3D-NAND.


  • OLTP- – 8k .  
  • A desduplicação pode ser ativada a qualquer momento, mas reduz significativamente o desempenho. A eficiência da desduplicação em nossos testes foi de 45%, com uma queda de desempenho superior a 25%. 

Isso oferece liberdade de escolha - maior desempenho de armazenamento ou quase o dobro da capacidade. Além disso, muito dependerá do perfil de carga e da capacidade de compactar os dados gravados.

  • Devido à arquitetura da solução, as operações de gravação seqüencial aumentam significativamente o tempo de resposta. 
  • Não é à toa que a Microsoft exige que você construa uma solução apenas com base em configurações validadas de parceiros OEM - isso permite evitar muitos problemas durante a instalação inicial e durante trabalhos posteriores.
  • Trabalhar com o hardware da Fujitsu, como sempre, deixou apenas uma impressão positiva. Esta é uma documentação sensata e muitas adições úteis do Infrastructure Manager - este pacote de software realmente simplifica bastante o gerenciamento do sistema. Isso é especialmente importante ao aumentar o número de nós.
  • A solução PRIMEFLEX da Fujitsu inclui um conjunto de scripts que acelera o processo de implantação. Eles facilitam o início e a configuração em geral, e os servidores Fujitsu PRIMERGY em particular.


 
Para aqueles que não estão interessados ​​em ajustar a solução automaticamente, há a oportunidade de concluir um contrato de solução técnica com a Fujitsu. Nesse caso, os especialistas técnicos do fornecedor implantarão tudo em uma base chave na mão e fornecerão suporte adicional.

All Articles