Escalando uma rede de alta carga com a Nutanix: recursos e desafios com um caso pessoal

imagem

Devido ao fato de milhões de pessoas estarem em casa, o tráfego da Internet disparou. Mais de uma vez se manifestou o medo de que uma carga excessiva na rede possa levar ao blecaute - nacional, dentro de um país ou até global. Felizmente, esse problema ainda está sendo tratado, mas há outras dificuldades menos óbvias.

Que tipo? Agora, muitas empresas de entrega ou comércio on-line não têm tempo para processar o número vertiginoso de pedidos, estão perdendo clientes, dinheiro e reputação, inclusive porque sua infraestrutura de TI não estava pronta para um aumento múltiplo nos volumes de processamento de dados. Isso poderia ser evitado escalando rapidamente a infraestrutura de TI. Isso pode ser feito usando a infraestrutura hiperconvergente (HCI). Este artigo é dedicado a ela.

?


Nós, Platbox, processamos pagamentos de clientes (bancos, sistemas de pagamento) há cerca de sete anos. Processamos cerca de 100 milhões de transações por ano. Isso é aquisição, pagamentos via SMS, ações de diferentes empresas etc.
Com o tempo, o número de comerciantes cujos pagamentos processamos está aumentando e a carga na rede está aumentando.

O problema de escala surgiu a partir do primeiro dia de existência da empresa. A carga está aumentando - estamos comprando servidores, escalando a rede, resolvendo o problema. Então, o número de transações cresce novamente, os recursos se esgotam gradualmente, o ciclo se repete. Agora a rede consiste em um zoológico inteiro de equipamentos, variando de servidores do SuperMicro à Dell. Essa diversidade complica a manutenção da rede e aumenta o número de operações de rotina durante a manutenção.

O aumento no número de equipamentos também é um custo. Temos racks de aluguel em data centers. Pagamos pelo aluguel do espaço físico, pela eletricidade consumida pelos servidores, etc. Quanto mais servidores, mais você precisa pagar, tudo é simples. Além disso, decidimos expandir nosso espaço no SDH, além de aumentar o poder de computação dos servidores. Surgiu a questão - continuar a escalar o que já está lá, atuando nas condições da arquitetura clássica de três níveis ou introduzir algo novo.

Cerca de seis meses atrás, eles decidiram procurar outra solução que resolvesse os problemas descritos acima. Havia várias opções, escolhemos a ideal - use uma infraestrutura hiperconvergente em vez da tradicional.

O que é infraestrutura hiperconvergente (HCI)?


Aqui você precisa de uma pequena digressão na história da TI. Depois que os dados foram processados ​​nos mainframes - computadores grandes e potentes, eles foram substituídos por “servidores de arquitetura padrão” mais baratos e flexíveis, surgindo o conceito de arquitetura em três camadas e, como resultado, dividindo o centro de dados em um SAN (subsistema de armazenamento separado) , subsistema de processamento (servidores) e subsistema de transmissão de dados (parte da rede do datacenter). À medida que a TI evoluiu, surgiram novas maneiras de armazenar e processar dados e resolver problemas do usuário. HCI é a "infraestrutura para a era da" nuvem "" em TI, a rejeição da arquitetura em três camadas em favor de, por exemplo, microsserviço.

Do ponto de vista prático, em uma infraestrutura convergente clássica, um servidor, um sistema de armazenamento, equipamento de rede e uma ferramenta de virtualização são elementos separados. A infraestrutura hiperconvergente os integra, bem como todos os componentes do data center familiar em um único sistema. Às vezes, o HCI inclui componentes adicionais, por exemplo, software de backup, recursos de captura instantânea, funcionalidade de deduplicação de dados, compactação intermediária e otimização da rede de computadores.

Se uma infraestrutura convergente é primariamente baseada em hardware e um data center definido por software é frequentemente adaptado a qualquer hardware, essas duas possibilidades são combinadas em uma infraestrutura hiperconvergente. Também melhora a confiabilidade operacional, desempenho e segurança dos dados. Em geral, o HCI deve ser visto como uma rodada de evolução na infraestrutura de TI.

Após avaliar os prós e os contras, decidimos tentar a hiperconvergência, contatamos a Nutanix, obtivemos a plataforma para o teste, que foi bem-sucedido. Para o teste, obtivemos uma plataforma hiper-convergente, composta por seis nós, mas duas unidades. Economizamos eletricidade, espaço em rack, sem necessidade de comprar um servidor sem fim.

5 benefícios da infraestrutura hiperconvergente

imagem

  1. IT- – HCI, IT-«», .
  2. ;
  3. . . , . , . Nutanix , .
  4. O risco de indisponibilidade de serviços em caso de falha de um ou vários componentes devido à unificação, backup de dados e hardware é reduzido. Se o equipamento "cair repentinamente" em um data center, a reserva começará imediatamente em outro.
  5. Código de produto de código aberto - facilita uma auditoria de segurança, e o STIG (Guia de Implementação Técnica de Segurança ou conjunto de recomendações para proteger os sistemas de TI) fornece alta execução de código de segurança e resistência ao impacto dos invasores no sistema de TI.

Como escolhemos um fornecedor


Examinamos vários fornecedores de sistemas hiperconvergentes. Entre eles estão o Cisco Hyperflex, SimpliVity, HPE Hyper Converged, Fujitsu PRIMERGY CX e Nutanix. Em seguida, foram formulados os seguintes critérios de seleção:

  • Confiabilidade e segurança dos dados internos;
  • Conformidade com os requisitos de segurança PCI DSS 3.2.1;
  • Velocidade de trabalho;
  • Manutenção e suporte técnico;
  • A flexibilidade para escalar a infraestrutura na velocidade que a empresa precisa.

Como resultado, paramos na Nutanix, pois foi com essa empresa que, de fato, o mercado de HCI começou em 2012. Oferece o produto mais estável, com flexibilidade e os maiores recursos, por exemplo:

  • Uma ampla seleção de plataformas (HPE, Dell, Fujitsu, Cisco);
  • Disponibilidade de uma versão gratuita do Community Edition;
  • A liberdade de escolher um hypervisor (incluindo free - AHV).
  • Um pequeno "quantum de crescimento" (na verdade, é um servidor), que já oferece aos negócios tudo o que pode e oferece o maior: confiabilidade, segurança e novas tecnologias. Toda a funcionalidade do Nutanix, que hoje é usada pelo nível de negócios, por exemplo, VTB ou grupo Societe Generale, também está disponível para as soluções mais básicas.

Além disso, especialistas com experiência em trabalhar com a plataforma Nutanix apareceram em nossa equipe técnica. Graças a eles, sabíamos como o sistema se comportaria em situações críticas, o que é incrivelmente importante para nós, como para uma empresa de fintech.

Outro fator que influenciou a escolha da Nutanix é a disponibilidade de uma ferramenta de transição como o Nutanix Move. Permite traduzir máquinas com tempo de inatividade mínimo. Portanto, por exemplo, se houver máquinas VMware e Nutanix, o Move funcionará como um tipo de ponte. Ele pega a máquina do VMWare, a clona, ​​a implanta no Nutanix com base em instantâneos, a apaga no VMWare e a lança no nutanix. Tudo isso em segundos.

O processo de transição para a Nutanix


imagem

O principal requisito ao se mover não era violar a estabilidade do sistema, por isso era necessário mudar para uma nova plataforma com muito cuidado.

Portanto, tudo começou com o teste da plataforma de teste Nutanix, que já foi mencionada acima. Iniciamos uma série de testes implantando um ambiente de teste. Usamos o processamento, que não está em produção, e, por assim dizer, "filmamos" o Yandex-gun. Verificamos a carga, utilizamos recursos suficientes para nossos propósitos, percebemos que funcionava perfeitamente e onde a otimização era necessária.

O HCI geralmente coexiste com a infraestrutura clássica, sem exigir o abandono imediato do data center familiar. A migração para o HCI pode ser gradual, estendida e suave, tanto quanto a empresa precisar. Por exemplo, se a virtualização e um hipervisor já são usados ​​no data center da empresa, a transição para o ambiente HCI é uma migração gradual de máquinas virtuais de servidores antigos para novos: de servidores “clássicos” para servidores HCI. Este é apenas o nosso caso. Nós precisaremos transferir máquinas virtuais para outro ambiente virtual. Sempre que possível, a migração automática usando o Nutanix Move estará envolvida, alguns serviços são descritos como infraestrutura como código (IaC).

Tudo isso pode ser dividido em várias etapas:

  1. Escrevendo RoadMap.
  2. Lançamento de uma nova infraestrutura.
  3. Tradução de serviços de acordo com o RoadMap.

A implementação dessas etapas leva cerca de 2 meses.

Dificuldades e problemas de transição

Problemas, é claro, eram. A principal dificuldade reside no fato de que o processamento no momento da migração de serviços ainda precisa ser suspenso. Mas trabalhamos nesse ponto quando utilizamos a plataforma Nutanix para teste. Criamos um plano para a compra de equipamentos e a migração de serviços na fase de testes. A estrita implementação do plano aprovado é a chave para o sucesso da migração de serviços.

Em algumas empresas, em nossa experiência, as dificuldades de mudar para uma infraestrutura hiperconvergente provavelmente não são de natureza técnica, mas organizacional ou de "orçamento". Por exemplo, se um data center estiver funcionando, e não houver novas tarefas para ele, se muitos equipamentos caros tiverem sido comprados relativamente recentemente para o desenvolvimento de uma infraestrutura "clássica", será muito difícil ter uma ideia (e argumentar sua gerência ou investidores), que isso deve ser abandonado e o dinheiro gasto novamente - já na HCI.

Resultados positivos da mudança para o HCI

imagem

A qualidade do sono dos profissionais operacionais melhorou significativamente. Por quê? É simples - o armazenamento distribuído melhora a confiabilidade e a disponibilidade dos dados.

Processos de negócios e funcionários otimizados:

  • um administrador em vez de 3;
  • IT-, ;
  • .
  • .

Custos reduzidos de ferro. Sobre como e por que, foi dito acima. Simplificou o dimensionamento dos custos do data center. Na abordagem clássica, pode ser muito difícil desenvolver uma infraestrutura que esteja pronta para crescer dez vezes sem a necessidade de alterá-la total ou parcialmente. No caso da HCI, você pode começar com uma solução muito pequena, investindo gradualmente mais em infraestrutura.

Há uma oportunidade de redistribuir custos de custos de capital para operacionais , que agora estão indo para a TI em todo o mundo. Isso requer uma maneira diferente de planejar custos; caso contrário, observe coisas familiares, aprenda coisas novas, mas é para onde a indústria está indo hoje.

Para entender como é simples, apresentaremos um caso. Então, durante a maratona de caridade, tivemos uma carga de rede muito forte - muito maior que a calculada. O erro de cálculo surgiu porque a carga foi calculada a partir das estatísticas das maratonas anteriores. Não levamos em conta que mais pessoas participarão do novo, o motivo é a quarentena e o auto-isolamento. Se o problema tivesse surgido com a infraestrutura existente, as consequências teriam sido muito negativas, incluindo a desconexão dos serviços. Agora pegamos o Nutanix, graças ao qual conseguimos aumentar o cluster exatamente duas vezes. O sistema "digeriu" a carga. E tudo isso pode ser feito em apenas 15 minutos e alguns cliques do mouse.

Um pouco sobre as perspectivas de tecnologia e a escolha da HCI


Todos devem mudar para o HCI? Não, claro que não. Basicamente, a infraestrutura hiperconvergente é adequada para as empresas que possuem redes de grande escala, uma carga alta e recursos suficientes para a transição. Se uma inicialização tiver vários servidores, você não poderá alterar nada.

Mas se a empresa possui um zoológico inteiro de ferro para servidores, uma rede mal otimizada e um alto nível de custos de ferro e sua manutenção, a HCI está definitivamente lá.

Bem, o seguinte pode ser dito sobre o futuro da HCI. primeiramente, A HCI é distribuída no mundo e na Rússia na medida em que a TI está pronta para aceitar e usar novas idéias. Muitas empresas em desenvolvimento buscam novas oportunidades de desenvolvimento e crescimento, especialmente no contexto de redução dos orçamentos de TI. É provável que empresas de negócios tradicionais e conservadores cheguem à HCI mais tarde, ativas, jovens, desenvolvendo e usando novas tecnologias - antes.

Em segundo lugar , mais e mais empresas entrarão no mercado de HCI, a tecnologia se tornará mais difundida e acessível. Todos os principais fabricantes de servidores e sistemas de armazenamento já têm propostas no campo da HCI, e isso aconteceu literalmente nos últimos dois anos.

Em terceiro lugar, a idéia de "nebulosidade" será desenvolvida ainda mais, inclusive na forma de uma "nuvem híbrida", quando parte da infraestrutura será localizada no "seu" datacenter e parte será alugada conforme as necessidades.

Um exemplo são as mesmas lojas online e serviços de entrega. No caso de um salto múltiplo no tráfego, eles poderiam escalar em alguns minutos, alugando capacidades de um operador de nuvem e não "travar" o dia todo, perdendo clientes e seu dinheiro. Depois, após o declínio da demanda e a garantia do mercado, reduza a infraestrutura de volta sem sacrificar a segurança, o desempenho ou gastar dinheiro na compra do seu equipamento. Talvez no futuro, a "nuvem" e o "seu data center" sejam vinculados sem problemas. Pelo menos todas as tecnologias para isso já existem.

Quarto, os sistemas de automação para gerenciar a infraestrutura de TI começarão a se desenvolver ativamente, incluindo o uso de IA, virtualização da infraestrutura de rede do data center.

All Articles