📮 🏼 👩🏼‍🎨 Pourquoi l'hyperconvergence? Présentation et tests de Cisco HyperFlex 👨🏻‍🌾 👨🏿‍🌾 😀

En informatique, l'essentiel est trois lettres

La tâche de toute infrastructure informatique est de fournir une plate-forme fiable pour les processus commerciaux de l'entreprise. On estime traditionnellement que la qualité de l'infrastructure des technologies de l'information est évaluée selon trois paramètres principaux: accessibilité, sécurité, fiabilité. Cependant, l'évaluation de ce triple n'est en aucun cas liée à l'entreprise et aux revenus / pertes directs de l'entreprise.

Trois lettres principales régissent l'informatique. Si les lettres «RUB» ne se trouvent pas en tête de la hiérarchie informatique, alors vous construisez votre infrastructure informatique de manière incorrecte. Bien sûr, il est difficile de construire directement l'informatique, à partir uniquement des revenus / dépenses, il existe donc une hiérarchie de «trois lettres» - des plus importantes aux plus privées. SLA, RPO, RTO, GRC - tout cela est connu des experts de l'industrie et a longtemps été utilisé dans la construction d'infrastructures. Malheureusement, ne pas toujours lier ces indicateurs dans une hiérarchie de bout en bout.

De nombreuses entreprises construisent aujourd'hui des infrastructures pour l'avenir en utilisant la technologie d'hier sur l'architecture d'hier. Et en même temps, l'accélération du développement de l'informatique montre que les services modernes changent fondamentalement non seulement les entreprises mais aussi la société - les gens de l'ère numérique sont habitués au fait que quelques secondes suffisent pour accéder à n'importe quelle information. L'informatique issue d'une technologie incompréhensible est devenue monnaie courante pour les masses, comme les hamburgers ou les cafés. Cela a ajouté de nouvelles lettres extrêmement importantes à l'informatique. Ces lettres - TTM (Time to market) - la veille du lancement d'un service productif sur le marché.

Sds

D'un autre côté, un kraken est sorti des profondeurs de la technologie, retournant l'informatique et le style de vie traditionnels. Avec l'augmentation de la puissance de calcul des processeurs x86, les systèmes de stockage de logiciels sont devenus le premier tentacule. Les systèmes de stockage classiques étaient des pièces de fer très spécifiques remplies de «silicium personnalisé», divers accélérateurs matériels propriétaires et des logiciels spécialisés. Et il était administré par une personne spécialement formée qui était pratiquement adorée dans l'entreprise en tant que prêtre d'un culte obscur. Élargir le système de stockage opérant dans l'entreprise était tout un projet, avec beaucoup de calculs et d'approbations - après tout, c'est cher!

Le coût élevé et la complexité ont stimulé la création de systèmes de stockage de logiciels en plus du matériel x86 habituel avec un système d'exploitation général commun - Windows, Linux, FreeBSD ou Solaris. Seuls les logiciels restaient du matériel personnalisé complexe, ne fonctionnant même pas dans le noyau, mais au niveau de l'utilisateur. Les premiers systèmes logiciels étaient bien sûr assez simples et limités en fonctionnalités, il s'agissait souvent de solutions de niche spécialisées, mais le temps passait. Et maintenant, même les grands fournisseurs de systèmes de stockage ont commencé à abandonner les solutions matérielles spécialisées - le TTM pour de tels systèmes ne pouvait plus résister à la concurrence, et le coût de l'erreur est devenu très élevé. En fait, à de rares exceptions près, même les systèmes de stockage classiques d'ici 2020 sont devenus les serveurs x86 les plus courants, juste avec de belles muselières en plastique et un tas d'étagères de disque.

Le deuxième tentacule du kraken qui approche est l'apparition et l'adoption massive par le marché de la technologie de mémoire flash, qui est devenue un pilier en béton brisant le dos d'un éléphant.
Les performances des disques magnétiques n'ont pas changé depuis de nombreuses années et les processeurs des contrôleurs de stockage ont complètement géré des centaines de disques. Mais hélas, la quantité se transformera tôt ou tard en qualité - et le système de stockage est déjà à un niveau moyen, sans parler du niveau initial, il a une limite supérieure sur le nombre significatif de lecteurs flash. Avec une certaine quantité (littéralement à partir de dix disques), les performances du système ne cessent de croître, mais elles peuvent également commencer à baisser en raison de la nécessité de traiter un volume toujours plus important. Après tout, la puissance de traitement et le débit des contrôleurs ne changent pas avec l'augmentation de la capacité. La solution, en théorie, était l'émergence de systèmes évolutifs qui peuvent assembler de nombreuses étagères indépendantes avec des disques et des ressources de processeur en un seul cluster qui regarde de l'extérieur comme un système de stockage multi-contrôleur unique. Il ne restait qu'un pas.

Hyper convergence

L'étape la plus évidente vers l'avenir a été l'unification de points de stockage et de traitement des données auparavant disparates. En d'autres termes, pourquoi ne pas implémenter le stockage distribué non pas sur des serveurs séparés, mais directement sur les hôtes de virtualisation, refusant ainsi un réseau de stockage spécial et du matériel dédié, et donc combinant des fonctions. Le kraken s'est réveillé.
Mais permettez-moi de dire, vous voyez, parce que la combinaison est la convergence. D'où vient ce stupide préfixe hyper?

. + + . . , “ ”.
…
, , , . — SDS.

:

— , , , /. .
Système convergé - le tout à partir d'une seule source, d'un seul support, d'un seul numéro de partenaire. À ne pas confondre avec l'auto-assemblage d'un fournisseur.

Et il s'avère que le terme de notre architecture convergente est déjà pris. Exactement la même situation qu'avec le superviseur.

Système hyperconvergé - Un système convergé avec une architecture convergente.

Les définitions sont extraites de l'article « Théorie générale et archéologie de la virtualisation », dans l'écriture duquel j'ai pris une part vivante.

Qu'est-ce qui donne l'approche hyperconvergée dans l'application aux trois lettres mentionnées?

Commencez avec un volume minimum (et un coût minimum)
La capacité de stockage augmente avec la puissance de calcul
Chaque nœud du système est son contrôleur - et le problème du «plafond de verre» est supprimé (les disques le peuvent, mais le contrôleur n'existe plus)
Gestion du stockage considérablement simplifiée

Pour le dernier paragraphe, les systèmes hyperconvergés sont très détestés par les administrateurs de stockage à l'ancienne mode qui sont utilisés pour administrer les files d'attente sur les ports Fibre Channel. L'espace est alloué en quelques clics de souris depuis la console de gestion de l'infrastructure virtuelle.

En d'autres termes, seuls les nuages sont plus rapides que les systèmes hyperconvergés lors du lancement d'un produit, mais les nuages ne conviennent pas à tout le monde et / ou pas toujours.

Si vous êtes un administrateur technicien et lisez-le jusqu'ici - réjouissez-vous, les mots généraux sont terminés et maintenant je vais vous parler de ma vision personnelle du système Cisco Hyperflex, que j'ai obtenue avec des pattes tenaces pour effectuer divers tests sur celui-ci.

Cisco Hyperflex

Pourquoi Cisco

Cisco est principalement connu comme le fournisseur dominant sur le marché des équipements de réseau, mais en même temps, il est assez largement présent dans d'autres segments du marché des centres de données, offrant à la fois des solutions serveur et hyperconvergées, ainsi que des systèmes d'automatisation et de contrôle.

Étonnamment, d'ici 2020, il y a encore du monde: «Serveurs Cisco? Et de qui les prend-elle? »
Cisco a commencé à traiter avec des serveurs dès 2009, choisissant à cette époque la voie des solutions lames en pleine croissance. L'idée de Cisco était de mettre en œuvre l'approche des calculatrices anonymes. Le résultat a été un système UCS (Unified Computing System) composé de deux commutateurs spécialisés (ils s'appelaient Fabric Interconnect), et de 1 à 20 châssis (8 lames demi-taille) ou jusqu'à 160 serveurs. Dans le même temps, le châssis est devenu généralement stupide avec un morceau de fer alimenté, toute la logique et la commutation sont effectuées dans Fabric Interconnect; le châssis est juste un moyen d'héberger des serveurs et de les connecter au système. Fabric Interconnect est entièrement responsable de toutes les interactions du serveur avec le monde extérieur - Ethernet, FC et gestion. Il semblerait que les lames et les lames, ce qui est là, sauf pour la commutation externe, et pas comme tout le monde dans le châssis.

Un moment clé dans la mise en place de ces mêmes «calculatrices anonymes». Dans le cadre du concept Cisco UCS, les serveurs n'ont pas de personnalité autre qu'un numéro de série. Ni MAC, ni WWN, ni rien d'autre. Le système de gestion UCS alimenté par Fabric Interconnect est basé sur des profils de serveur et des modèles. Après avoir connecté un ensemble de serveurs dans le châssis, ils doivent se voir attribuer un profil approprié, dans lequel toutes les adresses et identifiants d'identification sont définis. Bien sûr, si vous n'avez qu'une douzaine de serveurs, le jeu n'en vaut pas la peine. Mais quand il y en a au moins deux, voire trois douzaines, c'est un sérieux avantage. Il devient facile et rapide de migrer des configurations ou, plus important encore, de répliquer les configurations de serveurs en quantité appropriée, d'appliquer immédiatement les modifications à un grand nombre de serveurs,gérer essentiellement un ensemble de serveurs (par exemple, une batterie de serveurs de virtualisation) comme une entité unique. L'approche proposée dans le système UCS permet, avec la bonne approche, de simplifier sérieusement la vie des administrateurs, d'augmenter la flexibilité et de réduire considérablement les risques, de sorte que les lames UCS littéralement en 2-3 ans sont devenues la plate-forme de lame la plus vendue dans l'hémisphère occidental, et aujourd'hui elles sont mondiales l'une des deux plates-formes dominantes, avec HPE.

Il est rapidement devenu clair que la même approche basée sur une usine universelle avec une gestion intégrée basée sur des politiques et des modèles est pleinement demandée et s'applique non seulement aux serveurs lames, mais également aux serveurs en rack. Et dans ce sens, les serveurs Cisco montés en rack connectés à Fabric Interconnect bénéficient des mêmes avantages qui rendent les serveurs lames si populaires.

Aujourd'hui, je vais parler d'HyperFlex, une solution hyperconvergée Cisco basée sur des serveurs montés en rack connectés à Fabric Interconnect. Ce qui rend HyperFlex intéressant et mérite d'être considéré dans la revue:

Cisco , , «» – , HyperFlex; , , , HyperFlex ;
– ; HyperFlex , , ; , .
« » — « », , ;
Fabric Interconnect Cisco -, SAN , native FC;
“” – , , ;
Cisco , , , ;
, , Cisco HCI, , HyperFlex , , .

HyperFlex est un véritable système hyperconvergé avec des VM de contrôleur dédiées. Permettez-moi de vous rappeler que le principal avantage d'une telle architecture est sa portabilité potentielle pour différents hyperviseurs. Aujourd'hui, Cisco a implémenté la prise en charge de VMware ESXi et Microsoft Hyper-V, mais il est possible qu'une des options KVM apparaisse à mesure que sa popularité augmente dans le segment des entreprises.

Considérons le mécanisme de travail sur l'exemple d'ESXi.

Les périphériques utilisant la technologie VM_DIRECT_PATH - disque de cache et disques de niveau de stockage - sont directement envoyés à la machine virtuelle du contrôleur (ci-après CVM). Par conséquent, nous excluons l'effet de la pile de disques de l'hyperviseur sur les performances. Des paquets VIB supplémentaires sont installés dans l'hyperviseur lui-même:

Visière IO: fournit le point de montage de la banque de données NFS pour l'hyperviseur
VAAI: VMware API « »

Les blocs de disques virtuels sont répartis uniformément sur tous les hôtes d'un cluster avec une granularité relativement faible. Lorsque la machine virtuelle sur l'hôte effectue certaines opérations sur le disque, via la pile de disques de l'hyperviseur, l'opération va au magasin de données, puis à IO Visor, puis elle se tourne vers le CVM responsable de ces blocs. Dans ce cas, CVM peut être situé sur n'importe quel hôte du cluster. Compte tenu des ressources très limitées d'IO Visor, il n'y a bien sûr pas de tables de métadonnées et le choix est déterminé mathématiquement. Ensuite, le CVM auquel la demande est parvenue la traite. Dans le cas de la lecture, il envoie des données soit depuis l'un des niveaux de cache (RAM, cache d'écriture, cache de lecture) soit depuis les disques de son hôte. Dans le cas d'un enregistrement, il écrit dans le journal local et duplique l'opération pour un (RF2) ou deux (RF3) CVM.

Peut-être que cela suffit pour comprendre le principe du travail dans le cadre de cette publication, sinon je prendrai du pain auprès des formateurs Cisco et j'aurai honte. Pas vraiment, mais encore assez.

Question sur les tests synthétiques

- Navigateur, électroménagers!
- 36!
- Qu'est-ce que 36?
- Et les appareils?

Aujourd'hui, quelque chose comme ça ressemble à la plupart des tests synthétiques des systèmes de stockage. Pourquoi donc?

Jusqu'à relativement récemment, la plupart des systèmes de stockage étaient plats avec un accès uniforme. Qu'est-ce que ça veut dire?

L'espace disque total disponible a été collecté à partir de disques ayant les mêmes caractéristiques. Par exemple, 300 disques de 15k. Et la performance était la même dans tout l'espace. Avec l'avènement de la technologie de stockage hiérarchisé, les systèmes de stockage sont devenus non stables - les performances varient au sein d'un même espace disque. Et ce n'est pas seulement différent, mais aussi imprévisible, selon les algorithmes et les capacités d'un modèle de stockage particulier.

Et tout ne serait pas aussi intéressant si les systèmes hyperconvergés avec localisation des données n'apparaissaient pas. En plus de l'inégalité de l'espace disque lui-même (fatigues, caches flash), il y a également un accès inégal à celui-ci - selon que l'une des copies de données se trouve sur les disques locaux du nœud ou qu'elle doit être accessible via le réseau. Tout cela conduit au fait que le nombre de tests synthétiques peut être absolument nul et ne pas parler de quoi que ce soit pratiquement significatif. Par exemple, la consommation de carburant d'une voiture selon une brochure publicitaire que vous ne pourrez jamais atteindre dans la vraie vie.

Question sur le dimensionnement

Le revers des numéros de test synthétiques était les numéros de taille et les spécifications sous le clavier de prévente. Les préventes dans ce cas sont divisées en deux catégories - certaines martèlent stupidement vos savoirs traditionnels dans le configurateur du fournisseur, et le second les prendra eux-mêmes, car ils comprennent comment cela fonctionne. Mais avec le second, vous devrez considérer en détail ce que vous avez écrit dans votre savoir traditionnel.

Comme vous le savez, sans savoir traditionnel - le résultat de HZ.

Par expérience pratique - lors du dimensionnement d'un système hyperconvergé plutôt lourd dans une compétition avec l'un des clients, j'ai personnellement, après le pilote, pris les indicateurs de charge du système et les ai comparés avec ce qui était écrit dans le TOR. Il s'est avéré comme dans une blague:

- Rabinovich, est-il vrai que vous avez gagné un million à la loterie?
- Oh, qui vous a dit ça? Pas un million, mais dix roubles, pas à la loterie, mais de préférence, et n'a pas gagné, mais perdu.

En d'autres termes, la situation GIGO classique - Garbage In Garbage Out - Garbage input = Garbage in the output.

Le dimensionnement applicable pratique pour l'hyperconvergence est presque garanti de deux types: prenez-nous avec une marge, ou pendant longtemps nous conduirons un pilote et prendrons des indicateurs.

Il y a un autre point avec le dimensionnement et l'évaluation des spécifications. Différents systèmes sont construits différemment et fonctionnent différemment avec les disques; leurs contrôleurs interagissent différemment. Par conséquent, il est pratiquement inutile de comparer «tête-à-tête» selon les spécifications le nombre et le volume de disques. Vous disposez d'une sorte de savoirs traditionnels au sein desquels vous comprenez le niveau de charge. Et puis il y a un certain nombre de boîtes de vitesses, dans lesquelles on vous propose différents systèmes qui répondent aux exigences de performance et de fiabilité. Quelle est la différence fondamentale, combien coûte un disque et quel type dans le système 1, et que dans le système 2, il y en a plus / moins si les deux réussissent à exécuter la tâche.

Étant donné que les performances sont souvent déterminées par des contrôleurs vivant sur les mêmes hôtes que les machines virtuelles, pour certains types de charges, elles peuvent nager de manière assez significative simplement parce que les processeurs de fréquences différentes sont situés dans des clusters différents, toutes choses étant égales par ailleurs.

En d'autres termes, même l'architecte-archimage de prévente le plus expérimenté ne vous dira pas les spécifications plus précisément que vous formulez les exigences, et plus précisément, que «bien, quelque part SAM-VOSEM» sans projets pilotes.

À propos des instantanés

HyperFlex peut effectuer ses instantanés natifs de machines virtuelles à l'aide de la technologie de redirection sur écriture. Et ici il faut s'arrêter séparément pour considérer différentes technologies de snapshots.
Initialement, il y avait des instantanés du type Copie sur écriture (CoW), et les instantanés natifs de VMware vSphere peuvent être pris comme exemple classique. Le principe de fonctionnement est le même avec vmdk au-dessus de VMFS ou NFS, qui avec des systèmes de fichiers natifs tels que VSAN. Après avoir créé un instantané CoW, les données d'origine (blocs ou fichiers vmdk) sont figées et lorsque vous essayez d'écrire dans des blocs figés, une copie est créée et les données sont écrites dans un nouveau bloc / fichier (fichier delta pour vmdk). Par conséquent, au fur et à mesure que l'arborescence de clichés se développe, le nombre d'accès au disque «parasites» qui n'ont aucune signification productive augmente, etles baisses / retards de performances augmentent .

Ensuite, des instantanés de redirection sur écriture (RoW) ont été inventés, dans lesquels au lieu de créer des copies de blocs avec des données, une copie des métadonnées est créée, et l'enregistrement se poursuit simplement sans retards et lectures et vérifications supplémentaires. Avec une implémentation correcte des instantanés RoW, l'effet sur les performances du système de disques est presque nul. Le deuxième effet du travail avec des métadonnées au lieu des données en direct elles-mêmes n'est pas seulement la création instantanée de clichés, mais aussi les clones de VM, qui immédiatement après la création ne prennent pas du tout d'espace (nous ne considérons pas la surcharge système pour les fichiers de service VM).

Et le troisième point clé qui distingue radicalement RoW des instantanés CoW pour les systèmes productifs est la suppression instantanée des instantanés. Il semblerait que ce soit le cas? Cependant, vous devez vous rappeler comment fonctionnent les instantanés CoW et que la suppression d'un instantané n'est pas vraiment une suppression delta, mais sa validation. Et ici, le moment de son commit dépend extrêmement de la taille du delta accumulé et des performances du système de disque. Les instantanés RoW sont validés instantanément simplement parce que peu importe le nombre de téraoctets de différence accumulés, la suppression (validation) des instantanés RoW est une mise à jour de la table de métadonnées.

Et ici, une application intéressante d'instantanés RoW apparaît - déposez le RPO à des valeurs de dizaines de minutes. Faire des sauvegardes toutes les 30 minutes est presque impossible dans le cas général, et dans la plupart des cas, elles sont effectuées une fois par jour, ce qui donne un RPO de 24 heures. Mais en même temps, nous pouvons simplement créer des instantanés RoW selon un calendrier, ce qui porte le RPO à 15-30 minutes et les stocker pendant un jour ou deux. Aucune pénalité pour les performances, dépense uniquement la capacité.

Mais il y a quelques nuances.

Pour le bon fonctionnement des instantanés natifs et l'intégration avec VMware, HyperFlex nécessite un instantané officiel appelé Sentinel. Le snapshot Sentinel est créé automatiquement lorsque vous créez pour la première fois un snapshot pour une VM donnée via HXConnect, et vous ne devez pas le supprimer, vous ne devez pas y "revenir", il vous suffit de supporter le fait que dans l'interface de la liste des snapshots, il s'agit du premier snapshot de service de Sentinel.

Les instantanés HyperFlex peuvent s'exécuter en mode cohérent avec les pannes ou en mode cohérent avec les applications. Le second type implique le "vidage des tampons" à l'intérieur de la machine virtuelle, il nécessite VMTools et il démarre si la case "Quiesce" est cochée dans le menu d'instantanés HXConnect.
En plus des instantanés HyperFlex, personne n'interdit l'utilisation d'instantanés VMware «natifs». Il est utile pour une machine virtuelle spécifique de déterminer les instantanés que vous utiliserez et, à l'avenir, de vous concentrer sur cette technologie, en ne «dérangeant» pas différents instantanés pour une machine virtuelle.

Dans le cadre du test, j'ai essayé de créer des instantanés et de vérifier leur FIO. Et pourtant, oui, je peux confirmer que les instantanés sont vraiment RoW, ils n'affectent pas les performances. Les instantanés sont vraiment créés rapidement (quelques secondes en fonction du profil de charge et de la taille de l'ensemble de données), je peux donner la recommandation suivante en fonction des résultats: si votre charge a beaucoup d'opérations d'écriture aléatoires, vous devriez commencer à créer un instantané à partir de l'interface HXConnect, avec la coche «Quiesce» et avec une préliminaire la présence d'un instantané Sentinel.

Les tests

Plateforme de test

La plateforme suivante est tombée dans des pattes tenaces:

4 x C220 M4 (2630v4 10c x 2,20 GHz, 256, 800 + 6 * 960)
vSphere 6.7
HX Data Platform 4.0.2

Test de patch clair

Quel genre de test sans CrystalDisk? C'est vrai, cela ne peut pas être, les gars normaux démarrent toujours un disque cristallisé! Eh bien, si c'est nécessaire, alors c'est nécessaire.

Pour le disque Crystal, une machine virtuelle spécialement créée avec 2 vCPU 4 Go et Windows 7 à bord a été créée. Oh, et j'en ai eu marre d'y mettre des patchs, je vais vous le dire! Le test a été réalisé dans les meilleures traditions des meilleures maisons de Londres et Paris - à savoir, un seul disque virtuel suivant-suivant-finition a été ajouté sans aucune réflexion et le test a été lancé. Oui, et en passant, bien sûr, CrystalDiskMark lui-même n'est pas impliqué dans les tests, il s'agit simplement d'une interface, mais charge directement le système de disques avec le package DiskSpd bien connu inclus dans le kit.

Ce qui m'a frappé littéralement - pour une raison quelconque, tous ont sauté le choix des unités dans le coin supérieur droit. Et alle op!

Écoutez, honnêtement, je ne m'attendais pas à 75 000 IOPS et plus de 1 gigaoctet par seconde de la micromachine en mode suivant-suivant-finition!

Pour faire simple, toutes les entreprises en Russie n'ont pas des charges qui dépassent ces indicateurs au total.

D'autres tests ont été effectués à l'aide de VMware HCI Bench et Nutanix XRay, comme «idéologiquement hostiles» à HyperFlex, et en conséquence, il était prévu que nous ne ferions pas de prisonniers. Les chiffres se sont révélés extrêmement proches, de sorte que les résultats du package XRay ont été pris comme base simplement parce qu'il dispose d'un système de rapport plus pratique et de modèles de charge prêts à l'emploi.

Pour ceux qui ne font confiance à personne et veulent un contrôle total sur le processus, je vous rappelle mon article sur la construction de votre propre système pour générer la charge sur une plate-forme hyperconvergée - "Test de performance des systèmes et SDS giperkonvergentnyh de leurs propres mains "

Achtung! Uwaga! Pozor!

Tous les autres résultats et leurs interprétations sont l'opinion de l'auteur de l'article, et sont donnés par eux-mêmes dans le cadre de l'étude du système. La plupart des tests sont des synthétiques nus et ne s'appliquent qu'à la compréhension des indicateurs de limite dans des cas extrêmes et dégénérés, ce que vous n'atteindrez jamais dans la vie réelle.

Microbenchmark FourCorners

Le microtest à 4 côtés est conçu pour évaluer le système «rapidement» pour les performances théoriques ultimes et les performances de pointe des contrôleurs. L'application pratique de ce test est de vérifier le système immédiatement après le lancement pour toute erreur de configuration et d'environnement, en particulier les erreurs de réseau. Ceux. si vous utilisez régulièrement de tels systèmes, vous savez alors à quels chiffres vous devez vous attendre «si tout va bien».

Nombre final: 280k / 174k IOPS, 3,77 / 1,72 Go / s (lecture / écriture)

Comment nos contrôleurs se sont-ils comportés?

D'où on peut noter que la consommation totale de ressources pour 4 contrôleurs et 4 charges VM était de 49 cœurs de 2,2. Selon les statistiques VMware, l'utilisation CPU des contrôleurs était jusqu'à 80%, soit en fait, les performances étaient limitées par les performances des contrôleurs, et en particulier des processeurs. La vitesse des opérations séquentielles reposait spécifiquement sur la vitesse du réseau 10G.

Essayons encore. Les performances de pointe sur un petit cluster à 4 nœuds avec les processeurs de 2,2 GHz les moins rapides sont de près de 300 000 IOPS à 4U de hauteur.

La conversation «ici, nous avons 10, 20 ou même 40% plus / moins» est pratiquement dénuée de sens en raison de l'ordre des nombres. C'est comme commencer à mesurer "et je peux avoir une voiture 240, j'en ai 280" malgré le fait que la limite soit de 80.

280k / 4 nœuds donne une performance de pointe de 70k / nœud, ce qui dépasse par exemple les chiffres de la calculatrice VMware VSAN, qui suppose que le nœud AF n'émet pas plus de 46k par groupe de disques. Dans notre cas, ici, dans la terminologie VMware, il n'y a qu'un seul groupe de disques, qui s'exécute réellement à x1.8.

Effet de la taille du bloc de magasin de données

Lors de la création d'un magasin de données HyperFlex, vous pouvez choisir la taille du bloc de données - 4k ou 8k.

Qu'est-ce que cela affectera? Exécutez le même test quadrangulaire.

Si l'image est presque identique à la lecture, le dossier au contraire importe. Le test quadrangulaire utilise une charge de 8k.

Nombre total: 280k / 280k, 172-158k / 200-180k (4k 8k). Lorsque la taille du bloc correspond, + 15% des performances d'écriture sont obtenues. Si vous prévoyez une quantité d'enregistrement importante avec un petit bloc (4k) dans la charge - créez une banque de données pour cette charge particulière avec un bloc 4k, sinon utilisez 8k.

OLTP Simulator

Une image beaucoup plus proche de la réalité est donnée par un autre test. Dans ce cadre, deux générateurs sont lancés avec un profil proche d'un SGBD transactionnel et un niveau de charge de 6000 + 400 IOPS. Ici, le retard est mesuré, qui devrait rester à un niveau bas stable.

Le retard pour la charge VM était de 1,07 / 1,08 ms. Dans l'ensemble un excellent résultat, mais ajoutons un peu de chaleur!

Colocation de la base de données: haute intensité

Comment la base transactionnelle se comportera, en fonction des retards, si soudainement un voisin consécutif bruyant se forme. Eh bien, très bruyant.

Ainsi, la base OLTP sur le nœud 1 génère 4200 IOPS avec un retard de 0,85 ms. Que se passe-t-il après qu'un système DSS commence soudainement à consommer des ressources dans des opérations séquentielles?
Deux générateurs sur les nœuds 2 et 3 chargent la plate-forme à 1,18 / 1,08 Go / s, respectivement, ces 2,26 Go / s au total. Le retard sur OLTP augmente bien sûr et devient moins plat, mais la valeur moyenne reste de 1,85 ms, et la base reçoit ses 4200 IOPS sans aucun problème.

Impact de l'instantané

Le système prend séquentiellement plusieurs instantanés une fois par heure sur une base OLTP. Il n'y a rien de surprenant dans le calendrier, et de plus, c'est généralement un indicateur du fonctionnement des instantanés classiques VMware, car Nutanix XRay ne sait pas comment travailler avec des instantanés natifs, sauf le sien. Vous n'avez pas besoin d'utiliser régulièrement des instantanés vSphere, car tous les yaourts ne sont pas également utiles.

Les instantanés natifs HyperFlex fonctionnent beaucoup mieux, utilisez-les et vos cheveux deviendront doux et soyeux!

Ingestion de Big Data

Comment HyperFlex va-t-il digérer une grande quantité de données téléchargées séquentiellement? Eh bien, disons 1 To.

Le test a duré 27 minutes, y compris le clonage, le réglage et le démarrage des générateurs.

Évolutivité du débit

Maintenant, chargez progressivement l'ensemble du cluster et regardez les nombres stables. Pour commencer par la lecture aléatoire, puis l'écriture.

Nous voyons une image stable avec une diminution progressive des performances de la charge de la machine de 78k à 55-57k IOPS, avec des étagères lisses. Dans le même temps, il y a une augmentation constante des performances globales de 78 à 220k IOPS.

L'enregistrement est un peu moins lisse, mais toujours des étagères stables de 64k à 19-21k par voiture. Dans le même temps, la charge sur les contrôleurs est beaucoup plus faible. Si lors de la lecture le niveau de charge total du processeur est passé de 44 à 109, alors à l'enregistrement de 57 à 73 GHz.

Ici, vous pouvez observer l'exemple le plus simple et le plus évident des caractéristiques des systèmes hyperconvergés - le seul consommateur n'est tout simplement pas en mesure d'utiliser complètement toutes les ressources du système, et lorsque la charge est ajoutée, il n'y a pas de baisse significative des performances. La chute que nous assistons est déjà le résultat de charges synthétiques extrêmes conçues pour tout presser jusqu'à la dernière goutte, ce qui n'est presque jamais le cas dans un produit normal.

Rompre OLTP

À ce moment-là, il était devenu ennuyeux de voir à quel point HyperFlex était prévisible. Besoin urgent de casser quelque chose!

Le point rouge marque le moment où la machine virtuelle du contrôleur s'arrête sur l'un des hôtes avec une charge.

Étant donné que par défaut, la reconstruction dans HyperFlex démarre immédiatement uniquement lorsque le disque est perdu et lorsque le nœud est perdu, le délai d'expiration est de 2 heures, le moment de la reconstruction forcée est marqué d'un point vert.

login as: admin
 HyperFlex StorageController 4.0(2a)
admin@192.168.***.***'s password:
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance status
rebalanceStatus:
    percentComplete: 0
    rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance start -f
msgstr: Successfully started rebalance
params:
msgid: Successfully started rebalance
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance status
rebalanceStatus:
    percentComplete: 16
    rebalanceState: cluster_rebalance_ongoing
rebalanceEnabled: True
<b>admin@SpringpathController0VY9B6ERXT:~$</b>

Les opérations ont gelé pendant quelques secondes et se sont à nouveau poursuivies, remarquant presque la reconstruction. Il est dans un état stable lorsqu'il est loin de la surcharge du cluster.

Pourquoi Cisco 2 heures n'est-il pas un problème, alors que les concurrents ont moins de numéros? Cisco recommande fortement d'utiliser RF3 comme niveau de base de protection des données pour tout sauf les machines qui ne sont pas dommage. Vous avez décidé d'installer des correctifs ou de faire quelque chose avec l'hôte, désactivez-le. Et il y a une chance que juste à ce moment un autre hôte échoue - et alors dans le cas de RF2 tout deviendra un enjeu, et avec RF3 il y aura une copie active des données. Et oui, en effet, il est tout à fait possible de survivre 2 heures dans un accident sur RF2 jusqu'à ce que la récupération en RF3 commence.

Cassez-moi complètement!

Briser - si briser. Pleine charge. Dans ce cas, j'ai créé un test avec un profil ressemblant plus ou moins à une charge réelle (70% lu, 20% aléatoire, 8k, 6d 128q).

Devinez où CVM a été désactivé et où la reconstruction a-t-elle commencé?

Dans la situation de la reconstruction, HyperFlex a plutôt bien fonctionné, sans provoquer une baisse catastrophique des performances ou une augmentation multiple des retards, même sous charge sous les tomates mêmes. La seule chose que j'aimerais vraiment, c'est cher Cisco, faire tout de même le timeout à moins de 2 heures par défaut.

résultats

Pour conclure, je rappelle l'objectif du test: étudier le système Cisco HyperFlex aujourd'hui, sans regarder l'historique, étudier ses performances à l'aide de synthétiques et tirer des conclusions sur son applicabilité à un produit réel.

Conclusion 1 , sur les performances. Les performances sont très bonnes et vous ne ferez aucun autre commentaire ici. Étant donné que j'avais un système de la génération précédente lors du test, je peux dire exactement une chose - sur HyperFlex All Flash, vous exécuterez en capacité, en processeur, en mémoire, mais pas en disques. Sauf peut-être 1% des applications surchargées, mais vous devez mener une conversation avec elles personnellement. Les instantanés natifs RoW fonctionnent.

Conclusion 2, selon disponibilité. Le système, après avoir détecté une panne, est assez bon (sans baisse des performances parfois); Il y a une légère plainte dans le délai d'attente par défaut de 2 heures avant de démarrer la récupération (si l'hôte est perdu), mais étant donné le RF3 hautement recommandé, c'est plus tatillon. La récupération après une défaillance du disque commence immédiatement.

Conclusion 3, en prix et en comparaison avec les concurrents. Le prix du système peut varier plusieurs fois en fonction de la configuration d'un projet spécifique. Une grande partie du coût du projet sera constituée de systèmes et de logiciels d'application sous licence, qui fonctionneront au-dessus de la plate-forme d'infrastructure. Par conséquent, la seule façon de comparer avec les concurrents est de comparer des offres commerciales spécifiques qui répondent aux exigences techniques, spécifiquement pour votre entreprise pour un projet spécifique.

Conclusion finale : le système fonctionne, assez mature pour une utilisation dans le produit pour avril 2020, si les recommandations du vendeur sont lues et appliquées, plutôt que de fumer.

Pourquoi l'hyperconvergence? Présentation et tests de Cisco HyperFlex