Warum Hyperkonvergenz? Cisco HyperFlex Übersicht und Tests

In der IT sind die Hauptsache drei Buchstaben


Die Aufgabe jeder IT-Infrastruktur besteht darin, eine zuverlĂ€ssige Plattform fĂŒr die GeschĂ€ftsprozesse des Unternehmens bereitzustellen. Es wird traditionell angenommen, dass die QualitĂ€t der Informationstechnologie-Infrastruktur anhand von drei Hauptparametern bewertet wird: ZugĂ€nglichkeit, Sicherheit, ZuverlĂ€ssigkeit. Die Bewertung fĂŒr dieses Tripel hĂ€ngt jedoch in keiner Weise mit dem GeschĂ€ft und dem direkten Einkommen / Verlust des Unternehmens zusammen.

Drei Hauptbuchstaben regieren die IT. Wenn die Buchstaben „RUB“ nicht an der Spitze der IT-Hierarchie stehen, bauen Sie Ihre IT-Infrastruktur falsch auf. NatĂŒrlich ist es schwierig, die IT direkt aufzubauen, beginnend mit den Einnahmen / Ausgaben. Daher gibt es eine Hierarchie von „drei Buchstaben“ - von den wichtigsten bis zu den privateren. SLA, RPO, RTO, GRC - all dies ist Branchenexperten bekannt und wird seit langem beim Aufbau von Infrastrukturen eingesetzt. Leider werden diese Indikatoren nicht immer zu einer End-to-End-Hierarchie verknĂŒpft.



Viele Unternehmen bauen heute eine Infrastruktur fĂŒr die Zukunft mit der Technologie von gestern auf der Architektur von gestern. Gleichzeitig zeigt die beschleunigte Entwicklung der IT, dass moderne Services nicht nur das GeschĂ€ft, sondern auch die Gesellschaft grundlegend verĂ€ndern. Menschen im digitalen Zeitalter sind es gewohnt, dass einige Sekunden ausreichen, um auf Informationen zuzugreifen. IT aus einer unverstĂ€ndlichen Technologie ist fĂŒr die Massen alltĂ€glich geworden, wie zum Beispiel ein Burger oder ein CafĂ©. Dies hat der IT neue Ă€ußerst wichtige drei Buchstaben hinzugefĂŒgt. Diese Buchstaben - TTM (Time to Market) - die Zeit vor der EinfĂŒhrung eines produktiven Dienstes auf dem Markt.



Sds


Auf der anderen Seite stieg ein Kraken aus den Tiefen der Technologie auf und stellte die traditionelle IT und den Lebensstil um. Mit zunehmender Rechenleistung von x86-Prozessoren wurden Softwarespeichersysteme zum ersten Tentakel. Klassische Speichersysteme waren sehr spezielle EisenstĂŒcke, die mit „kundenspezifischem Silizium“, verschiedenen proprietĂ€ren Hardwarebeschleunigern und spezieller Software gefĂŒllt waren. Und es wurde von einer speziell ausgebildeten Person verwaltet, die in der Gesellschaft praktisch als Priester eines dunklen Kultes verehrt wurde. Die Erweiterung des im Unternehmen betriebenen Datenspeichersystems war ein ganzes Projekt mit vielen Berechnungen und Genehmigungen - schließlich ist es teuer!

Die hohen Kosten und die KomplexitĂ€t haben die Erstellung von Softwarespeichersystemen auf der ĂŒblichen x86-Hardware mit einem gemeinsamen Allzweckbetriebssystem - Windows, Linux, FreeBSD oder Solaris - vorangetrieben. Von der komplexen benutzerdefinierten Hardware blieb nur Software ĂŒbrig, die nicht einmal im Kernel, sondern auf Benutzerebene funktionierte. Die ersten Softwaresysteme waren natĂŒrlich recht einfach und in ihrer FunktionalitĂ€t eingeschrĂ€nkt, oft waren sie spezialisierte Nischenlösungen, aber die Zeit verging. Und jetzt haben sogar große Anbieter von Speichersystemen begonnen, spezielle Hardwarelösungen aufzugeben - TTM fĂŒr solche Systeme konnte der Konkurrenz nicht mehr standhalten, und die Kosten des Fehlers wurden sehr hoch. Mit seltenen Ausnahmen wurden sogar klassische Speichersysteme bis 2020 zu den am hĂ€ufigsten verwendeten x86-Servern, nur mit schönen PlastikmĂŒndungen und einer Reihe von Festplattenregalen.

Das zweite Tentakel des sich nĂ€hernden Kraken ist das Auftreten und die massive Akzeptanz der Flash-Speichertechnologie auf dem Markt, die zu einer konkreten SĂ€ule geworden ist, die einem Elefanten den RĂŒcken bricht.
Die Leistung von Magnetplatten hat sich seit vielen Jahren nicht geĂ€ndert, und die Prozessoren von Speichercontrollern haben Hunderte von Platten vollstĂ€ndig bewĂ€ltigt. Leider wird die QuantitĂ€t frĂŒher oder spĂ€ter zu QualitĂ€t - und das Speichersystem befindet sich bereits auf einem durchschnittlichen Niveau, ganz zu schweigen vom ursprĂŒnglichen, es hat eine Obergrenze fĂŒr die sinnvolle Anzahl von Flash-Laufwerken. Ab einer bestimmten Menge (buchstĂ€blich von zehn Festplatten) hört die Systemleistung nicht auf zu wachsen, sondern kann auch aufgrund der Notwendigkeit, ein immer grĂ¶ĂŸeres Volumen zu verarbeiten, abnehmen. Schließlich Ă€ndern sich die Verarbeitungsleistung und der Durchsatz der Steuerungen mit zunehmender KapazitĂ€t nicht. Theoretisch bestand die Lösung in der Entwicklung von Scale-Out-Systemen, mit denen viele unabhĂ€ngige Regale mit Festplatten und Prozessorressourcen zu einem einzigen Cluster zusammengefasst werden können, der von außen als ein einziges Speichersystem mit mehreren Controllern betrachtet wird. Es war nur noch ein Schritt ĂŒbrig.

Hyperkonvergenz


Der naheliegendste Schritt in die Zukunft war die Vereinheitlichung bisher unterschiedlicher Datenspeicherungs- und -verarbeitungspunkte. Mit anderen Worten, warum nicht verteilten Speicher nicht auf separaten Servern, sondern direkt auf den Virtualisierungshosts implementieren, wodurch ein spezielles Speichernetzwerk und dedizierte Hardware abgelehnt und somit Funktionen kombiniert werden. Der Kraken wachte auf.
Aber lassen Sie mich sagen, sehen Sie, denn Kombination ist Konvergenz. Woher kommt dieses blöde PrÀfix hyper?
. + + . . , “ ”.


, , , . — SDS.

:

  • — , , , /. .
  • Konvergiertes System - alles aus einer Quelle, einem Support, einer Partnernummer. Nicht zu verwechseln mit der Selbstorganisation eines Anbieters.

Und es stellt sich heraus, dass der Begriff fĂŒr unsere konvergierte Architektur bereits vergeben ist. Genau die gleiche Situation wie beim Vorgesetzten.

Hyperkonvergentes System - Ein konvergiertes System mit konvergierter Architektur.

Die Definitionen stammen aus dem Artikel „ Allgemeine Theorie und ArchĂ€ologie der Virtualisierung “, an dessen Schreiben ich lebhaft teilgenommen habe .

Was gibt den hyperkonvergenten Ansatz in der Anwendung fĂŒr die drei genannten Buchstaben?

  • Beginnen Sie mit einem Mindestvolumen (und minimalen Kosten)
  • Die SpeicherkapazitĂ€t wĂ€chst mit der Rechenleistung
  • Jeder Knoten des Systems ist sein Controller - und das Problem der „Glasdecke“ wird beseitigt (Festplatten können, aber der Controller existiert nicht mehr).
  • Die Speicherverwaltung wurde erheblich vereinfacht

Im letzten Absatz werden hyperkonvergierte Systeme von Speicheradministratoren im alten Modus, die zum Verwalten von Warteschlangen an Fibre Channel-Ports verwendet werden, sehr abgelehnt. Der Speicherplatz wird mit nur wenigen Mausklicks ĂŒber die Verwaltungskonsole der virtuellen Infrastruktur zugewiesen.

Mit anderen Worten, nur Clouds sind beim Starten eines Produkts schneller als hyperkonvergente Systeme, aber Clouds sind nicht fĂŒr jeden geeignet und / oder nicht immer.

Wenn Sie ein Technikfreak sind und bis hierher lesen - freuen Sie sich, die allgemeinen Worte sind beendet und jetzt erzĂ€hle ich Ihnen von meiner persönlichen Sicht auf das Cisco Hyperflex-System, das ich fĂŒr die DurchfĂŒhrung verschiedener Tests in hartnĂ€ckigen Pfoten bekam.

Cisco Hyperflex


Warum Cisco?


Cisco ist in erster Linie als der dominierende Anbieter auf dem Markt fĂŒr NetzwerkgerĂ€te bekannt. Gleichzeitig ist Cisco in anderen Segmenten des Marktes fĂŒr Rechenzentren weit verbreitet und bietet sowohl Server- als auch hyperkonvergente Lösungen sowie Automatisierungs- und Steuerungssysteme an.

Überraschenderweise gibt es bis 2020 immer noch Menschen: „Cisco-Server? Und von wem nimmt sie sie? "
Cisco begann bereits 2009 mit dem Umgang mit Servern und entschied sich zu diesem Zeitpunkt fĂŒr den Weg des aktiven Wachstums von Blade-Lösungen. Die Idee von Cisco war es, den Ansatz anonymer Taschenrechner zu implementieren. Das Ergebnis war ein UCS-System (Unified Computing System), das aus zwei spezialisierten Switches (sie wurden Fabric Interconnect genannt) und 1 bis 20 Chassis (8 Blades halber GrĂ¶ĂŸe) oder bis zu 160 Servern bestand. Zur gleichen Zeit wurde das Chassis im Allgemeinen mit einem StĂŒck Eisen mit Strom dumm, alle Logik und Umschaltung werden in Fabric Interconnect gemacht; Das Chassis ist nur eine Möglichkeit, Server zu hosten und mit dem System zu verbinden. Fabric Interconnect ist voll verantwortlich fĂŒr alle Serverinteraktionen mit der Außenwelt - Ethernet, FC und Management. Es scheint, dass die Klingen und Klingen, was da ist, außer fĂŒr externes Schalten, und nicht wie alle anderen im Chassis.

Ein entscheidender Moment bei der Implementierung derselben „anonymen Taschenrechner“. Als Teil des Cisco UCS-Konzepts haben Server keine andere Persönlichkeit als eine Seriennummer. Weder MAC noch WWN noch irgendetwas anderes. Das von Fabric Interconnect betriebene UCS-Verwaltungssystem basiert auf Serverprofilen und -vorlagen. Nach dem Verbinden eines ServerbĂŒndels im GehĂ€use muss ihnen ein geeignetes Profil zugewiesen werden, in dem alle identifizierenden Adressen und Kennungen festgelegt sind. Wenn Sie nur ein Dutzend Server haben, ist das Spiel natĂŒrlich nicht wert. Aber wenn es mindestens zwei oder sogar drei Dutzend von ihnen gibt, ist dies ein ernsthafter Vorteil. Es wird einfach und schnell, Konfigurationen zu migrieren oder, was noch wichtiger ist, Serverkonfigurationen in der richtigen Menge zu replizieren und die Änderungen sofort auf eine große Anzahl von Servern anzuwenden.Im Wesentlichen wird eine Reihe von Servern (z. B. eine Virtualisierungsfarm) als eine Einheit verwaltet. Der im UCS-System vorgeschlagene Ansatz ermöglicht es, mit dem richtigen Ansatz die Lebensdauer von Administratoren erheblich zu vereinfachen, die FlexibilitĂ€t zu erhöhen und die Risiken erheblich zu verringern. Daher sind UCS-Blades in 2-3 Jahren buchstĂ€blich zur meistverkauften Blade-Plattform in der westlichen HemisphĂ€re geworden und heute weltweit eine von zwei dominanten Plattformen, zusammen mit HPE.

Es wurde schnell klar, dass der gleiche Ansatz, der auf einer universellen Fabrik mit integrierter Verwaltung auf der Grundlage von Richtlinien und Vorlagen basiert, voll gefragt ist und nicht nur fĂŒr Blades, sondern auch fĂŒr Rack-Server gilt. In diesem Sinne bieten die mit Fabric Interconnect verbundenen Cisco Rack-Mount-Server dieselben Vorteile, die Blades so beliebt machen.

Heute werde ich ĂŒber HyperFlex sprechen, eine hyperkonvergente Cisco-Lösung, die auf Rack-Mount-Servern basiert, die mit Fabric Interconnect verbunden sind. Was macht HyperFlex interessant und erwĂ€genswert im Test:

  • Cisco , , «» – , HyperFlex; , , , HyperFlex ;
  • – ; HyperFlex , , ; , .
  • « » — « », , ;
  • Fabric Interconnect Cisco -, SAN , native FC;
  • “” – , , ;
  • Cisco , , , ;
  • , , Cisco HCI, , HyperFlex , , .


HyperFlex ist ein echtes hyperkonvergentes System mit dedizierten Controller-VMs. Ich möchte Sie daran erinnern, dass der Hauptvorteil einer solchen Architektur die potenzielle PortabilitĂ€t fĂŒr verschiedene Hypervisoren ist. Heute hat Cisco die UnterstĂŒtzung fĂŒr VMware ESXi und Microsoft Hyper-V implementiert. Es ist jedoch möglich, dass eine der KVM-Optionen mit zunehmender Beliebtheit im Unternehmenssegment angezeigt wird.

Betrachten Sie den Arbeitsmechanismus am Beispiel von ESXi.

GerĂ€te, die die VM_DIRECT_PATH-Technologie verwenden - Cache-Festplatten und Festplatten auf Speicherebene - werden direkt auf die Controller-VM (im Folgenden CVM) ĂŒbertragen. Daher schließen wir die Auswirkung des Hypervisor-Festplattenstapels auf die Leistung aus. ZusĂ€tzliche VIB-Pakete werden im Hypervisor selbst installiert:

  • E / A-Visor: Stellt den EinhĂ€ngepunkt fĂŒr den NFS-Datenspeicher fĂŒr den Hypervisor bereit
  • VAAI: VMware API « »

Virtuelle Festplattenblöcke werden mit relativ geringer GranularitĂ€t gleichmĂ€ĂŸig auf alle Hosts in einem Cluster verteilt. Wenn die VM auf dem Host eine Art von Plattenoperationen ausfĂŒhrt, geht die Operation ĂŒber den Plattenstapel des Hypervisors zum Datenspeicher, dann zu IO Visor und dann zu dem fĂŒr diese Blöcke verantwortlichen CVM. In diesem Fall kann sich CVM auf einem beliebigen Host im Cluster befinden. Angesichts der sehr begrenzten Ressourcen von IO Visor gibt es natĂŒrlich keine Metadatentabellen und die Auswahl wird mathematisch bestimmt. Als nĂ€chstes verarbeitet das CVM, von dem die Anforderung kam, sie. Beim Lesen sendet es Daten entweder von einer der Cache-Ebenen (RAM, Schreib-Cache, Lese-Cache) oder von den Festplatten seines Hosts. Bei der Aufzeichnung wird in das lokale Journal geschrieben und die Operation fĂŒr ein (RF2) oder zwei (RF3) CVM dupliziert.



Vielleicht reicht dies völlig aus, um das Prinzip der Arbeit im Rahmen dieser Veröffentlichung zu verstehen, andernfalls werde ich Cisco-Trainern Brot abnehmen und mich schÀmen. Nicht wirklich, aber immer noch genug.

Frage zu synthetischen Tests



- Navigator, GerÀte!
- 36!
- Was ist 36?
- Was ist mit GerÀten?

So etwas sieht heute aus wie die meisten synthetischen Tests von Speichersystemen. Warum so?

Bis vor relativ kurzer Zeit waren die meisten Speichersysteme flach und hatten einen einheitlichen Zugang. Was bedeutet das?

Der insgesamt verfĂŒgbare Speicherplatz wurde von DatentrĂ€gern mit denselben Eigenschaften gesammelt. Zum Beispiel 300 15k-Laufwerke. Und die Leistung war im gesamten Raum gleich. Mit dem Aufkommen der Tiered Storage-Technologie sind Speichersysteme nicht mehr flach - die Leistung variiert innerhalb eines einzelnen Speicherplatzes. Und es ist nicht nur unterschiedlich, sondern auch unvorhersehbar, abhĂ€ngig von den Algorithmen und Funktionen eines bestimmten Speichermodells.

Und alles wĂ€re nicht so interessant, wenn nicht hyperkonvergierte Systeme mit Datenlokalisierung erscheinen wĂŒrden. Neben der UngleichmĂ€ĂŸigkeit des Speicherplatzes selbst (ErmĂŒdungserscheinungen, Flash-Caches) besteht auch ein ungleichmĂ€ĂŸiger Zugriff darauf - je nachdem, ob sich eine der Datenkopien auf den lokalen DatentrĂ€gern des Knotens befindet oder ĂŒber das Netzwerk zugegriffen werden muss. All dies fĂŒhrt dazu, dass die Anzahl der synthetischen Tests absolut beliebig sein kann und ĂŒber nichts praktisch Sinnvolles spricht. Zum Beispiel den Kraftstoffverbrauch eines Autos nach einer WerbebroschĂŒre, die man im wirklichen Leben nie erreichen kann.

Frage zur Dimensionierung


Die Kehrseite der synthetischen Testnummern war die GrĂ¶ĂŸenbestimmung von Zahlen und Spezifikationen unter der Vorverkaufstastatur. Der Vorverkauf ist in diesem Fall in zwei Kategorien unterteilt - einige hĂ€mmern Ihre TK nur dumm in den Konfigurator des Anbieters, und der zweite ĂŒbernimmt sie selbst, weil sie verstehen, wie sie funktioniert. Aber mit der Sekunde mĂŒssen Sie im Detail ĂŒberlegen, was Sie in Ihrer TK geschrieben haben.

Wie Sie wissen, ohne eine klare TK - das Ergebnis von HZ.



Aus praktischer Erfahrung - als ich in einem Wettbewerb mit einem der Kunden ein ziemlich schweres hyperkonvergentes System dimensionierte, nahm ich persönlich nach dem Piloten die Lastindikatoren aus dem System und verglich sie mit dem, was im TOR geschrieben wurde. Es stellte sich wie in einem Witz heraus:
- Rabinovich, stimmt es, dass Sie eine Million in der Lotterie gewonnen haben?
- Oh, wer hat dir das gesagt? Nicht eine Million, sondern zehn Rubel, nicht in der Lotterie, sondern bevorzugt, und nicht gewonnen, sondern verloren.


Mit anderen Worten, die klassische GIGO-Situation - Garbage In Garbage Out - Garbage Inlet = Garbage in der Ausgabe.

Es gibt fast garantiert zwei Arten von praktikablen GrĂ¶ĂŸen fĂŒr die Hyperkonvergenz: Nehmen Sie uns mit einer Marge, oder wir werden fĂŒr eine lange Zeit einen Piloten fahren und Indikatoren nehmen.

Es gibt noch einen Punkt bei der Dimensionierung und Bewertung von Spezifikationen. Verschiedene Systeme sind unterschiedlich aufgebaut und arbeiten unterschiedlich mit Festplatten. Ihre Controller interagieren unterschiedlich. Daher ist es praktisch sinnlos, "Kopf an Kopf" gemĂ€ĂŸ den Spezifikationen die Anzahl und das Volumen der Festplatten zu vergleichen. Sie haben eine Art TK, innerhalb derer Sie das Lastniveau verstehen. Und dann gibt es eine bestimmte Anzahl von Getrieben, in denen Ihnen verschiedene Systeme angeboten werden, die die Anforderungen an Leistung und ZuverlĂ€ssigkeit erfĂŒllen. Was ist der grundlegende Unterschied, wie viel kostet eine Festplatte und welcher Typ in System 1, und dass es in System 2 mehr / weniger davon gibt, wenn beide die Aufgabe erfolgreich bewĂ€ltigen.

Da die Leistung hÀufig von Controllern bestimmt wird, die auf denselben Hosts wie virtuelle Maschinen arbeiten, kann sie bei einigen Arten von Lasten erheblich schwanken, da Prozessoren mit unterschiedlichen Frequenzen in unterschiedlichen Clustern stehen und alle anderen Faktoren gleich sind.

Mit anderen Worten, selbst der erfahrenste Vorverkaufsarchitekt und Erzmagier wird Ihnen die Spezifikation nicht genauer mitteilen, als Sie die Anforderungen formulieren, und zwar genauer als „na ja, irgendwo SAM-VOSEM“ ohne Pilotprojekte.



Über SchnappschĂŒsse


HyperFlex kann seine nativen Snapshots von virtuellen Maschinen mithilfe der Redirect-on-Write-Technologie erstellen. Und hier ist es notwendig, separat anzuhalten, um verschiedene Technologien von SchnappschĂŒssen zu betrachten.
AnfĂ€nglich gab es Snapshots vom Typ Copy-on-Write (CoW), und native VMware vSphere-Snapshots können als klassisches Beispiel verwendet werden. Das Funktionsprinzip ist dasselbe wie bei vmdk ĂŒber VMFS oder NFS, bei nativen Dateisystemen wie VSAN. Nach dem Erstellen eines CoW-Snapshots werden die Originaldaten (Blöcke oder VMDK-Dateien) eingefroren. Wenn Sie versuchen, in eingefrorene Blöcke zu schreiben, wird eine Kopie erstellt und die Daten werden in einen neuen Block / eine neue Datei (Delta-Datei fĂŒr VMDK) geschrieben. Infolgedessen nimmt mit zunehmendem Snapshot-Baum die Anzahl der "falschen" Festplattenzugriffe zu, die keine produktive Bedeutung haben, undLeistungsabfĂ€lle / Verzögerungen nehmen zu .

Anschließend wurden RoWect-Snapshots (Redirect-on-Write) erfunden, bei denen anstelle von Kopien von Blöcken mit Daten eine Kopie von Metadaten erstellt wird und der Datensatz ohne Verzögerungen und zusĂ€tzliche Lesungen und ÜberprĂŒfungen fortgesetzt wird. Bei korrekter Implementierung von RoW-Snapshots hat dies nahezu keinen Einfluss auf die Leistung des Festplattensystems. Der zweite Effekt der Arbeit mit Metadaten anstelle der Live-Daten selbst ist nicht nur die sofortige Erstellung von Snapshots, sondern auch von VM-Klonen, die unmittelbar nach der Erstellung ĂŒberhaupt keinen Speicherplatz beanspruchen (wir berĂŒcksichtigen den System-Overhead fĂŒr VM-Servicedateien nicht).

Und der dritte wichtige Punkt, der RoW von CoW-Snapshots fĂŒr produktive Systeme radikal unterscheidet, ist das sofortige Entfernen von Snapshots. Es scheint, dass dies so ist? Sie mĂŒssen sich jedoch daran erinnern, wie CoW-Snapshots funktionieren und dass das Entfernen eines Snapshots nicht wirklich eine Delta-Entfernung ist, sondern ein Commit. Und hier hĂ€ngt die Zeit ihres Commits stark von der GrĂ¶ĂŸe des akkumulierten Deltas und der Leistung des Festplattensystems ab. RoW-Snapshots werden sofort festgeschrieben, da das Löschen (Festschreiben) von RoW-Snapshots eine Aktualisierung der Metadatentabelle darstellt, unabhĂ€ngig davon, wie viele Terabyte Unterschied sich ansammeln.

Und hier erscheint eine interessante Anwendung von RoW-Snapshots - lassen Sie das RPO auf Werte von mehreren zehn Minuten fallen. Backups alle 30 Minuten sind im Allgemeinen fast unmöglich, und in den meisten FĂ€llen werden sie einmal am Tag durchgefĂŒhrt, was eine RPO von 24 Stunden ergibt. Gleichzeitig können wir RoW-Snapshots nach einem Zeitplan erstellen, die RPO auf 15 bis 30 Minuten bringen und fĂŒr ein oder zwei Tage speichern. Keine BeeintrĂ€chtigung der Leistung, nur KapazitĂ€ten ausgeben.

Aber es gibt einige Nuancen.

FĂŒr den ordnungsgemĂ€ĂŸen Betrieb nativer Snapshots und die Integration in VMware benötigt HyperFlex einen offiziellen Snapshot namens Sentinel. Der Sentinel-Snapshot wird automatisch erstellt, wenn Sie zum ersten Mal einen Snapshot fĂŒr eine bestimmte VM ĂŒber HXConnect erstellen. Sie sollten ihn nicht löschen. Sie sollten nicht "zurĂŒckkehren". Sie mĂŒssen sich nur damit abfinden, dass dies in der Schnittstelle in der Liste der Snapshots der erste Service-Snapshot von Sentinel ist.



HyperFlex-Snapshots können im absturzkonsistenten Modus oder im anwendungskonsistenten Modus ausgefĂŒhrt werden. Der zweite Typ umfasst das "Leeren von Puffern" in der VM, erfordert VMTools und wird gestartet, wenn das KontrollkĂ€stchen "Ruhe" im HXConnect-Snapshot-MenĂŒ aktiviert ist.
ZusĂ€tzlich zu HyperFlex-Snapshots verbietet niemand die Verwendung von "nativen" VMware-Snapshots. Es lohnt sich fĂŒr eine bestimmte virtuelle Maschine, zu bestimmen, welche Snapshots Sie verwenden werden, und sich in Zukunft auf diese Technologie zu konzentrieren, um verschiedene Snapshots fĂŒr eine VM nicht zu „stören“.

Im Rahmen des Tests habe ich versucht, SchnappschĂŒsse zu erstellen und deren FIO zu ĂŒberprĂŒfen. Und doch, ja, ich kann bestĂ€tigen, dass SchnappschĂŒsse wirklich RoW sind und die Leistung nicht beeintrĂ€chtigen. Snapshots werden wirklich schnell erstellt (einige Sekunden, abhĂ€ngig vom Lastprofil und der GrĂ¶ĂŸe des Datasets). Ich kann basierend auf den Ergebnissen die folgende Empfehlung geben: Wenn Ihre Last viele zufĂ€llige SchreibvorgĂ€nge enthĂ€lt, sollten Sie mit der Erstellung eines Snapshots ĂŒber die HXConnect-OberflĂ€che beginnen, mit dem HĂ€kchen „Quiesce“ und einem vorlĂ€ufigen das Vorhandensein eines Sentinel-Schnappschusses.

Tests


Testplattform


Die folgende Plattform fiel in zÀhe Pfoten:

  • 4 x C220 M4 (2630v4 10c x 2,20 GHz, 256, 800 + 6 * 960)
  • vSphere 6.7
  • HX Data Platform 4.0.2

Patch-Test löschen


Was fĂŒr Tests ohne CrystalDisk? Das kann nicht sein, normale Leute starten immer eine kristallisierte Scheibe! Nun, wenn es notwendig ist, dann ist es notwendig.



FĂŒr die Crystal Disk wurde eine speziell erstellte VM mit 2 vCPU 4 GB und Windows 7 an Bord erstellt. Oh, und ich habe es satt, Patches darauf anzubringen, ich werde es dir sagen! Der Test wurde in den besten Traditionen der besten HĂ€user in London und Paris durchgefĂŒhrt - nĂ€mlich wurde nur eine virtuelle Festplatte als nĂ€chstes hinzugefĂŒgt, ohne nachzudenken, und der Test wurde gestartet. Ja, und natĂŒrlich ist CrystalDiskMark selbst nicht am Testen beteiligt, sondern lediglich eine Schnittstelle, sondern lĂ€dt das Festplattensystem direkt mit dem bekannten DiskSpd-Paket, das im Kit enthalten ist.



Was mich buchstĂ€blich beeindruckt hat - aus irgendeinem Grund haben alle die Auswahl der Einheiten in der oberen rechten Ecke ĂŒbersprungen. Und alle op!



Hören Sie, ehrlich gesagt, ich habe im Next-Next-Finish-Modus nicht 75.000 IOPS und mehr als 1 Gigabyte pro Sekunde von der Mikromaschine erwartet!

Um es milde auszudrĂŒcken, nicht jedes Unternehmen in Russland hat Lasten, die diese Indikatoren insgesamt ĂŒberschreiten.

Weitere Tests wurden mit VMware HCI Bench und Nutanix XRay als „ideologisch feindlich“ gegenĂŒber HyperFlex durchgefĂŒhrt, und dementsprechend wurde erwartet, dass wir keine Gefangenen machen wĂŒrden. Die Zahlen erwiesen sich als Ă€ußerst nahe beieinander, sodass die Ergebnisse des XRay-Pakets einfach deshalb als Grundlage herangezogen wurden, weil es ĂŒber ein komfortableres Berichtssystem und vorgefertigte Ladevorlagen verfĂŒgt.

FĂŒr diejenigen, die niemandem vertrauen und die vollstĂ€ndige Kontrolle ĂŒber den Prozess wĂŒnschen, erinnere ich Sie an meinen Artikel ĂŒber den Aufbau eines eigenen Systems zur Erzeugung der Last auf einer hyperkonvergenten Plattform - "Leistungstests giperkonvergentnyh Systeme und SicherheitsdatenblĂ€tter mit eigenen HĂ€nden "

Achtung! Uwaga! Pozor!


Alle weiteren Ergebnisse und deren Interpretationen sind die Meinung des Autors des Artikels und werden von sich aus im Rahmen der Untersuchung des Systems abgegeben. Die meisten Tests sind reine Kunststoffe und gelten nur zum VerstÀndnis der Grenzwertindikatoren in extremen und entarteten FÀllen, die Sie im wirklichen Leben niemals erreichen werden.

FourCorners Microbenchmark


Der 4-seitige Mikrotest wurde entwickelt, um das System „schnell“ auf die ultimative theoretische Leistung und Spitzenleistung der Steuerungen zu bewerten. Die praktische Anwendung fĂŒr diesen Test besteht darin, das System unmittelbar nach dem Start auf Konfigurations- und Umgebungsfehler, insbesondere Netzwerkfehler, zu ĂŒberprĂŒfen. Jene. Wenn Sie solche Systeme regelmĂ€ĂŸig betreiben, wissen Sie nur, mit welchen Zahlen Sie rechnen sollten, wenn alles in Ordnung ist.









EndgĂŒltige Zahlen: 280k / 174k IOPS, 3.77 / 1.72 GBps (Lesen / Schreiben)

Wie haben sich unsere Controller verhalten?





Daraus geht hervor, dass der gesamte Ressourcenverbrauch fĂŒr 4 Controller und 4 VM-Lasten 49 Kerne von 2,2 betrug. GemĂ€ĂŸ VMware-Statistiken betrug die CPU-Auslastung der Controller bis zu 80%, d. H. TatsĂ€chlich wurde die Leistung durch die Leistung von Controllern und insbesondere von Prozessoren begrenzt. Die Geschwindigkeit der sequentiellen Operationen beruhte speziell auf der Geschwindigkeit des 10G-Netzwerks.

Lass es uns erneut versuchen. Die Spitzenleistung auf einem kleinen 4-Knoten-Cluster mit nicht den schnellsten 2,2-GHz-Prozessoren betrÀgt fast 300.000 IOPS in 4U-Höhen.

Das GesprĂ€ch „hier haben wir 10, 20 oder sogar 40% mehr / weniger“ ist aufgrund der Reihenfolge der Zahlen praktisch bedeutungslos. Das gleiche wie zu messen "und ich kann ein Auto 240 haben, ich habe 280" trotz der Tatsache, dass das Limit 80 ist.

280k / 4-Knoten ergeben eine Spitzenleistung von 70k / Knoten, was beispielsweise die Zahlen des VMware VSAN-Rechners ĂŒberschreitet, bei dem davon ausgegangen wird, dass der AF-Knoten nicht mehr als 46k pro Plattengruppe ausgibt. In unserem Fall gibt es hier in der VMware-Terminologie nur eine DatentrĂ€gergruppe, die tatsĂ€chlich mit x1.8 ausgefĂŒhrt wird.

Auswirkung der GrĂ¶ĂŸe des Datenspeicherblocks


Beim Erstellen eines HyperFlex-Datenspeichers können Sie die DatenblockgrĂ¶ĂŸe auswĂ€hlen - 4 KB oder 8 KB.

Was wird es beeinflussen? FĂŒhren Sie den gleichen viereckigen Test durch.





Wenn das Bild fast identisch mit dem Lesen ist, ist die Aufzeichnung im Gegenteil von Bedeutung. Der viereckige Test verwendet eine 8k-Last.

Gesamtzahl: 280.000 / 280.000, 172-158.000 / 200-180.000 (4.000 bis 8.000). Wenn die BlockgrĂ¶ĂŸe ĂŒbereinstimmt, werden + 15% der Schreibleistung erhalten. Wenn Sie eine erhebliche Menge an Aufzeichnung mit einem kleinen Block (4 KB) in der Last erwarten, erstellen Sie einen Datenspeicher fĂŒr diese bestimmte Last mit einem 4 KB-Block, andernfalls verwenden Sie 8 KB.

OLTP-Simulator


Ein viel nÀheres Bild zur RealitÀt liefert ein anderer Test. Als Teil davon werden zwei Generatoren mit einem Profil in der NÀhe eines Transaktions-DBMS und einem Lastniveau von 6000 + 400 IOPS gestartet. Hier wird die Verzögerung gemessen, die auf einem stabil niedrigen Niveau bleiben sollte.









Die Verzögerung fĂŒr die VM-Last betrug 1,07 / 1,08 ms. Alles in allem ein tolles Ergebnis, aber lasst uns etwas WĂ€rme hinzufĂŒgen!

Datenbank-Colocation: Hohe IntensitÀt


Wie sich die Transaktionsbasis in AbhÀngigkeit von den Verzögerungen verhÀlt, wenn plötzlich ein verrauschter aufeinanderfolgender Nachbar gebildet wird. Nun, sehr laut.









Die OLTP-Basis auf Knoten 1 erzeugt also 4200 IOPS mit einer Verzögerung von 0,85 ms. Was passiert, wenn ein DSS-System plötzlich beginnt, Ressourcen in sequentiellen Operationen zu verbrauchen?
Zwei Generatoren auf den Knoten 2 und 3 laden die Plattform mit 1,18 / 1,08 GBit / s, also insgesamt 2,26 GBit / s. Die Verzögerung bei OLTP wĂ€chst natĂŒrlich und wird weniger flach, aber der Durchschnittswert bleibt 1,85 ms, und die Basis erhĂ€lt ihre 4200 IOPS ohne Probleme.

Schnappschuss Auswirkungen






Das System erstellt nacheinander einmal pro Stunde mehrere Snapshots auf einer OLTP-Basis. Der Zeitplan enthĂ€lt nichts Überraschendes. DarĂŒber hinaus ist dies im Allgemeinen ein Indikator fĂŒr die Funktionsweise klassischer VMware-Snapshots, da Nutanix XRay nur mit eigenen Snapshots arbeiten kann. Sie mĂŒssen nicht regelmĂ€ĂŸig vSphere-Snapshots verwenden, da nicht alle Joghurts gleichermaßen nĂŒtzlich sind.

Native HyperFlex-SchnappschĂŒsse funktionieren viel besser. Verwenden Sie sie und Ihr Haar wird weich und seidig!

Big-Data-Aufnahme


Wie wird HyperFlex eine große Menge von Daten verarbeiten, die nacheinander hochgeladen werden? Sagen wir mal 1 TB.





Der Test dauerte 27 Minuten, einschließlich Klonen, Einstellen und Starten der Generatoren.

Durchsatzskalierbarkeit



Laden Sie nun schrittweise den gesamten Cluster und sehen Sie sich die stetigen Zahlen an. Beginnen Sie mit dem zufÀlligen Lesen und Schreiben.











Wir sehen ein stabiles Bild mit einer allmÀhlichen Abnahme der Leistung der Maschinenlast von 78.000 auf 55-57.000 IOPS mit glatten Regalen. Gleichzeitig steigt die Gesamtleistung stetig von 78 auf 220.000 IOPS.











Die Aufnahme ist etwas weniger flĂŒssig, aber immer noch stabile Regale von 64.000 bis 19-21.000 pro Auto. Gleichzeitig ist die Belastung der Steuerungen wesentlich geringer. Wenn wĂ€hrend des Lesens die Gesamtlast des Prozessors von 44 auf 109 erhöht wurde, dann bei der Aufnahme von 57 auf 73 GHz.

Hier können Sie das einfachste und offensichtlichste Beispiel fĂŒr die Merkmale hyperkonvergenter Systeme beobachten - der einzige Verbraucher kann einfach nicht alle Ressourcen des Systems vollstĂ€ndig nutzen, und wenn die Last hinzugefĂŒgt wird, gibt es keinen signifikanten Leistungsabfall. Der Tropfen, den wir beobachten, ist bereits das Ergebnis extremer synthetischer Belastungen, die alles bis zum letzten Tropfen zusammendrĂŒcken sollen, was bei einem normalen Produkt fast nie der Fall ist.

OLTP brechen


Zu diesem Zeitpunkt wurde es sogar langweilig, wie vorhersehbar HyperFlex war. Dringende Notwendigkeit, etwas zu brechen!





Der rote Punkt markiert den Moment, in dem die Controller-VM auf einem der Hosts mit einer Last heruntergefahren wird.

Da die Neuerstellung in HyperFlex standardmĂ€ĂŸig nur dann sofort gestartet wird, wenn die Festplatte verloren geht und wenn der Knoten verloren geht, das Zeitlimit 2 Stunden betrĂ€gt, wird der Moment der erzwungenen Neuerstellung mit einem grĂŒnen Punkt markiert.

login as: admin
 HyperFlex StorageController 4.0(2a)
admin@192.168.***.***'s password:
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance status
rebalanceStatus:
    percentComplete: 0
    rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance start -f
msgstr: Successfully started rebalance
params:
msgid: Successfully started rebalance
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance status
rebalanceStatus:
    percentComplete: 16
    rebalanceState: cluster_rebalance_ongoing
rebalanceEnabled: True
<b>admin@SpringpathController0VY9B6ERXT:~$</b>



Die Operationen erstarrten fĂŒr ein paar Sekunden und wurden erneut fortgesetzt, wobei der Wiederaufbau fast bemerkt wurde. Es befindet sich in einem stabilen Zustand, wenn es weit von einer ClusterĂŒberlastung entfernt ist.

Warum ist 2 Stunden Cisco kein Problem, obwohl Konkurrenten weniger Nummern haben? Cisco empfiehlt dringend, RF3 als grundlegende Datenschutzstufe fĂŒr alles außer fĂŒr Computer zu verwenden, die nicht schade sind. Sie haben beschlossen, Patches zu installieren oder etwas mit dem Host zu tun. Schalten Sie ihn aus. Und es besteht die Möglichkeit, dass gerade in diesem Moment ein anderer Host ausfĂ€llt - und dann wird im Fall von RF2 alles zum Einsatz, und mit RF3 gibt es eine aktive Kopie der Daten. Und ja, es ist durchaus möglich, 2 Stunden bei einem Unfall mit RF2 zu ĂŒberleben, bis die Wiederherstellung von RF3 beginnt.

Mach mich fertig!


Brechen - so brechen. Volle Ladung. In diesem Fall habe ich einen Test mit einem Profil erstellt, das mehr oder weniger einer realen Last Àhnelt (70% gelesen, 20% zufÀllig, 8k, 6d 128q).



Ratet mal, wo CVM ausgeschaltet wurde und wo der Wiederaufbau begonnen hat?



In der Situation mit dem Wiederaufbau schnitt HyperFlex recht gut ab, ohne einen katastrophalen Leistungsabfall oder eine mehrfache Zunahme der Verzögerungen zu verursachen, selbst unter Last unter den Tomaten. Das einzige, was ich wirklich gerne hĂ€tte, ist, lieber Cisco. Machen Sie das Timeout standardmĂ€ĂŸig auf weniger als 2 Stunden.

Ergebnisse


Abschließend erinnere ich mich an den Zweck des Tests: das Cisco HyperFlex-System heute zu untersuchen, ohne die Historie zu betrachten, seine Leistung unter Verwendung von Kunststoffen zu untersuchen und Schlussfolgerungen ĂŒber seine Anwendbarkeit auf ein reales Produkt zu ziehen.

Schlussfolgerung 1 zur Leistung. Die Leistung ist sehr gut und Sie werden hier keine weiteren Kommentare abgeben. Da ich im Test ein System der vorherigen Generation hatte, kann ich genau eines sagen: Bei HyperFlex All Flash wird die KapazitĂ€t, der Prozessor, der Speicher, aber nicht die Festplatten knapp. Außer vielleicht 1% der ĂŒberladenen Anwendungen, aber Sie mĂŒssen ein GesprĂ€ch mit ihnen persönlich fĂŒhren. Native RoW-Snapshots funktionieren.

Schlussfolgerung 2nach VerfĂŒgbarkeit. Das System ist nach dem Erkennen eines Fehlers recht gut (manchmal ohne Leistungsabfall) und erfĂŒllt die Wiederherstellung der Anzahl der Datenkopien. Es gibt eine leichte Beschwerde im 2-Stunden-Standardzeitlimit vor Beginn der Wiederherstellung (wenn der Host verloren geht), aber angesichts der dringend empfohlenen RF3 ist dies eher ein Trottel. Die Wiederherstellung nach einem Festplattenfehler beginnt sofort.

Schlussfolgerung 3, in Preis und Vergleich mit Wettbewerbern. Der Preis des Systems kann je nach Konfiguration fĂŒr ein bestimmtes Projekt um ein Vielfaches variieren. Ein großer Teil der Projektkosten entfĂ€llt auf lizenzierte System- und Anwendungssoftware, die auf der Infrastrukturplattform funktioniert. Der einzige Weg, sich mit Wettbewerbern zu vergleichen, besteht darin, bestimmte kommerzielle Angebote zu vergleichen, die den technischen Anforderungen entsprechen, insbesondere fĂŒr Ihr Unternehmen fĂŒr ein bestimmtes Projekt.

EndgĂŒltige Schlussfolgerung : Das System funktioniert und ist fĂŒr die Verwendung im Produkt fĂŒr April 2020 ziemlich ausgereift, wenn die Empfehlungen des Anbieters gelesen und angewendet werden, anstatt zu rauchen.

All Articles