🔟 ❄️ 🍓 Warum Hyperkonvergenz? Cisco HyperFlex Übersicht und Tests 👨🏾‍⚖️ 🏫 🚈

In der IT sind die Hauptsache drei Buchstaben

Die Aufgabe jeder IT-Infrastruktur besteht darin, eine zuverlässige Plattform für die Geschäftsprozesse des Unternehmens bereitzustellen. Es wird traditionell angenommen, dass die Qualität der Informationstechnologie-Infrastruktur anhand von drei Hauptparametern bewertet wird: Zugänglichkeit, Sicherheit, Zuverlässigkeit. Die Bewertung für dieses Tripel hängt jedoch in keiner Weise mit dem Geschäft und dem direkten Einkommen / Verlust des Unternehmens zusammen.

Drei Hauptbuchstaben regieren die IT. Wenn die Buchstaben „RUB“ nicht an der Spitze der IT-Hierarchie stehen, bauen Sie Ihre IT-Infrastruktur falsch auf. Natürlich ist es schwierig, die IT direkt aufzubauen, beginnend mit den Einnahmen / Ausgaben. Daher gibt es eine Hierarchie von „drei Buchstaben“ - von den wichtigsten bis zu den privateren. SLA, RPO, RTO, GRC - all dies ist Branchenexperten bekannt und wird seit langem beim Aufbau von Infrastrukturen eingesetzt. Leider werden diese Indikatoren nicht immer zu einer End-to-End-Hierarchie verknüpft.

Viele Unternehmen bauen heute eine Infrastruktur für die Zukunft mit der Technologie von gestern auf der Architektur von gestern. Gleichzeitig zeigt die beschleunigte Entwicklung der IT, dass moderne Services nicht nur das Geschäft, sondern auch die Gesellschaft grundlegend verändern. Menschen im digitalen Zeitalter sind es gewohnt, dass einige Sekunden ausreichen, um auf Informationen zuzugreifen. IT aus einer unverständlichen Technologie ist für die Massen alltäglich geworden, wie zum Beispiel ein Burger oder ein Café. Dies hat der IT neue äußerst wichtige drei Buchstaben hinzugefügt. Diese Buchstaben - TTM (Time to Market) - die Zeit vor der Einführung eines produktiven Dienstes auf dem Markt.

Sds

Auf der anderen Seite stieg ein Kraken aus den Tiefen der Technologie auf und stellte die traditionelle IT und den Lebensstil um. Mit zunehmender Rechenleistung von x86-Prozessoren wurden Softwarespeichersysteme zum ersten Tentakel. Klassische Speichersysteme waren sehr spezielle Eisenstücke, die mit „kundenspezifischem Silizium“, verschiedenen proprietären Hardwarebeschleunigern und spezieller Software gefüllt waren. Und es wurde von einer speziell ausgebildeten Person verwaltet, die in der Gesellschaft praktisch als Priester eines dunklen Kultes verehrt wurde. Die Erweiterung des im Unternehmen betriebenen Datenspeichersystems war ein ganzes Projekt mit vielen Berechnungen und Genehmigungen - schließlich ist es teuer!

Die hohen Kosten und die Komplexität haben die Erstellung von Softwarespeichersystemen auf der üblichen x86-Hardware mit einem gemeinsamen Allzweckbetriebssystem - Windows, Linux, FreeBSD oder Solaris - vorangetrieben. Von der komplexen benutzerdefinierten Hardware blieb nur Software übrig, die nicht einmal im Kernel, sondern auf Benutzerebene funktionierte. Die ersten Softwaresysteme waren natürlich recht einfach und in ihrer Funktionalität eingeschränkt, oft waren sie spezialisierte Nischenlösungen, aber die Zeit verging. Und jetzt haben sogar große Anbieter von Speichersystemen begonnen, spezielle Hardwarelösungen aufzugeben - TTM für solche Systeme konnte der Konkurrenz nicht mehr standhalten, und die Kosten des Fehlers wurden sehr hoch. Mit seltenen Ausnahmen wurden sogar klassische Speichersysteme bis 2020 zu den am häufigsten verwendeten x86-Servern, nur mit schönen Plastikmündungen und einer Reihe von Festplattenregalen.

Das zweite Tentakel des sich nähernden Kraken ist das Auftreten und die massive Akzeptanz der Flash-Speichertechnologie auf dem Markt, die zu einer konkreten Säule geworden ist, die einem Elefanten den Rücken bricht.
Die Leistung von Magnetplatten hat sich seit vielen Jahren nicht geändert, und die Prozessoren von Speichercontrollern haben Hunderte von Platten vollständig bewältigt. Leider wird die Quantität früher oder später zu Qualität - und das Speichersystem befindet sich bereits auf einem durchschnittlichen Niveau, ganz zu schweigen vom ursprünglichen, es hat eine Obergrenze für die sinnvolle Anzahl von Flash-Laufwerken. Ab einer bestimmten Menge (buchstäblich von zehn Festplatten) hört die Systemleistung nicht auf zu wachsen, sondern kann auch aufgrund der Notwendigkeit, ein immer größeres Volumen zu verarbeiten, abnehmen. Schließlich ändern sich die Verarbeitungsleistung und der Durchsatz der Steuerungen mit zunehmender Kapazität nicht. Theoretisch bestand die Lösung in der Entwicklung von Scale-Out-Systemen, mit denen viele unabhängige Regale mit Festplatten und Prozessorressourcen zu einem einzigen Cluster zusammengefasst werden können, der von außen als ein einziges Speichersystem mit mehreren Controllern betrachtet wird. Es war nur noch ein Schritt übrig.

Hyperkonvergenz

Der naheliegendste Schritt in die Zukunft war die Vereinheitlichung bisher unterschiedlicher Datenspeicherungs- und -verarbeitungspunkte. Mit anderen Worten, warum nicht verteilten Speicher nicht auf separaten Servern, sondern direkt auf den Virtualisierungshosts implementieren, wodurch ein spezielles Speichernetzwerk und dedizierte Hardware abgelehnt und somit Funktionen kombiniert werden. Der Kraken wachte auf.
Aber lassen Sie mich sagen, sehen Sie, denn Kombination ist Konvergenz. Woher kommt dieses blöde Präfix hyper?

. + + . . , “ ”.
…
, , , . — SDS.

:

— , , , /. .
Konvergiertes System - alles aus einer Quelle, einem Support, einer Partnernummer. Nicht zu verwechseln mit der Selbstorganisation eines Anbieters.

Und es stellt sich heraus, dass der Begriff für unsere konvergierte Architektur bereits vergeben ist. Genau die gleiche Situation wie beim Vorgesetzten.

Hyperkonvergentes System - Ein konvergiertes System mit konvergierter Architektur.

Die Definitionen stammen aus dem Artikel „ Allgemeine Theorie und Archäologie der Virtualisierung “, an dessen Schreiben ich lebhaft teilgenommen habe .

Was gibt den hyperkonvergenten Ansatz in der Anwendung für die drei genannten Buchstaben?

Beginnen Sie mit einem Mindestvolumen (und minimalen Kosten)
Die Speicherkapazität wächst mit der Rechenleistung
Jeder Knoten des Systems ist sein Controller - und das Problem der „Glasdecke“ wird beseitigt (Festplatten können, aber der Controller existiert nicht mehr).
Die Speicherverwaltung wurde erheblich vereinfacht

Im letzten Absatz werden hyperkonvergierte Systeme von Speicheradministratoren im alten Modus, die zum Verwalten von Warteschlangen an Fibre Channel-Ports verwendet werden, sehr abgelehnt. Der Speicherplatz wird mit nur wenigen Mausklicks über die Verwaltungskonsole der virtuellen Infrastruktur zugewiesen.

Mit anderen Worten, nur Clouds sind beim Starten eines Produkts schneller als hyperkonvergente Systeme, aber Clouds sind nicht für jeden geeignet und / oder nicht immer.

Wenn Sie ein Technikfreak sind und bis hierher lesen - freuen Sie sich, die allgemeinen Worte sind beendet und jetzt erzähle ich Ihnen von meiner persönlichen Sicht auf das Cisco Hyperflex-System, das ich für die Durchführung verschiedener Tests in hartnäckigen Pfoten bekam.

Cisco Hyperflex

Warum Cisco?

Cisco ist in erster Linie als der dominierende Anbieter auf dem Markt für Netzwerkgeräte bekannt. Gleichzeitig ist Cisco in anderen Segmenten des Marktes für Rechenzentren weit verbreitet und bietet sowohl Server- als auch hyperkonvergente Lösungen sowie Automatisierungs- und Steuerungssysteme an.

Überraschenderweise gibt es bis 2020 immer noch Menschen: „Cisco-Server? Und von wem nimmt sie sie? "
Cisco begann bereits 2009 mit dem Umgang mit Servern und entschied sich zu diesem Zeitpunkt für den Weg des aktiven Wachstums von Blade-Lösungen. Die Idee von Cisco war es, den Ansatz anonymer Taschenrechner zu implementieren. Das Ergebnis war ein UCS-System (Unified Computing System), das aus zwei spezialisierten Switches (sie wurden Fabric Interconnect genannt) und 1 bis 20 Chassis (8 Blades halber Größe) oder bis zu 160 Servern bestand. Zur gleichen Zeit wurde das Chassis im Allgemeinen mit einem Stück Eisen mit Strom dumm, alle Logik und Umschaltung werden in Fabric Interconnect gemacht; Das Chassis ist nur eine Möglichkeit, Server zu hosten und mit dem System zu verbinden. Fabric Interconnect ist voll verantwortlich für alle Serverinteraktionen mit der Außenwelt - Ethernet, FC und Management. Es scheint, dass die Klingen und Klingen, was da ist, außer für externes Schalten, und nicht wie alle anderen im Chassis.

Ein entscheidender Moment bei der Implementierung derselben „anonymen Taschenrechner“. Als Teil des Cisco UCS-Konzepts haben Server keine andere Persönlichkeit als eine Seriennummer. Weder MAC noch WWN noch irgendetwas anderes. Das von Fabric Interconnect betriebene UCS-Verwaltungssystem basiert auf Serverprofilen und -vorlagen. Nach dem Verbinden eines Serverbündels im Gehäuse muss ihnen ein geeignetes Profil zugewiesen werden, in dem alle identifizierenden Adressen und Kennungen festgelegt sind. Wenn Sie nur ein Dutzend Server haben, ist das Spiel natürlich nicht wert. Aber wenn es mindestens zwei oder sogar drei Dutzend von ihnen gibt, ist dies ein ernsthafter Vorteil. Es wird einfach und schnell, Konfigurationen zu migrieren oder, was noch wichtiger ist, Serverkonfigurationen in der richtigen Menge zu replizieren und die Änderungen sofort auf eine große Anzahl von Servern anzuwenden.Im Wesentlichen wird eine Reihe von Servern (z. B. eine Virtualisierungsfarm) als eine Einheit verwaltet. Der im UCS-System vorgeschlagene Ansatz ermöglicht es, mit dem richtigen Ansatz die Lebensdauer von Administratoren erheblich zu vereinfachen, die Flexibilität zu erhöhen und die Risiken erheblich zu verringern. Daher sind UCS-Blades in 2-3 Jahren buchstäblich zur meistverkauften Blade-Plattform in der westlichen Hemisphäre geworden und heute weltweit eine von zwei dominanten Plattformen, zusammen mit HPE.

Es wurde schnell klar, dass der gleiche Ansatz, der auf einer universellen Fabrik mit integrierter Verwaltung auf der Grundlage von Richtlinien und Vorlagen basiert, voll gefragt ist und nicht nur für Blades, sondern auch für Rack-Server gilt. In diesem Sinne bieten die mit Fabric Interconnect verbundenen Cisco Rack-Mount-Server dieselben Vorteile, die Blades so beliebt machen.

Heute werde ich über HyperFlex sprechen, eine hyperkonvergente Cisco-Lösung, die auf Rack-Mount-Servern basiert, die mit Fabric Interconnect verbunden sind. Was macht HyperFlex interessant und erwägenswert im Test:

Cisco , , «» – , HyperFlex; , , , HyperFlex ;
– ; HyperFlex , , ; , .
« » — « », , ;
Fabric Interconnect Cisco -, SAN , native FC;
“” – , , ;
Cisco , , , ;
, , Cisco HCI, , HyperFlex , , .

HyperFlex ist ein echtes hyperkonvergentes System mit dedizierten Controller-VMs. Ich möchte Sie daran erinnern, dass der Hauptvorteil einer solchen Architektur die potenzielle Portabilität für verschiedene Hypervisoren ist. Heute hat Cisco die Unterstützung für VMware ESXi und Microsoft Hyper-V implementiert. Es ist jedoch möglich, dass eine der KVM-Optionen mit zunehmender Beliebtheit im Unternehmenssegment angezeigt wird.

Betrachten Sie den Arbeitsmechanismus am Beispiel von ESXi.

Geräte, die die VM_DIRECT_PATH-Technologie verwenden - Cache-Festplatten und Festplatten auf Speicherebene - werden direkt auf die Controller-VM (im Folgenden CVM) übertragen. Daher schließen wir die Auswirkung des Hypervisor-Festplattenstapels auf die Leistung aus. Zusätzliche VIB-Pakete werden im Hypervisor selbst installiert:

E / A-Visor: Stellt den Einhängepunkt für den NFS-Datenspeicher für den Hypervisor bereit
VAAI: VMware API « »

Virtuelle Festplattenblöcke werden mit relativ geringer Granularität gleichmäßig auf alle Hosts in einem Cluster verteilt. Wenn die VM auf dem Host eine Art von Plattenoperationen ausführt, geht die Operation über den Plattenstapel des Hypervisors zum Datenspeicher, dann zu IO Visor und dann zu dem für diese Blöcke verantwortlichen CVM. In diesem Fall kann sich CVM auf einem beliebigen Host im Cluster befinden. Angesichts der sehr begrenzten Ressourcen von IO Visor gibt es natürlich keine Metadatentabellen und die Auswahl wird mathematisch bestimmt. Als nächstes verarbeitet das CVM, von dem die Anforderung kam, sie. Beim Lesen sendet es Daten entweder von einer der Cache-Ebenen (RAM, Schreib-Cache, Lese-Cache) oder von den Festplatten seines Hosts. Bei der Aufzeichnung wird in das lokale Journal geschrieben und die Operation für ein (RF2) oder zwei (RF3) CVM dupliziert.

Vielleicht reicht dies völlig aus, um das Prinzip der Arbeit im Rahmen dieser Veröffentlichung zu verstehen, andernfalls werde ich Cisco-Trainern Brot abnehmen und mich schämen. Nicht wirklich, aber immer noch genug.

Frage zu synthetischen Tests

- Navigator, Geräte!
- 36!
- Was ist 36?
- Was ist mit Geräten?

So etwas sieht heute aus wie die meisten synthetischen Tests von Speichersystemen. Warum so?

Bis vor relativ kurzer Zeit waren die meisten Speichersysteme flach und hatten einen einheitlichen Zugang. Was bedeutet das?

Der insgesamt verfügbare Speicherplatz wurde von Datenträgern mit denselben Eigenschaften gesammelt. Zum Beispiel 300 15k-Laufwerke. Und die Leistung war im gesamten Raum gleich. Mit dem Aufkommen der Tiered Storage-Technologie sind Speichersysteme nicht mehr flach - die Leistung variiert innerhalb eines einzelnen Speicherplatzes. Und es ist nicht nur unterschiedlich, sondern auch unvorhersehbar, abhängig von den Algorithmen und Funktionen eines bestimmten Speichermodells.

Und alles wäre nicht so interessant, wenn nicht hyperkonvergierte Systeme mit Datenlokalisierung erscheinen würden. Neben der Ungleichmäßigkeit des Speicherplatzes selbst (Ermüdungserscheinungen, Flash-Caches) besteht auch ein ungleichmäßiger Zugriff darauf - je nachdem, ob sich eine der Datenkopien auf den lokalen Datenträgern des Knotens befindet oder über das Netzwerk zugegriffen werden muss. All dies führt dazu, dass die Anzahl der synthetischen Tests absolut beliebig sein kann und über nichts praktisch Sinnvolles spricht. Zum Beispiel den Kraftstoffverbrauch eines Autos nach einer Werbebroschüre, die man im wirklichen Leben nie erreichen kann.

Frage zur Dimensionierung

Die Kehrseite der synthetischen Testnummern war die Größenbestimmung von Zahlen und Spezifikationen unter der Vorverkaufstastatur. Der Vorverkauf ist in diesem Fall in zwei Kategorien unterteilt - einige hämmern Ihre TK nur dumm in den Konfigurator des Anbieters, und der zweite übernimmt sie selbst, weil sie verstehen, wie sie funktioniert. Aber mit der Sekunde müssen Sie im Detail überlegen, was Sie in Ihrer TK geschrieben haben.

Wie Sie wissen, ohne eine klare TK - das Ergebnis von HZ.

Aus praktischer Erfahrung - als ich in einem Wettbewerb mit einem der Kunden ein ziemlich schweres hyperkonvergentes System dimensionierte, nahm ich persönlich nach dem Piloten die Lastindikatoren aus dem System und verglich sie mit dem, was im TOR geschrieben wurde. Es stellte sich wie in einem Witz heraus:

- Rabinovich, stimmt es, dass Sie eine Million in der Lotterie gewonnen haben?
- Oh, wer hat dir das gesagt? Nicht eine Million, sondern zehn Rubel, nicht in der Lotterie, sondern bevorzugt, und nicht gewonnen, sondern verloren.

Mit anderen Worten, die klassische GIGO-Situation - Garbage In Garbage Out - Garbage Inlet = Garbage in der Ausgabe.

Es gibt fast garantiert zwei Arten von praktikablen Größen für die Hyperkonvergenz: Nehmen Sie uns mit einer Marge, oder wir werden für eine lange Zeit einen Piloten fahren und Indikatoren nehmen.

Es gibt noch einen Punkt bei der Dimensionierung und Bewertung von Spezifikationen. Verschiedene Systeme sind unterschiedlich aufgebaut und arbeiten unterschiedlich mit Festplatten. Ihre Controller interagieren unterschiedlich. Daher ist es praktisch sinnlos, "Kopf an Kopf" gemäß den Spezifikationen die Anzahl und das Volumen der Festplatten zu vergleichen. Sie haben eine Art TK, innerhalb derer Sie das Lastniveau verstehen. Und dann gibt es eine bestimmte Anzahl von Getrieben, in denen Ihnen verschiedene Systeme angeboten werden, die die Anforderungen an Leistung und Zuverlässigkeit erfüllen. Was ist der grundlegende Unterschied, wie viel kostet eine Festplatte und welcher Typ in System 1, und dass es in System 2 mehr / weniger davon gibt, wenn beide die Aufgabe erfolgreich bewältigen.

Da die Leistung häufig von Controllern bestimmt wird, die auf denselben Hosts wie virtuelle Maschinen arbeiten, kann sie bei einigen Arten von Lasten erheblich schwanken, da Prozessoren mit unterschiedlichen Frequenzen in unterschiedlichen Clustern stehen und alle anderen Faktoren gleich sind.

Mit anderen Worten, selbst der erfahrenste Vorverkaufsarchitekt und Erzmagier wird Ihnen die Spezifikation nicht genauer mitteilen, als Sie die Anforderungen formulieren, und zwar genauer als „na ja, irgendwo SAM-VOSEM“ ohne Pilotprojekte.

Über Schnappschüsse

HyperFlex kann seine nativen Snapshots von virtuellen Maschinen mithilfe der Redirect-on-Write-Technologie erstellen. Und hier ist es notwendig, separat anzuhalten, um verschiedene Technologien von Schnappschüssen zu betrachten.
Anfänglich gab es Snapshots vom Typ Copy-on-Write (CoW), und native VMware vSphere-Snapshots können als klassisches Beispiel verwendet werden. Das Funktionsprinzip ist dasselbe wie bei vmdk über VMFS oder NFS, bei nativen Dateisystemen wie VSAN. Nach dem Erstellen eines CoW-Snapshots werden die Originaldaten (Blöcke oder VMDK-Dateien) eingefroren. Wenn Sie versuchen, in eingefrorene Blöcke zu schreiben, wird eine Kopie erstellt und die Daten werden in einen neuen Block / eine neue Datei (Delta-Datei für VMDK) geschrieben. Infolgedessen nimmt mit zunehmendem Snapshot-Baum die Anzahl der "falschen" Festplattenzugriffe zu, die keine produktive Bedeutung haben, undLeistungsabfälle / Verzögerungen nehmen zu .

Anschließend wurden RoWect-Snapshots (Redirect-on-Write) erfunden, bei denen anstelle von Kopien von Blöcken mit Daten eine Kopie von Metadaten erstellt wird und der Datensatz ohne Verzögerungen und zusätzliche Lesungen und Überprüfungen fortgesetzt wird. Bei korrekter Implementierung von RoW-Snapshots hat dies nahezu keinen Einfluss auf die Leistung des Festplattensystems. Der zweite Effekt der Arbeit mit Metadaten anstelle der Live-Daten selbst ist nicht nur die sofortige Erstellung von Snapshots, sondern auch von VM-Klonen, die unmittelbar nach der Erstellung überhaupt keinen Speicherplatz beanspruchen (wir berücksichtigen den System-Overhead für VM-Servicedateien nicht).

Und der dritte wichtige Punkt, der RoW von CoW-Snapshots für produktive Systeme radikal unterscheidet, ist das sofortige Entfernen von Snapshots. Es scheint, dass dies so ist? Sie müssen sich jedoch daran erinnern, wie CoW-Snapshots funktionieren und dass das Entfernen eines Snapshots nicht wirklich eine Delta-Entfernung ist, sondern ein Commit. Und hier hängt die Zeit ihres Commits stark von der Größe des akkumulierten Deltas und der Leistung des Festplattensystems ab. RoW-Snapshots werden sofort festgeschrieben, da das Löschen (Festschreiben) von RoW-Snapshots eine Aktualisierung der Metadatentabelle darstellt, unabhängig davon, wie viele Terabyte Unterschied sich ansammeln.

Und hier erscheint eine interessante Anwendung von RoW-Snapshots - lassen Sie das RPO auf Werte von mehreren zehn Minuten fallen. Backups alle 30 Minuten sind im Allgemeinen fast unmöglich, und in den meisten Fällen werden sie einmal am Tag durchgeführt, was eine RPO von 24 Stunden ergibt. Gleichzeitig können wir RoW-Snapshots nach einem Zeitplan erstellen, die RPO auf 15 bis 30 Minuten bringen und für ein oder zwei Tage speichern. Keine Beeinträchtigung der Leistung, nur Kapazitäten ausgeben.

Aber es gibt einige Nuancen.

Für den ordnungsgemäßen Betrieb nativer Snapshots und die Integration in VMware benötigt HyperFlex einen offiziellen Snapshot namens Sentinel. Der Sentinel-Snapshot wird automatisch erstellt, wenn Sie zum ersten Mal einen Snapshot für eine bestimmte VM über HXConnect erstellen. Sie sollten ihn nicht löschen. Sie sollten nicht "zurückkehren". Sie müssen sich nur damit abfinden, dass dies in der Schnittstelle in der Liste der Snapshots der erste Service-Snapshot von Sentinel ist.

HyperFlex-Snapshots können im absturzkonsistenten Modus oder im anwendungskonsistenten Modus ausgeführt werden. Der zweite Typ umfasst das "Leeren von Puffern" in der VM, erfordert VMTools und wird gestartet, wenn das Kontrollkästchen "Ruhe" im HXConnect-Snapshot-Menü aktiviert ist.
Zusätzlich zu HyperFlex-Snapshots verbietet niemand die Verwendung von "nativen" VMware-Snapshots. Es lohnt sich für eine bestimmte virtuelle Maschine, zu bestimmen, welche Snapshots Sie verwenden werden, und sich in Zukunft auf diese Technologie zu konzentrieren, um verschiedene Snapshots für eine VM nicht zu „stören“.

Im Rahmen des Tests habe ich versucht, Schnappschüsse zu erstellen und deren FIO zu überprüfen. Und doch, ja, ich kann bestätigen, dass Schnappschüsse wirklich RoW sind und die Leistung nicht beeinträchtigen. Snapshots werden wirklich schnell erstellt (einige Sekunden, abhängig vom Lastprofil und der Größe des Datasets). Ich kann basierend auf den Ergebnissen die folgende Empfehlung geben: Wenn Ihre Last viele zufällige Schreibvorgänge enthält, sollten Sie mit der Erstellung eines Snapshots über die HXConnect-Oberfläche beginnen, mit dem Häkchen „Quiesce“ und einem vorläufigen das Vorhandensein eines Sentinel-Schnappschusses.

Tests

Testplattform

Die folgende Plattform fiel in zähe Pfoten:

4 x C220 M4 (2630v4 10c x 2,20 GHz, 256, 800 + 6 * 960)
vSphere 6.7
HX Data Platform 4.0.2

Patch-Test löschen

Was für Tests ohne CrystalDisk? Das kann nicht sein, normale Leute starten immer eine kristallisierte Scheibe! Nun, wenn es notwendig ist, dann ist es notwendig.

Für die Crystal Disk wurde eine speziell erstellte VM mit 2 vCPU 4 GB und Windows 7 an Bord erstellt. Oh, und ich habe es satt, Patches darauf anzubringen, ich werde es dir sagen! Der Test wurde in den besten Traditionen der besten Häuser in London und Paris durchgeführt - nämlich wurde nur eine virtuelle Festplatte als nächstes hinzugefügt, ohne nachzudenken, und der Test wurde gestartet. Ja, und natürlich ist CrystalDiskMark selbst nicht am Testen beteiligt, sondern lediglich eine Schnittstelle, sondern lädt das Festplattensystem direkt mit dem bekannten DiskSpd-Paket, das im Kit enthalten ist.

Was mich buchstäblich beeindruckt hat - aus irgendeinem Grund haben alle die Auswahl der Einheiten in der oberen rechten Ecke übersprungen. Und alle op!

Hören Sie, ehrlich gesagt, ich habe im Next-Next-Finish-Modus nicht 75.000 IOPS und mehr als 1 Gigabyte pro Sekunde von der Mikromaschine erwartet!

Um es milde auszudrücken, nicht jedes Unternehmen in Russland hat Lasten, die diese Indikatoren insgesamt überschreiten.

Weitere Tests wurden mit VMware HCI Bench und Nutanix XRay als „ideologisch feindlich“ gegenüber HyperFlex durchgeführt, und dementsprechend wurde erwartet, dass wir keine Gefangenen machen würden. Die Zahlen erwiesen sich als äußerst nahe beieinander, sodass die Ergebnisse des XRay-Pakets einfach deshalb als Grundlage herangezogen wurden, weil es über ein komfortableres Berichtssystem und vorgefertigte Ladevorlagen verfügt.

Für diejenigen, die niemandem vertrauen und die vollständige Kontrolle über den Prozess wünschen, erinnere ich Sie an meinen Artikel über den Aufbau eines eigenen Systems zur Erzeugung der Last auf einer hyperkonvergenten Plattform - "Leistungstests giperkonvergentnyh Systeme und Sicherheitsdatenblätter mit eigenen Händen "

Achtung! Uwaga! Pozor!

Alle weiteren Ergebnisse und deren Interpretationen sind die Meinung des Autors des Artikels und werden von sich aus im Rahmen der Untersuchung des Systems abgegeben. Die meisten Tests sind reine Kunststoffe und gelten nur zum Verständnis der Grenzwertindikatoren in extremen und entarteten Fällen, die Sie im wirklichen Leben niemals erreichen werden.

FourCorners Microbenchmark

Der 4-seitige Mikrotest wurde entwickelt, um das System „schnell“ auf die ultimative theoretische Leistung und Spitzenleistung der Steuerungen zu bewerten. Die praktische Anwendung für diesen Test besteht darin, das System unmittelbar nach dem Start auf Konfigurations- und Umgebungsfehler, insbesondere Netzwerkfehler, zu überprüfen. Jene. Wenn Sie solche Systeme regelmäßig betreiben, wissen Sie nur, mit welchen Zahlen Sie rechnen sollten, wenn alles in Ordnung ist.

Endgültige Zahlen: 280k / 174k IOPS, 3.77 / 1.72 GBps (Lesen / Schreiben)

Wie haben sich unsere Controller verhalten?

Daraus geht hervor, dass der gesamte Ressourcenverbrauch für 4 Controller und 4 VM-Lasten 49 Kerne von 2,2 betrug. Gemäß VMware-Statistiken betrug die CPU-Auslastung der Controller bis zu 80%, d. H. Tatsächlich wurde die Leistung durch die Leistung von Controllern und insbesondere von Prozessoren begrenzt. Die Geschwindigkeit der sequentiellen Operationen beruhte speziell auf der Geschwindigkeit des 10G-Netzwerks.

Lass es uns erneut versuchen. Die Spitzenleistung auf einem kleinen 4-Knoten-Cluster mit nicht den schnellsten 2,2-GHz-Prozessoren beträgt fast 300.000 IOPS in 4U-Höhen.

Das Gespräch „hier haben wir 10, 20 oder sogar 40% mehr / weniger“ ist aufgrund der Reihenfolge der Zahlen praktisch bedeutungslos. Das gleiche wie zu messen "und ich kann ein Auto 240 haben, ich habe 280" trotz der Tatsache, dass das Limit 80 ist.

280k / 4-Knoten ergeben eine Spitzenleistung von 70k / Knoten, was beispielsweise die Zahlen des VMware VSAN-Rechners überschreitet, bei dem davon ausgegangen wird, dass der AF-Knoten nicht mehr als 46k pro Plattengruppe ausgibt. In unserem Fall gibt es hier in der VMware-Terminologie nur eine Datenträgergruppe, die tatsächlich mit x1.8 ausgeführt wird.

Auswirkung der Größe des Datenspeicherblocks

Beim Erstellen eines HyperFlex-Datenspeichers können Sie die Datenblockgröße auswählen - 4 KB oder 8 KB.

Was wird es beeinflussen? Führen Sie den gleichen viereckigen Test durch.

Wenn das Bild fast identisch mit dem Lesen ist, ist die Aufzeichnung im Gegenteil von Bedeutung. Der viereckige Test verwendet eine 8k-Last.

Gesamtzahl: 280.000 / 280.000, 172-158.000 / 200-180.000 (4.000 bis 8.000). Wenn die Blockgröße übereinstimmt, werden + 15% der Schreibleistung erhalten. Wenn Sie eine erhebliche Menge an Aufzeichnung mit einem kleinen Block (4 KB) in der Last erwarten, erstellen Sie einen Datenspeicher für diese bestimmte Last mit einem 4 KB-Block, andernfalls verwenden Sie 8 KB.

OLTP-Simulator

Ein viel näheres Bild zur Realität liefert ein anderer Test. Als Teil davon werden zwei Generatoren mit einem Profil in der Nähe eines Transaktions-DBMS und einem Lastniveau von 6000 + 400 IOPS gestartet. Hier wird die Verzögerung gemessen, die auf einem stabil niedrigen Niveau bleiben sollte.

Die Verzögerung für die VM-Last betrug 1,07 / 1,08 ms. Alles in allem ein tolles Ergebnis, aber lasst uns etwas Wärme hinzufügen!

Datenbank-Colocation: Hohe Intensität

Wie sich die Transaktionsbasis in Abhängigkeit von den Verzögerungen verhält, wenn plötzlich ein verrauschter aufeinanderfolgender Nachbar gebildet wird. Nun, sehr laut.

Die OLTP-Basis auf Knoten 1 erzeugt also 4200 IOPS mit einer Verzögerung von 0,85 ms. Was passiert, wenn ein DSS-System plötzlich beginnt, Ressourcen in sequentiellen Operationen zu verbrauchen?
Zwei Generatoren auf den Knoten 2 und 3 laden die Plattform mit 1,18 / 1,08 GBit / s, also insgesamt 2,26 GBit / s. Die Verzögerung bei OLTP wächst natürlich und wird weniger flach, aber der Durchschnittswert bleibt 1,85 ms, und die Basis erhält ihre 4200 IOPS ohne Probleme.

Schnappschuss Auswirkungen

Das System erstellt nacheinander einmal pro Stunde mehrere Snapshots auf einer OLTP-Basis. Der Zeitplan enthält nichts Überraschendes. Darüber hinaus ist dies im Allgemeinen ein Indikator für die Funktionsweise klassischer VMware-Snapshots, da Nutanix XRay nur mit eigenen Snapshots arbeiten kann. Sie müssen nicht regelmäßig vSphere-Snapshots verwenden, da nicht alle Joghurts gleichermaßen nützlich sind.

Native HyperFlex-Schnappschüsse funktionieren viel besser. Verwenden Sie sie und Ihr Haar wird weich und seidig!

Big-Data-Aufnahme

Wie wird HyperFlex eine große Menge von Daten verarbeiten, die nacheinander hochgeladen werden? Sagen wir mal 1 TB.

Der Test dauerte 27 Minuten, einschließlich Klonen, Einstellen und Starten der Generatoren.

Durchsatzskalierbarkeit

Laden Sie nun schrittweise den gesamten Cluster und sehen Sie sich die stetigen Zahlen an. Beginnen Sie mit dem zufälligen Lesen und Schreiben.

Wir sehen ein stabiles Bild mit einer allmählichen Abnahme der Leistung der Maschinenlast von 78.000 auf 55-57.000 IOPS mit glatten Regalen. Gleichzeitig steigt die Gesamtleistung stetig von 78 auf 220.000 IOPS.

Die Aufnahme ist etwas weniger flüssig, aber immer noch stabile Regale von 64.000 bis 19-21.000 pro Auto. Gleichzeitig ist die Belastung der Steuerungen wesentlich geringer. Wenn während des Lesens die Gesamtlast des Prozessors von 44 auf 109 erhöht wurde, dann bei der Aufnahme von 57 auf 73 GHz.

Hier können Sie das einfachste und offensichtlichste Beispiel für die Merkmale hyperkonvergenter Systeme beobachten - der einzige Verbraucher kann einfach nicht alle Ressourcen des Systems vollständig nutzen, und wenn die Last hinzugefügt wird, gibt es keinen signifikanten Leistungsabfall. Der Tropfen, den wir beobachten, ist bereits das Ergebnis extremer synthetischer Belastungen, die alles bis zum letzten Tropfen zusammendrücken sollen, was bei einem normalen Produkt fast nie der Fall ist.

OLTP brechen

Zu diesem Zeitpunkt wurde es sogar langweilig, wie vorhersehbar HyperFlex war. Dringende Notwendigkeit, etwas zu brechen!

Der rote Punkt markiert den Moment, in dem die Controller-VM auf einem der Hosts mit einer Last heruntergefahren wird.

Da die Neuerstellung in HyperFlex standardmäßig nur dann sofort gestartet wird, wenn die Festplatte verloren geht und wenn der Knoten verloren geht, das Zeitlimit 2 Stunden beträgt, wird der Moment der erzwungenen Neuerstellung mit einem grünen Punkt markiert.

login as: admin
 HyperFlex StorageController 4.0(2a)
admin@192.168.***.***'s password:
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance status
rebalanceStatus:
    percentComplete: 0
    rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance start -f
msgstr: Successfully started rebalance
params:
msgid: Successfully started rebalance
<b>admin@SpringpathController0VY9B6ERXT:~$</b> stcli rebalance status
rebalanceStatus:
    percentComplete: 16
    rebalanceState: cluster_rebalance_ongoing
rebalanceEnabled: True
<b>admin@SpringpathController0VY9B6ERXT:~$</b>

Die Operationen erstarrten für ein paar Sekunden und wurden erneut fortgesetzt, wobei der Wiederaufbau fast bemerkt wurde. Es befindet sich in einem stabilen Zustand, wenn es weit von einer Clusterüberlastung entfernt ist.

Warum ist 2 Stunden Cisco kein Problem, obwohl Konkurrenten weniger Nummern haben? Cisco empfiehlt dringend, RF3 als grundlegende Datenschutzstufe für alles außer für Computer zu verwenden, die nicht schade sind. Sie haben beschlossen, Patches zu installieren oder etwas mit dem Host zu tun. Schalten Sie ihn aus. Und es besteht die Möglichkeit, dass gerade in diesem Moment ein anderer Host ausfällt - und dann wird im Fall von RF2 alles zum Einsatz, und mit RF3 gibt es eine aktive Kopie der Daten. Und ja, es ist durchaus möglich, 2 Stunden bei einem Unfall mit RF2 zu überleben, bis die Wiederherstellung von RF3 beginnt.

Mach mich fertig!

Brechen - so brechen. Volle Ladung. In diesem Fall habe ich einen Test mit einem Profil erstellt, das mehr oder weniger einer realen Last ähnelt (70% gelesen, 20% zufällig, 8k, 6d 128q).

Ratet mal, wo CVM ausgeschaltet wurde und wo der Wiederaufbau begonnen hat?

In der Situation mit dem Wiederaufbau schnitt HyperFlex recht gut ab, ohne einen katastrophalen Leistungsabfall oder eine mehrfache Zunahme der Verzögerungen zu verursachen, selbst unter Last unter den Tomaten. Das einzige, was ich wirklich gerne hätte, ist, lieber Cisco. Machen Sie das Timeout standardmäßig auf weniger als 2 Stunden.

Ergebnisse

Abschließend erinnere ich mich an den Zweck des Tests: das Cisco HyperFlex-System heute zu untersuchen, ohne die Historie zu betrachten, seine Leistung unter Verwendung von Kunststoffen zu untersuchen und Schlussfolgerungen über seine Anwendbarkeit auf ein reales Produkt zu ziehen.

Schlussfolgerung 1 zur Leistung. Die Leistung ist sehr gut und Sie werden hier keine weiteren Kommentare abgeben. Da ich im Test ein System der vorherigen Generation hatte, kann ich genau eines sagen: Bei HyperFlex All Flash wird die Kapazität, der Prozessor, der Speicher, aber nicht die Festplatten knapp. Außer vielleicht 1% der überladenen Anwendungen, aber Sie müssen ein Gespräch mit ihnen persönlich führen. Native RoW-Snapshots funktionieren.

Schlussfolgerung 2nach Verfügbarkeit. Das System ist nach dem Erkennen eines Fehlers recht gut (manchmal ohne Leistungsabfall) und erfüllt die Wiederherstellung der Anzahl der Datenkopien. Es gibt eine leichte Beschwerde im 2-Stunden-Standardzeitlimit vor Beginn der Wiederherstellung (wenn der Host verloren geht), aber angesichts der dringend empfohlenen RF3 ist dies eher ein Trottel. Die Wiederherstellung nach einem Festplattenfehler beginnt sofort.

Schlussfolgerung 3, in Preis und Vergleich mit Wettbewerbern. Der Preis des Systems kann je nach Konfiguration für ein bestimmtes Projekt um ein Vielfaches variieren. Ein großer Teil der Projektkosten entfällt auf lizenzierte System- und Anwendungssoftware, die auf der Infrastrukturplattform funktioniert. Der einzige Weg, sich mit Wettbewerbern zu vergleichen, besteht darin, bestimmte kommerzielle Angebote zu vergleichen, die den technischen Anforderungen entsprechen, insbesondere für Ihr Unternehmen für ein bestimmtes Projekt.

Endgültige Schlussfolgerung : Das System funktioniert und ist für die Verwendung im Produkt für April 2020 ziemlich ausgereift, wenn die Empfehlungen des Anbieters gelesen und angewendet werden, anstatt zu rauchen.

Warum Hyperkonvergenz? Cisco HyperFlex Übersicht und Tests