Warnungen und Speicherfehler, wie geht man damit um?

Vor nicht allzu langer Zeit hat in der Stadt N ein IT-Unternehmen, das sich auf die Arbeit mit Kundendaten spezialisiert hat, seine Arbeit in seinem DC rund um die Uhr erfolgreich durchgeführt. Der gleiche Fall, wenn der "Schuhmacher in Stiefeln", d.h. In IT-Unternehmen war die IT gut getestet. Das Interessante begann, als der technische Direktor nach langjähriger Arbeit seinen Posten verließ, der an den Grundlagen stand, auf denen die Kontrolle über den ordnungsgemäßen Betrieb der gesamten IT-Branche erhalten blieb. Er wurde durch eine nicht weniger erfahrene Person ersetzt (im Folgenden als „Profis“ bezeichnet), und selbst mit einem breiteren Horizont faszinierte er das „Geschäft“ buchstäblich mit neuen Entwicklungshorizonten. Aber wie so oft zögern hochfliegende Menschen sehr, auf der Ebene der normalen Verwaltung zu Boden zu gehen.

Bild

Zeitpunkt des Vorfalls: Erster

Tag (April) : Ein lokales Speichersystem begann mit dem Ausgießen von Warnungen, und dann traten die ersten Fehler unter ihnen auf. Als der Administrator dies sah, benachrichtigte er seinen Vorgesetzten gemäß den Anweisungen. Unsere Profis winkten die Antwort zurück, indem sie der „goldenen Regel des Programmierers“ folgten - „Funktioniert es?“ Nicht anfassen!".

Rückzug des ersten Tages - Normalerweise kommuniziert das Speichersystem über Warnungen, unter denen es sich lohnt, Warnungen (aus „Warnung“) - Alarme hervorzuheben. Tatsächlich sind dies Warnungen, die ein Alarmereignis signalisieren oder alarmieren. Arten von Warnungen:
Warnungen (aus "Warnung") - Warnungen; Geben Sie normalerweise Zeit, um ruhig zu denken.
Errora (von "Fehler") - Fehler; Beispielsweise stürzte eine Festplatte ab, der Datenzugriff wurde jedoch nicht unterbrochen. Hier lohnt es sich nicht, ihre Entscheidung auf später zu verschieben.
( “Critical Error”) – , , .

(/) , ( /) , . ( ) ,

Bild
(): Unser Ingenieur (Agat-A), der an einem anderen Projekt des Kunden arbeitet, findet diese Fehler heraus und fragt sich: "Was haben sie getan?". Die Antwort lautet: "Nichts, hat einen Fall in Ihrem internen System, das Management ist auf dem neuesten Stand, ..." . Von Seiten des lokalen Administrators wurde alles gemäß dem Standardprozess durchgeführt, eindeutig gemäß den Anweisungen vor zwei Monaten. Auf die Frage - vielleicht brauchen Sie Hilfe, antwortete der Administrator, dass er seinen Teil abgeschlossen hat, aber es gab keine Teams.

Rückzug am zweiten Tag: Die

Einführung und umsichtige Verwendung der Checkliste für die Notfallwiederherstellung hilft dabei, das allgemeine Bild der Maßnahmen wiederherzustellen, und kann auch dazu beitragen, offensichtliche Fehler und unnötigen Aufwand zu vermeiden.

Ein Beispiel für eine Checkliste für die Notfallwiederherstellung eines Komplexes:
, .
— . — .

, , .

, — .


Bild

(): Das Ignorieren von Fehlern führte dazu, dass das Speichersystem weniger schnell reagierte und bereits „aus irgendeinem Grund“ die gestapelten Aufgaben nicht immer in die Länge zog. Die ersten Beschwerden von Kunden über die Arbeitsgeschwindigkeit während der Stoßzeiten traten auf. Und hier schon von einem Profi (dem IT-Manager) nach einem Planungsmeeting gefragt. Er erkannte, dass es Zeit war, etwas zu tun und ging in den "Maschinenraum". Fazit: Tagsüber wurde im Portal des Anbieters ein Fall über ... einen ausgefallenen Controller eröffnet!

Danach bat uns der Kundeningenieur höflich um Hilfe. Unabhängig davon ist zu erwähnen, dass wir, um beim Kauf des Systems Partnerschaft und Lieferantenunterstützung vor Ort zu sparen, diese Probleme „schneiden“ und de jure hätten behandeln sollen, aber aufgrund der guten Beziehungen zum Kunden und der Projekte, die etwa alle anderthalb Jahre durchgeführt werden, Wir sind verbunden, um das Problem auf Wunsch des Kunden zu lösen. Bitten Sie sofort um das Entfernen der Protokolle, wir erhalten sie umgehend, beschreiben die Situation für die Kontaktaufnahme mit dem Anbieter klarer, legen die Wichtigkeit fest usw. Die Protokolle zeigen, dass ein Controller gestorben ist und der zweite abstürzt, aber es behebt Fehler im laufenden Betrieb, und die Batterie im zweiten Controller ist ebenfalls gestorben. Wir geben die Diagnose bekannt (naja, das ist kein Satz), wir beschleunigen die Bestellung von Controllern beim Hersteller, wie üblich waren sie nicht im russischen Lager.

— , . . / .

.
:

.
: ____________________.
: ____________________.
.
: ____________________.
: ____________________.

, .
, .

, , , . , .

:

  • , .. , , .
  • , .. IT-.
  • .
  • IT-.

Vierter Tag (August) : Einige Wochen später überquerten die Controller den Zoll und erreichten den Server-Kunden (auf dem Weg haben wir die Seriennummern neu geschrieben, sie werden benötigt, um den Fall zur Unterstützung des Anbieters beim Senden alter Controller zu schließen). Der Weg vom Zoll zum Server beträgt 2 Tage. Und dann ... begann gemächlich die Realität von neuem. Und warum hatten wir es so eilig? Der Kunde lehnte den vorgeschlagenen Austausch von Steuerungen durch unsere Spezialisten ab oder begleitete diesen Prozess zumindest, wir selbst werden keine Dummköpfe sein, wir werden es herausfinden (wie die Praxis während der Arbeit des vorherigen technischen Direktors gezeigt hat, stimmte dies zu 100%). Entsprechend den Servicebedingungen ist es notwendig (sehr wünschenswert!), Die ausgetauschten alten Steuerungen innerhalb von zwei Wochen an den Hersteller zurückzusenden. Der Hersteller hat den Kunden mehr als einmal an die Rücksendung erinnert.

Der Rückzug des vierten Tages - Menschen sind Menschen, haben keine Angst, eine Frage zu stellen, zögern Sie nicht, um Hilfe zu bitten, und verachten Sie es nicht, sich selbst zu überprüfen. Natürlich gibt es Leute, die an ihrem Buckel, ihrer Erfahrung und ihrer Fähigkeit arbeiten können, 12 Stunden am Tag zu arbeiten und die gesamte organisatorische Komponente in die Länge zu ziehen. Teamwork bedeutet, dass jeder seine Stärken nutzt und nicht umgekehrt. Arbeiten Sie als Spezialisten Sicherungsoptionen durch, bevor kritische Situationen auftreten. Machen Sie sich im Voraus für sie bereit und lassen Sie sich von ihnen überholen. Und selbst wenn etwas passiert, sind Sie bereit und in der Lage, diese Tests mit minimalen Verlusten zu bestehen.

Fünfter Tag (Oktober, Höhepunkt): Das

Folgende ist ein Text, der von unserem Ingenieur aus der ersten Person geschrieben wurde.

Am frühen Morgen, als das Büro etwa 5 Minuten zu Fuß entfernt war, kam ein Anruf von einer unbekannten Nummer. Ich beantworte den Anruf - eine alarmierte Stimme bittet ihre Profis, das Problem mit ihrer Speicherung zu lösen, weil Kunden können nicht auf ihren Service zugreifen. Im Verlauf des Gesprächs versuche ich, den Kunden zu identifizieren. Und genau wie sie erinnere ich mich, dass er (die Profis) SPoF (einen einzigen Fehlerpunkt) als völlig funktionsunfähigen Controller eliminiert zu haben schien, aber er hat den Austausch des zweiten, fehlgeschlagenen Controllers ständig verschoben. Okay, nur der Technikfreak wird weitere technische Details mitteilen, daher koordinieren wir und telefonieren sofort mit den Profis und dem Administrator, übrigens mit einem völlig neuen Administrator, der Anfang September eingestellt wird.

Ich fange an, Fragen zu stellen, viele immer präzisere Fragen, um das Problem zu lokalisieren. Ich zitiere einige Antworten in einer Reihe neuer Admin + -Profis: "Der alte tote Controller für den Austausch fast sofort, Ende August oder Anfang September" ... "Sie haben den zweiten nicht geändert, sie wollten einige Arbeiten mit seinem Ersatz durchführen, die das Herunterfahren des Systems erforderten." ... "bisher hat alles funktioniert" ... "Terroristen und Kritik waren weg" ... "und hier ist das Speichersystem ausgestorben" ... "kein Zugang zum Netzwerk" ... "alle Dienste sind ausgefallen" ... "ein Teil der Lichter ist aus" ... "blinkt nicht wo normalerweise blinzelte "..." Ich verstehe nicht, was das bedeutet. "

Ein paar Minuten später erschien dank der Antworten auf meine Fragen ein Bild, aber dann fand das erste Cover statt. Zu einer anderen Frage: Gibt es eine Sicherungskopie der Controller-Einstellungen, hörte ich plötzlich völlige Stille. Eine Minute später war das Bild fertig: Profi ersetzte (das alte wurde physisch entfernt und an seiner Stelle ein neues eingefügt, zitiere ich: der kritische Fehler verschwand) einen Controller (der vollständig tot war), ohne das Speichersystem auszuschalten. Und eigentlich ist es das! Danach hat er nichts mehr mit ihm gemacht, NICHTS !!! "Das Licht ist an, der kritische Fehler ist weg." Er ließ den Ersatz des zweiten (kaum lebenden Controllers), bis der Speicher ausgeschaltet wurde, was sich um fast anderthalb Monate verzögerte (wieder die zweite Regel in Aktion). Dann bat ich um eine Denkpause (tatsächlich verdauen, weil das Gehirn sich einfach weigerte zu glauben, was sie hörten).

Nachdem ich mich ein wenig erholt habe (wahrscheinlich ein Moment der Stille), merke ich endlich, dass einer gestorben ist, er durch einen leeren neuen ersetzt wurde, der zweite sein Leben gelebt hat (mehr als drei Monate lang hat der arme Kerl allein sein gesamtes System mit einer leeren Batterie gezogen und sofort durch einzelne Fehler korrigiert) und ist auch gestorben. Es gibt keine Kopie der Einstellungen, bei der Personen die Einstellungen nicht sofort beantworten können, die Fernbedienung nicht physisch weitergeben können ("etwas" mit dem Internet) und die Arbeitsstunden verloren gehen.

Zuerst habe ich herausgefunden, wie ich das beheben kann, dann habe ich angefangen, über das Netzwerk zu klären. Ist es möglich, schnell eine Netzwerkkarte zu erhalten (nein, nein, fast nichts zur Hand). Nach ein paar Minuten eines unerwiderten Klopfens an verschiedenen Toren zu verschiedenen Diensten, Speicher- und Netzwerkgeräten (ich fragte und sagte, was zu tun sei, antworteten sie mir, dass sich herausstellte, dass alles ohne Fernbedienung passiert, weil „aus irgendeinem Grund auch kein Internet vorhanden ist“. Die Frage und Antwort erreicht mich, dass DHCP-Server virtuell sind und von diesem Speichersystem aus starten. Sie haben nirgendwo eine Statistik und daher ist ALLES nicht verfügbar. Dies war die zweite Abdeckung (ich dachte nur, dass es keinen Ort gibt, an den man unten gehen kann, ohne dass die Steuerports heruntergefahren sind Statik ist böse.) Okay, diesmal fand ich mich viel schneller wieder, zeichnete einen groben Aktionsplan in meinen Kopf und erklärte ihn meinen „Kollegen“:dass Sie einen Computer oder Laptop mit einem Patchkabel neben dem Speichersystem und Händen in der Nähe benötigen. Weiter benötigen wir: Anweisungen zum Einrichten des Controllers (wenn er fehlt / verloren geht, werde ich ihn sofort finden und senden) und ein „Stück“ der Netzwerkkarte um das Speichersystem („Stück“ = grundlegende Netzwerkeinstellungen). Als dies alles fertig war, konfigurierten wir die neuen Speichercontroller im Grunde genommen und stellten gemäß den Anweisungen eine direkte Verbindung von unserem Laptop mit einem Patchkabel her. Verwenden Sie dabei die gefundenen Netzwerkeinstellungen, erhöhen Sie Ihr DHCP und konfigurieren Sie die bereits im Kampf befindlichen Speichercontroller, heben Sie jedes System an und überprüfen Sie es funktioniert nach Bedarf. Ich finde und sende Anweisungen (übrigens funktioniert Firmenpost auch nicht, da sie auch von dieser SHD abhängt, daher verwende ich persönliche Post ...). Außerdem haben die Profis zu diesem Zeitpunkt mindestens grundlegende Netzwerkeinstellungen für SHD gefunden (IP-Adressen beider Controller usw.). .P.). Die Profis haben endlich verstanden, was zu tun ist,und er sagte, dass er weiter schaffen würde. Ich erinnerte mich, in Kontakt zu sein und loszulassen. Nach einiger Zeit hat sich der Service "24/7" von diesem Kunden verdient.

Für mich passte der ganze Vorfall in vier Dutzend Minuten, und einerseits freute ich mich, dass das Problem schnell online und telefonisch gelöst werden konnte, andererseits war ich sehr überrascht, wie man zu einem solchen Leben gelangen kann. Und auch die Kunden dieses IT-Unternehmens haben diesen Vorfall nicht gewürdigt, weil Der Versprechensdienst sollte rund um die Uhr arbeiten und dies war der Beginn des Arbeitstages (und angesichts der Zeitzonen hatte jemand sogar die Höhe des Arbeitstages).

Bild

Dies könnte das Ende sein, aber für mich ist die Fertigstellung des Falls die Arbeit an den Fehlern. Deshalb haben meine Kollegen und ich versucht zu schreiben: Was kann / sollte in unserer (und nicht nur in unserer) Arbeit geändert werden, um dies in Zukunft zu verhindern.

Dieser Fall stellte sich als freier Job heraus, wir haben dank uns nicht einmal gemurrt. Es ist klar, weil Wir haben gesehen, was der Kunde schnell vergessen möchte, und die Zeugen im Wald begraben. Dieser Fall wurde jedoch zu unserer Sammlung von Spickzettel / Vorlagen für die häufigsten Situationen hinzugefügt, mit denen Administratoren, Ingenieure und Unternehmen bei der Verwendung und Wartung von Speichersystemen und verwandten Systemen konfrontiert sind. Obwohl für einige diese Spickzettel und Anweisungen zu einfach oder sogar eng erscheinen können. In jedem Fall müssen Sie für jedes System Ihre Daten in diese Spickzettel / Vorlagen eingeben (da jeder seine eigene Landschaft, seine eigenen Anforderungen an Informationen und Dienste usw. hat), seine eigenen Schemata zeichnen und seine eigenen Algorithmen entwickeln.

Abschließend geben wir ein Beispiel für eine Sicherungsrichtlinie.

Bild
Ein ähnlicher Spickzettel, der für Ihr System erstellt wurde, kann sowohl einem Anfänger als auch einem Meister sehr helfen. Selbst wenn der Meister alles im Kopf behalten kann, ist er kein Bioroboter mit einem 24/7-Arbeitsplan. Und in jedem Fall erfordert jedes Werkzeug seinen angemessenen Einsatz.

Und mit dem Gesang „Und für diejenigen, die ins Bett gehen, schlafen Sie gut“ beenden wir unsere Geschichte.

All Articles