Alertes et erreurs de stockage, comment les gérer?

Il n'y a pas si longtemps, dans la ville de N, une entreprise informatique spécialisée dans l'utilisation des données clients a mené à bien ses travaux dans son DC 24/7. Le même cas lorsque le «cordonnier en bottes», c'est-à-dire dans l'entreprise informatique, l'informatique était bien déboguée. La chose intéressante a commencé lorsque, après de nombreuses années de travail, le directeur technique a quitté son poste, qui se tenait à la base, sur lequel le contrôle du bon fonctionnement de l'ensemble de la verticale informatique a été maintenu. Il a été remplacé par une personne non moins expérimentée (ci-après dénommée «pros»), et même avec des horizons plus larges, il a littéralement fasciné le «business» avec de nouveaux horizons de développement. Mais, comme cela arrive souvent, les personnes de haut vol sont très réticentes à descendre au sol au niveau de l'administration ordinaire.

image

Moment de l'incident:

Premier jour (avril) : un système de stockage local a commencé à verser des alertes, puis les premières erreurs sont apparues parmi eux. Voyant cela, l'administrateur a informé son superviseur conformément aux instructions. Nos pros ont renvoyé la réponse en suivant la «règle d'or du programmeur» - «Ça marche?» Ne pas toucher!".

Retraite du premier jour - Habituellement, le système de stockage communique à l'aide d'alertes, parmi lesquelles il convient de mettre en évidence les alertes (de «Alerte») - les alarmes. En fait, ce sont des alertes qui signalent un événement d'alarme ou l'alerte. Types d'alertes:
Avertissements (de «Avertissement») - avertissements; donne généralement le temps de réfléchir calmement.
Errora (de "Error") - erreurs; par exemple, un disque est tombé en panne, mais l'accès aux données n'a pas été interrompu; ici, cela ne vaut pas la peine de reporter leur décision à plus tard.
( “Critical Error”) – , , .

(/) , ( /) , . ( ) ,

image
(): notre ingénieur (Agat-A), travaillant sur un autre projet du client, découvre ces erreurs, et s'intéresse à "qu'est-ce que vous avez fait?", la réponse est "rien, a un dossier dans votre système interne, la gestion est à jour, ..." . Du côté de l'administrateur local, tout a été fait selon le processus standard, clairement selon les instructions d'il y a deux mois. À la question - peut-être avez-vous besoin d'aide, l'administrateur a répondu qu'il avait terminé sa partie, mais qu'il n'y avait pas d'équipes.

Retraite du deuxième jour: L'

introduction et l'utilisation prudente de la liste de contrôle de reprise après sinistre aideront à restaurer l'image générale des actions, et peuvent également aider à éviter les erreurs évidentes et les histoires inutiles.

Un exemple de liste de contrôle pour la reprise après sinistre d'un complexe:
, .
— . — .

, , .

, — .


image

(): ignorer les erreurs a conduit au fait que le système de stockage est devenu moins réactif et que déjà «pour une raison quelconque» ne traînait pas toujours les tâches qui s'empilaient, les premières plaintes des clients sur la vitesse de travail aux heures de pointe sont apparues. Et ici déjà d'un pro (le responsable informatique) a demandé une réunion de planification. Il s'est rendu compte qu'il était temps de faire quelque chose et est descendu dans la "salle des machines". Conclusion - au cours de la journée, une affaire a été ouverte sur le portail du vendeur concernant ... un contrôleur défaillant!

Après cela, l'ingénieur client nous a poliment demandé de l'aider. Séparément, il est nécessaire de mentionner que pour économiser le soutien des partenaires et des fournisseurs sur site lors de l'achat du système, nous «coupons» et de jure nous n'aurions pas du tout réglé ces problèmes, mais, en raison de la présence de bonnes relations avec le client et des projets mis en œuvre environ une fois par an et demi, Nous sommes connectés pour résoudre le problème à la demande du client. Demandez immédiatement de supprimer les journaux, nous les recevons rapidement, décrivons plus clairement la situation pour contacter le vendeur, définissez l'importance, etc. Les journaux montrent qu'un contrôleur est mort et que le deuxième plante, mais il corrige les erreurs à la volée et la batterie du deuxième contrôleur est également morte. Nous annonçons le diagnostic (enfin, ce n'est pas une phrase), nous accélérons la commande des contrôleurs du fabricant, comme d'habitude, ils n'étaient pas dans l'entrepôt russe.

— , . . / .

.
:

.
: ____________________.
: ____________________.
.
: ____________________.
: ____________________.

, .
, .

, , , . , .

:

  • , .. , , .
  • , .. IT-.
  • .
  • IT-.

Quatrième jour (août) : quelques semaines plus tard, les contrôleurs ont franchi la douane et ont atteint le client du serveur (en cours de route, nous avons réécrit les numéros de série, ils seront nécessaires pour fermer le dossier à l'appui du vendeur lors de l'envoi d'anciens contrôleurs). Le chemin entre les douanes et le serveur est de 2 jours. Et puis ... tranquillement, la réalité a recommencé. Et pourquoi étions-nous si pressés? Le client a refusé le remplacement proposé des contrôleurs par nos spécialistes, ou du moins accompagnant ce processus, nous ne serons pas nous-mêmes des imbéciles, nous allons le comprendre (comme la pratique l'a montré lors des travaux du précédent directeur technique, c'était 100% vrai). Selon les conditions de service, il est nécessaire (très souhaitable!) De renvoyer les anciens contrôleurs remplacés au fabricant dans un délai de deux semaines. Le fabricant a rappelé plus d'une fois au client le retour.

La retraite du quatrième jour - les gens soient humains, n'ayez pas peur de poser une question, n'hésitez pas à demander de l'aide et ne dédaignez pas de vous revérifier. Bien sûr, il y a des gens qui peuvent travailler sur leur bosse, leur expérience et leur capacité à travailler 12 heures par jour, faire glisser l'ensemble de la composante organisationnelle. Le travail d'équipe implique que chacun utilise ses forces et non l'inverse. En tant que spécialistes, étudiez les options de sauvegarde avant que des situations critiques ne se produisent. Préparez-vous à l'avance et laissez-les passer. Et même si quelque chose se produit, vous serez prêt et capable de passer ces tests avec un minimum de pertes.

Jour cinq (octobre, Climax): Ce qui

suit est un texte écrit par notre ingénieur à la première personne.

Tôt le matin, alors que le bureau était à environ 5 minutes à pied, un appel est venu d'un numéro inconnu. Je réponds à l'appel - une voix alarmée demande à leurs professionnels d'aider à résoudre le problème de leur stockage, car les clients ne peuvent pas accéder à leur service. Au cours de la conversation, j'essaie d'identifier le client. Et, tout comme eux, je me souviens qu'il (les pros) semblait avoir éliminé SPoF (un seul point de défaillance) en tant que contrôleur complètement inopérant, mais il reportait constamment le remplacement du second, à défaut. D'accord, seul le technicien vous dira plus de détails techniques, donc nous coordonnons et passons immédiatement l'appel avec les pros et l'administrateur, en passant avec un administrateur complètement nouveau, qui se révèle être embauché début septembre.

Je commence à poser des questions, beaucoup de questions de plus en plus précises, en essayant de localiser le problème. Je cite quelques réponses dans un tas de nouveaux administrateurs + pros: "l'ancien contrôleur de remplacement mort presque immédiatement, fin août ou début septembre" ... "ils n'ont pas changé le second, ils voulaient travailler avec son remplacement qui a nécessité l'arrêt du système" ... "jusqu'à présent, tout a fonctionné" ... "les terroristes et les critiques ont disparu" ... "et ici le système de stockage est éteint" ... "aucun accès au réseau" ... "tous les services sont tombés" ... "une partie des lumières sont éteintes" ... "ne clignote pas où habituellement cligné des yeux "..." Je ne comprends pas ce que cela signifie. "

Quelques minutes plus tard, grâce aux réponses à mes questions, une photo est apparue, mais la première couverture a eu lieu. À une autre question: existe-t-il une copie de sauvegarde des paramètres du contrôleur, j'ai soudain entendu un silence complet. Une minute plus tard, l'image était terminée: Profi a remplacé (retiré physiquement l'ancien et inséré un nouveau à sa place, je cite: l'erreur critique a disparu) un contrôleur (celui qui était complètement mort) sans éteindre le système de stockage. Et en fait, c'est tout! Après ça, il n'a plus rien fait avec lui, RIEN !!! "La lumière est allumée, l'erreur critique a disparu." Il a laissé le remplacement du second (contrôleur à peine vivant) jusqu'à ce que le stockage soit éteint, ce qui a été retardé de près d'un mois et demi (encore une fois, la deuxième règle en action). Puis j'ai demandé une pause pour réfléchir (en fait digérer, parce que le cerveau refusait tout simplement de croire ce qu'ils avaient entendu).

Après avoir récupéré un peu (probablement un moment de silence), je me rends finalement compte que l'un est mort, il a été remplacé par un nouveau vide, le second a vécu sa vie (pendant plus de trois mois, le pauvre garçon seul a tiré tout son système avec une batterie morte et immédiatement corrigé par des erreurs simples) et est également mort. Il n’existe pas de copie des paramètres, où les gens ne peuvent pas immédiatement obtenir les paramètres eux-mêmes, ils ne peuvent pas donner physiquement la télécommande («quelque chose» avec Internet) et les heures de travail sont perdues.

J'ai d'abord trouvé comment résoudre ce problème, puis j'ai commencé à clarifier le réseau, est-il possible d'obtenir rapidement une carte du réseau (non, non, presque rien à portée de main). Après quelques minutes de frappe non rémunérée à différentes portes vers différents services, équipements de stockage et réseau (j'ai demandé et dit quoi faire, ils m'ont répondu qu'il s'est avéré que tout se passait sans télécommande, car "pour une raison quelconque, il n'y a pas non plus d'Internet." la question et la réponse me parviennent que les serveurs DHCP sont virtuels et qu'ils partent de ce système de stockage, vous n'avez aucune statique nulle part et donc TOUT n'est pas disponible. C'était la deuxième couverture (je pensais juste qu'il n'y avait nulle part où aller en dessous, les ports de contrôle renversés sans la statique est diabolique.) D'accord, cette fois je me suis retrouvé beaucoup plus vite, j'ai dessiné un plan d'action approximatif dans ma tête et l'ai expliqué à mes «collègues»:que vous avez besoin d'un ordinateur ou d'un ordinateur portable avec un cordon de raccordement à côté du système de stockage et des mains à proximité. De plus, nous avons besoin: d'instructions pour configurer le contrôleur (s'il est manquant / perdu, alors je le trouverai immédiatement et je l'enverrai) et une "partie" de la carte du réseau autour du système de stockage ("pièce" = paramètres réseau de base). Lorsque tout cela a été prêt, nous configurons essentiellement les nouveaux contrôleurs de stockage, en les connectant directement à partir de notre ordinateur portable avec un cordon de raccordement selon les instructions, en utilisant les paramètres réseau trouvés, augmentez votre DHCP et configurez les contrôleurs de stockage déjà au combat, en soulevant chaque système et en vérifiant qu'il fonctionne au besoin. Je trouve et envoie des instructions (en passant, le courrier d'entreprise ne fonctionne pas non plus, car cela dépend également de ce SHD, donc j'utilise le courrier personnel ...), et à ce moment-là, les pros ont trouvé au moins les paramètres réseau de base pour SHD (adresses IP des deux contrôleurs, etc.) .P.). Les pros ont finalement compris quoi faire,et il a dit qu'il allait gérer plus loin. Je me rappelais avoir été en contact et avoir lâché prise. Après un certain temps, le service «24/7» de ce client a gagné.

Pour moi, tout l'incident s'est déroulé en quatre douzaines de minutes, et d'une part, j'étais heureux qu'il soit possible de résoudre le problème rapidement en ligne et par téléphone, d'autre part, j'ai été très surpris de voir comment vous pouvez arriver à une telle vie. Et les clients de cette société informatique n’ont pas non plus apprécié cet incident, car le service de promesse était censé fonctionner 24h / 24 et 7j / 7 et c'était le début de la journée de travail (et compte tenu des fuseaux horaires, quelqu'un avait même la hauteur de la journée de travail).

image

Cela pourrait être la fin, mais pour moi, l'achèvement de l'affaire est un travail sur les bugs. Par conséquent, mes collègues et moi avons essayé d'écrire: ce qui peut / devrait être changé dans notre (et pas seulement notre) travail afin d'éviter que cela ne se reproduise à l'avenir.

Cette affaire s'est avérée être un travail gratuit, nous n'avons même pas grommelé grâce à nous. C’est clair, car nous avons vu ce que le client aimerait oublier rapidement et enterrer les témoins dans la forêt. Mais ce cas a ajouté à notre collection de feuilles de triche / modèles pour les situations les plus courantes rencontrées par les administrateurs, les ingénieurs et les entreprises lors de l'utilisation et de la maintenance des systèmes de stockage et des systèmes connexes. Bien que pour certains, ces astuces et instructions peuvent sembler trop simples ou même étroites. Dans tous les cas, pour chaque système, vous devez entrer vos données dans ces feuilles de triche / modèles (après tout, chacun a son propre paysage, ses propres exigences en matière d'informations et de services, etc.), dessiner ses propres schémas, développer ses propres algorithmes.

Enfin, nous donnons un exemple de politique de sauvegarde.

image
Une feuille de triche similaire créée pour votre système peut grandement aider à la fois un novice et un maître. Même si le maître peut tout garder dans sa tête, il n'est pas un biorobot avec un horaire de travail 24/7. Et dans tous les cas, tout outil nécessite son utilisation raisonnable.

Et en chantant «Et à ceux qui vont se coucher, dormez bien», nous terminons notre histoire.

All Articles