Alertas y errores de almacenamiento, ¿cómo lidiar con ellos?

No hace mucho tiempo, en la ciudad de N, una empresa de TI especializada en trabajar con datos de clientes realizó con éxito su trabajo en su DC 24/7. El mismo caso cuando el "zapatero con botas", es decir en la empresa de TI, TI estaba bien depurado. Lo interesante comenzó cuando, después de muchos años de trabajo, el director técnico dejó su puesto, que estaba en lo básico, sobre el cual se mantuvo el control sobre el funcionamiento adecuado de toda la vertical de TI. Fue reemplazado por un hombre no menos experimentado (en lo sucesivo denominado "profesional"), e incluso con horizontes más amplios, literalmente fascinó a "negocios" con nuevos horizontes de desarrollo. Pero, como suele suceder, las personas de alto vuelo son muy reacias a descender al suelo al nivel de la administración ordinaria.

imagen

Momento del incidente:

Día uno (abril) : un sistema de almacenamiento local comenzó a enviar alertas y luego aparecieron los primeros errores. Al ver esto, el administrador notificó a su supervisor de acuerdo con las instrucciones. Nuestros profesionales rechazaron la respuesta siguiendo la "regla de oro del programador": "¿Funciona?" ¡No tocar!".

Retirada del primer día: por lo general, el sistema de almacenamiento se comunica mediante alertas, entre las cuales vale la pena resaltar Alertas (de "Alerta"): alarmas. De hecho, estas son alertas que señalan un evento de alarma o lo alertan. Tipos de alertas:
Advertencias (de "Advertencia") - advertencias; generalmente dan tiempo para pensar con calma.
Errora (de "Error") - errores; por ejemplo, un disco se bloqueó, pero el acceso a los datos no se interrumpió; aquí no vale la pena posponer su decisión hasta más tarde.
( “Critical Error”) – , , .

(/) , ( /) , . ( ) ,

imagen
(): nuestro ingeniero (Agat-A), trabajando en otro proyecto del cliente, descubre estos errores y se pregunta "¿qué hicieron?", la respuesta es "nada, tengo un caso en su sistema interno, la administración está actualizada, ..." . Del lado del administrador local, todo se hizo de acuerdo con el proceso estándar, claramente de acuerdo con las instrucciones de hace dos meses. A la pregunta: tal vez necesite ayuda, el administrador respondió que completó su parte, pero no había equipos.

Retiro del segundo día: la

introducción y el uso prudente de la lista de verificación de recuperación ante desastres ayudará a restaurar la imagen general de las acciones, y también puede ayudar a evitar errores obvios y problemas innecesarios.

Un ejemplo de una lista de verificación para la recuperación ante desastres de un complejo:
, .
— . — .

, , .

, — .


imagen

(): ignorar los errores llevó al hecho de que el sistema de almacenamiento se volvió menos receptivo y ya "por alguna razón" no siempre arrastraba las tareas acumuladas, aparecieron las primeras quejas de los clientes sobre la velocidad del trabajo durante las horas pico. Y aquí ya un profesional (el gerente de TI) preguntó en una reunión de planificación. Se dio cuenta de que era hora de hacer algo y bajó a la "sala de máquinas". En pocas palabras: durante el día, se abrió un caso en el portal del proveedor sobre ... ¡un controlador fallido!

Después de eso, el ingeniero del cliente cortésmente nos pidió ayuda. Por separado, es necesario mencionar que con el fin de ahorrar la colaboración en el sitio y el soporte del proveedor al comprar el sistema, "cortamos" y de jure no deberíamos haber tratado estos problemas en absoluto, pero, debido a la presencia de buenas relaciones con el cliente y los proyectos que se implementan aproximadamente una vez al año y medio, Estamos conectados para resolver el problema a pedido del cliente. Inmediatamente solicite eliminar los registros, los recibimos de inmediato, describimos más claramente la situación para contactar al proveedor, establecemos la importancia, etc. Los registros muestran que un controlador murió y el segundo falla, pero soluciona los errores sobre la marcha, y la batería en el segundo controlador también ha muerto. Anunciamos el diagnóstico (bueno, eso no es una oración), aceleramos el pedido de controladores del fabricante, como de costumbre, no estaban en el almacén ruso.

— , . . / .

.
:

.
: ____________________.
: ____________________.
.
: ____________________.
: ____________________.

, .
, .

, , , . , .

:

  • , .. , , .
  • , .. IT-.
  • .
  • IT-.

Cuarto día (agosto) : unas semanas más tarde, los controladores cruzaron la aduana y llegaron al cliente del servidor (en el camino, reescribimos los números de serie, serán necesarios para cerrar el caso en apoyo del vendedor al enviar controladores antiguos). La ruta de la aduana al servidor es de 2 días. Y entonces ... la realidad pausada comenzó de nuevo. ¿Y por qué teníamos tanta prisa? El cliente rechazó el reemplazo propuesto de controladores con nuestros especialistas, o al menos acompañando este proceso, nosotros mismos no seremos tontos, lo resolveremos (como lo demostró la práctica durante el trabajo del director técnico anterior, esto era 100% cierto). De acuerdo con las condiciones del servicio, es necesario (¡muy deseable!) Enviar los controladores viejos reemplazados al fabricante dentro de dos semanas. El fabricante le recordó al cliente la devolución más de una vez.

El retiro del cuarto día: las personas deben ser humanas, no tengan miedo de hacer una pregunta, no duden en pedir ayuda y no desdeñen volver a comprobarlo. Por supuesto, hay personas que pueden trabajar en su joroba, experiencia y capacidad para trabajar 12 horas al día, arrastrando todo el componente organizacional. El trabajo en equipo implica que todos usan sus fortalezas, y no al revés. Como especialistas, trabaje a través de las opciones de respaldo antes de que ocurran situaciones críticas. Prepárese para ellos de antemano y déjelos pasar. E incluso si sucede algo, estará listo y podrá pasar estas pruebas con pérdidas mínimas.

Día cinco (octubre, Climax): el

siguiente es un texto escrito por nuestro ingeniero en primera persona.

Temprano en la mañana, cuando la oficina estaba a unos 5 minutos a pie, recibió una llamada de un número desconocido. Respondo la llamada: una voz alarmada les pide a sus profesionales que ayuden a resolver el problema con su almacenamiento, porque Los clientes no pueden acceder a su servicio. En el transcurso de la conversación, trato de identificar al cliente. Y, al igual que ellos, recuerdo que él (los profesionales) parecía haber eliminado SPoF (un solo punto de falla) como un controlador completamente inoperativo, pero constantemente pospuso el reemplazo del segundo, que fallaba. De acuerdo, solo el técnico le dirá más detalles técnicos, por lo tanto, coordinamos e inmediatamente hacemos una llamada con los profesionales y el administrador, por cierto con un administrador completamente nuevo, que resulta ser contratado a principios de septiembre.

Empiezo a hacer preguntas, muchas más y más precisas, tratando de localizar el problema. Cito algunas respuestas en un grupo de nuevos administradores + profesionales: "el viejo controlador muerto para reemplazos casi de inmediato, a fines de agosto o principios de septiembre" ... "no cambiaron el segundo, querían hacer un trabajo con su reemplazo que requería apagar el sistema" ... "hasta ahora todo ha funcionado" ... "los terroristas y las críticas se habían ido" ... "y aquí el sistema de almacenamiento se ha extinguido" ... "no hay acceso a la red" ... "todos los servicios han caído" ... "parte de las luces están apagadas" ... "no parpadea donde generalmente parpadeaba "..." No entiendo lo que esto significa ".

Unos minutos más tarde, gracias a las respuestas a mis preguntas, apareció una imagen, pero luego tuvo lugar la primera portada. A otra pregunta: ¿hay una copia de seguridad de la configuración del controlador? De repente escuché un silencio total. Un minuto después, se completó la imagen: Profi reemplazó (quitó físicamente el viejo e insertó uno nuevo en su lugar, cito: el error crítico desapareció) un controlador (el que estaba completamente muerto) sin apagar el sistema de almacenamiento. Y en realidad, eso es todo! Después de eso, ¡no hizo nada más con él, NADA! "La luz está encendida, el error crítico se ha ido". Dejó el reemplazo del segundo (controlador apenas vivo) hasta que se apagó el almacenamiento, que se retrasó durante casi un mes y medio (nuevamente, la segunda regla en acción). Luego pedí una pausa para pensar (en realidad digerir, porque el cerebro simplemente se negó a creer lo que escucharon).

Habiendo recuperado un poco mis sentidos (probablemente un momento de silencio), finalmente me doy cuenta: uno murió, fue reemplazado por uno nuevo y vacío, el segundo vivió su vida (durante más de tres meses, el pobre hombre solo sacó todo su sistema con una batería agotada e inmediatamente lo corrigió por errores únicos) y también murió. No hay una copia de la configuración, donde las personas no pueden obtenerla de inmediato, no pueden entregar físicamente el control remoto ("algo" con Internet) y se pierden las horas de trabajo.

Primero descubrí cómo solucionar esto, luego comencé a aclarar sobre la red, ¿es posible obtener rápidamente un mapa de red (no, no, casi nada a la mano). Después de un par de minutos de un golpe no correspondido en diferentes puertas a diferentes servicios, almacenamiento y equipos de red (pregunté y dije qué hacer, me respondieron que resultó que todo sucede sin un control remoto, porque "por alguna razón tampoco hay Internet". la pregunta y la respuesta me llegan de que los servidores dhcp son virtuales y comienzan desde este sistema de almacenamiento, no tienes ninguna estática en ningún lado y, por lo tanto, TODO no está disponible. Esta fue la segunda cubierta (solo pensé que no había ningún lugar a donde ir abajo, los puertos de control desactivados sin la estática es malvada.) Bien, esta vez me encontré mucho más rápido, dibujé un plan de acción aproximado en mi cabeza y se lo expliqué a mis "colegas":que necesita una computadora o computadora portátil con un cable de conexión al lado del sistema de almacenamiento y las manos cerca. Además, necesitamos: instrucciones para configurar el controlador (si falta / se pierde, lo encontraré inmediatamente y lo enviaré) y una "pieza" del mapa de red alrededor del sistema de almacenamiento ("pieza" = configuración básica de red). Cuando todo esto estaba listo, básicamente configuramos los nuevos controladores de almacenamiento, conectándolos directamente desde nuestra computadora portátil con un cable de conexión de acuerdo con las instrucciones, usando la configuración de red encontrada, elevamos su DHCP y configuramos los controladores de almacenamiento ya en batalla, levantando cada sistema y verificando que Funciona según sea necesario. Encuentro y envío instrucciones (por cierto, el correo corporativo tampoco funciona, porque también depende de este SHD, por lo tanto, uso correo personal ...), además, para este momento, los profesionales han encontrado al menos la configuración de red básica para SHD (direcciones IP de ambos controladores, etc.) .PAGS.). Los profesionales finalmente entendieron qué hacer,y dijo que lo lograría más. Recordé estar en contacto y dejarlo ir. Después de algún tiempo, el servicio "24/7" de este cliente se ha ganado.

Para mí, todo el incidente encajó en cuatro docenas de minutos y, por un lado, me complació que fuera posible resolver el problema rápidamente en línea y por teléfono, por otro lado, me sorprendió mucho cómo puede llegar a tal vida. Y los clientes de esta empresa de TI tampoco apreciaron este incidente, porque se suponía que el servicio de promesa debía funcionar las 24 horas del día, los 7 días de la semana y este era el comienzo del día laboral (y dadas las zonas horarias, alguien incluso tenía la altura del día laboral).

imagen

Este podría ser el final, pero para mí la conclusión del caso es trabajar en los errores. Por lo tanto, mis colegas y yo intentamos escribir: qué puede / debe cambiarse en nuestro (y no solo nuestro) trabajo para evitar que esto suceda en el futuro.

Este caso resultó ser solo un trabajo gratuito, ni siquiera gruñimos gracias. Está claro, porque vimos lo que al cliente le gustaría olvidar rápidamente y enterrar a los testigos en el bosque. Pero este caso se agregó a nuestra colección de hojas de cálculo / plantillas para las situaciones más comunes que enfrentan los administradores, ingenieros y empresas al usar y mantener sistemas de almacenamiento y sistemas relacionados. Aunque para algunos, estas hojas de trucos e instrucciones pueden parecer demasiado simples o incluso estrechas. En cualquier caso, para cada sistema, debe ingresar sus datos en estas hojas / plantillas de trucos (porque cada uno tiene su propio paisaje, sus propios requisitos de información y servicios, etc.), dibujar sus propios esquemas, desarrollar sus propios algoritmos.

Finalmente, damos un ejemplo de una política de respaldo.

imagen
Una hoja de trucos similar creada para su sistema puede ayudar mucho tanto a un novato como a un maestro. Incluso si el maestro puede mantener todo en su cabeza, no es un biorobot con un horario de trabajo 24/7. Y en cualquier caso, cualquier herramienta requiere su uso razonable.

Y cantando "Y a los que se acuestan, que duerman bien" terminamos nuestra historia.

All Articles