存储的警报和错误,如何处理?

不久前,在N市,一家专门处理客户数据的IT公司在其DC 24/7中成功进行了工作。 “靴子中的鞋匠”也是如此在IT公司中,IT调试良好。有趣的事情开始于,经过多年的工作,技术总监离开了他的职位,他站在基础上,在那一职位上,他可以控制整个IT行业的正常运作。他被经验丰富的人(以下简称“专业人士”)所取代,即使视野开阔,他也确实以新的发展视野着迷“商业”。但是,经常发生的情况是,高飞的人们非常不愿意在普通行政管理级别上屈服。

图片

事件发生的时间:第一

天(4月):一个本地存储系统开始注入警报,然后其中的第一个错误出现了。看到此,管理员根据指示通知了他的主管。我们的专业人士遵循“程序员的黄金法则”-“行之有效吗?”不要碰!”。

第一天撤退-通常,存储系统使用警报进行通信,其中值得强调的是警报(来自“警报”)-警报。实际上,这些警报是发出警报事件或发出警报的信号。警报类型:
警告(来自“警告”)-警告;通常要花时间冷静思考。
错误(来自“错误”)-错误;例如,磁盘崩溃,但数据访问未中断;在这里不值得将他们的决定推迟到以后。
严重错误(来自“严重错误”)-严重错误,有保证 发生故障,需要立即解决。

在体系结构的开发(完善/更改)阶段,以灾难恢复计划的形象出现(随后进行补充/更改)表格,从最极端的情况开始,以最轻的情况结束。下面是准备此类计划的一个示例(重要的是创建自己的计划并维护与系统的相关性很重要),可以从
第二天(6月)链接下载带有灾难恢复计划示例的完整表格。
图片
:我们的工程师(Agat-A)正在处理客户的另一个项目,发现了这些错误,并想知道“他们做了什么?”,答案是“什么都没有,在您的内部系统中找到案例,管理是最新的……” 。在本地管理员方面,一切都按照标准流程完成,显然是按照两个月前的指示进行的。对于这个问题-也许您需要帮助,这位管理员回答说他已经完成了自己的职责,但是没有团队。

第二天静修:

灾难恢复检查表引入和谨慎使用将有助于恢复总体行动情况,还可以避免明显的错误和不必要的麻烦。

复杂项目灾难恢复检查清单的示例:
, .
— . — .

, , .

, — .


图片

():忽略错误导致了这样一个事实,即存储系统的响应速度变慢,并且“由于某种原因”并不总是将已堆积的任务拖出来,因此出现了客户对高峰时段工作速度的第一个抱怨。专家(IT经理)已经在这里召开了计划会议。他意识到是时候做点什么了,然后下到“引擎室”。底线-白天,在供应商的门户上打开了一个有关...控制器故障的案例!

之后,客户工程师礼貌地要求我们提供帮助。另外,有必要提一下,为了节省购买系统时的现场合作伙伴关系和供应商支持,我们“切入”并在法律上完全不应该处理这些问题,但是由于与客户之间存在良好的关系,并且大约每年半执行一次项目,我们可以根据客户的要求解决问题。立即要求删除日志,我们会及时收到它们,更清楚地描述与供应商联系的情况,设置重要性等。日志显示一个控制器死亡,第二个控制器崩溃,但它可以立即修复错误,第二个控制器中的电池也已失效。我们宣布诊断(不是说一句话),我们加快了从制造商那里订购控制器的订单,照常,它们不在俄罗斯仓库中。

— , . . / .

.
:

.
: ____________________.
: ____________________.
.
: ____________________.
: ____________________.

, .
, .

, , , . , .

:

  • , .. , , .
  • , .. IT-.
  • .
  • IT-.

第四天(八月):几周后,管制员越过海关到达了服务器客户(顺便说一句,我们改写了序列号,在发送旧管制员时需要关闭它们以支持供应商)。从海关到服务器的路径为2天。然后……悠闲的现实又开始了。为什么我们这么着急呢?客户拒绝与我们的专家一起提议更换控制器的提议,或者至少伴随此过程,我们自己不会是傻子,我们会弄清楚(正如前任技术总监在工作中所表明的那样,这是100%正确的)。根据服务条件,有必要(非常需要!)在两周内将更换的旧控制器寄回制造商。制造商多次提醒客户退货。

第四天的务虚会-人们是人,不要害怕问一个问题,不要犹豫寻求帮助,也不要轻视自己。当然,有些人凭借自己的驼峰,经验和每天工作12小时的能力,可以拖累整个组织部门。团队合作意味着每个人都利用自己的优势,而不是相反。作为专家,在紧急情况发生之前,请仔细研究备份选项。提前为他们做好准备,让他们通过。即使发生了某些事情,您也将准备好并能够以最小的损失通过这些测试。

第五天(十月,高潮):

以下是我们第一人称工程师写的文字。

清晨,当办公室步行约5分钟时,一个未知号码打来电话。我接听电话-警惕的声音请专业人士帮助解决存储问题,因为客户无法访问他们的服务。在对话过程中,我试图确定客户。而且,就像他们一样,我记得他(专家)似乎已经消除了SPoF(单点故障)作为完全不起作用的控制器,但是他一直推迟更换第二个失败的控制器。好的,只有技术人员才能提供更多技术细节,因此,我们与专业人士和管理员进行协调,并立即与一名新的管理员进行电话接洽,该管理员最终于9月初被录用。

我开始提出问题,以及越来越多的精确问题,试图定位问题所在。我用一堆新的管理员+专业人士的话引述了一些答案:“几乎是在8月底或9月初立即使用旧的死控制器进行替换”……“他们没有改变第二个控制器,他们想做一些替换工作,需要关闭系统” ……“到目前为止一切正常”……“恐怖分子和批评消失了……”“这里的存储系统已经消失了”……“无法访问网络”……“所有服务都下降了”……“部分灯灭了”……“在不闪烁的地方通常眨眼“ ...”,我不明白这是什么意思。”

几分钟后,由于我的问题的答案,出现了一张照片,但随后进行了第一张封面。另一个问题:是否有控制器设置的备份副本,我突然听到完全静音。一分钟后,图片完成了:Profi替换了(物理上删除了旧的,然后在他的位置插入了新的,我引用:严重错误消失了)一个控制器(完全死了)而不关闭存储系统。实际上,就是这样!在那之后,他再也没有做任何事情了! “灯亮,严重错误消失了。”他留下了第二个控制器的替换(光秃秃的控制器),直到存储被关闭为止,这延迟了将近一个半月(再次,第二个规则在起作用)。然后我要求停下来思考(实际上是消化,因为大脑只是拒绝相信他们听到的声音)。

经过一番感触(可能是沉默的一刻),我终于意识到:一个人死了,被一个空的新人取代了,一个人活了(三个多月以来,这个可怜的家伙独自一人耗尽了整个电池,并立即被一个错误纠正了),也死了。没有设置的副本,人们无法立即自己获得设置,无法以物理方式提供远程控制(Internet上的“某物”),从而浪费了工时。

首先,我想出了解决方法,然后我开始澄清网络,是否可以快速获取网络地图(不,不,几乎没有东西)。在几分钟之后,无意间敲响了通往不同服务,存储和网络设备的大门(我问并说了怎么做,他们回答我说事实证明,一切都发生在没有遥控器的情况下,因为“由于某种原因,也没有互联网。”问题和答案告诉我dhcp服务器是虚拟的,它们是从此存储系统启动的,您在任何地方都没有任何静态信息,因此所有内容均不可用。这是第二篇。(我只是以为下面没有地方可以去了,控制端口已关闭而没有静电是邪恶的。)好吧,这次我发现自己快得多,在脑海中画了一个粗略的行动计划,并向我的“同事”解释了一下:您需要一台带有跳线的计算机或笔记本电脑,该跳线必须位于存储系统旁边,并且要放在附近。我们还需要:设置控制器的说明(如果丢失/丢失,则我将立即找到并发送它)以及存储系统周围的网络图的“一部分”(“部分” =基本网络设置)。当所有这些准备就绪后,我们就基本上配置了新的存储控制器,根据说明,使用跳线直接从我们的笔记本电脑连接新存储控制器,使用找到的网络设置,提升DHCP并配置已经投入使用的存储控制器,抬起每个系统并检查是否已安装根据需要工作。我找到并发送了指令(顺便说一句,公司邮件也无法使用,因为它也依赖于此SHD,因此我使用个人邮件...),并且到那时专业人士至少已经找到了SHD的基本网络设置(两个控制器的IP地址等)。 .P。)。专业人员终于了解了该怎么做,他说他会进一步处理。我想起了联系并放手。一段时间后,该客户获得了“ 24/7”服务。

对我来说,整个事件发生在四分钟之内,一方面,我很高兴可以通过在线和电话迅速解决问题,另一方面,我很惊讶您如何过上这样的生活。该IT公司的客户也没有意识到此事件,因为应答服务应该按24/7进行工作,而这是工作日的开始(考虑到时区,某人甚至有工作日的高峰)。

图片

这可能就此结束,但对我而言,本案的完成是针对错误的工作。因此,我和我的同事试图写:在我们(不仅是我们的)工作中可以/应该改变什么,以防止将来发生这种情况。

事实证明,这只是一个免费的工作,感谢我们,我们什至没有抱怨。很明显,因为我们看到了客户想要迅速忘记的东西,并将证人埋在森林里。但是,这种情况增加了我们的备忘单/模板集合,适用于管理员,工程师和企业在使用和维护存储系统及相关系统时遇到的最常见情况。尽管对于某些人来说,这些备忘单和说明可能看起来过于简单,甚至过于狭窄。无论如何,对于每个系统,您都需要在这些备忘单/模板中输入数据(因为每个人都有自己的概况,对信息和服务的要求等),制定自己的方案,开发自己的算法。

最后,我们以备份策略为例。

图片
为您的系统创建的相似备忘单可以极大地帮助新手和新手。即使主人可以将所有事情都掌握在脑子里,他也不是一个工作日程为24/7的生物机器人。在任何情况下,任何工具都需要合理使用。

并高喊“对那些上床睡觉的人来说,睡个好觉”,我们结束了我们的故事。

All Articles