2017年8月16日
当,某些地区正在迎来台风暑热时,我司某客户却不得迎来更大的风暴——他们的财务系统正面临这数据丢失的风险。
该客户的财务系统运行在一台IBM X3650M5服务器上,操作系统是RedHat6.5,数据库是ORA,由于客户设备较少、架构简单,暂把一些服务器暂存在他的一家兄弟公司机房内,设备各自管理。而恰恰就是因为寄放在别人的寄放,就差点酿成一场悲剧。
2017年8月17日
该客户访问该系统时,突然访问变慢,发现系统CPU负载和磁盘读写速率均过高,一度高达80%-90%。但此时客户仍不以为然,觉得只是网络延迟卡顿引起的访问过慢。
2017年8月18日上午
一大早上班客户访问该系统时,突然访问不了,发现系统已经宕机。X3650M5本地的4块硬盘在启动自检时,4块硬盘竟然同时亮黄色指示灯!随后系统一直在循环的自检开机,无法看到RedHat经典的红帽子启动画面。客户有一些慌乱,如果是硬盘全部损坏,那么最糟糕的是数据的备份是放在服务器本地硬盘,数据可能全部丢失,一场数据的暴风雨即将来临。
2017年8月18日下午
客户拨打IBM800售后服务热线,由于服务器的保修级别是5*9服务,IBM工程师要到次日才能上门。
2017年8月19日
IBM工程师上门检测后,发现并非是单个硬盘故障,且面临数据丢失的风险,IBM工程师当场拒绝了更换备件,并建议客户先把操作系统恢复正常后才更换备件。客户一下次慌了,此时此刻的心情,正如此时的天气,变得异常压抑。由于该服务器并无购买维保服务,但客户想到以前维保商是我司,当日,客户拨打了公司的服务电话,寻求最后一丝的希望,接电话的是我司的400热线值班小组,当接到故障报修,简单询问了客户的具体情况后,问题直接提交技术服务部李经理,李经理电话里告知,如果你的硬盘全部亮黄灯,有可能是阵列信息丢失,现在不要做任何硬件改动的动作,我们会马上安排我们最好的两位服务器工程师前往解决。
两小时后
随后我司指派卢工和杨工,两位都是拥有IBM服务器维护经验5年以上的工程师,他们到达客户现场上门诊断。经过详细的服务器日志查看后,发现以下问题:
1、4块硬盘在启动时,全部亮黄色指示灯。
2、进入阵列卡管理界面查看信息,发现阵列信息丢失,且其中的后3块硬盘状态为foreigned disk unconfiged bad 状态,第一块硬盘只是unconfiged bad
3、阵列卡日志信息,发现第一块一个盘早在2016年5月份的时候,已经报警,硬盘离线。
4、第4块硬盘近期有报错。
经分析初步判断如下:
1、服务器起不来的原因,是因为阵列丢失,且在一年以前,第一块硬盘已经掉线,客户并没有采取更换硬盘,等到第4块硬盘出现故障后,Raid-5因为只能允许坏一块一个盘,所以阵列离线。
2、如果将硬盘的unconfig bad状态改成unconfiged good状态,可以使硬盘上线,但是由于此次操作带有一定的风险性,建议客户先对硬盘做备份处理。
3、分析判断 第一块硬盘和第4块硬盘有故障,第2块硬盘和第三块硬盘状态是正常的。故而在阵列导入的时候,需要选择最晚离线的硬盘。
给客户分析完毕后,我们提出解决方案:
1、先做数据恢复的准备工作,我司负责找专业的数据恢复公司,先把4块硬盘的原始数据备份出来,做最坏的打算。
2、利用服务器阵列技术原理:将硬盘的状态变成unconfig good状态,并导入阵列。尝试启动操作系统。
3、如果操作系统依然无法启动,尝试rescue模式进入操作系统,查看数据情况。
4、如若此次实施失败,同步告知数据恢复公司,做数据恢复。
与客户商定后,客户采纳了我们的处理方案,当日下午,暴雨如注,我们将服务器的4块300G SAS硬盘按照排列顺序做好记录,前往数据恢复公司进行硬盘的数据恢复。在经过漫长7个小时的磁盘全盘镜像后,成功把原始数据进行备份。
我们把硬盘重新插回服务器上,更改服务器硬盘状态,导入阵列,均提示成功,似乎看到了曙光。但是等到启动系统的时候,意外的发现,黑色的屏幕只有左上角一个光标在闪烁。这是操作系统损坏,无法启动的故障。随后,我们采用rescue的方式,进入操作系统进行数据的查看,天啊,久违的数据竟然赫然呈现在我们的眼前:Data文件系统数据都在。激动之余,连忙让客户找设备拷出数据。
等到数据考完的那一刻,我们重新帮客户重新做阵列,将原来的4块硬盘Raid-5,改变成3块硬盘Raid-5,同时拿出一块硬盘做热备硬盘,帮助客户安装操作系统,部署操作系统的环境。同时也叮嘱客户,要定时检查服务器,及时发现问题,排除问题,做到防微杜渐,忧在未萌,防患未然,未雨绸缪。自此,一场突如其来的数据风暴就在暴雨中烟消云散,广州的天空,露出了久违的蓝天。