当前位置：首页 > 投稿 > 正文

RAID出故障如何做好应急处理（raid5故障）

梁桂钊
投稿
2021-02-18
79

当RAID出现： 1、RAID控制台里描述超过允许范围内的盘数异常，如RAID0里一块以上盘异常;RAID5(无热备)里2块以上盘异常;异常表现为OFFLINE或DDD、BAD等；2、服务器存储系统报警（喇叭或警示灯）；3、系统无法识别RAID 逻辑硬盘等问题时，现场工程师应该如何操作才能挽救数据呢？（此方案适用 IBM、HP、SUN、DELL、DFT、APPLE、联想、方正等品牌服务器;RAID0、RAID1、RAID2、RAID3、RAID4、RAID5、RAID6、HP ADG、RAID10、RAID50、RAID1E、RAID5E、RAID5EE等；NAS、DAS、SAN等。）

1、迅速将RAID离线（如果还在线的话）,切断电源；

2、如果发现非工作状态，硬盘灯全忙，应迅速关掉电源，不可再次开启电源；

3、RAID控制界面里不可轻易REBULD或初始化；

4、不可将原本离线的硬盘强制上线（陈旧的或无关的）；

5、保持上述状态，关机后将每块硬盘贴上次序标签；

6、不可轻易将每块盘接到XP以下操作系统（含XP）；

7、寻求专业数据恢复公司帮助。

[小贴士]

如果有足够的备用空间，可将原硬盘全部镜像。有两种方法（WINDOWS2003或DOS下，其他操作系统有风险）：

1、可用相同或大于源盘容量的硬盘做为目标盘，将源盘全部扇区方式CLONE到目标盘。将所有盘做同样操作。

2、可将每块源盘完全以扇区方式输出文件到某大容量存储空间（如大容量硬盘、NAS、SAN、DAS等）。

本次要分享的故障情况为一台服务器RAID磁盘阵列由于多次意外断电导致RAID信息丢失了的数据恢复过程。磁盘阵列的硬件配置在这里也就不多赘述了，阵列中存储的数据是文档文件，Windows 2003 server操作系统，主机没有配置ups。系统意外断电时并未引起管理员的特别注意，重启后也并未影响阵列的正常使用，但后续又出现了多次异常断电的情况，最终导致了重启阵列后RAID报错，服务器无法找到存储设备。管理员尝试了很多次重启服务器但是问题并没有解决，RAID管理模块在进入时候会导致操作系统死机，只能尝试通过恢复RAID阵列的数据进行数据恢复了。

在数据恢复工作中经常遇到上述客户所出现的故障。一部分原因是由于管理员对磁盘阵列的应急机制准备不充足，未能及时检修设备状态等导致阵列可能出现故障时处理及时。另一部分原因是RAID阵列一旦创建完成后RAID信息理论上不会发生改变，但是意外断电等因素也极易导致RAID信息丢失。在本次案例中客户遇到的操作死机这个情况可能就是因为服务器多次断电导致了RAID卡硬件也出现了一定程度的损坏。现在客户阵列的数据已经无法通过正常途径进行提取，只能通过数据恢复手段进行解决。下面介绍我们进行数据恢复的过程：

1.数据备份的过程这里就不多赘述了，每次数据恢复前都要进行备份，然后对镜像文件进行操作。在镜像过程中观察客户的磁盘阵列中硬盘的物理状态是否正常，镜像后发现该阵列中的硬盘均为正常状态，无物理故障。

2.使用镜像得来的客户数据进行RAID结构分析，根据阵列的文件系统的存储规则分析得出客户这台磁盘阵列中的RAID数据块大小、RAID盘序以及RAID校验方式。使用分析得到的这些RAID信息虚拟重组RAID阵列。

3.重组完RAID磁盘阵列后需要对虚拟重建来的数据进行一次逻辑校验，校验的目的是为了在客户验证数据前做一次数据恢复结果的自检，及时发现数据恢复结果中存在的问题，确保无误后再由客户进行验证。在数据恢复工程师对阵列数据进行自检无误后由用户进行数据验证，验证后确定磁盘阵列中的数据已经恢复到故障前的状态，本次RAID阵列数据恢复成功。