1、IBM 磁带机及磁带库日常工作手册IBM 全球服务(中国)有限公司第一章:日常基本问题的处理 .3磁带卡在磁带机里不能够弹出: .3磁带有关的故障: .4磁带机读/写有关的故障: .5磁带机和主机连接的问题: .5第二章:磁带机(库)相关的信息: .8LTO 和 3592 磁带机最新的微码信息: .8LTO 磁带机的数字信息(SCD code) .83580 磁带机(TS22x0、TS23x0) .93581 磁带库(L13、H13、L17、H17 、L23、L23) .93581 2U 磁带库(L28、L38、 L3H、F28、F38、F3H) .103583 磁带库 .113584 磁带库
2、 .123573 LTO 磁带库(TS3100、TS3200 ) .133576 LTO 磁带库(TS3310) .133590 磁带驱动器(Bxx、Exx 、Hxx) .14第三章:相关数据的收集 .17附录 A:LTO 和 3592 磁带机微码详细信息。 .18附录 B:LTO 的 SCD code 详细说明。 .45第一章:日常基本问题的处理磁带卡在磁带机里不能够弹出:1在磁带使用之前检查磁带引导针的位置:在新磁带使用之前,应该检查所有LTO或3592磁带的引导针。确保它在正确的位置。如果发现其位置不正确,应该将其调整倒正确的位置(如下图) 。可以使用人工卷带工具(P/N LTO=08L
3、9129 3592=18P888)来调整。具体操作步骤,可以参照TS2340 3580 L43S43 Setup Operator Service Guide GC27-2103中的第4章的:Using Ultrium Media - Repositioning or Reattaching a Leader Pin.。= 正确的位置2检查是否主机曾经发过“PREVENT MEDIUM REMOVAL”的命令这个命令通常是由主机端的某些应用程序发出的。如果有类似的问题,可以先从应用程序端发出包含有“ALLOW MEDIUM REMOVAL”的命令,然后再从主机端去EJECT 磁带。如果磁带还是
4、不能弹出来,则将磁带机重起。然后再手工方式弹出磁带。3当需要人工方式取出磁带机理的磁带时当需要人工方式取出磁带机理的磁带时,根据情况使用以下的步骤:1) 从主机端发出 EJECT 磁带的命令。2) 按磁带机上的蓝色 unload 按钮 1 秒钟。3) 按磁带机上的 unload 按钮 15 秒钟,磁带机会 reset,然后再按 unload 按钮 1 秒钟。4) 将磁带机或磁带库下电/上电,然后再按 unload 按钮 1 秒钟。磁带有关的故障:1一些磁带机进带故障和磁带的引导针的位置不正确有关系。可以参照前一节的介绍检查和调整引导针的位置。2关于处理磁带问题,遵循以下的步骤:1)尝试再另一个
5、磁带机 load/unload 怀疑有问题的磁带。2)检查磁带是否有物理的损坏。3) 检查磁带引导针的位置是否正确。4)如果怀疑有问题的磁带是空白的或者里面的数据不再需要的情况下,可以使用磁带机对磁带进行诊断:在LTO磁带机的面板上“Maintenance Mode ” drive diagnostic option 1 + Diagnostic option E (Test Cartridge & Media )具体步骤参照 IBM TS2340 3580-L43 S43 Gen4 Tape Drive Tape Drive Setup, Operator, and Service Guid
6、e GC27_2103 Appendix B. Diagnostic and Maintenance Functions.3磁带的运输和储存:如果客户需要储存或者运输磁带,要使用符合规定的储存箱储存和运输,参照以下的weblink:http:/ 磁带机的兼容性:LTO 的磁带机可以读/写前一代的磁带(例如 LTO4 代磁带机可以读/写 LTO4 和LTO3 代的磁带) 。LTO 磁带及可以读前 2 代的磁带(例如 LTO4 代磁带机可以读 LTO4、LTO3 和LTO2 代的磁带) 。所以 LTO1 代的磁带是不可以在 LTO4 代的磁带机中使用的。磁带机读/写有关的故障:1 确保磁带机的 f
7、irmware 是最新推荐的版本:通过 RMSS PFE 的 weblink 查找 firmware 信息:http:/ Internet 查找 firmware 的信息:http:/ 可以通过 ITDT(IBM Tape Diagnostic Tool)的工具或磁带机的驱动程序的工具在主机端进行 firmware 的升级。ITDT v2.0:不再支持3580 GEN1 and GEN2, 3581, 3582, and 3583http:/ v1.2:http:/ 隔离是否是磁带的问题:1)尝试用磁带机 load/unload,read/write 一盘全新的磁带来隔离问题。2)参照第一章中
8、的有关磁带的问题的方法隔离问题。3 隔离磁带机硬件方面的问题:1)尝试将用另一个磁带机对磁带进行读/写操作来隔离问题。2)使用 ITDT 的工具进行磁带机的诊断测试。3)尝试用磁带机(库)操作面板上的 maintenance 菜单进行诊断测试。如果以上的硬件测试能够通过,证明磁带没有问题,不需要更换磁带机。磁带机和主机连接的问题:1 磁带机和主机通过 SCSI 连接:1)检查 SCSI 连接头的针和孔是否有异常,特别是 68 针的接头。针脚是否有过短、弯曲等问题。2)简化 SCSI 的连接方式进行测试。例如在一个 SCSI 的总线上只接一个磁带机。3)检查 LVD/HVD SCSI 终结器(
9、terminator) ,确保终结器正确地使用。4)尝试更换 SCSI 电缆和 SCSI 的终结器来检查问题。5)检查主机端的 SCSI 卡是否和磁带机兼容,或尝试更换主机端的 SCSI 卡来检查问题。6)在磁带机(库)上运行 SCSI 连接接口的诊断:-运行基本的 SCSI 诊断-在LTO 磁带机(库)的“Maintenance mode”下运行“Host Interface Wrap test diagnostic”(参照IBM TS2340 3580-L43 S43 Gen4 Tape Drive Tape Drive Setup, Operator, and Service Guide
10、 GC27_2103的附录B)7)如果已经完成了以上的诊断工作,而且更换过SCSI的电缆,运行ITDT工具的磁带机诊断扫描操作,验证SCSI的连接是否正常。如果完成了以上的操作,而且“Host Interface Wrap test diagnostic”是正常的,但和主机端的连接还是有问题,不要更换更换磁带机(库)。参照以下的章节,收集相关的数据,向上一级技术支持寻求帮助。2 磁带机和主机通过 SAN/FC 连接:1) 简化 FC 的连接,尝试将由问题的磁带机(库)直接和主机进行连接。2) 更换 FC 的光纤电缆。3) 检查主机的 FC 卡是否设置了更长时间的 timeout 以适应和磁带机
11、设备连接。4) 检查主机端的 FC 卡是否和磁带机兼容,或尝试更换主机端的 FC 卡来检查问题。5) 在磁带机(库)上运行 FC 连接接口的诊断。 (方法同上)6) 如果已经完成了以上的诊断工作,而且更换过 FC 的电缆,运行 ITDT 工具的磁带机诊断扫描操作,验证 FC 的连接是否正常。如果完成了以上的操作,而且“Host Interface Wrap test diagnostic”是正常的,但和主机端的连接还是有问题,不要更换更换磁带机(库)。参照以下的章节,收集相关的数据,向上一级技术支持寻求帮助。3 AIX 服务器直接连接 LTO 磁带机(库)重起后设备成 “define”状态:I
12、BM 的 LTO3 或 LTO4 代的磁带机(库)和 AIX 服务器直接连接。当服务器 power off/power on 或重起后,磁带机(库)的设备 rmtX 和 smcX 不能够在设备配置中找到。用 lsdev Cc 命令查看时,没有显示或成 define 的状态。这时需要重新启动或power off/power on 磁带机(库) ,重新初始化 FC 连接。4 LTO 磁带库(LUN-1 磁带机)连接的问题:在绝大部分的 LTO 或 3592 的磁带中,都有机械抓手(autochanger)设备通过 FC或 SCSI 和主机连接。它是通过有 Control Path 的磁带机的 LU
13、N-1 被主机识别的。当磁带库和主机连接时,磁带机设备能正常地连接,但机械抓手设备不正常时:如果是 3581 3582 3583 3573 的磁带库,设置成了“Sequential mode”。磁带库则不会将 LUN-1 给机械抓手,让主机认到。 3582 + 3581 (2U models)出厂时就是“Random mode”,所以可以被主机认到。所以当需要由主机来控制机械抓手时,磁带库应设置成为“Random mode” 。5 磁带机(库)设备和磁盘设备要使用不同的 FC 连接:在有 SAN 交换机连接的环境中,确保磁带机(库)设备和磁盘设备没有共享一块FC 卡。对于磁带机(库)和磁盘设备
14、的连接,FC 和 SCSI 卡会有包括 timeout 值在内的不同的参数设置。如果共享,这个参数设置通常对磁带机(库)和磁盘的访问都会产生问题。6 多个主机连接访问同一个磁带机:对于多个主机连接访问同一个磁带机,如果他们通过 SAN 交换机连接,而且在同一个 ZONE 里,会产生问题:如果多个主机在同一个 zone 里面,当其中一个主机重起时,它会发起一个“IOINIT”的操作。会使得整个的总线 reset。而位于整个总线上的设备对于reset 会有不同的反应。磁带机中如果有磁带,当收到这个 reset 时,会执行一个倒带(rewind )操作。无论此时磁带机在作什么操作此时都会中止。因为
15、reset 是更高级别的命令。如果此时另一个连接此磁带机的主机正在对磁带进行读/写操作,这个主机不会收到倒带的信息。当磁带倒到开始时,它会继续从磁带的开始部位进行读/写操作。这样将会导致数据的丢失。7 iSeries 主机不能识别 TS3310 的磁带库:当 3576 磁带库 power off 时,和 iSeries 主机连接的 IOP 将会被 reset。为了保证3576 能被正常地使用,当 iSeries 主机的 IOP 要 reset 时,确保 3576 是 power on 的状态。8 Xseries Configuration and Option Guide (COG)Xseri
16、es Configuration and Option Guide (COG)里面可以查到和 xSeries 主机兼容的磁带机(库)的信息:http:/ Storage InterOperationCenter (SSIC)System Storage InterOperationCenter (SSIC)里面可以查到所有 IBM 的存储产品的兼容性信息:http:/ 和 3592 磁带机最新的微码信息:3592-E06 GEN3 - D3I2_47E3592 E05 GEN2 - D3I1_DA03592 J1A GEN1 - D3I0_C90LTO4 GEN4 - 85V8LTO3 GEN
17、3 - 85P1LTO2 GEN2 - 73V1LTO1 GEN1 - 5AU1所有最新的 LTO 的微码可以在以下的 weblink 查找下载:http:/ A。LTO 磁带机的数字信息(SCD code)0:没有错误,不需要干预1:散热问题2:电源问题3:微码相关的问题4:需要收集磁带机的 DUMP5:磁带机的硬件问题6:磁带机或则磁带介质问题7:磁带介质问题8:磁带机或 SCSI 总线问题9:磁带机或 LDI(RS-422 )通讯问题o、c、b、h:保留A:磁带机的硬件问题B:保留C:磁带机需要清洗D:保留详细的 SCD code 描述及相应的 action 参照附录 B。3580 磁带
18、机(TS22x0、TS23x0)1 确保 3580 的微码是最新的版本:通过 IBM 的 RMSS weblink 查找:http:/ http:/ Intranet 或 Internet 下载 3580 的微码:http:/ http:/ 通过使用 ITDT 的工具测试诊断和相应的微码升级工作ITDT 工具的下载和使用参照前一章节。3 隔离是否是由于磁带的故障导致的问题:参照第一章的有关磁带的故障诊断方法。4 隔离是否是磁带机硬件的故障尝试对同一盘磁带在其他的磁带机上进行读/写操作。5 对磁带机做基本的诊断:使用 ITDT 工具进行诊断使用磁带机操作面板上的“Maintenance Mode
19、”进行诊断:Maintenance mode drive diagnostics option 1 + Diagnostic option H (Head Test)参照IBM TS2340 3580-L43 S43 Gen4 Tape Drive Tape Drive Setup, Operator, and Service Guide GC27_2103 Appendix B. Diagnostic and Maintenance Functions.如果诊断测试是通过的,而故障依然存在,这时不要马上更换磁带机,请向你的上一级技术支持(CAG 或 TSG)寻求帮助。同时收集相应得数据。3581 磁带库(L13、H13、L17、H17、L23、L23)1. 3581 LVD 磁带库 L13、L17、L23 不能够上电的故障:检查 LVD 的 terminator (P/N 19P0481 )是否正确地安装了。如果 3581 的磁带库没有正确地安装 terminator,当上电的时候,操作面板上会显示LdR INIT 。而系统不会进行自检操作。2. 3581 LVD HVD 磁带库 x13、x17、x23 弹簧故障:某些3581磁带库德弹簧系统会发生故障。这时不要更换整个磁带库。可是根据