1、xx TSM 数据备份项目日常维护手册xxxxxx 科技有限公司目录1 前言 .32 TSM 巡检操作手册 .42.1 查看 TSM 服务器 .42.2 查看 TSM MANAGE CONSOLE.42.3 在 TSM 服务器上登录到管理界面 .52.4 在 TSM CLIENT 端检查 .63 TSM 常见问题的处理 .63.1 TSM SERVER 的故障处理 .63.1.1 所有的备份和恢复操作都无法进行 .63.1.2 如何获得 TSM 错误描述 .73.1.3 系统出现无法读写磁带或磁盘的故障 .73.1.4 处理带库故障后 TSM 工作不正常。 .83.1.5 a tape in
2、library does not display in q libv .83.1.6 reclaim process not run .83.1.7 how to delete archive log files after backup .83.1.8 windows device manager, found a drive mark as yellow.93.2 TSM CLIENT 的故障处理 .93.2.1 TSM Client 无法连接 TSM Server .93.2.2 TSM Client 备份大文件时经常不成功 .93.2.3 ANS1312E error in dsmer
3、ror.log .103.2.4 when backup data, error: media can not mount .103.2.5 ANR8779E Unable to open drive mt0.3.0.3, error number=170 .104 日常维护 .104.1 启动和停止 TSM 服务器 .104.2 进入管理员界面 .114.3 进入 TSM CLIENT 文件备份/恢复界面 .114.4 管理数据库和日志 .114.5 管理磁带库 .124.5.1 查看带库中磁带驱动器状态: .124.5.2 磁带的分配: .124.5.3 检查活动日志,有可能要求作出回应,
4、 .124.5.4 查看磁带上的备份内容: .134.5.5 从磁带库中取出已使用的磁带放到异地保存: .134.5.6 将取出的磁带重新放入磁带库中: .134.5.7 向磁带库中增加新的供 TSM 使用的磁带: .134.5.8 将新磁带添加到 storage pool 中(可选) .134.5.9 重复利用磁带库中的磁带 .134.6 管理磁带库存储池 .144.7 管理客户端节点 .144.7.1 删除一个客户端节点 .144.7.2 修改节点密码 .144.8 定时备份维护 .144.8.1 TSM Clien/TDP 节点定时备份守候进程 .144.8.2 客户端停止定时备份 .1
5、44.8.3 查看定时备份日志 .154.9 建立策略域(POLICY DOMAIN ) .154.10 监控 TSM SERVER 运行情况 .155 IBM 客户支持服务流程 .161 前言本文档是 TSM 巡检操作手册,常见问题的处理和日常维护。2 TSM 巡检操作手册2.1 查看 TSM 服务器查看 TSM 服务器和 ADIC 带库的连接状态,如下图为正常:主要为其它设备可以看到 ADIC 的 SNC,介质变换器,磁带驱动器都有设备显示。2.2 查看 TSM manage console在“开始“菜单-“程序“-“Tivoli Storage Manager“中选择运行“Managem
6、ent Console“:可以看到带库和驱动器的信息。2.3 在 TSM 服务器上登录到管理界面在 cmd 的窗口里进入到 TSM 的安装目录 baclient 下运行 dsmadmc,输入口令/密码 admin/admin 进入管理员界面2.4 在 TSM client 端检查检查 lanfree 的进程,使用命令:#ps ef|grep dsmsta如果进程没有启动,需要启动这个进程,方法:IBM 服务器的路径/usr/tivoli/tsm/StorageAgent/bin#nohup ./dsmsta &HP 服务器的路径/opt/tivoli/tsm/StorageAgent/bin#
7、nohup ./dsmsta &3 TSM 常见问题的处理在解决问题的过程中,需要具体问题具体分析,首先需要检查各种错误日志,定位问题,然后参考以下解决问题的办法,同时也可直接联系 800 技术支持热线,寻求专业的技术支持。3.1 TSM Server 的故障处理3.1.1 所有的备份和恢复操作都无法进行问题描述TSM Server 启动正常,但所有的备份和恢复操作都无法进行。问题处理建议检查 TSM 本身的数据库是否已满? query database 3.1.2 如何获得 TSM 错误描述问题描述在 TSM 的日志中发现有类似 ANR7800I 的错误信息,如何得到该错误号的详细描述。问题
8、处理建议使用 TSM 的文档查找错误描述,或直接使用命令查找: help 78003.1.3 系统出现无法读写磁带或磁盘的故障问题描述在日常备份过程中或 TSM 日志中出现无法读写磁带或磁盘的故障。问题处理建议检查磁带库是否正常?TSMq library;查看是否 Online 状态;检查驱动器是否正常?TSMq drive;查看是否 Online 状态;检查磁带是否正常?TSM q libvolume;查看磁带状态;看是否是读写状态。TSM q vol f=d ;查看磁带状态;看是否是读写状态。检查 Path 是否正常?TSM q path;看 online 是否为 yes ?检查详细的 T
9、SM 活动日志TSM QUERY ACTLOG BEGINTIME=NOW-30 ENDTIME=NOW检查操作系统下关于设备的日志。在操作系统下检查设备状态;AIX : lsdev Cc tape3.1.4 处理带库故障后 TSM 工作不正常。问题描述当带库出现故障后,如更换 driver 后,TSM 工作不正常。问题处理建议按照配置步骤重新检查 path,drive 的定义、状态检查磁带机的 s/n 号。3.1.5 a tape in library does not display in q libv问题描述a tape in library does not display in q
10、libv。问题处理建议checkin libv libname search=yes checkl=b status=scr3.1.6 reclaim process not run问题描述reclaim process not run, check stgpool reclaim threashold, the value was 100问题处理建议modify threashold less than 1003.1.7 how to delete archive log files after backup问题描述how to delete archive log files after
11、backup问题处理建议using rman delete input all option3.1.8 windows device manager, found a drive mark as yellow问题描述In windows device manager , found a drive mark as yellow , so many operations is not successful .问题处理建议重起 TSM 服务器?重新安装 library driver ?重起 Tape Library ?3.2 TSM Client 的故障处理3.2.1 TSM Client 无法连
12、接 TSM Server问题描述TSM Client 无法连接 TSM Server。问题处理建议检查服务器配置文件,并检查服务器是否绑定配置文件中规定的端口?查看服务器的状态(Query Status)确保设置好了“Availability: Enabled“;检查客户端配置文件中端口号和 IP 地址是否与服务器端一致;检查节点是否被服务器端锁定(LOCK);系统管理员检查网络状况和服务器的内存利用状况,如果内存不够用了,则新的连接肯定无法建立。3.2.2 TSM Client 备份大文件时经常不成功问题描述TSM Client 在备份大文件时经常报如下错误,但备份小文件没有问题:2006-
13、03-13 11:50:37 ANS1005E 在套接字 = 636 处 TCP/IP 读取错误, 错误号 = 10035, 原因:无法立即完成一个非阻挡性套接字操作。2006-03-13 11:50:37 ANS1809W 会话丢失;正在初始化会话的再打开过程。2006-03-13 11:50:53 ANS1811S TSM 会话无法重建。问题处理建议检查服务器端 dsmserv.opt 中有一项 IDLETimeout、Commtimeout 设置,调大后进行测试。( 注:要求 TSM Server 和 storage agent 端设置一致)。3.2.3 ANS1312E error i
14、n dsmerror.log问题描述ANS1312E error in dsmerror.log问题处理建议delete old path re-define3.2.4 when backup data, error: media can not mount问题描述when backup data, error: media can not mount问题处理建议re-define drive path, audit library3.2.5 ANR8779E Unable to open drive mt0.3.0.3, error number=170问题描述On Windows ,actlog , ANR8779E Unable to open drive mt0.3.0.3, error number=170.问题处理建议检查 library 状态。检查 path ,发现 path offline,无法 online。在操作系统下删除设备,重新识别?重新定义 path 。