AIX系统硬件故障定位

   

一般情况下只有当黄灯亮,tivoli 报警的时候我们需要查看

AIX系统硬件故障定位:

一. 查看机器各种指示灯状态

ps 指示灯:当此指示灯发亮时,表明电源 出现故障,需要及时更换电源。
temp 指示灯:当此指示灯发亮时,表明系统温度超出阈值级别,检查风扇,硬盘,CPU。
fan:当此指示灯点亮时,表明散热风扇或电源风扇出现故障或运行太慢。风扇发生故障还会导致over temp 指示灯发亮。
link指示灯:当此指示灯发亮时,网卡出现故障。
vrm 指示灯:当此指示灯发亮时,表明微处理器托盘上的某个vrm 出现故障。
cpu 指示灯:当此指示灯发亮时,表明某个微处理器出现故障。
pci 指示灯:当此指示灯发亮时,表明某个pci 总线发生错误。
mem 指示灯:当此指示灯发亮时,表明发生内存错误,打开盖子看看那个内存亮黄灯。
dasd 指示灯:当此指示灯发亮时,表明某个热插拔硬盘驱动器出现故障。
nmi 指示灯:当此指示灯发亮时,表明出现一个不可屏蔽中断(nmi)。
sp 指示灯:当此指示灯发亮时,表明服务处理器遇到错误。
brd 指示灯:当此指示灯发亮时,表明某个连接的i/o 扩展单元出现故障,一般指主板。
log 指示灯:当此指示灯发亮时,表明您应该查看事件日志或remotesupervisor。
cnfg指示灯:当此指示灯发亮时,表明BIOS配置错误 。
raid 指示灯:当此指示灯发亮时,表明阵列卡故障,及时更换阵列卡。
over spec 指示灯:当此指示灯发亮时,表明对电源的需求超过了指定的电源供应。
remind 按钮:按下此按钮可重新设置操作员信息面板上的系统错误指示灯并将服务器置于提醒方式。在提醒方式下,故障并没有清除但系统错误指示灯会闪烁(每2 秒闪烁一次)而不是持续发亮;如果出现另一个系统错误,则系统错误指示灯将会持续发亮。

二.查看故障记录文件

errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。
默认的系统错误日志由 /var/adm/ras/errlog 文件维护,可备份下来或拷贝到别的机器上分析,也可以使用errpt 命令来查看(普通用户权限也可使用)

errpt |more 列出简短出错信息,例:
ERROR_ID  TIMESTAMP  T  C   RESOURCE_NAME   ERROR_DEION
192AC071  0723100300  T  0  errdemon Error logging  turned off
0E017ED1  0720131000  P  H  mem2 Memory   failure
9DBCFDEE  0701000000  T  0  errdemon Error logging  turned on
038F2580  0624131000  U  H  scdisk0 UNDETERMINED  ERROR
AA8AB241  0405130900  T  O  OPERATOR OPERATOR NOTIFICATION

1.错误标示符 IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的 IDENTIFIER 是相同的。
2.时间戳 TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型 TYPE:错误的类型,或者说严重的程度,如下:
PEND 设备或功能组件可能丢失 简写 P
PERF 性能严重下降 P
PERM 硬件设备或软件模块损坏,确诊了的 P
TEMP 临时性错误,经过重试后已经恢复正常  T
INFO  一般消息,不是错误 I
UNKN 不能确定错误的严重性 U 
4.分类 C
H 硬件;S 软件;O 用户; U未知
5. RESOURCE_NAME资源名称
6. ERROR_DEION 错误描述

errpt -dH|more 列出所有硬件出错信息
errpt -dS|more 列出所有软件出错信息
errpt -aj ERROR_ID 列出详细出错信息,根据详细错误清单上的信息跟 ibm 工程师联系,并提供错误信息里 面的相关内容来定位问题所在

三.查看控制面板上的LED 代码

一般为8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
4 位代码,通常是Exxx。
3 位代码,通常为0yyy,只看后3位。
8 位和4位代码可查看系统服务手册 (Service Guide)。 
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外) 。系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。 
888-102-xxx-0C0 系统dump完成,可关电重启。 
888-103 或 105 硬件故障,一般有 SRN 代码及位置代码。

四.执行diag命令查看

>选高级诊断(Advance Diagnostic)
>选问题诊断(Problem Determination) 或选系统检查(System Verification) (选PD 会对系统错误记录进行分析) 
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
同errpt,将错误信息提供给ibm工程师

五.SMS (SystemManagement Service) 故障记录

当主控台出现键盘图标后(LED 显示E1F1时)按1键。进入SMS 菜单,选择”Utilities”,选择”Error Log”, 抄下8位故障代码(在SMS 中还可以更改系统启动顺序表)

六.MAIL

#mail
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。

七.查看系统重要记录日志

系统启动日志 alog – o – t boot
smit.log日志  cat / smit.log
Hacmp.out 切换文件记录 

八. snap →IBM工程师

当做完上面的步骤,报 p 类型错误后 diag 又查不出错,此时需要做 snap 操作,将生成的 snap 文件发送给 ibm 工程师 具体步骤:
 snap –r(清空原 snap 日志)
 snap –gc(生成新的 snap 日志) 
生成的日志在/tmp/ibmsupt 下可以找到 将此日志用 ftp 发送到 ftp 服务器上(168.1.6.23) ,在上传的时候记得敲入 bin,将文件改成 2 进制显示 
最终确认为临时故障时消除警告灯 
diag >
Task Selection >
Identify and Attention Indicators >
Set System Attention Indicator to NORMAL(回车选择,ESC+7 确认)   

发表评论