SAN网络故障排除(原创)
时间:2008-01-16 13:32:30 来源: 作者:
|
SAN网络故障排除 一、 SAN网络故障排除的两个应用技巧: 1、交换机的LED: 我们在讨论SAN故障排除之前先看一下故障诊断工具。其中最重要的是交换机的LED显示屏。 图-1是一个典型的SAN存储网络构架,其中包括Fbric线缆、主机、工作站、服务器、交换机、RAID阵列等设备。交换机是处于主机和存储设备之间的网络中间位置,既能看到存储设备,也能看到主机。得益于对存储网络两端的可见性,你可以使用交换机确定SAN中所有故障的原因。通过查看交换机的LCD就能收集到大量的信息。可以通过查找“快闪黄灯”,确定设备发生了故障,或是它仍未处于联机状态。如果交换机置于异地,可以使用Web 工具直观地、实时地了解LED的状态。快速闪烁的绿灯是SAN正常运行的信号。 通过实际观察组成SAN的交换机,可以检测模式,并确定处于边缘状态或是有故障的组件。例如,如果你处于需要确定在联机和脱机两种状态间重复切换的设备的情况,此时就可以使用交换机的LED。 在观察运行的Fabric线缆时正常情况是:该端口由处于脱机状态(没有LED灯),然后发光(保持为黄色),然后进如联机状态(保持为绿色),然后循环进行同样的步骤--无色、黄、绿。黄灯或是闪烁的黄灯表明SAN中存在问题。由黄灯转绿灯的LED则不是问题,因为边缘设备断电,或是未处于联机状态,都可能导致交换机的LED黄灯闪烁。如果交换机电源的LED开始慢速闪烁,则表明交换机的加电自检(POST)过程存在故障,无法实现联机。(表一:交换机各端口LED和定义). 端口 LED定义 黄色 接收到灯或是信号的载波,但是尚未联机 缓慢变黄 禁用(诊断、switchDisable命令的结果) 快速变黄 端口故障 绿色 联机(通过线缆与外部设备相连) 缓慢变绿 联机,但是已分段(Fabrlc参数不兼容) 快速变绿 正在进行内部环回 绿灯闪烁 正常联机,有帧流量通过端口 2、将SAN视为虚拟线缆: 当对SAN进行故障诊断时,可以通过将其分解为主机、SAN虚拟线缆及存储设备来解决问题,这时将SAN视为一条虚拟线缆。对于操作系统来说,SAN一条通往磁盘的链路,这正是传统的SCSI连接所实现的目的。 在刚开始进行故障诊断时,请将SAN视为一条虚拟线缆。传统的存储方式就是通过一条 SCSI线缆将小型计算机系统接口(SCSI)磁盘连接到主机;在这种情况下,你会关注4个组件:存储设备、主机总线适配器(HBA)、主机的操作系统以及Fbric线缆。SAN故障诊断与传统的存储故障诊断过程相有许多异同之处。对于操作系统来说,SAN提供了一条通往磁盘的链路,这正是传统的SCSI连接所实现的目的。 在诊断直连SCSI设备的故障或是以太网故障时,采用的是排除法;可以将这一方法用于对SAN进行故障诊断。从宏观层面讲,如果将SAN作为一条虚拟线缆来考虑,问题有可能出在三个地方:主机、“Fbric线缆”或是存储设备。采用类似于对分查找的放障诊断方式开始对这些领域进行研究。从中间部分着手,确定是处于问题的“上方”还是“下方”,然后继续对可疑路径进行对分,直到解决问题为止。 二、SAN网络故障排除: 1、 Fabric线缆故障 Fabric线缆故障经常会严重地影响多个设备。由于SAN对边缘情况的冗余补偿,Fabric线缆故障在一个冗余的SAN上发生时,可能不会影响SAN的功能。但是这些“软”故障能够引起企业应用性能的降低,因此也应立即引起注意。大型Fabric线缆指包含10个或更多交换机及上百边缘设备的Fabric线缆,它们更易于发生Fabric线缆故障。 Fabric线缆故障排除方法: (1)Fabric线缆故障影响众多设备。分段等逻辑性交换机中断或物理性交换机中断,能够引起许多设备脱离Fabric线缆。ISL初始化故障也是需要考虑的问题。 (2)缩小Fabric线缆故障诊断范围的最佳途径,是对比基准SAN配置文件和当前SAN配置文件,并研究其差异。 (3)SAN配置文件的内容包括每个交换机上设备的数量、Fabric线缆中设备的数量、Fabric线缆中交换机的数量等。errShow命令和switchShow命令对于追踪Fabric线缆故障也非常有用。 (4)一些Fabric线缆故障由Fabric线缆服务超时变量和边缘设备超时设置的不匹配引起。必须仔细分析Fabric线缆和边缘设备来解决这种复杂问题。 (5)从图-1中可以发现,SAN网络设备中使用最多的是Faricb线缆。由于线缆通过墙角和门缝处,有可能被压坏。所以,需要注意线缆是否截断、线缆过度扭曲变形等。 ljjcover 回复于:2005-07-13 14:28:51 好贴!顶! david5337 回复于:2005-07-13 15:10:12 支持一下子! chucknancy 回复于:2005-07-13 18:37:03 不错,,支持原创!! maping 回复于:2005-07-14 09:15:29 好东西! 顶一下!! cddai 回复于:2005-07-14 09:23:58 暂占不论是否原创,内容还是可以的 bencyber 回复于:2005-07-14 12:01:02 支持原创,多谢共享 xiangyuwl 回复于:2005-07-15 11:54:45 好东东啊 我想_我是海 回复于:2005-08-03 17:11:55 好贴,收藏! final fantasy 回复于:2005-08-03 18:35:13 收了 3q sqmax 回复于:2005-08-07 23:26:24 这文章是你从网管世界转来的吧?盗链啊?!!BS一下! cnccie 回复于:2005-08-08 15:36:02 实际环境中,情况会复杂得很多. 岂是看看线路和LED就能判断的? DOMAIN ID,分区、分区合并,mapping等造成故障的案例更多 jtgssss 回复于:2005-10-15 12:07:23 有个问题,能不能帮一下忙啊~~ 我的电脑上网时有带字母的附加码就上不去,网页显示是附加码错误~~以前都不会这样的~~知道怎么搞好吗?? wind521 回复于:2005-10-17 10:31:34 支持一下 ipod 回复于:2005-10-17 14:10:34 http://www.bigit.com/Article_Print.asp?ArticleID=4525 有图! henrypan 回复于:2007-04-29 21:40:20 ..... xinlong101 回复于:2007-04-29 22:20:49 好东西啊,谢谢LZ chenyu200899 回复于:2007-05-17 13:32:14 dddddddddddddd jtw 回复于:2007-05-18 16:35:27 不管怎样,给你顶一下。 a2z2008 回复于:2007-05-21 10:58:56 绝对要顶一下! naotan 回复于:2007-05-22 09:51:12 管他是否原创呢,支持下先 shechi 回复于:2007-05-22 15:54:36 分享就是好样的!!! zeronumber 回复于:2007-10-12 09:59:01 感觉没什么真正可以用上的东西,出现故障时大概的思路就是如此--排查法。 但是具体到各个故障点的排除可就没那么简单了,难就难在这里,比如说操作系统级别的问题就很难排除。 foootttt 回复于:2007-10-20 10:54:12 多谢LZ |
原文链接:http://bbs.chinaunix.net/viewthread.php?tid=576698 转载请注明作者名及原文出处 |
下一篇: 有关容灾一致性问题...高手请进!










文章评论
共有 位网友发表了评论 查看完整内容