很多来自厂商和开放源代码社区的软件包都能够解决SNMP(简单网络管理协议)数域集问题,这些数据可以来自所有的数据通路,包括从HBA(主机总线适配器)到存储设备。如今,很多存储设备都支持由存储网络工业协会(SNIA)开发的存储管理接口标准(SMI-S)。
一直以来,我都在想这样一个问题:这些管理接口是否满足存储管理员的所有需求?我碰到的及从客户和同事那听到的这类问题越多,我对这个问题的答案就更趋向“No”。
经历了几十年时间,网络错误管理框架以及各个不同堆栈(如ICMP—网络控制信息协议,IP,TCP,SONET—同步光纤网,以太网等)中的错误功能才得以成熟并满足各种要求。SNMP 1.0从1991年五月就已经问世,并通过RFC(请求注解—Request For Comments)部署—RFC是IETF(互联网工程任务组)的标准部署方式。
那么问题出在哪里呢?我认为数据通路的错误管理框架遗漏了以下两个重要因素:
● 关于存储设备的详细分析
● 关于每个连接的信道误码率的详细信息
存储设备错误细节
实际上,磁盘和磁带驱动器的错误信息的细节都得到了跟踪。如果你有时间,你可以看看关于闪存驱动器的一篇文章来了解磁盘驱动器上所使用的SMART(自我监测、分析和报告))技术的背景知识。对于磁带驱动器来说,驱动器的错误信息得到保存,而且磁带盒的错误信息也保存在驱动器内,因此你才有可能跟踪错误条件。但是,这两种情况所引发的问题实际上并不像一开始那么简单。让我们分别来看看磁带和磁盘。
磁带
就像所有其他硬件设备一样,所有的磁带驱动器都会跟踪错误。此外,所有的磁带都会产生错误和并且存在一个使用寿命。随着你的磁带越来越接近使用寿命,它很可能会产生越来越多的错误。这些错误大部分是软错误,最终,它们会变成硬错误,这也就意味着你无法读取你的数据了。因此如何发现这些错误,并在它们变成硬错误之前就解决这些软错误问题呢?
当然,说起来容易做起来难。磁带错误统计数据是依赖于驱动器的。你必须做到的就是能够发送一个叫做pass-through的特殊SCSI(小型计算机系统接口)命令到驱动器。这是一个低层次的驱动器命令,从而使得驱动器可以在SCSI pass-through命令下将你所要求的错误信息报告给你。当搜集信息时,无论是驱动器的错误信息,还是驱动器磁带盒的错误信息都可以被搜集到,因此一个LTO(线性开放协议)驱动器的错误以及搜集错误统计数据的命令可能会不同于一个Sun T10000磁带驱动器。
这确实相当复杂,对于一些磁带驱动器和磁带库来说,这种情况没有显示在文档上,而有些时候你必须有一个保密协议才能理解其含义并得到磁带驱动器和磁带库的不同错误的地址。很显然,对于软件产品来说,这是一个机遇,而且很多厂商都已经推出一些产品来搜集并显示不同磁带库和磁带机中的这类数据。这些产品各有不同的功能以及显示方式。其中一些产品在大型环境下能够比其他同类产品更好地扩展,但是你有很多选择。这些产品能够极大地帮助你理解环境中的软错误,而且它们还可以帮助你积极主动地解决磁带、驱动器以及磁带机中的这些软错误,以防止它们变成硬错误。在大型环境中使用这些产品是非常重要的。
那么这里会存在什么问题吗?这些产品是否能够整合到环境中其他部分的错误管理框架中去?和SNMP警告不同,让数据融入单一的管理框架并不是一件简单的事。