解决存储错误管理的困境[2]

2009-06-12 21:42:53 来源:  作者:admin 阅读:0 次 收藏到我的QQ书签


磁盘
  在磁盘硬件监测上,你也有类似的问题。磁盘存在一个通用的错误值集合,这些错误值由SMART技术予以定义并加以搜集。如果你有JBOD(简单磁盘捆绑)或者低端的RAID(独立磁盘冗余阵列),那么你可以购买一个软件包来帮助你搜集SMART数据。
  那么对于我们这些拥有来自大型厂商的大型RAID系统的用户来说又会怎样呢?所有这些厂商都会监测SMART统计数据,并根据它们所搜集的来自驱动器厂商的信息、历年来所搜集的统计信息,以及某些情况下的性能要求,来主动地停止驱动器的运作,比如一些厂商会选择替换驱动器而不是选择重试低性能的驱动器。对于一些使用SATA(串行ATA)驱动器的厂商来说,尤其如此。所有这些都很好,但是你对此毫无所知,因为所有这些都是由RAID控制器来完成和管理的,你根本就看不到它们。
  因此,我还在想,这种情况会不会有什么问题?我觉得是有一些问题和值得担忧的地方。
  ● 就像培根先生所说的那样,知识就是力量。我想知道RAID控制器里所发生的事情,决策是如何做出的,以及为什么磁盘控制器会出现故障。
  ● RAID厂商们在看到一些情况后一般会怎么做呢?在过去的10年中,我看到了很多次故障率非常高的情况,特别是在新驱动器的早期发布上。如果我早知道这些统计数据,我就可以更加积极主动地和厂商沟通这些故障(当然,他们很可能不想让我知道)。
  ● 错误信息都没有被整合到环境中去,而我所能获得的就是一些SNMP警告,或者如果登录到RAID控制器本身,我可能会得到更多的细节。
  因此,基于这些理由,我非常希望RAID厂商能够提供关于他们底层所做的事情方面的数据,这样我可以做出更好的决策。问题是你如何让所有这些信息都进入到企业监测框架中去呢?答案是:不容易。
  信道误码率
  光纤通道和一些其他技术有10E12th比特的信道误码率,但是通过错误纠正代码,可以获得更高的正确率。就我所闻而言,光纤通道的误码率可以纠正到大约10E21st比特。也就是说,在每10E21st比特的信息中可能会因为没有将一个误码监测为误码,或者因为错误地纠正一个误码而得到一个误码。
  这个比特数很高,这是一件好事,但是一直以来我所面临的问题是:如果信道开始衰减(见《当比特变坏》)那么会发生什么?如果误码率为10E12th的信道开始衰减,那么会如何影响10E21st的误码纠错率,而信道会何时开始衰减?如果误码率为10E11th或者10E10th时又如何呢?至少,我还没有从公开的渠道中获得任何答案。无论是什么数字,误码纠错率都会以非线性的形式急速下降。在这个领域中,我还是没有发现公开的答案,但我自己估计,大概会以4到5倍的数量级下降。这也就是我为什么希望搜集这种类型的错误信息的原因,因为这样我就可以对整个数据通路进行相关分析。
  实际上,在整个数据通路上,都可以得到很多的错误统计数据和信息,问题是没有一个统一的管理工具来获得所有这些信息。我经常要利用很多工具和脚本来确定问题所在并进行相关分析。随着存储环境越来越复杂,将低层次数据、所有的数据通路错误以及警告联系起来肯定是一件非常好的事情。SNMP警告则仅仅是警告,因为几乎任何时候,它们都不会提供足够的信息来告诉你是因为什么原因导致了警告。也许我问得太多了,但是如果这个问题得到了解决,那么肯定会有很多人从中受益。
 


 

(0)
(0)
  • 精彩图文 - 最新图文资讯
  • 业界动态 - 相关资讯导读
用户名: 密码:  验证码: 点击我更换图片
 360温馨提示:请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论
  • 相关评论
  • 行业动态 - 编辑最新推荐
  • 技术专题 - 阅读排行
技术论坛 | 客户服务 | 服务项目 | 关于我们 | 站点地图 | 法律声明 | 联系我们 | 汇款帐户
经营性网站
备案信息
北京
广告协会
国际连锁
经营协会
中国
互联网协会
网络110
报警服务
无线互联网
联盟协会
不良信息
举报中心
经营性网站
备案信息
Copyright(C)2009 All Right Reserved 版权所有 回天科技
上海总部:上海市徐汇区漕溪北路41号汇嘉大厦12楼E室 021-58358765
浙江分公司:杭州市文三路388号钱江科技大厦10楼1016室 0571-88218821 全国(北京,广州,深圳,宁波,温州,南京,成都)咨询热线:400-889-1122
浙ICP备05004250号