×
高级产品搜索菜单

如何进行内置硬盘盒预处理工作
日期: 2021.12.02

​有关硬盘故障预测模型的使用的数据集可能并不能准确反映当前大规模存储系统的故障特点,一个好的数据集应该能够准确反映实际硬盘故障的特点和规律,包含了更多有用的信息,有利于我们构建高准确率的故障预测模型,以下是内置硬盘盒‍的大数据集以及对数据的预处理的方法。

内置硬盘盒2.png

1、数据收集

在很多前人的研究工作中都认为硬盘的型号、制造商、数据中心环境等能够对硬盘的故障特性和行为造成很大的不同。为了消除上述环境对预测模型的不利影响,降低模型的复杂度,硬盘数据集应来自同一个数据中心,并且数据集包含的所有硬盘都是同一个型号的。因此,这些硬盘的外部环境可以认为是一致的。

2、特征选择

特征选择的作用是选出有用的属性,作为机器学习算法的输入特征,构建硬盘故障预测模型。一方面可以去掉冗余的属性,减少输入维数,降低模型的复杂度;另一方便可以提高模型的预测性能。对于数据集中的每块硬盘,快使用工具共能读出个属性的值,读出的数据与图格式类似,只是多了为和的两个属性相应的记录。这个属性对于构建硬盘故障预测模型并不都是有用的,需要从中选出对故障预警有意义的属性作为输入特征。

3、构建变化率特征

利用内置硬盘盒‍属性的变化率来预测硬盘故障,将硬盘的变化率作为新的训练特征。数据集包含了硬盘的属性每个一个小时的值,这些值可以看作是时序的数据。随着时间的增长,连续观察到的一串属性值的变化趋势也许能够很好地指示硬盘是否将要发生故障。硬盘属性的标准化越大,其与阈值的差也就越大,硬盘的健康状况也就越好。

随着内置硬盘盒‍数据的重要性不断增强,运行关键业务的存储系统能否安全可靠的运转,成为企业和用户非常关注的问题。在这一背景下,用户对海量存储系统的高可靠性、高可用性的要求日益突出,成为引人关注的话题,以硬盘为基础的存储设备仍是存储领域的主流设备。

高级产品搜索菜单
提交 清除 取消
找不到合适的产品?提交您的请求HERE
ICY DOCK使用cookies来确保您在我们的网站上为您提供最佳体验。了解更多
我同意