硬盘S/M.A.R.T技术

来源:百度文库 编辑:神马文学网 时间:2024/04/29 23:29:00
一、S.M.A.R.T究竟是什么?
S.M.A.R.T的全称为“Self-Monitoring,Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。
该技术由Compaq公司率先开发,IBM、希捷、富士通、昆腾等硬盘厂商参与修正,并融合了Compaq公司的IntelliSafe诊断技术和IBM的PFA检测技术特点。
1995年5月,Compaq公司向Small Form Factor(SFF)委员会提交了IntelliSafe的技术标准报告(SFF-8035i);1996年1月进行1.0版的修正(SFF-8035R2);1996年6月进行了1.3版的修正(SFF-8055),并联合IBM等公司向SFF正式申请将IntelliSafe技术加入到ATA-3的行业标准中,正式更名为S.M.A.R.T
作为行业标准,S.M.A.R.T规定了硬盘制造厂商应遵循的标准。满足S.M.A.R.T标准的条件主要包括:在设备制造期间完成S.M.A.R.T需要的各项参数、属性的设定;在特定系统平台下,能够正常使用S.M.A.R.T;通过BIOS检测,能够识别设备是否支持S.M.A.R.T并可显示相关信息,而且能辨别有效和失效的S.M.A.R.T信息;允许用户自由开启和关闭S.M.A.R.T功能;在用户使用过程中,能提供S.M.A.R.T的各项有效信息,确定设备的工作状态,并能发出相应的修正指令或警告。在硬盘以及操作系统都支持S.M.A.R.T.技术并且该技术默认开启的的情况下,在不良状态出现时S.M.A.R.T.技术能够在屏幕上显示英文警告信息:“WARNING:IMMEDIATLY BACKUP YOUR DATA AND REPLACE YOUR HARD DISK DRIVE,A FAILURE MAY BE IMMINENT.” (警告:立刻备份你的数据同时更换硬盘驱动器,可能有错误出现。)
二、S.M.A.R.T在何处?如何工作?
S.M.A.R.T信息保留在硬盘的系统保留区(service area)内,这个区域一般位于硬盘0物理面的最前面几十个物理磁道,由厂商写入相关内部管理程序。除了S.M.A.R.T信息表外还包括低级格式化程序、加密解密程序、自监控程序、自动修复程序等。监测软件通过一个名为“SMART RETURN STATUS”的命令(命令代码为:B0h)对S.M.A.R.T信息进行读取,且不允许最终用户对信息进行修改。
三、S.M.A.R.T信息表由什么组成?
S.M.A.R.T标准中采用二进制代码作为S.M.A.R.T的基本指令,并规定写入标准的寄存器中,形成特定的S.M.A.R.T信息表,以供正常检测和运行。S.M.A.R.T指令分主指令(Command)和次指令(Subcommands)。主指令主要提供设备是否支持S.M.A.R.T或忽略某一次指令特征的信息。而次指令则提供支持S.M.A.R.T设备的检测信息。这些指令主要由设备厂商写入,一些专业硬盘维修软件可以通过这些代码进行设备的检测。
四、通过软件查看硬盘的健康状况
S.M.A.R.T技术的原理是通过侦测硬盘各属性,如数据吞吐性能、马达起动时间、寻道错误率等属性值和标准值进行比较分析,推断硬盘的故障情况并给出提示信息,帮助用户避免数据损失。S.M.A.R.T因此规定了专门的检测参数,由于硬盘结构、性能和定位上的不同,除了ATA-3标准规定的参数外,厂商可以根据自己产品的特性提供不同的S.M.A.R.T检测参数。普通用户则可以通过常用的系统工具(如EVERESTUltimate)来查看,并通过这些参数了解硬盘的“健康”状况。
五、SCSI系统中的S.M.R.A.T技术
由于目前硬盘领域存在ATA和SCSI两种标准,所以不可否认,S.M.A.R.T技术是同时支持这两个系列的产品的,只是在一些参数设定上存在一些差异,在关键参数上SCSI比ATA硬盘更为复杂。但在实际运作中,由于用户和使用环境不同,S.M.A.R.T对ATA/IDE系统的干预比SCSI系统要多一些,而对SCSI故障的判定更为专业和准确些。SCSI硬盘的S.M.A.R.T技术与ATA硬盘的S.M.A.R.T技术相比更为复杂,以下仅列举SCSI硬盘所特有参数中的一部分。
Primary Temp:硬盘盘体的工作温度
Secondary Temp:PCB板周围的工作温度
Min and Max Temp:在一段时间内硬盘盘体的最高和最低工作温度
Velocity Observer Count:在一段时间内伺服寻道时偏离指定磁道的次数
12V:12V供电电压值
5V:5V供电电压值
MR Res:MR磁头的电阻值
Sectors Read:在一段时间内从硬盘中读取的扇区数
Sectors Written:在一段时间内数据写入硬盘中的扇区数
在ATA/IDE环境下,由主机上的软件对S.M.A.R.T“报告状态”命令生成的、来自硬盘的报警信号进行解读。主机对硬盘进行查询,以检查这一命令的状态,如果显示马上要发生故障,就将告警信号送至最终用户或系统管理员。系统管理员就安排关机时间,以备份数据和更换硬盘。主系统除对来自硬盘的“报告状态”命令进行评估外,还可对属性和告警报告进行评估。在SCSI环境下,S.M.A.R.T则只报告“状况完好”或“出现故障”。由硬盘进行故障判断,再由主机通知用户采取措施。在SCSI标准中有一个检测位,当硬盘确定可靠性出现问题时,检测位就打上标记并通知最终用户或系统管理员,采取相应措施。
六、S.M.A.R.T的预测效果究竟如何?
通常我们面对的硬盘故障可以分为两大类:不可预测和可预测。
不可预测故障,通常指不可预料的电子和机械故障,这类故障发生在瞬间,如硬盘加电状态意外碰撞导致硬盘磁头撞击盘片,或瞬间电流过大引起的芯片或电路故障。通常是在S.M.A.R.T反映出性能下降之前,硬盘就已经不能工作。而这些只可通过质量、设计、工艺、制造等方面的改进以及使用过程中规范操作来降低不可预测故障的发生率(例如硬盘防震技术的开发和进展,有效降低了硬盘震动物理故障的概率)。
可预测故障具有在硬盘完全不能工作前,其相应的参数会随时间发生变化的特点。根据这一特点,可以通过S.M.A.R.T此类实时信息检测技术监测其属性来进行故障预测、分析和提供建议,从而加以防范。此类故障中包括软件故障和硬件故障。例如许多机械故障都被看作是典型的可预测故障,S.M.A.R.T技术对于此类故障就有了用武之地,在发生故障之前,可以发出提醒用户备份数据的通知,保护用户的数据。
据研究数据表明,利用S.M.A.R.T技术可预测的硬盘故障中,60%为机械性质的,40%左右则是对软性故障的有效预测。随着S.M.A.R.T技术及相关技术的渐渐成熟,可预测出的故障种类将越来越多,对故障的防范措施也会变得越来越有效。当然,对不想开启S.M.A.R.T技术的读者而言,也可以在BIOS设置的“Advanced BIOS Set Up”选项中将其关闭
七、对一些特殊问题的解答
1.组建RAID之后,S.M.A.R.T是否仍然生效?
用户组建RAID之后,S.M.A.R.T功能仍然有效,但是这需要RAID卡控制芯片支持S.M.A.R.T功能。实际上,RAID卡的S.M.A.R.T报警功能与硬盘在常规状态下的报错信息并无太大差别。报警时,相应模块所对应的硬盘指示灯(通常为红色)会长亮以起到警示作用。
2.为什么监测不到USB接口外置硬盘的S.M.A.R.T状态?
对于一个USB接口外置硬盘而言,系统将它判定为一个USB设备,监测不到S.M.A.R.T信息是因为USB标准中没有此项规定。此时虽然硬盘自身仍然在记录S.M.A.R.T状态,但由于它是USB外设,系统就不会监测它的S.M.A.R.T状态。
3.S.M.A.R.T功能对系统性能是否有影响?
硬盘记录S.M.A.R.T信息有两种方式,第一种是“在线(On-line)”收集,所谓在线收集就是硬盘在工作时,根据硬盘的实际工作状态收集到的信息,硬盘实时或在指定时间段内更新自身的S.M.A.R.T数据。举例来说,如果一个ATA硬盘在写入数据到一个扇区时,遇到一个不可修正的错误,硬盘会及时把这个信息更新到SMART数据中;对于SCSI硬盘,如果它设定的S.M.A.R.T更新周期是4分钟,则它会把在4分钟内收集到的相关S.M.A.R.T信息更新到S.M.A.R.T数据区,然后再开始下一个周期的跟踪。在线收集状态对系统性能没有影响。
第二种是“离线(off-line)”收集,离线收集是硬盘收到主机发来的一些特定指令时而进行自检测试,此时硬盘会处于“idel”状态或错误修正状态,在这类情况下,硬盘自身将作大量动作以测试健康状态,导致硬盘对主机发出的正常要求产生延迟。所以离线收集状态会造成系统性能的下降。
4.S.M.A.R.T技术对相关信息的记录是否有周期性?
对于SCSI硬盘而言,记录S.M.A.R.T信息有周期性,一般情况下周期处于4分钟~120分钟之间。这个值在硬盘出厂时就已设定,并且只能通过专业软件进行修改;而对于ATA硬盘,S.M.A.R.T信息的记录则没有周期性。