본문 바로가기

Engineering/[Hardware]

[SMART] smartctl, smartmontools

linux에 있는 유용한 smartctl


HDD/CF/SSD 에서 smart 기능을 지원할 경우 storage 상태를 미리 점검하여 완전히 뻗어버리는 것을 사전에 알 수 있다.


다음은 bad sector 를 가지고 있는 불량 하드에서 확인한 결과, 데이터를 copy 하다가 멈추거나 mount가 계속 끊어지는 현상이 있는 하드였다. (NT 에서 사용하던 HDD)


매우 심각한 상태임을 알 수 있다.



root@ubuntu:~# smartctl -a /dev/sdb

smartctl 6.4 2014-10-07 r4002 [x86_64-linux-4.2.0-16-generic] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org


=== START OF INFORMATION SECTION ===

Model Family:     Seagate Barracuda 7200.14 (AF)

Device Model:     ST1000DM003-1CH162

Serial Number:    Z1D76BQ8

LU WWN Device Id: 5 000c50 064ff66a5

Firmware Version: CC44

User Capacity:    1,000,204,886,016 bytes [1.00 TB]

Sector Sizes:     512 bytes logical, 4096 bytes physical

Rotation Rate:    7200 rpm

Form Factor:      3.5 inches

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   ATA8-ACS T13/1699-D revision 4

SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)

Local Time is:    Thu Mar 24 19:42:52 2016 KST

SMART support is: Available - device has SMART capability.

SMART support is: Enabled


=== START OF READ SMART DATA SECTION ===

SMART Status not supported: Incomplete response, ATA output registers missing

SMART overall-health self-assessment test result: PASSED

Warning: This result is based on an Attribute check.


General SMART Values:

Offline data collection status:  (0x00) Offline data collection activity

                                        was never started.

                                        Auto Offline Data Collection: Disabled.

Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever 

                                        been run.

Total time to complete Offline 

data collection:                (  575) seconds.

Offline data collection

capabilities:                    (0x73) SMART execute Offline immediate.

                                        Auto Offline data collection on/off support.

                                        Suspend Offline collection upon new

                                        command.

                                        No Offline surface scan supported.

                                        Self-test supported.

                                        Conveyance Self-test supported.

                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering

                                        power-saving mode.

                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.

                                        General Purpose Logging supported.

Short self-test routine 

recommended polling time:        (   1) minutes.

Extended self-test routine

recommended polling time:        ( 108) minutes.

Conveyance self-test routine

recommended polling time:        (   2) minutes.

SCT capabilities:              (0x3085) SCT Status supported.


SMART Attributes Data Structure revision number: 10

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   086   075   006    Pre-fail  Always       -       117154047

  3 Spin_Up_Time            0x0003   098   097   000    Pre-fail  Always       -       0

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       87

  5 Reallocated_Sector_Ct   0x0033   099   099   010    Pre-fail  Always       -       1712

  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       30104251933

  9 Power_On_Hours          0x0032   081   081   000    Old_age   Always       -       16784

 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       80

183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0

184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0

187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       1999

188 Command_Timeout         0x0032   097   077   000    Old_age   Always       -       12 12 91

189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0

190 Airflow_Temperature_Cel 0x0022   062   049   045    Old_age   Always       -       38 (Min/Max 38/39)

191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0

192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       26

193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       373909

194 Temperature_Celsius     0x0022   038   051   000    Old_age   Always       -       38 (0 17 0 0 0)

197 Current_Pending_Sector  0x0012   094   094   000    Old_age   Always       -       992

198 Offline_Uncorrectable   0x0010   094   094   000    Old_age   Offline      -       992

199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       15558h+53m+27.149s

241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       793981821

242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1086513384


SMART Error Log Version: 1

ATA Error Count: 2025 (device log contains only the most recent five errors)

        CR = Command Register [HEX]

        FR = Features Register [HEX]

        SC = Sector Count Register [HEX]

        SN = Sector Number Register [HEX]

        CL = Cylinder Low Register [HEX]

        CH = Cylinder High Register [HEX]

        DH = Device/Head Register [HEX]

        DC = Device Command Register [HEX]

        ER = Error register [HEX]

        ST = Status register [HEX]

Powered_Up_Time is measured from power on, and printed as

DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,

SS=sec, and sss=millisec. It "wraps" after 49.710 days.


Error 2025 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)

  When the command that caused the error occurred, the device was active or idle.


  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 48 4f eb 01  Error: UNC at LBA = 0x01eb4f48 = 32198472


  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 20 38 4f eb 41 00      00:05:52.753  READ DMA EXT

  b0 d0 00 00 4f c2 00 00      00:05:52.121  SMART READ DATA

  e3 00 00 00 00 00 00 00      00:05:52.120  IDLE

  ec 00 00 00 00 00 00 00      00:05:52.037  IDENTIFY DEVICE

  00 00 00 00 00 00 00 ff      00:05:51.976  NOP [Abort queued commands]


Error 2024 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)

  When the command that caused the error occurred, the device was active or idle.


  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 48 4f eb 01  Error: UNC at LBA = 0x01eb4f48 = 32198472


  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 20 38 4f eb 41 00      00:05:31.752  READ DMA EXT

  b0 d0 00 00 4f c2 00 00      00:05:30.982  SMART READ DATA

  e3 00 00 00 00 00 00 00      00:05:30.982  IDLE

  ec 00 00 00 00 00 00 00      00:05:30.891  IDENTIFY DEVICE

  00 00 00 00 00 00 00 ff      00:05:30.830  NOP [Abort queued commands]


Error 2023 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)

  When the command that caused the error occurred, the device was active or idle.


  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 48 4f eb 01  Error: UNC at LBA = 0x01eb4f48 = 32198472


  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 20 38 4f eb 41 00      00:05:10.753  READ DMA EXT

  b0 d0 01 01 4f c2 a0 00      00:05:10.356  SMART READ DATA

  e5 00 00 00 00 00 a0 00      00:05:10.346  CHECK POWER MODE

  25 00 20 d8 4f eb 41 00      00:05:10.336  READ DMA EXT

  25 00 20 b8 4f eb 41 00      00:05:10.304  READ DMA EXT


Error 2022 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)

  When the command that caused the error occurred, the device was active or idle.


  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 48 4f eb 01  Error: UNC at LBA = 0x01eb4f48 = 32198472


  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 20 38 4f eb 41 00      00:04:49.668  READ DMA EXT

  25 00 20 18 4f eb 41 00      00:04:49.647  READ DMA EXT

  25 00 20 f8 4e eb 41 00      00:04:49.646  READ DMA EXT

  25 00 20 d8 4e eb 41 00      00:04:49.645  READ DMA EXT

  25 00 20 b8 4e eb 41 00      00:04:49.645  READ DMA EXT


Error 2021 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)

  When the command that caused the error occurred, the device was active or idle.


  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 38 23 9e 01  Error: UNC at LBA = 0x019e2338 = 27140920


  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 20 38 23 9e 41 00      00:54:59.213  READ DMA EXT

  b0 d0 01 01 4f c2 a0 00      00:54:58.815  SMART READ DATA

  e5 00 00 00 00 00 a0 00      00:54:58.782  CHECK POWER MODE

  b0 d0 00 00 4f c2 00 00      00:54:58.390  SMART READ DATA

  e3 00 00 00 00 00 00 00      00:54:58.389  IDLE


SMART Self-test log structure revision number 1

No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.


root@ubuntu:~# 



ID

항목 이름

설 명

01

Raw Read Error Rate

하드 디스크에서 데이터를 읽어들일때 발생하는 오류의 비율을 나타내는 값입니다. 이 수치가 임계 값보다 낮은 경우 하드 디스크의 자기 디스크나 자기 헤드에 이상이 있습니다. 즉시 하드 디스크를 백업하고 교체하는 것을 추천합니다.

02

Throughput Performance

하드 디스크의 전반적인 처리량(처리능력)
이 값이 임계치 이하의 경우 높은 확률로 하드 디스크에 이상이 있다.

03

Spin-Up Time

하드 디스크가 회전을 시작하고 규정 회전수에 도달 할 때까지 걸린 평균 시간

04

Start / Stop Count

하드 디스크 스핀들 모터가 회전/정지한 횟수

05

Reallocated Sectors Count

재할당 섹터 카운트
불량 섹터 등으로 인해 데이터를 특별히 예약 한 예비 영역으로 이동한 횟수.

역시 데이터 백업 후 하드 디스크를 교체하십시오.

07

Seek Error Rate

자기 헤드가 원하는 데이터가 있는 트랙으로 이동을 실패(검색 오류)한 비율입니다.

주로 하드 디스크의 열 제어 장치의 손상 등에 의해 발생한다. 수치가 낮을 경우 하드 디스크의 표면이나 하드 디스크의 기계적인 시스템에 문제가 있을 수 있다.

08

Seek Time Performance

자기 헤드가 탐색 작업에 소요된 평균 시간

09

Power-On Hours

공장 출하 상태에서 하드 디스크의 전원인가 시간의 총합

임계값보다 적은 수치는 MTBF(평균 무고장 시간)의 감소를 나타냅니다.

0A (10)

Spin Retry Count디스크를 규정 속도까지 스핀 업하려고 시도한 횟수입니다.

0B (11)

Recalibration Retries하드 디스크의 보정 동작(열에 의한 오프 트랙 현상을 자동으로 보정하는 기능)을 재시도(이미 한 번 교정에 실패하고 있는 상태에서) 시도 횟수입니다.

0C (12)

Device Power Cycle Count

하드 디스크의 전원을 ON/OFF 한 횟수

0D (13)

Soft Read Error Rate

수정 불가능한 읽기 오류 횟수. 수치가 0이 아니라면 백업을 권장합니다.

C1 (193)

Load / Unload Cycle Count

자기 헤드가 자기 디스크 표면으로부터 랜딩존에 들어왔다가 다시 자기 디스크 표면에 돌아온 횟수. 일반적인 HDD 제조 업체의 보증 값은 2005 년 이후에 등장한 모델은 주로 60만 회 정도. 2004 년 이전 모델은 30만 회 정도.

C2 (194)

Temperature

하드 디스크의 현재 온도. 일반적으로 작동이 보장되는 최고 온도는 55 ℃ 정도

C3 (195)

Hardware ECC recovered

ECC (Error Correction Cord 오류 정정 부호)에 의해 감지된 오류 수

C4 (196)

Reallocation Event Count섹터의 대체 처리가 발생한 횟수입니다. 만일 처리에 실패해도 횟수에 가산된다.

C5 (197)

Current Pending Sector Count

현재 에러 발생으로 대체 처리를 기다리는 섹터의 수입니다. 만약 나중에 읽기에 성공한 섹터가 있으면 이 값은 감소합니다.

C6 (198)

Off-Line Scan Uncorrectable Sector Count오프라인 검색시에 발견된 회복 불가능한 섹터의 수입니다. 이 값이 증가하는 경우는 자기 디스크의 표면에 명확한 문제가있다.

C7 (199)

UltraDMA CRC Error CountUltraDMA 모드에서의 데이터 전송 중에 발생한 CRC 오류의 수.

C8 (200)

Write Error Rate (Multi Zone Error Rate)

데이터의 기록중에 발견된 오류수 입니다.

C9 (201)

Soft Read Error Rate프로그램이 자기 ​​디스크 표면으로부터 데이터를 읽을 때 발생하는 오류의 비율.

CA (202)

Data Address Mark Error

DAM(데이터 주소 표시)에 대한 오류의 빈도를 나타낸다.

CB (203)

Run Out Cancel

ECC(오류 수정 코드) 오류의 빈도를 나타낸다.

CC (204)

Soft ECC Correction

소프트웨어 ECC에 의해 수정된 오류수입니다.

CE (​​206)

Flying Height

자기 헤드의 부상 높이

CF (207)

Spin High Current

드라이브 스핀 업에 사용한 높은 전류량

D0 (208)

Spin Buzz

헤드가 디스크에 접촉하는 것을 피하기 위해 헤드를 디스크에 수직 방향으로 튀어오르게 한 횟수(이것이 연속해서 발생하면 윙윙 거리는 소리가 울린다)

D1 (209)

Offline Seek Performance

오프라인 검색시에 측정된 검색 기능의 성능값을 나타낸다.

D2 (210)

Vibration During Write

데이터를 저장하는 동안 발생한 진동을 나타낸다.

D3 (211)

Vibration During Read

데이터를 읽어들이는 동안 생긴 진동을 나타낸다.

D4 (212)

Shock During Write데이터 저장중에 발생한 큰 충격을 나타낸다.

DC (220)

Disk Shift디스크(플래터)가 충격 등에 의해 원래의 고정 위치에서 어긋난 거리.

DD (221)

G-Sense Error Rate

하드 디스크에 가해진 충격에 의해 발생한 오류의 비율

DE (222)

Loaded Hours

일반적인 작업 시간 중에 발생된 자기 헤드 액츄에이터의 부하의 값을 나타낸다.

DF (223)

Load / Unload Retry Count

로드 또는 언로드를 실패하여 다시 시도한 횟수입니다.

E0 (224)

Load Friction기계적인 부품의 마찰에 의한 자기 헤드 액츄에이터의 부하의 값을 나타낸다.

E2 (226)

Load-in Time

자기 헤드 액츄에이터가 데이터 로드 부하를 받던 시간의 총 합계

E3 (227)

Torque Amplification Count디스크 회전시 토크 증폭력의 값을 나타낸다.

E4 (228)

Power-Off Retract Count

전원을 뽑는 등 하드 디스크가 강제로 중지하여 자기 헤드가 긴급 복귀한 횟수입니다. 하드 디스크에 큰 부담을 준다. 일반적인 HDD 제조 업체의 보증 값은 2 만회 정도

E6 (230)

GMR Head AmplitudeGMR 자기 헤드의 동작 중의 떨림의 진폭.

F0 (240)

Head Flying Hours자기 헤드가 위치 결정을 하고있는 시간.

FA (250)

Read Error Retry Rate데이터를 자기 디스크에서 읽는 동안 나타나는 오류의 빈도.


'Engineering > [Hardware]' 카테고리의 다른 글

[POWER] AC power plugs and sockets  (0) 2019.07.25
Power Connector  (0) 2017.09.06
USB 3.0 (xHCI)  (0) 2015.11.06
[Printer] HP Officejet 6600 초기화  (0) 2014.09.26
[생산] SMT(Surface Mount Technology)  (0) 2013.11.14