[SMART] smartctl, smartmontools
linux에 있는 유용한 smartctl
HDD/CF/SSD 에서 smart 기능을 지원할 경우 storage 상태를 미리 점검하여 완전히 뻗어버리는 것을 사전에 알 수 있다.
다음은 bad sector 를 가지고 있는 불량 하드에서 확인한 결과, 데이터를 copy 하다가 멈추거나 mount가 계속 끊어지는 현상이 있는 하드였다. (NT 에서 사용하던 HDD)
매우 심각한 상태임을 알 수 있다.
root@ubuntu:~# smartctl -a /dev/sdb
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-4.2.0-16-generic] (local build)
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST1000DM003-1CH162
Serial Number: Z1D76BQ8
LU WWN Device Id: 5 000c50 064ff66a5
Firmware Version: CC44
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Thu Mar 24 19:42:52 2016 KST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
SMART Status not supported: Incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 575) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 108) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x3085) SCT Status supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
1 Raw_Read_Error_Rate 0x000f 086 075 006 Pre-fail Always - 117154047
3 Spin_Up_Time 0x0003 098 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 87
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 1712
7 Seek_Error_Rate 0x000f 066 060 030 Pre-fail Always - 30104251933
9 Power_On_Hours 0x0032 081 081 000 Old_age Always - 16784
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 80
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 1999
188 Command_Timeout 0x0032 097 077 000 Old_age Always - 12 12 91
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 062 049 045 Old_age Always - 38 (Min/Max 38/39)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 26
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 373909
194 Temperature_Celsius 0x0022 038 051 000 Old_age Always - 38 (0 17 0 0 0)
197 Current_Pending_Sector 0x0012 094 094 000 Old_age Always - 992
198 Offline_Uncorrectable 0x0010 094 094 000 Old_age Offline - 992
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 15558h+53m+27.149s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 793981821
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 1086513384
SMART Error Log Version: 1
ATA Error Count: 2025 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 2025 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
-- -- -- -- -- -- --
40 51 00 48 4f eb 01 Error: UNC at LBA = 0x01eb4f48 = 32198472
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 20 38 4f eb 41 00 00:05:52.753 READ DMA EXT
b0 d0 00 00 4f c2 00 00 00:05:52.121 SMART READ DATA
e3 00 00 00 00 00 00 00 00:05:52.120 IDLE
ec 00 00 00 00 00 00 00 00:05:52.037 IDENTIFY DEVICE
00 00 00 00 00 00 00 ff 00:05:51.976 NOP [Abort queued commands]
Error 2024 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
-- -- -- -- -- -- --
40 51 00 48 4f eb 01 Error: UNC at LBA = 0x01eb4f48 = 32198472
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 20 38 4f eb 41 00 00:05:31.752 READ DMA EXT
b0 d0 00 00 4f c2 00 00 00:05:30.982 SMART READ DATA
e3 00 00 00 00 00 00 00 00:05:30.982 IDLE
ec 00 00 00 00 00 00 00 00:05:30.891 IDENTIFY DEVICE
00 00 00 00 00 00 00 ff 00:05:30.830 NOP [Abort queued commands]
Error 2023 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
-- -- -- -- -- -- --
40 51 00 48 4f eb 01 Error: UNC at LBA = 0x01eb4f48 = 32198472
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 20 38 4f eb 41 00 00:05:10.753 READ DMA EXT
b0 d0 01 01 4f c2 a0 00 00:05:10.356 SMART READ DATA
e5 00 00 00 00 00 a0 00 00:05:10.346 CHECK POWER MODE
25 00 20 d8 4f eb 41 00 00:05:10.336 READ DMA EXT
25 00 20 b8 4f eb 41 00 00:05:10.304 READ DMA EXT
Error 2022 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
-- -- -- -- -- -- --
40 51 00 48 4f eb 01 Error: UNC at LBA = 0x01eb4f48 = 32198472
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 20 38 4f eb 41 00 00:04:49.668 READ DMA EXT
25 00 20 18 4f eb 41 00 00:04:49.647 READ DMA EXT
25 00 20 f8 4e eb 41 00 00:04:49.646 READ DMA EXT
25 00 20 d8 4e eb 41 00 00:04:49.645 READ DMA EXT
25 00 20 b8 4e eb 41 00 00:04:49.645 READ DMA EXT
Error 2021 occurred at disk power-on lifetime: 16784 hours (699 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
-- -- -- -- -- -- --
40 51 00 38 23 9e 01 Error: UNC at LBA = 0x019e2338 = 27140920
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 20 38 23 9e 41 00 00:54:59.213 READ DMA EXT
b0 d0 01 01 4f c2 a0 00 00:54:58.815 SMART READ DATA
e5 00 00 00 00 00 a0 00 00:54:58.782 CHECK POWER MODE
b0 d0 00 00 4f c2 00 00 00:54:58.390 SMART READ DATA
e3 00 00 00 00 00 00 00 00:54:58.389 IDLE
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ID | 항목 이름 | 설 명 |
01 | Raw Read Error Rate | 하드 디스크에서 데이터를 읽어들일때 발생하는 오류의 비율을 나타내는 값입니다. 이 수치가 임계 값보다 낮은 경우 하드 디스크의 자기 디스크나 자기 헤드에 이상이 있습니다. 즉시 하드 디스크를 백업하고 교체하는 것을 추천합니다. |
02 | Throughput Performance | 하드 디스크의 전반적인 처리량(처리능력) |
03 | Spin-Up Time | 하드 디스크가 회전을 시작하고 규정 회전수에 도달 할 때까지 걸린 평균 시간 |
04 | Start / Stop Count | 하드 디스크 스핀들 모터가 회전/정지한 횟수 |
05 | Reallocated Sectors Count | 재할당 섹터 카운트 역시 데이터 백업 후 하드 디스크를 교체하십시오. |
07 | Seek Error Rate | 자기 헤드가 원하는 데이터가 있는 트랙으로 이동을 실패(검색 오류)한 비율입니다. 주로 하드 디스크의 열 제어 장치의 손상 등에 의해 발생한다. 수치가 낮을 경우 하드 디스크의 표면이나 하드 디스크의 기계적인 시스템에 문제가 있을 수 있다. |
08 | Seek Time Performance | 자기 헤드가 탐색 작업에 소요된 평균 시간 |
09 | Power-On Hours | 공장 출하 상태에서 하드 디스크의 전원인가 시간의 총합 임계값보다 적은 수치는 MTBF(평균 무고장 시간)의 감소를 나타냅니다. |
0A (10) | Spin Retry Count | 디스크를 규정 속도까지 스핀 업하려고 시도한 횟수입니다. |
0B (11) | Recalibration Retries | 하드 디스크의 보정 동작(열에 의한 오프 트랙 현상을 자동으로 보정하는 기능)을 재시도(이미 한 번 교정에 실패하고 있는 상태에서) 시도 횟수입니다. |
0C (12) | Device Power Cycle Count | 하드 디스크의 전원을 ON/OFF 한 횟수 |
0D (13) | Soft Read Error Rate | 수정 불가능한 읽기 오류 횟수. 수치가 0이 아니라면 백업을 권장합니다. |
C1 (193) | Load / Unload Cycle Count | 자기 헤드가 자기 디스크 표면으로부터 랜딩존에 들어왔다가 다시 자기 디스크 표면에 돌아온 횟수. 일반적인 HDD 제조 업체의 보증 값은 2005 년 이후에 등장한 모델은 주로 60만 회 정도. 2004 년 이전 모델은 30만 회 정도. |
C2 (194) | Temperature | 하드 디스크의 현재 온도. 일반적으로 작동이 보장되는 최고 온도는 55 ℃ 정도 |
C3 (195) | Hardware ECC recovered | ECC (Error Correction Cord 오류 정정 부호)에 의해 감지된 오류 수 |
C4 (196) | Reallocation Event Count | 섹터의 대체 처리가 발생한 횟수입니다. 만일 처리에 실패해도 횟수에 가산된다. |
C5 (197) | Current Pending Sector Count | 현재 에러 발생으로 대체 처리를 기다리는 섹터의 수입니다. 만약 나중에 읽기에 성공한 섹터가 있으면 이 값은 감소합니다. |
C6 (198) | Off-Line Scan Uncorrectable Sector Count | 오프라인 검색시에 발견된 회복 불가능한 섹터의 수입니다. 이 값이 증가하는 경우는 자기 디스크의 표면에 명확한 문제가있다. |
C7 (199) | UltraDMA CRC Error Count | UltraDMA 모드에서의 데이터 전송 중에 발생한 CRC 오류의 수. |
C8 (200) | Write Error Rate (Multi Zone Error Rate) | 데이터의 기록중에 발견된 오류수 입니다. |
C9 (201) | Soft Read Error Rate | 프로그램이 자기 디스크 표면으로부터 데이터를 읽을 때 발생하는 오류의 비율. |
CA (202) | Data Address Mark Error | DAM(데이터 주소 표시)에 대한 오류의 빈도를 나타낸다. |
CB (203) | Run Out Cancel | ECC(오류 수정 코드) 오류의 빈도를 나타낸다. |
CC (204) | Soft ECC Correction | 소프트웨어 ECC에 의해 수정된 오류수입니다. |
CE (206) | Flying Height | 자기 헤드의 부상 높이 |
CF (207) | Spin High Current | 드라이브 스핀 업에 사용한 높은 전류량 |
D0 (208) | Spin Buzz | 헤드가 디스크에 접촉하는 것을 피하기 위해 헤드를 디스크에 수직 방향으로 튀어오르게 한 횟수(이것이 연속해서 발생하면 윙윙 거리는 소리가 울린다) |
D1 (209) | Offline Seek Performance | 오프라인 검색시에 측정된 검색 기능의 성능값을 나타낸다. |
D2 (210) | Vibration During Write | 데이터를 저장하는 동안 발생한 진동을 나타낸다. |
D3 (211) | Vibration During Read | 데이터를 읽어들이는 동안 생긴 진동을 나타낸다. |
D4 (212) | Shock During Write | 데이터 저장중에 발생한 큰 충격을 나타낸다. |
DC (220) | Disk Shift | 디스크(플래터)가 충격 등에 의해 원래의 고정 위치에서 어긋난 거리. |
DD (221) | G-Sense Error Rate | 하드 디스크에 가해진 충격에 의해 발생한 오류의 비율 |
DE (222) | Loaded Hours | 일반적인 작업 시간 중에 발생된 자기 헤드 액츄에이터의 부하의 값을 나타낸다. |
DF (223) | Load / Unload Retry Count | 로드 또는 언로드를 실패하여 다시 시도한 횟수입니다. |
E0 (224) | Load Friction | 기계적인 부품의 마찰에 의한 자기 헤드 액츄에이터의 부하의 값을 나타낸다. |
E2 (226) | Load-in Time | 자기 헤드 액츄에이터가 데이터 로드 부하를 받던 시간의 총 합계 |
E3 (227) | Torque Amplification Count | 디스크 회전시 토크 증폭력의 값을 나타낸다. |
E4 (228) | Power-Off Retract Count | 전원을 뽑는 등 하드 디스크가 강제로 중지하여 자기 헤드가 긴급 복귀한 횟수입니다. 하드 디스크에 큰 부담을 준다. 일반적인 HDD 제조 업체의 보증 값은 2 만회 정도 |
E6 (230) | GMR Head Amplitude | GMR 자기 헤드의 동작 중의 떨림의 진폭. |
F0 (240) | Head Flying Hours | 자기 헤드가 위치 결정을 하고있는 시간. |
FA (250) | Read Error Retry Rate | 데이터를 자기 디스크에서 읽는 동안 나타나는 오류의 빈도. |