Помирает жесткий диск?

IDE, SATA, SCSI, внешние USB-HDD, SSD, USB-Flash накопители

Модератор: Модераторы разделов

Аватара пользователя
chitatel
Сообщения: 1867

Помирает жесткий диск?

Сообщение chitatel »

В последнее время, месяца два, smartd стал регулярно писать письма об ошибках. В munin уровень warning по показаниям smart, опять-таки.

Я не большой спец в этих делах, поэтому прошу глянуть на вывод smartctl -a /dev/sda + записи в syslog.

Вопрос: можно ли по данным данным подтвердить смертельный диагноз?

Винт внутри неттопа, который выполняет роль домашнего сервера, т.е. "для всего" + торренты, торренты и ещё раз торренты... Работает, как пчёлка...

Как я понимаю, температурный режим совсем некомфортен - в пике 67 по Цельсию. Если ошибки связаны прежде всего с этим - как-то попытаюсь улучшить охлаждение.

Если таки винт подыхает - буду присматривать замену.

Код:

smartctl 6.4 2014-10-07 r4002 [i686-linux-3.16.0-4-686-pae] (local build) Copyright © 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Momentus 5400.6 Device Model: ST9250315AS Serial Number: 6VCT2XR5 LU WWN Device Id: 5 000c50 037b49b0e Firmware Version: 0001SDM1 User Capacity: 250 059 350 016 bytes [250 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Wed Nov 11 01:15:23 2015 YAKT SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED See vendor-specific Attribute list for marginal Attributes. General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 0) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 72) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x103b) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 111 099 006 Pre-fail Always - 110954699 3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1585 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 1 7 Seek_Error_Rate 0x000f 075 060 030 Pre-fail Always - 41669277 9 Power_On_Hours 0x0032 080 080 000 Old_age Always - 17801 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 099 099 020 Old_age Always - 1586 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 097 097 000 Old_age Always - 3 188 Command_Timeout 0x0032 100 093 000 Old_age Always - 1532 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 049 042 045 Old_age Always In_the_past 51 (Min/Max 25/52 #284) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 2 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 19 193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 661335 194 Temperature_Celsius 0x0022 051 058 000 Old_age Always - 51 (0 24 0 0 0) 195 Hardware_ECC_Recovered 0x001a 044 039 000 Old_age Always - 110954699 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 2 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 2 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 254 Free_Fall_Sensor 0x0032 100 100 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 3 CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 3 occurred at disk power-on lifetime: 17780 hours (740 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 14:19:02.303 READ DMA EXT 25 00 28 ff ff ff ef 00 14:19:02.276 READ DMA EXT c8 00 20 c0 10 00 e0 00 14:19:02.270 READ DMA c8 00 08 b8 10 00 e0 00 14:19:02.268 READ DMA c8 00 08 60 30 d6 e2 00 14:19:02.254 READ DMA Error 2 occurred at disk power-on lifetime: 17780 hours (740 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 14:18:59.691 READ DMA EXT 25 00 08 ff ff ff ef 00 14:18:59.688 READ DMA EXT 25 00 08 ff ff ff ef 00 14:18:59.688 READ DMA EXT 25 00 08 ff ff ff ef 00 14:18:59.688 READ DMA EXT 25 00 08 ff ff ff ef 00 14:18:59.687 READ DMA EXT Error 1 occurred at disk power-on lifetime: 17780 hours (740 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 00 ff ff ff ef 00 14:18:56.836 READ DMA EXT 25 00 40 ff ff ff ef 00 14:18:56.811 READ DMA EXT 25 00 20 ff ff ff ef 00 14:18:56.809 READ DMA EXT 25 00 20 ff ff ff ef 00 14:18:56.783 READ DMA EXT 25 00 00 ff ff ff ef 00 14:18:56.418 READ DMA EXT SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 8838 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.


Код:

Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 109 to 110 Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 188 Command_Timeout changed from 99 to 100 Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 74 to 53 Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 26 to 47 Nov 10 07:56:31 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 122 to 115 Nov 10 08:26:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 08:26:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 08:26:32 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 53 to 50 Nov 10 08:26:32 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 47 to 50 Nov 10 08:26:32 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 115 to 112 Nov 10 08:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 08:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 08:56:31 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 112 to 111 Nov 10 09:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 09:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 09:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 09:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 10:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 10:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 10:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 10:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 11:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 11:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 11:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 11:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 11:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 50 to 49 Nov 10 11:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 50 to 51 Nov 10 11:56:31 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 111 to 110 Nov 10 12:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 12:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 12:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 12:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 13:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 13:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 13:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 13:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 13:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 49 to 50 Nov 10 13:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 51 to 50 Nov 10 13:56:31 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 110 to 111 Nov 10 14:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 14:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 14:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 50 to 49 Nov 10 14:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 50 to 51 Nov 10 14:26:32 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 111 to 110 Nov 10 14:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 14:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 14:56:31 chitatel smartd[730]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 110 to 111 Nov 10 15:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 15:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 15:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 15:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 16:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 16:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 16:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 49 to 50 Nov 10 16:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 51 to 50 Nov 10 16:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 16:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 17:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 17:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 17:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 50 to 49 Nov 10 17:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 50 to 51 Nov 10 17:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 17:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 17:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 49 to 50 Nov 10 17:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 51 to 50 Nov 10 18:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 18:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 18:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 18:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 19:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 19:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 19:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 50 to 49 Nov 10 19:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 50 to 51 Nov 10 19:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 19:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 20:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 20:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 20:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 20:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 20:56:32 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 44 to 43 Nov 10 21:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 21:26:31 chitatel smartd[730]: Sending warning via /usr/share/smartmontools/smartd-runner to root ... Nov 10 21:26:31 chitatel smartd[730]: Warning via /usr/share/smartmontools/smartd-runner to root: successful Nov 10 21:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 21:26:31 chitatel smartd[730]: Sending warning via /usr/share/smartmontools/smartd-runner to root ... Nov 10 21:26:31 chitatel smartd[730]: Warning via /usr/share/smartmontools/smartd-runner to root: successful Nov 10 21:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 49 to 50 Nov 10 21:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 51 to 50 Nov 10 21:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 21:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 21:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 50 to 49 Nov 10 21:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 50 to 51 Nov 10 22:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 22:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 22:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 49 to 50 Nov 10 22:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 51 to 50 Nov 10 22:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 22:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 23:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 23:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 10 23:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 10 23:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 11 00:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 11 00:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 11 00:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 11 00:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 11 00:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 50 to 49 Nov 11 00:56:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 50 to 51 Nov 11 01:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Currently unreadable (pending) sectors Nov 11 01:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], 2 Offline uncorrectable sectors Nov 11 01:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 110 to 111 Nov 11 01:26:31 chitatel smartd[730]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 43 to 44
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 18483
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: Помирает жесткий диск?

Сообщение Bizdelnick »

Вот это наиболее критичный параметр:
chitatel писал(а):
10.11.2015 20:00

Код: Выделить всё

5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 1

1 — ещё не повод для волнений, хотя лично я спокойней сплю, когда он везде по нулям.
Пожалуй. стоит прогнать длинный тест и посмотреть на результат.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

Аватара пользователя
Hephaestus
Сообщения: 3729
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Re: Помирает жесткий диск?

Сообщение Hephaestus »

Судя по смарту, я бы не сказал, что винт прям вот подыхает. Трешевых значений ни одного нет.
С другой стороны, известны истории, когда умирал винт, несмотря на отличные показатели в смарте и наоборот, смарт орал, что винт умрёт с минуты на минуту, а винт жил всем смертям назло.
Так что это всё очень приблизительно. Тем не менее, картинка не очень приятная.

Вот эти сообщения
chitatel писал(а):
10.11.2015 20:00
Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 109 to 110
не внушают оптимизма. Однако в Вашем логе их всего два, что странно, потому что вот таких
сообщений
chitatel писал(а):
10.11.2015 20:00
2 Currently unreadable (pending) sectors
2 Offline uncorrectable sectors
значительно больше.

Можете как-нибудь отследить динамику? Насколько часто увеличивается №1 в смарте?

А вот температура высоковата - это однозначно.
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 18483
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: Помирает жесткий диск?

Сообщение Bizdelnick »

Hephaestus писал(а):
10.11.2015 20:40
Вот эти сообщения
chitatel писал(а):
10.11.2015 20:00
Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 109 to 110
не внушают оптимизма.

Для сигейтов это нормально.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

Аватара пользователя
chitatel
Сообщения: 1867

Re: Помирает жесткий диск?

Сообщение chitatel »

Усё плохо. :(
badblocks -v /dev/sda
/.../
done
Pass completed, 28 bad blocks found. (28/0/0 errors)

Чем и как ещё потестировать - не знаю.

Наверное, буду думать о покупке нового винта. Блин, опять непредвиденные траты ценной цветной бумаги... :(
Спасибо сказали:

Аватара пользователя
Hephaestus
Сообщения: 3729
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Re: Помирает жесткий диск?

Сообщение Hephaestus »

chitatel писал(а):
11.11.2015 06:22
Блин, опять непредвиденные траты ценной цветной бумаги...
Ну, что Вы в самом деле.
Если рассматривать именно сигейты, то в наших краях HDD 2.5" от 500Гб стоят в районе 3000 руб.
И хотя Ваш диск, судя по смарту, налетал всего 17801 часов, что составляет 2 года (маловато, конечно), но всё-таки, что Вы за два года лишних 3000 не заработали? Или у Вас цены сильно выше?
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:

Аватара пользователя
bormant
Сообщения: 1328

Re: Помирает жесткий диск?

Сообщение bormant »

chitatel
плохо, это когда появляются новые (т.е. ситуация ухудшается).

Что делал бы сам в подобной ситуации.
1. Бэкап содержимого.
2. Прогон mhdd (здесь и далее c _обязательным_ усиленным охлаждением) по чтению на предмет выявления задержек чтения и сбойных блоков.
3. По результатам в 2 (в т.ч. по результатам наполненности пользовательского списка сбойных секторов)
3.1. или прогон разрушающего теста для стирания/ремапа сбойных блоков
3.2. или прогон полного стирания диска
4. Принятие решения в отношении торрентокачалки:
4.1. отдать на заклание под новые торренты кусок диска (будет убит быстрее, потом можно исключить и убить следующий кусок, ...)
4.2. настроить качалку на выделение места под скачку при ее старте
5. Принять решения по разметке
6. Реализовать решения, разметить диск, восстановить бэкап
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 18483
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: Помирает жесткий диск?

Сообщение Bizdelnick »

chitatel писал(а):
11.11.2015 06:22
Чем и как ещё потестировать - не знаю.

smartctl -t long /dev/sda
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

Аватара пользователя
chitatel
Сообщения: 1867

Re: Помирает жесткий диск?

Сообщение chitatel »

smartctl -t long /dev/sda

Код:

smartctl 6.4 2014-10-07 r4002 [i686-linux-3.16.0-4-686-pae] (local build) Copyright © 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Momentus 5400.6 Device Model: ST9250315AS Serial Number: 6VCT2XR5 LU WWN Device Id: 5 000c50 037b49b0e Firmware Version: 0001SDM1 User Capacity: 250 059 350 016 bytes [250 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Wed Nov 11 19:33:07 2015 YAKT SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED See vendor-specific Attribute list for marginal Attributes. General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 121) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: ( 0) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 72) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x103b) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 114 095 006 Pre-fail Always - 61669902 3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1588 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 1 7 Seek_Error_Rate 0x000f 075 060 030 Pre-fail Always - 41770966 9 Power_On_Hours 0x0032 080 080 000 Old_age Always - 17812 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 099 099 020 Old_age Always - 1589 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 150 188 Command_Timeout 0x0032 100 093 000 Old_age Always - 1536 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 056 042 045 Old_age Always In_the_past 44 (Min/Max 28/47 #284) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 2 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 20 193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 661338 194 Temperature_Celsius 0x0022 044 058 000 Old_age Always - 44 (0 24 0 0 0) 195 Hardware_ECC_Recovered 0x001a 047 039 000 Old_age Always - 61669902 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 12 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 12 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 254 Free_Fall_Sensor 0x0032 100 100 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 149 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 149 occurred at disk power-on lifetime: 17810 hours (742 days + 2 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 02:44:18.850 READ DMA EXT ea 00 00 ff ff ff af 00 02:44:18.848 FLUSH CACHE EXT 27 00 00 00 00 00 e0 00 02:44:18.839 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3] ec 00 00 00 00 00 a0 00 02:44:18.814 IDENTIFY DEVICE ef 03 46 00 00 00 a0 00 02:44:18.767 SET FEATURES [Set transfer mode] Error 148 occurred at disk power-on lifetime: 17810 hours (742 days + 2 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 02:44:16.394 READ DMA EXT ca 00 08 25 27 59 eb 00 02:44:16.392 WRITE DMA ea 00 00 ff ff ff af 00 02:44:16.255 FLUSH CACHE EXT ca 00 10 15 27 59 eb 00 02:44:16.254 WRITE DMA ca 00 08 00 80 47 e0 00 02:44:16.254 WRITE DMA Error 147 occurred at disk power-on lifetime: 17810 hours (742 days + 2 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 02:44:13.604 READ DMA EXT ea 00 00 ff ff ff af 00 02:44:13.592 FLUSH CACHE EXT ca 00 08 c8 9d 0d e3 00 02:44:13.592 WRITE DMA ea 00 00 ff ff ff af 00 02:44:13.556 FLUSH CACHE EXT ca 00 30 98 9d 0d e3 00 02:44:13.556 WRITE DMA Error 146 occurred at disk power-on lifetime: 17810 hours (742 days + 2 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 02:44:11.135 READ DMA EXT 27 00 00 00 00 00 e0 00 02:44:11.123 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3] ec 00 00 00 00 00 a0 00 02:44:11.099 IDENTIFY DEVICE ef 03 46 00 00 00 a0 00 02:44:11.051 SET FEATURES [Set transfer mode] 27 00 00 00 00 00 e0 00 02:44:11.051 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3] Error 145 occurred at disk power-on lifetime: 17810 hours (742 days + 2 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 ff ff ff ef 00 02:44:08.568 READ DMA EXT ea 00 00 ff ff ff af 00 02:44:08.551 FLUSH CACHE EXT ca 00 08 0d 27 59 eb 00 02:44:08.551 WRITE DMA ea 00 00 ff ff ff af 00 02:44:08.534 FLUSH CACHE EXT ca 00 08 90 9d 0d e3 00 02:44:08.534 WRITE DMA SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 90% 17810 397853747 # 2 Short offline Completed without error 00% 8838 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.


5 Reallocated_Sector_Ct - не меняется.

Код: Выделить всё

1  Extended offline    Completed: read failure       90%     17810         397853747
как интерпретировать?

Раскурочил неттоп, почистил от пыли, сменил термопасту, в корпусе напротив HDD насверлил дополнительно дырок к тем, которые высверлил менее года тому. Температура камня, HDD понизилась, соответсвенно. Думаю, может стОит высверлить дыру под небольшой вентилятор для HDD, только запитать его придётся от USB, потому что на мамке никаких свободных разъёмов нет.

Вспомнил таки, что бэдсекторы нужно смотреть по разделам - в итоге они все оказались на разделе под торренты. :(

Код: Выделить всё

badblocks -vvv /dev/sda6
/.../
done
Pass completed, 36 bad blocks found. (36/0/0 errors)

На остальных разделах

Код: Выделить всё

Pass completed, 0 bad blocks found. (0/0/0 errors)


Запишу дамп бэдблоков, сделаю e2fsck -l

P.S.
Халява убивает мой HDD. Я теряю его!!!

Всем спасибо.
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 18483
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: Помирает жесткий диск?

Сообщение Bizdelnick »

chitatel писал(а):
11.11.2015 13:53
5 Reallocated_Sector_Ct - не меняется.

Странно это. Если есть бэды, должны бы ремапиться.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

Аватара пользователя
nerve
Сообщения: 280
ОС: OpenBSD

Re: Помирает жесткий диск?

Сообщение nerve »

нормальный с виду сигейт, судя по смарту еще должен пожить.
вот если бы он по io проваливался, но ведь нареканий на производительность нет?
Спасибо сказали:

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Помирает жесткий диск?

Сообщение NickLion »

Bizdelnick писал(а):
11.11.2015 13:56
chitatel писал(а):
11.11.2015 13:53
5 Reallocated_Sector_Ct - не меняется.

Странно это. Если есть бэды, должны бы ремапиться.

Не странно. Reallocation/remapping происходит только при неудачной попытке записать сектор. Если контроллер не может прочитать сектор, то ремаппить смысла нет, информация уже потеряна, а заменить на какой-то читаемый сектор с левой информацией — такое неявное утаивание хуже, чем сообщить об ошибке.
Спасибо сказали:

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Помирает жесткий диск?

Сообщение NickLion »

chitatel

Код: Выделить всё

Error: UNC at LBA

Говорит о невосстановимых ошибках чтения. Т.е. бэдблоки, которые Вы и нашли. Можно указать ФС, что необходимо пропускать те сектора или как говорил ранее bormant :
3.1. или прогон разрушающего теста для стирания/ремапа сбойных блоков

В этом случае будет произведена ошибка записи и сектор будет заменён и станет нормальным. В этом случае не теряете объём, но нужно форматнуть раздел заново.
Спасибо сказали:

Аватара пользователя
chitatel
Сообщения: 1867

Re: Помирает жесткий диск?

Сообщение chitatel »

nerve писал(а):
13.11.2015 12:30
но ведь нареканий на производительность нет?

В том то и дело, что нет. Работает как обычно. Он же типа "серверный", сам по себе работает, иногда подключаюсь удалённо к системе. Раздел с торретами раздается в NFSv4. Тоже пока без нареканий.

Если бы не письма от smartd - ничего бы не заметил.

Сегодня три письма:

1. Device: /dev/sda [SAT], ATA error count increased from 274 to 313

2. Device: /dev/sda [SAT], 18 Currently unreadable (pending) sectors

3. Device: /dev/sda [SAT], 18 Offline uncorrectable sectors

badblocks -vvv /dev/sda6 по прежнему рапортует о 36 найденных бедах.


NickLion писал(а):
13.11.2015 16:20
как говорил ранее bormant :
3.1. или прогон разрушающего теста для стирания/ремапа сбойных блоков

В этом случае будет произведена ошибка записи и сектор будет заменён и станет нормальным. В этом случае не теряете объём, но нужно форматнуть раздел заново.

Да, наверное вооружусь MHDD на флешке и попробую починить.
Спасибо сказали:

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Помирает жесткий диск?

Сообщение NickLion »

chitatel писал(а):
13.11.2015 16:29
Если бы не письма от smartd - ничего бы не заметил.

Но, имхо, лучше отреагировать и что-то с бэдблоками сделать. Если не жалко форматнуть весь винт, я бы советовал прогнать разрушающий тест с записью.

chitatel писал(а):
13.11.2015 16:29
Сегодня три письма:

1. Device: /dev/sda [SAT], ATA error count increased from 274 to 313

2. Device: /dev/sda [SAT], 18 Currently unreadable (pending) sectors

3. Device: /dev/sda [SAT], 18 Offline uncorrectable sectors

badblocks -vvv /dev/sda6 по прежнему рапортует о 36 найденных бедах.

Это норм, произошли новые ошибки при попытке чтения этих же блоков.
Спасибо сказали:

Аватара пользователя
chitatel
Сообщения: 1867

Re: Помирает жесткий диск?

Сообщение chitatel »

NickLion писал(а):
13.11.2015 16:30
Если не жалко форматнуть весь винт, я бы советовал прогнать разрушающий тест с записью.

Жалко. В смысле возиться с восстановлением системы не хочется совсем. :(
Спасибо сказали:

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Помирает жесткий диск?

Сообщение NickLion »

Ну, тогда хотя б один раздел, на котором бэдблоки.
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 18483
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: Помирает жесткий диск?

Сообщение Bizdelnick »

NickLion писал(а):
13.11.2015 16:30
я бы советовал прогнать разрушающий тест с записью.

А чем он лучше неразрушающего с записью?
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Помирает жесткий диск?

Сообщение NickLion »

Bizdelnick писал(а):
13.11.2015 16:53
NickLion писал(а):
13.11.2015 16:30
я бы советовал прогнать разрушающий тест с записью.

А чем он лучше неразрушающего с записью?

А что писать, если не удалось прочитать? Всё равно такой ФС уже доверять нельзя. Может там битый сектор на иноды попал?
Спасибо сказали:

Аватара пользователя
chitatel
Сообщения: 1867

Re: Помирает жесткий диск?

Сообщение chitatel »

Неделю назад, т.е. 14.11.2015 протестировал диск программой MHDD. Обнаружилось два проблемных блока и один был помечен как "warning".

Решил обойтись малой кровью и сделал запись с затиранием (erase destructive) именно на эти три проблемных участка. Повторное тестирование явных бэдов не обнаружило.

Проверки smart (вывод сокращён):

Код: Выделить всё

SMART overall-health self-assessment test result: PASSED
/../
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   095   006    Pre-fail  Always       -       136646406
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1600
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000f   076   060   030    Pre-fail  Always       -       42916412
  9 Power_On_Hours          0x0032   080   080   000    Old_age   Always       -       17975
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1601
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       331
188 Command_Timeout         0x0032   100   093   000    Old_age   Always       -       1553
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   057   042   045    Old_age   Always   In_the_past 43 (Min/Max 23/46 #284)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       20
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       661369
194 Temperature_Celsius     0x0022   043   058   000    Old_age   Always       -       43 (0 23 0 0 0)
195 Hardware_ECC_Recovered  0x001a   038   033   000    Old_age   Always       -       136646406
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0
/../
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     17974         -
# 2  Short offline       Completed without error       00%     17878         -
# 3  Extended offline    Completed without error       00%     17861         -
# 4  Extended offline    Completed: read failure       90%     17810         397853747
# 5  Short offline       Completed without error       00%      8838         -
1 of 1 failed self-tests are outdated by newer successful extended offline self-test # 1


Бэдблоки не детектируются:

Код: Выделить всё

badblocks -vvv /dev/sda6
Checking blocks 0 to 100898567
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)


В munin в поле smartctl_exit_status в начале ноября был резкий скачок с 51.04 до 224.00, после манипуляций упал до стабильных 96.00.

Записи в syslog:

Код: Выделить всё

Nov 21 07:36:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 188 Command_Timeout changed from 99 to 100
Nov 21 07:36:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 76 to 59
Nov 21 07:36:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 24 to 41
Nov 21 07:36:36 chitatel smartd[733]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 123 to 116
Nov 21 08:06:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 59 to 57
Nov 21 08:06:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 41 to 43
Nov 21 08:06:35 chitatel smartd[733]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 116 to 114
Nov 21 08:36:35 chitatel smartd[733]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 114 to 113
Nov 21 09:36:36 chitatel smartd[733]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 113 to 112
Nov 21 10:06:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 57 to 55
Nov 21 10:06:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 43 to 45
Nov 21 10:06:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 41
Nov 21 10:06:35 chitatel smartd[733]: Device: /dev/sda [SAT], self-test in progress, 70% remaining
Nov 21 10:36:35 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 41 to 38
Nov 21 10:36:35 chitatel smartd[733]: Device: /dev/sda [SAT], self-test in progress, 20% remaining
Nov 21 11:06:36 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 55 to 57
Nov 21 11:06:36 chitatel smartd[733]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 45 to 43
Nov 21 11:06:36 chitatel smartd[733]: Device: /dev/sda [SAT], previous self-test completed without error

smartd писем не пишет.

Проблему можно считать (временно) устранённой ("первый звоночек", считаю, уже прозвенел, HDD в перспективе ~12-18 месяцев меняю).

Всем спасибо.
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 18483
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: Помирает жесткий диск?

Сообщение Bizdelnick »

chitatel писал(а):
21.11.2015 06:02
протестировал диск программой MHDD. Обнаружилось два проблемных блока

...которые и раньше были найдены badblock'ом. То бишь использовать дополнительно к стандартным средствам GNU/Linux ещё и MHDD смысла нет, ч.т.д.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

QWERTYASDF
Сообщения: 985
Статус: Чайник со свистком
ОС: GNU/Linux

Re: Помирает жесткий диск?

Сообщение QWERTYASDF »

NickLion писал(а):
13.11.2015 16:12
Bizdelnick писал(а):
11.11.2015 13:56
chitatel писал(а):
11.11.2015 13:53
5 Reallocated_Sector_Ct - не меняется.

Странно это. Если есть бэды, должны бы ремапиться.

Не странно. Reallocation/remapping происходит только при неудачной попытке записать сектор. Если контроллер не может прочитать сектор, то ремаппить смысла нет, информация уже потеряна, а заменить на какой-то читаемый сектор с левой информацией — такое неявное утаивание хуже, чем сообщить об ошибке.

Действительно странно. До этого везде читала, что ремапинг происходит в любом случае при детектировании бэд-сектора (плохо читаемого/записываемого или нечитаемого/незаписываемого). Что и понятно - какое дело прошивке диска до информации в секторах, она выводит сообщения об ошибках и восстанавливает объем диска т.е. подменяет бэд-сектор.
Спасибо сказали:

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Помирает жесткий диск?

Сообщение NickLion »

QWERTYASDF
Значит описания неправильные (по причине упрощения или ещё какой причине). Перемещение сектора происходит при невозможности записи, критическом уровне показаний при записи или при восстановимой ошибке чтения. Или в Ваших терминах: при плохом чтении/записи или невозможности записи. При невозможности чтения произвести перемещение сектора невозможно, так как уже неизвестно какая информация в нём находилась. С точки зрения восстановления данных лучше знать, где находится битый сектор, чем просто подменить мусорным сектором.
Спасибо сказали: