Сбоит ext4, но виновата ли в этом железка?

IDE, SATA, SCSI, внешние USB-HDD, SSD, USB-Flash накопители

Модератор: Модераторы разделов

Ответить
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Сбоит ext4, но виновата ли в этом железка?

Сообщение SLEDopit »

У меня есть замечательный 1.5Тб wd green под бэкапы и торренты. К сожалению, в последний месяц-полтора начались регулярные сбои.
Система начинает ругаться на то, что невозможно удалить некоторые файлы. Лечится исключительно запуском fsck.
Во время fsck фиксится полно ошибок вида:

Код: Выделить всё

Entry 'file.sh' in /snapshots/weekly.2/user/home/scripts/ (60169088) has deleted/unused inode 31543953.  Clear? yes

smart никаких ошибок не рапортует. всё девственно чисто:

Код: Выделить всё

smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Green (Adv. Format) family
Device Model:     WDC WD15EARS-00Z5B1
Serial Number:    WD-WMAVU1832453
Firmware Version: 80.00A80
User Capacity:    1,500,301,910,016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Oct  4 10:05:41 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (33000) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3031) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   197   197   051    Pre-fail  Always       -       36297
  3 Spin_Up_Time            0x0027   206   177   021    Pre-fail  Always       -       4658
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       267
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   084   084   000    Old_age   Always       -       12335
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       265
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       57
193 Load_Cycle_Count        0x0032   142   142   000    Old_age   Always       -       176547
194 Temperature_Celsius     0x0022   120   087   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       3
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       3

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     12335         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Собственно, фикса fsck хватает на 1-2 недели, потом всё по новой.
Как разобраться кто виноват и как бы это пофиксить?
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 20799
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение Bizdelnick »

А в dmesg ругани на I/O нету?
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current
Контактная информация:

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение drBatty »

SLEDopit писал(а):
04.10.2012 11:52
Собственно, фикса fsck хватает на 1-2 недели, потом всё по новой.
Как разобраться кто виноват и как бы это пофиксить?

купить новый HDD.

впрочем, возможно проблема в RAM, шлейфах или питании. Но вряд-ли...
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение SLEDopit »

Bizdelnick
вот такой:

Код: Выделить всё

[2429573.624923] ata6.00: status: { DRDY ERR }
[2429573.624945] ata6.00: error: { UNC }
[2429573.632900] ata6.00: configured for UDMA/133
[2429573.632942] ata6: EH complete
[2429576.564846] ata6.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
[2429576.564885] ata6.00: irq_stat 0x40000008
[2429576.564910] ata6.00: failed command: READ FPDMA QUEUED
[2429576.564942] ata6.00: cmd 60/08:00:e8:14:c0/00:00:75:00:00/40 tag 0 ncq 4096 in
[2429576.564946]          res 41/40:00:e8:14:c0/00:00:75:00:00/40 Emask 0x409 (media error) <F>
[2429576.565015] ata6.00: status: { DRDY ERR }
[2429576.565039] ata6.00: error: { UNC }
[2429576.573706] ata6.00: configured for UDMA/133
[2429576.573744] sd 5:0:0:0: [sdd] Unhandled sense code
[2429576.573750] sd 5:0:0:0: [sdd] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[2429576.573761] sd 5:0:0:0: [sdd] Sense Key : Medium Error [current] [descriptor]
[2429576.573781] Descriptor sense data with sense descriptors (in hex):
[2429576.573789]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[2429576.573823]         75 c0 14 e8
[2429576.573837] sd 5:0:0:0: [sdd] Add. Sense: Unrecovered read error - auto reallocate failed
[2429576.573850] sd 5:0:0:0: [sdd] CDB: Read(10): 28 00 75 c0 14 e8 00 00 08 00
[2429576.573881] end_request: I/O error, dev sdd, sector 1975522536
[2429576.573920] Buffer I/O error on device sdd1, logical block 246940061
[2429576.574015] ata6: EH complete
[2430500.742097] EXT4-fs (sdd1): mounted filesystem with ordered data mode
[2430612.768858] smartctl: sending ioctl 2285 to a partition!
[2430612.768873] smartctl: sending ioctl 2285 to a partition!
[2430612.769840] smartctl: sending ioctl 2285 to a partition!
[2430612.769851] smartctl: sending ioctl 2285 to a partition!
[2430612.772351] smartctl: sending ioctl 2285 to a partition!
[2430612.772365] smartctl: sending ioctl 2285 to a partition!
[2430612.817589] smartctl: sending ioctl 2285 to a partition!
[2430612.817598] smartctl: sending ioctl 2285 to a partition!
[2430612.820568] smartctl: sending ioctl 2285 to a partition!
[2430612.820576] smartctl: sending ioctl 2285 to a partition!
[2430644.289108] __ratelimit: 8 callbacks suppressed

? есть (:
и даже nfs иногда, когда скачиваю по нему большие (>7Гб) файлы, сегфолтится. Я правда не уверен, что из-за диска, но вполне возможно, что и из-за него.

drBatty писал(а):
04.10.2012 13:37
купить новый HDD.

впрочем, возможно проблема в RAM, шлейфах или питании. Но вряд-ли...
А почему smart не ругается на неполадки в hdd, если с ним что-то не так?
А, хотя он вроде не всегда срабатывает, да..
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
petyanamlt
Сообщения: 1773
ОС: Kubuntu 16.04(x86-64)KDE 5.8.7

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение petyanamlt »

Поменяй шлейф, посмотри что скажет виктория.

Вообще у гринов были проблемы с парковкой головок. Именно поэтому и не стал их брать.
http://www.thg.ru/forum/showthread.php?threadid=62478
MSI 990FXA-GD80 SocketAM3+ / FX 8350 / Geforce gtx670 4GB / 4xHDD - 2000 -2х500 (Velociraptor) - 240ssd под Kubuntu / 16Gb RAM DDR3 1600 / TV TBS 6281. Ну и разгон естественно, жить без этого не могу.
(mail agent) petyanamlt собака маил.ру
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 20799
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение Bizdelnick »

SLEDopit писал(а):
04.10.2012 14:47
? есть (:

Не, если б было, то много и со словом error. :-)
Можно badblocks погонять, если и он ничего не найдёт (и в смарте потом ничего не появится) - проблема точно не в диске.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение SLEDopit »

petyanamlt писал(а):
04.10.2012 14:51
Вообще у гринов были проблемы с парковкой головок. Именно поэтому и не стал их брать.
Я в курсе этой проблемы. При постоянном использовании (торренты) головки не паркуются и проблемы не возникает.
Bizdelnick писал(а):
04.10.2012 15:50
Не, если б было, то много и со словом error. :-)
Можно badblocks погонять, если и он ничего не найдёт (и в смарте потом ничего не появится) - проблема точно не в диске.
Вообще погуглил по "failed command: READ FPDMA QUEUED", пишут что стоит поменять кабель. Поменял, пока полёт нормальный. Посмотрим, что будет дальше.
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current
Контактная информация:

Re: Сбоит ext4, но виновата ли в этом железка?

Сообщение drBatty »

SLEDopit писал(а):
04.10.2012 14:47
А почему smart не ругается на неполадки в hdd, если с ним что-то не так?

судя по логу это ошибки в шине. Шина начинается внутри HDD, но SMART её вроде не мониторит. Может шлейф, может диск, а может и мамка. Не знаю. Может оно by design не работает как UDMA133, но - пытается. Раньше получалось, а сейчас - не очень.
Но точно ничего не могу сказать. Такой HDD мне не попадался.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Ответить