Отваливается корневой раздел (вот уже второй раз)

IDE, SATA, SCSI, внешние USB-HDD, SSD, USB-Flash накопители

Модератор: Модераторы разделов

Аватара пользователя
Frank
Сообщения: 1059
ОС: Ubuntu, Debian

Отваливается корневой раздел

Сообщение Frank »

Код: Выделить всё

ata1.01: exception Emask 0x0 SAct 0x0 SEree 0x0 action 0x2
ata1.01: BMDMA stat 0x64
ata1.01: cmd ca/00:08:3c:32:e3/00:00:00:00:00/f0 tag 0 dma 4096 out
ata1.01: revalidation failed (ErrNo=-2)
ata1.01: revalidation failed (ErrNo=-2)
ata1.01: revalidation failed (ErrNo=-2)
ata1.00: revalidation failed (ErrNo=-5)
Buffer I/O error on device sdb3, logical block 391244
Abortiong journal on device sdb3.
EXT3-fs error (device sdb3) in ext3_write_begin: IO failure
Romounting filesustem read-only
Buffer I/O error on device sdb3, logical block 1289
Buffer I/O error on device sdb3, logical block 0
Buffer I/O error on device sdb3, logical block 78027
...

EXT3-fs error (device sdb3): ext3_get_inode_loc: unable to read inode block - inode=66354, block=262171
EXT3-fs error (device sdb3): ext3_find_entry: reading directory #2064385 offset 0
EXT3-fs error (device sdb3): ext3_find_entry: reading directory #600295 offset 0
...

Многоточие указывает на повторяющиеся записи с разными цифрами, мне лень было их срисовывать руками с экрана (в логи ничего этого не попадает).
После резета в messages:

Код: Выделить всё

Oct 23 06:47:17 fqc kernel: [   46.565054] EXT3-fs: INFO: recovery required on readonly filesystem.
Oct 23 06:47:17 fqc kernel: [   46.565075] EXT3-fs: write access will be enabled during recovery.
Oct 23 06:47:17 fqc kernel: [   46.736994] kjournald starting.  Commit interval 5 seconds
Oct 23 06:47:17 fqc kernel: [   46.737056] EXT3-fs: sdb3: orphan cleanup on readonly fs
Oct 23 06:47:17 fqc kernel: [   46.773842] EXT3-fs: sdb3: 6 orphan inodes deleted
Oct 23 06:47:17 fqc kernel: [   46.773849] EXT3-fs: recovery complete.
Oct 23 06:47:17 fqc kernel: [   46.781090] EXT3-fs: mounted filesystem with ordered data mode.

Смущает немного следующее:

Код: Выделить всё

Oct 23 06:47:17 fqc kernel: [   45.383630]  sdb:<4>Driver 'sr' needs updating - please use bus_type methods
Oct 23 06:47:17 fqc kernel: [   45.404616]  sdb1 sdb2 sdb3 sdb4

Теперь мой вопрос: что это было? что за ругательства на драйвер sr, не от того ли сбои?
Изображение
Спасибо сказали:
Аватара пользователя
Mage-Warrior
Сообщения: 869
Статус: Семь раз понюхай, один раз откуси!
ОС: SlackWare 12.1

Re: Отваливается корневой раздел

Сообщение Mage-Warrior »

Driver 'sr' needs updating - please use bus_type methods

Это предупреждение ядра о том, что используется (пока) старое API. Оно не может быть причиной ошибок. Первым делом проверьте исправность железа, начиная с самого простого. Поменяйте шлейф (или просто передёрните), проверьте HDD утилитой MHDD (может быть, badblock-ов она не найдёт, а окажется, что жёсткий диск начинает падать при нагреве/получении нагрузки). Корневой раздел практически всегда отваливается первым при наличии проблем с HDD, так как на нем и var, и tmp, и базовые утилиты и библиотеки.
*- Большинство проблем, дружок, завсегда покажет лог! -*
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Отваливается корневой раздел

Сообщение rm_ »

Результат smartctl -a /dev/sdb приложите.
Спасибо сказали:
Аватара пользователя
Frank
Сообщения: 1059
ОС: Ubuntu, Debian

Re: Отваливается корневой раздел

Сообщение Frank »

rm_ писал(а):
23.10.2008 09:26
Результат smartctl -a /dev/sdb приложите.

Код:

root@fqc:~# smartctl -a /dev/sdb smartctl version 5.37 [i686-pc-linux-gnu] Copyright © 2002-6 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Model Family: Maxtor DiamondMax Plus 9 family Device Model: Maxtor 6Y120L0 Serial Number: Y34AQYVE Firmware Version: YAR41BW0 User Capacity: 122.942.324.736 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0 Local Time is: Thu Oct 23 17:27:45 2008 EEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 242) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. No General Purpose Logging support. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 54) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0027 201 200 063 Pre-fail Always - 14531 4 Start_Stop_Count 0x0032 253 253 000 Old_age Always - 1668 5 Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail Always - 0 6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0 7 Seek_Error_Rate 0x000a 253 252 000 Old_age Always - 0 8 Seek_Time_Performance 0x0027 253 242 187 Pre-fail Always - 49294 9 Power_On_Minutes 0x0032 213 213 000 Old_age Always - 764h+30m 10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0 11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 248 248 000 Old_age Always - 2024 192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0 193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0 194 Temperature_Celsius 0x0032 253 253 000 Old_age Always - 34 195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 5100 196 Reallocated_Event_Count 0x0008 253 253 000 Old_age Offline - 0 197 Current_Pending_Sector 0x0008 253 253 000 Old_age Offline - 0 198 Offline_Uncorrectable 0x0008 253 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0008 199 199 000 Old_age Offline - 0 200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0 201 Soft_Read_Error_Rate 0x000a 253 252 000 Old_age Always - 35 202 TA_Increase_Count 0x000a 253 252 000 Old_age Always - 0 203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 15 204 Shock_Count_Write_Opern 0x000a 253 252 000 Old_age Always - 0 205 Shock_Rate_Write_Opern 0x000a 253 252 000 Old_age Always - 0 207 Spin_High_Current 0x002a 253 252 000 Old_age Always - 0 208 Spin_Buzz 0x002a 253 252 000 Old_age Always - 0 209 Offline_Seek_Performnce 0x0024 194 190 000 Old_age Offline - 0 99 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0 100 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0 101 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

О железе: PCPartner мать на i440BX чипсете, ей уже под десять лет и никаких сбоев, конденсаторы ок, питание ок; работала много лет под виндой, которая на sda стоит. Несколько месяцев назад поставил sdb, стоял почти пустой, почти всегда в простое. Месяц назад сменил видюху, какую-то сиську, которую линукс ни в каком графическом режиме не мог запустить, на МХ400, и поставил убунту. После всяких ковыряний графический режим оказался ненужным (нужные проги в вайне не завелись толком), и гуй был обрезан. Так вот, за этот месяц, что линукс стоит, это уже второй раз такая борода. Винда на этом железе, на винте sda (сигейт 80 ГБ) работала с аптаймами по 2-3 месяца - пока свет не пропадал на дольше, чем УПС тянет.
Изображение
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Отваливается корневой раздел

Сообщение rm_ »

SMART вроде бы нормальный.
Можно тест прогнать, smartctl -t long (результаты смотреть через час-другой в том же smartctl -a).
Можно просто на бэдблоки проверить - badblocks, или MHDD.
Если ничего подозрительного не обнаруживается, либо действительно кабель/материнка/другое железо, либо винчестер всё же подыхает, но весьма хитро и коварно. В любом случае, рекомендуется иметь свежие бэкапы.
Спасибо сказали:
Аватара пользователя
Frank
Сообщения: 1059
ОС: Ubuntu, Debian

Re: Отваливается корневой раздел

Сообщение Frank »

Код: Выделить всё

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     13009         -

Код: Выделить всё

badblocks -s /dev/sdb
Checking for bad blocks (read-only test): done

Даже если бы были бэды, это не объясняет глобальных ошибок чтения всего корневого (как минимум).

upd: вот, опять :(

Код: Выделить всё

Oct 25 07:27:03 fqc -- MARK --
Oct 25 07:46:54 fqc syslogd 1.5.0#1ubuntu1: restart.
Oct 25 09:20:59 fqc syslogd 1.5.0#1ubuntu1: restart.
Oct 25 09:20:59 fqc kernel: Inspecting /boot/System.map-2.6.24-21-generic

Код: Выделить всё

Oct 25 09:21:00 fqc kernel: [   46.408020] Attempting manual resume
Oct 25 09:21:00 fqc kernel: [   46.484325] EXT3-fs: INFO: recovery required on readonly filesystem.
Oct 25 09:21:00 fqc kernel: [   46.484343] EXT3-fs: write access will be enabled during recovery.
Oct 25 09:21:00 fqc kernel: [   54.022875] kjournald starting.  Commit interval 5 seconds
Oct 25 09:21:00 fqc kernel: [   54.022939] EXT3-fs: sdb3: orphan cleanup on readonly fs
Oct 25 09:21:00 fqc kernel: [   54.295047] EXT3-fs: sdb3: 14 orphan inodes deleted
Oct 25 09:21:00 fqc kernel: [   54.295054] EXT3-fs: recovery complete.
Oct 25 09:21:00 fqc kernel: [   54.311979] EXT3-fs: mounted filesystem with ordered data mode.
Изображение
Спасибо сказали:
Аватара пользователя
Frank
Сообщения: 1059
ОС: Ubuntu, Debian

Re: Отваливается корневой раздел

Сообщение Frank »

ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
ata1.00 cmd 25/00:00:5d:87:6f/00:02:01:00:00/e0 tag 0 dma 262144 in
ata1.00: status: { DRDY }

Чудеса какие-то... http://ubuntuforums.org/showthread.php?p=5691406 - здесь описывают подобные проблемы при самых разнообразных железках, правда, как я понял, стабильно проявляющиеся. Даже не знаю что и думать...
Изображение
Спасибо сказали:
Аватара пользователя
Frank
Сообщения: 1059
ОС: Ubuntu, Debian

Re: Отваливается корневой раздел

Сообщение Frank »

Хрен знает что. Посмотрев на то, что винт сидит на одном шлейфе с сидюком, отключил винт и рассадил винты каждый на свой канал. При этом винты поменялись местами (sda стал sdb и наоборот), но система продолжала работать, т.к. монтировался диск с системой по UUID. Второй же винт был отмонтирован, т.к. в /etc/fstab была не та буква, и вместо него система пыталась примонтировать повторно системный диск.
Так система работала до сегодняшнего дня, когда мне притащили 15 гиг книжек, которые я выложил на ftp, и вспомнил, что недоступны остальные ресурсы (с того винта, который не смонтировался)
Изменив букву в /etc/fstab, я дал команду смонтировать 1-й раздел с этого винта... и система намертво повисла, не написав даже ничего в консоль...
Нажав резет, понаблюдал за загрузкой, продолжил работу - всё поднялось как ни в чём не бывало, но не прошло и пяти минут аптайма, как комп снова железно повис, на этот раз с "привычными" сообщениями на консоль о "ata1.01: exception Emask 0x0 SAct 0x0 SEree 0x0 action 0x2", "ata1.01: BMDMA stat 0x64", и ещё парочки... До сообщений о перемонтировании в рид-онли система не дошла, завис комп железно до этого.
Отключил винт, курю бамбук... Не могу сообразить, что за фигня. Попробую как-нибудь при следующем дауне сервака выключить ACPI, он по идее кривой всё равно (BIOS 99-го года).

Ой, а я похоже уже отключал его.

Код: Выделить всё

Nov  7 22:41:24 fqc kernel: [    0.021126] SMP alternatives: switching to UP code
Nov  7 22:41:24 fqc kernel: [    0.032119] Freeing SMP alternatives: 11k freed
Nov  7 22:41:24 fqc kernel: [    0.032139] ACPI: Core revision 20080609
Nov  7 22:41:24 fqc kernel: [    0.032315] ACPI Exception (tbxface-0627): AE_NO_ACPI_TABLES, While loading namespace from ACPI tables [20080609]
Nov  7 22:41:24 fqc kernel: [    0.032694] weird, boot CPU (#0) not listedby the BIOS.
Nov  7 22:41:24 fqc kernel: [    0.032708] SMP motherboard not detected.
Nov  7 22:41:24 fqc kernel: [    0.032720] Local APIC not detected. Using dummy APIC emulation.
Nov  7 22:41:24 fqc kernel: [    0.032728] SMP disabled
Nov  7 22:41:24 fqc kernel: [    0.033161] Brought up 1 CPUs
Nov  7 22:41:24 fqc kernel: [    0.033176] Total of 1 processors activated (1269.55 BogoMIPS).
Nov  7 22:41:24 fqc kernel: [    0.034641] net_namespace: 840 bytes
Nov  7 22:41:24 fqc kernel: [    0.034673] Booting paravirtualized kernel on bare hardware
Nov  7 22:41:24 fqc kernel: [    0.036079] Time: 20:40:30  Date: 11/07/08
Nov  7 22:41:24 fqc kernel: [    0.036220] NET: Registered protocol family 16
Nov  7 22:41:24 fqc kernel: [    0.038669] EISA bus registered
Nov  7 22:41:24 fqc kernel: [    0.071689] PCI: PCI BIOS revision 2.10 entry at 0xfb1b0, last bus=1
Nov  7 22:41:24 fqc kernel: [    0.071703] PCI: Using configuration type 1 for base access
Nov  7 22:41:24 fqc kernel: [    0.079015] ACPI: Interpreter disabled.
Nov  7 22:41:24 fqc kernel: [    0.079033] Linux Plug and Play Support v0.97 (c) Adam Belay
Nov  7 22:41:24 fqc kernel: [    0.079304] pnp: PnP ACPI: disabled
Изображение
Спасибо сказали: