Вчера слетела система (Впервые за время жизни на linux что-то грохнулось без видимых причин)
Модераторы: Warderer, Модераторы разделов
-
Hephaestus
- Сообщения: 3728
- Статус: Многоуважаемый джинн...
- ОС: Slackware64-14.1/14.2
Вчера слетела система
Debian Squeeze Stable/Backports amd64
В общем, дело было так.
Понадобилось мне вчера загрузиться с LIveCD, включаю машину, ставлю диск - загрузка начинается и... тишина.
Странно. Диск убираю, перезагружаюсь. Начинается загрузка системы, грузится, но с кучей ошибок, далее меня выкидывает в консоль. Начинаю смотреть в чем дело - половина команд не работает. В результате выясняю, что в
/usr практически пусто. Осталась только /usr/share.
Записал на флешку образ установочного CD, загрузился в режиме восстановления.
Прописав свои разделы попытался прогнать установку базовой системы. Дошло до 79% и зависло на initfarms.
Не дождался - нажал резет. Часть файлов в /usr всё-таки записалась. Стал доступен менеджер пакетов.
Попробовал скормить ему список пакетов через dpkg --set-selections. Пошла установка пакетов с ошибками.
Ругался на невозможность распаковать пакет и т.д. Оказалось, что в /usr нет нужных каталогов.
После этого попробовал еще раз режим восстановления - опять зависло на initfarms.
Так и пришлось форматировать корневой раздел и ставить систему заново.
Сейчас я уже всё восстановил, но я так и не понял, что это было? Как могли исчезнуть файлы из /usr?
С виду похоже на сбой файловой системы.
Последнее, чем я занимался перед аварией - гонял вирус на винде в VirtualBox.
Там бывает проблема - при выключении системы виртуальный сетевой интерфейс не хочет освобождаться. Приходится выключать насильно.
Кроме того, бывает, что при команде на выключение/перезагрузку падают иксы и система остается включенной.
Поэтому я обычно выключаю кнопкой power на клавиатуре - срабатывает нормально.
Это всё могло, конечно, привести к ошибкам на диске, но как-то уж очень избирательно - данные не пострадали, пострадали только исполняемые файлы.
Я уж думаю, может меня взломали? Не знаю, сижу за ADSL-модемом в режиме роутера, порты закрыты, настроен iptables. Не сказать,что прям беззащитная система. Могут быть конечно дыры в программах, но здесь я не в курсе.
От упавшей системы у меня остались сохранены /etc и /var.
Там в логах реально узнать причину?
Что скажете, уважаемые форумчане?
Да, вот еще в виде оффтопа. Есть сохраненный /var/lib/dpkg/status. Из него можно как-нибудь получить список пакетов в виде "пакет -- состояние" вроде того, который выдает dpkg --get-selections?
Кстати,
dpkg --get-selections по-моему врёт. Для некоторых установленных пакетов показывает deinstall.
А неустановленные пакеты (purge) не показывает вообще ни при каких условиях. Хотя раньше показывал.
Вопрос: есть ли альтернатива? Как получить список пакетов с состояниями, который потом можно скормить менеджеру?
В общем, дело было так.
Понадобилось мне вчера загрузиться с LIveCD, включаю машину, ставлю диск - загрузка начинается и... тишина.
Странно. Диск убираю, перезагружаюсь. Начинается загрузка системы, грузится, но с кучей ошибок, далее меня выкидывает в консоль. Начинаю смотреть в чем дело - половина команд не работает. В результате выясняю, что в
/usr практически пусто. Осталась только /usr/share.
Записал на флешку образ установочного CD, загрузился в режиме восстановления.
Прописав свои разделы попытался прогнать установку базовой системы. Дошло до 79% и зависло на initfarms.
Не дождался - нажал резет. Часть файлов в /usr всё-таки записалась. Стал доступен менеджер пакетов.
Попробовал скормить ему список пакетов через dpkg --set-selections. Пошла установка пакетов с ошибками.
Ругался на невозможность распаковать пакет и т.д. Оказалось, что в /usr нет нужных каталогов.
После этого попробовал еще раз режим восстановления - опять зависло на initfarms.
Так и пришлось форматировать корневой раздел и ставить систему заново.
Сейчас я уже всё восстановил, но я так и не понял, что это было? Как могли исчезнуть файлы из /usr?
С виду похоже на сбой файловой системы.
Последнее, чем я занимался перед аварией - гонял вирус на винде в VirtualBox.
Там бывает проблема - при выключении системы виртуальный сетевой интерфейс не хочет освобождаться. Приходится выключать насильно.
Кроме того, бывает, что при команде на выключение/перезагрузку падают иксы и система остается включенной.
Поэтому я обычно выключаю кнопкой power на клавиатуре - срабатывает нормально.
Это всё могло, конечно, привести к ошибкам на диске, но как-то уж очень избирательно - данные не пострадали, пострадали только исполняемые файлы.
Я уж думаю, может меня взломали? Не знаю, сижу за ADSL-модемом в режиме роутера, порты закрыты, настроен iptables. Не сказать,что прям беззащитная система. Могут быть конечно дыры в программах, но здесь я не в курсе.
От упавшей системы у меня остались сохранены /etc и /var.
Там в логах реально узнать причину?
Что скажете, уважаемые форумчане?
Да, вот еще в виде оффтопа. Есть сохраненный /var/lib/dpkg/status. Из него можно как-нибудь получить список пакетов в виде "пакет -- состояние" вроде того, который выдает dpkg --get-selections?
Кстати,
dpkg --get-selections по-моему врёт. Для некоторых установленных пакетов показывает deinstall.
А неустановленные пакеты (purge) не показывает вообще ни при каких условиях. Хотя раньше показывал.
Вопрос: есть ли альтернатива? Как получить список пакетов с состояниями, который потом можно скормить менеджеру?
-
Bizdelnick
- Модератор
- Сообщения: 21414
- Статус: nulla salus bello
- ОС: Debian GNU/Linux
Re: Вчера слетела система
Что в SMART? Какая файловая система?
Пишите правильно:
| в консоли вку́пе (с чем-либо) в общем вообще | в течение (часа) новичок нюанс по умолчанию | приемлемо проблема пробовать трафик |
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: Вчера слетела система
Вообще дико похоже не аппаратные ошибки. memtest, smartctl, badblocks?
-
Hephaestus
- Сообщения: 3728
- Статус: Многоуважаемый джинн...
- ОС: Slackware64-14.1/14.2
Re: Вчера слетела система
Файловая система на всех разделах - Ext3.
Вот вывод smart проблемного винта
Код: Выделить всё
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.10 family
Device Model: ST3250310AS
Serial Number: 9RY1DXMM
Firmware Version: 3.AAC
User Capacity: 250 059 350 016 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Apr 8 15:15:39 2013 SAMT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 22) The self-test routine was aborted by
the host.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 64) minutes.
SCT capabilities: (0x0001) SCT Status supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 115 097 006 Pre-fail Always - 98586932
3 Spin_Up_Time 0x0003 097 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 096 096 020 Old_age Always - 4428
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 514069876
9 Power_On_Hours 0x0032 074 074 000 Old_age Always - 23480
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 096 096 020 Old_age Always - 4439
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 063 047 045 Old_age Always - 37 (Lifetime Min/Max 28/38)
194 Temperature_Celsius 0x0022 037 053 000 Old_age Always - 37 (0 19 0 0)
195 Hardware_ECC_Recovered 0x001a 075 057 000 Old_age Always - 202001797
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Aborted by host 60% 20754 -
# 2 Short offline Completed without error 00% 20740 -
# 3 Short offline Aborted by host 50% 20722 -
# 4 Short offline Completed without error 00% 20717 -
# 5 Extended offline Aborted by host 30% 20689 -
# 6 Short offline Completed without error 00% 20686 -
# 7 Short offline Aborted by host 90% 20660 -
# 8 Short offline Aborted by host 90% 20645 -
# 9 Short offline Aborted by host 60% 20579 -
#10 Short offline Completed without error 00% 20570 -
#11 Short offline Completed without error 00% 20556 -
#12 Short offline Completed without error 00% 20543 -
#13 Extended offline Aborted by host 20% 20533 -
#14 Short offline Completed without error 00% 20527 -
#15 Short offline Completed without error 00% 20513 -
#16 Short offline Completed without error 00% 20501 -
#17 Short offline Completed without error 00% 20490 -
#18 Short offline Completed without error 00% 20478 -
#19 Short offline Completed without error 00% 20464 -
#20 Short offline Completed without error 00% 20448 -
#21 Extended offline Completed without error 00% 20435 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.Диску лет пять от роду, точнее не вспомню.
memtest не прогонял. Железо не слишком старое покупалось семь месяцев назад.
Могу прогнать, конечно, но... с мемтестом была такая ситуация, что с разных LiveCD получается разный результат.
Кому верить? И какую версию memtest брать?
По поводу badblocks. Сейчас уже наверно бессмысленно, так как раздел форматировался,
а вообще - те проверки, которые происходят при каждом запуске системы и более полные через каждые 30 запусков - они найдут бедблоки?
А то по результатам этих проверок - всё чисто.
Они вообще, что-нибудь находят?
-
Kopilov
- Сообщения: 957
- ОС: [K]Ubuntu, Debian
Re: Вчера слетела система
А у меня такая история.
Комп (я на нём работаю почти два года, сколько ему реально -- не знаю, предоставлен компанией, под видом нового) начал глючить сразу после переноса в новую комнату и чистки от пыли. Симптомы: падают самые разные программы (от Java и Firefox до KWin и emerge), чаще всего с segmentation failt. Тесты диска и памяти ничего не нашли. Поэтапные замены узлов показали, что виновата всё-таки память, причём:
ошибки возникают только когда установлены обе планки (DDR3 по 2 ГиБ);
при работе с LiveUSB (Calculate) ошибок нет, начинаются только после установки на диск.
Как такое возможно?
Комп (я на нём работаю почти два года, сколько ему реально -- не знаю, предоставлен компанией, под видом нового) начал глючить сразу после переноса в новую комнату и чистки от пыли. Симптомы: падают самые разные программы (от Java и Firefox до KWin и emerge), чаще всего с segmentation failt. Тесты диска и памяти ничего не нашли. Поэтапные замены узлов показали, что виновата всё-таки память, причём:
ошибки возникают только когда установлены обе планки (DDR3 по 2 ГиБ);
при работе с LiveUSB (Calculate) ошибок нет, начинаются только после установки на диск.
Как такое возможно?
-
Bizdelnick
- Модератор
- Сообщения: 21414
- Статус: nulla salus bello
- ОС: Debian GNU/Linux
Re: Вчера слетела система
Нет.
Почему бы не взять репозиторную, если систему удалось реанимировать?
Пишите правильно:
| в консоли вку́пе (с чем-либо) в общем вообще | в течение (часа) новичок нюанс по умолчанию | приемлемо проблема пробовать трафик |
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: Вчера слетела система
fflatx писал(а): ↑08.04.2013 15:34По поводу badblocks. Сейчас уже наверно бессмысленно, так как раздел форматировался,
а вообще - те проверки, которые происходят при каждом запуске системы и более полные через каждые 30 запусков - они найдут бедблоки?
А то по результатам этих проверок - всё чисто.
Они вообще, что-нибудь находят?
Каждые 30 монтирований, емнип, запускается fsck. Который только логическую структуру диска проверяет. Вообще странно, что они чисто показали. Но тем не менее badblocks совсем не поздно. Только учтите — это долго будет длиться. Особенно, если есть проблемы с винтом. У меня 500 гиговый проблемный диск больше 12 часов мучало.
-
Bizdelnick
- Модератор
- Сообщения: 21414
- Статус: nulla salus bello
- ОС: Debian GNU/Linux
Re: Вчера слетела система
Kopilov
Тут масса вариантов различных повреждений во время чистки, да и не только. Отошёл какой-то разъём, отломалась нога какого-то конденсатора на материнке (или он просто издох своей смертью), статическим разрядом повреждена какая-то микросхема...
Тут масса вариантов различных повреждений во время чистки, да и не только. Отошёл какой-то разъём, отломалась нога какого-то конденсатора на материнке (или он просто издох своей смертью), статическим разрядом повреждена какая-то микросхема...
Пишите правильно:
| в консоли вку́пе (с чем-либо) в общем вообще | в течение (часа) новичок нюанс по умолчанию | приемлемо проблема пробовать трафик |
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: Вчера слетела система
Запросто, к сожалению. Ошибки с памятью на удивление часто возникают и трудно ловятся. Лично видел комп, в котором память нормально работала, только если планки (идентичные версии, только серии разные) стояли в определённом порядке. Если поменять их местами, то всё несусветно глючило.
И не факт, что виноваты сами планки, а не материнка.
-
infra_hdc
- Сообщения: 376
- ОС: GNU/Linux
Re: Вчера слетела система
Kopilov писал(а): ↑08.04.2013 16:22А у меня такая история.
Комп (я на нём работаю почти два года, сколько ему реально -- не знаю, предоставлен компанией, под видом нового) начал глючить сразу после переноса в новую комнату и чистки от пыли. Симптомы: падают самые разные программы (от Java и Firefox до KWin и emerge), чаще всего с segmentation failt. Тесты диска и памяти ничего не нашли. Поэтапные замены узлов показали, что виновата всё-таки память, причём:
ошибки возникают только когда установлены обе планки (DDR3 по 2 ГиБ);
при работе с LiveUSB (Calculate) ошибок нет, начинаются только после установки на диск.
Как такое возможно?
[offtopic]В общем случае, для NIX-систем железо должно быть идеальным с точки зрения надёжности и работоспособности без ошибок. Железо сначала надо довести до ума без загрузки боевой операционки. В моём случае, как минимум чтобы без ошибок проходил memtest86+ и MHDD. Практическое отсутствие проблем с железом в большинстве случаев достигается применением системных плат производства Intel и памяти одного из следующих производителей: Samsung, Kingston, Transcend, и, возможно, Viking. Блок питания также должен быть качественным. Либо, если есть возможность, применением брэнд-нейм системных блоков производства DELL серии OptiPlex или PowerEdge.
Как-то так. Конечно, на хорошее железо стоит тратиться, если поставлены задачи уровня серьёзности более, чем ковыряние в носу.[offtopic]
-
drBatty
- Сообщения: 8735
- Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
- ОС: Slackware-current
Re: Вчера слетела система
как настроите. man tune2fs (-c, -i)
4.2
просто в венде BSOD всегда можно списать на венду.
всё это ерунда. Лично я даже не знаю, как моя память называется. Знаю, что там то-ли 3, то-ли 5 лет гарантии, и знаю, что я её раньше выкину. Мамки тоже работают без проблем, и от асуса, и от асрока, и от чего угодно.
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
-
drBatty
- Сообщения: 8735
- Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
- ОС: Slackware-current
Re: Вчера слетела система
на самом деле - от монтирований если -c, а если -i - то от времени. Ну и "запуск" и "монтирование" для ТСа эквивалентно, ибо я не думаю, что он умеет размонтировать на ходу rootfs или /home.
-
yars
- Сообщения: 1147
- Статус: Slacker!
- ОС: Slackware64-current
Re: Вчера слетела система
Было у меня похожее. Год назад. И ФС - ext3 была, Slackware 12.1. Собирал себе TuxRacer'a, и вдруг полезли ошибки записи на диск... Попытка проверить диск на ошибки и восстановить с LiveCD закончилась ничем. Переформатировал, накатил 13.37 - полет нормальный, смотрю SMART - проблем вроде бы нет. И сейчас, на Slackware-14 проблем нет. Так и не понял, с чего бы такой сбой, скачков напряжения не было, БП напряжения держит в пределах нормы. Память memtest'ом гонял - чисто.
Slackware64-current/Xfce/Xiaomi Mi Notebook Pro 15.6 | Arch Linux/Xfce/Lenovo G580
-------------
Registered Linux User #557010
-------------
Registered Linux User #557010