Вчера слетела система (Впервые за время жизни на linux что-то грохнулось без видимых причин)

Knoppix

Модераторы: Warderer, Модераторы разделов

Аватара пользователя
Hephaestus
Сообщения: 3728
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Вчера слетела система

Сообщение Hephaestus »

Debian Squeeze Stable/Backports amd64

В общем, дело было так.
Понадобилось мне вчера загрузиться с LIveCD, включаю машину, ставлю диск - загрузка начинается и... тишина.
Странно. Диск убираю, перезагружаюсь. Начинается загрузка системы, грузится, но с кучей ошибок, далее меня выкидывает в консоль. Начинаю смотреть в чем дело - половина команд не работает. В результате выясняю, что в
/usr практически пусто. Осталась только /usr/share.

Записал на флешку образ установочного CD, загрузился в режиме восстановления.
Прописав свои разделы попытался прогнать установку базовой системы. Дошло до 79% и зависло на initfarms.
Не дождался - нажал резет. Часть файлов в /usr всё-таки записалась. Стал доступен менеджер пакетов.
Попробовал скормить ему список пакетов через dpkg --set-selections. Пошла установка пакетов с ошибками.
Ругался на невозможность распаковать пакет и т.д. Оказалось, что в /usr нет нужных каталогов.
После этого попробовал еще раз режим восстановления - опять зависло на initfarms.

Так и пришлось форматировать корневой раздел и ставить систему заново.
Сейчас я уже всё восстановил, но я так и не понял, что это было? Как могли исчезнуть файлы из /usr?
С виду похоже на сбой файловой системы.

Последнее, чем я занимался перед аварией - гонял вирус на винде в VirtualBox.
Там бывает проблема - при выключении системы виртуальный сетевой интерфейс не хочет освобождаться. Приходится выключать насильно.

Кроме того, бывает, что при команде на выключение/перезагрузку падают иксы и система остается включенной.
Поэтому я обычно выключаю кнопкой power на клавиатуре - срабатывает нормально.

Это всё могло, конечно, привести к ошибкам на диске, но как-то уж очень избирательно - данные не пострадали, пострадали только исполняемые файлы.

Я уж думаю, может меня взломали? Не знаю, сижу за ADSL-модемом в режиме роутера, порты закрыты, настроен iptables. Не сказать,что прям беззащитная система. Могут быть конечно дыры в программах, но здесь я не в курсе.

От упавшей системы у меня остались сохранены /etc и /var.
Там в логах реально узнать причину?

Что скажете, уважаемые форумчане?

Да, вот еще в виде оффтопа. Есть сохраненный /var/lib/dpkg/status. Из него можно как-нибудь получить список пакетов в виде "пакет -- состояние" вроде того, который выдает dpkg --get-selections?
Кстати,
dpkg --get-selections по-моему врёт. Для некоторых установленных пакетов показывает deinstall.
А неустановленные пакеты (purge) не показывает вообще ни при каких условиях. Хотя раньше показывал.
Вопрос: есть ли альтернатива? Как получить список пакетов с состояниями, который потом можно скормить менеджеру?





Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 21414
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Вчера слетела система

Сообщение Bizdelnick »

Что в SMART? Какая файловая система?
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вчера слетела система

Сообщение NickLion »

Вообще дико похоже не аппаратные ошибки. memtest, smartctl, badblocks?
Спасибо сказали:
Аватара пользователя
Hephaestus
Сообщения: 3728
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Re: Вчера слетела система

Сообщение Hephaestus »

Bizdelnick писал(а):
08.04.2013 14:18
Что в SMART? Какая файловая система?
Файловая система на всех разделах - Ext3.
Вот вывод smart проблемного винта

Код: Выделить всё

smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10 family
Device Model:     ST3250310AS
Serial Number:    9RY1DXMM
Firmware Version: 3.AAC
User Capacity:    250 059 350 016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Mon Apr  8 15:15:39 2013 SAMT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (  22)    The self-test routine was aborted by
                    the host.
Total time to complete Offline
data collection:          ( 430) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   1) minutes.
Extended self-test routine
recommended polling time:      (  64) minutes.
SCT capabilities:            (0x0001)    SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   115   097   006    Pre-fail  Always       -       98586932
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   096   096   020    Old_age   Always       -       4428
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       514069876
  9 Power_On_Hours          0x0032   074   074   000    Old_age   Always       -       23480
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   096   096   020    Old_age   Always       -       4439
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   063   047   045    Old_age   Always       -       37 (Lifetime Min/Max 28/38)
194 Temperature_Celsius     0x0022   037   053   000    Old_age   Always       -       37 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   075   057   000    Old_age   Always       -       202001797
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Aborted by host               60%     20754         -
# 2  Short offline       Completed without error       00%     20740         -
# 3  Short offline       Aborted by host               50%     20722         -
# 4  Short offline       Completed without error       00%     20717         -
# 5  Extended offline    Aborted by host               30%     20689         -
# 6  Short offline       Completed without error       00%     20686         -
# 7  Short offline       Aborted by host               90%     20660         -
# 8  Short offline       Aborted by host               90%     20645         -
# 9  Short offline       Aborted by host               60%     20579         -
#10  Short offline       Completed without error       00%     20570         -
#11  Short offline       Completed without error       00%     20556         -
#12  Short offline       Completed without error       00%     20543         -
#13  Extended offline    Aborted by host               20%     20533         -
#14  Short offline       Completed without error       00%     20527         -
#15  Short offline       Completed without error       00%     20513         -
#16  Short offline       Completed without error       00%     20501         -
#17  Short offline       Completed without error       00%     20490         -
#18  Short offline       Completed without error       00%     20478         -
#19  Short offline       Completed without error       00%     20464         -
#20  Short offline       Completed without error       00%     20448         -
#21  Extended offline    Completed without error       00%     20435         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Есть, конечно, некрасивые показатели, но в целом вроде ничего криминального.
Диску лет пять от роду, точнее не вспомню.

memtest не прогонял. Железо не слишком старое покупалось семь месяцев назад.
Могу прогнать, конечно, но... с мемтестом была такая ситуация, что с разных LiveCD получается разный результат.
Кому верить? И какую версию memtest брать?

По поводу badblocks. Сейчас уже наверно бессмысленно, так как раздел форматировался,
а вообще - те проверки, которые происходят при каждом запуске системы и более полные через каждые 30 запусков - они найдут бедблоки?
А то по результатам этих проверок - всё чисто.
Они вообще, что-нибудь находят?



Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:
Kopilov
Сообщения: 957
ОС: [K]Ubuntu, Debian

Re: Вчера слетела система

Сообщение Kopilov »

А у меня такая история.
Комп (я на нём работаю почти два года, сколько ему реально -- не знаю, предоставлен компанией, под видом нового) начал глючить сразу после переноса в новую комнату и чистки от пыли. Симптомы: падают самые разные программы (от Java и Firefox до KWin и emerge), чаще всего с segmentation failt. Тесты диска и памяти ничего не нашли. Поэтапные замены узлов показали, что виновата всё-таки память, причём:
ошибки возникают только когда установлены обе планки (DDR3 по 2 ГиБ);
при работе с LiveUSB (Calculate) ошибок нет, начинаются только после установки на диск.
Как такое возможно?
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 21414
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Вчера слетела система

Сообщение Bizdelnick »

fflatx писал(а):
08.04.2013 15:34
те проверки, которые происходят при каждом запуске системы и более полные через каждые 30 запусков - они найдут бедблоки?

Нет.

fflatx писал(а):
08.04.2013 15:34
с мемтестом была такая ситуация, что с разных LiveCD получается разный результат.
Кому верить? И какую версию memtest брать?

Почему бы не взять репозиторную, если систему удалось реанимировать?
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вчера слетела система

Сообщение NickLion »

fflatx писал(а):
08.04.2013 15:34
По поводу badblocks. Сейчас уже наверно бессмысленно, так как раздел форматировался,
а вообще - те проверки, которые происходят при каждом запуске системы и более полные через каждые 30 запусков - они найдут бедблоки?
А то по результатам этих проверок - всё чисто.
Они вообще, что-нибудь находят?

Каждые 30 монтирований, емнип, запускается fsck. Который только логическую структуру диска проверяет. Вообще странно, что они чисто показали. Но тем не менее badblocks совсем не поздно. Только учтите — это долго будет длиться. Особенно, если есть проблемы с винтом. У меня 500 гиговый проблемный диск больше 12 часов мучало.
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 21414
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Вчера слетела система

Сообщение Bizdelnick »

Kopilov
Тут масса вариантов различных повреждений во время чистки, да и не только. Отошёл какой-то разъём, отломалась нога какого-то конденсатора на материнке (или он просто издох своей смертью), статическим разрядом повреждена какая-то микросхема...
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вчера слетела система

Сообщение NickLion »

Kopilov писал(а):
08.04.2013 16:22
ошибки возникают только когда установлены обе планки (DDR3 по 2 ГиБ);
при работе с LiveUSB (Calculate) ошибок нет, начинаются только после установки на диск.
Как такое возможно?

Запросто, к сожалению. Ошибки с памятью на удивление часто возникают и трудно ловятся. Лично видел комп, в котором память нормально работала, только если планки (идентичные версии, только серии разные) стояли в определённом порядке. Если поменять их местами, то всё несусветно глючило.

И не факт, что виноваты сами планки, а не материнка.
Спасибо сказали:
Аватара пользователя
infra_hdc
Сообщения: 376
ОС: GNU/Linux

Re: Вчера слетела система

Сообщение infra_hdc »

Kopilov писал(а):
08.04.2013 16:22
А у меня такая история.
Комп (я на нём работаю почти два года, сколько ему реально -- не знаю, предоставлен компанией, под видом нового) начал глючить сразу после переноса в новую комнату и чистки от пыли. Симптомы: падают самые разные программы (от Java и Firefox до KWin и emerge), чаще всего с segmentation failt. Тесты диска и памяти ничего не нашли. Поэтапные замены узлов показали, что виновата всё-таки память, причём:
ошибки возникают только когда установлены обе планки (DDR3 по 2 ГиБ);
при работе с LiveUSB (Calculate) ошибок нет, начинаются только после установки на диск.
Как такое возможно?

[offtopic]В общем случае, для NIX-систем железо должно быть идеальным с точки зрения надёжности и работоспособности без ошибок. Железо сначала надо довести до ума без загрузки боевой операционки. В моём случае, как минимум чтобы без ошибок проходил memtest86+ и MHDD. Практическое отсутствие проблем с железом в большинстве случаев достигается применением системных плат производства Intel и памяти одного из следующих производителей: Samsung, Kingston, Transcend, и, возможно, Viking. Блок питания также должен быть качественным. Либо, если есть возможность, применением брэнд-нейм системных блоков производства DELL серии OptiPlex или PowerEdge.
Как-то так. Конечно, на хорошее железо стоит тратиться, если поставлены задачи уровня серьёзности более, чем ковыряние в носу.[offtopic]
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вчера слетела система

Сообщение drBatty »

NickLion писал(а):
08.04.2013 16:41
Каждые 30 монтирований, емнип

как настроите. man tune2fs (-c, -i)

infra_hdc писал(а):
16.04.2013 19:54
В общем случае, для NIX-систем железо должно быть идеальным с точки зрения надёжности и работоспособности без ошибок.

4.2
просто в венде BSOD всегда можно списать на венду.
infra_hdc писал(а):
16.04.2013 19:54
Практическое отсутствие проблем с железом в большинстве случаев достигается применением системных плат производства Intel и памяти одного из следующих производителей: Samsung, Kingston, Transcend, и, возможно, Viking.

всё это ерунда. Лично я даже не знаю, как моя память называется. Знаю, что там то-ли 3, то-ли 5 лет гарантии, и знаю, что я её раньше выкину. Мамки тоже работают без проблем, и от асуса, и от асрока, и от чего угодно.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вчера слетела система

Сообщение NickLion »

drBatty писал(а):
16.04.2013 20:10
NickLion писал(а):
08.04.2013 16:41
Каждые 30 монтирований, емнип

как настроите. man tune2fs (-c, -i)

Угу. Просто оригинальный пост говорил запусков. Я поправил, что зависит не от запусков системы, а от монтирований.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вчера слетела система

Сообщение drBatty »

NickLion писал(а):
16.04.2013 20:28
Я поправил, что зависит не от запусков системы, а от монтирований.

на самом деле - от монтирований если -c, а если -i - то от времени. Ну и "запуск" и "монтирование" для ТСа эквивалентно, ибо я не думаю, что он умеет размонтировать на ходу rootfs или /home.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
yars
Сообщения: 1147
Статус: Slacker!
ОС: Slackware64-current

Re: Вчера слетела система

Сообщение yars »

Было у меня похожее. Год назад. И ФС - ext3 была, Slackware 12.1. Собирал себе TuxRacer'a, и вдруг полезли ошибки записи на диск... Попытка проверить диск на ошибки и восстановить с LiveCD закончилась ничем. Переформатировал, накатил 13.37 - полет нормальный, смотрю SMART - проблем вроде бы нет. И сейчас, на Slackware-14 проблем нет. Так и не понял, с чего бы такой сбой, скачков напряжения не было, БП напряжения держит в пределах нормы. Память memtest'ом гонял - чисто.
Slackware64-current/Xfce/Xiaomi Mi Notebook Pro 15.6 | Arch Linux/Xfce/Lenovo G580
-------------
Registered Linux User #557010
Спасибо сказали: