Зависания в ядре, аппаратные проблемы или...?

Обсуждение настройки и работы сервисов, резервирования, сетевых настроек и вопросов безопасности ОС.

Модераторы: SLEDopit, Модераторы разделов

BRN
Сообщения: 1
ОС: Gentoo Linux

Зависания в ядре, аппаратные проблемы или...?

Сообщение BRN »

В общем, имеется ситуация: сервер стоит на площадке хостера, т.е. физического доступа к нему нет. Сервер - 2х процессорный XEON. Обычная загрузка - около 10%. Пиковые - около 60-70%. Software RAID. Gentoo. Linux xxx3 2.6.15.1 #1 SMP Thu May 18 19:01:19 Local time zone must be set--see zic x86_64 Intel® Xeon™ CPU 2.80GHz GenuineIntel GNU/Linux
gcc (GCC) 3.4.4 (Gentoo 3.4.4-r1, ssp-3.4.4-1.0, pie-8.7.8)
CONFIG_X86_64=y
CONFIG_64BIT=y
CONFIG_X86_64_ACPI_NUMA=y
/proc/cpuinfo говорит, что есть 4 процессора (2 физических * 2 hyperthreading)
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx lm constant_tsc pni monitor ds_cpl cid cx16 xtpr
family/model/stepping 15/4/3

Наблюдается непонятная лично мне вещь:
Уже 3 раза сервер "подвисал". Но очень странно. При этом:
* наблюдаются ответы на ping
* можно приконнектиться телнетом на любой открытый порт, но приглашения от сервера не предвидится. Также сервер не обрабатывает ввод.
* В логах видно, что во время этого подвисания не работает cron
* Во время последнего подвисания пробовал установить /proc/sys/kernel/panic в 60, - безрезультатно, ребута не было, т.е. видимо не kernel panic?
3 зависания были в течение месяца, 2 первых месяца все работало великолепно.

К сожалению, нормально настроил syslog-ng только во время последнего рестарта сервера. До этого kern.log не писался. :( Но если кто-то подскажет, что наводящего на умные мысли искать в других логах, буду признателен.

Сервер арендован у хостера, система и ядро также были установлены хостером. Из изменений по отношению к stage3:
* Пересобрана glibc (-O2 -pipe -fomit-frame-pointer -march=nocona -mtune=nocona -m64)
* apache2, mysql5, php5 - те же флаги.

Про -m64 предупреждал сам emerge, может ли быть проблема в сборке glibc с -m64 в CFLAGS?
Что может означать такое "зависание", когда система отвечает на ICMP запросы и открывает соединения, но не обрабатывает данные? Что и как можно отладить? Может быть, кто-то сталкивался с подобным?

P.S. На сервере есс-но не запущено никаких потенциально висючих иксов, из нестандартных запущенных сервисов - portfwd, и java (32битная client JVM, 32-битная server и 64-битная работают некорректно). Хостеры скомпилировали монолитное ядро, если какие-то параметры интересуют - могу сообщить...

Буду благодарен любым ответам.

Подумалось... Не спать в ночь с пятницы на субботу из-за зависшего сервера - кощунство :(
Спасибо сказали: