[Решено]kernel panic из-за nfsd (Не критично, но нужен совет или рекомендации)

ivan2ksusr · Сообщение **ivan2ksusr** » 29.10.2009 09:10

Доброе утро

Вчера столкнулся с такой небольшой проблемкой, настраиваю бэкапы на рабочих станций(РС), соответственно каталоги монтируются по nfs, настроил на одной из РС бэкап и запустил его, далее начал выполнять настройки на другой РС, после того как все конфиги подправил, запустил бэкап и после этого сервер был не доступен в течении 10 минут, в логах вот что:

Код: Выделить всё

Oct 28 09:37:51 backup kernel: Limiting closed port RST response from 237 to 200 packets/sec
Oct 28 09:37:55 backup kernel: Limiting closed port RST response from 254 to 200 packets/sec
Oct 28 10:00:02 backup su: useradm to root on /dev/ttyp0
Oct 28 10:29:14 backup kernel: Limiting closed port RST response from 234 to 200 packets/sec
Oct 28 10:29:21 backup kernel: Limiting closed port RST response from 222 to 200 packets/sec
Oct 28 10:36:07 backup kernel: Limiting closed port RST response from 213 to 200 packets/sec
Oct 28 10:36:10 backup kernel: Limiting closed port RST response from 223 to 200 packets/sec
Oct 28 10:36:53 backup kernel: Limiting closed port RST response from 237 to 200 packets/sec
Oct 28 10:36:57 backup kernel: Limiting closed port RST response from 252 to 200 packets/sec
Oct 28 10:36:58 backup kernel: Limiting closed port RST response from 220 to 200 packets/sec
Oct 28 11:45:27 backup syslogd: kernel boot file is /boot/kernel/kernel
Oct 28 11:45:27 backup kernel:
Oct 28 11:45:27 backup kernel:
Oct 28 11:45:27 backup kernel: Fatal trap 9: general protection fault while in kernel mode
Oct 28 11:45:27 backup kernel: cpuid = 0; apic id = 00
Oct 28 11:45:27 backup kernel: instruction pointer    = 0x8:0xffffffff8058dc99
Oct 28 11:45:27 backup kernel: stack pointer            = 0x10:0xfffffffef7ed92f0
Oct 28 11:45:27 backup kernel: frame pointer            = 0x10:0xffffff005c6328c8
Oct 28 11:45:27 backup kernel: code segment        = base 0x0, limit 0xfffff, type 0x1b
Oct 28 11:45:27 backup kernel: = DPL 0, pres 1, long 1, def32 0, gran 1
Oct 28 11:45:27 backup kernel: processor eflags    = interrupt enabled, resume, IOPL = 0
Oct 28 11:45:27 backup kernel: current process        = 676 (nfsd)
Oct 28 11:45:27 backup kernel: trap number        = 9
Oct 28 11:45:27 backup kernel: panic: general protection fault
Oct 28 11:45:27 backup kernel: cpuid = 0
Oct 28 11:45:27 backup kernel: Uptime: 5d21h45m37s
Oct 28 11:45:27 backup kernel: Physical memory: 4074 MB
Oct 28 11:45:27 backup kernel: Dumping 711 MB: 696 680 664 648 632 616 600 584 568 552 536 520 504 488 472 456 440 424 408 392 376 360 344 328 312 296 280 264 248 232 216 200 184 168 152 136 120 104 88 72 56 40 24 8
Oct 28 11:45:27 backup kernel: Dump complete

Немного о систему:

Код: Выделить всё

backup# uname -mv
FreeBSD 7.2-RELEASE #0: Fri May  1 07:18:07 UTC 2009     root@driscoll.cse.buffalo.edu:/usr/obj/usr/src/sys/GENERIC  amd64

Диски, ad6+ad8(raid1-gm0) и ad10+ad12(raid1-gm1) raid программный

Код: Выделить всё

ad6: 476940MB <Seagate STM3500418AS CC35> at ata3-master SATA300
ad8: 476940MB <Seagate STM3500418AS CC35> at ata4-master SATA300
ad10: 476940MB <Seagate STM3500418AS CC35> at ata5-master SATA300
ad12: 476940MB <Seagate STM3500418AS CC35> at ata6-master SATA300

часть бэкапов как раз сохраняется на gm1

Да вот еще, настроил вчера что бы корки сохранялись, корректна ли запись в rc.conf, меня интересует флаг -f:

Код: Выделить всё

...
dumpdev="/dev/mirror/gm0s1b"
dumpdir="/var/crash"
savecore_flags="-f"
...

Есть корка:

Код: Выделить всё

pwd
/var/crash
backup# ls -l
total 722182
-rw-r--r--  1 root  wheel          2 Oct 29 09:05 bounds
-rw-------  1 root  wheel        469 Oct 29 09:05 info.0
-rw-r--r--  1 root  wheel          5 May  1 06:07 minfree
-rw-------  1 root  wheel  746508288 Oct 29 09:06 vmcore.0

Возможна ли проблема с дисками или контролером или все же лужба nfsd дала сбой? Сейчас бэкапы нормально проходят, вот думаю не повторится ли проблема еще раз, если проблема повторится то буду уже отписывать разработчикам, нужен не большой совет или рекомендации

Shura · Сообщение **Shura** » 29.10.2009 10:20

А между

Oct 28 10:36:58 backup kernel: Limiting closed port RST response from 220 to 200 packets/sec

и

Oct 28 11:45:27 backup syslogd: kernel boot file is /boot/kernel/kernel

nfs работала?

ivan2ksusr · Сообщение **ivan2ksusr** » 29.10.2009 10:39

Shura писал(а): ↑
29.10.2009 10:20
А между

Oct 28 10:36:58 backup kernel: Limiting closed port RST response from 220 to 200 packets/sec

и

Oct 28 11:45:27 backup syslogd: kernel boot file is /boot/kernel/kernel

nfs работала?

в первом случае да работала, во 2м случае после пеерзагрузке системы только

ivan2ksusr · Сообщение **ivan2ksusr** » 29.10.2009 15:35

все же грешу на nfsd + настройки, пока что есть еще одна запись в логах:

Код: Выделить всё

Oct 29 15:18:07 backup kernel: nfsd send error 32

Буду дальше продолжать следить за системой

ivan2ksusr · Сообщение **ivan2ksusr** » 11.11.2009 16:10

И снова NFS, что и следовало ожидать, при большой нагрузке "сервер" вновь спаниковал, причем рухнули все зеркала, сохранился vmcore, а вот логи нет

сервер пришлось перезагружать с кнопки
Далее :
backup# gmirror status
Name Status Components
mirror/gm0 DEGRADED ad6 (16%)
ad8
mirror/gm1 DEGRADED ad10 (15%)
ad12

P.S. нужен небольшой совет, может распределить нагрузку на сервер, т.е. задать выполенния рез коприрования в разное время, хотя и так у меня сейчас по 3 колента стартуют в одно время, если только разницу сделать в 30 минут например, что то я задумался

Shura · Сообщение **Shura** » 12.11.2009 16:10

Может проблемы с памятью или драйвером сетевой карты? Если просто сеть сильно нагружать (например по FTP или iperf) то такого нет?

ivan2ksusr · Сообщение **ivan2ksusr** » 12.11.2009 19:32

Shura писал(а): ↑
12.11.2009 16:10
Может проблемы с памятью или драйвером сетевой карты? Если просто сеть сильно нагружать (например по FTP или iperf) то такого нет?

На выходных буду тестировать, тогда и отпишу результаты тестов :-)

ivan2ksusr · Сообщение **ivan2ksusr** » 20.12.2009 00:33

Система начала перезагружаться в любое время, далее решение:
1) Обновить систему
2) Заменена сетевая карта, внтур откл - поставил в pci слот доп карточку на 100/1000

3) Создал нормальные политкик бэекапа: распределил job's backup по времени и дням недели

P.S. уже как 2 недели полет нормальный

Shura · Сообщение **Shura** » 20.12.2009 13:33

Наверное с картой проблемы были.....

Кстати сейчас вспомнил похожий случай из практики. Стоял шлюз в интерент на Win ISA, но старый админ ушёл, возникли проблемы. Я с ISA не работал, поэтому сразу похерил всё и поставил FreeBSD, NAT, squid, всё как положено. Так вот тоже стал ни с того ни с сего перезагружаться при появлении трафика, в логах заись типа reeboot by watch dog. Что за собака не понятно, но решил, что виснет какой-то драйвер. Заменил сетевую и всё стало работать как часы. Сетевая была Realtek, самая дешёвая.

unixforum.org

[Решено]kernel panic из-за nfsd (Не критично, но нужен совет или рекомендации)

[Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd

Re: [Решено]kernel panic из-за nfsd