Kernel Oops -> Kernel Panic (на OpenSUSE 11.2 (2.6.31 & 2.6.37))

Выбор и настройка HardWare

Модератор: Модераторы разделов

PhtRaveller
Сообщения: 16
ОС: OpenSUSE 11

Kernel Oops -> Kernel Panic

Сообщение PhtRaveller »

Уважаемые форумчане:) Прошу помощи в следующей ситуации:

1) система испытывает постоянные обвалы, не обоснованные активностью, которая на ней происходит. в подавляющем большинстве случаев kernel panic происходит через несколько минут после загрузки, независимо от того, простаивает ли она сейчас или молотит большую вычислительную задачу.

2) железки:

CPU: Core2Duo E8500
MB: P5Q SE
GPU: Palit Sonic GTX260
2*2Gb Hynix DDR2 800


3) наблюдается на ядрах 2.6.31 и 2.6.37 и дровах от Nvidia 260 и 270. более того, Win7, которая была установлена на отдельном винте, регулярно выпадает в BSOD. т.е., есть сильное подозрение, что проблема исключительно аппаратная.

4) непосредственно перед падением в /var/log/warn фиксируются kernel oops, иногда по несколько. характерный вывод (наблюдается с разными вызвавшими процессами, никак не связанными между собой, например mysqld и docky):

Код: Выделить всё

Apr 19 15:28:25 traveller kernel: [  538.459295] BUG: unable to handle kernel paging request at ffffffff894bf077
Apr 19 15:28:25 traveller kernel: [  538.459306] IP: [<ffffffff8107e687>] force_sig_info+0x17/0x130
Apr 19 15:28:25 traveller kernel: [  538.459317] PGD 1003067 PUD 1007063 PMD 0
Apr 19 15:28:25 traveller kernel: [  538.459324] Oops: 0002 [#1] PREEMPT SMP
Apr 19 15:28:25 traveller kernel: [  538.459331] last sysfs file: /sys/devices/system/cpu/cpu1/cache/index2/shared_cpu_map
Apr 19 15:28:25 traveller kernel: [  538.459339] CPU 1
Apr 19 15:28:25 traveller kernel: [  538.459342] Modules linked in: ip6t_LOG xt_tcpudp xt_pkttype ipt_LOG xt_limit snd_pcm_oss snd_mixer_oss snd_seq snd_seq_device edd cpufreq_conservative cpufreq_userspace cpufreq_powersave acpi_cpufreq ip6t_REJECT nf_conntrack_ipv6 ip6table_raw xt_NOTRACK ipt_REJECT xt_state iptable_raw iptable_filter ip6table_mangle nf_conntrack_netbios_ns nf_conntrack_ipv4 nf_conntrack nf_defrag_ipv4 ip_tables ip6table_filter ip6_tables x_tables fuse loop dm_mod snd_hda_codec_realtek atl1e iTCO_wdt sg pcspkr iTCO_vendor_support i2c_i801 sr_mod cdrom snd_hda_intel snd_hda_codec snd_hwdep floppy asus_atk0110 snd_pcm snd_timer snd snd_page_alloc button intel_agp ext4 jbd2 crc16 fan processor ide_pci_generic ide_core ata_generic pata_marvell thermal thermal_sys [last unloaded: preloadtrace]
Apr 19 15:28:25 traveller kernel: [  538.459516] Process mysqld (pid: 2846, threadinfo ffff8801218b0000, task ffff8801222e0200)
Apr 19 15:28:25 traveller kernel: [  538.459522] Stack:
Apr 19 15:28:25 traveller kernel: [  538.459525]  ffff8801218b1f28 0000000067e374a2 0000000000017c00 0000000000000015
Apr 19 15:28:25 traveller kernel: [  538.459533] <0> 000000000080847b ffff8801218b1f58 ffff8801222e0200 0000000067e374a2
Apr 19 15:28:25 traveller kernel: [  538.459541] <0> ffff8801218b1e88 ffffffff81044ac4 ffff8801218b1dd8 ffffffff8110c7cf
Apr 19 15:28:25 traveller kernel: [  538.459551] Call Trace:
Apr 19 15:28:25 traveller kernel: [  538.459564]  [<ffffffff81044ac4>] __bad_area_nosemaphore+0x134/0x230
Apr 19 15:28:25 traveller kernel: [  538.459574]  [<ffffffff81044c5d>] __bad_area+0x5d/0x90
Apr 19 15:28:25 traveller kernel: [  538.459582]  [<ffffffff81044cf1>] bad_area_access_error+0x21/0x40
Apr 19 15:28:25 traveller kernel: [  538.459591]  [<ffffffff8155967f>] do_page_fault+0x26f/0x470
Apr 19 15:28:25 traveller kernel: [  538.459599]  [<ffffffff81556605>] page_fault+0x25/0x30
Apr 19 15:28:25 traveller kernel: [  538.459609]  [<000000000080847b>] 0x80847b
Apr 19 15:28:25 traveller kernel: [  538.459613] Code: 00 00 75 02 c9 c3 66 0f 1f 44 00 00 e8 a3 ca fe ff 0f 1f 00 55 48 89 e5 48 83 ec 40 48 89 5d d8 4c 89 65 e0 41 89 fc 4c 89 6d e8 <00> 89 75 f0 48 89 d3 4c 00 7d f8 4d 63 fc 49 89 00 65 48 8b 04
Apr 19 15:28:25 traveller kernel: [  538.459664] RIP  [<ffffffff8107e687>] force_sig_info+0x17/0x130
Apr 19 15:28:25 traveller kernel: [  538.459672]  RSP <ffff8801218b1d68>
Apr 19 15:28:25 traveller kernel: [  538.459675] CR2: ffffffff894bf077
Apr 19 15:28:25 traveller kernel: [  538.459680] ---[ end trace 3295592298e7d6c9 ]---


в том же логе наблюдаются такие проблемы:

Код: Выделить всё

Apr 29 10:57:01 traveller kernel: [   80.009834] BUG: Bad page state in process docky  pfn:5bc92
Apr 29 10:57:01 traveller kernel: [   80.009846] page:ffffea0001413ff0 flags:0020000000000000 count:0 mapcount:0 mapping:0000000085000000 index:3b000000
Apr 29 10:57:01 traveller kernel: [   80.009855] Pid: 3623, comm: docky Tainted: P           2.6.31.5-0.1-desktop #1
Apr 29 10:57:01 traveller kernel: [   80.009861] Call Trace:
Apr 29 10:57:01 traveller kernel: [   80.009877]  [<ffffffff81011a19>] try_stack_unwind+0x189/0x1b0
Apr 29 10:57:01 traveller kernel: [   80.009887]  [<ffffffff8101025d>] dump_trace+0xad/0x3a0
Apr 29 10:57:01 traveller kernel: [   80.009894]  [<ffffffff81011524>] show_trace_log_lvl+0x64/0x90
Apr 29 10:57:01 traveller kernel: [   80.009902]  [<ffffffff81011573>] show_trace+0x23/0x40
Apr 29 10:57:01 traveller kernel: [   80.009911]  [<ffffffff81551ee2>] dump_stack+0x81/0x9e
Apr 29 10:57:01 traveller kernel: [   80.009920]  [<ffffffff811048e9>] bad_page+0xf9/0x160
Apr 29 10:57:01 traveller kernel: [   80.009928]  [<ffffffff8110548b>] prep_new_page+0x3b/0x1b0
Apr 29 10:57:01 traveller kernel: [   80.009936]  [<ffffffff81107b63>] get_page_from_freelist+0x363/0x6e0
Apr 29 10:57:01 traveller kernel: [   80.009945]  [<ffffffff81108523>] __alloc_pages_nodemask+0xe3/0x160
Apr 29 10:57:01 traveller kernel: [   80.009954]  [<ffffffff8113c253>] alloc_page_vma+0xa3/0x150
Apr 29 10:57:01 traveller kernel: [   80.009964]  [<ffffffff8111e2f7>] do_anonymous_page+0x57/0x200
Apr 29 10:57:01 traveller kernel: [   80.009972]  [<ffffffff8112310f>] handle_mm_fault+0x3cf/0x4a0
Apr 29 10:57:01 traveller kernel: [   80.009980]  [<ffffffff815595e1>] do_page_fault+0x1d1/0x470
Apr 29 10:57:01 traveller kernel: [   80.009988]  [<ffffffff81556605>] page_fault+0x25/0x30
Apr 29 10:57:01 traveller kernel: [   80.010003]  [<00007f257afb89f4>] 0x7f257afb89f4


Код: Выделить всё

Apr 28 12:02:46 traveller kernel: [  119.475355] general protection fault: 0000 [#1] SMP
Apr 28 12:02:46 traveller kernel: [  119.475361] last sysfs file: /sys/devices/pci0000:00/0000:00:1a.7/usb1/1-1/1-1:1.0/host6/target6:0:0/6:0:0:0/block/sdb/sdb1/stat
Apr 28 12:02:46 traveller kernel: [  119.475366] CPU 0
Apr 28 12:02:46 traveller kernel: [  119.475368] Modules linked in: nls_iso8859_1 nls_cp437 vfat fat ip6t_LOG xt_tcpudp xt_pkttype ipt_LOG xt_limit snd_pcm_oss snd_mixer_oss snd_seq snd_seq_device edd ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 ip6table_raw xt_NOTRACK ipt_REJECT xt_state iptable_raw iptable_filter ip6table_mangle nf_conntrack_netbios_ns nf_conntrack_ipv4 nf_conntrack nf_defrag_ipv4 cpufreq_conservative ip_tables cpufreq_userspace cpufreq_powersave acpi_cpufreq ip6table_filter ip6_tables mperf x_tables fuse loop dm_mod nvidia(P) snd_hda_codec_realtek snd_hda_intel atl1e sr_mod cdrom snd_hda_codec shpchp pcspkr snd_hwdep snd_pcm snd_timer snd pci_hotplug soundcore sg usb_storage iTCO_wdt snd_page_alloc uas iTCO_vendor_support floppy asus_atk0110 i2c_i801 button ext4 jbd2 crc16 uhci_hcd ehci_hcd usbcore fan processor ata_generic pata_marvell thermal thermal_sys [last unloaded: preloadtrace]
Apr 28 12:02:46 traveller kernel: [  119.475438]
Apr 28 12:02:46 traveller kernel: [  119.475442] Pid: 3990, comm: docky Tainted: P            2.6.37-6-default #1 P5Q SE/P5Q SE
Apr 28 12:02:46 traveller kernel: [  119.475446] RIP: 0010:[<ffffffff813c77fa>]  [<ffffffff813c77fa>] dev_ethtool+0x47a/0xc00
Apr 28 12:02:46 traveller kernel: [  119.475456] RSP: 0018:ffff88010982dae0  EFLAGS: 00010292
Apr 28 12:02:46 traveller kernel: [  119.475460] RAX: ffffffff813c77f3 RBX: ffff88010982db44 RCX: 0000000000000002
Apr 28 12:02:46 traveller kernel: [  119.475464] RDX: 0982db9800000000 RSI: ffff88010f726800 RDI: ffff880124d36140
Apr 28 12:02:46 traveller kernel: [  119.475468] RBP: ffff88010982de64 R08: 0000000000000003 R09: 0000000000000000
Apr 28 12:02:46 traveller kernel: [  119.475472] R10: 0000000000000000 R11: 0000000000000001 R12: 0000000000000000
Apr 28 12:02:46 traveller kernel: [  119.475476] R13: ffff88010982de3c R14: ffff880124d36140 R15: 0000000000000000
Apr 28 12:02:46 traveller kernel: [  119.475481] FS:  00007f7b14d8d730(0000) GS:ffff8800cfc00000(0000) knlGS:0000000000000000
Apr 28 12:02:46 traveller kernel: [  119.475485] CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Apr 28 12:02:46 traveller kernel: [  119.475489] CR2: 00000000f60448c0 CR3: 0000000109819000 CR4: 00000000000406f0
Apr 28 12:02:46 traveller kernel: [  119.475494] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Apr 28 12:02:46 traveller kernel: [  119.475498] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Apr 28 12:02:46 traveller kernel: [  119.475502] Process docky (pid: 3990, threadinfo ffff88010982c000, task ffff88010982a3c0)
Apr 28 12:02:46 traveller kernel: [  119.475506] Stack:
Apr 28 12:02:46 traveller kernel: [  119.475508]  ffffffff811584cb 0000000000000000 ffff88010982de08 ffff88010982db38
Apr 28 12:02:46 traveller kernel: [  119.475515]  ffff88010982de08 0000000100000000 ffff88010982db98 ffff88010982df48
Apr 28 12:02:46 traveller kernel: [  119.475521]  000000000003cca7 ffff88010982a3c0 01ffffff81076629 0000001bd143dd4f
Apr 28 12:02:46 traveller kernel: [  119.475527] Call Trace:
Apr 28 12:02:46 traveller kernel: [  119.475539]  [<0000001bd143dd4f>] 0x1bd143dd4f
Apr 28 12:02:46 traveller kernel: [  119.475542] Code: 9b fc ff ff 48 c7 04 24 00 00 00 00 c7 04 24 23 00 00 00 48 8b 83 b0 00 00 00 25 00 08 00 00 e9 97 fe ff ff 48 8b 93 98 01 00 00 <48> 83 ba 18 01 00 00 00 0f 84 98 fd ff ff 48 89 e7 ba 08 00 00
Apr 28 12:02:46 traveller kernel: [  119.475577] RIP  [<ffffffff813c77fa>] dev_ethtool+0x47a/0xc00
Apr 28 12:02:46 traveller kernel: [  119.475582]  RSP <ffff88010982dae0>
Apr 28 12:02:46 traveller kernel: [  119.475589] ---[ end trace 28dbabfedc27bb2c ]---


5) эта же система работала без проблем год под 11.2. действительно, проблемы начали наблюдаться уже после перехода на 2.6.37, но откат обратно к 2.6.31 их не устранил. более того, на другой машине почти идентичная конфигурация работает без проблем (по ядру и дровам на видео - полностью идентичная). еще один аргумент в пользу hardware fault.

6) для локализации проблемы сделано следующее:

а) проверка памяти - быстрый проход memtest (без ошибок), установка обоих планок памяти в другую машину (без проблем)
b) постановка CPU и GPU под сильную нагрузку - linpack и nbody от Nvidia (без проблем оба). температурный режим на всех основных узлах - в норме (по показаниям программных средств; перепроверено вручную:)).
c) на всякий случай прогнаны тесты smatctl (без проблем) - учитывая проблемы с Win7 на другом HDD, винт, думаю, можно исключить как источник проблемы.
d) отключение периферии и сети - принтера, клавиатуры, мыша (:)) - не помогает (помнится, из-за раздолбанного разъема клавиатуры были однажды проблемы на другой машине - отказывалась загружаться с визгом).
e) отключение набортного аудио и сетевой карты - длительных тестов не проводилось, но похоже, помогает (?). по крайней мере, система не ложится через пару минут.
f) съем одной из планок памяти - каждая по отдельности позволяет удержаться несколько часов. это позволилио погонять smartctl, linpack etc. через несколько часов - kernel panic без (?!) oops в логах.


собственно, я понимаю, что проблема, видимо, в памяти, но также похоже, что не в самих планках. пока для меня основной кандидат - материнская плата, вернее, какой-то из узлов на ней. жизненный опыт подсказывает, что чаще всего процессоры не ломаются вот так "по чуть-чуть", а уж падают сразу. видеокарта - аналогично, хотя и возможны варианты (пока исхожу из того, что почти полная ее загрузка, и по памяти, и по ядрам, не влияет на скорость падения).

проблема еще в том, что поставить аналогичную материнку из другой машины нельзя - таких просто нет, а принести из дому - отдельная бюрократическая задача в силу запрета на внос/вынос комплектующих на работе. поэтому надо как-то вычислить виновника сразу и точно, а потом уже один раз купить замену.

если кто-то сталкивался с подобными проблемами или знает, в каком направлении рыть - буду очень благодарен за подсказки.
Спасибо сказали:
Аватара пользователя
taaroa
Сообщения: 1319

Re: Kernel Oops -> Kernel Panic

Сообщение taaroa »

comm: docky Tainted: P

Taint flags
P: A module with a Proprietary license has been loaded, i.e. a module that is not licensed under the GNU General Public License (GPL) or a compatible license. This may indicate that source code for this module is not available to the Linux kernel developers or to Novell's developers.
:wq
Спасибо сказали:
PhtRaveller
Сообщения: 16
ОС: OpenSUSE 11

Re: Kernel Oops -> Kernel Panic

Сообщение PhtRaveller »

taaroa писал(а):
06.05.2011 13:32
comm: docky Tainted: P

Taint flags
P: A module with a Proprietary license has been loaded, i.e. a module that is not licensed under the GNU General Public License (GPL) or a compatible license. This may indicate that source code for this module is not available to the Linux kernel developers or to Novell's developers.


спасибо. но это не объясняет.
Спасибо сказали: