Помогите расшифровать показатели SMART

FreeBSD, NetBSD, OpenBSD, DragonFly и т. д.

Модератор: arachnid

vintyara
Сообщения: 71
ОС: FreeBSD

Помогите расшифровать показатели SMART

Сообщение vintyara »

Мой компутер, который используется как веб сервер, стал виснуть с переодичностью в день. Особенно после того как запускаю торрент на нем. В логах:

...
Feb 14 21:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 14 21:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 14 22:07:04 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 14 22:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 14 23:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 14 23:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 00:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 00:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 01:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 01:37:04 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 02:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 02:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 03:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 03:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 04:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 04:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 05:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 05:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 06:07:04 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 06:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 07:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 07:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 08:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 08:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 09:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 09:37:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 10:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 10:37:04 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
Feb 15 11:07:03 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.
...тут нажалась кнопка ресет


Вот что грит смарт:

Код: Выделить всё

smartctl -a /dev/ad4
smartctl version 5.38 [amd64-portbld-freebsd7.1] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Second Generation Serial ATA family
Device Model:     WDC WD2500JS-00MHB0
Serial Number:    WD-WMANK1999346
Firmware Version: 02.01C03
User Capacity:    250,059,350,016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sun Feb 15 12:20:54 2009 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (7080) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  83) minutes.
Conveyance self-test routine
recommended polling time:        (   6) minutes.
SCT capabilities:              (0x103f) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0003   189   186   021    Pre-fail  Always       -       5508
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1020
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   200   200   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       9219
 10 Spin_Retry_Count        0x0013   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   051    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1020
190 Airflow_Temperature_Cel 0x0022   042   004   045    Old_age   Always   FAILING_NOW 58
194 Temperature_Celsius     0x0022   092   054   000    Old_age   Always       -       58
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       3
200 Multi_Zone_Error_Rate   0x0009   200   200   051    Pre-fail  Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Скажите - винту труба или как?
Спасибо сказали:
IMB
Сообщения: 2567
ОС: Debian

Re: Помогите расшифровать показатели SMART

Сообщение IMB »

И что Вас смущает? В логах указание на выход значения за предельный уровень. Smartctl указывает на выход за верхний предел.
Путей решения несколько:
- улучшить охлаждение харда
- увеличить верхний предел (не могу сказать как и воможно ли вообще)
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Помогите расшифровать показатели SMART

Сообщение rm_ »

190 Airflow_Temperature_Cel 0x0022 042 004 045 Old_age Always FAILING_NOW 58
194 Temperature_Celsius 0x0022 092 054 000 Old_age Always - 58

Airflow, Temperature, Celsius.
Которое слово перевести? :)
Винчестер у Вас перегревается, причём очень сильно.
58 градусов цельсия, когда норма - не выше 30-35.
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

Да, то что он перегривается - это я понял :) Однако ничего не менялось (расположение системника и т.п.). Т.е. есть предположение, что он греется опять таки из-за какой-то неисправности.

Кстате, характеристики нормальные?

Код: Выделить всё

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE


Особенно под пунктом один.
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Помогите расшифровать показатели SMART

Сообщение rm_ »

Все остальные в норме.
Откройте системник, потрогайте, действительно ли винчестер горячий. Теоретически может быть, что просто датчик температуры засбоил.
Может вентилятор рядом с винчестером перестал крутиться? Если нету, поставьте.
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

Только что из системника. Винт - абсолютно нормальный - теплый, не горячий. Пересадил его поближе к вентилятору (специально ставил дополнительный вентилятор над винтом - под не получается из-за структуры корпуса). Теперь между винтелятором и винтом расстояние сантиметра в 2.

Кстате - или совпадение, или что - виснусть стал после того как торрент насроил и поставил пару закачек. Надеюсь совпадение..
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Помогите расшифровать показатели SMART

Сообщение rm_ »

виснусть стал после того как торрент насроил и поставил пару закачек. Надеюсь совпадение..

Это всего лишь повышенная нагрузка (постоянные обращения) на HDD. Вообще, предположив про датчик температуры, я не учёл эти зависания. Видимо дело не в датчике, а действительно, что-то где-то греется. У этих WD ещё плата прижата микросхемами к винчестеру (снаружи голый текстолит), так что если какая-то из микросхем на ней горячая, так просто этого не определить. >_>
БП хороший? Какой фирмы? Напряжения от БП посмотрите.
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

БП помоему на 350 W, фирму не помню (по русски произносится помоему как чифтек), но обещали что хороший. Можности думаю хватает, потому как питает только мать+проц(АМД 2500+) и винт. Ну еще пара вентиляторов. Микросхемы вроде как тоже в норме были (я когда откручивал пару минут назад весь его облапал "на живую", остыть он бы не успел). А в логах всеравно пишется

Feb 15 22:53:37 server smartd[877]: Device: /dev/ad4, Failed SMART usage Attribute: 190 Airflow_Temperature_Cel.


И причем только 190. Никакого другого значения я помоему ниразу и не видел.
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Помогите расшифровать показатели SMART

Сообщение rm_ »

190 и 194 - это идентификаторы атрибутов.
Сами значения - в конце строки.
190 Airflow_Temperature_Cel 0x0022 042 004 045 Old_age Always FAILING_NOW 58
194 Temperature_Celsius 0x0022 092 054 000 Old_age Always - 58

58 градусов цельсия температура окружающего воздуха, и 58 же - самого винчестера.
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

rm_ писал(а):
16.02.2009 00:29
58 градусов цельсия температура окружающего воздуха, и 58 же - самого винчестера.


значит что-то с датчиком. неможет быть такой температуры. винт просто теплый.


ЗЫ я это проверю когда он опять зависнит. Выключу, подожду пару часов и включу, после чего сделаю smartctl -a /dev/ad4

Я так понимаю нужно будет посмотреть на показатели

190 Airflow_Temperature_Cel
194 Temperature_Celsius

?
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

И опять мы повисли. НО... как-то странно. Проснулся утром, вижу что машинко не пингуется и не пускает по ssh и не показывает сайты что висят на ней. Нажал на кнопку питания (ATX) и оно преспокойно начало завершать свои процессы после чего выключилось. Т.е. оно не зависло, а просто как-то странно ушло в себя... Есть идеи?

После часа простоя показатели особо и не отличаются

Код: Выделить всё

190 Airflow_Temperature_Cel 0x0022   047   004   045    Old_age   Always   In_the_past 53
194 Temperature_Celsius     0x0022   097   054   000    Old_age   Always       -       53
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

а можно как-то раз в 5 минут снимать показания температуры винчестера в какой-нибудь лог файл?
Спасибо сказали:
Аватара пользователя
ivan2ksusr
Сообщения: 882
ОС: Mac OS X, openSUSE

Re: Помогите расшифровать показатели SMART

Сообщение ivan2ksusr »

Такая же трабла только с винтом samsung на PC-BSD

о данном баге можно почитать вот здесь:
http://www.bugtrack.almico.com/view.php?id=468

как советуют то попробовать обновить микрокод на винте :)
...
The temperatures reported by all SMART monitoring software is incorrect for the WD2500KS due to a firmware bug. The drive is not defective but the temperatures that the revision of the drive you have bought report to software are incorrect. We are working on a solution.
So there you go, not a Speedfan bug. I'm assuming we need to wait for WD to release a firmware patch.
...

погуглил и выяснилось что такая же фича и с хардами samsung, попробую обновить firmware :)
дальше посмотрим :)

пока что нет ни чего критичного) винт живой :) проверял mhdd тулзой
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Помогите расшифровать показатели SMART

Сообщение rm_ »

The drive is not defective but the temperatures that the revision of the drive you have bought report to software are incorrect.

Но чего ж тогда виснет-то всё...
Спасибо сказали:
vintyara
Сообщения: 71
ОС: FreeBSD

Re: Помогите расшифровать показатели SMART

Сообщение vintyara »

rm_ писал(а):
17.02.2009 07:02
The drive is not defective but the temperatures that the revision of the drive you have bought report to software are incorrect.

Но чего ж тогда виснет-то всё...


меня насторожил тот факт, что когда оно в последний раз зависло - я нажал единожды кнопку повер, после чего система начала выключатся (так же и Виндовсы делают если системник ATX). Т.е. машина таки была живой, но почему то не пингалась. В логах ничего интересного не нашел, кроме как крики smartd.

У меня появилось подозрение - что может smartd как-то пагубно влияет. Убил демона, машина уже сутки пока держится. Может совпадение, а может и нет, посмотрим :)
Спасибо сказали:
n1kt0
Сообщения: 289
ОС: GNU/Gentoo

Re: Помогите расшифровать показатели SMART

Сообщение n1kt0 »

vintyara писал(а):
17.02.2009 11:36
rm_ писал(а):
17.02.2009 07:02
The drive is not defective but the temperatures that the revision of the drive you have bought report to software are incorrect.

Но чего ж тогда виснет-то всё...


меня насторожил тот факт, что когда оно в последний раз зависло - я нажал единожды кнопку повер, после чего система начала выключатся (так же и Виндовсы делают если системник ATX). Т.е. машина таки была живой, но почему то не пингалась. В логах ничего интересного не нашел, кроме как крики smartd.

У меня появилось подозрение - что может smartd как-то пагубно влияет. Убил демона, машина уже сутки пока держится. Может совпадение, а может и нет, посмотрим :)



1)смарт не 100% показатель того, что винт скоро сдохнет
2) зеркало рулит
вывод --отключить смарт и забыть о нем как о страшном сне
Спасибо сказали:
Lazy_Kent
Сообщения: 709
Статус: Ленивый
ОС: openSUSE (Xfce)

Re: Помогите расшифровать показатели SMART

Сообщение Lazy_Kent »

Трое суток прошло. Как, держится?
Спасибо сказали:
Аватара пользователя
ivan2ksusr
Сообщения: 882
ОС: Mac OS X, openSUSE

Re: Помогите расшифровать показатели SMART

Сообщение ivan2ksusr »

Что бы новую тему не открывать, буду писать здесь, далее вопрос:
А вообще в bsd есть ли аналог команды как у Solaris iostat -E, а то курить vmstat как то напряжно, или использовать sar для диагностики ??
Спасибо сказали:
Аватара пользователя
arachnid
Модератор
Сообщения: 1100
ОС: freeBSD

Re: Помогите расшифровать показатели SMART

Сообщение arachnid »

ivan2ksusr писал(а):
21.02.2009 21:44
Что бы новую тему не открывать, буду писать здесь, далее вопрос:
А вообще в bsd есть ли аналог команды как у Solaris iostat -E, а то курить vmstat как то напряжно, или использовать sar для диагностики ??

!Предупреждение от модератора
рекомендуется все таки открывать новую тему


да и заодно желательно сказать, что в солярисе делает эта команда
-= freeBSD stable, fluxbox =-
"если ты будешь со мной спорить, я тебя запишу в книжечку!" (с) Ежик
Спасибо сказали:
Аватара пользователя
ivan2ksusr
Сообщения: 882
ОС: Mac OS X, openSUSE

Re: Помогите расшифровать показатели SMART

Сообщение ivan2ksusr »

arachnid писал(а):
22.02.2009 17:33
ivan2ksusr писал(а):
21.02.2009 21:44
Что бы новую тему не открывать, буду писать здесь, далее вопрос:
А вообще в bsd есть ли аналог команды как у Solaris iostat -E, а то курить vmstat как то напряжно, или использовать sar для диагностики ??



да и заодно желательно сказать, что в солярисе делает эта команда

создал новую тему)
Аналог команды iostat -E(Solaris) в BSD системах
Спасибо сказали: