サーバーの不調はディスクが原因?
(コメント: 0)
サーバーの不調の原因の1つと思われるものが判明した。
再起動するとBIOSがS.M.A.R.T.の検査にハードディスクの1つが引っかかる。初めて見たような気もするけど、一応放っておくと先に進んで起動する。でも、これが他に影響を与えている可能性はないとも言えない。
atactl(8)で確認すると、
SMART supported, SMART enabled id value thresh crit collect reliability description raw 1 107 6 yes online positive Raw read error rate 174848558 3 95 0 yes online positive Spin-up time 0 4 100 20 no online positive Start/stop count 125 5 1 36 yes online negative Reallocated sector count 4094 ... 197 100 0 no online positive Current pending sector 1 198 100 0 no offline positive Offline uncorrectable 1 ...
上記でidの列が5の行は再割り当てしたセクターの数で、既に4094ものセクターが再割当てされている。このこと自体、尋常な状態ではないのだけど、valueの列は1でS.M.A.R.T.的に「危険」な状態であるthreshの列の36を大幅に下回ってる。(って、いうか殆ど下限なのではないだろうか。)
もっともディスクドライブとしては普通に使えていて特別に問題が起きているわけでもないという、良いのか悪いのかわからぬ状態である。いずれにしても、このままにしておくわけにはいかないため、他のディスクに内容を移動した。
ついでに、dd(1)ですべてのセクターをゼロで上書きして簡易的なデータの消去、といっても内容は外から取得したソースファイルとかばかり。
問題のディスクはSEAGATEのST31000528ASで、iMacでリコールの対象にもなったらしいモデル。稼働時間は2年1か月くらい過ぎていて、ファームウェアのアップデートも存在するようだけど、2年も過ぎているし手間をかける時間の方が勿体無いかな。
ちなみに気が付く原因となった今日のトラブルは、久々に発生した家庭内側LANであるオンボードのbge(4)に対して、dhcpd(8)が
と通信不能となって、send_packet: No buffer space available
するとパニックして落ち、しっかりクラッシュダンプを取っているように見えるのに、再起動後にsavecore(8)はcrash dumpなんてないと言う、何だかなぁという状況である。ifconfig bge0 down
Copyright © 2011-2024 Takahiro Kambe all rights reserved.
コメント
コメントを追加