RAID5障害の悲劇

思えば1月20日(火)が悲劇の始りだった。

 

顧客先に設置してあるファイルサーバーからHDD障害のアラートが届いた。

このサーバーはRAID5で運用しているので当然HDDが1台故障しても運用には支障は無い。

 

ちなみに自分はRAID5は嫌い。

最悪の事態を考えると無意味に仕組みが複雑だから。

 

ま、この時点では故障したHDDを交換しリビルドを行えば復旧するだろうと思ってた。

 

1月21日(水)、HDDを交換しリビルドを開始。

 

が…

1月22日(木)、リビルド中の翌朝、顧客から電話が。

ファイルサーバーに繋がらないとのコトなので急いで行ってみると…

 

リビルド中に他のHDDも故障しやがったdouble exclamation げっそり (顔) げっそり (顔) げっそり (顔) げっそり (顔)

 

RAID5で2台のHDDが故障ってコトは…

復旧不可能だよね泣き顔

 

とりあえず、BIOSにてRAIDの状況を確認。

この時点ではまだHDDは3台とも認識している。

但しステータスはONLINEが1台。

他2台はOFFLINEになっている。

 

認識出来るなら再度ONLINEに戻して復旧出来るかも?

と、淡い期待を持ちサーバーと共に会社へ。

だが、顧客先では認識していたHDDは…

会社で見ると認識しない冷や汗2 (顔)

 

RAID構成のHDDとして認識しない以上、お手上げ。

どうするか??

専門の業者に頼むか…

でも、2台のHDDが故障している時点で中のデータは意味不明なバイナリになっているのか??

 

これがRAID5が嫌いな理由。

復旧には専門的な知識が必要なコト。

 

もう、どう考えたって解決策は無し。

ひょっとしたらお金でも解決出来ない…

 

あ~どうやって顧客に謝ろうか。

誤ってどうにかなる問題なのか?

なんて、考えていたのだが、交換しリビルド途中のHDD。

いや、リビルド途中ってのは勝手な自分の予測。

ひょっとしたらリビルドは完了して正常なHDDとして機能するのでは??

と、考えて一か八かONLINEにしてみると、デグレードながらRAIDとして認識したdouble exclamation

 

KNOPPIXで確認するとドライブの構成はちゃんと見える。

ファイルサーバーとしてデータを保存しているドライブの中は…

見えるうれしい顔

見える、見えるぞ~double exclamation

 

とりあえず、数ファイルをコピーしてWindowsPCで確認すると…

 

写真も開けるしEXCELもWORDも開ける。

中の文字も問題無いみたい。

 

とにかく、いつまでこの状態が続くか分からなかったので一気にファイルコピー。

約4時間かけて外付けのHDDへ退避完了。

 

どうやら最悪の事態は避けられた模様。

 

ここまでファイルが読めるなら、このままサーバーを起動しても普通に動くのか??

 

と、思い立ち上げてみたが駄目だった。

OSの起動は無理。

この時点で既に1月23日(金)に日付が変わってた。

とりあえずは重要なデータは復旧できたので寝るのだが…

 

朝5時に目が覚めて、どうやってデータを顧客に渡すか考えていなかったコトに気がついた。

別に外付けHDDをそのまま渡しても良いのだが、多分だけど顧客がどうしたら良いか分からずに困るだろう。

 

仮のファイルサーバーを構築し顧客には普段通りに使って貰うのが一番良いよなぁ…

と、思ったので直ぐに会社へ。

 

5時30分から急いでファイルサーバーを構築しデータを移行。

リミットちょうどの8時に作業は完了。

高速道路を使って始業時刻の9時に顧客先へ到着。

 

あとは現地にて仮ファイルサーバーを設置し微調整をしながら動作を確認。

なんとか無事動いてるようだわーい (嬉しい顔)

 

顧客先からもOKを貰い一段落なのだが、本当に疲れたよ。

この後、別件で他の客先へも出向いたのだが眠くて仕方がない冷や汗 (顔)

もう今日は寝るdouble exclamation と決めて16時だけど会社には帰らず帰宅。

 

ビール飲みながら思ったのだけど…

今回の件は技術がどうこうでは無くて単純に運が良かっただけなんだよな。

 

とにかく疲れたもうやだ〜 (悲しい顔)