「RAID復旧チームの戦い。」
DELL、HP、Buffalo…、今日もぞくぞくと持ち込まれるRAIDサーバたち。全く同じ症状は1つとしてない。1件ごと障害と真剣勝負。「今日も1件づつやるしかない」RAID復旧チーム の戦い。
「助けてください」と緊急で持ち込まれるRAIDサーバ。
莫大な数の過去の症状を比べて復旧方法を1件1件探すしか…ない。
「突然なんです。原因なんてわからないんです。お客様が待ってるんです、すぐにでも復旧してほしいんです。」 「以前も見た事があるエラー画面が出ていただけでしたので、問題ないと思っていました。だから、いつものように直せると思っていたのですが…気づいたらこんな事に…」
「とにかく助けてください。仕事が止まってしまっているんです。」
当社には、日々RAIDサーバーが持ち込まれる。 持ち込まれることが多いメーカーは、DELL、HP(ヒューレットパッカード)、そしてBuffalo…など。
購入してすぐに壊れてしまったRAID・サーバー。 何年も不具合なく動いていたが、突然壊れてしまったRAID・サーバー。 そして、他の業者で「直すのは不可能だ」と宣告を受け、致命傷を抱えたRAID・サーバー。 預かった機器は、RAIDサーバー専門チームに引き渡され、初期診断が行われる。
よくある故障なら10分程度で診断できるが、他社で「復旧不可」の重度物理障害の物件などの場合は、過去のデータベースを参考にしながら、あせらず慎重に故障箇所を見極めていく。
診断が終わると、RAIDサーバー専門チームのメンバーのミーティングが始まる。 議題は、「症状の報告と今後の復旧方法について」。
ここで、莫大な症例を調べることができるデータベースを元に、「最も最短で結果を出すことができる復旧方法は何か?」 を1件1件みつけていくことになる。
同じ機械は運び込まれても、1つとして同じ症状のものは、ない。
その中から、直す方法を見つけるしかないのだ。
【膨大な事例と格闘】
症状、事例、それにたいしての復旧方法を調べることができるデータベースには、RAIDサーバーの症例だけでも15000件が登録されている。
【付きっきりで復旧作業を行うことも】
重度の障害の場合、付きっきりでも丸2日かかるケースもある。
【復旧依頼は時間を選ばない】
1日に何台も運び込まれることも。トラブルは時間を選ばず発生します。
【リアルタイムに症状をご報告】
お客様対応チームへ「故障箇所、故障状況」を報告する。お客様対応チームは技術員からの報告をお客様へ伝える橋渡し役だ。
ひた向きに、ただ直す。RAID復旧チームの戦い。
1億以上の数字から一筋の希望を見つけ出せ。
RAIDサーバー専門復旧チームは、技術・設備ともに高いレベルを持ち、日本ではトップクラスに入る復旧数である。
復旧数が多いため、症状毎に担当技術員を分ける事で、より復旧率の高い作業を行っている。 RAIDサーバー専門復旧チームの中でも、さらに細かく専門分野が別れている。
RAIDサーバーの依頼物件の中でも依頼数の多い機器の中のひとつに、Windowsサーバーがある。 RAIDサーバー専門復旧チーム技術員の中でもWindowsサーバーの専門技術員がいる。
「私達の仕事は、”直す”ことです。それができなければ、技術力がいくら高いとかプログラムに詳しい、よく知っていると言ったところで、意味がありません。」
そういって1件1件症例データベースを参照し、復旧作業を行っていく。中には、急に状態が変化するものも多く、技術員も交代で張り付く。
RAIDの復旧は、データを”0101”と並んだ数字が羅列したセクタ単位で調べ、壊れたデータの法則性や、直すための方程式を、1つ1つ計算し、解析をしていく。
この作業には、「ひらめき=直感がものをいう」と大橋は言う。 それは、過去の症例データベースから推測する予測値と、実績・経験から生まれるひらめきからくるものだ。
「1億以上の数字の羅列をしばらく見ていると、ふと復旧の手がかりとなる故障箇所を見つけることができます。そこから、最終的な復旧完了イメージを想定し、逆算式で”復旧方法”を模索していきます。これが見つかるまでは、可能性がある限り、何回でも何十回でも分析を続けます。」
ひたむきに、ただ、直す。 RAID復旧チームの戦いは続く。
RAIDサーバー復旧専門チーム
Windowsサーバー担当
【プロの仕事道具】
方程式はファイルシステム毎、症状毎にかわってくる。その数は数百にもわたる。また、方程式を計算するときに、絶対に必要なのは、計算機を、RAIDサーバー復旧技術員は手放す事ができない。
【集中力との戦い】
解析最中は、全てのデータをほぼノンストップで解析していく。機械によっては、2時間で終わるものもあれば、丸1日かかるものもある。
ただ、直せばいいわけではない。全ては時間との戦い。
チームメンバーの知恵をぶつけ合い、できるだけ早くお客さまのお手元へ返す。
最後は、その思いのみ。
RAIDサーバーの復旧は、時間との戦いだ。
徹底した事前準備を元に復旧作業を行っても、1分でも早い処置が、最後の結果を左右する事もある。
ましてや、会社における業務の一番重要なデータを入れていることが多い共有使用のRAIDサーバー。
デジタルデータに依存している会社であればあるほど、その中のデータに不具合が起こることによる「仕事での損失」「業務に支障がでている、ストップしている」という悪影響は計り知れないものがある。
そういった観点からも「1分でも早い復旧」が求められる。
RAIDサーバー復旧専門チームは、「1分でも早い復旧」を行うために、チームが連動して作業を行う。
大橋のような経験豊富な復旧技術員でも、難度の高い物件を復旧するには時間がかかる。大橋が休んでいる時は、他のメンバーが作業をしっかり引き継ぐ。お客様に少しでも早く納品するために、復旧作業が止まる事はない。
「どんなに難しい症状でも、お客様が待っていらっしゃるというその事実に対して応えたい気持ちが、チームメンバー全員にあります。
思った以上に時間がかかる時の”自分へのいらだち”と、”お客様への気持ち”を抑えながら、少しでも早くお返しできるよう、作業に集中しています。」
大橋はそういって笑った。
今日もまた、RAIDサーバー復旧専門チームは、手を休めることなく復旧を続けている。