4.2 根本原因 |
|
(1) |
定義体の修正誤りをレビュやテストで事前検出できなかった原因 |
|
|
1 |
作業事前チェック方法の不備 |
|
|
|
・更新した定義体のレビュに於いて実物確認せずに作業担当者の完了報告をもって問題なしと判断していました。 |
|
|
2 |
切替後の検証方法の誤り |
|
|
|
・移行手順書に記載している切替後の検証作業では、検証方法自体に不足があったため今回の障害を検出することができませんでした。レビュ時の動作検証方法の不足が発見できなかったためです。 |
|
(2) |
障害エスカレーションの遅れと復旧の遅延の原因 |
|
|
1 |
初動の遅れ |
|
|
|
・サービス開始直後から回線異常が頻発したにもかかわらず、作業者は過去に同様の作業実績があるため、回線異常が実施作業とは無関係と思い込み、障害調査の初動が遅れました。
|
|
|
2 |
障害エスカレーションの遅延 |
|
|
|
・業務SEには、8:00に障害発生の第一報がありましたが、影響範囲、原因、復旧見込みとも不明だったため、各社様への障害連絡(障害FAX、ホームページ)ができませんでした。 |
|
|
|
・8:40時点で業務SEに影響範囲と復旧時刻(9:15)が通知されましたが、障害FAXの手配や作業を考慮した場合、復旧と障害FAXの着信が同時刻となりお客様の混乱を招くと判断し9:15まで保留としました。
⇒9:15時点で復旧しなかった(復旧見込み10:30)為、障害FAXの発信に着手し9:30より送信開始しました。 |
|
|
3 |
障害時のリカバリ手順不備 |
|
|
|
・準備したリカバリ手順は、サービス開始前の切戻し手順であり、今回は、初動の遅れにより、サービス開始から障害検出まで時間がかかったため、既に切戻しを行うことが出来ず、その後のリカバリ手順の確立に長時間を要しました。
|
 |
 |
 |
 |
6.経緯 |
3/13(金) |
|
5:23 |
回線切り替え完了、ホスト環境変更完了 |
|
5:44 |
オンライン接続確認を実施しましたが確認方式に問題があり、異常を検出できず |
|
6:15 |
通信制御装置(SURE)にエラーメッセージ(ホストへの接続失敗)が多数発生
⇒原因調査開始 |
|
7:40 |
回線側交換機の情報より、e−お菓子ねっと様サービスでエラーが発生していることを確認
⇒通信制御装置の定義情報を調査開始 |
|
8:00 |
センタ担当者からe−お菓子ねっと担当SEへ第一報連絡、担当SEから担当営業へ連絡 |
|
8:30 |
原因判明 ⇒ 復旧作業に着手
原因:通信制御装置(SURE)の着信後ホスト振分け定義情報の設定誤り
お問合せのお客様には9:30復旧見込と回答 |
|
8:45 |
e−お菓子ねっとホームページに障害発生と9:30復旧見込みを掲載 |
|
9:30 |
ホームページへの復旧見込みを10:40と訂正
加入全社様に対し、障害発生の第一報の障害FAXを送信 |
|
10:35 |
ホームページへの復旧見込みを11:00復旧見込と再訂正 |
|
11:00 |
ホームページへの復旧見込みを12:00復旧見込と再々訂正 |
|
11:45 |
e-お菓子ねっと様サービスの復旧を確認 ホームページへの復旧報告および障害FAXで復旧報告を送信 |
|
12:00 |
影響のあるお客様状況の確認に着手
・発注データを対象とし、15:00時点での未配信メーカ様を抽出して電話フォローするために準備を実施 |
|
15:30 |
15:00時点の発注データ未配信メーカ様(176社)に対し、電話にて障害のお詫びと受信のお願いを実施 |
|
19:00 |
受信完了141社、未受信35社 |
3/14(土) |
|
15:00 |
受信完了164社、未受信12社 |
3/16(月) |
|
11:45 |
受信完了176社、未受信0社 |
|
|
以 上 |
 |
 |
 |