4.2 根本原因 |
|
(1) |
定義体の修正誤りをレビュやテストで事前検出できなかった原因 |
|
|
1 |
作業事前チェック方法の不備 |
|
|
|
・更新した定義体のレビュに於いて実物確認せずに作業担当者の完了報告をもって問題なしと判断していました。 |
|
|
2 |
切り替え後の検証方法の誤り |
|
|
|
・移行手順書に記載している切り替え後の検証作業では、検証方法自体に不足があったため今回の障害を検出することができませんでした。レビュ時の動作検証方法の不足が発見できなかったためです。 |
|
(2) |
障害エスカレーションの遅れと復旧の遅延の原因 |
|
|
1 |
初動の遅れ |
|
|
|
・サービス開始直後から回線異常が頻発したにもかかわらず、作業者は過去に同様の作業実績があるため、回線異常が実施作業とは無関係と思い込み、障害調査の初動が遅れました。
|
|
|
2 |
障害エスカレーションの遅延 |
|
|
|
・業務SEには、8:00に障害発生の第一報がありましたが、影響範囲、原因、復旧見込みとも不明だったため、各社様への障害連絡(障害FAX、ホームページ)ができませんでした。 |
|
|
|
・8:40時点で業務SEに影響範囲と復旧時刻(9:15)が通知されましたが、障害FAXの手配や作業を考慮した場合、復旧と障害FAXの着信が同時刻となりお客様の混乱を招くと判断し9:15まで保留としました。
⇒9:15時点で復旧しなかった(復旧見込み10:30)為、障害FAXの発信に着手し9:30より送信開始しました。 |
|
|
3 |
障害時のリカバリ手順不備 |
|
|
|
・準備したリカバリ手順は、サービス開始前の切戻し手順であり、今回は、初動の遅れにより、サービス開始から障害検出まで時間がかかったため、既に切戻しを行うことが出来ず、その後のリカバリ手順の確立に長時間を要しました。
|
 |
 |
 |
 |
5.対策 |
|
(1) |
作業体制の見直し |
|
|
業務に精通したサービスマネージャ配下に各部門の責任者、メンバを選任して事前準備から実作業、検証までを実施するとともに、作業当日の指揮やエスカレーションの円滑化を図ります。 |
|
|
(2) |
障害エスカレーション遅れへの対策 |
|
|
体制を強化したうえで、作業過程において障害を検知した場合は、責任者と業務担当SEの判断のもと、異常時連絡者が速やかに障害案内を実施します。 |
|
(3) |
システム化対策 |
|
|
サービスデッドラインを設定し、障害復旧が間に合わない場合の対策を図ります。 |
|
|
1 |
「WEB2008」(WEBによる代替サービス機能:2009年6月リリース予定)に切り替え案内をFAX及びホームページにアップします。 |
|
|
2 |
影響状況確認のシステム化 |
|
|
|
集配信状況照会機能について、専門委員会でお客様要望を確認のうえ、仕様変更を検討いたします。 |
|
(4) |
サービス体制全般の見直し |
|
|
上記作業体制と同様に、今後サービスマネージャ配下に各部門の責任者を配し、管理プロセスが円滑に機能するサービス体制といたします。 |
|
(5) |
管理プロセスの強化 |
|
|
特に変更管理プロセスと障害対応プロセスに重点をおき、サービスマネージャのもと以下のとおり見直し強化いたします。 |
|
|
1 |
変更管理は計画、スケジュール化、承認、構築、検証、手順書、品質・手順レビュ、許可、評価、実装・適用、切戻の各ポイントのチェックを実施いたします。 |
|
|
2 |
障害管理は第一報エスカレーション発信、各部門責任者確認・指示、影響範囲、復旧見込、情報収集・把握 等の全体コントロールと指示を行います。 |
 |
 |
 |
 |
6.経緯 |
3/13(金) |
|
5:23 |
回線切り替え完了、ホスト環境変更完了 |
|
5:44 |
オンライン接続確認を実施しましたが確認方式に問題があり、異常を検出できず |
|
6:15 |
通信制御装置(SURE)にエラーメッセージ(ホストへの接続失敗)が多数発生
⇒原因調査開始 |
|
7:40 |
回線側交換機の情報より、e−お菓子ねっと様サービスでエラーが発生していることを確認
⇒通信制御装置の定義情報を調査開始 |
|
8:00 |
センタ担当者からe−お菓子ねっと担当SEへ第一報連絡、担当SEから担当営業へ連絡 |
|
8:30 |
原因判明 ⇒ 復旧作業に着手
原因:通信制御装置(SURE)の着信後ホスト振分け定義情報の設定誤り
お問合せのお客様には9:30復旧見込と回答 |
|
8:45 |
e−お菓子ねっとホームページに障害発生と9:30復旧見込みを掲載 |
|
9:30 |
ホームページへの復旧見込みを10:40と訂正
加入全社様に対し、障害発生の第一報の障害FAXを送信 |
|
10:35 |
ホームページへの復旧見込みを11:00復旧見込と再訂正 |
|
11:00 |
ホームページへの復旧見込みを12:00復旧見込と再々訂正 |
|
11:45 |
e-お菓子ねっと様サービスの復旧を確認 ホームページへの復旧報告および障害FAXで復旧報告を送信 |
|
12:00 |
影響のあるお客様状況の確認に着手
発注データを対象とし、15:00時点での未配信メーカ様を抽出して電話フォローするために準備を実施 |
|
15:30 |
15:00時点の発注データ未配信メーカ様(176社)に対し、電話にて障害のお詫びと受信のお願いを実施 |
|
19:00 |
受信完了141社、未受信35社 |
3/14(土) |
|
15:00 |
受信完了164社、未受信12社 |
3/16(月) |
|
11:45 |
受信完了176社、未受信0社 |
|
|
以 上 |
 |
 |
 |