2017年8月31日木曜日

2017年8月25日に発生した通信障害は大変だった

2017年8月25日に発生した通信障害の原因は
インターネットに関する設定の誤りみたいですね。
このような事態は中々ないと思いたいですが
当時を振り返ってみて整理してみようと思います。

お昼過ぎに顧客から閲覧できないという問い合わせが発生。
確認したところ、こちらからは問題なく閲覧できたので
一旦は現状報告を行い終了しました。

しかし、気になってふとSNSを見てみると
「繋がらない」、「アクセスしづらい」を含む
メッセージが現れるように…

普段とは違う感じを察し、まずは利用しているサービスの
障害情報を確認したところ障害が発生している情報が出て
いたので社内の関係者に内容を連絡。
次にSNSで障害に関する内容が流れていないか検索に
かけてリアルタイムでチェック。
ニュースサイトも確認してデマではない様子。

再度、落ち着いて稼働サービスを確認し閲覧できることを
確認できたので特定の環境下で影響していると推測。

その後は「閲覧できない」に関する問い合わせが来ても
「今日発生した障害が影響している可能性あり」と
「一度社内の担当の方へ確認してください」で対応し
結果的には事なきを得ました。

真っ先に確認することは障害情報ですね。
後はヘルスチェックが行えるよう整備したり、SNSなどで
特定のキーワードをチェック、botで監視するのも
有効かなと思いました。
何か問題が発生したときのその後のエンドユーザーへの
情報発信も整備しなければと。

コレというベストプラクティスがあれば助かりますが
まずは情報収集から始めなければ。