2017年8月25日に発生した通信障害の原因は
インターネットに関する設定の誤りみたいですね。
このような事態は中々ないと思いたいですが
当時を振り返ってみて整理してみようと思います。
お昼過ぎに顧客から閲覧できないという問い合わせが発生。
確認したところ、こちらからは問題なく閲覧できたので
一旦は現状報告を行い終了しました。
しかし、気になってふとSNSを見てみると
「繋がらない」、「アクセスしづらい」を含む
メッセージが現れるように…
普段とは違う感じを察し、まずは利用しているサービスの
障害情報を確認したところ障害が発生している情報が出て
いたので社内の関係者に内容を連絡。
次にSNSで障害に関する内容が流れていないか検索に
かけてリアルタイムでチェック。
ニュースサイトも確認してデマではない様子。
再度、落ち着いて稼働サービスを確認し閲覧できることを
確認できたので特定の環境下で影響していると推測。
その後は「閲覧できない」に関する問い合わせが来ても
「今日発生した障害が影響している可能性あり」と
「一度社内の担当の方へ確認してください」で対応し
結果的には事なきを得ました。
真っ先に確認することは障害情報ですね。
後はヘルスチェックが行えるよう整備したり、SNSなどで
特定のキーワードをチェック、botで監視するのも
有効かなと思いました。
何か問題が発生したときのその後のエンドユーザーへの
情報発信も整備しなければと。
コレというベストプラクティスがあれば助かりますが
まずは情報収集から始めなければ。