システム障害への対策方法!情報の可視化で発生時の対応スピードを向上
近年、システム障害は増加傾向にあり、多くの企業では発生時の迅速な対応が課題となっています。そこで重要となるのが情報の可視化です。この記事では、情報の可視化をサポートし、システム障害への対策を強化するサービスについて、具体的な導入事例を交えながら紹介します。

システム障害は増加傾向
デジタル化が企業活動や日常生活の隅々にまで浸透するにつれて、システム障害の発生件数も増加しています。2019年には122件のシステム障害が発生しましたが、これは前年(2018年)の2倍近くの件数です。(「情報システムの障害状況 2019年後半データ」(独立行政法人情報処理推進機構)をもとに作成)
出典:「情報システムの障害状況 2019年後半データ」(独立行政法人情報処理推進機構) (2021年11月18日閲覧)
最近では、みずほ銀行で発生した一連のシステム障害が大きな問題となりました。2021年の2月から3月にかけてシステム障害が頻発し、ATMが停止してカードや通帳がATMから戻ってこないトラブルが発生。その際、初動対応の遅れにより被害が深刻化したことが問題視されました。
これを受けて、みずほ銀行はATMを改修し、障害を検知した際にカードや通帳が戻るよう設定。営業店舗による初動対応(駆付け体制)の見直しやコールセンター体制の強化などに取り組む方針を定めました。
システム障害発生時に初動対応が遅れると、二次障害の発生や拡大を招き、顧客の信頼や企業イメージの低下につながってしまいます。そのため、システム障害発生時に迅速に対応できる体制を整え、被害を最小限に抑えることが重要です。
次章では、トラブル発生時に迅速に対応するうえで重要となる、情報の可視化について解説します。
システム障害への対策には情報の可視化が不可欠
システム障害が発生した際、システム部門は障害が発生した場所や日時、影響・被害の程度、トラブルの原因と対応策などを速やかに把握しなければなりません。また、そうした情報をユーザーに向けてタイムリーに発信・共有する必要もあります。
情報を可視化できれば、原因を速やかに特定でき、誰でも簡単に状況を把握できるほか、正確な情報を他部門へ迅速に提供できます。また、トラブル発生時の連絡体制をあらかじめ整えておくことも重要です。
次章では、このような情報の可視化に役立つサービスであるElastic Stackについて紹介します。
あらゆるデータに対応し、大規模な可視化をサポートするElastic Stack
Elastic Stackは、あらゆるデータをあらゆるフォーマットで取得し、大規模かつリアルタイムに検索、分析、可視化ができるプロダクト群です。Elasticsearch、Kibana、Beats、Logstashという4つのプロダクトから構成されています。
ElasticsearchはJSONベースの分散型検索/分析エンジンです。Elastic Stackの心臓部となるプロダクトで、数値、テキスト、地理情報などさまざまなデータをインデックス化して一元的に格納します。それにより、超高速検索やパワフルな分析を大規模かつ手軽に実行できます。
KibanaはElasticsearchに取り込まれたデータの可視化や分析などに用いるユーザーインターフェースです。線グラフ・円グラフなど基本的な機能はもちろん、位置情報分析や時系列分析などにも対応しています。さらに、機械学習による異常検知もできます。
BeatsはElasticsearchにデータを取り込むための収集作業を担うプロダクトです。サーバーやコンテナーにデプロイするだけで、Elasticsearchにデータを集約できます。取り込み対象のデータに応じていくつかのプロダクトに分かれており、あらゆるデータに対応できます。
Logstashはデータの一元化や変換、保管を担う、データ収集パイプラインです。膨大な数のソースからデータを取り込み、変換したうえで、さまざまな格納先に転送します。
次章では、このような多彩な機能を持つElastic Stackを導入し、システム障害への対策強化に成功したソフトバンク・ペイメント・サービス株式会社様の事例を紹介します。
【事例紹介】Elastic Stackの活用で必要な情報の可視化が可能に
ソフトバンク・ペイメント・サービス株式会社様は、ソフトバンクグループの決済やカード・ポイント事業を担っている企業です。決済代行分野では、ECサイト(加盟店)向けに決済画面やAPIを提供しています。さまざまな決済手段の一括導入によりコストを抑えられ、約8万件の導入実績を誇ります。
しかし、このように多くの加盟店を抱え、事業規模が大きいために、システム障害発生時の速やかな情報共有に課題がありました。そこでElastic Stackを導入し、システム障害への対策強化に取り組みました。
対策1:Kibanaの活用によりリアルタイムでの監視が可能に
トラブル発生時に「どの加盟店で、いつから、どの程度の影響があったのか」といった点を把握し、速やかに提供できるよう、Kibanaのダッシュボード機能を活用して全体の状況をリアルタイムで可視化しました。そしてRDBMSに格納されているトランザクションデータとの更新差をLogstash で1分ごとに取得し、差分をElasticsearchに送信します。
これにより、場所を問わず、誰でもリアルタイムで、かつ容易にサービス状況を把握できるようになり、トラブル発生時に迅速に情報共有できるようになりました。
対策2:Machine Learningの導入による不正利用検知
また、Machine Learningの導入によって不正利用の検知も可能となりました。Machine Learningは決済トランザクションの額の増減を周期ごとに学習し、予測値から大きく外れた場合、不正利用の可能性がある異常として検知します。
また、決済の成功と失敗の合計数を、決済方法別に分類することによっても異常検知が可能です。これは、人の目では見つけづらい潜在的な異常を発見するのに役立ちます。
対策3:ビジネスデータの可視化
さらにシステム部門以外でも、ビジネスデータの可視化という形でElastic Stackが活用されたことで、さまざまなメリットが生まれました。
一例として、これまで営業部門がExcelで管理していた売上について、その推移を積み上げ棒グラフで部署や案件別に表現したことが挙げられます。
こうしたデータの可視化により、詳細な分析が簡単にできるようになり、Excelでは難しかった大きなデータも取り扱い可能となるなど、多くの効果が得られました。
以上の事例のように、システム障害への対策を強化するためにはElastic Stackが有効です。以下のWPでは、このほかにもさまざまな取り組み事例を紹介していますので、ご関心の方は下記よりダウンロードしていただき、ぜひご活用ください。

