【お詫び】3月22日に発生した弊社の国内線システム不具合について
1.発生原因(弊社の国内旅客システムの構成図(概要)はこちら をご覧ください)
弊社国内旅客システムは、4台のデータベースサーバーで運用していますが、このデータベースサーバー間の同期処理を中継するネットワーク中継機の故障が原因であることが判明しました。
具体的には、ネットワーク中継機で2点の故障が発生しておりました。
(1)中継機能の故障
データベースサーバー間の同期処理が正常に完了せず、データの整合性が保たれなくなる為、データベースサーバーを自動的に停止する機能が働きました。
(2)「故障シグナル」の発信機能の故障
本来であれば、ネットワーク中継機が故障すると「故障シグナル」を発信し、予備機に自動的に切り替わる設計になっておりますが、今回は故障しているにも関わらず「故障シグナル」を発信せず、予備機に自動的に切り替わりませんでした。
2.再発防止策
(1)同一事象の検知
同一事象が再発し、ネットワーク中継機が「故障シグナル」を出さない場合でも、データベースサーバーからネットワーク中継機の故障を検知できる改善を実施しました。(2016年3月24日に実施しました)
(2)メーカーによる改善策
不具合のあった機器は、製造メーカーにおいて解析を実施し、故障個所が判明しております。
現在、製造メーカーにて改善策を検討中です。
(3)信頼性向上プロジェクトチームの設置
今回の発生原因に留まらず国内旅客システムを総点検するとともに、お客様対応の改善点を洗い出し、信頼性を向上させるべく外部の知見も活用したプロジェクトチームを設置します。(2016年4月に設置を予定しております)
同期処理に障害
ANAによると、日本ユニシス(8056)が構築した国内線旅客システムのうち、故障したのはネットワーク中継機として使用していた、米シスコシステムズ製イーサネットスイッチ「Catalyst 4948E」。一般的に、有線LANによるネットワーク上の機器などを接続するために使用するもので、障害が発生したシステムでは、4台あるDBサーバー同士を接続するのに使われていた。ネットワーク用語では、「スイッチ」と略されることが多い。
スイッチが故障したことで、DBサーバー間のデーターの整合性が保てなくなるため、自動的にサーバーを停止する機能が作動。本来であれば、スイッチが故障すると「故障シグナル」を発信し、自動的に予備機に切り替わる設計になっていたが、今回はシグナルが発信されず、予備機に切り替わらなかった。
障害発生を受け、スイッチがシグナルを出さない状況でも、DBサーバーからスイッチの故障を検知できるよう、24日にシステムを改修。不具合が発生したスイッチは、製造したシスコが解析して故障箇所が判明したため、シスコが改善策を検討しているという。
ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
ANAでは2013年2月に国内線旅客システムをメインフレームからオープンシステムに再構築して以来、初めての大きなトラブルとなる。実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった