NICOSカードシステム故障

元の発表

itpro 三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

itpro 三菱UFJニコス、年末に発生したシステム障害の影響と原因を公表

HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」

きになる点
・時系列の説明がないこと
・BCPができていないこと
・バックアップは、1日1回のみ。応急処置として1時間1回にしたが、この頻度でどうかな?
・障害を想定して、事前に復旧訓練をやっていないこと

システム機器は交換済みだが、故障・遅延の影響で12月26日から日次のデータ処理工程で業務が滞留し、会員からの照会業務や売上処理の入力業務などのシステムが平常通りに立ち上がらない状態になっていたという。1月4日からシステムをおおむね正常に立ち上げているが、慎重を期するため時間を制限して運用しており、業務遅延解消まで時間を要しているとしている。

・この時代は、リソースを信じない、デバイスを信じない、連携システムを信じない、自分のシステムを自分で守る設計が大事。特にCloud Nativeのシステムはそうしないとえらい目に会う。