1: 海江田三郎 ★ 2016/03/31(木) 13:50:05.63 ID:CAP_USER.net
ph02
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
 全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表した。国内線システムの4台のデータベー
ス(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因だった。

4時間40分かけて4台が次々停止

 ANAによれば、3月22日午前3時44分にDBサーバーの1台が停止した。その後2台が停止し、約4時間40分後の午前8時22分に最後の1台も停止。
DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため。4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。
同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる
「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。
 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。
 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、
うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。

1台での縮退運転を決断
 4台の完全停止から37分後、ANAは1台のDBサーバーを再起動。だが「2台起動すると2台とも停止する」(同)といった不安定な状況が続いた。
DBサーバーは1台構成でもシステムで全機能を使えるという。ANAは午前9時27分に1台での運用を決めた。ただし既に空港などでの混乱は始まっており、
詳細な原因も定かではなかったため、「お客様対応を最優先するために搭乗手続きの機能だけを稼働させた」(同)。予約や販売などの機能は稼働させず、縮退運転とした格好だ。

 午前11時30分、全ての空港で搭乗手続きの機能を使えるようになった。自動チェックイン機や係員が使う端末が少ない空港での機能回復は早かったが、
羽田空港など大規模空港では端末の再起動を順次進めたため時間がかかったという。
 予約やWebサービスを復旧させつつ、ANAは障害原因を探った。DBサーバー、アプリケーションサーバーを順次調べ、異常がないと判断。スイッチの不具合を疑った。
「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」(ANA広報)。
 ANAはすぐにシスコに不具合を連絡して代替機を取り寄せた。代替機に交換したのが翌23日午前1時14分。午前3時5分にはDBサーバーを4台構成に戻し、午前4時14分には全サービスを復旧した

トップの報酬減額
 ANAは再発防止策も公表。まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日にシステム改修を終えた。
スイッチが「故障シグナル」を出さなくても、DBサーバーからスイッチの故障を検知できるようにした。
(中略)

国内線システムはアプリケーションとシステム基盤を含め、日本ユニシスが構築を担当。
同社広報は「システム障害でご迷惑をお掛けした皆様へお詫びするとともに、システム開発会社として責任を認識している。
お客様(ANA)と改善策を検討していきたい」と話す。シスコシステムズ日本法人の広報は「今回の不具合はこれまで世界で報告が上がっていなかったもの。全力で原因究明と再発防止に取り組む」とした。

「止まらないシステム」構築の難しさ浮き彫りに

 ANAでは2013年2月に国内線旅客システムをメインフレームからオープンシステムに再構築して以来、初めての大きなトラブルとなる。
実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった(関連記事:【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」)。

 社会インフラを支える大規模システムになればなるほど、構成要素が増え、アプリケーションは複雑になる。関わる人も大量だ。
信頼性を高める努力を続ける一方で、システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ。
引用元: http://anago.2ch.sc/test/read.cgi/bizplus/1459399805/


14: 名刺は切らしておりまして 2016/03/31(木) 14:02:14.69 ID:LlRz5Klz.net
思ったより原因の特定早かったなー

>>1
>「故障シグナル」を発信しなかった。
つまり、SNMP Trapが上がらなかったとか?

24: 名刺は切らしておりまして 2016/03/31(木) 14:09:19.03 ID:+FycosfX.net
>>14
SNMP Trapを監視システムがロストして捕まえなかったんだろう。
だからSNMPは双方向のシステムに出せと言っていたのに。

3: 名刺は切らしておりまして 2016/03/31(木) 13:52:27.83 ID:j7zv2zxX.net
ダイハード2みたいな落ちを期待したのに普通

4: 名刺は切らしておりまして 2016/03/31(木) 13:55:12.18 ID:87uor3JS.net
損害賠償請求しろよ
アメリカならそうしてる

5: 名刺は切らしておりまして 2016/03/31(木) 13:55:24.72 ID:LI189sie.net
バッファローの俺高みの見物。

6: 名刺は切らしておりまして 2016/03/31(木) 13:56:08.35 ID:YSvTD3Az.net
だからエレコムにしておけとあれほど

82: 名刺は切らしておりまして 2016/03/31(木) 15:28:22.13 ID:ZdII4620.net
>>6
エレコムってLinuxなんか二度とつかわねーよって捨て台詞はいた後Linux使った商品発売してたっけ。

10: 名刺は切らしておりまして 2016/03/31(木) 13:58:44.23 ID:MLwbE8XP.net
まあちょっとぐらいイーサネットスイッチの故障ぐらいはって安易名乗りが
太陽とシスコムーンの崩壊へと

16: 名刺は切らしておりまして 2016/03/31(木) 14:02:31.71 ID:wdHQh3V5.net
これは巨額賠償していい話だね

18: 名刺は切らしておりまして 2016/03/31(木) 14:05:46.55 ID:j2wtvk7d.net
>>16
ANAの1日分の営業止めたからな
ウン十億行くんじゃね?

22: 名刺は切らしておりまして 2016/03/31(木) 14:08:24.53 ID:GkJXfxIc.net
原因特定と復旧時間の早さを考えたら、逆にサーバー保守チームや出向者や技術者にボーナス加算してあげるべき事案w

冗長化したって無駄な時は無駄。完璧なんか世の中にない。事故はえ起こるもんだで対策しないとダメだw

23: 名刺は切らしておりまして 2016/03/31(木) 14:08:32.81 ID:aMHuB3HZ.net
だからバッファローにしとけとあれほど

28: 名刺は切らしておりまして 2016/03/31(木) 14:16:07.26 ID:NKoQI/Fc.net
スイッチのコールドスタンバイぐらいしそうなもんだけどな

33: 名刺は切らしておりまして 2016/03/31(木) 14:27:11.61 ID:LlRz5Klz.net
>>28
故障を検知したら切り替える設計だったとしても、
故障の検知に失敗してたらどうしようもないという

29: 名刺は切らしておりまして 2016/03/31(木) 14:20:02.77 ID:NCT/xNT2.net
スイッチ一個壊れてサーバダウンするとか脆弱過ぎるだろw

34: 名刺は切らしておりまして 2016/03/31(木) 14:27:39.91 ID:YVP2Dizd.net
機械が故障したのに故障したという信号が送れなくて
本体側は正常とみなして、予備に切り替えられなかった。

まあ、予備を準備していたのに切り替えが出来ないという
割とありきたりの問題だったね。

37: 名刺は切らしておりまして 2016/03/31(木) 14:29:07.62 ID:LMpCC2+1.net
アンガマン・バスにしとけと言ったのに

43: 名刺は切らしておりまして 2016/03/31(木) 14:31:59.63 ID:EbammLDO.net
だからあれほど吉本断続器工業のスイッチにしておけと言ったのに

48: 名刺は切らしておりまして 2016/03/31(木) 14:38:24.95 ID:/pQrB7yE.net
SDN SDN SDN

53: 名刺は切らしておりまして 2016/03/31(木) 14:44:27.18 ID:r69FWJK4.net
日経は世界初のバグだと言ってるが他はハードの障害とかどっちなんだよ

55: 名刺は切らしておりまして 2016/03/31(木) 14:45:36.73 ID:mDjC5qfq.net
>>53
ハードウェア内部のバグだよ

58: 名刺は切らしておりまして 2016/03/31(木) 14:49:41.84 ID:pHB8EbQr.net
この手の商品って
納品検収完了してたら 買った側は損害請求できない契約だっけな

59: 名刺は切らしておりまして 2016/03/31(木) 14:52:19.64 ID:glZC8V3q.net
>>58
でも余りにも対応が悪ければ、あんた所とは今後一切取り引きせえへん
って事になるやろね。

61: 名刺は切らしておりまして 2016/03/31(木) 14:54:52.64 ID:jNrohQxS.net
シスコも最近はこな感じか。
昔は絶大な信頼があったけどな。

93: 名刺は切らしておりまして 2016/03/31(木) 15:57:01.28 ID:zA3jK2z4.net
>>61
そか? 昔からこんな感じだよ。
cisco製品使うなんて、いつ止まっても結構ですよ・・・状態。

多機能故に、作った連中ですら気が付かないバグが出るわ出るわ。

68: 名刺は切らしておりまして 2016/03/31(木) 15:00:55.59 ID:bcSQHNig.net
Ciscoは沢山売れてるから障害の例にもなりやすい
他メーカーを入れていればもっとドイヒーの不具合に当たっている可能性もある
サポートもしょぼいし

73: 名刺は切らしておりまして 2016/03/31(木) 15:08:08.18 ID:YgVlGWys.net
ハードと言うよりソフト設計の問題かな…

81: 名刺は切らしておりまして 2016/03/31(木) 15:26:08.54 ID:felWR3bt.net
自動でも手動でも系切替は可能だが
それぞれでサブからメインにいくとき各設備(自分ら含む)とのオンラインオフラインなどの異常があるかないかをチェックする
で、今回その中継がゾンビってたので誤作動起こしてシステム自体が立ち上がる前に落ちていたっていうこと
簡単に言うとだけどなー
このゾンビ状態と言うのがくっそ嫌な状態で表面的には生きて居るんだけど中身が死んでるから仕事しない
変な言い方するとシスコの絶大な信頼が招いた問題

時間かかったのはシステム屋が自分で作ったの信用できなくてそれにたどり着くまで時間かかっただけだろ
俺はシスコの別製品でもこのゾンビ状態でシステムが乙るの知ってたからネットワーク障害だと最初に思ったもんだけど
システムには保守員逆らえないからなw
よりによって大元がゾンビってたとかご愁傷様と言わざるをえない

85: 名刺は切らしておりまして 2016/03/31(木) 15:32:08.20 ID:hX5nkXcZ.net
全日空てトラブル多いよな
こんなんで飛行機大丈夫かよ

87: 名刺は切らしておりまして 2016/03/31(木) 15:40:18.17 ID:egk9/MfL.net
やっぱりケロッグ最強

89: 名刺は切らしておりまして 2016/03/31(木) 15:46:01.30 ID:8grQPPlL.net
これ、DBのクラスタソフトにも問題あるような気もするんだけど。
まあCISCOもみとめてんだから
問題ないけど。

94: 名刺は切らしておりまして 2016/03/31(木) 16:01:01.84 ID:Cf0y+1Ix.net
SWの故障なんてよくある話。
真の問題は「何故故障したSWを切り離せなかったか」だ。

それと障害への過信が無かったか?
‘そんな故障はあり得ない’では無かったか?
福島原発事故と全く同じだ。
もう一度障害対策を見直せ!

でも障害復旧に当たったエンジニアの皆さん、お疲れさまでした。

98: 名刺は切らしておりまして 2016/03/31(木) 16:10:30.30 ID:W5iEovBm.net
スイッチがフェールオーバーするトリガーをスイッチ自身にだけ持たせたのが悪い
使うのはDBと上位スイッチなんだからそっから異常あるかどうか判断させなきゃ
といいつつ担当者はご苦労さん・・・

107: 名刺は切らしておりまして 2016/03/31(木) 17:22:32.90 ID:va7wMoUq.net
>>98
スイッチにL7レベルでサーバを監視しろって?お前ニワカだろ

101: 名刺は切らしておりまして 2016/03/31(木) 16:22:32.18 ID:4JfZsata.net
やっぱ使うならコレガだな

スポンサード リンク