KDDIのLTE障害、原因は2重化機器が同時に故障


KDDI、LTE障害の原因判明 ソフトと機器が同時故障 (日本経済新聞)

日経新聞ですが↑の記事は全文読めるようです(6/1 11:00現在)

5/29と5/30に相次いで発生したKDDIのLTEサービス障害ですが、原因のようなものが報道されています。それによると5/29の障害は以下のような感じで発生したそうです。

1) 基地局制御装置は2重化してある

2) 4月の障害原因を修正するためソフトウェアのアップデートが必要

3) 2重化の片方を実運用から切り離してアップデート開始

4) そのタイミングでもう片方の機器にネットワークカードの故障が発生

5) 切り離していたほうのアップデートを中止して実運用に戻す

6) 実運用に戻したほうの系統でソフトウェアのバグが発生

7) 結局両系とも運用不可に

よく見ると3)以降は縮退運転(バックアップ系がない状態)しているんですよね。ちょうどその時に障害が発生、切り離していた系統を慌てて戻したら今度はソフトのバグでそちらも障害ということです。障害のリスクを最低限にするという観点で見た時に、この運用は正しかったのでしょうか。

本来縮退運転は「片方の機器に突発的に問題が発生しても機能を維持するため」に行うもので、それをソフトウェアアップデートのために意図的に発生させたことに最大の問題点があるように思います。

結果論ですがもう一系統用意して、

2重化の片方の代わりになる系統(以下「一時系」)を一時的に調達しておく

2重化の片方を実運用から切り離してアップデート開始、そのタイミングで一時系を実運用に組み込んで2重化

アップデート終了後本番系復帰とともに2重化のもう片方を実運用から切り離し(一時系はそのままなので2重化は維持)

もう片方のアップデート終了後本番系復帰、一時系切り離し

とすれば、作業中も2重化が維持できるでしょう。もちろんそこまでやるかどうかはコストや手数を含めた総合的な判断になりますが、少なくともKDDIは安定運用よりコストや手数を減らすことを取ったと解釈されても仕方がない状態です。

内情を知らないで好きなことを書いていますが、利用者からみれば結果しか見えないのもまた事実。KDDIには通信事業者の基本に立ち返って、サービスの安定した提供に改めてまい進してほしいところです。

KDDIのLTE障害、原因は2重化機器が同時に故障」への1件のフィードバック

  1. shun

    確かにホットスタンバイしか用意してないっていうのは違和感ある。
    二重化はあくまでも系統を保つ為のものだしバージョンアップに利用するのはどうかと。

    発表向けには、そう言う外しかないだろうけど。

コメントを残す

メールアドレスが公開されることはありません。

Time limit is exhausted. Please reload CAPTCHA.