「スマホ時代の考え方に変わり切れていなかった」 続発したKDDIのLTE通信障害、原因と対策は (1/2)
KDDIの4~5月に発生したLTE障害についての謝罪会見があったということです。私は実際に被害にあったわけではないので、ここでは原因となったバグに注目したいと思います。
60バイト以下の小さなパケットが届いた場合、通信カードがリセットしてしまう「リセットバグ」が含まれていた上、負荷が一定以上かかると処理できなくなる「リカバリー処理バグ」も発生。
要するに内在するバグが表面化しないように「運用で回避」していたのでしょう。それがたまたまバグが再現してしまったときにもう片方のバグを連鎖してしまい両系ダウンと。こんな状態で運用されていたというのはおっかないですね。ここまで爆弾を抱え込んでいたらもう2重化とか関係なく両系停止のリスクが高いとみておくべきでしょう。
バグの修正・対処は8月末までかかるということで、それまでとにかく爆弾が爆発しないことを祈るばかり。しかし運用担当者は気が気じゃないでしょうね。