AWS大規模障害から考える、クラウドインフラ構成の設計ミス問題

2019年8月23日、クラウドサービスのAWSで大規模な障害が発生しました。これにより、多くのサービスが停止し、社会インフラへのクラウドサービスの影響の広がりを否応なしに見せつけることとなりました。

今回はこの件について考察して行きたいと思います。

原因は空調施設のトラブル

AWSが発表した内容によると、原因は空調施設のトラブルとのことです。猛暑の中、エアコンが止まったら人間だって行動機能が低下します。精密機器は人間以上に高温多湿に弱いですからね。これが原因で止まるというのは納得できます。

中小企業のサーバルームでも、万一空調が止まった時のために、大型のサーキュレータを何台か準備してある、なんてところも結構あるのではないでしょうか。

参照東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要/AWS

機器が止まるのは"当たり前"

機器には、温度・湿度を始めとした「稼働を保証する環境」があります。それが損なわれたら止まるのは当たり前。クラウドサービスだって雲の中にデータがあるわけじゃなく機器で動いてるんですから、稼働保証環境が損なわれれば止まるのは当然のことです。

問題はその「当たり前」を認識していないクラウドサービスユーザーが多数いたことです。個人的には「クラウド」と言う用語がいけないんじゃないかと思っています。何かもやもやとして、叩いても壊れないような印象が生じてしまうんではないかと。

「クラウドは壊れない」「クラウドは止まらない」「クラウド管理なら情報漏えいしない」と勝手に思い込んでる人が大勢いるような印象があります。(特にシステムを理解しようとしない経営層に)

「クラウド」は簡単に言ってしまえば"サーバ室の業務委託"みたいなものです。人員が自社に来るのではなく、どこか一か所に纏めているだけで。その感覚でクラウド利用のインフラを設計しないと、今回のようなトラブルに巻き込まれることになります。

真の原因は"インフラ構成の設計ミス"

さて、AWSの発表文章の中には、こうも書かれています。

複数のアベイラビリティゾーンでアプリケーションを稼働させていたお客様は、事象発生中も可用性を確保できている状況でした。

"アベイラビリティゾーン"とは、"一つのデータセンター"だと思っていただければ良いです。異なるデータセンターで稼働させていれば、一つがダメになっても止まらないのは道理ですね。もちろん、その分料金は上がるでしょうけども。

サービスが停止するリスクとコストを天秤にかける

今回の問題は、「クラウドであっても機器が止まることがある」という至極当たり前のことを抑えていなかったユーザー企業のサービス設計ミスだと認識しています。

ファンクラブサイトやゲームサイトなど、少しくらいシステムが停止しても、"お詫び"や"アイテムの補償"で済んでしまうサイトであれば別にそれでも構わないでしょう。サービスが止まるリスクとコストを天秤にかけて、止まったとしても何とかなるとの経営判断をしてもおかしくありません。

しかし、大手企業のECサイトやチケット販売サイト等の多数の決済が関わるもの、会計サービスや名刺管理サービス等の企業の日常業務に直接影響がでるようなものは、何時間も止まるような事態は避けなければいけないはずです。だとしたら、なぜ単独のアベイラビリティゾーンで稼働していたのか、経営判断がおかしいのではないか、と感じられてしまうのです。

こう考えると、今回止まったサービスのうち、決済が関わるものや多数の日常業務に影響を与えたサービスは、クラウドインフラの設計ミスと言えるでしょう。クラウドを使う場合であっても、そのサービスの可用性要求を考慮した設計が当然に必要なのです。

大規模な自然災害でも停止させないためには

ちなみに「リージョン」という言葉もあります。これは"アベイラビリティゾーン"が複数集まった地域の単位だと思ってください。日本では自然災害の可能性も大きいので、地震や津波といった大規模災害でも止まらないようにするためには、「複数アベイラビリティゾーン」ではなく、「複数リージョン」の採用が必要になってきます。

クラウド化は責任の丸投げではない

今回の件で注目して欲しいのは、止まったサービスもあれば止まらなかったサービスもある、ということです。今回のような事態も想定して、複数アベイラビリティゾーン、或いは複数リージョンにちゃんと対応していたサービスもあったこと。

クラウド化は責任をクラウドに丸投げすることではありません。例えクラウド化したとしても、止まったら責任は自社にあります。このサービスはどの程度止まっても大丈夫か。その判断をした上でクラウドインフラを考える必要があるのです。止まると多大な影響を与えるにも拘らず、今回止めてしまったサービスは、今一度インフラ設計から見直した方が宜しいでしょう。

単純に「安いクラウドサービス」で選んでいないでしょうか?クラウドサービスに対して自社が要求するものは何か。それを整理してからクラウドサービスを選択しないと、今回のような場合にストップしてしまうことになるのです。「クラウドが止まったこと」はクラウドサービスの問題ですが、「クラウドを利用したサービスが止まったこと」は経営の問題なのです。

情報漏洩セキュリティ対策ハンドブックプレゼント

メルマガ登録で、下記内容の「情報漏洩セキュリティ対策ハンドブック」プレゼント

1.はじめに


2.近年の個人情報漏洩の状況


3. 内部要因による情報漏洩
3-1.被害実例
3−2.内部犯行による被害統計情報
3-3.内部犯行による情報漏洩が増え続ける3つの原因
3-4.内部犯行を減らすための対策


4. 外部要因による情報漏洩
4−1.近年の個人情報漏洩の状況
4−2.実際の近年のサイバー攻撃による企業の被害実例
4−3.サイバー攻撃の統計情報
4-4.サイバー攻撃がふえ続ける5つの原因
4-5.急増する日本の企業のWEBサイト改ざんへの対策
4-6.サイバー攻撃の種類を把握しよう
4-7.日本におけるサイバー攻撃に対する国の対応と今後
4-8.外部要因による情報漏洩のセキュリティ対策

無料でここまでわかります!
ぜひ下記より無料ダウンロードしてみてはいかがでしょうか?