2017 年 3 月 31 日夜間から発生した東日本データセンターの障害についての原因調査報告書 (RCA) の抄訳

Last Update: feedback 共有

警告

本記事は、投稿より時間が経過しており、一部内容が古い可能性があります。

この度は、2017 年 3 月 31 日に発生した弊社東日本データセンターにおける障害により、Microsoft Azure を利用した貴社業務に多大なるご迷惑をおかけしましたことを、深くお詫び申し上げます。

弊社にてデータセンター施設における原因調査を完了いたしました。以下に、4 月 15 日に公開された、原因調査報告書 (RCA) の更新版の日本語抄訳をご案内いたします。

RCA の原文につきましては、Azure の状態の履歴 (https://azure.microsoft.com/ja-jp/status/history/) をご参照ください。

インシデント情報

インシデント発生日時: 2017 年 3 月 31 日 20:28 から、4 月 1 日 7:16 (日本標準時)

影響があった地域: 東日本リージョン

問題の概要

日本時間の 2017 年 3 月 31 日 20:28 から 4 月 1 日 午前 7:16 の間にわたって、東日本リージョンをご利用のお客様の一部で、VM が利用できない、VM が再起動する、ならびに東日本リージョンの Azure Storage に依存するサービスやリソースにアクセスする際のパフォーマンス低下や接続失敗が発生する、といった影響が発生いたしました。

Azure のエンジニアは、標準的なモニタリングの範囲の中で、この地域での可用性低下のアラートを受信しました。エンジニアは原因が、N+2で稼働する電源供給システムの故障に伴って実施された、電源復旧のオペレーションの問題であることを突き止めました。N+2の冗長性がある構成の中、単機の RUPS(Rotary Uninterruptible Power Supply)に故障が発生し、それがデータセンターの冷却システムへの電力供給の問題につながりました。冷却システムが停止したことにより、一部のリソースはオーバーヒートによる故障を回避しデータ一貫性を保護するために自動シャットダウンしました。

N+2で稼働する電源分配システムで故障が発生したのは、3 月 31 日 20 時 28 分でした。ファシリティ サービス プロバイダは即座に対応をはじめ、電源復旧のオペレーションを遂行しました。

電源復旧のオペレーションの過程で、復旧手順に誤りがあったため、21時40分に冷却システムの一つが不適切にシャットダウンされました。その結果施設の一部エリアで冷却機能が失われ、施設内の温度が上昇し、安全限界を超えました。

21 時 45 分から 22 時 12 分の間に、Azure エンジニアとファシリティ サービス プロバイダは、施設で発生した温度上昇に伴うオーバーヒートの警報を複数受信しました。外気を利用してデータセンターの温度を下げる処置を開始しました。

22 時 46 分、マイクロソフトのデータセンター サービス担当が現地に到着し、ファシリティ サービス プロバイダと共に現地での作業にあたりました。外気を利用してデータセンターの温度を下げる処置を続けながら、冷却システム エア ハンドラーを再稼働させました。同時に、Azure のエンジニアは冷却機能が回復次第、Azure 基盤を復帰させるための準備を行いました。

4 月 1 日午前 0 時 24 分、ファシリティサービスプロバイダは冷却システムが正常に復旧できたことを確認しました。温度上昇が発生していたエリアで温度が正常範囲内に戻りました。

1 時 08 分、RUPSと冷却システムの詳細な健全性チェックが完了し、加熱により故障している、あるいはその疑いがあるコンポーネントはすべて特定され交換されました。それらのコンポーネントは分析に送られました。

1 時 53 分、エンジニアはネットワーク スイッチとネットワーク デバイスの約95 %の復旧を確認しました。影響を受けたスケール ユニット (仮想化基盤となる物理マシン群) のうち、ソフトウェア ロード バランシング(SLB)サービスと管理基盤をホストするもののパワーアッププロセスが開始されました。

※ソフトウェア ロード バランシング (SLB) サービスとは、Azure データセンターの物理ネットワークと、仮想 IP の接続、ならびに、仮想マシン同士や Azure 仮想化基盤のストレージなどのサービス間の仮想ネットワークを司るサービスです。

2 時 16 分、コア インフラストラクチャの大部分がオンラインとなりました。ネットワーク エンジニアが復旧プロセスを開始し、ソフトウェア ロード バランシング (SLB) サービスを管理されたプロセスにてプログラミングし、必要な接続が確立できるよう試みました。

SLB が稼働開始した後、エンジニアは多くのサービスが自動回復し、正常になったことを午前 3:51 頃に確認しました。仮想マシンに影響が残存していることが発覚したため、エンジニアはこの調査を続行し、仮想マシンがオンラインになるよう対応を行いました。並行して、エンジニアは、影響の残る仮想マシンを保有するお客様に、ポータルからの通知作業を行いました。

7 時 16 分、エンジニアはストレージとそれに依存するすべてのサービスが正常に復旧したことを確認しました

お客さまへの影響

東日本リージョンにリソースをお持ちのお客様においては、上記タイムフレームにて、お持ちのリソースが利用できない状況となっておりました。

回避策

仮想マシンにおいて、管理ディスク (Managed Disks) を利用し、可用性を構成していたものについては事象の影響が回避出来た可能性があります。管理ディスクの詳細は、以下のサイトをご参照下さい。

Azure Managed Disks の概要

https://docs.microsoft.com/ja-jp/azure/storage/storage-managed-disks-overview

Migrate Azure VMs to Managed Disks in Azure (Azure VM を管理ディスク環境に移行する)

https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/migrate-to-managed-disks

Azure Redis Cache をご利用のお客様

キャッシュは、レイテンシやスループットの観点では確かにリージョン依存ですが、アプリケーションが別リージョンの Redis Cache を参照している場合、サービスを継続してご利用いただけました。

SQL Database サービスをご利用のお客様

アクティブ geo レプリケーションを構成されている場合、ジオ セカンダリへのフェールオーバーを実行することでダウンタイムを縮小可能でした。このフェールオーバーは、5 秒程度で行えます。他の回避策としては、geo リストアがあります。これらの機能の詳細は以下をご参照下さい。

Azure SQL Database によるビジネス継続性の概要

https://docs.microsoft.com/ja-jp/azure/sql-database/sql-database-business-continuity

障害の発生中、西日本リージョンは完全に稼働しておりました。お客様のアプリケーションがジオ冗長性 (例えば、Traffic Manager を使って正常なリージョンに接続を行う構成) を活用している場合、アプリケーションは当該事象の影響を最小化することが可能でした。

クラウド アプリケーションのベスト プラクティスやデザイン パターンについては以下を参照してください。

http://aka.ms/mspnp

Traffic Manager については、以下を参照してください。

https://docs.microsoft.com/ja-jp/azure/traffic-manager/traffic-manager-overview

原因

調査の結果、データセンターにおける RUPS の単機の故障がエアハンドラー ユニット(AHU)の電力供給に影響を及ぼしたことが分かりました。データセンターにおける電源復旧手順の誤りにより冷却機能が失われ、温度が安全域を超えるまでに至りました。冷却システムは N+1 の多重化、電力供給は N+2 の多重化の設計となっておりました。

今後について

Azure チーム一同、この度の事象の影響を受けたお客様に深くお詫びを申し上げます。

Microsoft Azure プラットフォームの改善、ならびに運用プロセスを改善するためのステップを設け、同様の問題が再発しないように努めてまいります。

今回のケースは、以下の対策を講じます。(また、以下に限らず、継続的な改善に尽くします。)

  • RUPS システムは調査のため、調査用施設に送られました。サイト オペレーション、ファシリティ エンジニア、設備の提供元にて原因調査を行い、事象の再発のリスクを取り除きます。

  • 今回の事象で影響を受けたAzure サービスの見直しを行い、サービス リソースが複数のスケール ユニット、あるいは複数のジオ計画に基づいて冗長化され、今回のような現象が発生したとしても、それに耐えて最小限のサービス中断となるようにしてまいります。

原因調査報告書 (RCA) のサーベイについて

Azure ご利用のお客様へのコミュニケーションを改善するため、以下のサーベイにご協力ください。

https://survey.microsoft.com/354249

以上

Azure チーム

※本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。