business-continuity

クラウド集中リスク再考：AWS大規模障害ポストモーテムを起点に

2025年10月、Amazon Web Services（AWS）の us-east-1 リージョンにおいて、大規模な障害が発生し、世界中の多数のサービスに影響が及びました。複数の銀行、公共サービス、主要なオンラインプラットフォームが一時的に機能不全に陥り、クラウドが社会基盤として不可欠な存在であることを改めて示した事案でした。本障害のポストモーテムおよび第三者による技術分析では、DNS管理自動化の不具合を起点として、DynamoDBをはじめとする複数の内部サービスに障害が連鎖したことが指摘されています。また、世界規模のクラウドインフラにおいて特定リージョン、特に us-east-1 が制御プレーン上の重要コンポーネントを多く抱えていたことも、影響範囲拡大の一因とされています。

本稿では、これらの指摘事項を起点に、クラウドインフラにおける依存の集中という構造的課題について検討します。技術的な要因の解説にとどまらず、クラウドに依存した事業運営が直面するリスクの本質と、今後求められるアーキテクチャ設計および運用ガバナンスのあり方を考察することを目的といたします。今回の障害を単なる一過性の問題として扱うのではなく、クラウド利用が成熟段階に入った現在、どのようにリスクを制御しながら恩恵を享受するかという視点から、教訓を導き出したいと考えております。

ポストモーテムで指摘された主な問題点

AWS が公開した情報および複数の第三者機関による分析では、今回の障害が単一の技術的欠陥に起因したものではなく、複数の要素が連鎖的に作用した結果であることが示されています。特に、インフラの自動化機能における不具合、制御プレーンに位置付けられる共通サービスへの依存集中、そしてリージョン構造上の特性が複合的に影響した点が重要視されています。また、障害把握や縮退運転における限界も明らかとなり、クラウドインフラの強靭性について再検討すべき課題が浮き彫りになりました。

以下では、ポストモーテムで明示された主な指摘項目を取り上げ、それぞれがどのように障害の拡大に影響を及ぼしたのかを整理いたします。

DNS管理自動化の欠陥

今回の障害の起点として指摘されているのは、DynamoDB のエンドポイントに関連する DNS 管理自動化機能の不具合です。AWS のポストモーテムによれば、DNS レコードを自動生成・更新する内部システムにおいてレースコンディションが発生し、対象エンドポイントの DNS レコードが誤って空の状態で配信されました。その結果、dynamodb.us-east-1.amazonaws.com などの名前解決が失敗し、同サービスへの接続要求がタイムアウトおよびエラーとなりました。

DNS はサービス間通信の最初の入口であるため、この不具合は単一機能に留まらず、DynamoDB を参照するさまざまなサービスや内部コンポーネントの処理停止を引き起こしました。加えて、DNS 障害はキャッシュや再試行動作による遅延を伴うことが多く、影響の特定と収束を困難にする側面があります。

この事象は、クラウドにおける自動化と運用効率化が高度に進む一方で、DNS のような基盤レイヤーに対する変更管理が設計上の単一点障害として作用し得ることを示しています。管理対象が広範かつ依存関係が複雑化している現在、自動化機構における検証能力とフェイルセーフ設計が不可欠であることが改めて確認されたと言えます。

バックエンド依存の集中

今回の障害で特に注目されたもう一つの問題点は、Amazon DynamoDB（以下「DynamoDB」）が、AWS自身および多くの顧客サービスにおいて「バックエンドの汎用データストア／制御プレーン基盤」として広範に使われていた、という構造的な依存集中です。技術分析およびポストモーテム資料では、DynamoDBの DNS 障害が発生した際、単なるデータストア単体の停止にとどまらず、多数の上位サービスが一斉に機能低下または停止に陥ったことが示されています。

この依存集中には以下のような特徴があります。

多くのサービス（例：EC2のインスタンス起動・管理、ネットワーク構成管理、Lambdaイベントソース、内部メタデータ管理など）が、DynamoDBを介して「どのサーバーが起動可能か」「どのリソースが使用可能か」「どの設定が最新か」などの状態を管理していた、という指摘があります。
そのため、DynamoDBがアクセス不能になると、顧客アプリケーションだけでなく、AWSの “クラウド基盤そのもの” を構成するサービス群（制御プレーン・管理プレーン）に影響が波及しました。例として、EC2が「起動可能なホストがあるかどうか」を判断できず、インスタンス起動が失敗したという報告があります。
このように、DynamoDBが単なるデータストア以上の「広範に多くを支える基盤コンポーネント」として機能していたことにより、障害時の“影響の爆発力（blast radius）”が非常に大きくなりました。

つまり、DynamoDBの停止＝「多くのサービスの裏側で動いている共通基盤の停止」という関係が「集中」の実態として表れ、この設計上の依存構造が障害を大規模化させた主因の一つとされています。

この点を踏まると、クラウド利用者／設計者としては、「使用しているマネージドサービスがどの程度“上位プラットフォーム依存”になっているか」「そのサービスが単一停止点になっていないか」という観点を持つ必要があります。

単一リージョン集中（us-east-1）

今回の障害で浮き彫りになった重要な課題の一つが、US‑East (北バージニア) リージョン（AWSのリージョン識別子 us-east-1）に対するワークロードおよび制御サービスの極度な集中です。技術分析からは、次のような構造的な依存関係が確認されています。

まず、us-east-1 は Amazon Web Services（AWS）の設立初期から稼働しており、顧客数・サービス数ともに最大級のリージョンです。多くの新規サービスや機能開発のデフォルト導入先として選ばれてきたため、自然と “第一選択” のリージョンとなっていました。

次に、このリージョンは多くの他リージョンやグローバルサービスの制御プレーン／メタデータ管理バックエンドとして機能していたことが確認されています。例えば、DNS／認証／グローバルテーブルなど、us-east-1 に関連するエンドポイントにアクセスする構成のサービスが多数存在していました。

その結果、us-east-1 における DNS 解決障害／DynamoDB 依存障害が発生した際、たとえアプリケーションやサービスワークロードが他リージョンに分散されていたとしても、論理的な集中点として実質的に “単一点障害（single point of failure）” と化してしまったという事実があります。

この構造的依存が意味するところは、技術的な冗長化（例えば単一リージョン内の複数AZ利用）さえ整えていても、リージョンレベルでの障害や制御プレーンの停止に対しては十分な耐性を備えていない可能性があるということです。そして、今回の障害ではその耐性の限界が露呈しました。

以上より、“us-east-1 におけるリージョン集中”が、技術・運用・設計の観点からクラウドインフラの強靭性を脅かす構造的な弱点になっていたと考えられます。

監視と可視性の不足

今回の障害において、監視体制および可視性（observable visibility）が十分でなかったことが、対応の遅滞や影響範囲の拡大に寄与したという指摘があります。具体的には、以下のような状況が確認されています。

まず、外部から観測可能なネットワーク指標では、米バージニア州アッシュバーンにおける AWS （Amazon Web Services）エッジノードのパケットロスが「06:49 UTC 付近」に観測されたものの、クラウド内部の制御プレーンやバックエンドサービスの影響を捉えるには、可視性が不足していました。

さらに、エンジニアリングチームの証言によれば、故障が発生した段階では「監視ダッシュボードでは依然として正常表示／もしくは遅延反映状態であった」ため、実際の内部処理停止や異常の把握に時間がかかったとされています。

加えて、障害の波及フェーズにおいては、以下のような可視性欠如の構造が浮かんできました。

上位サービス（アプリケーションやワークロード）が応答不良やエラーを起こしていても、インフラ（DNS、DynamoDB、認証プレーンなど）が正常化したとベンダー側で判断されていても、メッセージバックログ・再試行遅延・キャッシュ溢れなどが残っており、採取された指標上「正常」となった後も影響が継続していたという分析があります。
可観測性がクラウドベンダー提供の制御系ログや API ステータスに偏っており、**利用企業側のエンドツーエンド視点（外形監視／ユーザー体験監視）**が十分準備されていないケースが散見されました。

これらを総じると、監視・可視性における問題は、設計上・運用上双方の課題を含んでおり、次の観点で整理できます。

時間遅延・情報ギャップ：内部制御停止が発生しても「正常稼働」という指標表示が残り、遅延が発生することで初動が遅延。
視点の偏り：クラウド内インフラの稼働状態ではなく、サービス依存関係・ユーザー体験・他リージョンへの波及といった視点が欠けていた。
フォールバック／縮退運転の準備不足：監視できていない状況では、どこを停止し、どこを減速運転すればよいかの判断が難しく、対応遅延につながった。

以上のように、監視と可視性の不足は、今回の障害がただ技術的不具合で終わらず、連鎖的な影響拡大を伴った構造的インシデントとなった背景の一つと捉えられます。

縮退運転の難しさ

今回の障害に関して、ポストモーテムでは「フォールバックまたは縮退運転モードへの移行が想定よりも難しかった」ことが指摘されています。通常、設計段階では障害時に機能を限定してサービスを継続する「縮退運転（グレースフルディグラデーション）」が構想されます。しかし、Amazon Web Services（AWS）において実際に縮退運転が機能しづらかった構造的背景が明らかになりました。

まず、内部DNSやデータストア（Amazon DynamoDB）などの制御プレーンが障害を起こすと、サービス全体の動作に支障をきたし、限定運転さえできない状況になりました。たとえば、DNS解決不能によりリクエストがそもそも宛先に到達しないため「機能を縮小して部分的に運転を継続する」以前に、サービス起動が不能になるケースが散見されています。

また、縮退運転のためのフェイルオーバーや代替リージョン切替が設計されていたとしても、「その制御機構自身が us-east-1 に依存していた」ため、一次障害と同時にフェイルオーバーが機能不全に陥ったという報告があります。これは「災害時に使うはず」のバックアップが、災害の起点と同じ依存構造上にあるという典型的なアンチパターンです。

さらに、バックログ処理・キューの溜まり・遅延再試行などの縮退モード移行後のクリア作業が多数残存し、サービスが“縮小運転中”である状態から完全復旧に至るまで長時間を要しました。たとえば、AWS自身が「多数のサービスでメッセージ処理のバックログが残存している」と報告しています。

以上から、縮退運転を実効性あるものとするためには、以下の設計条件が極めて重要であることが分かります：

フォールバック構成（代替機能／代替リージョン）自体が一次障害の影響下にないこと
制御プレーンや共通基盤が縮退運転モード移行時にも機能を維持できること
運用ルーチンとして縮退モード移行・縮退運転中の監視・復旧までを定期的に検証していること

縮退運転の難しさは、単に「予備系を用意しておけば良い」という話ではなく、設計・依存構造・運用検証という三位一体の確実性が問われるという点にあります。

技術構造から見た障害の連鎖

今回の障害は、単一の技術的故障によって発生したというよりも、複数のインフラ層が連鎖反応的に影響を及ぼしあった「ドミノ式効果（カスケード効果）」であったと、ポストモーテム／第三者分析から示されています。以下に、その代表的な流れを整理します。

DNSレコードの異常と DynamoDB の名前解決不能

まず、 Amazon DynamoDB の DNS 管理機構において、レースコンディションが発生し、us-east-1 リージョンのエンドポイント (dynamodb.us-east-1.amazonaws.com) に対して「空の DNS レコード（IPアドレスなし）」が配信されました。

この名前解決の失敗によって、DynamoDB を参照していた各種サービス／内部コンポーネントが即座に接続不能になりました。

制御プレーン・管理プレーンサービスへの波及

DynamoDB は多くの AWS 内部コンポーネントや顧客向けワークロードの「状態管理」「構成管理」「認証・認可メタデータ」「キューのインデックス」等を担っていました。

したがって、DynamoDB へのアクセス不能は、

新規 EC2 インスタンス起動時のメタデータ取得失敗
ネットワークロードバランサ（NLB）等のヘルスチェックや構成反映遅延
Lambda／Fargate／ECS／EKS 等のイベント駆動サービス呼び出し失敗

といった、上位レイヤーでの複数障害を引き起こしました。

リージョン内部・外部の波及と回復遅延

このような構造上の依存が us-east-1 リージョン内に集中していたため、たとえ個別サービスが別リージョンに存在していたとしても、「制御プレーンとしての us-east-1 依存」から完全に切り離されていなかったサービスが多く影響を受けました。

さらに、復旧後も「膨大なバックログ処理」「キューの遅延再試行」「ヘルスチェックの振り直し」といった復旧作業が、サービス完全復旧を長引かせたことが報告されています。

このように、DNS → データストア（DynamoDB） → 制御プレーン／ワークロードという三段構えの依存構造において、最上流の DNS 失敗が引き金となり、下位のサービス層まで影響が波及したことが「障害の連鎖構造」としての核心です。設計者・運用者としてはこの構造を前提に、自らのクラウド利用基盤・設計をレビューすべきという明確な示唆となります。

クラウド集中が生むレジリエンス低下

今回の障害を通じて明らかになったのは、クラウドインフラの高度な集中が、可用性向上のための分散設計と背反する形でレジリエンスを損ない得るという構造的課題です。特に AWS の us-east-1 リージョンは、最も規模が大きく歴史のあるリージョンであり、多くの顧客サービスの主要稼働拠点として利用されてきたことが報告されています。

この「利用集中」は単なる顧客側の運用判断だけでなく、クラウド事業者が提供する制御プレーンの設計にも及んでいます。DNS、認証、メタデータ管理などの共通基盤が us-east-1 に強く依存する構造が存在していたため、リージョン障害がグローバルな影響を及ぼす結果となりました。

さらに、社会全体としても少数のクラウド事業者に依存する傾向が強まっており、今回の障害では銀行や公共サービス、主要オンラインサービスが一斉に停止し、「インターネット利用者は少数のプロバイダの支配下にある」と指摘する報道も見られました。

クラウドの効率性とスケールメリットは集中によって支えられている一方、その集中自体が「単一点障害（Single Point of Failure）」となり得るというパラドックスが、今回のインシデントで顕在化したということです。クラウドが社会基盤として機能する現代において、可用性確保の議論は、クラウド事業者内部の設計だけでなく、利用者側を含むエコシステム全体で考えるべき課題になっているといえます。

利用企業が直面する構造的課題

今回の障害は、単にクラウドサービスの一時停止という技術的インシデントにとどまらず、利用企業が構えるインフラ設計・運用・ガバナンス体制に根づく構造的な課題を明らかにしました。以下に、主な影響領域と直面すべき課題を整理します。

依存見える化・影響把握の難しさ

多数の企業が、クラウドに移行あるいは拡張を進めてきた背景から、どのサービス／アプリケーションがどのクラウドコンポーネント（例：認証、データストア、DNS、メタデータ管理）に依存しているかを包括的に把握できていないケースが散見されます。今回、 Amazon Web Services（AWS）の障害により、利用企業が “別リージョンに分散している” という安心感を持っていたにもかかわらず、実際には共通コントロールプレーンを通じて us-east-1 への依存が残っていたという報告があります。このような「隠れた依存関係」が、ダウンタイム時の影響拡大を助長しました。

BCP／DR計画の再検討

クラウド環境を採用する多くの企業は、従来のオンプレミス環境以上に「可用性の高さ」を期待して設計を進めてきました。しかし、今回の障害では「クラウドだから安心」という前提に対する警鐘が鳴らされました。例えば、米企業向け報告では、企業が「コスト最適化」を重視して単一リージョンまたは単一クラウドプロバイダー上で構成していたため、リージョン障害時の運用停止・業務停止に至った事例があります。利用企業としては、RTO（復旧時間目標）／RPO（復旧時点目標）を改めて見直し、「クラウドプロバイダーのインシデント発生時も運用を継続可能か」を評価する必要があります。

オペレーショナル・ガバナンスおよび契約上のリスク

クラウドサービスは「共有責任モデル（Shared Responsibility Model）」に基づいており、利用企業にはクラウドベンダーが提供しない部分の設計・運用監視責任があります。今回の障害を機に、「クラウド事業者に任せきり」の構成では、利用企業として致命的なダウンタイムに対して適切な説明責任・顧客対応ができないというリスクが浮き彫りになりました。たとえば、サービス停止中に発生する顧客からの信頼低下、法規制・監査対応上の課題、SLA（サービスレベル契約）上の保護が限定的である可能性があります。

コスト・効率性とリスク最適化のギャップ

多くのクラウド移行では “コスト削減” や “スケーラビリティ拡大” を主目的としており、冗長化・マルチリージョン構成・バックアップ設計など“リスク側”の投資を後回しにするケースがあります。今回の障害では、たとえシステムが稼働していたとしても「ログイン不可」「バックオフィス機能停止」「デバイス制御不能」など、業務停止や顧客体験の損失が生じており、ダウンタイムの経済的・ reputational インパクトが可視化されつつあります。こうした構造的なギャップを埋めるため、利用企業は「コスト最小化」ではなく「リスク最適化」を含むクラウドポートフォリオ戦略を再構築する必要があります。

以上のように、利用企業が直面する構造的課題は、単なる技術対策だけでなく、設計／運用／ガバナンスという多面的な視点で整理されるべきものです。クラウドインフラの集中がもたらす影響を真正面から捉え、企業としてのレジリエンス強化に向けた根本的な再考が求められています。

具体的な対応策とアーキテクチャ改善

利用企業におけるクラウドインフラの構造的な弱点を補填し、今後同様の障害においてもサービス継続性を確保するためには、以下のような対応策およびアーキテクチャ改善が有効です。

依存関係の可視化と依存マップ作成

まず、自社が利用するクラウドサービスおよびその構成要素（例：認証、データストア、DNS、メタデータ管理、バックアップなど）が、どのリージョン・どのコントロールプレーンに依存しているかを明らかにする必要があります。分析によれば、今回の障害では「113 以上の AWS サービスが連鎖的に影響を受けた」ことが報告されています。

依存マップを定期的に更新・レビューし、自社システムが“単一リージョン”“単一コントロールプレーン”に過度に依存していないかを可視化します。

マルチリージョン／マルチクラウド戦略の検討

単一リージョンに構成を依存する設計では、今回のようなリージョンレベルの障害時に致命的な影響を受けることが明らかになっています。

このため、クリティカルなワークロードに対しては以下のような構成を検討します：

アクティブ-パッシブ型マルチリージョン：普段はプライマリリージョンで稼働し、セカンダリリージョンをウォームスタンバイとしておく。障害時にはフェイルオーバー。コストと複雑性のバランスを取りやすい。
アクティブ-アクティブ型マルチリージョン：複数リージョンで同時に稼働し、リアルタイムまたはほぼリアルタイムでデータ同期を行い、地域別トラフィック分散を実現する。構築・維持のコストは高いが、耐障害性も高まる。
マルチクラウド併用：複数クラウドプロバイダを併用し、プロバイダ側の障害リスクを分散する。今回の障害ではクラウド事業者自体が“単一点障害”になる可能性が再認識されました。

これらの戦略を採用する際には、必ず「データ同期ポリシー」「リージョン間遅延」「コスト」「運用体制」「フェイルオーバー自動化」の検討が不可欠です。

縮退運転（グレースフルディグラデーション）設計

サービス全停止を防ぐため、機能を限定してでも運転を継続可能にする設計が重要です。具体的には：

障害時には「読み取り専用モード」や「キャッシュ応答モード」に切り替えられるように、主要機能・補助機能を分離しておく。
外部データストアにアクセス不能になった際のフォールバックとして、キューイング（SQS、Kafka）、バッファ処理、ローカルリトライ機構を準備する。分析記事では「サービスは起動できているがバックログが大量に残っていた」ことが障害後の復旧遅延要因とされています。
フェイルオーバーや縮退運転自動化のために、管理コンソール／API／クラウド制御プレーンへの依存を最小限にする「静的安定性（static stability）」の設計指針も紹介されています。

外形監視・可観測性の強化

クラウドベンダー提供の制御ログやコンソールでは気づきにくい障害が、今回のような制御プレーン障害では致命的になります。対策として：

エンドユーザー視点の外形監視（SaaS可用性、API応答時間、DNSレコード監視）を導入し、クラウド内部・外部双方から障害の早期検知を可能にする。
DNSレコードの整合性・TTL変化・ブラックホール化を監視対象に加え、「名前解決不能」という一次障害を早期に察知できるようにする。
定期的に障害シミュレーション（チャオスエンジニアリング、GameDay演習）を実施し、監視や復旧プロセスが設計通り機能するかを試験する。

契約・ガバナンス・運用体制の見直し

クラウドベンダーとの契約（SLA／可用性保証）だけに頼るのではなく、「ベンダー障害時の利用者責任（ユーザー側で何を維持すべきか）」を明文化する。
定期的なレビューと復旧訓練を運用プロセスに組み込み、障害時の役割・フロー・ツールを明確にしておく。今回の障害では「フェイルオーバー手続きが、障害時にアクセスできない API に依存していた」ことが遅延要因と報告されています。
コスト／効率最適化とリスク許容度のバランスを見直し、単純なコスト削減よりも「レジリエンス維持」の視点を評価軸に加える。

以上の各対応策を戦略的に実装することで、クラウド集中がもたらすレジリエンス低下の構造的な課題に対処可能になります。特に、今回の事例が示した「インフラの目立たない依存」「リージョン／プロバイダの集中」「制御プレーン故障の影響」は、設計・運用双方において “想定しておくべき” 現実であると肝に銘じておくべきです。

おわりに

2025年10月に発生した Amazon Web Services の us-east-1 リージョンにおける大規模障害は、クラウドインフラが持つ効率性とスケーラビリティという利点のみならず、「集中による脆弱性」という構造的なリスクを露呈しました。ポストモーテム分析からは、DNS管理の自動化不備、共通バックエンドの依存集中、単一リージョンへの過度な集約、監視・可視性の不十分さ、縮退運転設計の欠如といった問題点が指摘されています。

本稿では、これらの指摘を起点に技術的な観点からの設計／運用課題と、利用企業が直面する構造的なリスク、そして実践すべきアーキテクチャ改善策を整理しました。クラウド利用はもはや選択肢ではなく、社会基盤としての性格を帯びており、その分だけ「集中しすぎることの代償」に私たちは向き合う必要があります。

今後、クラウドを活用する組織は「選択と集中」のメリットを維持しつつ、同時に「依存の見える化」「冗長設計」「フォールバック計画」「可観測性の確保」というレジリエンス強化の観点を構築しなければなりません。今回の障害をきっかけに、クラウドインフラに対するガバナンスと設計哲学を再構築することは、技術者・アーキテクト・経営層すべてにとって不可避の課題です。

クラウドが提供する先進性を活かしながらも、脆弱性を放置せず、構造的な強靭性を備えたインフラ設計と運用を目指すことこそが、未来の安定運用を支える鍵になると確信します。

参考文献

Race Condition in DynamoDB DNS System: Analyzing the AWS US-EAST-1 Outage
https://www.infoq.com/news/2025/11/aws-dynamodb-outage-postmortem/
AWS Outage Analysis: October 20, 2025
https://www.thousandeyes.com/blog/aws-outage-analysis-october-20-2025
AWS US-EAST-1 DNS & DynamoDB Outage (Oct 20, 2025): Root Cause, Lessons and the Future of Cloud Resilience
https://medium.com/@ismailkovvuru/aws-us-east-1-dns-dynamodb-outage-oct-20-2025-root-cause-lessons-and-the-future-of-cloud-47bd1848a0c8
AWS Outage, What Happened And How To Prepare With Integrated Risk Management
https://www.wheelhouseadvisors.com/risktech-journal/aws-outage-what-happened-and-how-to-prepare-with-integrated-risk-management
AWS Outage — October 20, 2025: A Case Study in Cloud Fragility and Global Impact
https://aws.plainenglish.io/aws-outage-october-20-2025-a-case-study-in-cloud-fragility-and-global-impact-ded4ce6bc4f8
What caused Amazon Web Services to go down? A Northeastern expert explains
https://news.northeastern.edu/2025/10/20/aws-outage-cause/
When the Cloud’s Backbone Falters: Why Digital Resilience Demands More Than Redundancy
https://blogs.cisco.com/networking/when-the-clouds-backbone-falters-why-digital-resilience-demands-more-than-redundancy

事業継続計画（BCP）とは何か ― 意義・策定プロセス・国際標準の全体像

近年、地震や台風などの自然災害、感染症の世界的流行、さらにはサイバー攻撃や大規模な通信障害など、企業活動を脅かすリスクが多様化・複雑化しています。こうした中で、事業を中断させずに継続するための体制を整備することは、もはや一部の大企業だけでなく、あらゆる組織にとって経営上の必須要件となっています。

このような背景のもと注目されているのが、BCP（Business Continuity Plan：事業継続計画）です。BCPは、災害やシステム障害などの非常事態が発生した際に、重要な業務をいかに維持または迅速に復旧させるかを定めた計画のことを指します。単なる危機対応マニュアルではなく、企業の存続と社会的責任を果たすための包括的な仕組みとして位置づけられています。

日本では、2000年代初頭から政府が企業のBCP策定を推進しており、内閣府が2005年に公表した「事業継続ガイドライン」によってその重要性が広く認識されるようになりました。また、国際的にはISO 22301に代表される事業継続マネジメントシステム（BCMS）の規格が整備され、グローバルなサプライチェーンの中で、取引条件としてBCPの有無を問われるケースも増えています。

本記事では、BCPの基本概念から策定プロセス、関連する主要用語、そして国際的な標準や実践のポイントまでを体系的に解説します。BCPを理解し、実効性ある計画を構築することは、企業のレジリエンス（耐性）を高め、予期せぬ危機にも揺るがない経営基盤を築く第一歩となります。

BCPとは何か

BCP（事業継続計画）の定義

BCP（Business Continuity Plan：事業継続計画）とは、地震・台風・火災などの自然災害や、感染症の流行、テロ攻撃、システム障害、サイバー攻撃など、企業活動を中断させる可能性のある緊急事態に備え、重要な業務を継続または早期に復旧させるための計画を指します。
BCPの目的は、被害を最小限に抑えつつ、顧客・取引先・従業員・社会に対して責任ある対応を行うことにあります。単に災害発生後の「復旧マニュアル」ではなく、危機が発生しても中核業務を維持できる経営の仕組みとして位置づけられています。

BCPが注目される背景

BCPの重要性が広く認識されるようになったのは、2000年代以降の大規模災害や社会的混乱が契機となっています。
特に、2004年の新潟県中越地震、2011年の東日本大震災、2020年以降の新型コロナウイルス感染症の世界的拡大などが、企業活動に深刻な影響を与えました。これらの出来事を通じて、多くの企業が「通常業務を前提とした経営体制の脆弱さ」を痛感しました。

また、グローバル化とサプライチェーンの複雑化に伴い、一社の事業停止が取引先や顧客、さらには国際市場全体に影響を及ぼすケースも増えています。そのため、取引先選定や調達契約においてBCPが条件とされることも一般的になりつつあります。政府や自治体もこれを重要な経済安全保障の一環として捉え、内閣府や中小企業庁が策定支援を行っています。

BCPの目的と基本原則

BCPの最終目的は「企業活動の継続と早期復旧」にあります。そのために、計画策定では次の3つの原則が重視されます。

人命の安全確保
従業員や顧客など、関係者の生命を守ることを最優先とします。避難誘導・安否確認・医療連携などの体制を整備することが基本です。
重要業務の維持または早期再開
売上や信用の維持に直結する業務を特定し、それを停止させない、または停止しても短期間で復旧できる仕組みを構築します。
社会的責任と信頼の維持
顧客や取引先への供給責任を果たし、企業としての社会的信用を守ることが求められます。

これらを実現するためには、業務継続に必要な資源（人・情報・設備・システム・サプライヤーなど）をあらかじめ洗い出し、リスク分析と影響評価を通じて、優先順位を明確にしておくことが重要です。

BCPの位置づけ

BCPは、危機管理計画（Crisis Management Plan）と混同されることがありますが、両者の目的は異なります。危機管理計画が「事故や災害発生直後の対応（被害抑制・救助・情報発信）」に重点を置くのに対し、BCPは「業務の維持と復旧」という事後の経営継続プロセスに焦点を当てています。

また、BCPは単独の文書ではなく、組織全体の運用体制として継続的に改善されるべき仕組みです。その運用を包括的に管理する枠組みがBCM（Business Continuity Management：事業継続マネジメント）であり、次章以降ではその具体的な構成や手順について解説します。

BCP策定のプロセス

BCP（事業継続計画）は、単なる文書の作成ではなく、組織全体が一体となって「いかに事業を止めないか」「止まってもどう早く立ち上げるか」を設計するプロセスです。計画策定には体系的な手順が求められ、通常は「分析」「設計」「体制整備」「訓練・改善」の流れで進められます。本章では、代表的な策定プロセスを段階的に解説します。

1. リスク分析と影響評価（BIA：Business Impact Analysis）

最初の工程は、リスク分析と影響評価（BIA）です。
ここでは、組織が直面し得る脅威を特定し、それが各業務にどの程度の影響を及ぼすかを定量的に把握します。想定するリスクには、地震・洪水・感染症・火災・停電・サイバー攻撃など、物理的・人的・技術的な要因が含まれます。

BIAの目的は、業務停止による財務的損失、顧客への影響、社会的信用の低下などを評価し、「どの業務をどの順序で復旧すべきか」を明確にすることにあります。この分析により、復旧時間目標（RTO：Recovery Time Objective）や許容できるデータ損失時間（RPO：Recovery Point Objective）を設定する基礎が整います。

2. 重要業務の特定と優先順位付け

BIAの結果をもとに、事業の継続に不可欠な「重要業務（Critical Business Functions）」を特定します。
すべての業務を同時に復旧することは現実的ではないため、経営上の影響度・依存関係・顧客要求などの観点から優先順位を明確にします。

重要業務を決定する際には、以下のような判断基準が用いられます。

売上や社会的信頼に直結する業務か
他部門や取引先に影響を与える業務か
短期間の停止でも致命的な損失を生む業務か

この優先順位づけにより、限られた資源を効率的に配分できる復旧計画を策定することが可能になります。

3. 代替手段・復旧手段の設計

次に、重要業務を支える資源（人員・設備・情報・システム・サプライヤーなど）が利用できなくなった場合に備え、代替手段（Alternative Measures）を設計します。

たとえば、以下のような手法が一般的です。

代替拠点の確保：災害時に使用可能なサテライトオフィスや他地域のデータセンターを事前に契約。
システム冗長化：クラウドバックアップ、デュアルサイト構成、遠隔地レプリケーションなど。
業務委託や協定：他社・関連団体との相互支援協定、外部委託による代替実施体制。
人員代替：複数担当制や手順書整備による属人化防止。

これらの設計段階では、コスト・実現可能性・復旧速度のバランスを検討することが重要です。

4. 指揮命令系統・連絡体制の整備

緊急時には、通常の組織体制では機能しない場合があります。そのため、緊急時指揮命令系統（Emergency Chain of Command）を定めておく必要があります。
経営層・BCP責任者・現場リーダーの役割を明確にし、代行順位や意思決定手順をあらかじめ文書化します。

加えて、連絡体制の整備も不可欠です。連絡手段が一つに依存していると機能不全を起こすため、電話・メール・チャット・安否確認システムなど複数チャネルを組み合わせた多層構造にしておくことが推奨されます。
また、初動対応の時間的猶予が短いため、通報・連絡・指示の標準手順（SOP）を平時から訓練しておくことが望ましいです。

5. 教育・訓練・定期的見直し

策定したBCPは、一度作って終わりではなく、継続的に改善されるべき「生きた計画」です。
組織の人員構成、業務プロセス、IT環境、外部環境（災害リスク・法制度など）は常に変化するため、定期的な教育・訓練と見直しが必要です。

教育の目的は、従業員が自らの役割と対応手順を正しく理解することにあります。訓練には次のような形式があります。

テーブルトップ演習：シナリオを用いて机上で対応を検討する。
実動訓練：避難・連絡・復旧作業を実際に行う。
システム復旧テスト：バックアップからの復旧検証を定期的に実施する。

さらに、訓練結果や実際の災害対応で得られた教訓を反映し、PDCAサイクル（Plan–Do–Check–Act）に基づいて継続的改善を行うことが、BCPの実効性を維持する上で極めて重要です。

このように、BCPの策定プロセスは単なる文書化作業ではなく、組織の全階層を巻き込んだ経営プロセスです。次章では、この計画を支える関連概念や指標について体系的に整理します。

BCPに関連する主要用語

BCP（事業継続計画）は、単独で機能する仕組みではなく、複数の関連概念や管理手法と密接に結びついています。本章では、BCPを理解・運用するうえで重要となる主要用語を整理し、その相互関係を明確にします。

BCM（Business Continuity Management：事業継続マネジメント）

BCMとは、BCPを策定・実行・改善するための包括的な管理プロセスを指します。BCPが「計画書」であるのに対し、BCMは「その計画を運用し、継続的に改善する仕組み」です。
ISO 22301では、BCMを「組織のレジリエンスを高め、混乱事象が発生しても重要業務を維持する能力を確保するためのマネジメントシステム」と定義しています。

BCMの特徴は、BCPを一時的な文書ではなく組織文化の一部として定着させる点にあります。定期的な教育・訓練、監査、経営層のレビューなどを通じて、継続的改善（PDCAサイクル）を実現します。

DR（Disaster Recovery：災害復旧）

DRとは、ITシステムやデータなど、情報資産の復旧に焦点を当てた計画を意味します。特にサーバ、ネットワーク、クラウド環境などの障害に対して、業務システムを迅速に再稼働させることを目的としています。

DRはBCPの一部として位置づけられますが、範囲はIT領域に限定されます。たとえば、データセンターのバックアップ拠点、遠隔地レプリケーション、クラウドフェイルオーバー、バックアップ検証テストなどが代表的な対策です。
BCPが「業務の継続」を目的とするのに対し、DRは「システムの復旧」を技術的に支える存在です。

RTO（Recovery Time Objective：目標復旧時間）

RTOとは、業務やシステムを停止した際に、許容される最大停止時間を示す指標です。たとえば、RTOを「4時間」と設定した場合、その業務は障害発生から4時間以内に復旧できなければ、重大な損害が発生すると判断されます。

RTOは、業務の重要度と顧客要求に基づいて設定され、システム設計や代替手段の投資規模を決定する重要な指針となります。一般的に、RTOが短いほど高い冗長性やコストが必要になります。

RPO（Recovery Point Objective：目標復旧時点）

RPOは、データ損失をどこまで許容できるかを表す指標で、「どの時点までのデータを復旧すべきか」を示します。たとえばRPOを「1時間」と設定した場合、障害発生前1時間以内のデータが保持されていれば許容範囲とみなされます。

バックアップ頻度、レプリケーション間隔、クラウド同期方式などを決定する際の重要な基準となり、特に金融・製造・ECなど、リアルタイム性が要求される業種では厳密に管理されます。
RTOとRPOはセットで定義されることが多く、BCP／DR計画の核心を構成します。

BIA（Business Impact Analysis：業務影響分析）

BIAは、前章でも触れたとおり、各業務が停止した場合に生じる影響を定量的に分析する手法です。財務的損失、顧客離脱、法令違反、ブランド毀損などの観点から影響度を評価し、復旧優先順位を設定します。

BIAはBCP策定の出発点であり、RTO・RPOの設定や資源配分の根拠となります。多くの組織では、年1回程度のBIA見直しを実施し、経営環境やリスクの変化に対応しています。

SLA（Service Level Agreement：サービスレベル合意書）との関係

SLAは、サービス提供者と利用者の間で取り決める提供品質の水準（可用性、応答時間、復旧時間など）を明文化した契約です。
BCPやDRの観点では、SLAにRTOやRPOを明確に定義することが、事業継続性の保証に直結します。

特にクラウドサービスや外部委託先を利用する場合、SLAの内容によって復旧可能性が大きく左右されます。そのため、SLAはBCPの実効性を裏付ける契約上の担保として不可欠です。

レジリエンス（Resilience：復元力・耐性）

レジリエンスとは、組織が外部のショックを受けても柔軟に適応し、元の状態またはより強固な形で回復できる能力を指します。
BCPやBCMの究極の目的は、このレジリエンスを高めることにあります。単なる「危機対応」ではなく、変化に強い経営体質を作ることが、持続可能な事業運営の鍵となります。

以上のように、BCPは単体で完結するものではなく、BCMを中心に、BIA・RTO・RPO・DR・SLAなどの概念が密接に連動して成立しています。これらを理解することで、計画の策定から実行、改善に至る一連のプロセスを体系的に把握することが可能になります。次章では、こうした概念を実際に運用するための評価と維持の方法について解説します。

BCPの運用と評価

BCP（事業継続計画）は、策定しただけでは実効性を持ちません。計画を組織全体で運用し、定期的に評価・改善を行うことで、初めて現実的に機能する仕組みとなります。本章では、BCPの運用段階における実施方法と、評価・改善の考え方を解説します。

訓練・模擬演習の実施

BCPを有効に機能させるためには、平時から訓練を繰り返すことが不可欠です。訓練は、緊急時に想定される行動を事前に確認し、組織としての初動対応力を高めることを目的とします。

訓練の形式は主に以下の3種類に分類されます。

机上訓練（テーブルトップ演習）
災害や障害のシナリオを用い、関係者が会議形式で対応手順を確認する方法です。手軽に実施でき、意思決定フローや連絡体制の確認に適しています。
実動訓練（フィールド演習）
実際に避難・通信・復旧作業を行う訓練であり、現場対応能力の検証に有効です。特にデータ復旧や代替拠点への切替など、物理的な動作確認を伴う場合に実施されます。
包括的演習（総合訓練）
全社的に複数部門が連携して実施する訓練で、指揮命令系統や複数のシナリオを同時に検証します。防災訓練やサイバーセキュリティ演習などと統合して行うケースもあります。

訓練後は、問題点や改善事項を文書化し、次回の計画改訂に反映させることが重要です。訓練は最低でも年1回、重要部門では半年に1回の実施が望ましいとされています（内閣府「事業継続ガイドライン」より）。また、金融業など高リスク業種では四半期ごとの訓練が事実上義務化されています（金融庁監督指針）。

評価指標と改善プロセス

BCPの有効性を維持するには、定量的・定性的な評価を継続的に行う必要があります。評価では、次のような観点が用いられます。

対応時間の妥当性：RTO（目標復旧時間）内に業務を再開できたか。
手順の適切性：緊急連絡、意思決定、代替手段の運用が実際に機能したか。
資源の有効性：必要な人員・物資・システムが確保されていたか。
連携体制の信頼性：社内外の関係者との情報共有が円滑に行われたか。

これらの評価を踏まえ、改善活動はPDCAサイクル（Plan–Do–Check–Act）に基づいて行われます。

Plan（計画）：BCPの改訂や改善方針を策定。
Do（実行）：訓練や実際の対応で計画を実施。
Check（評価）：成果や課題を分析し、指標で効果を測定。
Act（改善）：分析結果を反映し、計画を更新。

このサイクルを定常的に回すことで、BCPは環境変化に適応し続ける「動的な管理体制」となります。

サプライチェーンBCPの重要性

現代の企業活動は、単独では完結せず、調達・製造・物流・販売といったサプライチェーン全体で成り立っています。そのため、一社の事業停止が他社の業務にも波及する「連鎖リスク」が顕在化しています。

このリスクに対応するため、企業単位ではなくサプライチェーン全体での事業継続性（連携型BCP）が注目されています。具体的には、以下のような取り組みが行われています。

取引先との間で災害時の供給継続計画や代替ルートを事前に協議する。
調達先のBCP実施状況をアンケートや監査で確認する。
重要な部品や原材料を複数のサプライヤーから調達する「多重調達化」。
デジタルツインやサプライチェーン・マッピングによるリスク可視化。

政府もこの動きを支援しており、経済産業省は「サプライチェーン強靱化ガイドライン（2021年）」で、企業連携型のBCP策定を推奨しています。こうした取り組みは、単なる防災対策にとどまらず、企業間の信頼性を高める要素にもなっています。しかし、2023年度中小企業庁調査では、BCP策定率は大企業92％に対し中小企業は35％となっており、中小企業については浸透途上という現状も浮き彫りになっています。

第三者評価と認証制度

BCPやBCMの成熟度を客観的に評価するため、第三者認証制度を導入する企業も増えています。代表的なものに、ISO 22301（事業継続マネジメントシステム）があります。この国際規格は、BCPの構築から運用、レビュー、改善に至るプロセスを体系的に規定しており、認証取得は取引上の信頼向上や入札要件にも直結します。

また、日本国内では中小企業庁による「事業継続力強化計画」認定制度もあり、防災・減災対策や継続計画を策定した中小企業を公的に支援する仕組みが整っています。

継続的な見直しと経営層の関与

BCPの実効性を左右する最大の要因は、経営層のコミットメントです。BCPは現場任せではなく、経営戦略の一部として位置づけられるべきものです。経営層が明確な方針を示し、リスクに対する投資判断を主導することで、組織全体の意識と行動が統一されます。

さらに、BCPは一度策定したら終わりではなく、組織構造・事業内容・外部環境の変化に応じて継続的に更新する必要があります。最低でも年1回のレビューを行い、最新のリスクやシナリオに対応できる状態を保つことが推奨されます。

このように、BCPの運用と評価は、計画の維持管理だけでなく、組織文化や経営方針にまで踏み込む継続的な活動です。次章では、これらの実践を支える国際規格および国内ガイドラインについて詳しく解説します。

BCPの国際規格とガイドライン

BCP（事業継続計画）の有効性を高めるためには、体系的な枠組みに基づいた運用が不可欠です。各国では、企業や行政機関が共通の基準で事業継続を管理できるよう、複数の国際規格や政府ガイドラインが整備されています。本章では、代表的な国際標準および日本国内の指針を中心に解説します。

ISO 22301：事業継続マネジメントシステム（BCMS）の国際標準

ISO 22301（Security and resilience — Business continuity management systems — Requirements）は、国際標準化機構（ISO）が2012年に制定した、事業継続マネジメントシステム（BCMS）の国際規格です。最新版は2019年改訂版（ISO 22301:2019）であり、世界中の企業や公共機関が採用しています。

ISO 22301は、単なるBCPの作成方法ではなく組織全体で事業継続を管理する仕組み（マネジメントシステム）を定義しています。主な要求事項は以下のとおりです。

組織の状況把握：事業環境、利害関係者、法的要件の明確化。
リーダーシップ：経営層による方針策定と責任の明確化。
計画策定：リスク評価・影響分析・復旧目標設定。
運用：訓練、文書管理、緊急対応手順の整備。
評価と改善：内部監査、経営レビュー、継続的改善。

ISO 22301の特徴は、「PDCAサイクル（Plan–Do–Check–Act）」に基づく継続的改善を求めている点にあります。
この規格に基づく認証を取得することで、組織は国際的に認められた事業継続能力を対外的に証明でき、サプライチェーンの信頼性向上や入札要件への適合にもつながります。

内閣府「事業継続ガイドライン」

日本では、内閣府が2005年に公表した「事業継続ガイドライン（Business Continuity Guidelines）」が、企業のBCP策定の基礎指針として広く活用されています。最新版は2022年版（第5版）であり、国内企業の災害対応能力の強化を目的としています。

このガイドラインは、ISO 22301の原則を踏まえつつ、日本の災害特性や企業規模を考慮した実務的内容が特徴です。主な構成要素は次のとおりです。

事業継続の基本理念と目的
BCP策定のステップ（リスク分析、BIA、対策、教育・訓練）
中小企業・自治体への実践的アプローチ
災害時の官民連携体制の重要性

特に、中小企業のBCP支援を目的とした「簡易BCP策定テンプレート」や「地域連携型BCP」も提示されており、各業種の実情に応じた柔軟な活用が可能です。

NIST SP 800-34 Rev.1：米国連邦政府のIT復旧指針

NIST SP 800-34 Revision 1（Contingency Planning Guide for Federal Information Systems）は、アメリカ国立標準技術研究所（NIST）が2010年に改訂した、情報システムにおける事業継続と災害復旧のための指針です。主に政府機関向けの文書ですが、民間企業のDR（Disaster Recovery）やIT-BCPにも広く参考にされています。

このガイドラインでは、情報資産の保全を中心に、以下の要素が体系的に示されています。

システムの重要度に応じた復旧戦略の策定。
バックアップ、代替システム、冗長化の実装方法。
インシデント対応、連絡、復旧後のレビュー手順。

NIST文書の特徴は、リスク評価と技術的対策の明確な対応関係を定義している点にあります。クラウド利用やゼロトラストアーキテクチャを前提とした設計にも適用しやすく、IT部門におけるBCP策定の標準的な参照資料となっています。

その他の主要基準と国内制度

BCPに関連する国際・国内の標準化動向として、以下の基準や制度も整備されています。

ISO 22313：ISO 22301の運用ガイドライン。具体的な実施手順を補足。
ISO/TS 22317：BIA（業務影響分析）に特化した技術仕様書。
ISO/TS 22318：サプライチェーン継続性マネジメントに関するガイドライン。
中小企業庁「事業継続力強化計画」認定制度（2019年開始）：
中小企業が策定した防災・減災・BCP計画を国が認定し、金融支援や補助金優遇を受けられる制度。

これらの基準は相互に補完関係にあり、ISO規格で基礎的な枠組みを学び、国内ガイドラインで実務に落とし込む構成が効果的です。

国際標準化の潮流と今後の展望

事業継続の概念は、単なる防災対策から「社会的レジリエンス（resilience）」へと拡大しています。ISOはBCP関連の規格群を「Security and Resilienceシリーズ（ISO 22300ファミリー）」として体系化しており、今後はサイバーセキュリティ、サプライチェーン、パンデミック対応などを含む統合的リスクマネジメントへと進化が見込まれます。

また、ESG（環境・社会・ガバナンス）経営やSDGsの観点からも、BCPの整備は企業の社会的信頼性や持続可能性評価の一要素として注目されています。今後、BCPの整備・運用は「危機対応」だけでなく、「経営品質の指標」としての重要性をさらに増すと考えられます。

以上のように、BCPは国際的に共通の枠組みのもとで標準化が進んでおり、日本国内でもその整備が着実に進展しています。これらの規格やガイドラインを活用することで、企業は自社の特性に合った効果的な事業継続体制を構築し、社会全体の安定性向上に寄与することが可能となります。

おわりに

BCP（事業継続計画）は、もはや一部の大企業だけの取り組みではなく、あらゆる組織に求められる経営基盤の一部となっています。自然災害や感染症、サイバー攻撃、インフラ障害など、企業活動を脅かすリスクは年々多様化しており、想定外の事象が発生する確率は確実に高まっています。そのような状況下で、「止まらない組織」ではなく「すぐに立ち上がれる組織」をつくることこそが、現代の事業継続における核心です。

BCPの策定・運用は単なる危機管理ではなく、経営戦略の一部として位置づけるべきものです。平時からリスクを分析し、復旧体制を整え、訓練や見直しを繰り返すことにより、企業は不確実な環境下でも柔軟に対応できる体制を確立できます。こうした取り組みは、単に災害対応力を高めるだけでなく、取引先や顧客からの信頼、従業員の安心感、そして企業の社会的信用を支える基盤となります。

また、国際的にはISO 22301などの標準化が進み、国内でも内閣府や中小企業庁による支援制度が整備されています。これらの枠組みを活用し、自社の規模や業種に応じたBCPを段階的に整備していくことが、実効性のある事業継続体制の構築につながります。

今後の社会では、BCPの整備は単なる「リスク回避」ではなく、「組織の持続可能性（サステナビリティ）」を担保する取り組みとして位置づけられるでしょう。危機はいつか必ず訪れます。そのときに備え、BCPを経営の一部として不断に更新し続ける姿勢こそが、真に強い組織をつくる最も確実な道と言えます。

参考文献

ISO 22301:2019 – Security and resilience — Business continuity management systems — Requirements
https://www.iso.org/standard/75106.html
NIST Special Publication 800-34 Revision 1: Contingency Planning Guide for Federal Information Systems
https://nvlpubs.nist.gov/nistpubs/legacy/sp/nistspecialpublication800-34r1.pdf
“What are the ISO 22301 Requirements?” – Schellman blog
https://www.schellman.com/blog/iso-certifications/what-are-the-iso-22301-requirements
“A Guide to ISO 22301: Business Continuity Management Systems” – UpGuard blog
https://www.upguard.com/blog/iso-22301-guide
ISO 22301 (Business Continuity) Checklist – NQA
https://www.nqa.com/medialibraries/NQA/NQA-Media-Library/PDFs/NQA-ISO-22301-Business-Continuity-Checklist.pdf

Microsoft Azureで大規模障害発生 ― Microsoft 365やXboxにも影響、原因は構成変更ミス

日本時間2025年10月30日午前1時頃からMicrosoft Azureで大規模な障害が発生しました。これにより、Microsoft Azure、Microsoft 365、Minecraft、XboxなどのMicrosoftが提供する製品やサービスだけでなく、Starbucks、costco、Krogerといった大手企業のシステムにも波及しました。

Microsoftの発表によると、「Azure Front Door（AFD）における誤った構成変更（inadvertent configuration change）」が原因とのことで、この設定変更が DNS ルーティングに影響を与え、Azure Portal や関連サービスにアクセス不能状態を引き起こしたものと見られています。

発生から対応までを時系列に並べると以下のようになります。

2025年10月30日午前1時頃（日本時間）
障害発生を確認
2025年10月30日 04:19（日本時間）
「last known good configuration（直前の正常構成）」のデプロイが完了し、ノード復旧を開始し、「今後4時間以内に完全復旧を見込む」と告知
2025年10月30日 08:20（日本時間）
Azure側が「recovery to happen by 23:20 UTC（＝8:20 JSTまでに復旧見込み）」と明記
2025年10月30日 09:40（日本時間）
最終更新で「AFDサービスが98%以上の可用性を回復し、完全復旧を9:40 JSTに見込む」と発表

日本では、発生した時間自体は深夜ですが、回復に午前9時過ぎまでかかったため、朝一でメールを受信しようとしたらメールが受信できないなどの影響を受けた方もいたかと思います。

クラウド障害のインパクトの大きさ

先日のAWSの障害もDNSに起因するものでした。

AWSで大規模障害 ― マルチAZ構成でも防げなかった理由と今後の対策

DNSで障害が起きるとネットワークを前提としたシステムは非常に脆いことがわかります。加えて、クラウドベンダーが提供して責任を持つ部分であるため、DNSで障害が起きると複数のサービスに影響がおよび、それらのサービスを使用している複数の企業が影響を受けます。

この点については、各企業ごとに対策することが難しい場合が多いです。クラウド上でシステムを運用しているならマルチクラウドという選択肢はあるにはあります。ただし、コストとトレードオフになるため、事業規模によっては選択肢できない場合もあります。

また、IaaSではなくPaaSサービスを利用している場合はそういった選択肢も難しい場合があります。例えば、Microsoft 365で障害が起きた場合、他のベンダーでメールサービスを継続するということは不可能です。インフラを管理しないことに対するトレードオフでもあるので、どうしても障害を起こしたくないのであればインフラを管理する必要がありますが、クラウドベンダー並の可用性を実現できる企業は数えるほどしかないでしょう。

もう一つはこれが誤設定によるものであるという点です。過去に発生した大規模障害においても、誤った設定を適用した場合や操作ミスといった単純ミスによるものであったことがありました。これはMicrosoft Azureに限ったものではなく、他のクラウドベンダーでも起きています。

具体的な内容については公表されていないので想像になりますが、本当にただの凡ミスだったかもしれません。もしかすると、想定していなかった挙動だったのかもしれません。いずれにせよ、本当のところはわからないので一方的に「テストをしていないのではないか」と断ずるのは総計です。実際、DNS周りは想定しない挙動をする場合があるので、本番同等の環境を用意するのは現実的ではないため、テスト環境では問題ないことを確認した上で適用したが、予想しない挙動を示していたのかもしれません。

おわりに

以前のAWSの障害、今回のAzureの障害から言えるのは、

代替の選択肢を持つこと
バックアップを3-2-1ルール取得し、復元できることを定期的に確認しておくこと

が重要であるということです。

代替の選択肢を持つというのは、メールの例で言えばメールが唯一の連絡手段になってしまうとメールが使用できなくなったときに業務が完全にとまってしまうので、それ以外の手段を持っておくというです。メールの例でいえば、電話やチャットなど複数の手段があるのが普通だと思いますのでそれほど問題ありません。しかし、空港での搭乗手続きが完全に電子化され、手動での搭乗手続きの手段が失われていたらどうでしょうか？ゲート搭乗機に障害が発生すると運休せざるを得なくなってしまいます。そういった意味では電子化は優れた選択肢である一方でそこに障害が発生したときに、人間の手による代替ができるようになっていることが重要です。

前述の話は機能に障害が発生した場合ですが、データにアクセスできなくなる場合やロストする場合について対策が必要です。古典的な手段ではありますが、現代でも有効な3-2-1ルールに則って、3つのデータコピーを保持し、2種類の異なるメディアに保存し、そのうち1つをオフサイト（地理的に離れた場所）に保管することは非常に有効です。

ただし、いくらバックアップが無事だといってもそこから復元できなければ意味がありません。バックアップを用意していても、いざ復元しようとしたら戻せなかったということは今に始まった話ではなく昔からずっと起きている話です。古くはテープにバックアップしたけどそこから復元できなかったなどということはよくある話ですし、2020年にはバックアップに不備があり障害が起きたときにバックアップから復元できずに売買停止が起きたこともありました。

避難訓練と同じで、災害発生時のマニュアル確認のための訓練やバックアップから復元できるかのリハーサルは義務付けられているものを除くと行っていないケースが多いように思います。日常的にテスト環境を構築するのにバックアップを使っているという場合であればバックアップ自体は使用可能だt思いますが、高度に自動化されている場合は手動でもできるのかといった点や3-2-1ルールに則ってバックアップが完全に失われないかなどを見直すことも重要です。

「愚者は経験に学び、賢者は歴史に学ぶ」とはよく言ったもので、こういった他社の事例からもしっかりと教訓を得ることは重要です。

参考文献

Microsoft down? Services recover after major outage hits Azure, 365 and more – and even Minecraft and Xbox were affected
https://www.techradar.com/pro/live/microsoft-down-major-outage-hits-azure-365-and-more-even-minecraft-affected
Microsoft 365 Status – X.com
https://x.com/MSFT365Status