6月21日15時半頃から1時間近くに渡り発生し、数百もの多くのオンランプラットフォームやサービスに影響を与えたCloudflareの大規模障害は、ネットワークの復元力を高めるための変更が原因であったという。
Cloudflare : Cloudflare outage on June 21, 2022
Cloudflareによると、同社は過去18か月にわたって最も負荷の高い拠点のすべてにおいて、新しいアーキテクチャを採用し、より柔軟で復元力を高める施策を実施してきたとのこと。
この新しいアーキテクチャは、Multi-Colo PoP(MCP)と呼ばれる、Closネットワークの一つで、接続のメッシュを作り出す新たなルーティングレイヤーを追加するものとのことだ。このメッシュにより、データセンターの内部ネットワークの一部を簡単に無効化したり有効化する事が出来るようになり、メンテナンスや問題への対処を行う事が容易になる。
新しいアーキテクチャの採用により、信頼性が大幅に向上し、ユーザーのトラフィックを中断させることなく、メンテナンスを行うことができるようになった。これらの拠点はCloudflareのトラフィックの大部分を担っているため、ここで問題が発生すると非常に広い範囲に影響を及ぼす可能性があるが、今回発生した障害は、まさにその懸念されていたことが現実になってしまったようだ。
今回の障害で影響を受けたデータセンターは、アムステルダム、アトランタ、アシュバーン、シカゴ、フランクフルト、ロンドン、ロサンゼルス、マドリッド、マンチェスター、マイアミ、ミラノ、ムンバイ、ニューアーク、大阪、サンパウロ、サンノゼ、シンガポール、シドニー、東京とのこと。
これらの拠点におけるネットワーク設定の変更により、15:27(日本時間)に障害が発生した。15:58(日本時間)に最初のデータセンターがオンラインになり、16:42(日本時間)にはすべてのデータセンターがオンラインになって正常に動作するようになったという。
影響を受ける地域としてはCloudflareネットワーク全体の4%に過ぎないが、これらの停止によってCloudflareがグローバルに処理する全てのHTTPリクエストの約50%に影響を与えることとなった。
影響を受けたWebサイトは多岐にわたる。判明している分としては以下となる。
- 2K Games
- League of Legends
- マインクラフト
- Steam
- Amazon Web Services
- Discord
- DoorDash
- Gitlab
- Shopify
- Skype
- UPS
- DigitalOcean
- Udemy
- Coinbase
- Valorant
- Crunchyroll
- Patreon
- Legends of Runeterra
- Americas Cardroom
- eToro
- Betfair
- ニンテンドーオンライン
- 原神
Cloudflareはサービスの可用性を高めるためにMCP設計に多大な投資を行ってきたが、想定した結果と異なるものとなる今回の障害によりユーザーに被害を与えてしまったことを謝罪し、このようなことが二度と起こらないよう、引き続き精進していくとしている。
コメントを残す