あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

6月21日のCloudflareの大規模障害はネットワーク構成エラーが原因だった

6月21日15時半頃から1時間近くに渡り発生し、数百もの多くのオンランプラットフォームやサービスに影響を与えたCloudflareの大規模障害は、ネットワークの復元力を高めるための変更が原因であったという。

Cloudflareによると、同社は過去18か月にわたって最も負荷の高い拠点のすべてにおいて、新しいアーキテクチャを採用し、より柔軟で復元力を高める施策を実施してきたとのこと。

この新しいアーキテクチャは、Multi-Colo PoP(MCP)と呼ばれる、Closネットワークの一つで、接続のメッシュを作り出す新たなルーティングレイヤーを追加するものとのことだ。このメッシュにより、データセンターの内部ネットワークの一部を簡単に無効化したり有効化する事が出来るようになり、メンテナンスや問題への対処を行う事が容易になる

image2 27
Closネットワークの模式図(出典:Cloudflare)

新しいアーキテクチャの採用により、信頼性が大幅に向上し、ユーザーのトラフィックを中断させることなく、メンテナンスを行うことができるようになった。これらの拠点はCloudflareのトラフィックの大部分を担っているため、ここで問題が発生すると非常に広い範囲に影響を及ぼす可能性があるが、今回発生した障害は、まさにその懸念されていたことが現実になってしまったようだ。

今回の障害で影響を受けたデータセンターは、アムステルダム、アトランタ、アシュバーン、シカゴ、フランクフルト、ロンドン、ロサンゼルス、マドリッド、マンチェスター、マイアミ、ミラノ、ムンバイ、ニューアーク、大阪、サンパウロ、サンノゼ、シンガポール、シドニー、東京とのこと。

これらの拠点におけるネットワーク設定の変更により、15:27(日本時間)に障害が発生した。15:58(日本時間)に最初のデータセンターがオンラインになり、16:42(日本時間)にはすべてのデータセンターがオンラインになって正常に動作するようになったという。

影響を受ける地域としてはCloudflareネットワーク全体の4%に過ぎないが、これらの停止によってCloudflareがグローバルに処理する全てのHTTPリクエストの約50%に影響を与えることとなった。

image6 11
Cloudflare停止の影響(出典:Cloudflare)

影響を受けたWebサイトは多岐にわたる。判明している分としては以下となる。

  • 2K Games
  • League of Legends
  • マインクラフト
  • Steam
  • Amazon Web Services
  • Discord
  • DoorDash
  • Gitlab
  • Shopify
  • Skype
  • UPS
  • DigitalOcean
  • Udemy
  • Coinbase
  • Valorant
  • Crunchyroll
  • Patreon
  • Legends of Runeterra
  • Americas Cardroom
  • eToro
  • Betfair
  • ニンテンドーオンライン
  • 原神

Cloudflareはサービスの可用性を高めるためにMCP設計に多大な投資を行ってきたが、想定した結果と異なるものとなる今回の障害によりユーザーに被害を与えてしまったことを謝罪し、このようなことが二度と起こらないよう、引き続き精進していくとしている。

Follow Me !

この記事が気に入ったら是非フォローを!

Share!!

スポンサーリンク

執筆者
Photo of author

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

記事一覧を見る

コメントする

CAPTCHA