Cloudflare 故障分析来了 这是过去 6 年以来,Cloudflare 经历的最严重故障。 从开始出现故障到主要问题解决,花了 3 个小时;从开始出现故障到彻底解决,花了 5.5 个小时。 根本原因:反 bot 系统所需的数据文件生成出错,大小超过限制。 数据文件每 5min 生成一次。ClickHouse 节点正在进行变更,变更后,生成数据文件需要执行的一个 ClickHouse SQL 查询会返回超量结果。 错误随着 ClickHouse 节点的逐步更新而蔓延,初期生成的文件时好时坏,系统表现也因此时好时坏。直到 ClickHouse 节点完成更新,才彻底全挂。 这误导了 Cloudflare 团队,以为故障是网络攻击导致的。在故障出现 3 小时后,才定位到原因。 故障影响了 Cloudflare Turnstile (图形验证码服务,CAPTCHA 替代) 和 Workers KV,导致依赖它们的 Cloudflare Dashboard 无法登录。这进一步导致 Cloudflare 用户无法自救。 对于仅仅将 Cloudflare 作为流量接入层(反向代理)的网站来说,本来只需要修改 DNS,把 Proxy Status 关掉就行。关掉后,Cloudflare 只提供 DNS 服务(未受故障影响),网络流量直达自己的服务器,不经过 Cloudflare 代理。但是 Cloudflare Dashboard 无法登录,只能等死。 故障最高峰,每秒产生 3000 万个 HTTP 5XX 响应。可见 Cloudflare 承载的网络流量之大。 #cloudflare image