近日,由于美国Verizon BGP网络点引起的互联网重新路由错误,导致了包括亚马逊、Cloudflare 和 Facebook 等**的服务无法访问。

而网络安全服务商Cloudflare的故障,导致大量区块链交易所如Coinbase、HitBTC、印度交易所WazirX均受到影响。

思科所属**BGPmon的创始人Andree Toonk 估测,这起事件影响大约2400个网络和2万个IP地址。

Cloudflare首席执行官马修•普林斯说:“Verizon和Noction的团队应该对今天早上的失败感到非常尴尬,这会影响Cloudflare和其他大部分互联网。”

官方声明:https://blog.cloudflare.com/cloudflare-outage/

译文(非常不负责任的翻译,要看看原文去):

avatar

tetsai

原创声明

本文由tetsai原创,转载请注明来源

俺先发个短博客占个地儿,然后慢慢挤牙膏更新,披露今天发生的事情。

在今天的大约30分钟内,访问CloudFlare站点的用户收到了502个错误,这些错误是由于我们网络上的CPU使用率急剧上升造成的结果。CPU为嘛这么高!因为这该死的错误的软件部署。然后回滚抢修啦,服务恢复正常运行,所以CloudFlare又可以继*欢乐地玩耍啦。

嘛?你说这是袭击?不存在的!你们猜错了!,这个事情我们非常的抱歉啦。内部团队正在开会,俺写了检讨,内容是这到底是为什么,咋防止再次发生。

2009 UTC更新:

从今天的1342 UTC开始,我们在整个网络中经历了一次全局中断,导致到CloudFlare代理域的访问者显示502错误代码(“bad getaway”)。此次中断的原因是啥呢?是在常规部署新的CloudFlare WAF管理的规则期间,不小心在CloudFlare Web应用程序防火墙(WAF)中部署了一个配置错误的规则。

这些新规则的目的是干嘛?是为了改进内联javascript block...这些规则是以模拟模式部署的,在这种模式下,新规则会识别并记录问题,但不会阻止你们的流量啦

让人草拟吗的是,其中一个规则包含了一个正则表达式,它导致我们全球机器上的CPU峰值达到100%。这100%的CPU峰值导致了客户看到的502个错误。最倒霉的是,传输流量下降了82%。

此图表显示了我们其中一个POP中的CPU峰值:

我们看到了CPU全部**了,我和我的小伙伴们都惊呆啦,因为他妈的以前CPU没有这么不经用。

我们在整个网络中不停部署,想逐渐测试确保没啥问题。结果操蛋的是,这些WAF规则是一次性在全球部署的,导致了今天的故障事件。

在1402 UTC时,我们吃惊惊了一段时间终于回神啦!然后呢对WAF管理的规则集发出“全局终止”的命令,然后CPU终于正经了起来。俺看了时间,是 1409 UTC世界协调时。

然后,我们继*检查,确保100%搞定,并在1452 UTC重新启用了WAF管理的规则集。

我们认识到这样的事件对我们的客户来说是操蛋的。在这种情况下,我们测试的还不够好,所以呢我们严加防范,免得CDN又炸了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注