DoNews11月19日消息,北京時(shí)間昨晚,Cloudflare 因核心服務(wù)的一個(gè)漏洞引發(fā)嚴(yán)重故障,波及全球。不只是 X、ChatGPT,甚至連用來(lái)查故障的 Downdetector 都受到了影響。
服務(wù)恢復(fù)后,Cloudflare CTO Dane Knecht 公開(kāi)致歉說(shuō),此次事故“不可接受”,并指出一次例行配置調(diào)整觸發(fā)了機(jī)器人防護(hù)層崩潰。

故障從 11 月 18 日協(xié)調(diào)世界時(shí) 11:48 左右開(kāi)始。Cloudflare 狀態(tài)頁(yè)最初僅顯示“內(nèi)部服務(wù)性能下降”,但問(wèn)題迅速擴(kuò)大,多地用戶(hù)反映訪問(wèn)大量由 Cloudflare 支撐的網(wǎng)站受阻,連 Access 和 WARP 也無(wú)法正常使用。Cloudflare 隨后確認(rèn),機(jī)器人防護(hù)工具中的某個(gè)依賴(lài)是事故源頭。
Knecht 說(shuō):“Cloudflare 辜負(fù)了客戶(hù)和更廣泛的互聯(lián)網(wǎng)。例行配置調(diào)整后,機(jī)器人防護(hù)底層服務(wù)的潛在漏洞被觸發(fā)并開(kāi)始崩潰,最終導(dǎo)致網(wǎng)絡(luò)與其他服務(wù)大面積受影響。這不是攻擊。”
到協(xié)調(diào)世界時(shí) 14:42,Cloudflare 完成修復(fù)并逐步恢復(fù)服務(wù)。儀表板的分析和錯(cuò)誤日志功能在下午仍不穩(wěn)定,工程師持續(xù)觀察是否還有殘留問(wèn)題。作為應(yīng)對(duì)措施之一,倫敦地區(qū)短暫關(guān)閉了 WARP 訪問(wèn)。
Cloudflare 的機(jī)器人防護(hù)體系包括 Turnstile 等挑戰(zhàn)流程與 JavaScript 驗(yàn)證環(huán)節(jié),直接串聯(lián)在大量知名網(wǎng)站與 API 流量路徑上。由于這些組件不僅攔截惡意流量,也負(fù)責(zé)放行正常用戶(hù),一旦出現(xiàn)故障,即便 CDN 或 DNS 核心服務(wù)完好,也足以造成全網(wǎng)級(jí)別的混亂。
據(jù)外媒 Tom's Hardware 報(bào)道,這次是近一個(gè)月內(nèi)第三次重大宕機(jī)事故。10 月,AWS 的 US-East-1 區(qū)域因 DNS 配置損壞而停擺超過(guò) 2 小時(shí)。數(shù)天后,微軟又遭遇大規(guī)模 Azure 宕機(jī)。
這連串事件引發(fā)更多質(zhì)疑:全球主流平臺(tái)在超大規(guī)模運(yùn)行時(shí),究竟能否有效隔離內(nèi)部故障和系統(tǒng)依賴(lài)。約 19% 的互聯(lián)網(wǎng)依靠 Cloudflare,而 Azure 和 AWS 在云市場(chǎng)的占比分別約為 24% 與 30%。