一個軟件更新引發的「全球宕機」

楊蓉

印度德里國際機場,一名乘客正在查看出現故障的機場大屏

7月19日,美國科技巨頭微軟公司爆發重大服務中斷事件,全球範圍內眾多用戶反映搭載Windows系統的企業電腦出現「藍屏」故障,無法正常啓動。多國上千航班停飛、銀行停業、媒體停播……從美洲、歐洲到亞洲,該問題影響到了包括交通、金融、媒體、醫療等在內的各行各業。

據微軟日本子公司確認,此次故障與第三方美國網絡安全企業CrowdStrike旗下軟件更新有關。微軟方面最新回應稱,「根本起因」已解決,但也表示殘餘影響會繼續影響某些微軟365程序和服務。美聯社19日稱,這一「全球性技術故障」凸顯了對少數供應商軟件的依賴。

英國《衛報》19日引述知名網絡安全顧問特洛伊·亨特(Troy Hunt)的分析認為,這可能是「歷史上規模最大的IT故障」。「我認為現在下結論並不為時過早:這將是歷史上規模最大的IT故障。」他社交媒體平台X(原推特)上寫道,「這基本上就是我們所有人對Y2K問題的擔憂,只不過這次真的發生了。」

專家表示,恢復可能需要幾天時間,因為每台受影響的電腦可能都必須手動修復。事件發生後,微軟美股盤前跌幅擴大至近2%,CrowdStrike盤前跌超20%。

微軟365方面最新回應X

上千個航班取消,涉及歐美亞洲多國

微軟此前發佈的初步分析表示,故障始於美國中部的Azure區域數據中心,「部分Azure後端工作負載的配置更改導致存儲和計算資源之間中斷,從而導致連接故障,影響依賴這些連接的下游微軟365服務」。據報道,大多數宕機都與雲端存儲服務OneDrive、服務器連接和郵件服務Outlook有關。

微軟365相關故障報告熱力圖(美國)DownDetector網站截圖

CrowdStrike首席執行官喬治·庫爾茨(George Kurtz)在X上稱,公司「正積極與受Windows主機單一內容更新中發現的缺陷影響的客戶合作」,相關問題已被識別並部署修復程序。他強調:「這不是一起安全事件或網絡攻擊。」

CrowdStrike是總部位於美國加利福尼亞州森尼韋爾的電腦安全技術公司,提供端點安全、情報威脅等信息。據悉,許多受影響的Windows電腦與CrowdStrike一款名為「Falcon傳感器」(Falcon sensor)的用於收集安全數據的軟件有關。

微軟365在X上發佈消息稱,公司「正在努力將受影響的流量重新路由到備用系統,以更便捷的方式減輕影響」,並稱已「觀察到服務可用性呈積極趨勢」。不過,美聯社指出,在技術方表示正在逐步修復故障後數小時,各地的服務中斷情況仍在不斷升級。

受影響最嚴重的可能是航空、交通領域。英國廣播公司(BBC)引述航空分析公司Cirium的數據說,全球已有1000多個航班被取消。美國聯合航空、達美航空、美國航空和忠實航空(Allegiant Air)等一度實行全球停飛令。

英國廉價航空公司瑞安航空(Ryanair)以及火車運營商TransPennine Express和Govia Thameslink Railway也受到了影響。歐洲最大的航空公司瑞安航空稱:「由於全球第三方IT出現故障,我們的整個網絡目前都處於中斷狀態,這超出了我們的控制範圍。我們建議所有乘客至少提前三小時到達機場。」

7月19日,在德國漢堡,旅客在漢堡機場1號航站樓等待辦理登機手續

由於機場的在線值機服務和自助值機服務癱瘓,排隊人數增加,許多人被困在機場。多家航司在X上發表聲明說,正採用人工辦理登機手續和登機程序。印度私營低成本航空公司靛藍航空(IndiGo)表示,故障給數千名乘客帶來了不便。

從各地報導來看,香港、台灣、東京、德里、柏林、蘇黎世、羅馬、阿姆斯特丹等地的機場也都受到影響。在洛杉磯國際機場,由於航班延誤,一些旅客不得不用背包和行李當枕頭席地而睡。

據央視新聞報導,從國航、東航、南航等多家航空公司瞭解到,截至目前航班未受到大範圍系統技術故障影響,航班運行正常。北京首都機場和大興機場出發的國際航班目前也運行正常。

銀行、醫院系統宕機,巴黎奧運也未「幸免」

BBC指出,澳洲受到的影響似乎尤其嚴重。

跟蹤用戶報告的互聯網中斷情況的DownDetector網站顯示,包括澳最大的商業銀行澳洲國民銀行(NAB)、澳洲聯邦銀行、本迪戈銀行在內的金融機構,澳洲維珍航空(Virgin)、捷星航空(Jetstar)等航司,以及Telstra等互聯網和電話供應商都報告了故障。

據美聯社,澳洲的新聞機構,包括澳洲廣播公司(ABC)和天空新聞(Sky News),都無法在其電視和廣播頻道上進行廣播,並報告了Windows系統計算機突然關閉的情況。一些新聞主播在顯示「藍屏死機 」的電腦前,從黑暗的辦公室進行在線直播。

新西蘭的奧克蘭儲蓄銀行和新西蘭郵政銀行(Kiwibank)也表示其服務出現故障。

此事驚動澳洲和新西蘭政府部門出面回應。新西蘭代理首相西摩在X上表示,該國官員正在「按部就班地瞭解 」這一全球性問題的「潛在影響」。澳網絡安全監管機構則表示,沒有任何信息表明出現了惡意攻擊,「我們目前擁有的信息是,這次中斷與受影響公司使用的第三方軟件平台的技術問題有關」。

銀行系統宕機也影響到許多日常支付。據社媒用戶報告說,在英國的麵包店和咖啡連鎖店Gail’s和澳大利亞零售店Woolworths付款時遇到問題。在南非,至少有一家大銀行表示正在經歷「全國性的服務中斷」,因為有客戶報告無法在雜貨店和加油站使用銀行卡付款。

7月19日,澳洲悉尼一家超市的自助結賬終端,一名顧客在藍屏前結賬

在日本,環球影城的結帳系統也受到影響。從當地時間下午2時左右開始,園區內餐廳和紀念品商店的收銀機出現「藍屏」無法使用,所有店鋪宣佈暫停營業。有人指出,日本麥當勞今天上午有約3成店鋪暫停營業,可能也是受到微軟故障的影響。

西日本旅客鐵道公司(JR西日本)則是在下午2時20分左右,無法在官網和應用程式確認列車運行位置。JR西日本表示,目前神戶線、京都線等近畿地區列車,有部分列車無法顯示位置,尚未確定何時恢復。

此次危機還波及公共醫療設施。據報道,美國阿拉斯加州官員表示,許多911和非緊急呼叫中心都無法正常工作。英國國民醫療服務體系(NHS)下的幾家診所則報告說,院內用於保存醫療記錄、製作排班表的臨床系統受到影響。

「我們無法訪問病人的臨床記錄,因此無法預約或提供信息。」位於英格蘭北部布里格豪斯的Church Lane Surgery在X上寫道,「這是一個全國性的問題,正在作為高度優先事項進行處理。」

在德國北部,在基爾和呂貝克都設有分院的石勒蘇益格-荷爾斯泰因大學醫院(Schleswig-Holstein University Hospital)表示,已經取消了原定於19日進行的所有選擇性手術,但病人和急診護理不受影響。

此外,下周即將開幕的巴黎奧運會亦未能「幸免」。巴黎奧運會組委會表示,其IT系統受到影響,但已充分動員技術團隊減輕影響,並已啓動應急計劃。不過,有消息人士告訴法新社,IT故障影響了奧運會認證系統,部分運動員可能無法在下週五的開幕典禮前領到徽章。

為何一次小小更新,就能影響全球?

當前,CrowdStrike已經發佈了修復程序。但BBC說,據知情人士稱,該程序必須單獨應用於受影響的每個設備,每台機器都需要在安全模式下手動重啓,這將給各地的IT部門帶來巨大的工作量。英國薩里大學網絡安全教授艾倫·伍德沃德(Alan Woodward)表示,修復可能需要幾天的時間。

伍德沃德指出,導致本輪中斷的「Falcon傳感器」軟件通常用於擁有大量個人電腦的大型機構,以確保所有電腦都受到監控。「擁有大量電腦的大型組織使用該產品來確保一切都受到監控。遺憾的是,如果他們失去了所有電腦,他們就無法運行,或者只能以大大降低的服務水平運行。」

美東時間19日早晨,CrowdStrike首席執行官庫爾茨首度接受媒體訪問回應此次「全球宕機」事件,並致歉:「對於我們給客戶、旅客和任何受此影響的人造成的影響,我們深表歉意。」

他承認,事件是由公司旗下軟件更新導致,「該更新存在軟件錯誤,導致微軟操作系統出現問題……我們很快就發現了這個問題並進行了補救」,但對於「某些無法自動恢復的系統」,修復可能還需要一些時間,他也無法確定這需要多久。

為何僅僅是一次第三方軟件的內容更新就導致了全球範圍內航空系統、支付系統、醫療系統等的癱瘓?為什麼一個軟件錯誤就能產生如此深遠而直接的影響?此次與美國全國廣播公司(NBC)的最新訪問中,庫爾茨也被問到這一問題。

對此,庫爾茨告訴NBC主持人,網絡安全問題「非常複雜」,「要始終領先於(發動網絡攻擊的)對手無疑是一項艱巨的任務」,因此需要不斷更新。至於到底哪裡發生了「不良反應」,他必須「回去看看發生了什麼」。

庫爾茨於宕機風波後首度接受採訪NBC《今日秀》截圖

「一次IT更新是如何引發全球災難的」,BBC科技編輯佐伊·克萊因曼(Zoe Kleinman)19日以此為題寫道,這次事故「令人深思,世界已經變得多麼依賴由大公司遠程管理的設備,而當這些設備出現故障時,我們又是多麼無能為力」。

克萊因曼說,事情發生後,一名計算機科學家對她雙手抱頭感嘆:「永遠不要在週五推送更新。」她說,這也是為什麼許多大公司傾向於在周中發佈軟件更新,因為一旦出現問題,修復起來需要時間,公司在週末工作的人員通常較少,解決起來必然需要更長的時間。■

Be the first to comment

Leave a Reply

Your email address will not be published.