IT大雪崩,地球母体出了个BUG
作者: 徐乃帅机场里的显示屏全部蓝屏,航班几乎全部延误或取消;商店无法正常收款、酒店无法办理入住,公共服务出现大面积瘫痪;试图获得求助的人,发现连911电话都无法打通。
与此同时,无数封邮件被紧急发送到白领的邮箱里,上面写着醒目的警告:“不要开机!不要开机!”
置身于事件中的人们,仿佛走进了电影《黑客帝国》所描述的虚拟现实世界,发现所处的“地球Online”出现了巨大的错误,似乎下一刻,周边的NPC就会停止运作,突然冒出一群追捕主角的黑衣人……
在7月19日这天,这场“史上最大的全球IT故障”,造成了西方国家航空、商业、医疗等领域巨大的混乱。而灾难的始作俑者,美国网络安全公司CrowdStrike,只不过是进行了一次网络更新而已。
史上最大全球IT故障
在这次全球IT故障中,受到影响最严重的,可能是航空领域。
“当人们熟悉的Windows系统蓝屏画面出现在公共屏幕上时,大多数游客还未意识到即将发生什么……直到乘客们被告知航班延误或取消,机场里充满了愤怒的声音。”据报道,IT故障发生的7月19日当天,从纽约到阿姆斯特丹,从新德里到东京,那些全球最繁忙的机场,平均延误时间都超过一个小时。
航班跟踪平台FlightAware的数据显示,截至美国东部时间7月19日上午8时,IT故障导致了全美一半以上的航班延误或取消。航空公司发布信息建议游客不要前往机场,除非提前确认了自己的航班信息。
在中国香港,IT故障同样导致了大批乘客滞留在登机大厅,机场启动了“紧急响应机制”,人工为乘客办理登机手续。
据CNN报道,美国一些州的911求助电话,因IT故障导致服务中断,部分州的政府服务系统出现了无法访问的情况,法院和监狱的运行都受到了影响。同时,一些县为美国大选建立的投票系统也出现了问题,就连海关和出入境管理局都被卷入其中,导致一些旅客被迫滞留海关。
当天上午9时,美国的一些医疗保健和医院系统宣布受到IT故障的影响,包括麻省总医院、宾夕法尼亚大学医院,以及医疗保健公司诺斯韦尔健康等。 许多医院临时取消了非紧急手术和就诊。同时,部分系统陷入瘫痪的血库,不得不紧急调派人手协助分发血液。
在金融领域,当天上午7时左右,全球各地的银行开始报告异常,包括澳大利亚联邦银行、南非Capitec银行和西太平洋银行等。美国银行旗下的一个股票交易平台透露,平台因IT故障受到了一定影响。有媒体称,本次IT故障可能给许多股民造成了损失。
那些全球最繁忙的机场,平均延误时间都超过一个小时。

在社交媒体平台X上,一些地区的企业员工分享了7月19日这天的经历:正在工作的时候,全公司电脑忽然蓝屏,被迫进入“摸鱼”状态,由于问题短时间无法解决,公司宣布下班。由于当天是周五,不少人得以提前享受周末,在互联网上发文“感谢微软让我提前下班”。
根据美国供应链监控公司Interos和微软的数据,本次全球IT故障估计在850万台Windows设备上发生,影响了全球67.46万个企业或实体,超过4900万家企业受到间接影响。
事件最初发生时,人们本能地猜测是黑客、病毒导致了这场混乱,但很快“罪魁祸首”CrowdStrike就自己站了出来。世人这才惊异地发现,竟是一家网络安全公司导致了这场“史上最大的全球IT故障”。
逻辑错误引发雪崩
实际上,IT故障发生的第一时间,互联网平台上就有人发出警告—“停止所有CrowdStrike更新!”随后没过多久,就有程序员分析出了导致IT故障的具体原因。
根据CrowdStrike公布的信息,该公司在7月19日4时9分发布了一次更新,但此次更新的某个代码“访问了一个不存在的地址”,陷入逻辑错误,导致Windows系统触发保护机制崩溃和蓝屏,才引发了这场“雪崩”。不久后的5时27分,CrowdStrike就对该更新进行了修复。
尽管只有一个多小时的窗口期,但由于CrowdStrike安全软件在微软系统上的更新都是默认自动运行的,当时处于开机状态的数百万台Windows系统计算机“感染”了这一错误。
CrowdStrike是美国最主要的互联网云端和终端安全厂商之一,2024年6月其市值一度接近千亿美元。在全球范围内,有几十万家公司和机构实体都依赖于该公司提供的安全服务。
也正因此,尽管此次IT故障的波及范围还不到所有Windows系统计算机的1%,但涉及的大多是社会和经济运行的关键环节,需要常态保持计算机开机的航空、金融、公共服务等领域受灾尤为严重。
同时,尽管迅速查明了原因,手动修复的技术也并不复杂,但对于受影响一方而言,修复系统的过程仍变得十分艰难。

一些Windows虚拟机用户可能需要反复重启15 次之多,才能消除故障。
以航空公司为例,机场里的数千台计算机都需要专业人员手动修复,短时间不可能找不出这么多的人手。部分关键环节的计算机可能会加密其硬盘,这使得访问需要删除的文件变得极其麻烦。
而更棘手的情况是,可能包含使这些计算机重启所需信息的服务器,其本身也陷入了崩溃和重启的循环当中。
根据微软提供的报告,一些Windows虚拟机用户可能需要反复重启15次之多,才能消除故障。
尽管航空公司努力从故障中恢复,但直到IT故障的第三天,7月21日,依然还有超过1500趟美国航班连续被取消。其中,超过1000趟取消的航班是达美航空运行的,该航空公司的混乱状态一直持续到了7月26日,才勉强恢复过来。
而在其他领域,受影响的计算机可能位于偏远地区,诸如天气监测传感设备,这就需要技术人员亲自前往设备所在地,才能执行修复过程。
据保险公司Parametrix初步分析,仅仅统计《财富》杂志全球500强企业的情况,本次IT故障就造成了高达54亿美元的收入和毛利润损失,这还不包括因生产力损失或声誉受损而造成的任何二次损失。
这场全球IT故障波及范围之广,破坏力之强,显然超出了许多人的想象。于是在弄清情况后,“为何一处小小的代码逻辑错误,能够造成如此不可估量的损失”—成为了被广泛讨论的议题。
构建我们世界的“母体”
2000年之际,一个伪装成深情表白邮件的计算机病毒,“爱虫”病毒(ILOVEYOU)通过邮件网络链式转播,导致了全球邮件系统的剧烈地震,估计造成约100亿—150亿美元的损失,为计算机病毒史上之最。
而讽刺的是,本次网络安全公司CrowdStrike的一个小失误,导致的经济损失毫无疑问将高于“爱虫”病毒。

IT故障期间,美国国土安全部发布了提醒,有黑客意图浑水摸鱼,建立钓鱼网站,以提供IT故障的讯息和解决方案为名,盗取获取访问者的个人信息或欺骗访问者下载木马病毒。网络安全公司的失误,反而成为了网络犯罪者的便车,据悉已经出现了不少受害者。
造成了如此大的混乱,CrowdStrike必然难辞其咎。有从业人员指出,一家有着数十万用户,牵扯如此之多的关键网络安全公司,在发布更新时居然没有进行过基于系统稳定性的测试,实在是令人难以置信,这意味着该公司在更新管理方面存在巨大漏洞。
而从另一个角度来看,微软似乎也并不“无辜”。既然微软将Windows系统的一些权限开放给了第三方公司,就有义务担保第三方公司的软件是安全可靠的,本次IT故障正是由于第三方软件和微软系统的“冲突”导致的。
同时,或许只是一个程序员不小心的代码错误,造成了如此巨大的破坏,这显然是暴露了全球IT在结构上的某种脆弱。在X上,许多网友发出疑问:“为什么全球的网络安全被一家公司掌控?”
问题背后,所体现的是当代互联网公司所具有的巨大“权力”:在打通关键环节,极大提升社会运行效率、带来便捷的同时,诸如微软、CrowdStrike等企业,也无疑坐到了垄断的位置上。
7月22日,CNBC(美国消费者新闻与商业频道)发布了一篇报道,标题为《为什么中国基本上不受周五全球IT故障影响》。报道称,尽管Windows系统在中国的使用率高达87%,但中国几乎不使用CrowdStrike的软件。报道也同时指出,CrowdStrike旨在防范的许多安全威胁都来自中国。
一家业务遍及全球,且和美国政府有深度合作的网络安全公司,所防范的对象正是中国,不得不说是一个颇为令人深思的现象。
在经典科幻电影《黑客帝国》当中,名为“矩阵”的AI,创造了圈养人类的“母体”,也自然成了人类世界的掌控者。
当今时代,计算机早已融入了生活的方方面面,几乎所有领域都离不开信息技术的帮助,人类也仿佛生活在另一个由IT所构建的“母体”当中—于是,当这些互联网公司的某个环节出现了Bug,其给人的观感,完全无异于真实世界出现了Bug。
伴随着近些年AI技术的发展,人类仿佛更是一头扎进了技术的拥抱,一去不复返了。或许人类终将排除万难,构建出一个不同于“母体”的理想世界。而在这个过程中,人类更应谨慎地看清脚下的道路,正如此次事件,当下和将来任何一个微小的Bug,都有可能导致难以挽回的灾难。
责任编辑吴阳煜 [email protected]