人工智能时代,如何理解与应对算法偏见
作者: 格蕾丝·布朗我们今天向人工智能提供的数据集或将塑造其未来几十年的价值观走向。长期以来,这个行业都认为,当数据集足够庞大的时候,就可以通过数据的量来实现价值观的多样性。然而,研究人员和倡导者很快发现并证实,实际情况并不尽如人意。现在的问题在于,一个充斥着成见的社会该如何努力,从而让人工智能学会“何谓中立”。
蒂姆尼特·葛布鲁(Timnit Gebru)于2018年成为人工智能伦理的领军者。彼时,人工智能伦理刚刚崭露头角。它让人们意识到,人工智能不仅仅是存于云端的杂乱算法,也是一个具有偏见的、会导致出人意料后果的系统。当时,出生于埃塞俄比亚的葛布鲁发表了一篇重量级的论文:由于训练数据缺乏代表性,面部分析技术在有色女性中的错误率较高。
同年,她被谷歌挖走,成为其人工智能伦理团队的联合负责人。然而,她的任期并不顺利,其在2020年12月被谷歌开除,尽管谷歌称她是自愿辞职。导火索是谷歌要求她撤回她发表的一篇关于人工智能模型偏见的论文。她在这篇论文中呼吁技术公司必须即刻采取行动,因为如果它们持续使用现有的历史数据,会加深语言模型对少数族裔的偏见。此外,她呼吁关注谷歌雇用少数族裔员工做法的邮件也引起一些风波。当然,她的离职也并不平静,超过1,500名谷歌员工联名签署了一封支持葛布鲁的公开信。
自2022年底发布以来,一款由OpenAI公司开发的ChatGPT聊天机器人大受欢迎。该系统可以一键创建文本、图像与视频内容,从此开启了一个生成式人工智能系统被广泛使用的新时代。《时代》杂志在2023年初称:“这一转变是自社交媒体开发以来最重要的技术突破。”政府与部分像是葛布鲁这样的学者对于这一新兴热潮产生了危机感:随着更大、更强的AI迅速发展,这项技术会不会就此失控?葛布鲁的一系列经历预示着科技公司不愿解决算法中隐藏的危害和偏见。然而,现在是时候认真面对这些问题了。

如今,算法遍布于我们生活的方方面面,尽管许多人意识不到这一点。这些算法小则出现于我们搜索信息时,大则涉及法官判刑。机器学习技术曾经只出现在付费期刊里的那些繁琐论文之中,现在已切实融入了现实世界,且不可逆转。包括住房、社会福利和治安等在内的公共和社会系统,也不乏人工智能系统的痕迹。人们一度认为,人工智能训练的数据集是如此庞大,它可以消除数据中所有持有偏见的观点。然而,越来越多的事实都在证明情况并非如此。直到2010年代,算法可能会反映训练算法者既有偏见的观点,才逐渐被人所知,人们才意识到技术并非是中立的。如果不加以纠正,潜藏在算法中的系统性种族主义或性别歧视,可能会导致社会伤害。
理查森一开始并不是研究人工智能领域公平性的专家,而是一位美国律师,擅长解决房屋、学校种族融合与刑事司法改革等民权问题。后来,她发现一些算法公司向政府提供技术,而政府则将其视为可以解决有限资源问题的灵丹妙药。理查森对此表示怀疑:“算法怎么可能真正解决那些源于结构性不平等的问题?”
她调查了那些向警察部门大胆宣扬优秀技术的公司,其中有一个是政府正在使用的机器学习技术,被称为预警性警务系统。它利用历史犯罪数据预测未来可能发生犯罪的地点,或最有可能参与犯罪的人员。而这些算法或将不公平地针对少数族裔。
预警性警务系统只是暴露算法偏差的其中一种方式罢了,但也足以造成一定的危害。以医疗保健为例,人工智能与医疗领域的结合可以帮助实现更快、更好、更便宜的医疗服务,因此,人们对其产生了浓厚的兴趣。但如果设计不得当,人工智能可能会进一步恶化种族偏见。
2019年发表在《科学》上的一篇论文称:美国医院广泛投入使用的一种算法普遍存在种族歧视。在确定谁有资格获得高风险医疗保健管理计划时,算法通常会选择相对健康的白人患者,而非健康状况较差的黑人患者,而该算法每年正为2亿人提供医疗服务。
2022年发表的一篇论文称:图像识别技术声称可以像专家一样对皮肤癌进行分类。然而研究人员观察到,在训练人工智能系统的数据集中很少涵盖有色皮肤的图像,它基本只包含欧洲、北美和大洋洲人种的图像。“这些发现更加凸显了在数据集不透明的情况下,对大众广泛使用算法是非常危险的。”
深入研究机器学习算法公平性的宾夕法尼亚大学助理教授马克·亚茨卡(Mark Yatskar)对行业内的重大变革感到悲观。他在研究工作中发现,该领域内的科学家很少考虑他们的终端用户。然而,即便要求研究人员确保机器学习的公平性与道德性,也不能解决问题,因为他们毕竟不是最终应用技术的人。
亚茨卡认为:“呼吁加强监管很容易,但绝非正确的答案,因为研究公平性问题的人员之间并没有达成基本的一致,甚至他们对于公平性的定义都不尽相同。”同样的问题,有些研究人员可能把它叫作算法公平问题,而另一些人也可能觉得是算法出现的诸多问题。在数据完全透明的情况下,研究人员可以进行所谓的算法审计,即通过检查算法的输入、输出和代码发现偏差。如果无法解决问题,则需要在公开声明中说明。
另一个障碍在于,由于进行算法训练的私营公司对训练数据保密,这大大增加了研究人员分析数据的难度。不可避免的是,这些系统性偏见至少有一部分源于科技行业的高层人士。
2019年的报告指出80%的人工智能教授是男性;在Meta的人工智能研究人员中,女性仅占15%;在谷歌的人工智能研究人员,女性占比降至仅10%。
其报告的作者认为:“拥有性别多样化的经验和体会是人工智能系统开发员所需的基本要求,这可以帮助他们识别和减少系统性偏见带来的危害。”
曾担任白宫和联邦贸易委员会技术顾问的理查森表示,目前根本没有明确的方法监管这些人工智能技术,因为政府部门对技术的运作方式了解甚少。比起确保算法的公平性这件事,困扰人工智能系统的问题更具系统化,更难以解决。即便是现实当中的人常常都带有偏见,那我们又该如何让算法不带偏见呢?“你不能把它与社会分开,我们只是不知道如何处理这些问题。”理查森说道,“政策制定者和社会都不愿处理这些复杂的问题。”
越能认识到这项技术并非没有偏见这一事实,对我们而言越好。尽管近年来人们这一意识已经逐步增强,但是理查森认为,仍然没有人确切地知道该如何去做。“尽管紧迫性不断增加,却没有人明确知道如何去做。”她说,“对于如何解决这个问题,没有人愿意坦率地讨论它到底有多么困难。”
离开谷歌后,葛布鲁宣布成立了一家以社区为驱动、以多元化视角为中心的独立人工智能研究所,称为DAIR(the Distributed AI Research Institute)。她不断呼吁人们关注人工智能的危害。2023年3月,包括马斯克和沃兹尼亚克在内的人们签署了一封公开信,呼吁行业暂停为期6个月的人工智能发展,以防止“人类文明的失控”。此外,葛布鲁与其他几位人工智能伦理学家共同撰写了一篇驳斥信,称谷歌没有指出人工智能目前造成的危害:“现在是时候采取行动去关注一些焦点了,但这不应该是想象中所谓‘强大的数字化思想’,而是应该去关注那些造成偏见既定事实的技术公司,因为这些做法往往会加速集权,加剧社会的不平等。”