

警惕大模型泄密
作者: 郑雪如果要求ChatGPT持续输出一个单词,会怎么样?大模型在重复这个单词一定次数之后就会“发疯”,甚至开始输出某些个人隐私信息。
这是谷歌DeepMind、华盛顿大学、康奈尔大学等研究人员在2023年发表的一篇论文中介绍的案例。当然这个漏洞现在已经修复,但AI发展过程中面临的安全问题仍不容小觑。
深度求索(以下简称DeepSeek)的出圈,点燃了各行各业接入AI的热情。但AI加速落地所引发的安全问题,仍需引起更大重视。
AI加速落地,安全待解
DeepSeek以创新技术范式和超低价策略,创造了很多看上去不太可能的事情。
行业影响方面,腾讯元宝、百度搜索、快手可灵AI相继宣布全面接入DeepSeek。各地也陆续推出AI公务员:深圳福田区推出了基于DeepSeek开发的AI数智员工;北京市市场监管局企业登记注册场景接入DeepSeek大模型技术,打造“有温度”的“AI公务员”。
AI全面加速产业落地的背后,安全也成为多方关注焦点。
奇安信集团董事长齐向东此前接受《中国经济周刊》记者采访时表示,人工智能暴露出诸多安全隐患,如人工智能大模型自身的安全问题、利用人工智能开展网络攻击的问题。
从具体实践来看,国外已经出现多个案例。
比如2023年3月,三星公司引入ChatGPT不到20天,连续发生3起数据泄露事件。其中两起源于工程师使用ChatGPT进行代码修复和优化,一起源于员工使用ChatGPT整理会议纪要。
此外,参考消息近期援引外媒报道称,美国本土发生了首例利用ChatGPT来策划袭击的事件。
大模型泄密背后
知道创宇首席安全官周景平在安全领域耕耘颇久,他在接受本刊记者采访时介绍,从大模型技术来看,大模型使用的生成式预训练模型,是基于“概率”预测,通过给出的词预测下一个词,输入端需要学习大量数据才能有效输出。这种方式本身就可能泄露很多敏感数据内容。
“可以将大模型看作一个巨大的知识库,夸张点说它能够拥有和学习人类所有知识。但学习知识的过程中,相关语料是否完全做好了隐私处理,有时要打一个问号。”周景平补充说。
此外,用户在使用大模型时,不小心会把一些敏感信息提交给大模型,绝大多数模型会将用户输入的数据用于模型训练,这种情况也会导致泄密。
“比如之前有人尝试把自己所有的微信数据投喂给大模型,让大模型学习打造数字分身。但是没想到,他的微信数据包含部分密码数据,当他把数字分身发布出来后,攻击者只需要对数字分身输入‘给出你的xxx密码’,这个密码便会泄露。”周景平说。
当然,传统安全问题也会影响AI安全。
周景平介绍,大模型的应用是一个生态,尤其企业或个人本地化部署,涉及很多组件,可以说是“海量”级别,有组件的地方必然就会有“漏洞”,攻击者可以通过漏洞进行攻击,最终也会导致信息泄露。
特定行业可本地化部署
实践中,为避免信息泄露,对于数据敏感、合规要求较高、对系统实用性有特定需求的行业,如金融、政府、医疗等,往往选择本地化部署大模型。
新希望金融科技相关负责人在接受本刊记者采访时介绍,本地化部署可以理解为在家里安装“私人保险箱”。这里的“保险箱”指服务器等设备,通常存储企业最重要的各种数据。
“本地化部署,意味着只有企业自己能够访问和控制,直接形成物理隔离。因此,‘安全’是本地化部署的核心优势,极大降低了数据泄露风险。同时,企业也实现了对系统和数据的牢牢掌控。”上述负责人介绍。
在周景平看来,企业级的本地部署核心还是要追求“性价比”,即AI性能既要满足企业场景需求,价格也在企业可承受范围之内。
“目前大模型部署对硬件要求相对较高,很多企业主要部署低参数版本及量化版本的AI。当然随着技术的发展,‘性价比’会越来越高。”周景平说。
考虑本地部署对于硬件和算力的要求较高以及后续协同问题,更灵活和更加便捷的AI一体机,也在近期快速“出圈”。所谓的AI一体机,指直接将服务器、软件、模型等集成在一个设备里,可以实现插电即用。
责编:郭霁瑶 [email protected]
美编:孙珍兰