AI电话骚扰,为何如此猖獗?
作者: 非田比接到骚扰电话更烦人的是什么?是接到了来自AI的骚扰电话,让你即便想吐槽,想表达不需要,都没有机会,因为你无论如何表述,对面的机器人都异常冷静,不悲不喜。
不知从何时起,AI电话外呼已经蔓延到了各个行业。与传统电话外呼模式相比,AI电话效率更高且成本更低,因此近年来在国内外都发展迅猛。
在国外,AI电话不仅频频被用于诈骗,而且今年恰逢美国大选年,一些别有用心之人会用AI模拟名人声音,为候选人“助选”。
AI电话来势汹汹,面对这一监管难题,各方都在加速颁布各项法规,以期能规范以AI电话为代表的AI行业发展。今年8月起,欧盟《人工智能法案》正式生效,旨在解决公民健康、安全和基本权利面临的潜在风险,明确了开发人员和运营者关于人工智能特定用途的明确需求和义务。
不久前,美国联邦通信委员会(FCC)也公布了新提案,希望再次扩大对电话相关的AI技术监管范围,要求相关公司必须披露在短信和电话中使用AI的报告;在此之前,FCC已禁止了在针对消费者的自动语音电话中使用语音克隆技术。
多项AI技术融合
从技术角度而言,AI电话呼叫并非什么高科技。早在1950年代,美国的泛美航空就已经建立起了全世界首个具有一定规模的呼叫中心。如今的AI电话呼叫则是在原有呼叫中心的技术基础上,搭载了多项人工智能技术的产物。
从技术角度来看,在呼叫和筛选层面,AI能力往往体现在从众多的客户信息中,筛选出更有触达价值的客户—但这需要足够的数据,相关算法也并未开源,因此在实际操作中,不少电话呼叫往往并不筛选,而是选用更为简单的或按区域/号段,或根据具体名单呼叫的方式。
从使用场景来说,AI电话在国内主要应用于告知客户优惠信息、回答常见问题、处理投诉等情况,在这过程中会与客户产生一定量的对话,因此就会用到自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)等多项AI技术。这些技术经过多年的发展已经相对更为成熟,市面上也多有低价甚至免费的解决方案。
简单来说,一次完整的AI通话包括以下几个步骤:在电话接通的一瞬间,用户最先听到的是TTS技术制作的AI语音,如果用户在此时对语音做出了回应,AI就会调用ASR和NLP技术,以便能听懂客户的回复并得出回话的文字内容,再通过TTS制作成为语音内容进行回复,从而实现与人类进行语音对话。
虽然描述比较复杂,但在实际应用中,这些技术通常都能在较短时间内响应,只要用户回复不是过于复杂,AI基本能做到及时回复,这也是为什么一些初次接到AI电话的用户,往往并不能识别出电话那头是AI而非真人。
不过,以目前的技术成熟度而言,大部分AI电话并不能完全理解较为复杂的对话,这也是为何哪怕有用户耐心回答完AI的所有提问,AI电话往往也是以“稍后会有负责人与您联系”作为结尾。
与国内的AI外呼目前多用于销售相关场景不同,欧美的AI外呼往往与诈骗关联度较高,不少名人也是受害者。据英国《金融时报》报道,全球最大的广告传播集团WPP首席执行官马克·里德,被使用语音克隆的骗子盯上了,骗子从网上获取到了马克详尽的语音和视频资料,通过AI进行了“克隆”,从而以电话或视频方式试图诈骗WPP的合作方。
从技术层面来说,这些骗子是在AI外呼的基础上,额外搭载了歌声合成(SVS)和歌声转换技术(SVC),即通过AI将一段人声音频转换为另一种声线。地图软件里的明星虚拟导航员、此前异常火爆的AI翻唱,大多都是应用了这类技术。

AI能力往往体现在从众多的客户信息中,筛选出更有触达价值的客户。
技术下放催熟行业
极低的成本,是AI外呼行业能够迅速扩大规模的原因之一。以某搜索引擎中搜索结果排名前列的一家电话呼叫平台为例,该平台客服表示,其AI外呼平均每天可以拨打800—1200个电话,不仅相当于3—5名员工的工作量,而且365天全年无休,3%左右的获客率,也略高于人工外呼。
此外,该AI还可以配备多套话术,并提供全程电话录音,200元即可支持1800分钟通话时长,平均算下来每分钟不过0.11元,价格远低于人工客服。
之所以价格如此低廉,也与AI行业的技术下放有关。AI外呼电话在通话过程中所需要用到的各项技术,头部AI厂商均提供了免费的接口。
以ASR为例,科大讯飞、OpenAI、网易、腾讯等均有自己的语音识别系统,科大讯飞更是早在2017年就开放了自家语音识别接口,可供用户免费或者付费使用。

GPT-4o平均短至0.32秒的响应速度,已与人类反应时间不相上下。
又如NLP,无论是阿里巴巴等互联网企业,又或是清华大学自然语言处理与社会人文计算实验室等研究机构,都有自己的NLP模型和开源项目;而微软开源的TTS技术,早就被各类营销号和诸如“3分钟看完一部电影”等自媒体所熟练掌握。
即便是大厂并未提供免费使用的技术,网上也有不少技术大牛热衷于分享开源代码,试图教会网友。
今年5月,OpenAI发布了一则视频,演示了该公司旗舰大模型GPT-4o。在视频中,GPT-4o能够像真人一样和人类进行视频通话,不仅能用语音准确回答提问,还能通过摄像头看懂人类究竟在做什么。
GPT-4o平均短至0.32秒的响应速度,已与人类反应时间不相上下,应答过程中的表现,也与真人更为接近,这一技术显然是对现有AI电话能力的全面覆盖与升级。
虽然此后OpenAI并未正式上线这一大模型,但其在视频中展示的功能,却在今年7月被机器学习工程师出身的科技博主Santiago给成功“仿制”,并将代码无偿分享给了所有人。
Santiago在教学视频中表示,他所用到的大模型,均为ChatGPT、谷歌Gemini等企业现成的AI模块,无需太多专业知识也可掌握。
考虑到AI行业仍处于高速发展期,AI技术也在不断迭代升级中,旧有技术也会不断下放,普通人可以轻松掌握的AI技术只会越来越多。
某互联网头部企业AI算法工程师晓晨告诉《看世界》,据他了解,专注于AI电话领域的大公司不算多,市面上大多数AI外呼平台都是中小型企业,这些企业用到的技术是相对低端的免费技术,所以可能会呈现出答非所问或响应时间过长的情况,这也是消费者对AI电话深恶痛绝的原因之一。
监管不易
技术本无罪,热衷分享的互联网精神,也是科技进步的动力之一。但当一些心怀不轨之人盯上了这些技术利用AI作恶时,合理的监管就必须被提上日程。从全球范围来看,如何监管AI电话,无疑是一大难题,往往是按下葫芦浮起瓢。
去年底,美国新罕布什州发生了多起利用AI语音克隆技术诱骗选民投票的案件。为此,今年2月,FCC通过了相关法案,禁止在AI电话中使用包含语音克隆的内容—但这一禁令并未限制AI智能回复和使用录音,公司可以通过提前录制大量录音,或语音剪辑等方式,来绕过禁令。

为此,FCC在7月公布出了一份新的提案,要求呼叫者必须明确披露自身使用了AI技术,且需在消费者知情并同意接收AI电话的情况下方可拨打。而如果呼叫中包含AI语音,则呼叫方必须在每次呼叫开始时,明确告知接听者该呼叫正在使用AI技术。目前,这一提案正在审查中,尚未正式实施。
8月起,欧盟《人工智能法案》正式生效,作为全球首部全面监管AI的法规,该法案无疑是欧盟在规范AI方面的重要举措,但仍有一定的局限性:美联社指出,该法案的限制会分布推进,大部分内容最晚至2026年8月才开始实施,相关企业有2年左右的缓冲期,企业在执行细则方面仍有沟通空间。
与欧美情况不同,晓晨认为,在国内,令人烦扰的AI电话与其说是AI技术作恶,不如说是信息泄露和对高频次呼叫限制不足导致,毕竟AI外呼平台用到的技术并不高级,监管层面几乎不可能对这些最底层技术一禁了之。
面对层出不穷的AI电话,他建议消费者可以采用手机自带或第三方拦截工具进行拦截,又或者尝试开启手机里的AI通话助理功能—不过他也坦陈,这些工具并不能完全阻截骚扰电话,只能说是治标不治本。
尽管国内外消费者对AI电话观感都不佳,但并不妨碍这一行业高速发展。美国市场研究公司Grand View Research发布的《AI呼叫行业趋势报告》指出,截至2022年,全球AI呼叫市场规模为13.8亿美元(约合人民币98.9亿元),预计2023—2030年,将以23.1%的复合年增长率增长。
如何监管这一庞大的行业,无疑是对相关部门智慧的又一次考验,毕竟,任何科技进步的出发点,都该是更好地造福人类,初心是为人类提供精准服务的AI呼叫,不该沦为遭人白眼的代名词。
(文中晓晨为化名)
责任编辑 吴阳煜 [email protected]