AI时代，如何应对“耳听为虚”

在人工智能时代，技术正悄然改变着我们的生活。

开车导航，可以定制个人专属语音包；不想费眼看书，能让AI生成有声书；喜欢某位歌手，还可以使用他们的声线重新演绎新的歌曲……

这些都是AI技术与“声音”相关的使用场景。AI技术的发展提升了生活便利和趣味性，但使用这些AI生成的声音，是否有法律风险呢？在大量用户“尝鲜”AI声音的同时，又该如何让“声音”不被违法使用？在“耳听为虚”的情况下，司法机关怎么应对技术发展带来的挑战？

AI换声，不能想换就换

2024年4月23日，北京互联网法院宣判了全国首例AI生成声音人格权侵权案。此案中，配音师殷女士的声音被AI处理生成了一款文本转语音产品，该产品的下载量高达32.6亿次，这给以“声音”为业的她带来了很大的影响。

民法典规定，“对自然人声音的保护，参照适用肖像权保护的有关规定”。

北京互联网法院在殷女士案的判决中也明确认定，在具备可识别性的前提下，自然人声音权益的保护范围可及于AI生成声音，并且利用人工智能合成的声音，如果能使一般社会公众或者相关领域的公众根据其音色、语调和发音风格，关联到该自然人，可以认定为具有可识别性。

大成律师事务所高级合伙人、北京市律师协会数字经济与人工智能领域法律专业委员会副主任肖飒认为，根据这一判决，可见我国司法实践肯定了声音权与肖像权一样，是一种标表型人格权益，均具备可支配性、可商业利用性。在未经许可的情况下使用他人的声音制作AI生成的作品，系侵犯他人人格权、声音权的行为。

使用AI生成声音，是生成式人工智能的一种应用方式。生成式人工智能的核心在于利用计算机算法和大量数据来生成新的、具有实际价值的内容。这种技术能够模拟人类的创造力和想象力，从而生成文本、图像、音频和视频等多种类型的数据。具体到音频生成领域的实际应用里，包括了乐曲、歌曲生成和语音克隆等。

此前，“AI孙燕姿”翻唱《发如雪》等歌曲曾迅速走红网络，多平台播放量破百万，热度居高不下。之后又出现一批“AI歌手”，其中不乏已故歌手。

“一般来说，AI歌手是通过学习歌手声音而产生的人工智能声音模型，虽然听起来像歌手的声音，但不是对歌手演唱原音的复制和传播，而是类似于声音‘模仿秀’。”中国音像与数字出版协会出版融合工作委员会副秘书长、京商传媒执行CEO王文峰介绍道。

北京航空航天大学法学院副教授、工信部工业和信息化法治战略与管理重点实验室副主任赵精武表示，对于AI歌手此类应用是否构成侵权存有争议，但主流观点还是倾向认定这类AI合成新歌曲构成对原歌手声音权、著作权的侵害，使用歌手声音进行AI合成之前应当获得歌手的单独同意。当然，如果AI合成歌曲仅用于个人欣赏不对外发布的话，则可能并不构成侵权行为。

王文峰介绍说，AI声音的发展、迭代速度很快。“我在几年前听一些使用人工智能配音的音频，会觉得比较机械，听起来也很枯燥。现在再来听一些名人授权后生成的有声读物，已经很难区分是真人还是AI生成了。”

王文峰也表示，现在这些技术的门槛大大降低，很多第三方插件工具越来越智能，在方便创作、使更多人能够拥抱流媒体时代的同时，也有其消极影响，让很多粗制滥造的内容大规模地出现，一些“魔改”视频也容易出现版权纠纷。

“事实上，在影视、图片、文学、动漫等领域，生成式人工智能应用引发的版权侵权纠纷并不少见，涉及的版权问题复杂多样，妥善应对和解决这些风险，才能更好地利用这一先进技术进一步推进文化产业繁荣发展。”王文峰说道。

《方圆》记者调查发现，目前市面上出现了多款AI声音生成软件，门槛低，部分软件可以免费使用，相关教程也很多。哪怕完全是技术“小白”，不想自己花心思，也可以在购物平台花钱找商家帮忙生成。

这些软件一方面可以满足大家的“脑洞”，像是模仿不同人的声音玩梗，给家里宠物配音等，另一方面也提高了带货主播、视频博主等职业的工作效率。但与此同时，这些工具的违规使用也带来了法律风险。

例如，近段时间，有不少视频使用AI合成名人的声音，有的利用名人背书来直播带货，有的则是曲解、捏造名人言论，博人眼球、骗取流量。而且，由于具有名人效应，这些音视频往往传播迅速，受众更广。这不仅可能对个人名誉造成损害，还可能造成社会信任危机，危害公共秩序。

赵精武表示，如果使用AI换声，擅自歪曲、编造他人言论的，构成民事侵权责任，被侵权人可以要求行为人赔礼道歉、赔偿损失等；情节严重，扰乱社会秩序的，则可能涉及侮辱诽谤、损害商业信誉等刑事犯罪，需要承担相应的刑事责任。

清华大学人工智能研究院视觉智能研究中心主任邓志东教授表示，AI换声事件并不少见。“在弱人工智能时代，就有DeepFake这样的深度伪造技术出现。目前已进入大模型时代，技术上的挑战更大，不仅逼真度越来越高，音频、视频、动作、表情与风格联合，而且使用者需要的技术门槛也降低了。但有利的一面是，随着技术的进步，我们也更有技术条件进行AI真伪鉴别和追踪。”

邓志东表示，基础大模型作为生成式人工智能的操作系统，需要事先利用超大规模的数据进行从头开始的预训练，其中的预训练数据不仅采用了全人类已有的原始文本语料数据，也包括了线上或线下图像、视频和音频等，而这些多模态数据大部分是具有版权的，如代码、论文和文学作品都有各自的著作权，多模态基础模型也可能涉及人脸图像、音视频作品等。因此，生成式人工智能可能会带来知识产权、隐私与合规性问题。目前大模型的预训练数据基本上都没有顾及这些问题，其发展还是相当粗放的。

AI让传统犯罪升级

AI技术的发展，让其成为传统犯罪升级的技术工具，而最常见的就是诈骗。“AI技术可能会使得犯罪成本降低、成功率上升，现有的AI技术甚至能够通过3秒的声音进行‘克隆’。这几年各地公安部门均有侦破利用AI技术仿冒视频与被害人联系的诈骗案件，让被害人误以为对方是自己熟悉的人，再加上如果通过网络黑灰产获取被害人个人信息，被害人更加难以辨别真伪。”赵精武说道。

在湖北省宜昌市，就出现了利用AI换声实施诈骗的案例。案例中，受害者多为老年人，犯罪分子冒充他们的孙辈，以犯了罪被抓了需要保证金，或者打架了需要赔偿医疗费等理由，让长辈赶紧送钱。

而山东省济南市的林小宇（化名）则是被AI生成的“哥哥”诈骗。林小宇和对方有过7秒的视频连线，画面里是熟悉的脸，声音也是自己亲哥哥的声音。既然“哥哥”说急需一笔钱，林小宇便转账给对方指定的银行卡里。在后续的调查中，警方还发现，这起AI诈骗真正的源头在境外。境内的这伙人，是一个专门帮助境外诈骗分子进行洗钱的犯罪团队，他们分工明确，买金、打款、对接上线等都由不同的人操作。

还有不少留学在外的学生反映，国内的父母同样接到了诈骗团伙的电话，声音和自己的很相似，且设定了“绑架”这一场景，夹带惨烈的哭声，更能让家人着急。

国外也有此类犯罪出现，肖飒介绍称，“外国某律师自曝，自己的父亲接到了用AI制作的使用了他声音的诈骗电话，称自己因酒驾开车被捕，急需一笔钱保释出狱。而在AI诈骗案发生前，这名律师刚刚上了电视，公开放出了一段包含其声音的10多秒的视频”。

除了诈骗近亲属，还存在假冒公司领导的诈骗案件。陕西西安一名财务人员，接到“老板”要求赶紧打款的视频通话，声音、脸都和本人高度相似；一家跨国公司香港分部的职员受邀参加总部首席财务官发起的“多人视频会议”，多次转账转走2亿港元，事后才知道多人会议里，其他“参会人员”都经过了“AI换脸”。

“使用AI换声来实施诈骗，犯罪分子主要依靠的是一个时间差和信息差。”北京市海淀区检察院科技犯罪检察团队负责人李鹏向《方圆》记者介绍道，“所谓时间差，可能是留学在外的子女因为时差打不通电话，也可能是亲属因为上班未能及时回复消息。而信息差是指，公司员工未必很熟悉公司高层领导的长相和声音，也不一定清楚公司的‘项目’，一旦‘领导’在月底季末要求打款，在不设防的情况下很有可能就被骗了。”

邓志东介绍称，“利用AI换声、换脸实施各种犯罪行为，技术门槛并不高，网络上已有各种工具集可以使用，技术难度并不大，而且换声、换脸的逼真度会越来越好，普通用户会愈来愈难以鉴别或区分”。

那么，犯罪分子利用AI换声实施诈骗，他们声音的“原材料”从何而来？

肖飒表示，大部分来自声音主人自行拍摄并发送至各类视频平台、社交媒体上的视频或音频，也有一部分是公众人物，或是如上述案件中提到的外国律师一样，恰好被采集声音素材后公开放出。当然，要获取一个人的声音其实非常容易，也可以通过与声音主人打电话录音等方式获得素材。

此前，国家金融监督管理总局金融消费者权益保护局发布防范新型电信网络诈骗风险提示中介绍道，不法分子以“网店客服”“营销推广”“招聘兼职”“婚恋交友”等为借口，通过微信、电话等方式联系消费者，采集发音、语句或面部信息，继而利用“换脸”“拟声”等技术实施诈骗。

办理了利用AI换声诈骗案的宜昌市西陵区检察院检察官郑凯表示，据他了解，声音的来源还可能是手机下载的应用。“安装部分应用时，可能需要授权使用手机麦克风，犯罪团伙有可能远程利用这个权限收集手机使用者的声纹。再者，受到诈骗的多为老年人，尽管AI生成的声音未必真的能以假乱真，但在心情急迫、恐慌的情况下，很有可能来不及核实就上当受骗了。”郑凯也提醒道，不要随意点击未知网址，下载来路不明的应用。

李鹏也表示，使用AI换声实施诈骗，除了要获取到“声音”原始素材，还要掌握诈骗目标的个人情况，例如家庭背景、家庭财产情况、职业等。因此，李鹏建议，在互联网上尽量减少个人信息公开，涉及个人声音、影像的发布更要慎重。“日常生活中，涉及资金往来的行为，最好是多渠道确认对方信息。例如，自己的母亲打电话称有急事需要钱，那么可以向家庭其他成员确认是否有这回事，等等，避免因为单一信息而盲目转账。”

肖飒也提醒，接听到与金钱、财产相关的电话，无论声音如何相似，都需要通过其他方式核实对方真实身份，核实身份的方式可以是询问只有真实的声音主人才知道的信息。“需要注意的是，开视频并不能证明对方的身份信息真实，当前通过AI制作实时通话视频的技术已经较为成熟，眼见也不一定为实，反而有可能是诈骗行为人的局中局。”

事实上，使用AI技术实施犯罪的也不仅仅只有诈骗。

李鹏介绍称，常涉及的罪名还有侵犯公民个人信息罪，非法侵入计算机信息系统罪，破坏计算机信息系统罪，帮助信息网络犯罪活动罪，制作、贩卖、传播淫秽物品罪，侮辱、诽谤罪等。

使用AI工具实施犯罪，相关技术的研发人员或者机构需不需要为犯罪行为担责呢？

赵精武称，如果AI研发者是主动提供技术工具，具有共同的犯罪意图，则需共同承担刑事责任。若其对犯罪行为完全不知情，且也履行了必要的注意义务，那么仅由罪犯承担相应刑事责任。AI研发者不对自己无法控制、无法预见的AI犯罪活动与罪犯共同承担刑事责任。

如果想要预防犯罪分子利用AI实施犯罪，赵精武认为，需要监管机构、服务提供者以及社会公众共同参与。“监管机构需要针对市面上常见的AI信息服务进行监管备案，服务提供者需要持续优化升级预防生成违法信息的内部管理制度和技术措施，社会公众应当树立法治观念，合理使用AI信息服务，监管机构和服务提供者也需要积极鼓励和支持社会公众举报违法信息服务。”

AI时代，如何应对“耳听为虚”

AI换声，不能想换就换

AI让传统犯罪升级

经典小说推荐

杂志订阅