基于音频取证技术的录音资料真实性鉴定实践

基于音频取证技术的录音资料真实性鉴定实践0

摘要：录音资料真实性作为声像资料的一部分，是司法鉴定领域的一个热点研究问题，在我国的司法诉讼证据链中有着非常重要的地位和价值[1]。音频文件因录音设备来源多样，且对数字音频文件的篡改编辑将严重影响录音资料司法证据的真实性。文章主要结合音频取证技术的发展对录音资料真实性鉴定在实践中的应用进行了详细阐述，旨在为声像资料专业相关司法鉴定实践提供参考和借鉴。

关键词：音频取证;声像资料;录音资料真实性司法鉴定

中图分类号：TP317.4;TN911.73;TN919.81 文献标识码：A 文章编号：1009-3044（2022）16-0092-03

在法庭证据中录音资料由于其具有可信度高的特征，能够真实还原当事双方的争议热点，已经和人证、物证、当事人陈述、鉴定结果和证人发言与现场笔录具有同样重要的作用[2]。在2020年5月1日施行的《最高人民法院关于修改<关于民事诉讼证据的若干规定>的决定》中，也明确了电子录音证据可以作为民事诉讼的证据。

在笔者的司法鉴定实践过程中发现，伴随着信息化进程的发展，录音设备种类也层出不穷，由此带来音频文件的来源越来越广泛;另外随着计算机音频编辑软件及手机App的种类方式日益增加，其音频编辑合成的功能也越来越强大，从而间接导致目前关于录音资料类的篡改行为也呈现出多样化的趋势，严重影响法院司法审判过程中证据使用的公平和公正，迫切需要研究新的手段和方法来辅助支撑对录音资料真实性的鉴定实践。

1 音频取证技术现状

音频取证是法庭取证的重要组成部分，如何保证音频信号的合法性、真实性和关联性[3]也是自20世纪末以来音频取证的一致的研究方向。在我国，手机早已经成为日常生活、娱乐服务的重要组成部分，在此过程中由于手机便捷的语音通话录音功能，从维护自身权益出发及避免纠纷致使私录音频大量出现，特别是自去年最高法再次重申明确电子录音证据合法后，私录音频现象更是普遍。

1.1语音主动取证

通过计算机设定的算法，人为地将脆弱音频水印嵌入到原始录音文件之中，以此达到对录音的完整性和真实性做出主动且明确防范的音频取证技术[4]。音频主动取证可以通过特定方法有效防止合法的音频文件不被人为篡改或者伪造。该水印应当具有不可感知、水印的脆弱性、水印算法的安全性、提取水印的盲检测性能、嵌入容量小等特点，是特定环境特定设备下的产物，主要有单变换域及多变换域嵌入法，随着手机等便捷录音功能的出现及计算机音频编辑软件的普及应用，这种取证方法已经远远不能满足法庭取证的需要。

1.2语音被动取证

又称被动篡改语音检测，在目前的数字音频篡改检测中主要是利用ENFC的稳定性和唯一性进行数字音频篡改被动检测[5]，其本质上是基于电网频率一致性的检测方法，由于录音设备在接入电网的情况下录制语音，音频信号中必然会带有电网频率ENF（ElectricNetwork Frequency）信息[6]，在过去十多年中几乎成为数字音频鉴定的公用标准。这种根据ENF相位变化的一致性作为特征来检测音频篡改的技术在应用中有很大局限性，毕竟使用环境中有电网频率成分的音频案例有限。特别是随着语音滤波处理技术的发展，在手机录音中已经不太可能存在有电网频率的成分，比如手机厂家研发部门从保持听觉的舒适度，网络运营商为了进一步提高带宽使用效率，在手机通话时，特别是基站在处理手机通话没有输入信号的情况下，已经杜绝了真实电网频率干扰，转而根据背景特征向用户发出一些较为舒适的噪声。

1.3 录音来源识别

主要通过对音频的录音设备、录音场合、录音时间、涉及的说话人和采用的音频编码方式等方面进行客观分辨。市面上实际不同品牌的录音录像手机设备，由于软硬件版权及使用发明专利等原因，在硬件上采用不同的放大电路、滤波电路等设计，软件方面对语音采集算法加以修改，同时配套不同的降噪和压缩算法，从而产生了各个厂家不同的录音设备独有的自身特征，从而形成不同录音文件来源。

2 常用音频篡改方法

在国内，大量私录的语音文件作为重要且直观证据在法庭上提供，但同时由于音频编辑工具（计算机软件或手机App均有）的普及使得一些别有用心的人可以通过操作，随心所欲地编辑出自己想要的录音资料，通常对原始语音文件进行篡改主要表现为以下四种方式[7]。

2.1插入拼接

通常表现为插入不同来源的来源达到音频伪装目的，在一段原始音频中插入来自其他语音文件或自身复制文件的语音片段，实现更改语音要表达的思想，以达到混淆视听的目的，从而掩盖录音资料中包含的事实真相。

2.2剪切拼接

剪切目的是在语义上打乱使用者的逻辑关系，可在原始音频的任意位置粘贴新的音频片段或复制来自不同位置的音频，从而在表达上形成不同的逻辑次序。实践中可表现为同一或不同文件的剪切片段一次或多次拼接，形成虚假的事实认定依据。

2.3删除拼接

删除操作是出于自身利益需要，把音频文件中对自己不利的片段进行抹除，造成语意空白或对真实表达进行断章取义的效果，同样可以造成明显的与事实不符合的虚假音频文件。

2.4音频翻录

翻录是使用新的录音设备对上述使用音频编辑软件或手机App进行篡改的音频进行第三方的重新录制，以寻求获得法律庇护支持的行为，翻录的存在对法庭语音证据的真实性危害最大，是截至目前检验难度最大的一种音频篡改方式。

3录音资料真实性鉴定实践应用

在早期的被动篡改语音检测中，由于语音文件中嵌入的ENF成分作为一种天然嵌入到音频信号中的水印信号，不但可以作为时间戳来使用，且能通过带通滤波提取，将提取出的ENFC与供电部门的电网频率数据库中的数据进行比对[8]，可确定音频录制时间与当事人宣称是否一致，对待检测音频中ENF的波动和参考年份的数据进行比对[9]，可判断音频是否被篡改过。而今使用计算机软件或手机App对原始录音文件进行编辑修改，这在某种程度上是对数字音频文件本质上的篡改，对录音资料真实性鉴定要求也会更高。

3.1主动水印音频分析

在主动音频取证中，主要是通过在合法的音频中嵌入隐藏加密信息等方法来达到防止篡改的意图，大量用于在原始音频版权及个人隐私保护等场合[10]。具体加密使用原理如图1所示。

3.2环境噪声的分析

音频文件的噪声通常包括两种：声学环境（AE）噪声、设备录制（RD）噪声[11]。实验室环境下录制的音频背景噪声不易分辨，需借助其他特征具体分析，但是在室外或特定环境氛围中的环境噪声，则明显带有环境特点，通过声纹鉴定工作站进行波形及频谱分析，会出现非正常背景噪声的切换，或者与声称录制环境有差别，或者与检材送检者声明时刻不一致的音频就会有被篡改的可能。

3.3本底噪声的分析

本底噪声主要来源于录制音频设备本身，是由麦克风相关的电子元件及编码电路传输失真产生的电源噪声[12]。实际中表现为无信号输入，即寂音时的波形噪音。正常情况下，一段原始音频的本底噪声应该是持续且规则的，如果前后噪声不一致有可能是不同设备录制的拼接音频。

3.4文件属性的分析

音频文件在声纹检验工作站中进行文件属性查看，文件命名格式及命名规则、音频扩展名、音频创建时间、修改时间、音频时长、采样率及是否为立体声录制等一目了然。通过对声称录制设备音频进行仔细比对，就能发现篡改音频的真面目。

3.5听觉的检验分析

听觉检验主要来自鉴定人的经验，主要通过反复审听语音的整体情况来判断是否存在交谈过程的卡顿或违反常理的语意逻辑，对话语义的关联性和逻辑性是否异常，对话声、背景声音有无突兀或非正常的变换，录音中有无出现脉冲信号丢失、覆盖等现象。

3.6采样直方图的分析

不同采样模式录制的音频语音，在采样直方图中会有直观表示，正常音频呈现高斯分布模式，当编辑插入不同音频编码片段后，会有明显的非均匀量化特征出现，如图2中不同采样位数直方图出现细密程度不一致的突变。

3.7采样率量化检验分析

同一设备录制的没有经过篡改的音频，其采样率量化位数应该是一致的，对上述采样直方图进行放大分析对比，就能使篡改音频现出本来面目，如下图3中这三处显示出采样量化位数明显不一致的情况。

3.8直流（DC）偏移波形分析

通过对直流分量中心偏离位置的分析，可判断音频文件是否来自不同设备录制的，或者是否由不相关的语音片断进行拼接而形成，如图4所示异常插入其他设备录制片段的直流偏移的波形显示。

3.9频响范围的分析

不同设备的频响范围是不尽相同，特别是采用不同采样率的设备进行翻录或者编辑音频的情况下会有高低的区别，表现在频谱图中会有人为抹除痕迹或频响范围不一致的情况。如图5中对提交的检材和声称样本进行平均频谱的比较后，发现两者不管在频响范围还是截止频率方面均存在明显不同。

3.10频带能量的分析

频带能量分析主要针对翻录音频的分析，实践中翻录音频能够改变特定频带范围内能量的强弱，频谱表现为具有“带阻滤波”之特征谱图。

4 国内外研究进展

从音频中提取蕴含环境特征的参数，是目前在声像资料之录音真实性鉴定仍在积极探索的一个方向。由于录音环境参数一般与说话人身份特征、职业有很大关系，且覆盖频段较宽，在数码录音资料中就表现为说话人、录音设备特点及背景噪声等的叠加频谱。这方面国内外的基础理论研究有一定的进展，比如Mubarak就采用过零率特征和MPEG-7的包含音频波形、功率、谱包络和谱质心等的底层特征作为特征参数，对不同的录音场合进行分类识别[13];Hong Zhao还从混响和背景噪声中提取环境特征参数，采用SVM作为分类器，对不同音频说话人及不同麦克风种类和不同环境抽样比对作为识别方法[14]，但在当前实践中仍没有配套设备来检测。目前较为先进的研究成果是采用梅尔频率倒谱参数MFCC及噪声功率谱等特征参数与录音设备之间进行相关联分析的方法[15]。

5 结束语

随着现代人法律、电子物证意识的提高，法庭中大量私录音频证据的出现，作为真实存在并可以在很大程度上对当事人权益进行保护的录音资料，越来越受到社会的关注，同时使用音频编辑软件对法庭音频证据的篡改，使得在法庭庭审过程中对涉录音资料的真实性、完整性鉴定成为必然趋势，并呈现日益增长的势头，使得作为技术鉴定人员，必须不断研究音频取证技术，掌握相关音频篡改技术发展，正所谓知其然，才能知其所以然，最大限度保证法庭证据的公平公正。

参考文献：

[1] 最高人民法院.《最高人民法院关于民事诉讼证据的若干规定》法释〔2019〕19号[Z].2019.

[2] 廖翔，赵志强，庞业光，等.声像检验鉴定技术概述[J].警察技术，2006（6）：45-46.

[3] 司法部.《声像资料鉴定通用规范》SF/Z JD0300001-2010[Z].2010.

[4] Kirbiz S，Lemma A N，Celik M U，et al.Decode-time forensic watermarking of AAC bitstreams[J].IEEE Transactions on Information Forensics and Security，2007，2（4）：683-696.

[5] Petrovic R.Digital watermarks for audio integrity verification[C]//7 th International Conference on Telecommucations in Modern Satelite，Cable and Broadcasting Services，Serbia and Monrenegro. Yugoslavia： IEEE Computer Society Press，2005：215-220.