基于深度学习的电信银行卡诈骗数据分析
作者: 熊丽华 何玉缘 朱倩
摘要:互联网和电信技术的快速发展在为人们生活带来便利的同时,也催生了电信诈骗等新型犯罪问题。利用深度学习算法构建预测模型,对于有效识别电信银行卡诈骗具有重要意义。本文首先对数据进行预处理,并通过卡方检验、Kolmogorov-Smirnov 检验和点双列检验筛选出与电信诈骗相关的特征变量。随后,采用逻辑回归模型进行初步训练,以进一步确定最终的特征变量。最后,分别构建逻辑回归、随机森林和神经网络模型进行训练与比较。实验结果表明,随机森林模型在预测精度方面表现最佳,而神经网络模型则在预测速度上具有显著优势。
关键词:电信诈骗;深度学习;统计学;特征选择;预测模型
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)34-0066-04 开放科学(资源服务)标识码(OSID) :
1 概述
电信诈骗是指犯罪分子利用电话、短信、网络等手段,编造虚假信息,设置骗局,诱骗受害者进行远程转账或支付的犯罪行为。近年来,随着改号软件、AI语音合成等技术的应用,电信网络诈骗手段不断翻新,诈骗成功率居高不下,给人民群众造成了严重的财产损失[1-2]。电信银行卡诈骗已成为当前社会亟待解决的严重问题。通过分析电信银行卡交易数据,识别高风险交易特征并构建预测模型,对于公安部门和金融机构有效防范诈骗行为、保障用户财产安全具有重要意义。
本文基于100万条电信银行卡交易数据,结合统计学和深度学习方法,对数据进行了预处理、特征分析和模型构建,最终建立了电信银行卡诈骗预测模型,并取得了99%的预测精度。本文实验数据包含100万条电信银行卡交易记录,其中约8万条为电信诈骗数据(见表1) 。
1.1 数据预处理
数据预处理是数据分析的第一步。本文利用 Ex⁃cel 和 Pandas 的 describe 函数对数据进行了初步统计描述。结果显示,数据中不存在缺失值、重复值和异常值,因此无须进行相应的处理。
然而,从图1的数据描述信息可以看出,变量 Dis⁃ tance1、Distance2 和 Ratio 的方差较大,因此需要进行标准化处理。标准化处理的代码如下所示。
1.2 卡方检验
为了探究交易渠道、交易设备、交易地点与电信诈骗之间的关系,即分析各个特征与 Fraud 标签的相关性,我们将分类变量和连续变量分别进行分析。首先,对分类变量进行分析。
卡方检验和Fisher精确检验常用于分析分类变量之间的相关性。考虑到数据量较大,本研究选择卡方检验。卡方检验的基本原理是比较观测频数与期望频数之间的差异,并计算卡方值。卡方值越大,表明观测频数与期望频数之间的差异越大,两个变量之间的相关性越强。
为检验自变量之间是否存在关联性,我们将 Re⁃ peat、Card、Pin、Online 四个变量按统一顺序拼接成字符串,然后转换为二进制,构成一个新的多分类变量,并与 Fraud 进行卡方检验。代码如下所示。
从表2的卡方检验结果显示,Card、Pin、Online与Fraud有较强相关性。将变量联合起来后相关性更强,但与Repeat无太大关联。
1.3 正态性检验
对于连续变量与二分类变量的相关性分析而言,检验连续变量是否符合正态分布至关重要。如果变量符合正态分布,则应采用点双列相关分析;否则,应采用斯皮尔曼相关系数。
接下来,对 Distance1、Distance2 和 Ratio 三个连续变量进行正态性检验,并根据检验结果选择合适的相关性分析方法。常用的正态性检验方法包括 Kolmogorov-Smirnov (K-S) 检验和 Shapiro-Wilk 检验。对于大样本数据,K-S 检验通常是更为合适的选择。
K-S 检验是一种非参数检验方法,用于检验样本数据是否服从特定分布。其基本原理是比较样本数据的经验累积分布函数与假设分布的理论累积分布函数之间的最大差异 (D 值)。D 值越大,表明样本数据与假设分布之间的差异越大,样本数据服从该分布的可能性越小。K-S 检验的代码如下。
表3 展示了 K-S 检验的结果。Distance1、Dis⁃ tance2 和 Ratio 的统计量均为 0.0,p 值均为 1.0,这表明这三个变量均符合正态分布。
1.4 点双列相关性分析
针对符合正态分布的连续变量 Distance1、Dis⁃ tance2 和 Ratio,以及二分类变量 Fraud,可以采用点双列相关性分析来检验它们之间的相关性。点双列相关性分析的基本原理是将连续变量划分为若干个区间,并比较每个区间内二分类变量不同取值的比例差异。比例差异越大,说明连续变量与二分类变量之间的相关性越强。以下展示了点双列相关性分析的代码。
print('点双列检验',r_values) 表4展示了点双列相关性分析的结果。从表中可以看出,Distance1、Distance2 和 Ratio 的p值均为 0.0,这表明这三个变量与 Fraud 之间均存在显著的统计学关联。
1.5 交易特征与电信诈骗风险关联分析
通过分析 Card、Pin、Online 以及这三个变量的组合,可以识别出哪些交易行为更容易发生电信诈骗,从而在交易过程中尽早识别潜在风险并采取防范措施。以下展示了因素统计的代码。
表5 的分析结果表明,未在设备上进行交易、未使用 PIN 码交易以及线上交易是电信诈骗的高发方式。
接下来,我们将 Card、Pin、Online 三个特征按照固定顺序拼接成字符串变量,对其进行统计分析,并绘制柱状图(图2) 。
从图2 可以看出,“在线下设备上使用 PIN 码”这种交易方式仅有一条记录为电信诈骗,表明这种交易方式相对安全。相反,“在线上不在设备上且不使用 PIN 码”进行交易的风险最高。
2 模型构建
2.1 特征筛选
特征选择是模型构建中的关键步骤,旨在去除不相关或冗余的特征,从而提高模型性能、简化模型结构、降低过拟合风险,并增强模型的可解释性。
为了筛选出合适的特征,我们采用了多种数据组合策略。将数据进行拆分和标准化处理后,将其输入逻辑回归模型进行初步训练,并根据训练结果确定最终的特征组合。
根据初步训练结果(如表6所示),主要特征包括标准化后的 Distance1、Distance2、Ratio,所有的二分类变量以及 Repeat。接下来,使用这些特征进行进一步的优化训练,并选择合适的模型进行训练。
2.2 模型筛选
深度学习是机器学习领域的一个重要分支,它通过多层神经网络学习数据中的复杂模式和规律。深度学习模型能够自动提取数据特征,并用于预测或分类。神经网络是一种模拟人脑神经元结构的计算模型,由多个相互连接的神经元(也称为节点)组成。每个神经元接收来自其他神经元的输入信号,经过处理后将输出信号传递给其他神经元。通过学习大量数据,神经网络能够识别数据中的模式和规律,从而实现预测或分类。
本文使用 Keras 构建了一个三层神经网络模型。该模型的第一层是包含 64 个神经元的全连接层,第二层是平铺层,最后一层是使用 Sigmoid 激活函数的全连接层作为输出层。模型优化器选择 Adam,学习率设置为 0.001。神经网络模型的代码如下,图3 展示了神经网络的训练过程。
表7 对比了逻辑回归、随机森林和神经网络三种模型的训练结果。从结果可以看出,随机森林模型的准确率最高,略高于神经网络模型(0.003%) ,但神经网络模型在预测速度方面更具优势。
根据具体的应用场景,可以选择最优模型。如果对预测速度有较高要求,建议选择神经网络模型;如果对预测精度有较高要求,建议选择随机森林模型。
3 结论与建议
本文基于银行交易数据,结合统计学和深度学习技术,构建了多种预测模型,用于识别电信诈骗行为。实验结果表明,模型能够有效识别潜在的电信诈骗行为,准确率高达 99%。
针对日益猖獗的电信诈骗问题,本文提出以下建议:
1) 加强反诈宣传。 ① 加大反诈宣传力度,通过多种渠道(线上线下、传统媒体和新媒体等)将反诈知识普及到每家每户[3]。② 创新反诈宣传形式,采用群众喜闻乐见的方式,增强宣传的吸引力和感染力,让反诈意识深入人心[4]。
2) 利用科技手段防控风险。① 依托大数据、云计算等技术分析潜在的电信诈骗风险。 ② 在交易过程中,如果识别出收款方存在诈骗嫌疑,应立即冻结交易,并及时采取措施。 ③ 对于涉嫌诈骗的电话号码,应及时进行标记,并向潜在受害者拨打劝阻电话[5]。
3) 强化各方责任。① 金融机构:建立健全风险控制体系,加强账户管理,完善交易监控机制,及时识别和拦截可疑交易。② 公安机关:加强对电信诈骗犯罪团伙的打击力度,严厉打击幕后黑手,维护社会治安秩序。 ③ 广大市民:提高防范意识,不轻信陌生电话和信息,不随意透露个人信息,不轻易转账汇款。
参考文献:
[1] 王丹,缪林,朱相俊,等.基于电子数据勘查的电信诈骗案件分析模型研究[J].电信快报,2022(10):35-38.
【通联编辑:唐一东】