多模态特征融合神经网络在App智能检测中的应用

多模态特征融合神经网络在App智能检测中的应用0

摘要：随着移动互联网的普及，利用App 进行电信网络诈骗等违法犯罪活动日益猖獗，对社会安全构成严重威胁。为了有效打击此类犯罪，文章提出了一种基于多模态特征融合神经网络的App 智能检测系统。该系统综合利用App 图标图像、文本描述和用户行为模式等多模态特征，构建了一个基于ViT-GPT2、ukrparaphrase-multilingual-mpnet-base 和双向LSTM融合的深度学习模型，实现了对恶意App 的精准识别。实验结果表明，该系统在测试集上取得了75% 的准确率，能够有效识别涉黄、涉诈、涉赌等违法应用。未来，将进一步优化模型性能，提升检测精度和效率。

关键词：App 安全；恶意软件检测；深度学习；特征融合

中图分类号：TP3 文献标识码：A

文章编号：1009-3044（2025）06-0057-03 开放科学（资源服务）标识码（OSID）：

0 引言

移动互联网的快速发展为人们生活带来便利的同时，也滋生了利用App进行电信网络诈骗等违法犯罪活动。这些恶意App通常伪装成正常的应用程序，窃取用户隐私、传播恶意信息，严重危害社会安全。因此，开发高效、智能的App检测系统，对维护网络安全至关重要。本文提出了一种基于多模态特征融合神经网络的App智能检测系统，旨在精准识别和打击各类恶意App。

1 国内外研究现状

近年来，针对App智能检测系统的研究得到了广泛关注，尤其是网络诈骗和恶意软件的检测。国外在网络安全相关领域，尤其是涉诈网站溯源和安卓恶意软件检测方面成果显著。Sonya A等人[1]提出结合动静信息的框架和模型，实现了对Android 恶意软件可靠分类，测试结果良好，还助力防御URL 网络钓鱼，增强移动安全。在安卓恶意软件检测方面，FariaNawshin等人[2]提出DP - RFECV - FNN 模型，可保护隐私且检测准确率高。Mahindru Arvind 等人[3]提出的特征选择框架也有效提高了检测率。

国内在网络诈骗App 检测、Android 平台恶意软件和恶意应用检测、电信诈骗信息识别等方面深入研究。史晓苏等人[4]提出基于机器学习算法的涉诈App识别检测模型，支持向量机算法表现较好。王庆飞等人[5]提出的Android 恶意软件检测模型保障平台安全。罗锦光等人[6]的GEP - NBC 模型提高了Android 恶意应用检测效率。刘鑫等人[7]提出的文本分类技术识别模型对电信诈骗信息识别效果优良。

总体而言，国内外在App智能检测系统方面的研究均显示出不同的技术路径和应用效果。尽管国内的研究起步稍晚，但随着技术的发展，尤其是深度学习和大数据的结合，国内的研究水平正在逐步接近国际先进水平。未来，结合新兴技术，App智能检测系统必将在网络安全领域发挥更大的作用。

2 相关技术应用综述

2.1多模态特征融合

多模态学习能够结合不同模态的信息，例如图像、文本和行为数据，从而更全面地刻画App的特征，提高识别准确率。本系统融合了App图标图像、应用描述文本和用户行为数据等多模态特征，利用不同模态之间的互补性，提升检测模型的鲁棒性。

2.2神经网络模型

本系统采用了多种神经网络模型，包括视觉变换器（ViT）和长短期记忆网络（LSTM）。ViT模型擅长处理图像数据，能够有效提取App 图标的视觉特征。LSTM模型适用于处理序列数据，能够捕捉应用描述文本中的上下文信息。此外，本文还使用了预训练的语言模型ukrparaphrase-multilingual-mpnet-base，将文本特征转化为数值化的词向量表示，以便输入LSTM模型中。

2.3 APK文件解析提取特征

为了获取App的多模态特征，本系统采用自动化程序对APK文件进行解析。利用apktool反编译APK文件，提取AndroidManifest.xml文件中的应用包名、标签等信息，并提取应用图标图像。此外，还分析Smali代码，提取代码特征，用于后续模型训练。

3 App智能检测系统的设计

3.1数据收集

本研究从公开的App应用市场和第三方安全平台收集了大量的APK文件，涵盖了正常应用和各种类型的恶意应用，例如涉黄、涉诈、涉赌和黑灰产业等。为了保证数据的多样性和代表性，收集了不同类别、不同版本的App。

3.2数据预处理

对收集到的APK文件进行预处理，包括以下步骤：1）使用apktool 反编译APK 文件；2）提取应用图标、文本描述和用户行为数据等多模态特征；3）对文本数据进行清洗和分词；4）对图像数据进行缩放和归一化；5）将特征数据转换为模型可接受的输入格式。

3.3模型构建与训练

本系统采用ViT-GPT2模型提取图标图像特征，使用ukrparaphrase-multilingual-mpnet-base模型将文本特征转化为词向量，然后输入双向LSTM模型中进行分类。模型训练过程中，采用交叉验证等技术，防止过拟合，提高模型的泛化能力，如图1所示。

3.4 App智能检测

App检测系统利用训练好的模型对新上传的APK文件进行实时分析与识别。系统首先监控指定目录，自动检测新APK文件并对其特征进行提取。通过预先训练的模型，系统能够快速识别应用的类型及其潜在的违法性质，包括涉黄、涉诈、涉赌及黑灰产业等。检测结果将被即时传输App检测模块，以支持后续的分析和应对措施的制定。这一过程不仅提高了检测的效率，还为网络安全提供了有效的技术支撑，确保用户在应用使用过程中获得更高的安全保障。

3.5用户界面与交互

用户界面与交互为App检测系统提供了一个直观、友好的操作平台。用户可以通过该界面实时查看APK检测结果，获取关于潜在违法应用的警示信息和防范建议，并据此做出相应的操作决策，使用户能够快速掌握检测信息，提升其安全意识和使用体验。

4 系统实现与评估

4.1系统实现环境

本系统基于Python 3.8、JDK 1.8和apktool等工具搭建，运行环境为Windows 10操作系统，硬件配置为Intel Core i7处理器，16 GB内存。

4.2模型构建与训练

模型构建过程中，构建了一套综合的模型体系，用于对提取的APK 特征进行处理与分析，以实现对APK 所属类别的精准判别，以下是融合模型的结构图，如图2所示。

通过以上三个模型的融合使用和协同工作，对提取到的APK 特征进行逐步处理与分析，实现了对APK 所属类别的准确判别，为相关应用场景提供了有效的技术支撑与解决方案。

4.3模型评估

评估指标说明：主要依据准确率、精确度、召回率、F1 分数及支持度等指标衡量模型性能，各指标有其特定含义及计算方式。

评估结果分析：不同类别上模型表现差异显著，类别0 和4 表现较好，类别1 和2 精确率高但召回率低，类别3 完全失效。针对模型表现不佳的情况，需通过调整参数、增加数据等方法优化性能，如表1所示。

4.4 混淆矩阵

混淆矩阵如图3所示：

混淆矩阵表现：模型在white 和scam 类别表现较好，black 类别表现最差，sex 和gamble 类别表现相对较好但存在误判情况。

误差原因探讨：数据不平衡、特征选择与表达不佳、类别间存在混淆等因素可能共同导致分类结果出现误差，需进一步分析以优化模型。

4.5系统部署与实测效果

通过以上三个模型的融合使用和协同工作，对提取到的APK 特征进行逐步处理与分析，实现了对APK 所属类别的准确判别，并将其部署在Web端页面，展示出结论，可以为后期相关应用场景提供了有效的参考，如图4所示。

5 结束语

本文提出了一种基于多模态特征融合神经网络的App智能检测系统，通过融合图像、文本和用户行为等多模态特征，实现了对恶意App的有效识别。实验结果表明，该系统具有较高的检测精度和效率。未来，将进一步研究如何提高模型的鲁棒性和泛化能力，例如引入对抗训练、迁移学习等技术，并探索如何应对不断变化的恶意App，以期为构建更安全的网络环境做出贡献。

多模态特征融合神经网络在App智能检测中的应用

经典小说推荐

杂志订阅