基于人体骨架数据的动作识别研究
作者: 李海涛 范文杰 李孟琳 魏显隆 程宇飞 丁习原 张庆 李策
摘要:现如今基于骨架的动作识别已广泛应用于多媒体应用中,如人机交互、人类行为理解和医疗辅助应用。基于上述背景,对于基于深度学习的骨骼数据的人体动作识别方法加以研究。以MS-G3D 为模型为研究基础,对其进行修改优化以达到更高效的人体动作识别并设计实现软件达到骨骼数据可视化的效果。文章软件设计制作基于PYQT5 进行开发,使用了Python 编程语言多个模块进行视频和其他数据的管理。文章基于骨骼的人体动作识别研究,通过将原MS-G3D 模型的GCN和TCN 多尺度邻接矩阵扩大得到感受野扩大的效果。修改后邻接图增加更多运动信息。通过采用NTU RGB+D 60 的joint在Cross-Subject (X-Sub)模式下做数据集进行的实验。修改后的模型相较于原本的MS-G3D 模型,准确率提升更为稳定,模型收敛速度更快。结论证明了修改邻接矩阵对于模型的积极作用。
关键词:骨骼数据;深度学习;MS-G3D;邻接矩阵;NTU RGB+D 60;感受野
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2023)17-0005-05
0 引言
近年来,随着深度学习技术的发展,视频动作识别已成为计算机视觉领域的一个热门研究方向,基于骨架的动作识别[1-3]已经被广泛应用于许多领域,例如人机交互、健康监测、安防监控、体育训练等。基于骨架的动作识别技术利用传感器(如RGB-D相机、惯性测量单元等)捕捉人体关键点的位置信息,然后通过算法对关键点的位置进行分析,从而识别人体的动作。
在视频动作识别任务中,空间时序卷积神经网络(STCNN)[4-6]和其变种模型是一种常用的架构,它们使用三维卷积来捕捉视频中的空间和时间信息。然而,STCNN模型的局限性在于只能捕捉固定长度的时间段内的动作信息,难以适应不同长度的视频输入。此外,传统的STCNN模型也难以处理由于复杂背景、遮挡和噪声等因素导致的动作识别中的困难情况。为了克服这些限制,近年来提出了许多改进STCNN模型的方法,其中基于多阶邻接矩阵[7-9]的方法表现出了很好的性能。多阶邻接矩阵方法是一种将不同时间段的信息相互交互的方法,它通过考虑不同时间段之间的空间-时间关系来建立图结构,并利用图卷积神经网络(GCN)对这些关系进行建模。多阶邻接矩阵方法已经被证明可以显著提高视频动作识别的准确性。
但GCN和GTCN模块[10-12]提出的多尺度的邻接矩阵并没有考虑对于相同的动作,全局运动的尺度可能不完全相同。有些可能更快,有些可能更慢。为了学习鲁棒的全局运动特征,应该考虑快运动和慢运动两者。
本文旨在进一步提升视频动作识别的准确率,提出了一种新的MS-G3D-L模型,该模型基于MS-G3D 模型[13-15],通过扩大MS-GCN块的多尺度的邻接矩阵,进而扩大模型的感受野,使得模型的准确率有了稳定的提升。具体来说,本文采用的方法是扩大其保留阶次,使得快运动和慢运动的特征都能被模型学习到,然后将快慢运动矩阵拼接起来,得到一个包含综合特征的矩阵。从而允许模型更好地利用不同的信息。
实验结果表明,MS-G3D-L模型在多个公共数据集上都取得了良好的表现,相比于现有的模型,准确率得到了提高。本文的主要贡献是提出了一种新的基于MS-G3D的MS-G3D-L模型,并证明了该模型在视频动作识别任务中的有效性。通过实验证明了其对模型准确率的影响。这些结果有望为视频动作识别任务的研究提供新的思路和方法。