图像识别技术在录播系统中的研究
作者: 张蕴绮 苗志程 陈弘健
摘要:基于图像识别技术的录播系统是对人工录制模式的革新,其使用拓宽了优质教育资源的应用范围。本文主要研究适用于录播系统中的目标检测和跟踪技术,在没有人工干预的情况下,利用图像处理算法对视频图像进行实时分析与处理,实现对跟踪目标的自动检测、跟踪和拍摄。
关键词:录播系统;图像识别;目标检测;目标跟踪
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2023)06-0097-06
开放科学(资源服务)标识码(OSID)
0引言
国家“十三五”教育改革提出通过提升教育信息化促进教育公平、提高教育质量的方针[1]。近年来随着云计算、大数据等技术的实现,使利用信息化手段扩大优质教育资源覆盖面、缩小区域、城乡、校际教育资源不均衡再次提上议程。录播采集课堂教学资源,促进优质教育资源共享的特点,使得录播系统成为教育均衡发展最为重要的基础设施,得到多方面的重视。
1录播系统概述
全自动录播系统集图像分析技术、多媒体技术、网络流媒体技术、人工智能和自动控制技术于一体,将老师授课、师生互动、电脑VGA信号及课堂板书等进行智能跟踪切换录制,自动生成课程资源。
在功能架构上,录播系统由电源控制模块、视频模块、音频模块、跟踪模块、导播模块这五大子系统组成,如图1所示。
(1)电源控制模块
通过高度集成化的控制面板实现录播系统和其他设备的电源控制,一键开/关系统、一键启/止录播,操作简明。
(2)视频模块
通过网络摄像机采集课堂情景并传送至录播设备进行实时录制并生成流媒体文件,压缩率高,能够实现动态捕捉并自动生成文字索引。
(3)音频模块
利用通过智能混音器把课堂上师生的语音信号全息地采集下来,并实时传送至录制系统完成课件实时录制。
(4)跟踪模块
该模块根据图像差异匹配相应的控制策略驱动摄像机对目标进行智能跟踪定位,同时识别分析目标的活动轨迹,以此实现授课场景的特写、镜头切换等录制。即便在不同场景下也能实现多目标的跟踪及镜头切换。
(5)导播模块
该模块主要用于录制过程中多场景及多路视频信号源、音视频文件和电脑VGA信号间的自动切换,系统根据教学活动的变化智能选择切换策略,并实现具备特效功能的智能导播。
2基于图像识别技术的运动目标检测与跟踪
基于图像识别技术的运动目标检测与跟踪技术是当前技术含量最高、多媒体教学录播系统中采用最为广泛的一种手段。它的原理是利用图像处理算法,在没有人工干预的条件下对摄像机拍摄的图像序列进行分析、处理,从而实现课堂中师生的自动检测与定位跟踪。基于图像识别技术的跟踪框架图如图2所示:
2.1运动目标检测
运动目标检测是把运动目标的信息(如方位、尺寸、颜色等)从背景中提取中来,它是后续目标跟踪及其他分析处理的基础。目标检测算法不具备普适性,需针对特定场景选择可靠性高、复杂度低且满足最佳实时性的算法。
2.1.1运动目标检测介绍
根据摄像机与背景是否发生相对运动,可把运动目标检测分为动态背景和静态背景两类。在录播系统中除特写摄像机外其他机位都相对固定,因此属于静态背景的运动目标检测。目前较常用的静态背景运动目标检测有三种,分别是光流法、帧间差分法、背景差分法,横向对比如表1所示[2]。
根据对比结果,三种算法各有其优缺点,无法适用所有场景,因此应结合多种算法进行设计。录播教室通常会发生的干扰是遮挡、背景杂波和光照变化,跟踪目标的运动速度通常较慢,因此本文采用基于背景差分法的运动目标检测算法。
2.1.2背景差分法
背景差分法(又称背景减法)的基本思路是把当前帧图像与系统存贮或实时获取的背景图像进行差分运算,把背景偏离超过一定阈值的区域作为运动区域[5]。在做差分运算之前进行图像滤波可在一定程度上去除噪声的影响,本文采用高斯滤波法对当前帧去噪。与背景帧差分后选取适当的阈值对图像做二值化处理,为了消除细小噪声点的影响,二值化后的图像需进行形态学处理,最后对处理结果提取目标轮廓,具体流程图如图3所示。下文将重点阐述背景差分法中的背景更新算法、图像阈值分割算法、形态学处理算法和轮廓提取算法。
1)基于滑动平均法的背景更新
背景差分法实现的关键在于背景模型的获取和更新,混合高斯模型因其能可靠处理背景混乱运动的干扰和长时间的场景变化等特点成为近年来广泛使用的背景模型,但是它对于光线突然变化的场景该模型并不理想,因此本文提出基于滑动平均算法的背景模型。
滑动平均算法是利用背景图像像素值与当前帧像素值进行加权求和来达到背景自适应更新目的的算法。其公式如下:
[Bn(i,j)=Bn-1(i,j)+αIn(i,j)-Bn-1(i,j)=αIn(i,j)+(1-α)Bn-1(i,j)] (1)
其中[Bn(i,j)]表示第[n]帧更新后的背景像素值,[In(i,j)]表示当前帧像素值,[α]表示背景更新系数,一般在0到1之间取值,它的取值会影响到运动目标与背景模型融合的速度,考虑到录播场景中主要是缓慢的光照变化,本文中[α]取值为 0.01[6]。
2)基于最大间类方差法的图像阈值分割
当前帧与背景帧做差分后,要选取合适的阈值对图像进行分割来得到二值化图像。最大间类方差法的原理是按照图像的灰度特性把图像分为目标前景和背景两部分。当选取最佳阈值时,前景和背景之间的类间方差越大,错分概率越小[7]。
记[T]为前景与背景的分割阈值,前景像素点出现的概率记为[ω0],平均灰度为[u0];背景像素点出现的概率为[ω1],平均灰度为[u1],图像的平均灰度记为[u],可得到:
[u=ω0×u0+ω1×u1] (2)
前景和背景图像的方差公式为:
[g=ω0×(u0-u)×(u0-u)+ω1×(u1-u)×(u1-u)=ω0×ω1×u0-u12] (3)
当方差[g]最大时,可认为此时前景和背景差异最大,此时的灰度[T]是最佳阈值。
3)形态学处理
在目标分割的过程中难免会产生噪声点,或是运动目标图像中出现空洞或不连通现象,影响轮廓提取的精度,通常采用数学形态学解决此类问题。数学形态学以膨胀、腐蚀为基础,结合起来可构成开、闭运算[8]。开运算用来消除细小对象、微小粘连,闭运算可用来连接邻近对象、填充对象内部细小空洞。开、闭运算都可在不改变目标面积的前提下平滑目标边缘。结合本文的实际场景,选择开运算来消除细小噪声点的影响。
4)轮廓提取
通过阈值分割得到二值化图像后,需进一步提取出运动目标的轮廓。目标轮廓提取的原理如下:遍历图像中的每个像素点, 如果该点灰度值为0,不管周围相邻的8个像素点的灰度值是0还是1,当前该点的灰度值取值为0;若该点灰度值为255,并且周围相邻的8个像素点的灰度值也是255, 则当前该点的灰度值取值为0;除上述两种情况外,将该点灰度值取值为255。通过上述方法可完成对目标轮廓的提取,轮廓由灰度值为255的所有像素点组成 。
2.2运动目标跟踪
运动目标跟踪是在视频图像中提取出运动目标并在后续帧中定位出目标位置的过程。与运动目标检测算法相比,运动目标跟踪算法的着重点在于如何设计更有效的标记方法使该标记在各种情况下都能清晰可见、易识别[9]。
运动目标跟踪的过程可分为以下几个步骤:
1)在视频帧图像中检测出运动目标并从背景中分割出该目标。
2)提取出运动目标包含的特征(如中心、速度、轮廓、颜色直方图等),并根据这些特征建立目标模型。
3)根据模型预测该运动目标在下一刻可能出现的位置并锁定搜索范围。
4)使用之前的目标模型在搜索范围内搜寻匹配目标并确定最佳匹配位置,若在所有的搜索范围内都没有找到匹配目标,进行特定处理。
5)根据最佳匹配目标修正运动目标的模型,再重复上面的操作。
根据运动目标跟踪算法采集图像特征及使用跟踪策略的差异,运动目标跟踪算法可分为基于模式匹配、基于分类和基于目标状态估计这三类[10]。下面对这三种类别算法及其下属的二级分类进行简要介绍,并分别列出各算法的适用条件形成横向对比表2。
根据表2可知,基于贝叶斯框架的目标状态估计滤波算法表现形式灵活、融合性强且追踪性能稳定,成为当前运动目标跟踪方向的主流研究方法。与卡尔曼滤波算法相比,粒子滤波算法不受空间模型状态的限制,适合实际视频图像中噪声呈非线性、非正态分布的特点,因此本文选取粒子滤波作为目标跟踪算法。
2.3粒子滤波目标跟踪算法
粒子滤波是以蒙特卡洛随机模拟理论为基础,对系统状态后验分布用一组加权随机样本(即所谓的粒子)近似表示,新的状态分布通过这些随机样本的贝叶斯递推估计。该算法不受线性、高斯分布及维数的限制,对目标模型没有限制。在粒子数足够多的前提下,其精度可接近最优估计。基于这些特点,粒子滤波目标跟踪算法成为目标跟踪领域的研究热点,拥有广阔的应用前景。
粒子滤波主要包括四个步骤:
1)粒子采样,从建议分布中抽取一组新的粒子;
2)粒子加权,根据观测概率分布和贝叶斯公式计算各个粒子的权值;
3)估计输出,输出系统状态的均值、协方差或高阶矩等;
4)重采样,为了缓解粒子滤波中出现权值退化的问题而采取的方法。
虽然粒子滤波算法能较好地克服录制环境的噪声,但在实际使用中也存在以下两项缺陷:第一,粒子贫化现象严重,多次重采样后会发生样本枯竭;第二,使用单一特征作为参考模板,对目标描述不详尽[11]。这些都会影响到目标追踪的精度和稳定性。因此本文在传统粒子滤波算法的基础框架上,选取颜色、纹理、梯度特征,设计多特征自适应融合算法。
2.4多特征融合的粒子滤波目标跟踪算法
传统粒子滤波目标跟踪算法多数是基于单一的颜色特征建立目标模型,导致环境复杂时追踪不准确,因此本文采用多视觉特征融合的方式建立模型。
2.4.1 HSV颜色特征
颜色特征是目标跟踪最常用的特征之一,其提取简单且对较小程度的遮挡具较强的鲁棒性[12]。RGB和HSV是常用的颜色空间,但由于RGB空间是非均匀的,不符合人体视觉对颜色的主观感知,本文采用HSV颜色空间来描述目标。HSV是根据颜色的直观特性建立的颜色空间,更注重表达对于颜色的视觉感知差异,其参数分别是色调(H)、饱和度(S)、明度(V)。