视频中藏文文本的检测方法研究

视频中藏文文本的检测方法研究0

摘要：随着各种视频的增多，对于大量视频中文字的提取与监测等方面提出了更高的要求，研究视频中文字的文本检测和识别对语音文本的收集、视频监测等有重要的意义。目前视频中藏文文本的检测、识别研究还处于起步阶段，该文采用DBNet、DBNet++、PSENet、EAST、FCENet等5种基于分割的深度学习文字检测算法对视频中藏文字幕进行了检测，对比分析了5种检测算法对视频中藏文字符的检测性能。实验表明，在文字检测阶段采用的渐进式扩展算法PSENet在测试集上具有更好的检测性能，其在测试集上的准确率、召回率、F1值分别达到了0.996、0.995、0.998。

关键词：视频；藏文文本；检测

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2023）35-0001-05

开放科学（资源服务）标识码（OSID）

0 引言

基于深度学习的视频文字检测是指检测定位连续的视频帧中包含文字区域的位置。视频字幕中所包含的文字信息有助于理解视频，是对视频内容的解释说明。通过对视频中的文字进行检测识别来监管确保其内容积极健康，如视频画面中是否含有反动宣言等，在快速传播的信息化时代下对维护国家安全、社会稳定和推动藏文信息处理的发展具有重要意义。

目前视频中文字的检测与识别研究主要集中在英文和中文，并取得了较好的成果，但视频中藏文的检测与识别研究仍处于起步阶段，以往的研究主要针对现代印刷体、木刻版藏文古籍文本以及自然场景下的藏文进行检测和识别。视频中藏文的检测识别与自然场景下藏文的检测识别相似，但存在着一定的差异。视频中的藏文字分为场景文字和人工添加文字，人工文本虽然比自然场景中的文字更加稳定，但由于视频背景和文字实时变化、字体多样且文字的位置和大小不固定，使得文字的检测定位存在困难，于是有必要研究视频中的藏文检测与识别。

1 相关工作

目前，中英文针对视频中的文本检测识别方式主要有两方面，分别是基于单帧的文本检测和基于帧间的文本关联。基于帧间的文本关联是指通过采用视频前后帧间的文本关系来进行检测定位文本区域。对于帧间的文本关联检测方式在按照时间间隔截取视频帧时存在丢失文本区域的现象。进行帧间融合时若没有足够的帧，则文本增强效果不佳，且当使用过多的帧时会出现文本的混淆。所以帧间的文本关联检测方式适合用于模糊不清的视频文本提取。基于单帧的文本检测是指将动态视频数据处理成一帧一帧的静态图片，然后采用文本检测算法在单帧图像上检测文本区域。对于单帧检测方式适合视频质量较好的检测，且单帧的处理方式不容易使视频出现丢帧情况。由于本文实验所使用的视频数据质量较好，所以本文采用基于单帧的文本检测方式。2019年，赵星驰[1]等人针对提取视频内部自然场景及人工添加文本，使用目标检测YOLOv3与基于实例分割的文本检测PixelLink相结合的方法检测提取视频内部的场景及人工添加文本。2020年张慧宇[2]等人采用基于候选框的 CTPN 算法，对不同背景的视频文本具有较好的定位效果。2021年，常为弘[3]等人在检测阶段采用基于改进的文字检测算法CTPN，将CTPN原有的基于VGG16的特征提取网络替换为带有残差结构的特征提取网络，并在每个残差块中添加了通道注意力机制和空间注意力机制，对重要特征赋予更高的权重，实验表明，添加了残差结构和通道注意力机制的检测模型效果更佳。

目前，针对视频中藏文的检测相关研究较少，视频可以切分成连续的帧图像，关于图像中的藏文文字检测与识别的相关研究主要有，王梦锦[4]采用CTPN算法和EAST算法对藏文古籍文本进行了检测，实验表明CTPN模型比EAST模型在其藏文古籍文本测试集上检测的准确率更高，达到89%。芷香香[5]采用基于分割的文字检测算法PSENet等对多种字体的手写藏文古籍文本进行检测，并对比了不同文本检测算法对不同大小字体的文本检测效果。洪松[6]等人采用可微分的二值化网络DBNet检测自然场景下乌金体藏文，在测试集上的准确率达到89%。仁青东主[7]针对藏文古籍木刻本复杂版面特征，采用基于候选框的文本检测算法CTPN，实验结果表明，在其测试集上的准确率达到96.31%。侯闫[8]采用基于分割的可微分二值化网络DBNet检测乌金印刷多字体藏文，在其测试集上的准确率达到99.82%。李金成[9]受基于分割的思想提出一种文本实例中心区域边界扩增的文字检测网络模型，该方法在其藏汉双语场景文字检测测试数据集上准确率达到75.47%。

由上述可知，基于深度学习的文字检测算法在不同场景下藏文图像检测上取得了较好成果。本文通过参考和借鉴一些成功应用于中英文视频检测模型，开展研究藏文视频检测的任务。本文首先利用网络爬虫收集大规模藏文视频数据，并对其进行预处理和标注，在此基础上根据视频特点探究适合藏文视频文本检测的方法。本研究选用5种基于分割的深度学习文本检测算法对视频中藏文字幕进行检测定位，并评估5种算法对藏文视频文字的检测性能，最后实验分析得到适合藏文视频文字检测的算法。

2 数据集构建

2.1 视频中藏文字的特点分析

为了有效地检测视频中的藏文字，有必要分析其特点。通常情况下，视频中的藏文字分为两种，一是视频拍摄过程中拍摄到的自然场景中的场景文字；另一种是视频制作时，被人工添加在画面特定位置的人工文字。对于人工文字进一步可细分为两种，部分文字显示设计在与对比度较大的背景之上，被称为分层人工文字；另一部分文字是直接嵌入画面中，与背景易混淆，被称为嵌入人工文字。具有以下特点：

1）字体多样性：视频中使用的不同藏文字体间的风格差异较大，并且藏文字具有特殊性，与汉字相比在形体上从左到右的横向和上到下的叠加构成了长宽不等的二维平面文字给检测识别带来困难，尤其检测中容易漏检藏文元音符号，导致改变藏文的本意。

2）文字不完整：对于位于视频下方滚动的藏文字幕存在模糊、背景复杂且在特定帧中出现不全等情况，这类文字的检测识别是一项极大的挑战。

3）复杂背景：对于场景文字，由于拍摄角度的变化、物体遮挡被随机嵌入在复杂的自然背景中，给检测识别带来困难。对于人工文字，嵌入人工文字由于藏文字体本身的复杂性，且使用的字体色与背景色相似，导致其检测识别难度相较于分层人工文字具有较高的挑战性。

4）视频模糊：视频是经过图片压缩处理的，视频帧文字具有模糊、带有虚影等增加了检测识别难度，容易出现漏检、误检。

5）外界环境的制约：由于视频拍摄中光照不均匀、视角等因素，直接影响视频画面的质量。

本研究以复杂背景中，水平方向的藏文乌金体人工字幕为研究对象，构建了本文实验所需数据。

2.2 视频数据预处理

本采用网络爬虫技术共收集400多条藏文视频数据，每段视频的时长为24分04秒，帧率为24fps，其多样性体现在背景色、字体位置及大小、高强外界的干扰等方面。然后使用OpenCV-Python读取视频数据，在此基础上保证数据不丢失的情况下，将原始视频按照每隔10秒提取一帧图像的方法来对视频数据进行预处理操作。最后，每段视频平均得到1 490帧图像，用于视频检测识别模型所需的训练数据集，其中部分帧图片如图1所示。

2.3 数据的标注

本研究使用（VGG Image Annotator，VIA）标注工具对视频中藏文帧图像的文本区域进行标注，标注后生成JSON格式的标签文件，然后将其转化为和ICDAR2015数据集一致格式的txt文件，具体流程如图2所示。

3 视频检测方法研究

目前，基于分割的方法在场景文本检测中能够更准确地描述任意形状的场景文本。因此，本文采用以下几种基于分割的方法用于藏文视频中文字的检测定位。

3.1 DBNet算法概述

本研究采用的DBNet[10]网络结构如图3所示，在检测阶段将藏文视频帧图像输入网络后，首先通过特征提取网络ResNet-18提取图像中藏文的特征，并进行上采样融合，然后通过concat操作后生成图3中的特征图F，采用F分别预测出概率图P和阈值图T，最后由可微分的二值化算法计算出近似二值图[B]，最终得到视频中藏文的检测结果。

视频中藏文检测阶段的可微分的二值化过程如式（1）所示，其中，[B]表示近似的二值图，（[i，j]）表示概率图中的坐标，[P]和[T]分别表示网络学习的概率图、阈值图，[k]是一个因子。式（1）之所以能提高网络整体性能，可从它的梯度反向传播来解释，定义一个[f（x）]如式（2）所示，其中[x=Pi，j-Ti，j]，在使用交叉熵损失函数，将正样本的损失记为[l+]，如式（3）所示，负样本的损失记为[l-]，如式（4）所示。正、负样本对输入的[x]进行链式求导，得出相应的偏导数，分别为如式（5）、（6）所示。由此从微分式中可以看出，[k]是梯度增益因子，梯度对于错误预测的增益幅度很大，进而既促进在反向传播中对参数的更新，又有利于精准预测视频中藏文边缘的特征。

[Bi，j =11+e-kPi，j-Ti，j] （1）

[fx=11+e-kx] （2）

[l+=-log11+e-kx] （3）

[l-=-log1-11+e-kx] （4）

[∂l+∂x=-kfxe-kx] （5）

[∂l-∂x=kfx ] （6）

网络训练的损失函数[L]如式（7）所示，是概率图的损失[Ls]、二值图的损失[Lb]、阈值图的损失[Lt]，其中[α]和[β]值分别设置为1.0和10。式（7）中的[Ls]和[Lb]使用二值交叉熵损失，如式（8）所示，其中[Sl]是经过采样的数据集，其正样和负样本的比值为1：3。[Lt]采用的是计算[Gd]内预测与标签之间[L1]的距离之和，如式（9）所示，其中，[Rd]为标注框经过偏移量[D]扩充后得到的框[Gd]里的一组像素的索引。

[L=Ls+α×Lb+β×Lt] （7）

[Ls=Lb=i∈Slyilogxi+1-yilog1-xi ] （8）

[Lt=i∈Rdy*i-x*i ] （9）

3.2 DBNet++算法概述

DBNet++[11]是基于DBNet的改进算法，该算法的核心是提出了自适应尺度融合模块（Adaptive Scale Fusion，ASF），如图4所示。首先，金字塔特征图上采样到相同大小，然后输入ASF模块中，对经过尺度缩放的特征图进行concat，再经过3×3卷积，获得中间特征S，并对其采用空间注意力机制（attention）。最后，注意力权重[A∈RN×H×W]分别与输入的特征图对应相乘后再concat得到ASF的输出，很好地考虑了不同尺度特征图的重要性，使得DBNet++模型具有更强的尺度鲁棒能力，尤其是对本文大尺度的视频文本目标更鲁棒，但藏文元音符号出现较严重的漏检。

3.3 PSENet算法概述

PSENet[12]网络的整体框架如图5所示，该算法首先采用主干网络ResNet50[13]提取n个通道特征图，其次，使用函数来将低级纹理特征和高级语义特征相融合，并映射到F，此时促进了不同尺度的内核生产。然后产生了n个不同尺度的分割结果，其中最小尺度的分割结果是整个文本实例的中心位置，而最大尺度的分割结果是文本实例的完整形状。最后使用渐进式扩展算法（PSENet），首先将最小内核的分割结果通过连通分析形成不同连通域，进而确定各种实例的中心位置，其次，通过广度优先算法合并相邻像素逐渐扩展到最大尺度分割结果，对于合并间存在冲突像素，采用先到先得的策略，从而获得最终的藏文视频检测结果。

视频中藏文文本的检测方法研究

经典小说推荐

杂志订阅