基于OCR 及组合标签索引模板的电力铭牌信息提取方法

作者: 习毅聪 孙坳 石凯丞 胡亮 刘浩

基于OCR 及组合标签索引模板的电力铭牌信息提取方法0

摘要:电力设备铭牌结构复杂、传统OCR难以有效地结构化提取铭牌信息,而传统的模板匹配方法存在模板管理困难等问题,针对该问题,提出了一种基于OCR及组合标签索引模板的电力铭牌信息结构化提取方法。该方法首先依据铭牌文本结构特性,将其分为常规型与特殊型两类。对于特殊型铭牌,构建模板库并为所有模板注明标签。利用标签检索对应模板进行匹配,从而提取结构化信息。对于常规型铭牌,则采用内置结构化信息处理规则的OCR引擎直接提取结构化信息。实验结果表明,该方法能够准确高效地提取常规型与特殊型铭牌的结构化数据,有效提高了电力铭牌信息提取的效率。

关键词:电力铭牌识别;OCR识别;结构化信息提取;模板匹配;模板检索

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)31-0109-03

开放科学(资源服务)标识码(OSID):

0 引言

随着国家电网的快速发展,电力设备数量急剧增加,如何高效管理设备信息成为亟待解决的问题[1-2]。铭牌作为一种重要的信息载体,承载着设备型号、规格参数、生产日期等关键数据。近年来,光学字符识别(OCR)技术在铭牌识别与信息提取领域得到了广泛应用。然而,由于不同制造厂商的设备铭牌结构各异,如何有效地提取出结构化信息是该领域面临的挑战之一[3-4]。

现有的图像文本结构化信息提取方法主要分为两类:基于自然语言处理的方法和基于模板匹配的方法,前者利用语义解析算法深入挖掘文本的词汇、句法乃至语义层次,解析非结构化文本内容,将其转化为结构化的数据形式[5]。但此方法对于布局复杂且语言结构不规整的图像文字内容,准确率较低,难以直接运用于从各类表单中高效提取关键信息的任务。

基于模板匹配的方法利用预设的模板图案与图片中的内容进行匹配,以自动化方式从图片数据中识别并提取出具有明确结构和意义的信息片段。章倩等人[6]提出一种基于自定义模板的OCR方法,通过自定义票据模板,定义模板识别区域字符类型,最后对模板分类器进行训练,从而实现票据图片匹配对应模板并实现票据信息的结构化提取。然而,该方法需要为每类票据建立标准模板,并训练相应的分类器模型,难以适用于版式多样的电力铭牌识别任务。胡洋等人[7]提出了一种基于分类模板数据库的辅助识别方法。该方法首先对电力铭牌结构进行分析,将铭牌文本分为固定区域和可变区域,并针对固定区域建立分类模板数据库。然后,利用卷积神经网络进行图像分类,为输入图像定位正确的模板,从而识别固定区域的信息。然而,该方法的分类模型结构复杂,训练成本高,并且对于未知类型的铭牌,需要重新建立模板并训练模型,难以从模板库中高效地检索图像对应的模板,存在一定的局限性。

本文在现有基于模板匹配的方法基础上提出的一种基于OCR及组合标签索引模板的电力铭牌信息提取方法。首先分析现有铭牌结构,将字符排列呈现明显规律、易于提取结构化信息的铭牌定义为常规型铭牌,否则为特殊型铭牌。对于常规型铭牌,通过对OCR引擎二次开发建立结构化信息处理规则,即可快速准确进行结构化信息提取;对于特殊型铭牌,建立与各种铭牌一一对应的特殊型铭牌模板库,以制造商名称加设备名称组合成索引标签,管理并调用铭牌模板,从而实现铭牌信息的高效结构化提取。

1 常规型铭牌与特殊型铭牌

图1展示了两种不同类型的电力设备铭牌,其中图1(a)为常规型铭牌,图1(b)为特殊型铭牌。

如图1(a)所示,常规型铭牌的字符排列具有一定的规律性,参数名称后紧跟数字表示参数值,数字后的英文字符表示参数单位。例如,“额定电压 252kV” 中,“额定电压” 为参数名称,“252” 为参数值,“kV” 为参数单位。

如图1(b)所示,特殊型铭牌的字符排列不遵循上述规律。例如,参数名“额定电压” 后面并非其参数值,而是其他参数名“额定电流”,“额定电压” 的参数值位于其下方。

2 常规型铭牌的信息提取

针对图1(a)所示常规型铭牌,传统的 OCR 文字识别引擎通常只能从铭牌中简单地识别出文字。然而,这种方法有时会出现识别结果中字符位置错乱的问题,如图 2(a) 所示。为了解决这个问题,本文提出在PaddleOCR的基础上添加结构化信息处理规则,使识别出的文字按照常规型铭牌的文本排列规则输出,如图2(b)所示。根据识别结果,可以检索各个参数名及其对应的值和单位。例如,对于参数名“额定电压”,其后紧跟的数字“252”为参数值,数字后的英文字符“kV”为参数单位。

该结构化信息处理规则如下:该规则首先获取每个文本块的边界框(左、上、右、下),并按左边界坐标对文本块进行排序。然后,遍历每个文本块,检查其右侧是否存在符合条件的文本块。符合条件的文本块会被添加到当前行中,并在相邻文本块之间添加分隔符,最后一个文本块的末尾添加换行符。处理完所有行后,按照顶部坐标对行进行排序。该过程首先对文本块进行预处理,然后获取每行的文本块,最后移除每个文本块的 normalized_bbox 属性,返回处理后的文本块列表。

3 特殊型铭牌的信息提取

对于图3(a)所示的特殊型铭牌,由于其结构的特殊性,即使使用添加了结构化信息处理规则的OCR引擎进行识别,仍然会出现文本错乱的情况,如图3(b)红色方框区域所示,导致参数值难以提取。

为了解决这个问题,本文提出了一种基于组合标签索引模板的特殊型铭牌信息提取方法,能够高效、准确地提取铭牌的结构化信息。

3.1 建立特殊型铭牌模板

以图3(a)所示的特殊型铭牌为例,在模板图片中选择位置和内容固定不变的字段作为锚点,用于对输入图像进行校正和模板匹配。然后,在模板图片中框选需要进行文字识别的区域,并为每个区域命名对应的参数名称。例如,将包含文字“DKSC-400-100/10”的区域命名为“型号”。按照上述方法,建立的特殊型铭牌模板如图4所示。

模板创建完成后,需要为其添加标签,以便于后续检索。通常情况下,对于特定制造商和特定型号的电力设备,其铭牌样式是唯一的。因此,本文选择将铭牌中的制造商名称和设备名称组合作为模板标签。例如,标签为“思源电力股份有限公司—环氧浇注干式接地变压器”。最后,将所有模板及其对应的标签存储到模板库中。

3.2 模板检索

模板检索流程如图5所示。当输入一张铭牌图片时,首先使用OCR技术识别铭牌的文字内容。然后,使用文本匹配算法将模板库中的模板标签与识别结果进行比较。如果识别结果中包含模板库中存在的标签,则认为该图片为特殊型铭牌,并使用该标签检索到对应的模板,从而提高模板检索效率。如果识别结果中不包含任何模板库中的标签,则认为该图片为常规型铭牌,并使用常规型铭牌信息提取方法进行处理。

4 视觉识别与信息提取工作流程

图6展示了电力设备铭牌信息识别与提取的流程。首先,根据铭牌文本结构特征将铭牌分为常规型和特殊型。对于特殊型铭牌,创建对应的标准模板,并使用制造商名称和设备名称组合作为模板标签,将创建的模板存储到模板库中。

模板库构建完成后,对于输入的电力设备铭牌图像,使用OCR引擎进行文本识别。然后,使用字符串匹配算法在识别结果中查找与模板库中模板标签相同的字段。若识别结果中包含模板标签,则将该图片认定为特殊型铭牌,并使用该标签检索到对应的模板,然后使用模板匹配方法提取结构化信息;若识别结果中不包含任何模板标签,则认为该图片为常规型铭牌,并使用添加了结构化信息处理规则的OCR引擎进行信息提取。最后,将所有铭牌的结构化信息提取结果存储起来,以便后续使用和管理。

5 结束语

不同制造商的不同产品的铭牌布局差异很大,这给铭牌信息的结构化提取带来了巨大挑战。为此,根据参数名称、参数值和参数单位在铭牌中的排列规律,将铭牌分为常规型和特殊型两类。对于特殊型铭牌,建立了相应的模板库,并使用制造商名称和设备名称组合作为索引标签,用于管理和调用铭牌模板,实现特殊型铭牌信息的结构化提取。该方法简化了模板检索流程,提高了检索精度。通过添加结构化信息处理规则对OCR引擎进行扩展,实现了对常规型铭牌快速准确的信息提取,大大减少了构建铭牌模板库的工作量。

然而,该方法需要预先人工区分铭牌类型,存在一定的局限性。未来将针对铭牌自动分类问题展开进一步研究。

参考文献:

[1] 王逸凡,王佳宇,仲林林,等.基于深度学习的电力设备铭牌文本识别[J].电力工程技术,2022,41(5):210-218.

[2] 李思妍,台升,张宇航,等.基于轻量化YOLOv3和TesseractOCR的电力设备标志牌识别技术[J].智慧电力,2021,49(7):79-85,108.

[3] 刘潭晶.基于非结构化电力数据的内容提取技术研究[D].北京:华北电力大学,2023.

[4] 文杨.基于深度学习的证照结构化识别算法研究[D].武汉:华中科技大学,2022.

[5] 王兴,郑勇锋,严永兵,等.基于OCR技术的票据识别算法研究[J].智能计算机与应用,2021,11(11):101-106.

[6] 章倩,王梓祺.基于自定义模板的OCR技术及应用[J].指挥信息系统与技术,2023,14(5):94-98.

[7] 胡洋,石煌雄,蒋作,等.基于分类模板数据库的电气铭牌识别[J].现代电子技术,2021,44(2):96-100.

【通联编辑:梁书】

上一篇 点击页面呼出菜单 下一篇