多模态海洋渔业数据预处理技术研究

作者: 卢晓黎

多模态海洋渔业数据预处理技术研究0

摘要:海洋渔业信息化的快速发展,产生了大量数据,合理有效地利用这些数据进行生产管理、辅助决策等对提升海洋渔业产业发展水平、促进海洋渔业产业高质量发展有着重要意义。由于数据获取手段不同、来源各异,使得海洋渔业数据具有多源异构性,数据质量不高,给海洋渔业数据的有效应用带来了困难和挑战。针对海洋渔业数据质量不高、不同模态海洋渔业数据存在不同的质量问题这一特点,进行了多模态海洋渔业数据预处理技术研究,经过预处理之后,提高了各类数据的质量,降低了数据管理成本。

关键词:海洋渔业数据;数据分类;数据预处理

中图分类号:TP311 文献标识码:A文章编号:1009-3044(2023)16-0081-05

结构化数据组织和管理方法的研究有着悠久的历史,也有很多成熟的技术,然而,随着互联网的发展,各种非结构化数据的产生,给数据组织和管理研究带来了新的挑战,很多学者针对各个领域的实际应用场景开展数据组织和管理方法研究,并提出了一系列具有领域特点的数据组织与管理方案[1-6] 。由于海洋渔业领域的数据多种模态、每种数据质量都参差不齐、数据结构存在差异、数据应用目标不同,因此需要根据海洋渔业领域数据的特点进行数据分类、根据不同模态海洋渔业数据的质量问题开展多模态数据预处理技术研究,为海洋渔业后续的数据分析和应用提供高质量的数据,从而提高海洋渔业产业的管理水平和决策能力,用大数据技术赋能海洋渔业产业,对推动海洋渔业产业绿色健康快速发展具有重要的意义[7-10]。

1 海洋渔业数据分类和数据特点分析

海洋渔业数据的来源不同使得海洋渔业数据的种类也越来越丰富[11]。如许多与海洋渔业相关的网站,蕴含了大部分海洋渔业的数据,如水产养殖技术相关数据、鱼病诊断相关数据、病害防治相关数据、加工销售相关数据、市场经济数据、渔船设备基本信息数据等 [12];除此之外,国内一些涉海高校、海洋类科学研究院以及海洋渔业领域相关企业的公开网站均提供多种海洋渔业数据资源,方便研究人员进行对海洋渔业数据的价值挖掘和分析,这些数据类型大多为图片、视频、文本等,通过网络爬虫的方式获取数据[13];现阶段应用较多的海洋渔业生产过程数据,通过各种设备如摄像头、传感器、无线射频识别等来获取和传输数据,主要包括水质监测数据、设备信息数据、养殖场监控数据、养殖产品生产记录数据和用于日常管理的生产日记数据等。海洋渔业水产养殖水质数据中监测了与海洋渔业生产息息相关的多种参数,如溶解氧、PH 值、水温、酸碱度、氨氮含量等[15] ,养殖产品生产记录数据通过水下摄像头采集相关视频数据,生产日记数据主要记录其饵料种类和投喂方式、养殖产品的基本信息数据等[16];海洋渔业文献资料数据库主要包含海洋渔业领域相关的各种标准、博士硕士论文、各种技术资料等据[17]。海洋渔业数据除了数量大、 数据类型多等特点,还存在数据来源广泛、结构繁杂、质量参差不齐、数据总体质量偏低等问题,这些问题导致数据的可用性不高,无法快速地转化成对海洋渔业有价值的数据, 难以支撑精准化管理和决策。同时海洋渔业各个环节中形成的数据如监测传感器自动生成的数据、摄像头产生的图片视频数据、人工录入的数据、系统分析生产的结果数据等数据结构多种多样,因此需要进行数据预处理。

2 海洋渔业数据分类

海洋渔业数据对海洋渔业领域的生产、管理、分析起着决定性的作用,要想对海洋渔业数据有效的管理及应用,需要对海洋渔业数据合理分类。对于海洋渔业数据的分类,不同的研究人员有着不同的分类方法。周洵按照海洋渔业的生产环节对海洋渔业数据分类, 将海洋渔业数据分为海洋渔业规划数据、海洋渔业计划数据、海洋渔业生产数据、海洋渔业销售数据、海洋渔业管理数据、海洋渔业科研数据等[17];鲁健按照海洋渔业数据的来源对海洋渔业数据分类,将海洋渔业分为海洋渔业资源与环境信息数据、渔船渔港动态监测信息数据、渔业生产信息数据、水产遗传育种与生物技术信息数据、海洋立体观测信息数据、渔业装备与设施信息数据、渔业科技数据、经济与战略信息数据等[18] 。以上几种分类方法从不同的角度对海洋渔业数据分类,适用于不同的应用场景。目前常用的海洋渔业数据如图1所示。

通过查阅相关文献,发现海洋渔业数据还具有数据异构、数据多模态和时空性等多种特性,分别从上述三个角度对海洋渔业数据分类,为后续海洋渔业数据组织与管理工作打下基础。

2.1 数值数据

数值型数据是海洋渔业数据较为常见的一种数据,记录了数据的基本属性值。通过对大连天正实业有限公司大黑石养殖场实地考察调研得知,在实际生产应用中更侧重用循环水的养殖方式来养殖各种渔业产品。循环水是指通过一系列设备对海水进行加工处理后得到的养殖用水,企业需要观察实时监测的水质数据的各项指标值,来判断当时的水质是否符合养殖标准并及时作出调整,所以水质数据是海洋渔业生产过程中较为重要的数值型数据。水质数据的采集方式为传感器采集,水质数据中包含了较多与养殖生物息息相关的属性数据,如溶氧量、温度值、pH 值、氨氮值等,这些指标值或高或低都会影响养殖生物,因此需要每天定时查看这些指标数据,工作人员每天通过查看含氧量、pH 值等指标值来检测水质情况。实际生产中水质数据的样例如表1所示(来自大连天正实业有限公司大黑石养殖场)。

2.2 文本数据

海洋渔业文本数据包括海洋渔业生产过程中的指导性文件海洋渔业标准文本数据,技术人员在生产过程中需要不断查阅标准文本中的具体信息并作出相应的调整。海洋渔业标准文本案例如图2所示。

海洋渔业文本数据还包括海洋渔业科技成果、文献、专利、相关技术资料等,案例如图3所示。数据样例来自 CNKI 数据库。

2.3 图像数据

海洋渔业图像数据中含有各种设备操作说明图,各种养殖产品介绍图,方便用户了解养殖产品的基本信息。养殖产品介绍图如图4 所示。

海洋渔业图像数据中最有研究价值的为养殖产品日常生产状况记录图,养殖场为了防止鱼病交叉感染,将同一种类的养殖产品放在同一个水池里生长,养殖场工作人员在养殖场的养殖池里安装拍摄摄像头来记录不同形态的养殖产品,为研究人员的相关研究工作提供数据支撑。养殖产品日常生长状况记录图如图5 所示。数据样例来自大连天正实业有限公司大黑石养殖场实地拍摄。

2.4 视频数据

通过对大连天正有限公司大黑石养殖场实地调研得知,海洋渔业生产视频数据主要分为两种,一种是用来监督海洋渔业日常生产的生产管理监控视频数据,海洋渔业领域各相关企业通过摄像头全天连续性拍摄的方式来对生产区域的各项生产过程监控实现自动监管,这些连续拍摄的视频数据从不同的角度全方位地记录着海洋渔业各种技术及管理人员的生产作业情况,所蕴含的信息对海洋渔业企业的生产管理有重要的价值。生产管理监控视频数据如图6所示。

另一种是海洋渔业养殖产品生长状况监控数据。

在现阶段智能化工厂养殖阶段,对养殖产品的日常行为监测是工厂化养殖的一项重要工作,养殖技术工作人员随时关注养殖产品的行为轨迹,并及时处理异常情况。海洋渔业养殖产品生长状况监控数据图如图7 所示。

3 海洋渔业数据预处理方法

3.1 基于阈值和回归分析的海洋渔业数值数据预处理方法

根据前面的调研分析,数值型数据的主要问题是较低比例的数据缺失和数据值异常,通过对 2022 年12月1日—2022 年 12 月31日的水质、环境、鱼类生长等数据进行分析发现,多数数据存在局部稳定性,也就是在短时间内不会产生大的突变,数据值按照时序变化存在一定的稳定性和连续性的特点,针对以上特点,提出了基于阈值和回归的数值数据预处理技术,用采用较为常用的滑动窗口法来检验是否存在数据值异常情况。选取长度为n 的时间窗口内的数据,计算指标 S 的平均值,计算公式如公式1 所示。

其中,Wid代表每一个样本 i 与时间窗口内样本均值的差值。当Wid大于给定的阈值,则认为该数据出现异常,由于海洋渔业的数据值型在短时间内不会发生较大的变化,在时序上存在一定的稳定性和连续性,因此对于出现异常的数据,用时间序列回归的方法来插入具体的数据。数值型数据预处理流程图如图8所示。

3.2 海洋渔业图像数据预处理方法

海洋渔业领域的图像数据主要包括渔业生物的外观图片、各种摄像机拍摄的渔业生物活动图像等,这些图像主要用于渔业科普系统构建、养殖生物病害识别、养殖产品自动计数、养殖产品密度估计、水下机器人智能抓取等。这些数据主要通过手机拍摄、水下摄像机拍摄、高清摄像机拍摄、互联网下载等方式获取。由于不同来源的图像数据分辨率不同、图像大小不同、格式不同,给后续的数据处理、分析和应用带来了很大的困难,因此,需要对图像数据进行预处理。

由于摄像机型号不同,拍摄出的图片的分辨率不同、大小有差异,给后续图像标注、图像识别工作等带来问题,因此需要对此类数据进行预处理,主要的预处理任务就是将图片的分辨率统一、大小统一。在调研过程中,对采集到的数据进行分析整理,绝大部分图像数据的分辨率高于标准图像数据分辨率,极少部分图像数据的分辨率低于标准图像分辨率,由于这极小部分低分辨率的图像数据大多是拍摄到的环境数据,对后续的数据分析工作无参考价值,因此将低分辨率的图像数据从数据集中删除。目前常用的图像预处理方法有简单缩放法、逐样本均值消减法、特征标准化法等[19]。在简单缩放的方法中,重新对图像数据的每一个维度值进行调整,将最终的数据向量落在[0,1]或[-1,1]区间内,使原始图像数据的等比例缩放;逐样本均值消减法是通过减去在每个样本上统计平均值,将图像数据中共同的部分移除,从而显现出个体的差异;特征标准化法是将处理后的数据的每一个维度都具有零均值和单位方差,这种方法适用于处理音频数据。针对实际应用中图像数据采集方式不同造成的图像分辨率不统一的问题,选取简单缩放法来对图像数据进行预处理。不同采集方式对于图片尺寸设置的值不同,导致图片的大小不同,不同大小的数据给后续的相关工作带来了麻烦,因此需要对不同采集方式的图片规定统一的尺寸,选择用随机裁剪的方式固定大小。海洋渔业图像数据预处理流程图如图 9 所示。

4 总结

本文面向实际应用需求,并针对海洋渔业数据多源异构的特点,对海洋渔业数据详细地分类以及系统地分析了现阶段海洋渔业数据的使用特点。按照数据模态将海洋渔业领域数据分为数值、文本、图像、视频等,概述了海洋渔业数据中的数值数据、图像数据、在实际应用中出现的问题及预处理方法,针对数值数据存在的数据异常和数据缺失等问题,提出了阈值和回归分析的数据预处理方法。针对图像数据分辨率不同和尺寸大小不同的问题,提出了基于简单缩放和随机裁剪的数据预处理方法,提高了数据质量的同时,为后续数据组织管理方案打下基础。

参考文献:

[1] 刘帅,陈戈,刘颖洁,等.海洋大数据应用技术分析与趋势研究[J].中国海洋大学学报(自然科学版),2020,50(1):154-164.

[2] 于喆. 渔业大数据综述[J]. 安徽农业科学,2017,45(9):211-213.

[3] 杨锦坤,韩春花.大数据新时代背景下的海洋数据资源管理策略[J].海洋信息,2018,33(3): 1-5,10.

[4] Cao L,Chen Y,Dong S L,et al.Opportunity for marine fisheries reform in China[J].Proceedings of the National Academy of Sci⁃ences of the United States of America,2017,114(3):435-442.

上一篇 点击页面呼出菜单 下一篇