数据治理技术在长庆钻井公司中的应用探析
作者: 袁铭 蔡海超 高翔
摘要:2021年9月国家出台了《中华人民共和国数据安全法》,将数据安全提升到了影响国家安全的高度,长庆钻井总公司作为一家大型国有企业,长期以来收集了大量的钻井数据,为了保证企业的数据安全,数据分类分级治理管控势在必行。本文以国家“数据安全”管控政策、法律和法规为导向,针对长庆钻井总公司当前生产数据在存储、处理、交换过程中存在数据资源管理难度大、无差异化管控数据、数据管理不合规、安全风险不自知等问题现状,提出了数据分类分级治理管控技术在长庆钻井总公司数据管理中应用的方法,对公司重要数据进行风险评估和安全管控,降低数据被删除、被修改、被拷贝和敏感数据传播泄露等风险,创新改进了数据资产IPDRR管控模式,提升了公司传统产业赋能能力,有力地支撑了钻井业务数字化转型。
关键词:数据安全;数据治理;数据质量;数据标准;元数据
中图分类号:TP309.2 文献标识码: A文章编号:1009-3044(2023)28-0100-03
0 引言
2021年9月国家出台《中华人民共和国数据安全法》将数据作为单独管理对象抽离出来,明确提出要建立数据分类分级保护制度、定期开展风险评估等要求,从国家法律层面确定了数据安全的重要性[1]。对长庆钻井总公司而言,主要解决公司当前生产管理中产生的庞大数据在存储、处理、交换过程中存在数据资源管理难度大、无差异化管控数据、数据管理不合规、安全风险不自知等问题,急需对数据进行分类分级合规管理,做好重要数据的风险评估和安全管控,降低数据被删除、被修改、被拷贝和敏感数据传播泄露等风险,改进“数据资产”IPDRR管控模式,支撑钻井业务的数字化转型。
1 需求分析
目前,长庆钻井总公司企业园区网分为三级,西安核心网络,项目部及专业公司网络,钻井队网络,覆盖陕西、甘肃、宁夏、内蒙古。网络主要有4G无线、卫星小站和光纤三种接入方式,经过调研后发现主要存在以下问题:
1) 数据量巨大,管理难度大:公司每秒产生的数据量非常大,急需建立一套完整的数据管理系统进行分类分级管理,否则数据管理难度会越来越大。
2) 数据安全风险高:公司网络结构复杂,接入点多且混乱,数据和数据流分布不清晰,存在安全风险点隐蔽、不自知、不可控的问题。
3) 管理方式低效:目前,公司数据安全检测和管控靠人工实现,管理方式低效,需要建立一套自动化管理系统,提高管理效率和准确性。
基于需求分析的结论,需要解决以下技术难题:
1) 数据分类分级管理技术:需要建立数据分类分级保护制度,对数据进行分类、分级和保护,根据数据等级制定相应的安全措施,提高数据管理的效率和安全性。
2) 敏感数据自动识别技术:需要引入敏感数据自动识别技术,对数据和数据流中的敏感数据进行自动识别和分类,提高数据安全性和隐私保护水平。
3) 数据存储和管理瓶颈:需要建立高效的数据存储和管理系统,包括存储设备、数据库管理系统等,提高数据处理效率和存储能力。
4) IPDRR模型建立技术:需要建立IPDRR模型,保障公司数据全生命周期各个生存阶段的机密性、可用性和完整性,提高数据资产价值和管理水平。
5) 数据传输安全技术:需要建立数据传输安全技术体系,对数据进行加密、备份、恢复等安全措施,同时支持权限管理和审计功能。
6) 风险管理技术:需要建立风险识别和管理技术,对数据进行风险评估和管理,提高安全风险的识别和管理能力,保障数据安全。
综上所述,长庆钻井总公司需要建立一套完整的数据及数据安全管理系统,引入先进的数据管理和安全技术,建立完整的数据管理和安全体系,以提高数据管理效率和安全性,同时进行网络优化,从而满足公司数字转型的需要。
2 技术路线
基于需求分析的调研结论,必须对当前已有的信息系统进行数据治理,数据治理的过程是螺旋上升,迭代式递进的,如图1所示,共分为4步。
2.1 建立数据分类分级规范
1) 目的:满足合规要求,组织战略要求和业务发展需求。
2) 明确工作流程:确立工作流程,明确该谁做?什么时候做?做什么?的分工问题。
3) 建立数据规范框架:根据分类要求、分级标准搭建框架。
4) 制定元数据标准:元数据应至少包括数据名称、内容、保护级别、所有者、保护期限、标签设置。
5) 制定安全保护标准:针对不同级别的数据对应不同的防护标准。
6) 实施数据分类分级规范:对企业内部的所有数据进行分类分级; 对不同级别的数据进行不同的安全保护措施,如加密、备份、权限控制等;对数据进行标签设置,方便数据的管理和使用;确保数据的安全性和保密性,防止数据泄露和丢失。
7) 监督与管理:定期审核和更新数据分类分级规范,并进行监督和管理,确保规范的有效性和合规性。
2.2 发现数据
按照当前企业的三级网络,井队数据先发送到指挥部,再由指挥部转发到西安的信息中心,由于井队分布流动性很大,而且各井队信息化水平有差异,导致数据来源经常变化,数据质量不稳定。因此要梳理数据来源,明确数据路径、建立数据体系,数据清洗系统,实现所有数据均可查可溯源,确保数据质量和数据安全[2]。
数据发现主要是梳理出进入数据库的各种数据来源,目前最常见的入库方式有在线式表单提交、人工数据导入、定期的ETL数据抽取及其他信息系统的数据流转输入,对于各种入口,必须保证数据质量,确保数据的正确性、完整性及不可修改性,否则“脏”数据的入库会对日后的数据统计和知识挖掘产生极大的负面影响。
2.3 数据分级分类
这需要领域专家的配合,对不同的数据进行评估,确定其重要性、敏感程度和价值,以及对企业运营可能造成的影响。同时,评估数据的安全风险和隐私保护需求,确定数据的安全保护级别。根据数据评估结果,制定相应的数据保护方案,包括数据加密、身份认证、访问控制、备份和恢复、数据追踪和监控等措施,由于不同等级的保护对应不同的用户投入,因此对于不同分类分级的数据需要精细化管理,既保证重要数据的安全性,同时也兼顾经济性,避免在普通等级的数据上耗费大量资源。数据分类分级主要包括以下工作:
1) 数据分类应遵循MECE原则,所分类别之间不交叉不留空白,覆盖所有数据。
2) 数据级别可根据数据泄露、损失后造成影响大小来划分。
3) 数据的保密性、完整性、可用性、可追溯性等因素也可作为划分数据级别的考虑因素。
4) 常见的数据分类分级标准包括:国家秘密、商业机密、个人隐私、一般数据等级等。 数据分类分级需要与相关法律法规和规范要求相符合,如《信息安全技术分类分级保护管理规定》《网络安全法》等。
5) 定期审核和更新数据分类分级规范,并进行监督和管理,确保规范的有效性和合规性。
6) 加强员工培训和提升安全意识:加强员工的安全保密培训,提高员工的安全意识和保密意识,减少安全事故的发生。同时,加强安全文化建设,形成良好的信息安全氛围。
2.4 设置数据标签
元数据用于描述数据,因此需要制定元数据标准,明确数据标签应该涵盖的内容,例如数据来源、所属部门、数据类型、数据等级等,实现每条数据都是可溯源的、建立完善的数据体系,这样的数据才能被有效利用,真正成为企业的数据资产。设置数据标签的方法可以是根据不同类别和等级的数据设计相应的数据模板,模板中包含了必要的字段,有些可以利用数据库的元数据自动填充,有些则必须是人工填写,采用数据模板来规范信息录入人员的操作,杜绝漏填、错填,保证数据的正确性及完整性。
3 设计方案
对于企业现有的信息系统和数据库系统,开发了数据治理系统,用于保证数据质量,确保数据安全。系统构成如图2所示。
3.1 数据标准管理
在数据治理的过程中,将形成并逐步完善长庆各类信息系统的评价数据标准。在数据标准管理模块中,将根据各类信息系统的领域知识,建立数据元、代码集、编码集、同义词、限定词,实现包含标准规范、分析流程、专业知识的数据标准管理平台。同时,在项目治理完成后,将探索领域大数据的不确定理论、一致性理论以及数据众包和自然语言处理技术,研究并突破包含准确性、完整性、规范性、可访问性、一致性、时效性及不可抵赖性等多个维度的数据标准的适用性问题。
3.2 数据资产管理
数据是企业的宝贵资产,企业管理者需要对数据资产有清晰的了解,因此在本项目中,将利用数据分级分类的过程对企业数据进行全面摸底,形成一套数据资产管理系统,其中包括数据资产目录,业务数据模型视图,数据资产一键查询,业务与模型映射,数据处理过程全景图及数据内容搜索等功能模块。
3.3 元数据管理模块
元数据管理在数据治理中占据极其重要的位置。它是企业数据仓库系统中不可或缺的关键组件之一,贯穿了数据仓库的整个生命周期,使数据仓库自动化,可视化[3]。元数据管理能够准确地梳理出数据资产,实现溯源所有数据的出处、梳理数据元素之间的关联和依存关系、洞察数据流的方向,统计数据被调用次数等功能,使得用户能够全面地了解和掌握企业的数据资产状况。元数据管理包括:自动采集元数据、自动更新元数据、元数据稽核、元数据比对、元数据检索、元数据地图等功能。我们构建了统一的元数据管理体系方案。
1) 多源元数据的抽取和同步
数据仓库是数据基础,数据管理标准化能够实现自动抽取关系型数据库的元数据信息,对于非关系型的数据库则需要通过定制元数据管理工具来解析获取元数据信息。
2) 元数据的存储
元数据信息保存在信息系统中,从而便于用户查看。信息系统的维护人员会根据数据管理标准及时更新元数据,从而保持对新生数据的准确描述,每次元数据的变更都会记录在案,如果系统发生数据问题,就可以根据记录的变更日志找出问题的原因。
3) 元数据的公布
元数据的公布是指用户可以在Web端查看元数据,为了方便用户,需要精心设计UI页面,不仅仅是简单地统计图表和曲线,还要直观地以地图或者血缘等展示方式,帮助用户理清数据血系,以及用ER图表示不同数据库表间的关联关系。
3.4 数据质量评估模块
数据质量一般从准确性、完整性、规范性、可访问性、一致性、时效性和不可抵赖性几个维度来考量[4]。
1) 准确性——客观准确地反映现实对象是对数据最基本的要求。
2) 完整性——是指数据要能全面记录对象的各种属性,数据不可以存在缺失项。
3) 规范性——采集的数据必须依据制定的数据标准及规范,采用规定计量单位,规定的精度及维度。
4) 可访问性——不能被访问的数据是无意义的,系统必须根据用户所属级别提供相应的数据服务。
5) 一致性——同一对象在不同数据库表中的描述应当是一致的,无自相矛盾的。
6) 时效性——数据需要记录采集的时间,客观准确地反映事物对象间的发生序列。
7) 不可抵赖性——数据提供者给系统提供数据时要记录在案,方便以后的溯源,保证所有数据的来路清晰明了,提供者不可抵赖。
该模块主要包括数据质量需求、数据组件校验、智能生成任务、质量任务调度、数据问题详情、数据质量报告等功能。
3.5 数据安全管理
数据安全是企业数据资产的重要保证,人们参考其他企业成功经验并结合自身实际来实现,包括:数据脱敏,数据授权,数据加密,数据审批[5]。
4 结论
随着数字经济和信息技术的快速发展,数据已成为企业生产和经营的核心资源,同时也面临着越来越多的安全风险和挑战。数据分类分级作为数据安全治理的基础,可以帮助企业全面了解数据资产,实现多维度的策略管理,从而提高数据安全防护能力。数据分类分级技术可以对企业的数据进行细化管理,可视、可控、可管,有效降低数据安全风险,提高企业的信息化水平和运营能力。长庆钻井总公司的数据管理应用中,引入数据分类分级管控技术,可以更好地保护企业的数据安全,提高企业的运营效率和竞争力。
参考文献:
[1] 孙雨,宋梓铭,孙黎,等.探究计算机网络安全中的信息保密
技术[J].电脑知识与技术,2019,15(26):64-65.
[2] 张杰.关于计算机网络数据库安全管理技术的优化研究[J]. 电脑知识与技术,2019,15(6):18-19.
[3] 高翔.基于J2EE架构的知识发现技术在CRM系统中的应用
研究[D].西安:西北工业大学,2006.
[4] 冯德尹.计算机网络信息安全及防护策略[J].电脑知识与技
术,2019,15(9):24-25.
[5] 邹勤,余毅,袁俊.试论基于大数据的网络安全与情报分析[J]. 电脑知识与技术,2019,15(12):8-9.
【通联编辑:梁书】