基于数据中台的企业数据采存管用研究

作者: 张军珲 霍建伟 崔记东 梁远想

基于数据中台的企业数据采存管用研究0

摘要:文章基于数据中台进行企业数据采存管用研究,探索了基于数据中台的企业数据采存管用数据架构,探讨了数据采集、数据采集、数据加工、模型设计和数据服务5个环节,通过数据中台,可以实现对企业多源异构数据的统一采集、加工和存储,提高了数据处理的效率和准确性。文章为企业提供了一种高效的数据管理解决方案,同时也为数据中台技术在企业实践中的应用提供了有益的探索和实践经验。

关键词:数据中台;企业数据;数据采集;数据存储;数据管理

中图分类号:TP391   文献标识码:A

文章编号:1009-3044(2024)22-0073-03

开放科学(资源服务)标识码(OSID)

0 引言

随着信息化时代的到来,企业面临着海量数据的处理和管理挑战,数据是企业数字化转型的核心驱动力,为了更好地利用数据资源,提高数据的采集、存储和管控效率,数据中台应运而生。数据中台作为数据管理的新模式和新体系,正成为企业数字化转型的重要支撑。目前,数据中台已在互联网、电力等多个行业广泛应用[1]。数据中台将一个机构(企业、事业,或政府部门)的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化[2]。以数据资产化为导向进行数据治理,以共享数据服务的方式实现数据共享,通过构建中间平台,打通业务和数据环节,减少冗余,增加复用,快速响应用户需求,实现数据驱动业务创新[3]。在这样的背景下,本论文旨在基于数据中台进行企业数据采存管用研究,从数据采集、数据加工、数据建模及数据服务方面进行研究,企业数据服务平台的数据采集、存储和管控技术进行深入研究,以期为企业数据管理提供更为科学和有效的解决方案,促进企业数字化建设的发展。因此,本研究具有重要的理论和实践意义。

1 数据架构

数据中台对于数据架构的设计采用数据分层的理念,根据数据的功能和责任分离的原则进行划分[4]。数据中台中数据的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。基于数据中台的数据架构一般包括三层:数据贴源层(Operation Data Store,ODS) 、数据仓库层(Data Warehouse,DW) 和数据应用层(Application Data Service,ADS) 。通过对数据架构进行分层,每个数据层都有自己的作用域,更方便定位和使用数据;每层数据之间存在逻辑关联,能够更方便追踪数据血缘,更快速地定位数据问题;使用数据分层架构,开发通用的中间层数据,减少数据的重复开发,能够更快速地响应业务需求。

基于数据源、数据中台和数据应用三部分进行基于数据中台的企业数据采存管用架构设计,如图1所示。

1) 数据源:接入企业应用中数据,包括结构化数据、半结构化数据和非结构化数据。一般通过数据中台提供的数据库直连、应用程序接口对接、Excel格式文件到付等方式向数据中台提供数据源。

2) 数据中台:由汇聚引擎、计算引擎、数据开发、数据建模、数据服务和平台管理组成。

通过数据汇聚将数据接入数据中台,数据中台本身不产生数据,数据来自企业业务系统。通过数据汇聚模块汇聚到数据中台的数据没有经过处理,基本是按照数据的原始状态堆砌在一起,业务很难直接使用。通过数据开发实现对数据的加工处理,形成有价值的数据,提供给业务应用使用。

3) 数据应用:数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。为企业应用中数据展示、报表、模型、应用等提供数据应用服务。

2 数据采集

数据源是数据产生源头,包括结构化数据、半结构化数据和非结构化数据。主要来自企业业务应用,通过数据中台提供的数据接入、存储能力,将企业业务系统的数据采集汇聚到数据中台,实现数据分析挖掘利用。一般数据中台提供多种数据接入工具,支持接入多样化的数据格式,包括关系型数据库数据、文件数据、图片数据、日志数据等。

数据采集包括两部分:外部数据源的数据汇聚、内部各层数据的提取与加载。外部数据源的数据汇聚是从业务系统汇聚数据到数据平台的操作型存储层(Operational Data Store) ;内部各层数据的提取与加载是指数据平台各存储层(Data Warehouse) 的数据提取、转换、加载。通过文件加载、数据库数据同步、消息队列、报文接口、文件获取/接收等方式,实现对数据源层中基础数据、监测数据、文件数据三种类型数据的获取,根据不同数据类型,数据不同的时效性要求,分别展开作业调度,实时数据的自动收集、整理、清洗、转换,并接入到数据存储层。

3 数据存储

数据存储实现异构数据的统一存储和高效管理,分为结构化数据存储以及非结构化数据存储两部分。

1) 结构化数据存储。信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号等。对于结构化数据,可以采用Hadoop CDH的Kudu(高性能的数据库存储技术),实现海量数据的在线存储、压缩数据,保证数据不丢失且能够持续对外提供服务。表有预定义的带类型的列(Columns) ,每张表有一个主键(Primary Key) 。主键带有唯一性(Uniqueness) 限制,可作为索引用来支持快速的Random Access。类似于Big Table,表是由很多数据子集构成的,表被水平拆分成多个Tablets,每个Tablet为一个单元来实现数据的durability,Tablet有多个副本,同时在多个节点上进行持久化。

Kudu存储平台包含两种类型的组件,Master Server和Tablet Server。Master负责管理元数据,这些元数据包括Talbet的基本信息和位置信息,Master还作为负载均衡服务器,监听Tablet Server的健康状态,对于副本数过低的Tablet,Master会再起Replication任务来提高其副本数,Master的所有信息都在内存中Cache,因此速度非常快,每次查询都在百毫秒级别,系统支持多个Master,不过只有一个Active Master,其余只是作为灾备,不提供服务。Tablet Server上存了10~100个Tablets,每个Tablet有3(或5) 个副本存放在不同的Tablet Server上,每个Tablet同时只有一个Leader副本,这个副本对用户提供修改操作,然后将修改结果同步给Follower,Follower只提供读服务,不提供修改服务,副本之间使用Raft协议来实现High Availability,当Leader所在的节点发生故障时,Followers会重新选举Leader,Raft协议的另一个作用是实现Consistency,Client对Leader的修改操作,需要同步到N/2+1个节点上,该操作才算成功,平台采用类似Log-structured存储系统的方式,增删改操作都放在内存中的Buffer,然后才Merge到持久化的列式存储中。

对于结构化数据,系统经过加载、抽取、转换、清洗、比对等处理后,按照数据分类和分层进行存储,形成基础库。

2) 非结构化数据存储。非结构化数据是指无法用数字或统一的结构表示的一类信息,如文本、图像、声音、网页等,我们称之为非结构化数据。非结构化数据格式多样、体积大、增长速度快,隐含着巨大的价值。

非结构化数据通过Hadoop CDH的HDFS(分布式文件系统)存储,分布式文件系统拥有良好的容错性、可扩展性以及内部实现对用户透明等特性,物理存储资源可以通过计算机网络节点连接,不一定直接连在本地存储上。分布式文件系统以标准文件系统接口方式向应用系统提供海量非机构化数据存储空间,把分布在局域网内各计算机上的磁盘集合成一个统一的存储目录,把整个分布式文件资源以统一的视图呈现给用户。它对用户和应用屏蔽各节点计算机底层文件系统的差异,提供用户方便的管理资源的手段和统一的访问接口,很好地满足了信息不断增长的需求,并为上层构建实时性更高,更易使用的非结构化数据管理支持,适合PB级别的文件存储,可以支持各种数据类型频繁的修改和删除操作。

对于非结构化数据,按数据来源(如不同的系统)和数据类型(如文档类、图片类、音频类、视频类等)进行存储目录规划,并按数据分析需求进行预处理(如关键字标签)后分别存入结构化数据库和对象存储库中。

4 数据加工

通过数据采集至数据中台的数据是没有经过处理的,数据是按照数据的原始状态堆砌在一起,业务难以直接使用。通过数据中台,应建立一套标准化、规范化的数据处理流程。规范采集内部和外部的(结构化、非结构化、半结构化)数据;清洗采集到的脏数据和无效数据;对不同来源的数据进行数据打通,消灭数据孤岛;对非结构化的数据进行结构化加工;在结构化数据的基础上进行数据建模和数据挖掘等分项操作。通过数据开发实现对数据的加工处理,形成有价值的数据,提供给业务应用使用。图2为基于数据中台的数据加工流向图。

5 模型设计

5.1 数据模型设计

1) 概念模型设计。概念模型设计是在原有的应用数据库的基础上建立一个较为稳固的概念模型,因为数据中台中数据是对原有数据库系统中的数据进行集成和重组而形成的数据集合,对原有数据库系统加以分析理解,为集成来自各个面向应用的数据库的数据提供统一的概念视图。

2) 逻辑模型设计。逻辑模型设计将概念模型具体化。实现概念模型所描述的东西,需要知道哪些功能和处理哪些具体的信息。以水利工程大坝安全业务为例。“测点”信息基本上要包括:测点名称、测点类型、上下桩号、鉴定状态、经纬度、安装日期、厂家等属性;“工程结构”信息基本上要包括:工程信息名称、完整路径、节点状态、工程简介等属性;并且“测点”要与“工程结构”明细关联。

3) 物理模型设计。针对上述逻辑模型所说的内容,在具体的物理介质上实现出来。数据仓库工具使用(Hive+HDFS) ,编写具体的SQL脚本在数据中台上将数据模型建立起来。

5.2 模型分层设计

数据分层一般包括数据贴源层、标准明细层、汇总层和服务层。数据分层设计可以清晰地梳理数据结构,每一层都有它的作用域,在使用数据表时可以方便定位和理解;在做数据血缘追踪时可以快速准确地定位问题,并清楚危害范围;通过规范数据分层,可以开发一些通用的中间层数据,减少重复开发;可以把复杂问题简单化,将一个复杂的任务分解成多个步骤完成;可以解耦屏蔽原始数据异常对业务的影响。数据分层设计,如图3所示。

1) ODS:原始数据层

数据:与原始数据保持一致。

功能:临时存储采集到的原始数据。

2) DWD:明细数据层

功能:对ODS层数据进行数据清洗,保证数据质量。

数据:来自ODS层。

3) DWS:数据汇总层

功能:对DWD层实现轻度聚合,通过关联构建宽表退化维度,或者轻度聚合构建基础指标来实现。同时对上一层的数据按照主题需求构建主题结果进行最终聚合,主题域宽表。

4) 数据:来自DWD

ADS:数据应用层。

功能:按照数仓主题对外提供数据的需求。

数据:对DWS层的数据进行拆解,构建每个主题的结果表。

5) DIM:维度数据层

功能:存储所有维度数据表。

数据:一般都来自DWD。

6 数据服务

数据服务是数据采存管用的最后一个环节,也是数据资产发挥其价值的时刻。通过构建数据服务,以数据中台沉淀的数据资产为基础向内部和外部用户提供数据服务和应用,同时以数据服务于业务,实现数据赋能业务。

数据中台开放统一存储访问接口服务,提供基于传统关系型数据库、非关系型数据库、数据仓库工具等在内的多源数据访问接口,以OpenAPI的方式为BI报表、模型分析、数据挖掘、业务应用等提供统一查询服务。数据服务层主要由数据服务总线来建设,主要负责将数据中台的能力接口注册进去,再以标准化接口开放给业务系统使用,支持多种协议转换、服务质量管理、访问控制、规则引擎等。数据服务层将数据中台的数据服务能力开放出去,供业务平台使用。

7 结束语

综上所述,本文基于数据中台进行企业数据采集、存储和管理方面的研究,旨在提供更科学、有效的解决方案,推动企业数字化建设的发展。通过对数据中台的实践探索,文章深入探讨了数据采集、数据加工、数据建模及数据服务等方面的关键技术,并对基于数据中台的数据采集、存储和管控技术进行了深入研究。研究为企业数据管理提供了一定的理论和实践参考,有助于推动企业数字化建设的进一步发展。希望本文的研究成果能够为相关领域的学者和从业者提供有益的启示,后续可以进一步完善数据中台在企业数据管理中的应用,探索更多创新性的解决方案,以满足企业对数据管理和利用的不断增长的需求。

参考文献:

[1] 刘颖慧,刘楠,蔡一欣,等.数字化转型中不同企业的中台战略及架构设计[J].电信科学,2020,36(7):126-135.

[2] 吴信东,应泽宇,盛绍静,等.数据中台框架与实践[J].大数据,2023,9(6):137-159.

[3] 冯晓娜,雷会锋,王璐.基于数据中台视角的企业数字化转型探析[J].航空财会,2021,3(1):41-44.

[4] 鞠刚,宋雯倩,姜蒙,等.关于财务共享数据中台建设的实践与思考[J].能源化工财经与管理,2023,2(1):55-60.

【通联编辑:朱宝贵】

上一篇 点击页面呼出菜单 下一篇