基于StarRocks 的机场飞行区数据治理研究与应用
作者: 于敦志 王健 尹磊 娄乾 潘伟 丁继存
摘要:机场飞行区数据面临着多样性、复杂性和孤岛化等挑战,传统数据库在数据整合、计算、处理和分析方面存在局限性。StarRocks 凭借向量化、MPP 架构、实时更新的列式存储引擎等技术,实现了高可用、实时、高并发的数据分析能力,为机场飞行区数据治理提供了新的解决方案。通过StarRocks实现机场飞行区的数据治理,将FOD、鸟情、灯光、航班、车辆、设备、航空器等不同业务系统数据汇聚、接入、清洗、转换、分析,为机场运行管理、航班调度、安全监控等提供决策支持,快速构建报表大屏完成数据分析,可视化呈现数据处理全过程。该方案有助于推动机场核心数据的高效供给、流通和应用,实现数据融合共享和价值挖掘,提升数据管理效能和运行保障效率,为机场发展提供新动力。
关键词:StarRocks;机场飞行区;大数据
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)35-0076-04 开放科学(资源服务) 标识码(OSID) :
1 引言
1.1 民航机场飞行区的数据复杂性
随着航空业的快速发展,作为机场飞行区数据量增长较快,以青岛机场为例,由2019年的每月几十万的数据量增长至2023年每月几百万的数据量,业务范围也由适航保障业务拓展到适航保障、区域管理、综合管理三大业务板块,存在数据采集难度大、缺乏信息的直观展示、数据标准不统一、数据质量参差不齐等问题,给飞行区带来安全风险隐患,严重制约着机场的总体发展,为了高效、安全地管理和利用这些数据,民航局发布“7+1”民航业数据治理规范[1]。
为了整合空管数据、航信数据、A-CDM数据、地服数据和飞行区各业务系统数据,利用大数据分析、汇总,最终实现平台化管理,能够真正做到“数据全面、功能多样、流程合理、稳定可靠、平台管理”,可全面提升飞行区的空防安全裕度,保证飞行区安全、有效地运行。
1.2 传统飞行区系统的局限性
传统飞行区系统大多以业务主体为分类,形成围界系统、道面系统、助航灯光系统、鸟情系统等独立系统,导致存在数据孤岛,无法整合数据,形成有价值的数据资产。StarRocks作为高性能、高可用、高可靠的分析型数据库系统[2],其快速加载、实时更新以及复杂查询的高效处理能力为机场飞行区数据实时同步、校验和存储提供有效手段,帮助机场打通数据孤岛,建设数据标准体系,提升数据质量,全面盘点数据资产,快速构建报表大屏完成数据分析,实现数据处理全流程可观测。推动机场数据融合共享和价值挖掘,提升数据管理效能和运行保障效率。
2 基于StarRocks 的飞行区数据治理平台优势
通过StarRocks实时数仓技术的飞行区管理平台在民用机场的应用,完全突破了飞行区信息化的传统思维模式,利用视频分析、物联网、移动通信和数据建模技术对数据进行处理,使用2D、3D技术以可视化形式呈现飞行区运行状态,打造全流程、全要素、全场景的一体化飞行区数据治理平台。其优势主要体现在以下几个方面。
2.1 充分面向机场飞行区的数据治理模型
依据机场相关数据规范以及多年机场数据治理经验,平台内置完善的机场数据标准模型,包括围界、鸟情、助航灯光、FOD、道面、车辆、设备、人员八大类。
2.2 整合业务流程,提升飞行区空防安全能力
整合飞行区业务、流程、资源,全面监管机场飞行区围界、跑道的安全运行,实现及时预判、智能分析,有效提升空防安全能力和运行效率。
2.3 高速实时处理,提高工作效率
StarRocks基于MPP架构,采用全向量化执行引擎和列式存储技术,能够实现数据的快速加载和实时更新。传统数据库并发量和实时计算能力不足,在每秒接入并处理飞行区内上百辆车的实时位置数据等业务场景下,StarRocks通过高并发量实时和离线的数据处理能力,满足机场飞行区对实时数据处理分析的需求[3]。
2.4 扩展性强,用户易学习
StarRocks支持多种查询方式和复杂查询语句,能够满足机场飞行区在数据分析、报表生成等方面的多样化需求。同时兼容MySQL协议,用户可以利用现有的MySQL客户端工具进行查询和数据分析,降低用户的学习成本和使用门槛。
3 系统整体设计
本系统的设计结合民航机场飞行区的业务特点,充分发挥StarRocks在实时数仓领域的优势,既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。同时具备水平扩展、高可用、高可靠、易运维等特性。
3.1 总体功能设计
本系统功能主要包括面向机场飞行区用户的飞行区管理平台,以及面向数据管理用户的数据可视化平台、数据治理与共享交换平台、数据开发平台、基础组件管理平台、统一门户。
飞行区管理平台包括数字孪生、适航保障、区域管理、综合管理、移动端模块。数字孪生模块通过可视化2D/3D地图展示整个飞行区的全貌和实时运行状态,两侧通过图、表等多种形式显示整体的运行指标和报警信息。适航保障集成机场飞行区的FOD监测、道面管理、鸟情管理、道面除雪、助航灯光五大业务数据。区域管理提供包括全景监控、安全监管、安全准入、智能围界、施工管理、督查管理六大领域功能。综合管理包括排班派工、定时提示、知识库、应急管理、运维支持五大主题相关功能[4]。同时为现场一线保障用户提供适航保障、区域管理、综合管理的移动端功能。
数据可视化平台提供自助报表和可视化门户功能,包括机场数据治理整体看板、数据交换看板等。
数据治理与共享交换平台提供资产目录和门户,用户可申请数据资产,同时支持数据标准、数据资产、数据质量、元数据管理、数据报表、数据模型、数据血缘、接口/文件开发与集成等功能,把数据仓库的数据提供给第三方系统。
数据开发平台支持把业务系统的数据通过库表、文件、接口、消息等方式接入数据仓库,并在数据仓库进行清洗、转换、校验、计算等,形成ODS(原始表) 、DWD(根据参考数据标准完成参考值的标准化,根据查询统计需求完成宽表构建,以及数据的清洗和转换) 、DWS(数据统计分析) 三层数据架构。
基础组件平台提供组件配置、服务启停、运维监控等功能。
统一门户支持统一认证、用户权限、审计日志、任务调度配置等功能。
3.2 技术架构设计
本系统分为获取层、存储计算层、服务层、展示层4个层级,开发平台贯穿全局。充分利用业内主流前沿技术,结合企业数据服务需求,融合构建统一数据治理工具。
获取层:负责采集各种数据源的数据,汇聚存储至存储计算层。通过数据同步工具,如JDBC、DATAX 等完成数据获取,通过消息中间件,如Kafka、Rab⁃bitMQ等完成数据的分发与传输,通过Flink、Spark 等数据处理脚本,完成结构化数据和非结构化数据预处理。此外,ETL 技术还包括爬虫技术和事件采集技术,应用于多场景的数据获取。
存储计算层:支持大数据分布式计算、MapReduce 大规模并行计算[5]、Spark 并行计算、基于Flink 或SparkStreaming的实时流式数据计算[6],支持基于MPP 数据的复杂关联分析和基于NoSQL数据库和内存数据库的交互式查询与分析,支持基于Hadoop分布式、MPP分布式数据库和传统数据库等进行存储。
服务层:负责数据治理相关配置管理及数据服务。数据服务主要通过Open API技术对外提供数据交换接口;通过即时查询工具,如Hue、Zeepelin等,支持即席查询;通过SQL解析等技术实现自定义报表及可视化大屏询功能。
展示层:集成多种前端组件库来实现数据服务的多元化前端展示。
开发平台:通过虚拟化环境及容器管理,实现应用容器化部署及编排。
3.3 部署架构设计
平台采用MySQL数据库、MongoDB数据库、Post⁃greSQL数据库作为业务数据库;StarRocks作为数据仓库,承担数据仓储、计算、转换等功能;核心服务包括适航保障、区域管理、综合管理、配置管理、数据适配服务;辅助服务包括Zuul网关、Eureka注册中心、统一认证、视频推流服务、移动管理平台、即时通信、任务调度中心、工作流引擎、知识库、GIS服务;中间件包括RabbitMq、VerneMq、Redis、Seatunnel、flink、zookeeper、Nginx。
3.4 业务流程设计
本系统根据StarRocks 既支持从各类实时和离线的数据源高效导入数据的特性,将民用机场飞行区的FOD数据、鸟情数据、围界数据、灯光数据、安全防范数据、道面数据、车辆位置数据、航空器位置数据、航班数据、保障数据等实时导入StarRocks数据仓库,根据业务场景的不同进行清洗、转换、计算、分析,最终将结果以报表、大屏、第三方接口的形式展示呈现。
以跑道FOD的业务流程为例,详细阐述本系统数据治理过程。本系统通过实时同步防跑道入侵系统的FOD数据表,存入StarRocks的ODS层。经过数据计算,将错误报警数据自动清除,获得有效的FOD报警数据,利用StarRocks的数据校验、数据订正等功能,对机场FOD数据进行质量检查和修复,确保数据的准确性和完整性后,通过关联航班信息、跑道信息等,形成DWD层FOD数据表,将业务数据展示在平台中,用户可进行报警确认、派工、处理、催促等操作。将DWD层FOD数据表利用StarRocks的复杂查询能力根据日期、部门、区域、种类等信息进行分析,对机场飞行区FOD 数据进行深入分析和挖掘,形成DW层FOD统计表,为机场运行管理、航班调度、安全监控等提供决策支持。此过程中平台通过数据生命周期全过程的安全防护体系,包括数据加密、访问控制、审计日志等措施,保证数据传输、计算、存储的安全性和可靠性。
3.5 应用效果评估
飞行区数据治理技术底座实现数据汇聚、共享交互和数据服务,通过数据库表、接口、消息、文件等方式汇聚生产运营系统、站坪无线调度系统、跑道防入侵系统、鸟情系统、围界系统、助航灯光系统、空管系统、道面系统等10多个系统数据;通过数据清洗、转换、融合、质量校核,建立机场飞行区统一的数据标准模型,包括围界、鸟情、助航灯光、FOD、道面、车辆、设备、人员八大类;平台支持PB级存储,具备高性能计算能力,其中离线计算48 TB,实时计算15万TPS,支持作业调度5万以上并发量。
基于StarRocks构建的数据治理平台,利用数据治理技术全面展示机场飞行区的总体运行情况,可宏观掌控飞行区的运行安全、日常管理和运营效率等各个方面。平台的建设不仅能提高值班效率,提升空防安全和管理效率,更能提升整个机场的运行品质,带动机场全面发展。日常管理方面,拓展飞行区实际应用,实现飞行区资源和人员的统一管理,优化日常保障和监管流程,提升综合管理水平;安全管理方面,利用GIS和可视化等技术,结合实际应用场景,合理派工,自动上报,可视化查看现场情况,减少不必要的人工巡视,提高巡视效率,机坪防跑道入侵自动化报警,提升空防安全,实现整个飞行区安全体系建设;部门建设方面,通过专家知识库建设,帮助飞行区管理部摆脱靠经验管理的模式,实现数据沉淀,实时在线分享经验,查阅技术文档。流程管理方面,实现飞行区工作的电子化、智能化、移动化办公,提高飞行区的信息化整体水平,多系统数据互联互通,打破信息孤岛,实现信息数据的深度挖掘。
4 未来发展方向
4.1 技术改进和创新方向
1) 仿真模拟:机场吞吐量不断增加,航班与资源不匹配问题日益突出,通过海量历史数据结合仿真模型,模拟仿真飞行区未来运行情况,评估航班与资源的需求情况,为机场管理人员提供决策参考。