基于VPX架构的双余度采集处理计算机设计

作者: 张博 吴子清 彭铮

基于VPX架构的双余度采集处理计算机设计0

关键词:双余度;采集处理;VPX架构;健康管理;国产化计算机

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2024)21-0108-03

0 引言

随着计算机技术的快速发展及国产芯片研发能力的崛起,国产化、高性能、高可靠和高安全性计算机逐步被推向了计算机行业发展的前沿。研究发现:1)VPX架构在机械结构、导冷及抗震等方面均具有突出的优点,架构内的VPX模块间可采用Serial RapidIO、PCI Express、高速以太网等高速串行总线,极大地提高了通信带宽,同时可集成更多的 I/O资源,非常适用于复杂计算机系统的使用[1-3];2) 双余度设计被大量用于机载、弹载设备,尤其是应用于飞行控制计算机领域。双通道热备份计算机随时故障切换,极大地提高了系统的安全性和可靠性;3) 数据采集与数据处理分两个CPU设计,在运算速度方面优于传统余度计算机采集和处理同一个CPU承担的模式。基于以上原因考虑,本设计采用VPX架构结合双余度设计,并将采集和处理分CPU设计,紧跟行业发展趋势,可更好地解决国防及航空领域高性能、高可靠及抗恶劣环境应用的实际需求,同时,可为当前大数据计算、人工智能大模型计算提供高可靠的硬件平台。

1 系统架构

余度通常分为相似余度与非相似余度两类。相似余度技术是指n余度计算机控制系统的各冗余通道都采用完全相同的硬件和软件来构成;非相似余度技术是指n余度计算机控制系统的各冗余通道,在系统硬件、操作系统、编程平台、应用程序和开发工作组这几个方面都采用完全不同的器件、方法来构成余度计算机控制系统[4]。本系统依据实际需求,运用双相似余度技术开展设计。

系统由4 个CPU 模块、1个电源模块、1个比较表决模块、1个时统模块、1个数据同步分发模块、1个健康管理模块及母板和机箱构成。电源模块参照VITA62 标准开展3U 模块设计,其他模块参照VITA46标准开展3U模块设计。

电源模块将外部交流AC 220V 电压转为DC12V、DC 5V和DC 3.3V为系统其他模块供电。采用晶振+时钟buffer芯片为系统各模块提供同源时钟。外部时码和秒脉冲信号经时统模块处理后,为系统进行时间统一和对时。系统采用同构CPU模块,双通道热备份方式的双余度设计。外部数据进入数据同步分发模块,进行数据同步且双通道发送给采集处理器CPU-A和CPU-B,采集处理CPU对多组同步数据按照既定协议进行组包处理后传送给比较表决模块裁决,比较表决模块裁决完成后将数据放入自身双口RAM中供后端两个处理模块周期性地进行数据读取。处理CPU-A和CPU-B模块读取前端双口RAM中的数据后,对数据进行计算处理或大模型计算后,将处理结果回传给比较表决模块进行比较裁决,将最终结果通过通信口对外报送。系统架构如图1所示。

2 余度计算机设计

2.1 硬件设计

基于国产化的需求,系统在硬件选型方面全部选用国产普军及以上等级器件。

电源模块设计:220V交流电经过整流桥进行全波整流,整流后接高压储能电容,得到DC 300V脉动直流,DC 300V分两路,一路经DC/DC模块产生独立的3.3V电压为整机健康管理系统(包含健康管理模块及其他模块上的健康管理单元)独立供电;另一路经开关电源产生DC 12V和DC 5V电压,为系统其他模块供电。整机健康管理系统的独立供电,可确保其他模块电源故障时,健康管理系统不受干扰,继续执行设定的故障管理逻辑,确保系统正常运行或安全模式运行。电源模块原理框图如图2所示。

数据同步分发模块设计:采用复旦微的JFM7K325T芯片、长鑫的DDR4颗粒、晶振等器件构成FPGA系统电路,对外部模拟量和数字量进行采集,同时将数据进行时钟对齐后分两路转发。模块除自身同步转发功能电路外,选用成都华微电子的HWD32F103MCQFP64处理器及外围电路,作为本模块自身的健康管理单元,与健康管理模块通过IPMB总线进行健康信息的监控。

CPU模块设计:选用天津飞腾公司的腾锐 D2000/8处理器,搭配飞腾X100套片,扩展出SATA、USB和VGA 等接口,同时D2000 通过PCIE×4 与网讯的WX1860互联,拓展出4路千兆以太网;同时,板载复旦微的FPGA芯片,完成CPU的上下电时序、接口信号的电平转换及时码、秒脉冲处理等功能。模块自身的健康管理单元设计与数据同步分发模块相同。

比较表决模块设计:主要由复旦微的JFM7K325T 电路和6912厂的标准2.5寸SSD存储盘构成。FPGA 通过千兆以太网与4个CPU 模块相连,用于数据处理,并通过SATA接口与1T容量的SSD存储盘互联,用于数据存储。选用江苏沁恒的高速切换芯片CH482X实现SATA接口的二选一切换,选用58所的CX720231芯片实现SATA转BUSB3.0功能,从而满足模块内部通过SATA接口进行数据存储,模块外部通过USB3.0进行数据访问的功能。模块自身的健康管理单元设计与数据同步分发模块相同。

时统模块设计:主要由复旦微的JFM7K325T、恒温晶振及MCU等电路构成。FPGA接收外部时码和秒脉冲信号,通过PCIE总线对整系统所有模块进行时间统一。同时,接收外部秒脉冲信息,对系统内各模块进行精确时间校准。当外部时码和秒脉冲丢失时,可通过内部恒温晶振进行守时,从而给系统其他模块进行统一授时,确保系统时间统一。模块自身的健康管理单元设计与数据同步分发模块相同。

健康管理模块设计:健康管理模块主要由成都华微电子的HWD32F103MCQFP64处理器、晶振、复位电路、JATA电路等构成。通过IPMB总线与系统其他模块的MCU互联(各模块配置独立的健康管理单元),构成整系统健康监测系统,对各模块开机自检、电压、电流、温度及运行状态信息进行监控,同时可控制各模块上下电、复位和整机风扇转速等功能。

时钟网络设计:系统采用2个外部晶振,1个经时钟发生器后,给整机系统各模块中CPU、FPGA和MCU 提供同步时钟;另1个晶振经时钟Buffer,为整机各模块提供同步PCIE时钟。整个硬件的时钟网络为软件时钟同步提供必要条件。

2.2 软件设计

同步软件设计:双余度设计的关键是同步设计,而同步的方法有3种,即时钟同步、松散同步和任务同步。本系统要求双机实时同步采集和获取输入通道数据、同步组包、同步解析与计算,因此采用时钟同步的方法。通过硬件时钟网络为系统提供统一的心跳频率。在接收到时统模块的秒脉冲上升沿时,系统各模块对自身时钟偏差进行统一修正,即“对钟”。系统开机后,各模块进行开机自检和健康信息上报,当各模块均完全正常启动后,时统模块发出第1个秒脉冲时系统准备,在收到第2个秒脉冲上升沿时,在系统时钟同步的基础上,数据同步与分发模块周期性的采集和获取外部数据,并双通道同步发送给采集模块CPU-A和CPU-B,采集处理器双机对多组同步数据按照协议进行组包处理,将组包处理后的数据传输给比较表决模块进行第一级处理,处理完后存入比较表决模块FPGA的双口RAM中。处理模块CPU-A 和CPU-B 周期性同步读取双口RAM中的组包数据后进行数据解析和提取相关模型计算数据进行大模型计算。解析或大模型计算后将数据回传送给比较表决模块进行第二级处理,之后比较表决模块负责对外报送计算结果。数据在传输和计算过程中,完全时钟对齐几乎不可能,但本设计的同步关键在于:一是各模块时钟同源,且1秒内通过秒脉冲各模块进行时钟偏差修正;二是传输与处理严格按照周期进行,且借鉴松散同步的思想,1秒作为1个大的任务周期,在1秒内双通道采集处理周期数进行统计比较和双CPU握手,同时,时钟对齐后进行下一个大的任务周期。

比较表决软件设计: 系统的比较表决处理方法和常规双余度比较表决方法类似,唯一区别在于本设计不进行交叉通道比较表决,而是通过解析健康管理模块周期性上报的电压、电流、温度及BIT等信息,对比较数据一致或差值在阈值范围内的情况,取主机数据(采集计算机,CPU-A为主机,CPU-B为辅机;处理计算机,CPU-A为主机,CPU-B为辅机)存入模块自身的SATA盘中,同时对外报送;对比数据异常时(双通道数据不同或超出差值规定范围),舍弃健康状态异常或健康分值低的CPU模块和关联通道数据,存储和报送状态正常的模块通道数据。

健康管理软件设计:整机各模块周期性的监测模块自身电压、电流、温度及BIT等信息,健康管理模块作为主机,周期性读取各模块健康信息,并上报比较表决模块用于取数判决。同时,当任意模块故障时,健康管理主机自动操控故障模块进行上下电或复位,若故障未解除则强制下电该模块,从而对模块进行故障隔离。健康管理系统根据各模块自身温度数值,控制整机前面板轴流风机转速,实现调控整机温度的目的。健康管理模块将整机各模块健康信息进行汇总后上报上位机显示界面,便于进行人机交互。

2.3 结构设计

机箱结构设计:1) 按照VITA48标准进行VPX 3U 机箱设计,主要采用铝合金铣削加工,最后螺接拼装而成,长×宽×高尺寸分别为370mm×124 mm×194mm,外形公差±0.8mm。2) 整机采用螺钉进行紧固;3) 设备兼容横放或者竖放两种安装方式,以满足多型装备不同安装环境约束;4) 机箱前面板设计红色和绿色指示灯,分别用于标识系统供电及运行状态;设计电源保险丝组件及设备电源开关,增加产品安全性并方便后续维护;前端预留调试接口航插用于产品调试及升级使用,正常工作情况下可使用堵盖封闭,防止灰尘等堆积;5) 机箱后面板配置电源接口航插和通讯接口航插,用于系统供电及与其他设备的数据通信;6) 机箱采用导冷加风冷组合式的散热方式,在机箱前端设置有一个8025的轴流风机。

模块结构设计:1) 模块采用符合VITA48标准的VPX 3U机械结构,散热冷板采用铝合金材料,材质为AL-6063铝合金材料;2) 模块由印制板、散热板、盖板、连接器及插拔装置等部分组成,散热板安装在印制板表面,通过螺钉进行紧固,散热板内部与发热器件相对处粘贴导热垫,进行传导散热。散热冷板的两边各有一个锁紧条,用于加固板卡到机箱侧壁,并增强散热能力。散热冷板前面两边安装助拔器用于板卡插拔;3) 模块外形尺寸:印制板尺寸:160mm×100mm×2mm。模块盒结构件尺寸:170.2mm×100mm×24mm;4) 模块采用自然散热的方式。

2.4 热设计

系统功耗主要集中在4个飞腾D2000/8的CPU芯片上,功耗约25W左右。为了将热量更好地散出去,本系统采用导冷加风冷的散热方式。导冷设计:1) 器件导冷设计:CPU芯片金属壳体贴导热垫后与热管紧密贴合,热管嵌入在标准3U尺寸的器件面壳体内,确保CPU将热量通过导热垫、热管和模块壳体逐级传导至模块壳体上;其他功耗稍大的器件,通过在模块壳体内部设计凸台,器件通过导热垫直接将热量通过凸台传导至模块的金属壳体上。2) 模块导冷设计:功率最大的四个CPU模块的器件面采用贴机箱壁的形式,直接将热量导至机箱侧面板上;其余热量不大的模块,通过锁紧条压紧导轨将热量传导至机箱侧面板上。风冷设计:为了保证电磁兼容性要求,机箱内部设计为两个腔体,后腔体设计为电磁屏蔽密闭腔体,用于安装所有的3U模块;前腔体安装一个8025轴流风机,并在前腔体内部和机箱侧面板夹层内设计风道。前腔体风机吹风经机箱两侧面板夹层,从而可将侧面板上的高热量带出系统。

2.5 热仿真

为了验证整机的热设计效果,对其开展热仿真分析。

1) 热仿真环境条件如下:环境压力为1个标准大气压;环境温度为高温+55℃。

2) 材料属性:整机机箱及模块主要结构件全部采用铝合金LY12加工而成,外部散热翅片与箱体一体加工。电路板基板主要材料为覆铜箔环氧玻璃布压板,导热垫采用北京北化新橡特种材料科技股份有限公司的导热垫,通过长期使用经验证明,上述材料均能够满足传热性能要求。

3) 热功耗统计:整机预估热功耗约为232W。各模块功耗统计如表1所示。

按照计算流体力学(CFD) 方法进行热仿真分析,采用达索公司的SOLIDWORKS Simulation 软件进行仿真计算。模拟整机在55℃高温下运行,风机风量95CFM,通过计算,整机最高温度85℃,最高温度出现在CPU模块的D2000/8芯片上,该器件手册中最高允许温度为105℃,且通过实际使用经验表明,上述器件能够满足使用要求,可以长期稳定工作。

3 结束语

本设计将采集和处理工作分两个处理器同时进行,大大提高了执行效率,同时采集计算机、处理计算机及关联通道在软件和硬件方面都进行了双相似余度设计,提高了整系统的可靠性。在实际应用中也取得了预想的效果,实现了“一次故障工作、二次故障安全”的设计要求[5]。但并非余度数量越多越好,余度数量的增加会导致系统在复杂性、尺寸、重量、成本及研制周期等方面的增加。所以,在进行余度计算机架构设计时,既不能顾此失彼,又不能冗余重复,要在符合实际需求的基础上尽量做到系统组成与架构的简洁[6]。

经典小说推荐

杂志订阅