基于深度神经网络和中西医多维信息融合的T2DM中医证型预测模型研究
作者: 胡绿慧 王海
摘要:目的:基于深度神经网络(DNN)算法联合2型糖尿病(T2DM)中西医临床真实病例数据,建立证型预测模型并对特征重要性进行分析。方法:采集某三甲医院内分泌科的T2DM患者住院病历数据,包括患者的年龄、性别、典型症状以及理化指标,利用随机森林算法对缺失值进行补全,使用结巴分词器对病历中的症状进行分词并统计出十五种典型症状,结合西医检测指标数据,构建T2DM中西医多维特征融合的证型预测模型。结果:利用DNN构建的T2DM中医证型预测模型,模型的预准确率高达88%。对模型贡献度较高的指标为糖化血红蛋白、空腹血糖、年龄、多食易饥、多饮、多尿等。结论:用DNN构建T2DM的中医证型预测模型是可行的,中西医多维数据的融合分析更贴近临床需求,对提高T2DM临床诊断效率与早期预测准确性具有重要意义。
关键词:T2DM;DNN;中医证型;信息融合
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2023)27-0017-03
0 引言
2 型糖尿病(Diabetes Mellitus Type 2,T2DM)是一种影响全球人类的代谢疾病,全球共有4.15 亿人患有糖尿病,到2040 年可能增加到6.42 亿人[1]。2020 年我国60 岁及以上的老年人口占总人口的18.7%(2.604 亿),其中约30% 的老年人罹患糖尿病且T2DM 占95% 以上。早期筛查、诊断和预防成为实现T2DM 疾病缓解的重要因素[2]。赵灵燕[3]做了T2DM中医辨证分型与临床指标的相关性研究。文玉敏[4]使用关系网络模型、聚类分析等探究糖尿病肾病的方药组成及证候特点;郭奕瑞[5]等应用ANN和logistic回归建立2型糖尿病预测模型。而对证候演变机制、中西医多维特征融合研究有待深入,以提高临床诊断的准确性。而深度神经网络(DNN)作为一种机器学习算法,具有较高的容错性,能够拟合任何复杂函数,具有很强的非线性拟合能力,并获得数据样本的特征规则,同时可以规避主观因素对规律提取过程中的影响,适合于中西医多维信息的非线性建模研究。
1 资料与方法
1.1 数据来源
本研究数据来源于某三甲中医医院内分泌科住院病历数据,筛选中医诊断为“消渴病”,西医诊断为“2型糖尿病”,且病历数据较为完整,包含年龄、性别,病程、症状、中医诊断结论,空腹血糖、餐后血糖、糖化血红蛋白等理化指标。
1.2 数据预处理
1.2.1缺失值处理
首先检测初筛样本表中的缺失值,采用随机森林算法对缺失值进行填充。能更好地反映未知数据的真实性、准确性、可靠性。
1.2.2 异常值处理
数据集中由于各种原因难免有异常值,本研究通过计算均方差来判定是否存在异常值。对于异常值我们采用删除或视为缺失值或用平均值修正来进行处理。
1.2.3 中文分词、词频统计
由于中医的特点,临床上总是会出现同症不同病、同病不同医、同医不同效等医学表述数据不统一的现象。使用结巴分词器对症状进行分词,新建术语词典和停用词词表,并对词频进行统计,筛选出出现频率最高的15个症状作为研究指标,包括多食易饥、多饮、多尿、口干、口渴、口苦、视物模糊、尿有泡沫、四肢麻木、便溏、足烂、胸闷、乏力、皮肤瘙痒、眠差等。为保证模型的收敛效率,本研究从原始表提取7种频数最多的证型进行研究,包括气阴两虚夹瘀、气阴两虚瘀血阻络、气阴两虚、气阴两虚湿瘀互结、湿瘀互结、气虚血瘀、气阴两虚夹湿。最终整理出符合条件的数据共514条,其中男性323例,女性191例,年龄分布在15岁至91岁之间。
1.2.4 数据归一化处理
原始表中样本存在汉字、字符等类型数据,也存在各属性间的数量级相差较大,如年龄、理化指标等。按照深度神经网络对于输入层的要求,需要对研究指标重新编码和归一化处理,将其转化为DNN能够识别的语言。处理规则如下:1)性别:用1代表男性,0代表女性;2)症状:有此症状记为1,无此症状记为0;3)病程:数据做最大最小归一化,使其分布[0,1] 之间;4)糖代谢指标:本研究提取糖化血红蛋白、空腹血糖、餐后2H血糖,对数值进行最大最小归一化处理,使其分布在[0,1]之间;5)证型类别: 对典型证型按序号对应每类编码1~7。
预处理后的数据如表1所示。
1.3 T2DM证型预测模型构建
深度神经网络(Deep Neural Networks,DNN)为包含多个隐藏层的神经网络,可以用较少的参数表示复杂的函数。本研究设计的DNN 结构各层详细情况如下:
1)输入层:输入层指输入到神经网络的数据,输入层的神经元数量等于待处理数据中输入变量的数量。本研究使用年龄、性别、空腹血糖、餐后2H血糖、糖化血红蛋白和15种糖尿病典型症状共20个研究指标作为输入,所以输入层的节点数为20。
2)隐藏层:隐藏层由神经网络中的大多数神经元组成,是处理数据以获得所需输出的核心部分。数据将穿过隐藏层,并由许多权重和偏差调节。深度神经网络的隐藏层数一般来说并不固定,需要根据网络的训练效果来确定。本研究经过多次实验确定隐藏层数为2层,每层的神经元个数分别为10个和9个。
3)输出层:输出层是在神经网络中处理数据的最终产物,可以表示不同的事物。通常情况下,输出层由神经元组成,每个神经元代表一个对象。本研究的输出节点数等于证型类别数,因为选取七种证型进行预测,所以输出节点数为7,每一个输出节点代表一种证型。
4)评估标准:以模型的预测准确率以及对每一类证型预测的精确率、召回率、F1-score来对模型的性能进行评估。
1.4 模型训练
1)确定训练集:选取80%数据集为训练集,其中气阴两虚夹瘀126例,气阴两虚瘀血阻络83 例,气阴两虚83例,气阴两虚湿瘀互结55例,湿瘀互结28例,气虚血瘀22例、气阴两虚夹湿14例。剩下的20%作为测试集。
2)权重初始化:本研究采用随机初始化,使初始权值随机分布在[0,1]之间,这样每一个神经元可以开始就在传递函数变化最大的地方进行迭代。
3)函数选择:输入层、隐藏层各层之间的激活函数均选用Relu函数,并且为了防止模型过度拟合,在模型中加入Dropout数据参数丢弃层,丢弃概率为0.5。隐藏层和输出层之间选用softmax作为激活函数,并使用交叉熵损失函数categorical_crossentropy,另外使用基于随机梯度法的自适应时刻估计(Adam)优化器对随机梯度下降进行优化,模型的迭代次数epochs设为10,batch_size设为24。
4)模型期望输出:因为研究所使用的损失函数为categorical_crossentropy,并且预测结果有7种证型,所以每一个样本所对应的输出为一个7维向量,分别为:气阴两虚夹瘀:Y1 =[1,0,0,0,0,0,0];气阴两虚瘀血阻络:Y2=[0,1,0,0,0,0,0];气阴两虚:Y3 =[0,0,1,0,0,0,0];气阴两虚湿瘀互结:Y4=[0,0,0,1,0,0,0];湿瘀互结:Y5=[0,0,0,0,1,0,0];气虚血瘀:Y6=[0,0,0,0,0,1,0];气阴两虚夹湿:Y7=[1,0,0,0,0,0,1]。最后再采用inverse_transform()将标准化的数据转换成原始数据。
2 结果
2.1 模型准确率
使用测试集数据对训练好的T2DM证型预测模型进行检验,以评价该模型的性能。模型的迭代次数为171次,预测结果准确率达到88%见表2,模型的预测每一类证型的precision(精确率)、recall(召回率)F1-score见表3。其中精确率表示在被所有预测为正的样本中实际为该证型的概率,召回率表示在实际为正的样本中被预测为该证型的概率,F1-score为精确率和召回率之间的平衡值。
2.2 特征重要性
使用决策树模型计算每个特征变量对于模型贡献度,如图1所示,贡献度从高到低地排列为:糖化血红蛋白、空腹血糖、餐后2H血糖、年龄、多食易饥、多饮、多尿、视物模糊、口干、口渴、四肢麻木、性别等。
3 讨论
本研究以DNN所具有的强大的非线性拟合能力构建T2DM中医证型预测模型,以年龄、性别、症状、糖代谢指标为输入节点,证型为输出结果,并计算各指标对模型的贡献度。同时,对各类型证型独立预测结果显示,气阴两虚夹瘀、气阴两虚湿瘀互结、气阴两虚瘀血阻络、气阴两虚、湿瘀互结的精准率和召回率都较高,而气虚血瘀、气阴两虚夹湿都呈现出精确率较高而召回率偏低的预测结果,原因主要为学习样本偏少,这也说明深度神经网络对于数据样本有较高需求,若样本越大,模型的训练和学习也就更加充分,也能更全面地掌握数据样本的特征和规律。另外通过对特征重要性的计算,发现糖化血红蛋白、空腹血糖、餐后2h血糖这几个特征对模型的贡献度较高,说明糖代谢指标对于证型的分类有着较高的影响;而临床症状中,多食易饥、多饮、多尿,对模型的贡献度高,说明在证型分类的时候,这些中西医指标可以作为临床参考。
随着研究的进一步深入,增加更多的样本量,融合更多研究指标,可以提高证型预测的准确性,可以更好地阐明T2DM中西医特征之间的相互关系,形成中西医结合新的诊疗方案,为中国糖尿病临床智能诊疗提供理论基础。
参考文献:
[1] Sun H, Saeedi P, Karuranga S, et al. IDF Diabetes Atlas: Glob⁃
al, regional and country-level diabetes prevalence estimates
for 2021 and projections for 2045. Diabetes Res Clin Pract.
2022(183):109119.
[2] Charles MA, Leslie RD. Diabetes: Concepts of β -Cell Organ
Dysfunction and Failure Would Lead to Earlier Diagnoses and
Prevention. Diabetes. 2021,70(11):2444-2456.
[3] 赵灵燕,毕力夫,赵慧辉,等.147例2型糖尿病患者中医辨证分
型及临床指标相关性分析[J].北京中医药大学学报,2013,36
(7):480-483.
[4] 文玉敏,董兴鲁,李平.糖尿病肾病证候及用药规律的数据挖掘
研究[J].中华中医药杂志,2015,30(10):3665-3670.
[5] 郭奕瑞,李玉倩,王高帅,等.人工神经网络模型在2型糖尿病患
病风险预测中的应用[J].郑州大学学报(医学版),2014,49(2):
180-183.
【通联编辑:闻翔军】