人工智能背景下机器学习算法对患者就医影响因素的预测研究
作者: 李钰 黄代政 黄超
摘要:目的:文章阐述了人工智能在医疗领域的应用,并结合机器学习算法,依据实例数据的类型特点,对患者就医影响因素进行预测。突出机器学习算法的高效和准确性,同时为此类调查数据的分析提供新的思路。方法:对某医院门诊患者做问卷调查,采用贝叶斯网络、随机森林模型对患者就医影响因素进行分析,揭示了各个影响因素之间的内在联系及重要程度。结果:贝叶斯网络显示患者就医影响因素之间相互影响,随机森林模型拟合度为0.8。结论:机器学习可以根据数据类型从中获取知识,从而降低错误率,使管理者做出精准决策,有效提高解决问题的效率。
关键词:人工智能;机器学习;医院选择;预测研究
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2022)13-0085-03
随着大数据时代的到来,人工智能技术及其应用所涉及的领域已相对全面,包括医学、社会学、计算机科学等各个学科范畴的知识,涵盖机器学习、图像识别等多个研究范畴。人工智能应用的推广将为各行各业提供全新的改革方案,有效推动高新技术的发展,使民生福祉达到新的高度[1]。
近年来,公共卫生关注的焦点问题仍为卫生资源配置问题,而患者的就医行为在一定程度上可以反映当下的卫生资源配置情况以及卫生政策问题。经文献查阅,针对患者就医影响因素的研究来看,多数国内外研究仅局限于基于二元 Logistic 回归模型或SPSS基本统计软件进行数据分析等方法得出数据的分布规律,进而推断出影响患者就医选择的相关因素。在人工智能背景下,本文为了更好地考虑患者对医疗机构的选择,依据实例数据的特点,考虑采用机器学习模型来对患者医院选择做预测,充分研究患者在医院就诊选择中不同影响因素的内在关系,为此类调查数据的分析提供新的研究思路。同时,为优化医疗资源配置及提高医疗机构核心竞争力起到关键性作用。
1人工智能在医疗领域的应用
人工智能是计算机学科的一个分支,目前已广泛应用于人类生活中的各个场景,涵盖图像识别、机器学习、知识图谱等[2]。人工智能通过对感知信号的处理,经过不断学习、推理,进而做出最佳决策。它所特有的快速处理且相对独立的特性决定了在医疗发展上拥有广阔的前景。目前,人工智能技术逐渐也成为医疗产业的重点技术[3]。从国际角度看,美国不断出台人工智能相关政策,向医疗领域开放适当的政府数据库,便于为人工智能技术积累足够的医疗数据,推动医疗人工智能的发展[4];日本将信息通信技术与人工智能技术相融合,使医学知识与技术发挥其更大作用;德国强调在卫生健康等社会领域,人工智能需注重数据的保护及创新,使人工智能合理融入人类社会;法国先后出台相关政策并巨资投资开发人工智能技术,决定在人工智能技术支撑下结合国家健康数据研究所成立卫生健康数据中心[5]。作为引领未来发展的战略性技术,我国把发展人工智能技术上升为国家战略,人工智能将成为推动各领域高速发展的新驱动[6]。
回顾近年我国面临的医疗卫生现状,人口老龄化、慢性病治愈力下降、卫生资源供给缓慢且分配不均而导致卫生服务体系严重失衡,使得大医院人满为患,小医院无人问津,这些突出问题表明,现阶段对医疗人工智能的巨大需求[7]。机器学习是人工智能技术的实现形式之一,在人工智能系统中普遍使用。能够从大规模数据中进行学习,推理出新的规律,引导管理者做出正确的决策[8]。
2 实例分析
本文以广西某综合性医院门诊的问卷调查数据为例,根据数据类型特点,构建贝叶斯网络以及随机森林模型,探讨患者在医院就诊选择中不同影响因素之间的内在关系及其重要程度。该研究属于现况研究,调查对象为某阶段至该医院就医的患者人群,调查内容涉及影响患者就医选择的主观因素及客观因素,包括患者基本情况、医院方面因素、患者主观方面因素以及其他客观外在因素等。本次研究共调查3655人,所有问卷均由患者自愿填写并独立完成,问卷真实有效,记有效问卷3428份,有效回收率为93.78%。
2.1贝叶斯网络结构学习
本文采用的数据集类型属于多分类因子型数据,数据量大,因问卷数据在完整和确定性上存在一定局限,故采用贝叶斯网络对数据进行描述。与其他不确定性评价方法相比,贝叶斯根据人们的信念概率,使数据得到一个合理的解释[9]。首先,可将相关因素图解可视化;其次,对于不确定性问题有较强的处理能力,能在有限、不完整、不确定信息条件下自动进行学习和推理,得出正确结论。将贝叶斯方法应用到不确定性多种影响因素所导致结果的分析时,不仅能对信息的价值做出科学的判断,还能对调查结果的可能性加以数量化的评价,将先验知识或主观概率巧妙地有机结合。
首先,对原始数据进行收集、整理、录入以及缺失值处理,由于数据均为问卷数据,题中每一个数值代表该题的变量,故将数值型数据转换为因子型。随后从数据集中随机抽取2/3数据作为训练集构建模型,剩下的1/3数据作为测试集对模型加以验证。最后使用爬山算法对数据进行结构学习。爬山算法属于人工智能算法的一种,对于贝叶斯网络的爬山算法,是贝叶斯网络基于评分搜索方法中搜索算法的算法之一,通过三个搜索算子对初始网络结构进行修改,得到若干候选网络结构,分别对每个候选网络结构进行评分,取评分最优的候选网络与初始网络相比较,如果候选网络的评分高于初始网络,则取该候选网络作为当前网络继续搜索,否则,就停止搜索,并返回当前网络结构,在上述原理基础上经过反复迭代,得到最优网络图如图1所示。
可以清楚地看到,贝叶斯网络图是一个有向无环图。两个因素之间的箭头连线具有指向性,说明他们之间存在某种关联。由图1可知,每一个圆圈内的变量代表数据中涉及的影响因素,箭头的指向代表影响因素间的依赖关系。因此,就医开销影响、参保类型、年龄、教育、疾病类型、居住受到职业类型的影响;医生问诊时长、就医意愿受到疾病类型的影响;职业类型受到月收入的影响;患者的等待时间受到医疗开销的影响;医疗机构类型选择受到医疗开销的影响。因此,贝叶斯网络与统计相互结合,克服了许多计算与概念方面的解释性难题,用图形的方法描述各个变量之间的相互联系,易于读者对数据集形成一个清晰的架构。
2.2随机森林模型
根据选用的研究数据可知,本文选用的研究数据为问卷数据,数据量较大,纳入的特征数据集均为多分类数据,传统的数据统计方法具有精度低、速度慢等弊端[10]。随机森林是决策树的集成方法之一,决策树在拟合多元线性回归模型时,如果特征之间存在较强共线性,会导致每棵树的分类方式相同,使得预测变量高度相关。随机森林可高效处理大规模数据,且适应于高维度数据的应用场景。此外,在缺失数据的场景中,依然能够保证较高的分类[11]。故考虑采用随机森林算法对数据集进行深入分析,对研究数据集纳入的职业、居住地、疾病类型等12个特征进行抽样,每次从12个特征中有放回地抽取等量的样本数据来进行建模,形成相对应的分类树,以确保所有的特征都会被使用,这样平均之下就会减弱不同树之间特征的高度相关性,以减小总体的方差,达到总体的最优。随机森林算法样式如图2所示。
运用R语言统计分析软件对数据进行进一步处理,采用随机森林模型可视化变量的重要性以探究患者在医院就诊选择中不同影响因素的重要性程度,随机森林模型变量的重要性如图3所示。
由图3可知,经随机森林模型运算得到Mean Decrease Accuracy以及Mean Decrease Gini两个结果,结果分析如下:
Mean Decrease Accuracy是把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。即模型显示变量的重要性依次为职业、居住地、医疗开销影响、患者等待时长、疾病类型、医生问诊时长、教育、参保类型、就医意愿、年龄、月收入、到本院就诊的原因。
Mean Decrease Gini是计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。该值越大表示该变量的重要性越大,即模型显示变量的重要性依次为职业、居住地、患者等待时长、教育、医疗开销影响、疾病类型、参保类型、医生问诊时长、年龄、月收入、到本院就诊的原因及就医意愿。
通常使用AUC值来作为模型的评价标准,即AUC是衡量学习器优劣的一种性能指标。为验证模型的优劣程度,故进一步对随机森林模型进行评价,经检验,随机森林拟合优度的AUC值为0.80,模型效果较好。
3结束语
综上所述,机器学习可以从输入的数据中获取知识,从而使更多的问题得到解决,降低错误率的发生,有效提高解决问题的效率。本文采用贝叶斯网络中的爬山算法以及随机森林模型可视化变量的重要性对患者就医选择影响因素进行了分析研究,两种方法学的应用展现了其各自的内在优势。
一方面,贝叶斯网络可直观地揭示影响患者在医院就诊选择方面的关键因素与其他因素的内在关联和相关规律。不同于以往的假设检验统计方法做出的定性分析,采用贝叶斯网络模型分析患者就医选择的影响因素,能够利用分析结果将患者分流情况做定量分析。另一方面,随机森林凭借其快捷、高效的性能特点,对大量冗杂的医疗数据进行高速处理,已在卫生服务领域发挥着重要作用。采用随机森林模型对患者就医选择影响因素进行评估,对变量的重要性程度进行可视化,准确对患者就医行为影响因素做预测,进而有效、正确地引导医疗卫生政策的制定以及实施。
贝叶斯网络和随机森林算法属于人工智能机器学习范畴,由此可见,人工智能在一定程度上焕发医疗行业新活力,为优化卫生资源配置提供技术价值参考。促使医院管理者做出精准医疗决策,提高卫生服务利用,对于卫生医疗体系的建设有着阶段性的影响。
参考文献:
[1] 李治军,王昊欣.基于大数据时代背景的人工智能在计算机网络技术中的应用探讨[J].电脑知识与技术,2021,17(20):127-129.
[2] 许家睿.人工智能在辅助医疗领域现状与未来发展趋势概述[J].中国新通信,2021,23(1):232-234.
[3] 邵长年.论人工智能进入医疗领域的机遇与挑战[J].中国医疗器械信息,2020,26(20):170-171.
[4] 袁紫藤,陶金婷,谈莹,等.国内外医疗人工智能应用现状及相关政策[J].医学信息学杂志,2019,40(5):2-9.
[5] 任洁,尚传强,徐果.人工智能在医疗领域的发展给卫生监督带来的挑战及对策[J].中国卫生监督杂志,2019,26(6):547-551.
[6] 朱振一,王巍.人工智能在医疗领域的发展现状及前景分析[J].世界最新医学信息文摘,2019,19(50):77-78.
[7] 孙一帆.人工智能带来的医疗变革[J].中国新通信,2019,21(1):210-211.
[8] 高一冉.基于人工智能的机器学习在医疗中的应用[J].科技传播,2019,11(7):138-139.
[9] 程和祥,聂炜昌.人工智能中的贝叶斯方法[J].重庆理工大学学报(社会科学),2020,34(5):17-23.
[10] 韩玉,施海龙,曲波,等.随机森林方法在医学中的应用[J].中国预防医学杂志,2014,15(1):79-81.
[11] 姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报(工学版),2014,44(1):137-141.
【通联编辑:梁书】