心理健康状态的情感分类与预测研究
作者: 刘青 赵姝琪 康宇 文海洋
摘要:心理健康问题是当今社会广泛关注的热点话题,随着人工智能的不断发展,机器学习技术为心理健康状态的检测提供了新的手段。该研究基于Kaggle平台的心理健康数据集,开展情感分类研究,分别采用朴素贝叶斯、随机森林、逻辑回归和神经网络算法构建了4种多分类模型。结果表明,随机森林模型的分类正确率最高,达到89.86%,神经网络次之,为88.90%。同时,通过比较4种模型在各个类别下的查准率、查全率和F1值发现,随机森林作为一种集成学习方法,在各类评价指标中均表现突出,在三个类别中的F1值分别为0.94、0.87和0.88。通过构建分类模型,有助于识别和分析心理健康相关的情感状态,为心理健康的早期预防和发现提供有效支持。
关键词:心理健康;情感分类;机器学习
中图分类号:C913.9 文献标识码:A
文章编号:1009-3044(2025)01-0019-04 开放科学(资源服务) 标识码(OSID) :
0 引言
据世界卫生组织(WHO) 统计,全球约有10亿人受到精神障碍的困扰,且每40秒就有一人因自杀失去生命[1]。因此,重视心理健康的早期预防和干预显得尤为重要。在心理健康领域,传统的评估方法往往依赖于临床访谈和问卷调查,虽然有效,但由于时间成本和主观因素的影响,常常难以全面捕捉个体的心理状态。近年来,科技的迅猛发展,尤其是机器学习和文本挖掘技术的进步,使得分析个体言论中所蕴含的情感状态成为可能。特别是在社交媒体和在线交流日益普及的背景下,用户的言论和情感表达成为研究的宝贵数据源。通过对这些数据的挖掘和分析,不仅可以及时发现心理健康问题,还能有效追踪其发展趋势,为专业人士提供重要的参考。
本文旨在构建一个有效的多分类模型,利用多种机器学习算法分析个体的心理健康状态,通过对不同模型性能的比较和分析,实现准确的识别和分类。本研究采用朴素贝叶斯、随机森林、逻辑回归以及神经网络等多种算法,分析其在分类任务中的表现,为心理健康检测提供有效方法和重要参考依据。这一研究不仅有助于丰富该领域的技术应用,还能够为后续的干预和治疗方案制定提供科学依据,从而推动心理健康事业的发展。
1 数据处理与分析
本研究的数据选自Kaggle平台的心理健康状态的部分数据集,该数据集包含个人评论和类别标签两部分。本文选择了具有代表性的三个类别“( Normal(0) 、Depression(1) 、Suicidal(2) ”) 的数据进行后续建模,部分数据内容如表1所示,包括评论(Statement) 及对应的类别标签(Status) 。
对数据进行预处理,进行了如下操作,以确保文本的规范化,减少噪声,提高后续模型的准确性。首先,文本中英文的大小写差异通常不会影响词语的实际含义,但会被模型视为不同的词汇,因此将所有英文字母转为小写;其次,数字和标点符号在文本处理任务中并不提供直接的语义信息,为了简化数据,删除所有文本中的数字和标点符号;由于英文中的部分词汇,如with、at、of等词在文本语义中没有实际含义,且出现的频率较高,这些词汇被称为“停用词”,为了提高文本的分类效率,本研究采用NLTK库中的英文停用词表来去除这些停用词。
此外,由于三个类别“Normal(0) 、Depression(1) 、Suicidal(2) ”的样本数分别为16 351、15 404和10 653,数据类别存在分布不均衡问题,为了避免模型偏向于某个类别,故对数据集进行了重采样。采用上采样的方式,随机复制增加少数类别的样本,使其数量增加到与多数类别样本相同的数目。通过使用sklearn.utils.resample函数,对少数类样本进行了上采样,最终每个类别的样本数均为16 343 个。训练集包含36 771个样本,约占总样本数的75%,测试集样本数为12 258个,通过这一处理,有助于提升模型的泛化能力,减少因类别不均衡而导致的预测偏差。
词云图是一个常用的文本数据可视化工具,将文本信息以图形化形式展现,使得复杂的文本数据能够被更为直观地理解。本研究分别绘制了三个类别的词云图,如图1所示,从图中可以看出,不同类别的词云图存在明显的差异。对于Normal这一类别,包含了大量与日常生活相关的词汇,如work、love等,而De⁃pression这一类别则多出现help、depression等相对消极、困扰的词汇,Suicide则出现die、kill等更加极端的词汇。通过词云图,不同类别文本的核心词汇得以直观呈现,为后续的文本分类提供了重要的参考信息。
采用TF-IDF对预处理后的数据进行特征处理,该算法基本思想是通过某个词的词频和出现过的文档频来衡量一个词在文档中的权重,其计算方式如下:
式中:nd,w 表示词w 在文档d 中出现的次数,Σwnd,w表示文档 d 中出现的总词数,| D|表示文档总数,| w ∈ d |表示包含词w的文档数。
2 算法简介
本文使用朴素贝叶斯、随机森林、多分类的逻辑回归以及神经网络4种算法分别对心理健康状态进行分类,下面对这4种算法进行简要介绍。
2.1 朴素贝叶斯
朴素贝叶斯分类算法是一种基于贝叶斯定理的监督学习算法,所谓“朴素”,是假设了样本的每个特征之间相互独立[2]。设每个样本都是由m 维特征构成的向量,共有k 个类别c1 ,c2 ,...,ck,对于任意样本x =(x1 ,x2 ,...,xm ),求解出最大后验概率所对应的类别。根据贝叶斯公式和独立性假设,后验概率公式如下:
count (xj,ci )是类别为i且包含特征xj的文档数。
2.2 随机森林
随机森林是采用并行的方式,通过组合多个决策树,集成一个强学习器的模型[3],作为一种典型的Bag⁃ging算法,为了保证各棵树之间的独立性,随机森林通常采用了随机的有放回的抽取样本、随机的选择k个特征以及对选取的特征进行随机分割的方式实现构建不同的决策树。与决策树相比,其结果不易过拟合。步骤如下:
1) 使用自助抽样,从训练集D 中抽取T 个大小为n的数据集Dt;
2) 对于不同的数据子集Dt,从m 个特征中随机选择k 个特征,使用决策树模型学习得到一个弱学习器ht (x);
3) 对T 棵树进行集成,得到最终的分类器:H(x) = vote ({h } ) t (x) Tt = 1 。
2.3 逻辑回归
逻辑回归是一种常用的二分类模型,通过引入激活函数来解决分类问题。设对于任意样本x,其类别标签取值为y ∈ { 0,1 },采用Sigmoid 函数作为激活函数,公式如下:
它将线性函数的值域R 映射到(0,1) 之间,标签y = 1的概率为:
则标签y = 0的概率为:
其负log似然损失函数为:
J (w)=-y ln(P( y=1| x))-(1-y )ln(1-P( y=1| x)) (9)
由于本文解决的任务是三分类问题,故将二分类的逻辑回归推广到多分类逻辑回归。设共有k 个类别,分别为c1 ,c2 ,...,ck,采用Softmax函数预测属于类别c 的概率,即:
引入类别y 的独热编码向量为yc = I (y = c),则多分类模型的负log似然损失函数为:
2.4 神经网络
神经网络是当前最热门的机器学习技术之一,其已广泛应用于计算机视觉、自然语言处理等众多领域[4]。前馈神经网络(MLP、FNN)是最常见的一种网络结构,分为输入层、隐藏层和输出层,通过逐层传递得到最终结果[5]。可将该过程视为一个非线性复合映射,首先将输入样本x 作为第一层的输入a(0 ) = x,通过如下方式进行信息传播:
z(l) = W (l) a(l - 1) + b(l) (12)
a(l) = f (z(l) ) (13)
式中:W (l) 表示第l 层的权重矩阵,b(l) 表示第l 层的偏置项,a(l) 作为第l 层的输出,f 表示激活函数。下文将采用两层隐藏层的神经网络,每层有50个神经元,激活函数为ReLU函数,以实现心理健康状态的多分类任务。
3 实验结果
本研究采用多项式朴素贝叶斯(MNB) 、随机森林(RF) 、多分类逻辑回归(LR) 以及神经网络(MLP) 构建了4 种模型,其正确率分别为78.85%、89.86%、84.68% 和88.80%。对于多项式朴素贝叶斯,尽管该算法计算效率较高,但其性能会受到特征独立性假设的限制,因此在处理复杂的文本数据时,往往无法捕捉到更深层次的特征关系,导致其正确率较低。逻辑回归虽然其结果优于多项式朴素贝叶斯,但在处理非线性问题时表现欠佳。神经网络具备强大的非线性建模能力,其分类正确率较高,但在超参数调整和训练过程中存在过拟合的风险,在本次实验中其表现略逊于随机森林。随机森林作为一种集成学习方法,能够自动处理特征之间的非线性关系,因此在分类任务中表现出色,并且对异常值和噪声具有较强的鲁棒性,这使得其正确率最高,达到89.86%。
表2展示了4种模型在各个类别下的查准率、查全率和F1值。从结果可以看出,4种模型对第一个类别“( Normal”) 的分类效果最好,各模型在该类别上可能学习到了更充分的特征信息,具有较高的查准率和查全率;对于其他类别,各模型的表现则存在一定差异。随机森林和神经网络在多个类别上的F1值均较高,且优于朴素贝叶斯和逻辑回归,展现出良好的分类效果。
此外,本研究绘制了4种模型的ROC曲线图,每幅图展示了三个类别各自的ROC曲线以及基于宏平均的ROC曲线,同时计算了AUC值(ROC曲线下方的面积) 。ROC曲线越靠近左上角,表明模型效果越好,说明在不同的分类阈值下,模型具有良好的敏感性表现。通过分析可以发现,随机森林模型在单个类别及整体上均表现出较强的分类能力,其宏平均AUC值最高,达到0.98,这表明随机森林能够很好地区分各个类别。这得益于其集成学习的特点,使其在处理复杂特征时表现更为稳健。神经网络次之,其宏平均AUC 值为0.96,显示出了神经网络在处理文本复杂特征问题中的优势。朴素贝叶斯和逻辑回归的宏平均AUC值均为0.95,在各个类别的识别能力上存在差异。
同时,在随机森林模型中,本研究绘制了特征重要性柱状图,展示了对分类任务贡献最大的前8个词汇,依次为:depression、feel、cannot、die、life等。这些词汇在模型分类过程中起到了关键作用,其重要性越高,对模型的预测结果影响越显著。例如,depression 一词明确指向负面的情感状态,在文本分类中,该词汇的频繁出现通常能反映个体的心理健康状态,因此在分类模型中被赋予较高的特征重要性;cannot表达了一种无力感,通常出现在描述失落感的句子中,是心理健康状态的重要指示因素,模型通过这一特征可以有效识别出相关文本。这一结果与之前的词云图分析相近,进一步验证了这些词汇在区分不同心理健康状态时的显著作用,也为心理健康领域的研究提供了更有针对性的解决方案。
4 结束语
本研究针对心理健康状态的数据开展情感分类研究。首先,通过数据预处理和特征提取对原始文本数据进行转化,分别构建了朴素贝叶斯、随机森林、逻辑回归和神经网络4种不同模型,并对分类效果进行比较分析。结果表明,随机森林在整体分类性能上表现最佳,其正确率达到89.86%,神经网络次之。同时,本研究比较了4种模型在不同类别的查全率、查准率、F1值以及AUC值等多项评价指标,其中随机森林在各项指标中均表现突出。通过对个体言论的文本数据进行建模与分析,证实了个体的文本表达能够有效反映其心理健康状态。分析结果显示,情感分类模型能够识别出潜在的心理健康问题,有助于发现个体的情绪困扰和心理状态变化。这种方法不仅提供了对个体心理健康的监测手段,还能帮助相关专业人士制定针对性的干预措施,从而改善个体的心理健康状况。本研究采用机器学习模型对文本数据进行了心理健康状态的分类研究,后续研究可通过使用更复杂的深度学习模型追踪情感变化的动态趋势,进一步推动人工智能在心理健康领域中的应用。
参考文献:
[1] 罗燕.从“心”出发,让社区居民更幸福[J].民生周刊,2023(16):52-53.
[2] 徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100.
[3] 王奕森,夏树涛.集成学习之随机森林算法综述[J].信息通信技术,2018,12(1):49-55.
[4] 周志华.机器学习[M].北京:清华大学出版社,2016:22-23.
[5] 李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173.
【通联编辑:谢媛媛】
基金项目:2023 年湖南省教研教改项目“新工科”背景下基于岗位需求大数据分析的专业课程体系建设研(项目编号:HNJG-20230965) ;2021 年湖南省大学生创新训练项目:一种新型智能化的班级管理解决方案(项目编号:S202111342051) ;2024年湖南工程学院大学生创新训练项目:基于大数据分析的智能健康服务平台的设计与研究(项目编号:湘教通〔2024〕118 号)