基于代价敏感机器学习的肿瘤分类预测研究

作者: 熊月玲 唐晓磊

基于代价敏感机器学习的肿瘤分类预测研究0

摘要:为了提高肿瘤分类的精准度,识别信息基因,构建机器学习模型对肿瘤基因表达数据进行分析。该研究从KentRidge数据库下载了五组肿瘤基因表达谱数据,利用优化的代价敏感信息增益(CSIG) 算法快速过滤无关和冗余基因,筛选出误分类损失较小的信息基因子集。随后,构建了代价敏感决策树(CSC4.5) 作为分类模型,并采用准确率、ROC曲线、F-measure等分类指标评估信息基因质量,以验证模型的准确性。在显著降低原始数据维度的同时,与其他机器学习算法相比,所提模型筛选出的信息基因数量更少且分类性能更佳。该研究将机器学习算法与代价敏感学习思想相结合,优化了特征选择模型和分类器,为肿瘤的早期诊断及生物标志物的识别提供了重要的参考依据。

关键词:肿瘤基因表达谱;信息基因;肿瘤分类;代价敏感学习;机器学习

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)31-0008-04

开放科学(资源服务)标识码(OSID) :

0 引言

肿瘤源于细胞的异常增殖与分化,通常被划分为良性与恶性两大类。恶性肿瘤,即癌症,因其浸润性和转移性特性,能够迅速扩散至全身,对患者的生命构成重大威胁[1-2]。在肿瘤研究领域,早期诊断与精准治疗始终是科研焦点,而肿瘤的精准分类更是实现早期诊断的基石,对于提高治疗效果和延长患者生命至关重要[3]。基因表达谱的出现为生物信息学研究提供了丰富的资源,尤其在肿瘤分类中具有重要意义。然而,其复杂性,如高维度、小样本、噪声干扰、基因冗余及样本不平衡等问题,常导致分类模型中的“维度灾难”和“过拟合”,进而影响模型的准确性和稳定性[4]。为了筛选有价值的信息基因,研究者们利用机器学习降维算法,特别是特征选择技术,从海量基因中挑选出最具代表性的子集。这不仅有助于构建更精准的肿瘤分类模型,还为发现肿瘤亚型的基因标志物提供了线索[5-6]。

近年来,随着人工智能的迅猛发展,代价敏感学习在机器学习领域逐渐崭露头角,尤其在处理分类任务及不平衡数据的误分类代价方面应用广泛[7]。传统机器学习分类任务常假设不同类别的误分类代价相等,但这在现实中往往并不成立。例如,在医疗诊断中,误诊代价的差异显著,误将病人判定为健康可能带来严重后果。因此,将代价信息融入算法中,可以更有效地解决此类问题,提升分类器的性能和准确度[8]。

本研究旨在提升肿瘤分类的准确性,通过结合代价敏感学习与机器学习算法,筛选出与疾病密切相关的信息基因。本文利用代价敏感信息增益(CSIG) 方法快速过滤无关和冗余基因,通过引入代价敏感矩阵和信息增益(IG) 属性评估,获得最小化误分类损失的特征。接着,采用嵌入式的代价敏感决策树(CSC4.5) 分类器来评估这些基因。该方法称为CSIG-CSC4.5。实验在5个不同类别的肿瘤数据集上验证,均表现出良好的分类效果。本研究可为肿瘤精准分类及挖掘基因标志物提供重要线索。

1 材料与方法

1.1 数据下载和预处理

从Kent Ridge 数据库(https://leo.ugr.es/elvira/DB⁃CRepository/) 下载了五组肿瘤基因表达数据,包括弥漫性大B细胞淋巴瘤(DLBCL) 、乳腺癌(Breast) 、白血病(Leukemia) 、肺癌(Lung) 和卵巢癌(Ovarian) 。在进行基因维度约减和肿瘤分类前,对实验数据进行了标准化预处理,将原始数据集标准化为均值为0、标准差为1的数据,以消除不同基因间的个体差异。实验数据集的相关描述见表1。

其中,Leukemia共检测到7 129个基因和72个样本。Lung包含181例样本,每例样本基因数达12 533 个。Ovarian为蛋白质表达数据,包括正常样本91例,卵巢癌样本162例。由于传统实验数据大多为二分类数据,所以实验另外选取了DLBCL和Breast数据集,以验证所提模型在多类别样本上的预测性能。

1.2 信息增益(Information Gain,IG)

信息增益(IG) 是一种评估特征重要性的算法,特征之间信息丰富且联系紧密,则IG值越大。特征的IG值越高,对分类的贡献就越大,进而可以筛选出样本中的重要特征。在信息论中,熵用于衡量随机变量的不确定性,熵值越大则不确定性越高[9]。若存在随机变量X和Y,它们的概率分布定义为:

P (X = xi,Y = yi ) = pij, i = 1,2,...,n ; j = 1,2,...,m (1)

随机变量Y的条件熵H(Y|X)反映了在已知X的条件下,Y的不确定性程度。其实质是Y关于X的条件概率分布熵的数学期望:

H (Y|X ) =Σi = 1npi H (Y|X = xi ) (2)

信息增益IG(Y, X)反映了特征X对降低类别Y信息不确定性的贡献程度:

g (Y,X ) = H (Y ) - H (Y|X ) (3)

信息增益主要关注特征对整个系统的整体贡献,而非单一类别的贡献。其计算过程简便易懂,能有效减少噪声的影响。此外,它兼顾了特征的有无,使评估更加全面。

其中,Leukemia共检测到7 129个基因和72个样本。Lung数据集包含181个样本,每个样本的基因数达到12 533个。Ovarian数据集为蛋白质表达数据,包括正常样本91例和卵巢癌样本162例。由于传统实验数据大多为二分类数据,实验中又另外选取了DLBCL和Breast数据集,以验证所提模型在多类别样本上的预测性能。

1.3 代价敏感学习(Cost-Sensitive Learning, CS)

将代价敏感问题[10]与其他机器学习算法相结合的优势在于,无须修改样本数据或调整分类器的阈值,而是直接在特定应用中引入代价信息,以使研究问题的预期损失最小化。具体而言,可以表示为:

ϕ* (x) = min j :L (x,j ) (4)

L (x,j ) = Σi p(i|x)C (i,j ) (5)

式中:L(x, j)表示将样本x 分类为类别J的预期损失,p(i | x)表示样本x 属于类别i 的后验概率,而C(i, j) 表示将类别i 的样本错误分类为类别j 的误分类代价。

通常,代价可用N×N矩阵表示,其中N为样本类别数。对于二分类数据集,其误分类代价常用2×2矩阵表示,矩阵元素代表相应误分类代价。设c0为少数类,c1为多数类。

式中:Cij表示将实际属于第i 类的样本误分为第j类所造成的代价损失。

当样本为多分类时,代价矩阵可以表示为:

根据数据集样本的比例,可以为代价矩阵的元素赋值。当分类正确(即i=j) 时,代价为0;其他元素则反映样本间的比值。这样构建的代价敏感矩阵旨在最小化期望损失。

1.4 代价敏感决策树(Cost-Sensitive C4.5,CSC4.5)

代价敏感决策树算法[11]在构建时兼顾分类能力与代价因素。通过将误分类代价引入决策树的分裂过程,以代价下降值作为划分标准。其中,▽Ci表示节点的代价下降值,m 为属性选择数,该代价敏感决策树的分裂策略可表示为:

∇Ci = MC - MC (Ai ), i = 1,2,...,m (8)

式中:MC 表示结点未分裂前的总代价,可表示为:

上式计算了选择属性Ai分裂后两个节点的总代价,其中N1、Mc1和N2、Mc2分别代表左右节点的样本数和代价值,NFN和NFP分别表示小类被误分为大类和大类被误分为小类的个数。

在分裂时,选取能够最大程度降低误分类代价的属性进行划分,即:

i0 ∈ argmax{∇C } i,i = 1,2,...,m (11)

由于小类的误分类代价高于大类,因此该策略选择减少小类误分样本,从而提升对小类的关注。

1.5 代价敏感机器学习模型(CSIG-CSC4.5)

本方法主要由两个部分组成:特征选择和肿瘤分类。首先,利用CSIG进行信息基因的筛选,然后构建CSC4.5分类模型以评估信息基因的分类效果。具体的实验流程图如图1所示。

2 实验结果

2.1 CSIG 信息基因选择

在特征降维阶段,实验采用CSIG方法对五组肿瘤数据集进行特征约减,显著降低了特征维度。其中,Lung数据集的特征数从12 533减少至2,Leukemia 最终保留了6个基因,而Ovarian数据集则从15 154减少至3。DLBCL和Breast数据集分别选择了4和5个信息基因。CSIG特征选择的结果见表2。为了评估CSIG的有效性并验证信息基因的质量,将这5组信息基因用于后续的分类实验。

2.2 CSC4.5分类评估

由CSIG筛选的5组信息基因子集被用作CSC4.5 分类器的输入数据进行分类,通过10折交叉验证评估其性能,并采用准确率(accuracy) 、精确率(precision) 、真正率(TP rate) 、假正率(FP rate) 、F-measure和ROC 曲线作为评价指标。为了验证CSIG-CSC4.5方法的有效性,将其与ODP-C4.5、ODP-CSC4.5、IG-C4.5、IG-CSC4.5和CSIG-C4.5这五种组合模型进行比较,并记录每个模型的最优分类结果及其选择的基因数,具体结果见表3。

ODP-C4.5直接采用C4.5在原始数据集上进行分类,ODP-CSC4.5则是在原始数据集上直接构建CSC4.5 模型。IG-C4.5采用信息增益(IG) 选择特征并使用C4.5 分类,而IG-CSC4.5则将信息增益与嵌入代价敏感的C4.5相结合进行模型构建。此外,CSIG-C4.5的特征选择与CSIG-CSC4.5相同,但其分类器为C4.5。

另外,在每个模型上选择了相同数量的基因以便进行直观评估,并与CSIG-CSC4.5作进一步对比,结果见表4。从上述结果可以看出,ODP-C4.5 和ODPCSC4.5模型在原始数据集上直接进行分类建模,因存在大量噪声基因,导致分类结果并不理想。通过特征选择模型降维后,IG-C4.5、IG-CSC4.5和CSIG-C4.5模型的分类效果均有所提升。其中,CSIG-CSC4.5模型在5组肿瘤数据集上表现最佳,且选取的基因数较少。例如,对于Leukemia数据集,CSIG-CSC4.5模型的准确率达93.06%,相较于ODP-C4.5提高近14%,比ODPCSC4.5提高近10%。对于Lung数据集,仅用2个信息基因就实现了98.34%的准确率,而原始数据集的基因数多达12 533。此外,CSIG-CSC4.5在处理多类别数据DLBCL和Breast时也展现出较强的稳定性。

表5显示,本文方法在5组数据集上均取得了最高的真正率和最低的假正率。对于Ovarian数据集,CSIGC4.5与所提方法的效果相同,表明CSIG特征选择方法有利于肿瘤分类,并且CSIG与C4.5的组合表现优异。

图2显示,所提方法在5个数据集上达到了最高的精确率,CSIG-C4.5其次。同样地,在图3中,所提方法的F-measure值也表现更优。实验结果进一步验证了所提模型的稳定性和有效性。

图4展示了4种模型在五组数据集上的ROC曲线,其中所提模型的曲线下面积最大,且曲线更靠近ROC图的左上角,表明所提方法不仅能筛选出高质量的信息基因,还能获得更优的分类性能。实验证明,CSIG-CSC4.5在处理高维小样本及不平衡癌症数据集上具有明显优势。

3 结束语

上一篇 点击页面呼出菜单 下一篇