基于InceptionV3_SVM 模型的蛋白质-ATP 绑定位点预测
作者: 宋泽瑞 宋初一 宋佳智 姜静清
摘要:蛋白质-ATP绑定位点预测作为近年来生物医学领域的热点研究之一,对于医药学的发展极其重要。为了提高蛋白质-ATP绑定位点预测的准确率,提出了一种基于深度卷积神经网络和支持向量机融合(InceptionV3_SVM) 的预测方法。首先对蛋白质序列进行特征提取,再采用InceptionV3模型扩大输入数据感受野,对卷积神经网络提取到的深度特征应用SVM分类器进行训练,得到最终预测结果。实验结果表明,该预测方法能够更精确的识别蛋白质-ATP绑定位点。
关键词: 蛋白质-ATP绑定位点;深度卷积神经网络;蛋白质序列;特征提取;SVM
中图分类号:TP18;Q51 文献标识码:A
文章编号:1009-3044(2024)14-0004-06 开放科学(资源服务)标识码(OSID) :
0 引言
在蛋白质-ATP绑定位点的相关预测研究中,主要预测方法有基于生化实验的生物学方法和基于人工智能的计算预测方法等。其中应用生物学方法已经可以比较准确地识别蛋白质-ATP绑定位点,但其所需要的时间和经济成本相对较大,很难满足当前大规模应用的需求[4]。在计算预测方法中,应用传统机器学习算法预测蛋白质-ATP绑定位点的方法主要有支持向量机(SVM) 、随机森林(RondomForest) 等。2011年CHEN K等人提出了基于位置特异性得分矩阵(PSSM) 序列信息的支持向量机方法[5]、2015年石大宏提出结合加权下采样与基于聚类的下采样分别和支持向量机相结合的方法[6]、2015年余健浩等人采用基于支持向量回归集成的方法[7]、2020年SONG J Z等人使用基于SMOTE算法和随机森林分类器融合的方法[8],分别在蛋白质-ATP绑定位点预测研究中的不平衡数据处理和精度预测等方面做出了相关研究。相比于传统机器学习的预测方法,应用深度学习算法预测蛋白质-ATP绑定位点的方法主要有卷积神经网络(CNN) 、循环神经网络(RNN) 、自编码器等。2019年郭丽萍等人基于自编码器和卷积神经网络构建了深度学习预测模型[9]、2019年张寓等人实现了基于一维卷积神经网络的模型[10]、2022年刘桂霞等人提出了改进的Inception卷积架构的深度网络模型[11],分别利用深度学习算法构建多种网络架构的方式对蛋白质-ATP 绑定位点进行了预测,并且预测结果得到了提升。
以往研究采用的分类算法主要为传统的机器学习算法或深度学习算法,对蛋白质-ATP绑定位点的预测做出了开创性的贡献,但其预测精度仍有进一步提升的可能,对于蛋白质-ATP绑定位点预测研究中的生物数据分析和样本分类预测性能仍有待加强。本文基于改进的深度学习算法InceptionV3卷积网络模型和机器学习算法相结合的思想,提出了Incep⁃tionV3_SVM分类架构,用以实现蛋白质-ATP绑定位点的预测。最后的实验结果表明,InceptionV3_SVM 分类架构可以有效提升预测方法的整体性能,对于蛋白质和其他配体绑定位点的预测研究同样具有重要意义。
1 数据集及评价指标
1.1 数据集
本文所使用的数据集是ATP-388和ATP-41数据集[12],该数据集共有429条含有ATP绑定位点的蛋白质序列。该数据集来自2016 年之前的PDB(ProteinData Bank) 中的数据记录,通过使用CD-hit软件去除蛋白质记录中同源性超过40% 的冗余序列,最终得到429条非冗余的蛋白质序列数据。在这429条蛋白质序列中,388条蛋白质序列作为训练集,41条蛋白质序列作为独立测试集。
1.2 滑动窗口
研究表明,蛋白质序列中残基的ATP结合特性不仅与其自身理化属性相关,同时也会受到其相邻残基理化属性的影响。因此,一般使用滑动窗口的方法把目标残基和邻近残基的特征值进行整合作为一个目标残基的总特征值。滑动窗口处理过程如图1所示。当滑动窗口大小为L时,一个蛋白质目标残基会整合其前(L-1)/2个相邻残基和后(L-1)/2个相邻残基的特征值作为总特征值,在目标残基前后的相邻残基不足(L-1)/2个时,所缺少的残基特征值全部用0补齐,其处理过程如图1所示。在本文研究中,经过多次实验尝试,当滑动窗口大小L=17时,预测方法可以获得最优性能。
1.3 特征提取
1.3.1 PSSM 位置特异性得分矩阵特征
PSSM(Position Specific Scoring Matrix, PSSM) 位置特异性得分矩阵可以反映蛋白质序列中每个位置上不同碱基出现的频率,矩阵的行表示蛋白质序列的长度,矩阵的列表示构成蛋白质序列的20种残基,矩阵中的每个元素表示相应位置上碱基出现的频率。使用PSI-BLAST软件将未知序列与Swiss-Prot数据库中的序列进行多轮迭代的多序列比对,得到PSSM位置特异性得分矩阵,之后使用归一化函数sigmoid对矩阵中的数据进行归一化处理。归一化函数sigmoid计算公式如下:
其中x 代表矩阵中的原始数值,f(x)代表归一化后的数值。在应用大小为17的滑动窗口后,PSSM位置特异性得分矩阵特征的总维数为20×17=340。
1.3.2 蛋白质二级结构特征
蛋白质二级结构(Protein Secondary Structure) 是指多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定构象,即肽链主链骨架原子的空间位置排布,不涉及残基侧链。按照主流的分类方法,蛋白质的二级结构可分为三类,分别为:α-螺旋、β-折叠和无规卷曲。在本文中,使用PSIPRED工具预测蛋白质序列中每个残基属于α- 螺旋、β-折叠和无规卷曲三种结构的概率,得到三维的蛋白质二级结构特征数据。经过滑动窗口处理,该特征值总维数是3×17=51。
1.3.3 溶剂可及性特征
可及表面积(Acces⁃sible Surface Area, ASA) 或溶剂可及表面积(Solvent-Accessible Surface Area, SASA) 是溶剂可接触的生物分子表面积。蛋白质序列中的残基溶剂可及性表面积越大,越有可能与核苷酸发生反应。在本文中,使用ASAquick 工具预测蛋白质序列中每个残基的溶剂可及性表面积,预测结果以1位数值的形式给出。经过滑动窗口处理,该特征值总维数是1×17=17。
1.3.4 序列特征
根据蛋白质序列中氨基酸的偶极子和侧链数量,通过one-hot编码将20种氨基酸分别标识,Ala、Gly和Val用0000001表示,Ile、Leu、The和Pro用0000010表示,His、Asn、Gln和Trp用0000100表示,Tyr、Met、Thr 和Ser 用0001000 表示,Arg 和Lys 用0010000 表示,Asp和Glu用0100000表示,Cys用1000000表示,划分完后的氨基酸编码特征值共有7维[11]。经过滑动窗口处理,该特征值总维数是7×17=119。
1.3.5 残基的理化性质
本文共用了残基的支链, 分子量, 等电点, 羧基解离常数和氨基解离常数5种理化性质。对于以上五种理化性质,首先,根据残基的支链性质差异,可将20种残基分为疏水性残基、亲水性残基、碱性残基、酸性残基 。使用one-hot编码来对每个残基进行分类编码,该特征可用4维的one-hot值分别代表四种不同的残基类别,0001代表疏水性残基,0010代表亲水性残基,0100代表碱性残基,1000代表酸性残基。
其次,根据残基的分子量, 等电点, 羧基解离常数, 氨基解离常数可构成4维数据,每1维数据都采用最大最小值归一化方法进行归一化处理。最大最小值归一化函数如下:
其中x 代表残基的分子量(或等电点, 羧基解离常数, 氨基解离常数)的数值,min 代表残基的分子量(或等电点, 羧基解离常数, 氨基解离常数)数值的最小值, max 代表残基的分子量(或等电点, 羧基解离常数, 氨基解离常数)数值的最大值。经过滑动窗口处理,该特征值总维数是8×17=136。
1.3.6 标准输入数据处理
在对蛋白质序列进行不同方式的特征提取后,经过滑动窗口处理,得到了340维PSSM位置特异性得分矩阵特值、51维蛋白质二级结构特征值、17维溶剂可及性特征值、119维序列特征值和136 维残基理化性质特征值。所有特征值拼接后共663维,为了对应深度卷积网络的输入形式,对663×1的特征值进行数据变形处理,得到17×39×1的标准输入数据。
1.4 评价指标
本文研究的蛋白质-ATP绑定位点预测是正负样本不平衡的二分类问题,通过比较预测结果与真实标签的数值,计算特异性(Specificity) 、敏感性(Sensitiv⁃ity) 、准确性(Accuracy) 、马修斯相关系数(MCC) 和ROC曲线下与坐标轴围成的面积(AUC) 共五种评价指标来衡量本文提出的蛋白质-ATP绑定位点预测方法的整体性能。在二分类问题中,混淆矩阵可以比较直观地反映模型性能,混淆矩阵的计算方法如表1 所示。
本文使用的评价指标,其计算方法为:
AUC(Area Under Curve) 被定义为ROC曲线与坐标轴围成的面积。ROC曲线不固定阈值,可反映训练模型在全阈值下的情况。由于本文所涉及的是样本不平衡问题,AUC作为一种不依赖阈值的分类指标,不受到数据集正负样本比例的影响,能够更加客观全面地反映分类器的性能。
2 模型结构与训练
2.1 模型结构
本文采用InceptionV3 和SVM 相结合的模型结构,通过Inception V3网络结构对输入数据进行增维,SVM分类器对增维后的数据进行线性分类得到最终的预测结果,整体的模型结构如图2所示。
数据输入格式是17×39×1的张量,第一层是深度卷积层,由64个3×3卷积核、32个2×2卷积核、64个2×2卷积核、3×3的最大池化层、80个1×1卷积核、192 个2×2卷积核与3×3的最大池化层构成。第二层是InceptionV3 模块组,由256 个输出节点的InceptionModule 1、768 个输出节点的Inception Module 2 和2 048个输出节点的Inception Module 3构成,以上三种Inception Module的具体架构将在后续进行详细描述。第三层是数据平铺层,由3×3的平均池化层、保留率为0.5的Dropout层和通道数为1 000、输出节点为2的全连接层组成。第四层是SVM分类层,对平铺层处理后的数据进行二分类,根据数据集中正负样本数量比例计算得到正负样本权重分别为13.322 和0.519,正负样本将乘以相对应的权重,使得模型在训练过程中更加关注权重更高的正样本类,最后通过SVM分类器得出预测结果。
本文通过将InceptionV3和SVM两种分类算法进行结合,完成对蛋白质-ATP绑定位点的预测任务,下面将分别对两种分类算法进行简要介绍。
2.1.1 InceptionV3网络结构
InceptionV3深度卷积网络通过把一个N×N的大卷积核拆分成多个1×N、N×1或者M×M(M<N)的小卷积核的形式,以卷积网络因式分解的方式实现数据降维处理,获取更多的局部特征 。一方面,由于较大的卷积核进行数据处理时消耗的计算成本较高,并且拆分成对称的卷积结构比拆分成非对称卷积结构在模型训练和数据识别过程中表现出来的性能较弱,所以InceptionV3网络结构有着运算速度快,计算量小,不容易过拟合的优势,可以进一步提升处理高维度大型数据的能力。另一方面,InceptionV3网络结构中的模块组优化了其中每一个单元模块的结构,除了在In⁃ception Module中使用了分支,还引入嵌套分支,减少了模型中的训练参数,节省了计算内存,提升了网络的整体性能。