基于图神经网络的苦味分子预测方法研究
作者: 颜淑婷 陈佳彤 周小露 邓伟 纪凯丽 刘惠琼
关键词:苦味分子;图神经网络;GIN;食品开发;制药工程
中图分类号:TP183 文献标识码:A
文章编号:1009-3044(2024)25-0005-03
0 引言
味觉是影响消费者选择食物的关键因素。苦味常被定义为一种不愉快的味道,其产生源于苦味分子与受体的相互作用。许多苦味物质被认为是有毒化合物,苦味的感知可能与机体进化的预警系统有关,该系统通过防止摄入高浓度有毒化合物,避免对机体产生不良影响。因此,在食品和制药行业,预测苦味剂和构建识别人类苦味受体的平台具有重要的研究意义。
与甜味预测主要集中于甜度不同,苦味预测的分类模型更侧重区分苦味和非苦味分子。苦味分子具有高度可变的化学结构,包括生物碱、多酚、多肽、盐、脂肪酸和皂苷[1]。前期研究主要利用分子特征符,结合机器学习或深度学习进行苦味预测,这需要深厚的药物化学背景及对分子特征符的大量筛选。
图神经网络(Graph Neural Network, GNN) 已成为一种强大的深度学习(Deep Learning, DL) 模型,尤其在预测分子性质和相互作用方面[2]。GNN被广泛应用于分子性质的回归任务,例如溶解度、亲脂性、渗透性等,并在药物靶标联系等分类任务中有出色表现[3]。Liu等[4]使用定向消息传递神经网络(Directed MessagePassing Neural Networks, D-MPNN) 筛选出化学结构新颖的新型抗生素,其药理性质表现为广谱抗生素。
本文首次利用图神经网络模型进行苦味分子的预测。与基于特征符的机器学习或神经网络方法相比,图神经网络因其在分子表征中的节点和边的天然优势,免去了分子特征符的筛选与优化。构建的四种图神经网络模型在识别的精准度上相较于前期研究均有提升,表明图神经网络在苦味预测中的优越性和合理性。
1 算法设计
1.1 实验数据
实验数据主要来源于BitterDB、Fenaroli′s口味手册和Rojas数据库[5]。由于不同软件对SMILES格式处理的差异,实验中使用RDKit 读取分子并统一为SMILES 标准格式,然后将数据存入MySQL,并通过SQL语句进行数据去重。最终,数据分为两类:包含797个苦味分子,标签为1;1 435个非苦味分子,标签为2。采用10折交叉验证方法进行训练和验证,即将数据分为10份,抽取其中9份用于训练,余下一份用于验证,整个过程重复10次。
1.2 实验环境与参数设置
实验环境基于Windows 11操作系统,使用Python3.10.6编程语言,深度学习框架为PyTorch 2.3,图神经网络框架采用PyTorch Geometric 2.5.3,分子处理和分子物理参数使用RDKit 2024.03.01版本,ROC与AUC 计算使用Scikit-learn 1.4.2。运行平台为Intel(R) Core(TM) i5-13600KF CPU和GeForce RTX 4090 Laptop GPU。
1.3 图神经网络模型的构建
分子由原子组成,相邻的原子通过化学键连接,因此可用图来表示,用公式表示为G = (V,E),其中V为节点集合,E为边缘集合。分子中的每个原子被视为一个节点v ∈ V,分子的化学键被视为u 和v 相互连接的边(u,v) ∈ E。
2.2 模型构建
尽管现有基于机器学习的方法在预测苦味分子方面取得了良好效果,但仍存在局限性:机器学习需要仔细选择分子特征,这是一项烦琐且专业性很强的工作,同时难以达到最佳的预测效果。不同于传统的机器学习方法,图神经网络能够处理原始输入数据,自动学习并重新分配每个特征的权重,从数据中提取高维特征。这种特性可能使其在解决上述问题时具备更优越的性能。此外,图神经网络的可变性有助于灵活设计具体的模型结构。因此,本文采用图神经网络作为模型的关键算法。为了获得更可靠的预测效果,选择了图神经网络中的4种代表性模型——GCN、GIN、GAT 和 GraphSAGE 进行准确度比较,如图1所示。分子在 SMILES 格式转换后表现为带有离散节点特征的类型,因此在模型输入端使用原子编码(AtomEncoder) 将输入特征转换为连续嵌入。
2.3 评估
采用10折交叉验证对4种模型进行评估,如图2 所示,GCN、GIN、GAT、GraphSAGE等4种模型的AUC 值分别为0.88、0.93、0.91、0.93。尽管所有算法在该任务上表现良好,GIN和GraphSAGE方法显示出最高的AUC值,这表明消息传递机制在基于分子的图神经网络中可能有最佳表现。GAT表现相对不突出可能是由于分子图是无向图,导致注意力机制无法发挥其最大优势。
苦味分子预测模型的平均指标得分如表1、表2 所示。与现有文献所述方法相比,本文构建的4种模型在精度上均有所提高,但仍有进一步改进的空间[6-8]。研究中收集了797个正样本和1 435个负样本的数据集,对于图神经网络计算而言,这仍然是一个较小的数据集,限制了图神经网络从中学习更广泛、更大规模信息的能力。此外,在基于分子的图构建时仅提取了二维信息,而忽略了三维信息。同时,仅依靠分子识别可能缺乏对苦味分子与受体间相互作用信息的捕捉,这将成为未来研究工作的重点。
随后,使用敏感性(Sn) 、特异性(Sp) 、准确度(Acc) 、精确率(Pre) 、马修斯相关系数(MCC) 、几何平均数(G-mean) 这6个指标对4种模型进行评价(如图3 所示)。在Sn指标上,GIN模型优于其他模型;在Sp 指标上,GraphSAGE模型表现最佳。这表明GIN模型在识别阳性(苦味)分子方面具有最好的预测精度,而GraphSAGE模型在识别阴性(非苦味)分子方面表现最佳。用户可以根据任务需求选择不同的模型。
例如,在儿童药物设计中,需要排除更多的苦味分子,可以使用GraphSAGE模型;而在基于苦味受体靶点的药物设计中,需要获取更多的苦味分子进行深入分析,可以使用GIN模型。在其他指标方面,GIN模型也略占优势,因此在苦味预测任务中,GIN模型表现最优。这个结果也可能推广到其他分子预测模型中,为相关领域的研究提供借鉴和参考。
3 结果与讨论
本文针对苦味分子的预测模型问题,提出了将图神经网络算法用于苦味分子的预测。与基于传统机器学习或经典深度学习的方法相比,该模型无须获取复杂的分子表征特征,从而简化了流程,并能够准确预测分子的苦味性质。该模型具有性价比高、准确率高、迭代次数少的优势。
本研究在基于苦味的食品工程和药物设计方面,尤其是在儿童药物设计中,具有广阔的应用前景。通过提高苦味分子预测的准确性,可以帮助开发出更符合消费者和患者需求的产品,从而推动相关领域的发展。