面向Transformer 模型的轻量化方法研究

作者: 徐慧超 徐海文 刘丽娜

面向Transformer 模型的轻量化方法研究0

摘要:随着Transformer模型的改进与发展,模型的参数数量显著增加,使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法:使用预训练好的BERT模型(Bidirectional Encoder Representation from Transformers) 作为教师模型,设计学生模型卷积神经网络(Convolutional NeuralNetwork,CNN) ,加入注意力机制的循环神经网络(Recurrent Neural Network,RNN) 和全连接神经网络(Full Connect Neu⁃ral Network,DNN) ,并采用logits和matching logits两种蒸馏方法,实现模型的轻量化。实验结果表明,当将BERT模型蒸馏给CNN时,参数数量减少93.46%,运行速度提升30余倍,在小规模数据集上准确率仅下降0.70%;当将BERT蒸馏给加入注意力机制的RNN时,参数数量减少了93.38%,速度提升100余倍,模型准确率轻微下降;当将DNN作为学生模型时,参数数量减少了93.77%,速度提升了200余倍,在大规模数据集上,准确率仅下降0.02%。

关键词:深度学习;Transformer模型;注意力机制;轻量化方法;知识蒸馏

中图分类号:TP301 文献标识码:A

文章编号:1009-3044(2024)04-0025-04

上一篇 点击页面呼出菜单 下一篇