基于智能语音技术的多语种自动口语测评系统设计
作者: 白娟
摘要:随着人工智能和自然语言处理技术的快速发展,自动口语测评系统在外语教学中发挥着越来越重要的作用。文章旨在设计及实现一个支持多语种的自动口语测评系统,为学习者提供实时、客观的口语能力反馈,技术上主要通过神经网络模型(NNM) 、语音识别(ASR) 、机器学习(ML) 等方式实现口语自动评分,通过测试,可实现对英语、日语、俄语、德语、法语、西班牙语、意大利语、韩语的口语自动评测,在测试准确率等方面达到人工专家评分95%的效果,通过该系统的设计应用提高了学习者的学习效率。
关键词:智能语音;自然语言处理;语音识别;多语种;口语评测
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)35-0006-04 开放科学(资源服务) 标识码(OSID) :
0 引言
人工智能技术正在引发教育领域的革命性变革,其中智能语音技术对外语学习的影响尤为显著。各种智能化学习工具的出现,为语言学习者提供了更加便捷、高效和个性化的学习体验,如AI助教、自适应学习、智能搜题、智能阅卷、外语随身翻译等智能化学习工具,对信息获取方式和外语教学带来新的冲击。
智能语音技术包括语音识别(ASR) 、语音合成(TTS) 、声纹检测(VD) 等重要内容,其强大的自然对话和交互能力为外语学习领域带来显著的影响,其应用在个性化学习体验、实时反馈和纠错、沉浸式语言环境、自主学习与互动学习等方面,极大提高了学习效率和学习体验。
自然语言处理作为人工智能的重要分支,极大地推动了智能语音技术的进步。近年来,随着深度学习的不断发展,特别是Transformer模型的应用,显著提高了语音识别、语音合成等技术的效率和准确性,为自动口语测评系统的发展奠定了技术基础,极大提高了自然语言处理的效率和准确性。
目前主流的口语测评系统,主要以中文、英语等大语种的测评为主,缺乏对小语种的口语测评即时反馈,其主要局限在于缺乏小语种语料库和口语测评模型支持,以及相关用户群体数量有限导致系统开发积极性不高所致。
本文拟通过设计一个多语种自动口语测评系统,实现对小语种的语料上传、检测以及进行口语训练实时检测和反馈,对口语学习起到即时的练习反馈效果。
1 总体设计
1.1 需求分析
语言学习者在进行语言学习时,面临的最大问题就是发音是否准确、语音语调是否标准,如果能随时随地进行语言学习,并且在语言训练时得到获得及时的反馈和评价,将对外语学习起到积极的促进作用。因此,设计一套自助式口语测评系统,并采用该系统对语言学习过程中的单词、句子、段落进行发音训练,将对外语学习起到积极的促进作用。
本系统面向语言学习者,包括语言专业学习者以及对该语言有兴趣的其他人员等,主要使用对象是本科生和研究生。本系统包含8个语种,包括英语、日语、俄语、德语、法语、西班牙语、意大利语、韩语,配置难、易、中三种程度学习内容,适应不同水平的学习者。
1.2 系统架构
系统采用三级架构体系,包括如下:
表示层:主要指前端界面,用于给用户提供友好的访问接口,包括移动端及PC端两种访问方式,允许学生朗读以及答题、写作文等,支持以文本和音频的方式上传练习材料以及口语练习音频,同时显示测试结果和反馈。
应用逻辑层:承上启下,用于负责处理前端请求,执行口语评分算法,并与后端交互、存储相关数据。
数据访问层:主要存储用户信息、练习音频、测试结果等数据,用于实现前端页面与数据库的交互和访问,
1.3 功能模块
系统功能模块具体如表1所示。
1.4 系统方案设计
本系统服务端采用本地化部署+云端调用的方式提供服务, 面向教师和学生分别提供PC端以及移动端服务。该系统为不同语言背景的学习者提供一个准确、客观的口语能力评估工具,系统调用语音处理引擎处理多种语言的语音输入,并对其发音准确性、流利度、语法正确性等多个维度进行评价,评估学生的口语能力,为学习者提供实时反馈,促进其语言能力的提升。
详细设计如下:
1) 语种多样性:本系统要求能够支持多种语言,包括不同的发音、语法和词汇,因此配置特定的语音识别和评估算法。
2) 语音识别技术:口语测评系统的核心是语音识别技术,在选择语音识别引擎时,主要需要考虑其准确性、实时性、多语言支持等因素,涉及音频处理、特征提取、声学模型、语言模型等多个方面。
3) 语音评分算法:需要制定口语评估标准,这些标准包括发音准确性、语速、语调、语法正确性、词汇使用等多个方面,评估标准能够客观地反映用户的口语水平。
口语测评系统对用户的发音、语法、词汇和流利度等方面进行评分,通过自然语言处理(NLP) 技术和机器学习算法实现。在该系统中,使用Transformer神经网络结构来评估发音质量;使用语法分析器(句法分析器) 来检查语法错误;使用词汇数据库(WordNet) 来评估词汇丰富度;使用语速、停顿等指标来评估流利度。
4) 用户界面设计:口语测评系统采用友好的用户界面,以便用户方便地进行口语练习和查看评分结果。用户界面应该简洁明了,易于使用,以提高用户的学习兴趣和效果。在设计用户界面时,需要提供清晰的操作提示和反馈,以帮助用户顺利完成测试。此外,需要考虑不同语种用户的阅读习惯和界面布局。
5) 数据收集与分析:为了不断优化和改进口语测评系统,需要收集练习数据和评分结果,并进行数据分析,以此帮助发现系统的不足之处,以及了解用户的学习需求和行为特点。此外,还可以利用这些数据进行机器学习模型的训练和优化。
系统架构具体如图1所示。
2 技术实现
该应用系统开发主要采用以下技术方式,具体如表2所示。
3 关键技术
3 关键技术
在口语测评系统中,声学模型扮演着至关重要的角色,其主要任务是将声音转化为可分析的声学特征,进而用于语音识别和语音分析。 在本次口语自动测评设计中,主要采用了Transformer模型,具体如下:
1) 高效处理长序列:Transformer模型使用自注意力机制,这使得它能够高效地处理长序列数据。在口语测评中,输入的句子可能很长,但Transformer模型仍然能够准确捕捉其中的关键信息。相比于传统的递归神经网络(RNN) ,Transformer模型具有更高的并行性和计算效率,这在处理长句子时尤为明显。
2) 上下文感知能力:Transformer模型能够评测序列中不同位置之间的依赖关系,从而更准确地评估口语表达的准确性,实现上下文感知。
3) 丰富的语言知识和模式:Transformer模型通过在大规模语料库上进行无监督预训练,可以学习到丰富的语言知识和模式。在口语测评中,这些语言知识和模式有助于模型更准确地理解口语表达,提高评估的准确性。
4) 多样化的评估指标:在口语自动测评中,Trans⁃former模型可以结合多种评估指标来全面评估口语表达的准确性、流畅性和自然度,模型可以计算口语表达的困惑度(Perplexity) 、BLEU值等指标来评估其准确性,还可以通过注意力可视化等方法来深入了解模型在评估过程中的表现。
Transformer处理流程及编码器结构,具体如图2 和图3所示。
Transformer模型能够更准确地评估口语表达的准确性、流畅性和自然度,为口语教学和学习提供有力支持。
3.2 线性拟合算法
在该系统设计时,主要使用线性拟合算法,其在口语测评系统中的应用主要包括:
1) 声学特征提取与建模:线性拟合算法可以用于提取和建模语音信号的声学特征,通过线性预测编码(Linear Predictive Coding, LPC) 可以提取语音信号的线性预测系数,该系数可以用来表示语音的频谱特性。这些特征在语音识别和口语测评中都非常有用。
2) 发音质量评估:在发音质量评估中,线性拟合算法可以用来建立发音标准与发音样本之间的线性关系。例如,可以收集一系列发音标准的样本,并使用线性回归算法来预测发音样本的得分。这种方法可以帮助系统快速评估发音的准确性。
3) 语速和语调分析:语速和语调是口语表达中的重要因素。线性拟合算法可以用来分析语速和语调的变化趋势,从而评估口语表达的流畅性和自然度。
3.3 专家评分模型校验
采用多个评分维度,从语音、语调、准确度、流利度、韵律度、连读准确性等方面进行打分评测,支持字、词、句、篇章等题型,并返回准确度、流畅度、完整度、声韵调型等多维度评分。
1) 发音准确度:主要考查发音是否标准、清晰,是否符合目标语言的发音规范。这包括元音、辅音的发音准确性,以及单词和句子的整体发音。
2) 流利度:评估语音输出的流畅程度,包括语速、停顿、重复等因素。流利度好的语音应该具有自然的节奏和韵律,没有过多的停顿或重复。
3) 语调与韵律:考查语音的语调和韵律是否正确。语调包括语音的高低起伏变化,而韵律则包括音节、重音、节奏等因素,这些元素对于语音的自然度和可理解性非常重要。
4) 完整度:评估语音是否完整,是否涵盖了所有要求的内容。这包括单词、短语、句子等各个层级的完整性。
5) 语音清晰度:主要考查语音是否清晰可辨,能否被听众准确理解。这与发音准确性密切相关,但更侧重语音的整体可识别性。
6) 语法正确性:在句子和段落层级上,评估语音中的语法是否正确,包括单词的使用、句子的结构等方面。
系统评分标准具体如下所示:
总分 =n=1M维度n得分×权重
系统评分维度具体如图4所示。
语音评测的专业性考量对比的是和母语专家评测的一致性,业内通用皮尔森相关系数来反映相关程度的统计量。皮尔森相关系数(Pearson correlation co⁃efficient) 是度量两个变量X和Y之间线性相关程度的指标,广泛应用于社会科学、自然科学等多个领域。其范围在-1到1之间,1表示完全相关,-1表示完全相反,0表示乱序无关,数值越大表示相关度越高。本测评系统在一致性上达到了0.9左右,与母语水平接近度较高。
4 其他需考虑的问题
4.1 系统集成和扩展
本系统在设计时考虑到其应在不同的操作系统和设备上运行,以确保更多的用户能够方便地访问和使用系统,以便用户能够更方便地获取相关资源。
4.2 数据安全和隐私保护
本系统在设计时,为了确保用户的测试数据得到妥善保护,主要采用RSA加密算法加密账户信息等,对于涉及的用户个人信息,主要采用将静态脱敏方法进行数据脱敏,避免数据泄露或滥用。
4.3 可扩展性和可维护性
本系统在设计时进行了扩展性和维护性考虑,以便在未来添加新的语种或改进功能,确保系统能够持续满足用户的需求。
5 系统测试
测试时,选择共200名教师用户和学生用户作为受众群体,通过PC端和移动端分别访问多语种自动口语测评系统,对该系统所支持语言的单词、句子、段落进行朗读测试,朗读后,系统均进行了相应打分,同时请专业语言教师对朗读录音进行打分,经过比对机器打分与人工打分的结果,所打分数平均不超过5%,满足教学和个人练习使用的需要。