

国际中文教育智能技术应用及趋势研究
作者: 王治敏 王一帆 徐悦
[摘 要] 近年来,智能技术逐渐运用到国际中文教育领域,在语音识别、文本生成、知识图谱、虚拟现实、大数据分析等技术的赋能下,国际中文教育领域正涌现出越来越丰富的产品及应用。本文综述了国际中文教育智能处理的相关技术,通过智能技术赋能教学资源研发、赋能教学实践与测试、赋能教学平台开发等三大维度,梳理了技术在国际中文教育领域的实践与开发。提出了国际中文教育和智能技术深度融合的新基建、新业态、新模式,进一步总结并归纳出技术赋能国际中文教育数字基础设施,推动国际中文教育转型,催化汉语国际教育产学研结合的发展趋势。
[中图分类号] H195.3 [文献标识码] A [文章编号] 1674-8174(2025)01-0009-13
1. 引言
推进教育数字化是加快建设教育强国的重要内容。党的二十大报告提出“推进教育数字化,建设全民终身学习的学习型社会、学习型大国。”习近平(2023)指出“教育数字化是我国开辟教育发展新赛道和塑造教育发展新优势的重要突破口。”教育部制定了“教育信息化推动教育高质量发展,以高水平教育信息化引领教育现代化”的发展目标。②
具体到国际中文教育领域,马箭飞(2022)提出了“坚持标准引领、强化支撑能力、完善资源供给、加强多方协同”的国际中文教育信息化建设发展方向。崔希亮(2023)认为技术改变了传统的语言教学模式,现代教育技术可以帮助我们实现多元化教学的目标。赵杨(2023)指出随着人工智能等技术的发展,移动技术与语言学习深度融合引发了语言教学的变革,新技术与外语教学深度融合将不断催生出更具创新性的教学方法,基于大数据的移动教学工具将更具个性化。刘利(2023)提出以ChatGPT为代表的人工智能技术在变革教学模式、实施个性化教学、建设高质量教学资源、打造高水平师资队伍、实现科学评价、提升教育管理效率、助力本地化发展等方面发挥重要作用,不断促进“教师—学生—技术”之间的良性互动。
为了更清晰地展现技术发展的脉络,本文将从教学资源、教学实践与测试、教学平台开发三个方面综述智能技术在国际中文教育中的应用和影响。
2. 智能处理相关技术
教育技术是指运用现代科学技术手段改进教育过程和提高教育质量的一门综合性学科。随着信息技术的发展和教育需求的变化,教育技术也从传统的多媒体技术转型到了智能技术。目前,常用于国际中文教育的智能处理技术主要包括人工智能技术、知识图谱技术、数字化交互技术。①
2.1 人工智能技术
智能技术从算法发展和技术应用角度划分,大致经历了程序模型、概率模型和深度模型三个阶段。刘玉屏、欧志刚(2022)指出,在程序模型和概率模型阶段,人工智能以计算机辅助教学、计算机辅助学习等形式服务于教育行业,以程序化处理、结果反馈以及简单推理等为特征。进入深度模型阶段后,随着算法模型的改进和计算能力的突破,人工智能在系统化、智能化方面极大增强,能够胜任复杂推理任务,其在教育行业的应用不断深化。人工智能正在改变教育行业,为教育发展提供动力,减轻教师负担,提升学习效果,提高教育教学的质量和效率。
(1)自然语言处理(Natural Language Processing,NLP)是以语言为对象,利用智能技术分析、理解和处理自然语言的一门学科,在智能技术的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
(2)生成式AI技术使用生成式预训练变换模型(GPT-3)和基于人类反馈的强化学习(RLHF)来生成类似人类撰写的文本。其采用的大规模预训练模型有丰富的语义信息,具有代码分析和编写能力、条件建模能力和推理能力。袁羲、吴应辉(2023)总结了生成式AI技术在国际中文教育领域能够发挥的多方面作用,如:
a. 生成式AI技术可强化学生中文自学能力,优化以学习者为中心的教学模式。
b. 生成式AI技术可提升教师数字能力,助推国际中文教师专业发展。
c. 生成式AI技术可推动国际中文教学资源建设。
d. 生成式AI技术可加速国际中文教学智能产品升级。
当然,生成式AI技术也存在一些局限和风险,如生成不准确或不合适的内容、影响学习者的自主性和批判性思维、引发一些伦理和法律的争议等。因此,使用生成式AI技术时需要辩证地看待和运用,遵循一定的原则和规范,保障中文教育的质量和安全。
(3)自动化项目生成指根据开发者要求,在项目生成算法的指导下,自动地生成符合参数的项目。早期的自动项目生成主要采取项目模型法,即指将经过检验且指标良好的项目作为模板,通过改变和替换与问题解决难度无关的描述,组合形成多个新项目的过程,常被用于智能中文测试等领域。如谢小庆、许义强(1999)探索了基于HSK题库的试卷生成系统。近年来自动化题目生成(AIG)、计算机自适应测试(CAT)等新技术被陆续引入,如通过结合自动化题目生成(AIG)与计算机自适应测试(CAT)的词汇评估新策略构建了一个平衡的自动生成题目的题库,并实施了一个三参数的计算机自适应测试(Zhou et al., 2019)。
2.2 知识图谱技术
刘峤等(2016)指出,知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱主要技术包括知识获取、知识表示、知识存储、知识建模、知识融合、知识计算、知识运维等七个方面。②通过这些技术的综合运用,能够帮助实现学习者个性化学习。
知识图谱技术在国际中文教育中的应用主要包括以下几个方面:
中文教育知识图谱的构建:通过从各种数据源(如教材、词典、语料库、网络等)抽取和整合中文教育相关的实体、属性、关系和概念,形成一个覆盖中文语言、文化、历史等方面的知识图谱,为后续的应用提供知识支持。如曹钢等(2023)基于《国际中文教育中文水平等级标准》构建了词汇知识图谱并用于建设词汇自适应学习平台。
基于知识图谱的中文教育问答系统:通过将自然语言问题转换为知识图谱上的查询,利用知识图谱的语义信息和推理能力,为中文学习者提供准确和丰富的答案,同时也可以生成相关的反馈和建议,帮助学习者提高中文水平。如卢宇等(2020)将教育知识图谱中的认知地图应用于“智慧学伴”机器人的开发。
基于知识图谱的中文教育认知诊断和个性化推荐:通过分析学习者的学习行为、能力、兴趣等数据,结合知识图谱的结构和内容,对学习者进行认知诊断和评估,发现学习者的优势和不足,以及潜在的学习需求和目标,然后根据学习者的个性化特征,从知识图谱中推荐合适的学习资源、路径和策略,实现因材施教和精准教育。如孙飞鹏等(2021)以HSK三级词汇为例进行了基于知识图谱的汉语词汇学习资源推荐研究。万海鹏等(2022)尝试使用知识图谱作为数据模型之一,精准定位学生的学习状态。
基于知识图谱的中文教育作文批改和生成:通过利用知识图谱提供的丰富的语言知识和背景知识,对学习者的中文作文进行自动评分、错误检测、修改建议等功能,同时也可以根据给定的主题、要求和素材,从知识图谱中选择合适的内容和表达方式,生成符合标准和规范的中文作文,为学习者提供参考和启发。
2.3 数字化交互技术
(1)多模态(Multi-modal learning)技术是综合利用多种感知模式(如文本、图像、视频、语音等)进行信息获取、处理和应用的技术。叶军(2021)指出,对语言学习来说,多模态资源加强了感官刺激,丰富了情感体验,提高了语言学习的趣味性;多模态资源的不同模态之间具有互文性,有助于学习者更加准确地把握语境信息、理解文化背景,提高对语言形式的敏感度;借助多模态资源不同模态的互补性,在不减少文本内容信息的前提下降低资源中文本的比重和难度,可以降低学习者(尤其是初学者)参与中文真实交际的门槛,增加其在交际中提升中文运用能力的机会。
(2)虚拟现实(Virtual Reality,简称VR)技术是一种先进的人机计算机接口技术,它利用计算机生成一种高度逼真的、模拟人在现实环境中进行视、听、动等行为的虚拟环境,并通过多种传感设备,使人投入该环境中,实现人与该环境间的自然交互。①
(3)增强现实(Augmented Reality,简称AR)技术是在虚拟现实的基础上发展起来的技术,是指通过将计算机生成的虚拟场景、文字注释等信息实时、精确地叠加到使用者所观察到的真实世界景象中,对人的视觉系统进行延伸和扩充。增强现实技术具有虚实结合的特性,契合了当前第二语言习得理论强调本地化、上下文学习和与现实世界的有意义联系的新思想。增强现实技术能够为学习者提供各种拟真的认知场景,提高学习效率,为学习者提供个性学习的发挥空间;在增强现实技术搭建的学习场景中,学习者不仅可以同其中的学习对象互动,也可以同其他学习者实时互动,交流经验(Cheng et al., 2012)。
3. 智能技术赋能教学资源研发
智能技术赋能教学资源研发是指利用人工智能、大数据、云计算等新技术,提高教学资源的开发、利用、评价和管理的效率和质量,为教育教学提供更多的可能性和创新性。
3.1 数据统计技术助力核心资源建设
基于数据统计的国际中文教育资源构建是指利用数据统计技术和方法,从各种类型和规模的语料库中提取、整理、分析和呈现国际中文教育所需的语言知识和语言材料,为国际中文教育的教学、研究和评估提供有效的支持和服务。
王治敏、俞士汶(2019)通过从语料库中统计、筛选、分级和分类国际中文教育常用或专业的词汇,构建出符合国际中文教育需求和特点的词汇表。首先通过设计季度时点,过滤出未连续出现在历时语料中的过时词语,发现常用的新词语,同时通过常用度提取模型,对词表中的名词进行了计算,赋予其统计信息和常用属性特征,建立了词语与历时语料的关联,发现词语的分布特点和稳定性度量。该项资源为国际中文教育的词汇教学和学习提供参考和指导。
刘华(2022)基于现有中医汉语类教材、中医专业类教材、中医网站三大语料来源,建设中医汉语语料库;利用词语聚类算法和图式语义场理论,形成中医汉语内部主题分类词簇,构建了中医汉语主题分类词表体系。
3.2 数字化交互技术构建沉浸式学习环境
随着教学理念的革新和智能技术的发展,“交互型”学习资源成为新的发展趋势。学习者与学习内容的交互通常被理解为学习者浏览阅读各种类型的学习材料的过程。当学习材料中的内容能够触发学生的评论和表达,根据学生的反馈对教学内容做出修改、补充或更新,就实现了学习者与学习内容的交互。
为了建设“交互型”学习资源,需要首先实现知识点的结构化管理、组织和跳转。在知识库技术和语义标注技术的支持下,通过改变传统纸质教材的线性结构表现方式,从教材文本中自动识别出包含的知识特征,并根据教材知识本体和教学论自动标注学习内容,能够建立全新的知识组织形式,从而根据学习的目标和学习内容自动生成学习计划,实现个性化的学习内容(武法提、牟智佳,2015)。
数字化交互技术中,虚拟现实技术和增强现实技术是未来探索和发展的重要方向。
周晓军、马君(2004、2006)基于VRML技术,综合多媒体技术,设计了情景模拟教学;此后又进行了基于VRML的远程对外儿童汉语教学课件设计,但受限于当时的软硬件条件,这些研究只对虚拟现实技术用于国际中文教育进行了初步的探索和展望。从2015年起,逐渐有研究尝试运用国外成熟的虚拟现实环境进行教学实验。自2018年起,随着虚拟现实技术在软硬件方面都取得了较大突破,国内虚拟现实技术在国际中文教育中的应用正逐步回归基本,脚踏实地和具体的学习科目相结合,取得了一定的研究成果,但研究成果以硕士论文为主,实用化程度仍有待提高。
相比国内,国外对虚拟现实技术的研究开展更早、发展水平也更高。得益于研究机构先进的软硬件设备,有能力引入较为前沿的电子设备。伦斯勒普通话项目这样较大规模的项目已经开始使用如360°全景屏幕、无标记运动跟踪传感器阵列等先进技术(Allen et al., 2019)。部分研究已逐渐开始形成较为完善的技术流程,前述伦斯勒普通话项目就将基于虚拟现实的沉浸式教学所需要的智能技术归纳为以下三个方面: