“数字人文”在线开放课程知识图谱构建

作者: 侯兴泉 熊玉珍 徐贵平

“数字人文”在线开放课程知识图谱构建0

[关键词] 数字人文;知识图谱;在线开放课程

[摘要] 随着人工智能与教育深度融合,知识图谱已成为人工智能教育应用的重要支撑,并为在线开放课程建设赋新能。基于此背景,本文尝试厘清知识图谱对在线开放课程建设的价值意义,并在“数字人文”在线开放课程建设中应用知识图谱在本体知识建模、多模态资源语义化管理、个性化学习多路径供给以及学生知识掌握和实践能力的画像构建等方面进行设计和实践,旨在探索在线开放课程智能应用新路径。

[中图分类号]H19 G40-057[文献标识码]A[文章编号]1674-8174(2024)04-0079-07

1. 知识图谱为在线开放课程建设赋新能

近年来,我国在线开放课程资源呈现出科学快速、高质高效建设的发展趋势,“高等教育平台上线优质慕课超过2.7万门,持续引领世界教育教学数字资源建设”①,高等教育在线开放课程已成为我国高等教育数字化的重要组成部分。但是,随着加快发展新质生产力迫切需要大批拔尖创新人才的高等教育发展战略部署,通过人工智能深度融入在线课程资源建设、促进在线开放课程质量提升,已成为高等教育在线开放课程建设亟待解决的重要且急迫问题。

自2012年Google公司提出了知识图谱(Knowledge Graph)后(马新翎、何胜、熊太纯,2017),知识图谱与深度学习一起,已成为推动互联网和人工智能发展的核心驱动力,并成为人工智能领域的研究热点(李涓子、侯磊,2017)。知识图谱的本质是一种运用语义网络结构组织知识的知识库,在自然语言理解、人机互动对话、语义化搜索、逻辑推理等方面,显示出强大的优势,被认为是人工智能技术取得突破性进展的重要组成部分,因此成为当前人工智能教育应用的新的赋能力量。2017年,我国《新一代人工智能发展规划》特别强调“要研究知识图谱构建与学习、知识演化与推理等关键技术,要构建覆盖数亿级知识实体的多元、多学科、多数据源的知识图谱”②。教育知识图谱分为静态知识图谱(Static Knowledge Graph,SKG)和动态事理图谱(Dynamic Reason Graph,DRG)(李振、周东岱、王勇,2019),前者是指面向知识点的图谱,后者是面向教学活动的动态事理图谱,能够追踪学习者的知识掌握状态,可视化展示个体和群体学习信息。因此知识图谱将学习知识点关联顺序、知识点与学习目标关联层次、知识点与资源关联模态,把碎片式、分散的教学资源与相关实体关联成一个语义网络,成为教育知识引擎的核心部件,进而为智能教育应用提供强有力支撑。

知识图谱成为实现教育智能化关键基础设施和重要技术,是实现各种智能化教育信息服务的基础(刘超、黄荣怀、王宏宇,2023)。教育部为拔尖创新人才培养筑基的基础学科系列“101计划”中,计算机领域已经搭建完成“核心课程+知识图谱” 12门核心课程,形成了涵盖110多个模块、650多个关键知识点的核心课程知识图谱①。随着我国《高等学校人工智能创新行动计划》《中国教育现代化2035》等文件相继出台,推进人工智能与教育深度融合,促动学习环境、教学方式、教育管理与评价等方面变革。高校在加快推进数字化转型中,通过知识图谱驱动的导航学习、智能化的教学资源推荐、基于人工智能技术的实践自动评测、个性化智能助教等方面,实现数字化教育资源和算力资源的按需供给。由此可以看出,知识图谱为人工智能教育应用提供重要的支撑工具,为在线开放课程建设提供了新的赋能力量。

2.“数字人文”课程设计

2.1 课程建设的重要性和迫切性

“数字人文”(Digital Humanities,DH)起源于20世纪50年代提出的“人文计算”(Humanities Computing),是在计算机技术、多媒体技术、网络技术等支撑下开展的新型跨学科研究领域(刘炜、叶鹰,2017)。20世纪90年代开始,数字人文研究正式进入大规模真实文本处理的阶段(冯志伟,2023),真正实现人文与计算机的交叉碰撞。进入21世纪后,国内外数字人文研究范式转变明显,发展迅速。随着通用人工智能(AGI)时代的到来,智能技术迭代与人机互动发展不断突破人们的认知边界,人文学科研究领域不断从历史、文学、法律等传统人文学科逐渐向美术、音乐、舞蹈等传统和现代艺术领域扩展,研究范式逐渐向数字化与回归人文转变,这为数字人文研究迎来一个全新的发展时代。

数字人文作为一个牵涉面很广的交叉学科,目前还很难给它下一个大家都认可的定义。前几年国内曾专门召开过一次“定义数字人文”研讨会,最终也没能就“数字人文是什么”这个问题达成共识(陈静,2021)。虽然数字人文难以定义,但其核心概念、历史和现状、研究框架等还是比较清晰的(详见戴安德、姜文涛,2016;郭英剑,2018;孙辉,2018)。我们国家现在越来越重视数字技术在人文学科中的作用,2023年2月,教育部等五部门联合印发了《普通高等教育学科专业设置调整优化改革方案》,明确提出要“推进文科专业的数字化改造”。2023年4月6日,教育部发布通知(教高函【2023】3号),公布了2022年度普通高等学校本科专业备案和审批结果,“数字人文”进入最新的《普通高等学校本科专业目录》,归入“文学”门类下的“中国语言文学类”,专业代码为050110T。到目前为止,国内外的数字人文中心多为研究性机构,所开设的课程多为研究生课程(参见吴加琪等,2018)。就笔者初步调研所知,目前国内开设数字人文本科课程的主要高校有武汉大学和南京大学,课程类型都属于公共基础课。王涛(2018)结合其所授的《数字工具与世界史研究》课程对数字人文在本科阶段的教育实践进行了经验总结和反思,这是目前国内为数不多专门讨论数字史学课程建设的论文。

党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提出“教育、科技、人才是中国式现代化的基础性、战略性支撑”。教育部部长怀进鹏指出,在高等教育领域,畅通教育、科技、人才的良性循环,要求强化“科技教育和人文教育协同”②。面向科技发展趋势和国家文化数字化战略的急需,在新文科所倡导的复合融通式的人才培养理念指导下,数字人文素养应成为中国语言文学下属汉语言文学、国际中文教育、汉语言等相关专业学生的核心素养。对于新设“数字人文”专业的院校来说,数字人文课应该成为数字人文课程群中的骨干课程。对于尚未设置“数字人文”专业的高校文科院系而言,也应该根据各院校的实际情况有针对性地开设“数字人文”专业选修课或通选课,因为数字人文课程建设不仅是新文科建设的外在要求,同时也是文学、语言学等学科发展和人才培养的内在需要。

2.2 课程性质

从课程性质来看,“数字人文”既是一门介绍跨学科知识的“通论”课,也是一门教授数字人文常用方法与技术的入门普及课,兼有理论传授和工具应用两方面的特点。课程旨在提高汉语言文学、国际中文教育和汉语言等相关专业学生的数字人文研究意识和数字人文核心素养,培养学生成为文理兼通、通晓理论、知识系统、技能全面的复合型人才,满足服务国家中文国际传播战略的人才需要。课程吸收了数字人文领域先进的理论、方法、工具和范式,重点开展文本语料库、多模态语料库、文献计量分析、数字人文常用工具的理论学习和应用实践。通过线上和线下相结合的课程讲授和实践,让学生尽早了解本领域的前沿动态,并重点培养学生六项数字人文核心能力,使学生逐步形成数字人文的思维方式,从而实现数字人文赋能新时代下的人才培养目标。

2.3 课程理念和目标

作为一门以跨学科能力培养为核心的骨干课程,我们始终坚持以学生为中心,结合新文科所倡导的复合融通式的人才培养理念,强化实验实践环节,巩固和深化传统的人文学科的理论知识,培养数字化条件下文科学生的科学素养、实验实践能力以及社会应用的技能。课程的教学过程采用“理论学习→线上线下的实验与实践→数字人文知识与能力的积累→数字人文社会应用”递进式教学(见图1)。

根据以上课程理念,我们设立了思政、知识、能力和素质四项课程目标:

(1)思政目标:立德树人,将中华优秀文化深度融入课程内容,以强化社会主义核心价值观引领为导向,培养学生爱国主义精神,树立“数字人文”意识,增强学生的文化自信。

(2)知识目标:“人文研究+数智技术”深度融合的理论和知识体系,以及数字化国际中文教育、中华优秀文化传播的新技术、新方法、新模式。

(3)能力目标:一是通过文献计量分析进行定量和定性分析,绘制知识图谱;二是学习计量语言学的定律,用计量方法研究语言;三是掌握数据库的基本操作和语料库的检索,建立文本数据库;四是掌握语音采集和分析的能力,建立多模态语料库;五是学习语言田野调查和社会调查的基础知识和方法手段,采集分析语料;六是掌握现代信息技术的方法和技术,具有初步进行国际中文教育数字资源设计和文化数字传播的能力。

(4)素质目标:数字人文的敏感性与洞察力、科学研判的专业素养、开放思维与国际视野、创新精神与创业意识。

2.4 课程内容体系构建

根据课程定位和课程目标,本课程将深入融合“人文研究+数智技术”,将课程内容划分为理论、方法、工具和应用四个层次。理论层侧重介绍语言学、文学、文献学、人工智能原理、心理语言学等相关理论。方法层重点应用新型数字化技术,创新人文学科的研究方法与路径,如语料库建设、手写识别、语音识别、图像识别、眼动追踪技术、脑电技术等。工具层主要通过深入应用新型软件工具与网络平台,实现人文知识的生产、传播与创新应用,如数据库检索和建库工具、文献知识图谱等。应用层强调发现并研究由新型数字技术带来的中文教育、数字文化等作品研发,如数字出版工具、可视化技术、虚拟现实技术等。课程内容重点围绕方法层、工具层和应用层进行展开,并以定量研究范式为主体,让学生能利用相关软件或编程语言进行单一文本和多模态数据的处理,然后通过数据驱动的方式带动相关理论的构建,并在此过程中逐步形成计算科学的思维方式,让数字人文真正实现对人文研究的技术赋能。课程内容框架和体例如图2所示,数字人文课程包括七大专题,每个专题由案例展示、专题概述、发展前沿、基本概念、技术方法和工具应用组成。

3.“数字人文”在线开放课程知识图谱构建

3.1 知识图谱构建流程

“数字人文”知识图谱构建在明确的课程目标基础上,针对本在线课程在多模态知识表征、资源语义化管理、个性化学习多路径供给、学生知识掌握和实践能力构建等方面智能化建设需要,课程知识图谱构建从课程本体知识图谱、多模态学习资源图谱和学习活动图谱三种知识图谱构建(见图3),并分别定义三种知识图谱的实体类型、实体属性和实体关系,构建语义信息。

3.2 本体知识图谱构建

课程基于知识的内在关联性构建本体知识图谱,分4个阶段来开展:(1)根据教学目标和知识体系构建知识图谱框架;(2)根据教学目标,建立知识点多维知识关系(父子、前后、关联等);(3)结合布鲁姆认知模型中“记忆、理解、应用、分析、评价、创造”六大认知层次建立知识点与认知水平关联;(4)根据教学目标,设置知识类型(事实性、概念性、程序性、元认知),图4是课程部分内容的知识图谱。

3.3 多模态知识图谱构建

“数字人文”知识图谱中的知识点不仅包含概念、定理、原理、理论、方法等,也涵盖了课程知识点的资源、主题、案例、教学目标、教学问题、实验素材、实验、作业、测试等。“数字人文” 在线开放课程包含知识点约56个,微视频资源共56个,关联案例资源112个,作业习题约110个,学习资源541个,实验42个,软件工具、网站等非视频资源约487个等。课程资源由文本、图像、视频、语音、动画等多模态素材构成,抽取课程资源中的知识实体为节点,对知识点以及知识点多模态资源实体进行标注,构建资源关联,定义多种模态实体间的语义关系,依据知识实体之间的关系生成“知识实体—实体关系—知识资源实体”,进而形成多模态知识图谱,为实现多模态资源语义化管理提供有力支撑。

3.4 学习活动动态知识图谱

动态知识图谱也称之为动态事理图谱,以教学事件或教学活动为表征对象,以逻辑事理顺承、因果、反转、条件、上下位、组成等关系为边,构成的多关系图(李振、周东岱、王勇,2019)。本课程应用泛雅超星平台和该系统的知识图谱对数字人文课程内容资源进行碎片化重构和整合,形成横向融通、纵向贯通的数字人文课程知识点脉络及资源汇聚、归纳;对微视频、案例、文献、课件、讨论、实验素材、软件、网站、作业、习题和测试等教学资源进行知识点标注,通过知识点的重组关联,实现资源的有效关联,为学生系统化、整体化、智能化学习提供全过程的动态支撑,可以实现个性化学习路径及资源智能推荐,构建新文科的教学服务的新生态。由于课程资源与知识图谱关联,所有学习行为及其结果将与知识点关联,学习路径直观可见,学习者画像可视化, 如“数字人文”知识图谱构建示例及学生学习情况的可视化图谱(见图5)。