基于生成式人工智能的非物质文化数字化导览系统构建探索
作者: 叶星雨 郑哲 郑元杰 黄莹 林雪燕 王苏文
摘要:文章以浙江缙云河阳村非物质文化遗产数字化建设为背景,探索了利用生成式人工智能(Generative AI) 和虚拟现实(VR) 技术构建数字化导览系统的方法。首先,运用Stable Diffusion和Midjourney等AI工具辅助场景设计和材质制作,并基于Unity高清渲染管线(HDRP) 重建虚拟场景;其次,利用大语言模型(LLM) 构建NPC对话系统,增强用户交互体验;最后,设计了剪纸、茶道等非遗文化互动游戏。初步结果表明,该系统能够有效提升用户对非遗文化的沉浸式体验,为非遗文化的数字化保护和传承提供新的途径。
关键词:生成式人工智能;虚拟现实;非物质文化遗产;数字化导览系统;河阳村
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2025)05-0103-04 开放科学(资源服务) 标识码(OSID) :
0 引言
非物质文化遗产作为人类文明的瑰宝,正面临传承与保护的双重挑战。随着数字化技术的飞速发展,特别是生成式人工智能的兴起,为非遗的保护与传承开辟了新路径。本研究以浙江缙云河阳村为例,探讨如何运用生成式人工智能与虚拟现实技术,构建一套非物质文化遗产的数字化导览系统,旨在提升用户体验,促进非遗文化的传播与传承。
1 项目背景
河阳村位于浙江省丽水市缙云县,具有1 100多年的历史,拥有丰富的非物质文化遗产,包括古民居建筑艺术、传统工艺(如缙云剪纸) 、民俗活动和婺剧表演等。然而,这些珍贵的文化遗产正面临传承人减少、关注度下降的严峻挑战。本项目聚焦于河阳村非物质文化遗产的数字化保护与传承,旨在利用数字技术保护和传承这些珍贵的文化瑰宝,使这些传统文化在新时代焕发新的光彩。
2“ 非遗+”数字化探索现状
非物质文化遗产的数字化通常涉及使用数字采集、存储、处理、展示和传播等技术手段,将非物质文化遗产(非遗) 转化、再现和复原为可共享和可再生的数字形态,并从新的视角进行解读,以新的方式进行保存,并根据新的需求加以利用。其核心任务主要包括:1) 非遗项目的数字化采集和存档;2) 通过运用影像、动画、虚拟现实和增强现实等多种多媒体技术手段,实现非物质文化遗产的数字化创新。例如,学者张金芳针对扎染工艺在传统发展中损耗大、费人工、传播受限等问题,提出使用数字化辅助设计以满足客户个性化需求。通过虚拟现实、大数据等技术传承和保护传统扎染技艺,并将扎染技艺与其他领域结合,为传统工艺的推广注入新的活力[1]。学者王馥则提出,非遗数字化呈现需要精准化要求,以展现非遗项目的独特魅力,进而避免数字化呈现时的同质化[2]。通过对目标人群的精准分析及兴趣偏好研究,实现非遗项目的精准传播与推广,不仅保留了其原有的文化韵味,还赋予了其新的时代感与生命力。
2.1 生成式人工智能与非遗数字化
生成式人工智能(Generative AI) 是一种人工智能技术,能够基于深度学习模型,模拟人类的创造性思维,生成具有一定逻辑性和连贯性的语言文本、图像、音频等内容。目前,市场上主流的产品代表包括DALL-E、Midjourney和Stable Diffusion。使用这些生成式工具,可以根据用户需求创建逼真的图像或原创艺术作品,并执行风格转换、图像到图像转换以及其他图像编辑或图像增强任务。不仅如此,用户还可以通过输入提示文本,实现智能写作、作曲、生成短视频、游戏段落等功能。例如,HUMANOID DJ是一个由日本AVEX公司推出的人工智能DJ,它利用微软的Cognitive Services技术实时解析观众的情绪,从而即兴创作影像[3]。生成式人工智能能够根据用户需求生成图像、文本、音频等内容的特性,为非遗数字化内容创作提供了新的工具。
2.2 虚拟现实与非遗数字化
虚拟现实技术(Virtual Reality,简称VR) 是一种计算机仿真技术,通过创建和体验虚拟世界的模拟环境,使用户能够沉浸其中。该技术通过整合视觉、听觉、触觉等多种感官信息,创建一个统一的感知环境,使用户能够更加自然地与虚拟世界互动,实现对虚拟环境的自然交互,从而产生身临其境的感受和体验。虚拟现实技术在非遗数字化保存和呈现中的多样性和创新潜力,为非遗的保护与传承提供了新的工具和方法。通过综合运用VR/AR等数字技术,可以从多个维度向大众展现非遗文化、传承历史和技艺工艺等,提升非遗的场景互动与体验。例如,国内首档聚焦大湾区非遗文化的VR纪录片《来自大湾区》上线,通过“VR+非遗+地域”的方式展现大湾区非遗文化的匠心之粹[4-5];粤剧《相遇岭南》利用“360度自由视角+VR拍摄”的方式,为观众带来自主性、沉浸式的全新观演体验[6];腾讯推出的NextIdea创新大赛中,选手使用AR 技术展示剪纸艺术,并以动画形式再现皮影戏,实现了传统技艺与现代科技的融合发展。虚拟现实技术能够创建沉浸式的虚拟环境,使用户身临其境,成为非遗文化数字化呈现和交互的最佳选择。
由此可见,虚拟现实技术能够从多维角度尽可能还原非物质文化遗产的历史韵味,同时提供沉浸式用户体验与交互,是一种较为理想的数字化保存和应用推广方式。而生成式人工智能凭借其在辅助设计和大语言模型方面的优势,在项目开发过程中提供了新的开发途径和手段。
3 基于生成式人工智能的数字化河阳村构建
3.1 基本思路
项目的第一阶段是数字化采集阶段,针对缙云河阳古村落进行前期数字化信息的采集与整理。主要包括:1) 村落鸟瞰场景的无人机拍摄;2) 主要场馆的三维实景拍摄;3) 非遗传承人的专访;4) 当地典型风俗活动过程的视频拍摄;5) 当地相关文献资料的查询与整理。
第二阶段是场景构建阶段,利用Stable Diffusion、Midjourney等生成式人工智能工具辅助风格设计和材质设计,构建河阳古村的标志性建筑及整体场景风格。通过Maya、3DMax等建模工具进行场景细化,利用Substance Painter、ZBrush、Toolbag等材质制作工具制作材质与贴图,最终导入Unity,并使用HDRP(High Definition Render Pipeline) 实现后期渲染。
第三阶段是交互设计阶段,项目为用户提供以第一人称视角实现步行漫游和车览漫游两种模式。通过大语言模型实现NPC自然语言交互对话,并通过Unity脚本设计实现剪纸工艺交互、剪纸博物馆影音点播、茶道表演交互、投壶活动等非遗互动游戏功能。
3.2 主要内容
本项目开发采用三阶段流程:数字化采集、场景构建和交互设计。在场景构建阶段,利用Stable Diffu⁃ sHioDnR的P实Lo现RA高算质法量渲进染行。场在景交辅互助设设计计阶,段并,使基于用LUannigty⁃ Chain框架和Azure AI语音服务接口构建NPC对话系统,并设计了多种非遗文化互动游戏。
3.2.1 生成式人工智能辅助场景设计
项目使用生成式人工智能Stable Diffusion(简称SD) 的LoRA算法进行场景辅助设计,其过程主要分为3个步骤。
首先,通过数据采集的图片进行图片预处理,其任务是将背景和主体分离,拆分主体元素,进而生成标准化尺寸的图片数据(尺寸为512像素×512像素) ;
其次,利用BLIP 生成标签并进行优化,采用LoRA算法对场景风格模型进行训练,从而构建一套专用训练集;
然后,将训练完成的模型输入SD工具中,实现辅助设计效果(见图2、图3) 。
使用生成式人工智能进行辅助设计的优点在于,不仅能够尽可能保留非遗项目原有的文化韵味,同时使整体项目保持一致的风格效果;此外,还可以根据不同用户需求,快速调整和切换风格。
3.2.2 基于高清渲染管线的虚拟化场景重建
项目采用Unity 引擎中的高清渲染管线(HDRP) 来实现更加逼真的视觉效果。通过在Unity编辑器中安装HDRP资源包,启用了项目的高清渲染管线。该资源包包含了用于高质量渲染的各种工具和组件,通过对HDRP相关参数的调整和设置,可以对项目中的光照模型、阴影质量、反射效果以及色彩管理等进行统一控制。
启用HDRP 后,项目的材质表现得到了显著提升,各种物体表面的质感和细节更加丰富和真实。同时,光照效果也得到了极大的改善,无论是直接光照还是间接光照,都显得更加自然和逼真。整体而言,通过启用HDRP并进行细致的参数设置,项目在视觉效果上得到了显著提升,为用户带来了更加沉浸式和真实的体验。图4、图5展示了启用高清渲染管线后的剪纸展览馆和文化馆的局部效果。
3.2.3 基于大语言模型(LLM) 的虚拟数字人NPC 对话系统
在项目使用虚拟现实技术构建的第一人称导览漫游过程中,通过增加非玩家角色(Non-Player Char⁃ acter,简称NPC) ,可以帮助玩家介绍非遗文化、解答非遗知识、引导用户完成任务以及协助交互操作等功能。随着三维数字虚拟人和大语言模型等数字技术的快速发展,构建基于大语言模型的NPC对话系统,不仅能够增强交互体验,还可以提升交互的趣味性。
本项目通过LangChain应用框架搭建NPC虚拟数字人智能体(agent) 。图6展示了其基本工作流程:1) 玩家通过语音提问非遗相关问题;2) 虚拟数字人智能体通过微软的Azure AI语音服务接口将语音转为文本(Speech-to-Text) ;3) 通过LangChain应用框架调用后台专业领域知识库的大模型接口,搜索问题的答案;4) 将文字结果转换为语音(Text-to-Speech) ,并使用Unity 的AudioSource 组件进行播放。同时,利用Unity的动画控制器驱动数字人的表情动画,具体效果见图7。
3.2.4 其他非物质文化交互功能实现
为增强用户在游览过程中的互动体验,项目基于HTC VIVE设备,制作了与当地传统文化习俗相关的互动游戏,包括剪纸、茶道、射箭、投壶和书法等。
图8展示了玩家根据游戏提示,通过手持控制器模拟剪刀的动作,逐步完成河阳地区剪纸工艺的制作过程。游戏根据玩家在剪纸过程中的准确度、创意度以及完成时间等因素进行评分,以此激励玩家不断提升剪纸技巧和艺术表达能力。
4 展望
本项目在非遗数字化制作、保存和呈现中采用了生成式人工智能与虚拟现实技术,并取得了初步成果。通过生成式人工智能与虚拟现实技术的深度融合,开辟了一条非物质文化数字化构建的新途径。
目前,在实现语音驱动三维人物面部表情动画的机制上,考虑到人物的姿态相对固定,面部表情以热情为主,项目采用了传统的动作映射与随机化处理相结合的方式。未来研究将进一步优化语音驱动三维人脸动画的机制,例如探索基于Blendshapes的语音驱动方法[7-8]。
此外,研究还计划开发具有个性化推荐和智能导览等AI辅助功能的导览系统,以为用户提供更加真实、逼真的数字化虚拟导览体验。
参考文献:
[1] 张金芳,罗帆.数字化时代下扎染技艺的保护与传承研究[J]. 河南理工大学学报(社会科学版),2024,25(6):95-100.
[2] 王馥.非物质文化遗产数字化呈现与传播路径研究:以常州非遗为例[J].常州信息职业技术学院学报,2024,23(5):92-96.
[3] 数字雕塑. AI艺术创作新趋势:深度学习与视觉表达的结合[EB/OL]. (2024-01-07)[2024-05-10]. https://ai.zhlzw.com/shuziyishu/1350301194.html.
[4] 搜狐. 国内首档聚焦大湾区非遗文化的VR纪录片《来自大湾区》上线[EB/OL]. (2023-07-07)[2024-05-10]. https://www.sohu.com/a/695534079_104421.
[5] 城市光网. 非物质文化遗产的“数字复兴”:非遗数字化发展分析[EB/OL]. (2024-09-25)[2024-11-10]. https://www.urban⁃light.cn/newsdetail/a69afe85-0dfc-892a-9429-4385c88bfc59.
[6] 文旅中国. 广州大剧院携手华为打造5G智慧剧院,构筑演艺行业“新业态”[EB/OL]. (2020-09-26)[2024-11-10]. https://www.ccmapp.cn/news/detail?id=47ae1bea-30fc-49a4-9a1b-459608a14a25&categoryid=&categoryname=%E6%9C%AC%E7%BD%91%E5%8E%9F%E5%88%9B.
[7] 刘露.基于Blendshapes的语音驱动三维人脸动画技术研究[D].大庆:东北石油大学,2022.
[8] 刘贤梅,刘露,贾迪,等.基于语音驱动的三维人脸动画技术综述[J].计算机系统应用,2022,31(10):44-50.
【通联编辑:唐一东】
基金项目:浙江省大学生科技创新项目“基于AIGC 驱动的教育数字人制作实践与项目应用”(2024R466A002) ;宁波城市职业技术