基于文旅行业大模型的移动终端垂域VQA 应用HUI 设计
作者: 蔡登旭 王欢
摘要:基于多模态大模型(MLLMs) 开发的移动应用具备提供丰富用户体验的潜力。当前,关于人工智能在视觉表现层面的研究主要呈现出两种设计范式:一是具有人类特征的具象数智人,二是动态几何形态的抽象智能体。这两种范式在文旅领域的视觉问答(VQA) 应用中各有优势。针对细分场景的用户需求,文章利用预训练的文旅行业大模型,开发了两个不同混合用户界面(HUI) 设计风格的视觉问答App,以评估其在文化旅游情境中的实际效果。该研究旨在为未来文化旅游VQA移动应用设计提供参考,并为大语言模型的HUI设计提供新视角,推动移动计算终端多模态交互研究新方法的普及。
关键词:多模态大模型;视觉问答;混合用户界面;多模态交互
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2025)04-0152-03 开放科学(资源服务) 标识码(OSID) :
0 引言
当今,人类生活在一个包含文本、图像、音频、视频等多种模态数据的世界里。多模态大模型(Multi⁃modal Large Language Models,MLLMs) 通过跨模态的统一表征学习来整合这些数据,显著增强了计算机的信息处理和生成能力,也必将成为人工智能领域未来发展的重要方向[1]。尤其在多模态人机交互中的应用,不仅使交互体验更为自然,还极大地丰富了用户获取信息的方式。随着移动设备的普及和技术的进步,特别是智能手机和平板电脑的广泛使用,大模型也正在逐步走向“智能终端侧”。因此,针对移动终端开发大模型应用程序变得尤为重要[2]。这些应用利用云计算和边缘计算的算力优势,能够实时处理和分析大量数据,为用户提供即时且准确的信息服务。对这类数字化服务型产品的设计研究将成为未来设计理论研究的重要领域之一。
与其他多模态学习任务相比,视觉问答(VisualQuestion Answering,VQA) 结合了计算机视觉和自然语言处理两个领域,需要对图像和文本进行深入的语义理解,是一个更具挑战性的任务。而基于多模态大模型的各类应用产品开发方兴未艾[3-4]。这种多模态融合技术在文化旅游场景中的应用正逐渐被认识,尤其是在提供动态且可交互的用户体验方面展现出强大能力。文旅VQA应用将为用户提供更具交互性的文化知识与旅游信息服务体验。
在VQA移动应用中,混合用户界面(Hybrid UserInterface,HUI) 设计起着至关重要的作用,它是用户与程序交互的桥梁。一个良好的HUI设计不仅能简化用户操作、提高效率,还直接影响信息的展示方式和用户的交互体验,是决定应用成功与否的关键因素[5]。目前,学界与业界针对此类自然语言处理(NaturalLanguage Processing,NLP) 人工智能在表现层的呈现方式上主要存在两种观点:一种是类似于百度文心一言数智人小言的具象数智人(Humanoid Digital Ava⁃tars) ,强调在数字空间中以具体形式出现的AI;另一种则是类似于智谱华章公司的智谱清言(ChatGLM) 的抽象智能体(Abstract Intelligent Agents) ,主要通过语音或文本与用户互动,缺乏人形拟态,如图1所示。这两种不同的视角不仅塑造了人们对AI的认知,也深刻影响着AI产品设计的研究方向。本研究通过预训练的文旅行业大模型,开发了两个不同HUI设计风格的视觉问答App,并评估其在文化旅游情境中的实际效果,旨在为未来文化旅游VQA移动应用设计提供参考,并为大语言模型的HUI设计提供新视角,推动移动计算终端多模态交互研究新方法的探索。
1 研究背景
1.1 文旅行业大模型
目前,大模型产品已在各行各业中得到广泛应用,涵盖医疗、教育、金融和交通等领域。这些专家模型大多是在通用大模型的基础上,通过多种数据微调方法实现的。学术研究表明,全模型微调(Full-ModelTuning) 、提示词微调(Prompt Tuning) 和低秩适配(LoRA) 在不同应用场景中展现出显著的泛化效果,并在各种下游任务中表现出良好的鲁棒性[6]。在大模型应用程序的开发过程中,原始数据清洗、知识抽取与向量化表示等工作是必不可少的步骤[7]。将预训练的文旅行业大模型作为信息基座,通过自监督学习的方式对齐跨模态信息,可以为应用层的视觉问答App开发提供更加精准的垂直领域信息服务。
1.2 移动终端VQA 应用
近年来,具备视觉问答功能的AI移动应用在各个领域展现出广泛的应用前景。而且,VQA的范围并不局限于单个图像作为视觉输入,还可以扩展到任何形式的视觉输入,如一组图像或一段视频[8]。尽管已有针对通用场景开发的VQA系统程序,但专门针对文旅应用场景的移动应用仍较为稀缺。如图2所示,本研究致力于探索并实现一个专为文旅市场定制的VQA 移动应用,旨在通过结合领域特定的视觉和语言任务,提升信息的可访问性和细粒度,针对特定应用场景的用户需求进行优化[9],并利用多模态大模型强大的图文理解与推理能力,为旅客提供更加丰富和精确的信息服务体验。
1.3 混合用户界面设计
在VQA移动应用中,混合交互界面(HUI) 设计扮演着至关重要的角色,它是用户与程序交互的桥梁。HUI 结合了图形用户界面(Graphical User Interface,GUI) 和对话式界面(Conversational User Interface, CUI)两种信息接口的优势,通过提供视觉支持来创建更直观的多模态用户体验[10]。一个良好的HUI设计不仅能简化用户操作、提高效率,还直接影响信息的展示方式和用户的交互体验,是决定应用成功与否的关键因素。然而,大多数用户界面设计仍然基于传统桌面应用的模式,这并不完全适用于大模型技术在移动环境下的应用[11]。随着大模型逐渐向着轻量化部署和移动端应用的方向发展,HUI设计领域缺乏统一的范式来优化用户体验。
2 具象数智人
受元宇宙(Metaverse) 概念的影响,数字化身成为计算机图形学的研究热点之一。此类具象化的数智人可以根据其应用场景、角色特征、语调音色等信息设计出不同的人物形象,丰富与增强用户体验的沉浸感。其通过类人化的外观和动作,能够模拟真实的人类互动,并在情感层面与用户建立连接。这种设计能够触发用户的情感共鸣,使用户体验更加真实和吸引人。数智人的五官直观地体现了机器所具备的VQA 功能,这种拟人的设计属性使用户能更自然地与文旅多模态大模型进行交互。“Xi'an境”App将虚拟导游数智人的3D模型以AR形式呈现在图像采集区域中,数字化身仿佛置身于现实世界中,通过多模态大模型的VQA功能使人物动作、生成的文本和语音保持同步。具象化的外观设计使用户更容易与这些数字化身产生共鸣,从而提高用户的参与度和满意度。
3 抽象智能体
由几何体有机组合而成的抽象智能体,源自人机交互中对信息可视化的探索。这些智能体通常采用简洁的几何图形设计,不仅赋予了界面一种现代、极简主义的美感,还有助于降低视觉干扰,使用户能够更专注于界面的功能性。“妙思宇宙”App的行星智能体具有多种状态反馈,基于用户认知的交互设计,通过符号学隐喻达到易操作的目的。通过合理的程序框架设计,智能体可以完成跨模态功能集成,创建一个多感官的交互环境。这种抽象几何图案具有形式化的数理逻辑结构,超越了具体的语言和语义,使其在全球不同文化和语境中具有更广泛的可接受性。
4 VQA 应用HUI 设计
在AI应用的UI设计中,影响用户感知的关键要素包括视觉色彩、界面布局和交互体验等,这些要素在塑造应用的用户体验和功能性中起着至关重要的作用[12]。无论表现层为具象数智人还是抽象智能体,VQA应用的HUI设计都可总结为一些核心功能区域的组合,如图5所示。这些区域包括:视觉图像采集区,允许用户上传或直接拍摄图像以供分析;多轮对话展示区,支持用户与AI的持续互动,方便用户追踪对话历史;多模态信息展示区,展示文本、图像及视频等信息,增强用户的理解和体验;语音信息输入区,提供语音输入选项以便用户方便快捷地查询;目标检测识别区,实时展示AI对图像中物体的识别和分析结果;以及智能体状态显示区,显示智能助手的状态和响应,增强交互透明度。这些设计范式应优先考虑界面的直观性、无障碍性和美观性,确保所有功能区均易于访问且响应迅速。同时,界面设计应简洁明了,避免过度拥挤,以提高用户操作的便捷性和整体体验。
视觉色彩不仅增加界面的美观性,还影响用户的情绪和行为。用户倾向于温馨、亲切的色调,这些色彩能激发信任感和安全感。设计师使用对比色来区分操作按钮或功能模块,提升界面的直观性。其次,界面布局的直观性直接关系到用户的操作效率和学习曲线。用户偏好简洁和逻辑清晰的布局,而设计师则利用F形或Z形阅读模式来优化信息流动和视觉引导。最后,交互体验的核心在于使用户与应用间的互动更流畅。用户期望通过简单的操作获得即时反馈,而设计师则探索包括目标识别和语音交互在内的创新交互方式,以增强用户的沉浸感和参与度。总之,AI移动终端应用的HUI设计需要在满足用户直观、易用的需求与追求设计创新和功能完善之间找到恰当的平衡,这样才能创造出既符合用户期望又具有市场竞争力的产品。
5 结束语
多模态大模型自身需要同时处理多种跨模态信息,因此非常适合采用混合用户界面来设计。具象数智人以其更加人性化的外观和行为赢得了用户的情感共鸣,而抽象智能体则以其简洁高效的功能性吸引了追求实用性的用户。本研究旨在为未来文化旅游VQA移动应用设计提供参考,并为大语言模型的HUI 设计提供新视角,促进移动计算终端多模态交互研究新方法的推广。
参考文献:
[1] 童同,李雪,朱永北,等.基于多模态大模型的动作识别关键技术研究与应用[J].通信世界,2023(22):48-49.
[2] 李洋.AI大模型“瘦身”加速落地移动端[N].中国高新技术产业导报,2023-08-21(012).
[3] YUAN D S. Language bias in visual question answering: a sur⁃vey and taxonomy[EB/OL]. (2021-11-17)[2024-07-01]. https://arxiv.org/abs/2111.08531v1.
[4] 李祥,范志广,李学相,等.基于深度学习的视觉问答研究综述[J].计算机科学,2023,50(5):177-188.
[5] LV W Y,SUN Z,LI Y L,et al.Hybrid machine learning-basedmodel for predicting chloride ion concentration in coral aggre⁃gate concrete and its ethically aligned graphical user interfacedesign[J].Materials Today Communications,2023,37:107053.
[6] LONGTENG ZHANG, XIANG LIU, ZEYU LI, et al. Dissectingthe Runtime Performance of the Training, Fine-tuning, and In⁃ference of Large Language Models[EB/OL]. (2023-11-07)[2024-07-01]. https://arxiv.org/abs/2311.03687.
[7] JAISWAL A,BABU A R,ZADEH M Z,et al.A survey on contras⁃tive self-supervised learning[J].Technologies,2021,9(1):2.