基于在线评论的广州长隆旅游度假区游客满意度研究
作者: 张楚珊 姚俊逸摘 要:近年来,随着旅游电子商务的快速发展,在线旅游评论的文本数据越来越丰富,反映了游客满意度影响潜在游客购买旅游产品。文章以广州长隆旅游度假区为研究对象,通过网络爬虫获取在线评论文本,分析影响游客满意度的因素,首先通过LDA主题模型挖掘文本主题,得出广州长隆旅游度假区热门景点在线评论的十个主题;其次利用文本情感分析确定在线评论的情感得分和情感倾向,明确低于平均分有待提高满意度的主题;最后用重要性-满意度分析法(Important-Performance Analysis,IPA)分析不同主题的重要性和满意度,根据研究结果,明确度假区现存问题,提出设计不同消费档次、维护景点秩序、规范景点门票管理、增强景点服务意识、完善景点智能化设施等建议,旨在提高游客满意度,促进度假区旅游发展。
关键词:在线评论;游客满意度;广州长隆旅游度假区
中图分类号:F724.6 文献标识码:A
基金项目:广州市哲学社会科学发展“十四五”规划2021年度课题“流布、地缘:广州都市圈城市群旅游构型的研究”(2021GZGJ70)。
引言
当前旅游业迎来强劲复苏,如何提升景区游客满意度,争取市场份额是当前旅游景区管理部门紧急且重要的任务。2021年,《“十四五”旅游业发展规划》出台,旨在加快大数据、云计算等技术与在线旅游的深度融合,给用户带来更新颖、更真实的旅游体验[1]。随着旅游电子商务的迅猛发展,越来越多的游客在旅游活动结束后,形成通过旅游平台抒发自己的旅游体验及满意程度的习惯。因此,如何从游客的在线评论中挖掘影响游客满意度的因素是国内学者研究的热点问题。广州长隆旅游度假区是中国首批国家5A级旅游景区,若旅游景区不能让游客满意,不仅影响旅游重游率,还会给潜在游客购买旅游产品带来负面影响,导致景区缺乏市场竞争力。文章基于在线评论文本,以广州长隆旅游度假区的热门景点作为研究对象,挖掘在线评论文本中蕴含的价值,分析影响游客对热门景点满意度的因素,并提出提高游客满意度的建议,以保持热门景点的可持续发展。
一、文献综述
文章选取中国知网、ISI Web of Science、Elsevier Science Direct等数据库,以“tourist satisfaction”“online reviews”为关键词进行英文文献的检索。发现国外学者对在线评论反映的游客满意度研究相对较早,如斯韦特兰娜·斯特琴科娃(Svetlana Stepchenkova)等基于内容分析技术对373条在线旅游评论进行研究,确定了26个影响生态旅游满意度的维度[2];莫森·法哈德鲁(Mohsen Farhadloo)等收集了加州州立公园的2 239条在线旅游评论,采用情感分析和贝叶斯模型对游客满意度进行评价[3];泰查伦格罗吉·维里亚(Taecharungroj Viriya)等使用LDA主题模型和朴素贝叶斯算法研究了TripAdvisor的在线旅游评论,确定了泰国普吉岛五种不同类型旅游景点的满意度维度[4]。
与国外学者研究相比,国内学者关于在线评论反映的游客满意度研究相对较晚,2019年之后才有一定成果。在中国知网对主题词“在线评论+游客满意度”进行检索,发现截止到2023年3月26日,共获取32篇文献,其中17篇是学术期刊,15篇是硕士论文。学者的研究内容大体可以概括为三个方面:一是探讨游客满意度的定义,如司嵬等认为游客满意度是指游客对景点提供的各种因素满意程度的综合评价,包括风景、基础设施、服务条件等[5];二是采用文本分析法构建游客满意度指标体系,如吴远等采用文本分析法,利用中文文本分词、主题模型等方法,构建了贵州省游客满意度指标体系[6],孙宝生等基于在线旅游评论数据和在线文本挖掘技术,构建游客满意度评价指标体系与评价模型,定量评价游客生态旅游满意度[7],吴江等通过IPA模型分析乡村旅游景区,根据游客对景区数据的评价,分析出景区属性满意度[8],赵文博等利用LDA主题模型、文本情感分析和IPA模型分析文本数据信息,研究长岛游客满意度[9];三是分析景区游客满意度影响因素并给出园区改善和优化建议,如杨军辉等基于结构方程模型,分析乡村旅游目的地游客满意度的影响因素和机制[10],赵亚波等则结合实证分析法和IPA分析法,探索游客对昆嵛山国家级自然保护区环境解说系统的满意度情况,在研究基础上对解说系统的改进提出了相应建议[11]。
综上所述,通过对已有研究进行梳理,发现学者利用问卷进行游客满意度影响因素研究相对成熟,但较少利用在线评论分析游客满意度的影响因素,运用网络爬虫获取在线评论,对景区游客满意度的研究更是少之又少。因此,本文以在线评论文本为基础,利用网络爬虫抓取数据,使用LDA主题模型、评论情感分析和IPA模型分析,更加全面分析影响广州长隆旅游度假区游客满意度的因素,并针对问题提出相应建议。该模式下得出的结论更具专业性、权威性和说服力,既可以丰富景区游客满意度研究方法,也可以为景区调整发展策略、提升产品质量、提高服务管理水平、拓展客源市场提供决策依据。

二、资料与数据
(一)研究对象
广州长隆旅游度假区位于广东省广州市番禺区汉溪大道东与长隆地铁大道交汇处,创立于1989年。它是综合性主题旅游度假区,集旅游景区、酒店餐饮、娱乐休闲于一体,主要景点包括长隆欢乐世界、长隆国际大马戏、长隆野生动物世界、长隆水上乐园、长隆飞鸟乐园、广州长隆酒店、香江酒店、长隆高尔夫练习中心和香江酒家等,2007年被评为国家5A级景区。
(二)数据采集与预处理
本文通过八爪鱼获取携程旅行网中广州长隆旅游度假区热门景点的在线评论数据,并进行数据清洗。2015年10月18日至2023年2月1日共获得17 549条游客在线评论,经过数据预处理最终获得16 767条评论(见表1)。
1.预处理
本文为了保证后续数据的精确性,对获取的在线评论进行清理。具体操作方法如下:第一,删除多余重复的评论,如长隆;第二,删除无效评论,包含无意义的评论,如符号、表情等;第三,改正错误词句,包括错误语法结构和错别字,如“长龙”改为“长隆”;第四,规整文字语言,修改网络用语、英语和繁体字,如“景點”改成“景点”。
2.数据分词
对于广州长隆旅游度假区热门景点旅游评论的分割,使用Python的jieba库。通过“import jieba”导入jieba库,对预处理后的文件进行分割(见表2),并将分割后的文件导出,以供后续分析。
3.去停用词
实际评论中有许多无用的词,如“等”“有”“的”“地”等词,对于文本分析没有任何意义,这些词被称为停用词。本文将长隆旅游度假区热门景点评论中的一些出现频率高和信息量低的词删除掉(见表3)。
三、广州长隆旅游度假区游客满意度影响因素分析

(一)LDA主题模型
1.主题数的确定
如图1所示,本文通过设置不同的主题数,运用pyLDAvis工具进行可视化分析,并反复调换和对比,发现10个主题作为一个语料库是最可行的;同时,还设置与主题词对应的30个关键字。
2.评论文本主题分类
通过LDA主题分析,将广州长隆旅游度假区热门景点的在线评论内容归纳为10个主题,划分为景点概况、景点管理、景点环境、游玩过程、景点消费、景点门票、景点服务、节假日、重游意愿、体验感受。各主题下的特征词如表4所示。

(二)评论情感分析
1.情感词典的构建
游客通过发表富有感情的词语和句子来表达自己的感受。相同情绪倾向所使用的情绪词和程度副词可能有所不同,所反映的情绪强度也会有很大差别。本文基于玻森情感词典、否定词词典、程度副词词典建立情感词典。
(1)玻森情感词典。在玻森情感词典中,每一个情感词都有一个情感极性得分。得分小于0,表示负向情感倾向,得分越低,倾向越强;得分大于0,表示正向情感倾向,得分越高,倾向越强。

(2)否定词词典。一个情绪词前面有奇数个消极词时,情绪词的情绪得分乘以“-1”,有偶数个消极词时则乘以“1”。同时,否定词出现在一个句子中,它表达的意思也有所不同。
(3)程度副词词典。本文的程度副词划分为1.8、1.6、1.5、0.8、0.7、0.5共6个等级。根据情感的表达强度不同,副词所表达的情感程度也不同。
2.情感值计算
本文通过Python计算长隆旅游度假区热门景点游客情感值。首先,获取在线评论文本进行预处理,之后进行去激活和分词。其次,读取玻森情感词典文件,创建一个情感字典,并将其转换为字典对象。最后,根据得分判断情绪倾向。本文对于每条评论进行检查,将得分大于1分的情感倾向确定为积极,得分小于0分的情感倾向确定为消极,得分在0到1分之间的情感倾向确定为中性。具体的计算结果如表5所示。

如表6所示,将评论情感分析结果放在Excel表格中,经过整理和统计,共获得在线评论 16 767 条。其中积极评论14 423 条,占所有评论的86.02%;中性评论1 532 条,占评论总数的9.14%;消极评论812 条,占评论总数的4.84%。说明大部分游客对热门景点的旅游还是非常满意的,但是仍然有少数游客不满意。
为确定每个评论属于的主题,使用Excel进行简单统计。
如表7所示,景点概况相关评论数量2 966条,包括2 923条积极情感倾向评论,情感评分平均值为12.72,是所有主题中情感值最高的,说明游客最满意的就是长隆旅游度假区热门景点中的景点概况,需要继续保持优势。通过计算,10个主题的情感得分平均值是8.37分,景点概况、游玩过程、景点环境、重游意愿、体验感受的情感得分分别是 12.72、9.22、9.13、10.04、10.14 ,都比平均分数高,表明游客对这5个主题比较满意,是广州长隆旅游度假区热门景点中表现较好的主题。相反,景点管理、景点消费、景点门票、景点服务、节假日主题情感得分小于平均值,说明游客对这五个方面的满意度较低。
