基于数据挖掘的旅游目的地印象分析和评价研究

作者: 姚丹丹 申峻强 胡涛

基于数据挖掘的旅游目的地印象分析和评价研究0

摘要:旅游目的地美誉度是旅游企业和政府部门关注的热点。文章数据来自“泰迪杯”数据挖掘挑战赛的数据集。首先分析景区及酒店数据,得到Top热词及频率。然后根据LDA主题模型构成主题词典,根据主题词对每个景区酒店进行匹配得出概率值,结合熵权法计算综合得分。使用TF-IDF算法分析景区及酒店网评的有效性,利用K-means算法对景区及酒店聚类分析,得到高中低不同档次群,结合热词算法得到每个类别的特征。最后结论表明影响游客满意度的因素主要有5个方面,分别是服务、位置、设施、卫生、性价比,特别是卫生环境影响较大。政府部门和旅游相关企业可重点在这5个要素方面下功夫,为游客创造舒适的消费体验,达到吸引游客、提升竞争优势的目的。

关键词:TF-IDF算法;熵权法;K-Means;旅游目的地;美誉度

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2025)05-0054-04 开放科学(资源服务) 标识码(OSID) :

0 引言

旅游业已成为国民经济的重要支柱,提升旅游目的地形象至关重要。提升景点、酒店等旅游景点的知名度,已经成为当地文旅管理部门和相关企业的重要任务,关系到如何稳定客流、发挥同行优势,吸引更多游客进行消费。

本文主要研究旅游目的地的景区及酒店的印象分析和评价,通过对数据集中的景区及酒店网评文本分析,围绕游客印象因素建立模型,提炼特色并综合评价景区和酒店。论文按数据预处理、数据分析、建立模型,得出结论等步骤实现。首先利用Python的数据分析函数和相关模块,实现数据清洗等预处理,然后从景区酒店的评价、网评的有效性、特色分析等方面展开数据挖掘研究。分析影响目的地游客满意度的因素,向相关部门和公司提出合理化建议,能有效地提高游客满意度,最终提高目的地的声誉。

1 算法介绍

1.1 TF-IDF 算法

词频是指文本中词条的频率。通常来说,某个词在文档中出现的词频越高,则在文档中的权重越高,成为关键词的可能性越大[1]。逆向文件频率[2]:对于一个词,可以用文档总数来除以包含这个词的文档数量,将得到的商取得对数算出IDF。高权重的TF-IDF 值能剔除常见的词,保留重要的词。

1.2 LDA 主题模型

文档主题生成模型[3]由3层结构组成,包括词、主题和文档。通过无监督的学习方法发现文本中隐含的主题信息,目的是要以无指导学习的方法从文本中发现隐含的语义维度。它是一种无监督的文档主题生成模型,认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程,这些主题被集合中的所有文档所共享,每个文档有一个特定的主题比例。

1.3 K-means 聚类

K均值聚类也被称为一种快速聚类算法,它基于最小化误差函数将数据划分为预定类数数量k。该算法通俗易懂,易于处理大量数据。

K-means[4]的算法步骤为:

1) 从数据对象中任意选择k个对象作为初始聚类中心a = a1,a2,...,ak。

2) 根据每个聚类对象的均值中心对象,计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。

3) 重新计算每个有变化聚类的均值中心对象。

4) 重复上面2、3两步操作,直到每个聚类不再发生变化为止。

2 数据分析及挖掘模型构建

2.1 景区及酒店的印象分析

酒店和景区各50家,酒店评论共25 226条,景区评论59 107条。利用Python的pandas库,Jieba分词等实现数据预处理。去除重复评论、英文、数字及特殊的标点符号后,酒店评论有22 789条数据,占原数据的90.3%,景区评论有58 411 条数据,占原数据的98.8%,可以进行数据挖掘。本文结合中文停用词列表和百度停用词列表,从文本中剔除离、都、很、比较等停用词。景区、酒店的评论内容用Pandas 中的GroupBy分组函数进行聚合并读取进来,在循环中进行对每一家的评论进行分词、过滤停用词、写入列表final,用Counter 将final 转化成词典,用counts.items() 进行词频统计,然后根据词频用sorted()进行降序排序,读取前20热词与热度,写入以每家酒店、景区命名的.csv文件。如图1和图2所示。从图中可以看出,A30景区评论集中在动物和动物园等词,H13酒店侧重在服务和早餐等方面。

2.2 景区及酒店的综合评价

本模块通过评论文本进行分词,利用LDA 主题模型对每个主题的300个主题词进行输出,提取主题词。根据读取出的单词来进行挑选,将挑选出的词作为景区主题的词典。同理,酒店也可以这样获得主题词典。再借助陈天琪等[5]对景区评价和缪章伟等[6]对酒店评价主题归纳的结果,对景区及酒店评价的相关主题词进行了扩充和丰富,分别归纳景区和酒店的评价维度和具体分类下的主题词。景区的主题词典如表1所示。

对景区酒店各个指标进行匹配统计,再与总数相除得出概率值写入Excel表格。根据景区酒店每个指标的概率对各个酒店景区进行打分,得分结果在0~5 之间。通过用熵权法,对景区酒店的得分进行比值归一化处理,计算各个指标的熵值,计算权系数得出酒店景区的指标权重如表2所示。

因此,可以使用熵权法计算出的权值乘以对应的指标得分计算出综合得分。计算出的得分结果保留两位小数,部分结果如表3所示。

2.3 网评的有效性分析

经过之前的文本脏数据处理,得到了一个较为“干净”的文本数据。文本的有效性[7]是用户接收评论信息的效率。本文采用sklearn中的TF-IDF算法辅助提取关键词根据。需要将文档进行归并,再利用pan⁃das实现。然后,通过文本分词、过滤停用词,最后利用TF-IDF算法生成一个TF-IDF值得矩阵。 通过每个TF-IDF值来确定每个酒店或景区评论文本中的关键字。根据TF-IDF的值来进行排序,封装了一个sort()排序函数,返回前30的热词,并保存文档,如图3所示。根据汉明距离算两个文本的相似度,设定阈值确定是否需要去重。因此可去除文本中的模糊不清、相似的评论。

2.4 景区及酒店的特色分析

2.4.1 聚类分析模型构建

构建K-Means聚类分析模型[8-10],实现细粒度的酒店及景区划分排名,并采用高、中、低3个档次对它们进行分组,以此种方式进一步减少游客选择上的麻烦。

利用sklearn中的函数完成K-Means的计算。计算的结果如图4和图5所示。景区的聚类雷达图中景区群1在服务得分较高,短板在卫生。酒店的聚类雷达图中酒店群2和群3的得分相对平均,群1的其他得分较低,但性价比优势明显。

2.4.2 结果分析

根据K-Means算法,可以得到3个特征分布清晰的聚类,如表4所示。

景区群1属于档次比较高,通过计算该组是5个,景区群3属于中等档次,有27家,低档的景区群2有18家。可以看出景区中高档的占据大多数。高档酒店21家,中档酒店23家,低档的只有6家,反映出景区附近酒店的评价整体较高。从每个景区酒店分出的每个聚类中都选择1个对象,并结合关键词表来代表整个类别的特征项,如表5和表6所示。

分析高层次景区热词表可知,A39景区以动物园为特色,值得游玩;环境好,空气清新;有动物表演,小朋友很开心,适合小朋友游玩。A36景区以陶艺为特色,带有历史风貌;可以了解制作、烧制陶瓷的工艺,有明清的陶瓷以及陶瓷博物馆。A25景区以温泉为特色,环境舒适;带有日式服务,可以吃自助餐。水质干净,水果不错。

分析高层次酒店热词表可知,H04 酒店以亲子房、乐园游玩为特色,服务好;环境好,有水上亲子间,父母可以跟孩子游玩乐园、游泳;设施好,值得入住。H35酒店以服务好、环境好为特色,房间干净,服务好;出现事故,能及时沟通,有应急处理方式,有维权。H39酒店以地理位置好、出行方便为特色,服务好、这家酒店性价比对游客来说适合优先考虑;有停车场,有大巴车停靠,靠近机场,四通八达;提供小吃,卫生干净,靠近步行街可以购物。

3 总结

随着网络技术的快速发展和旅游业信息的高度密集,在线评论平台上出现了大量以评论和游记等为形式的非结构化数据,传统的调研方式已无法满足如今动辄上万的数据挖掘需求。本文利用LDA模型构建主题词典,TF-IDF算法分析景区及酒店网评的有效性,最后利用K-means算法对景区及酒店进行特色分析。从结论中可以看出景区的特色、服务更能吸引游客,酒店的地理位置、服务卫生等配套设施直接影响顾客满意度。由于本文的数据量有限,挖掘分析和评价的准确度还有待改进。本文的研究结论可为相关部门和公司提出合理化建议,如旅游目的地的酒店需要重视卫生环境的管理,通过科学检测装备和手段落实管理指标。通过对游客群体划分,制订符合不同群体需求的消费模式,提升酒店和景区的盈利同时,还能有效地提高游客满意度,最终提高目的地的美誉度。

参考文献:

[1] 常耀成,张宇翔,王红,等.特征驱动的关键词提取算法综述[J].软件学报,2018,29(7):2046-2070.

[2] YI LIU, BAO JIGANG, ZHU YILING. Exploring emotion meth⁃ods of tourism destination evaluation: A big-data approach[J].Geographical Research, 2017,36(6):1091-1105.

[3] AREFIEVA V,EGGER R,YU J.A machine learning approachto cluster destination image on Instagram[J].Tourism Manage⁃ment,2021,85:104318.

[4] 王千,王成,冯振元,等.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24.

[5] 陈天琪,张建春.基于文本挖掘的景区旅游形象感知研究:以杭州西溪国家湿地公园为例[J].资源开发与市场,2021,37(6):741-746.

[6] 缪章伟.酒店顾客满意度评价体系研究:基于Tripadvisor.com的杭州高星级酒店评论数据[D].杭州:浙江工商大学,2019.

[7] 尹丽,颜欣,田良.基于网络文本分析的旅游目的地形象感知研究:以三亚市为例[J].特区经济,2019(1):100-102.

[8] 段锐,邹统钎,梁未哲.大数据环境下的旅游目的地形象研究综述:数据、方法和技术[J].旅游导刊,2023,7(5):66-93.

[9] 顾渐萍,王远斌,刘贵文,等.基于文本大数据的游客旅游意象感知挖掘研究:以重庆市为例[J].现代城市研究,2019,34(12):117-125.

[10] IKOTUN A M,EZUGWU A E,ABUALIGAH L,et al.K-meansclustering algorithms:a comprehensive review,variants analy⁃sis,and advances in the era of big data[J].Information Sciences,2023(622):178-210.

【通联编辑:梁书】

基金项目:基于数据挖掘的旅游目的地印象分析(2024YB012)

经典小说推荐

杂志订阅