基于文本挖掘的游戏在线评论数据分析

作者: 程泽煜 喻金平

 基于文本挖掘的游戏在线评论数据分析0

关键词:游戏;在线评论;文本挖掘;词频分析;关键词共现分析

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2024)28-0052-04

0 引言

中国游戏市场是全球最大的游戏市场之一,拥有庞大的用户基础和高度发展的游戏产业。根据《2023 年中国游戏产业报告》,2023年中国游戏市场实际销售收入达到3 029.64亿元,同比增长13.95%。用户规模达到6.68亿人,同比增长0.61%,占全球游戏用户总数的近四分之一。这导致中国游戏市场竞争激烈,主要的游戏开发商和发行商包括腾讯、网易、完美世界等。这些公司通过自主研发和收购合作等方式来推出各类优质游戏,争夺市场份额。在激烈的市场竞争中,游戏厂商需要不断创新和优化游戏品质,以吸引和留住玩家。在此情况下,游戏厂商需要结合国外游戏精华,为中国游戏市场创造更具针对性的高品质游戏。因此,通过对年度最佳游戏的在线评论进行自然语言处理,挖掘游戏玩家的潜在需求,并借助数据挖掘和分析结论来寻找提升游戏玩家满意度的关键因素。这不仅可以扩展海外市场,提升中国游戏产业的国际影响力,也为国内游戏厂商带来了更多的商业机会和收入来源,推动中国游戏市场的持续发展。

目前,基于文本挖掘的研究已在许多场景下取得了有效的成果。在电商领域,刘佳锴等人[1]以京东商城为例,针对蚕丝被在线评论进行文本挖掘研究分析,有效地挖掘出了消费者的关注因素和差评原因。康雷等[2]通过对俄罗斯羽绒服进行文本挖掘研究,能够快速识别消费者的偏好和反馈,为产品设计的改进和生产提供改良建议。董爽等人[3]针对B2C购物网站在线评论内容进行特征分析,反映出不同网站消费者关注点或感受的相似性和差异。在安全领域,田水承等人[4]针对我国煤矿顶板事故现状进行网络分析,明确顶板事故致因因素,可以更有效遏制煤矿顶板事故的发生。在教育领域,邱均平等人[5]对高校环境在线评论进行文本挖掘研究,其结果有利于相关学校增强对自身网络评论的了解。肖婉等人[6]对什么样的在线课程受学习者欢迎这一问题进行文本挖掘研究,找到了在线学习者的两大内在动机。在旅游领域,查敏[7]通过对旅游景区在线评论进行文本挖掘研究,发现欢乐谷景区的游玩项目和风景氛围给游客带来更多的正向体验。綦方中等人[8]采用BERT和LDA模型对酒店评论进行文本挖掘研究,挖掘出酒店客户最为关注的问题。而对于游戏领域,缺少相关研究对游戏在线评论进行文本挖掘分析。因此,本研究选取Steam平台上5款年度最佳游戏的在线评论数据,进行文本挖掘分析,找出玩家对于游戏的关注点,并提出改进建议。

1 游戏在线评论的数据挖掘

1.1 数据来源与获取

本研究聚焦于解析年度最佳游戏的在线评论,旨在探索并把握国内玩家的实际需求与满意度水平。为达成此目标,关键数据来源于各大游戏平台上玩家提供的真实评价反馈。在全球数字游戏销售领域,Steam、Epic、GOG、Wegame等平台以其高效与便捷著称,它们不仅降低了游戏发行的成本,也拓宽了玩家的选择范围。其中Steam在中国市场占有率最高,拥有超过3 000万的国内用户基础。根据Steam 2020年的数据显示,使用简体中文的玩家比例首次超越了英文用户,占据了37.87%的显著份额,这标志着中国玩家群体已成为Steam平台上最庞大的用户群。因此,深入分析Steam平台上中国玩家的评价数据,对于精准把握国内玩家的游戏偏好与需求,具有重要的指导意义。基于此,本研究选择Steam平台上被“游戏界奥斯卡”的The Game Awards(简称TGA) 评选出的5个年度最佳游戏作为研究对象。

当前,获取网页数据较为主流的是网络爬虫技术,能够有效地完成年度最佳游戏在线评论数据的采集。在网络爬虫工具方面,本研究主要利用Python的Scrapy框架来获取数据。Scrapy是一个功能强大的爬虫框架,其设计初衷是为了方便、快速地开发网络爬虫,以抓取Web页面上的数据。Scrapy框架具有高效稳定、易于扩展、灵活可定制和支持多种数据格式等特点,使得它成为Python爬虫开发领域的佼佼者。

最终,本研究爬取了Steam平台上5个年度最佳游戏的在线评论,表1描述了爬取评论样本的相关信息。

爬取了5款年度最佳游戏的95 105条评论数据,主要是关于评论内容本身的数据,由“评论时间”“评论内容”和“觉得评测有价值的人数”3个数据组成。具体的内容样本如表2所示。

1.2 数据预处理

处理庞大的文本数据集时,需要预先剔除其中的冗余与无效信息,如重复评论及空白内容等,这些元素对后续的文本挖掘与深入分析并无实质性贡献。因此,在正式开展分析工作之前,须对原始文本数据进行清洗:去除重复评论、无效评论、表情符号,并删除评论内容为空的评论。完成数据预处理环节后,共剩余89 135条有效数据,如表3所示。

1.3 特征提取

游戏产品的形象特征认知是玩家体验游戏内容后的直观感受。玩家通过体验游戏的画面、音乐、剧情、系统、操作等元素,逐渐形成对该游戏产品的特征认知,并通过在线评论在网络社区平台上发表出来,这直观地反映出玩家对游戏的关注焦点和满意程度。为了深入了解玩家关注的游戏内容及需求反馈,本研究选取了Steam 平台上5款年度最佳游戏的在线评论,通过关键词提取和高频词分析法,挖掘玩家的意见反馈和体验需求。在进行在线评论的特征挖掘时,采用了北京大学语言计算与机器学习研究组推出的一套全新的中文分词工具包——pkuseg[9]。pkuseg在中文分词领域具有显著的优势,包括高准确率、多领域支持、自定义词典、多种分词模式、高效性与轻量级、易于集成与使用以及持续更新与社区支持等。这些优势使得pkuseg成为许多开发者在进行中文文本处理时的首选工具之一。因此,本研究通过使用pkuseg 对游戏评论的文本进行分词,并进行词性标注,然后依据文本分词的结果,去除无意义的高频词汇,最终从游戏评论总数据中提取出30个关于游戏的高频词汇,如表4所示。

通过对表4特征词的词频和词性分析可以发现,在高频词类型分布中,名词占据了很大比例,如“剧情”“世界”“支线”等,这些名词主要描述了游戏或体验的核心元素和组成部分。动词也较多出现,如“体验”“战斗”“喜欢”等,这些动词反映了玩家对游戏或体验的互动和感受。形容词和状态词,如“好玩”“最佳”“丰富”“优秀”等,用于形容游戏或体验的品质或特征。在词频分布上,高频词如“好玩”和“剧情”的词频远超过其他词汇,显示出它们在玩家反馈中的突出重要性。

1.4 基于词频统计技术的游戏在线评论数据词云图可视化

词云图(Word Cloud) ,也被称为文本云或标签云,是一种直观展示文本数据中词汇频率的图形化表示方法。它通过对文本中单词的出现频率进行统计,然后将这些单词以不同的大小、颜色、字体或排列方式显示在一个图片中,以此来突出显示文本中最重要或最频繁出现的词汇。本研究将经过处理后的有效分词进行词频统计,然后在Python中导入词云图模块及pyplot模块,绘制出的词云图如图1所示。

从图1可以发现,玩家对于该5款游戏的关注点主要是剧情、世界、故事、结局等词汇,反映了玩家对游戏故事情节和剧情发展的高度关注。同时,好玩、喜欢、最佳、神作、优秀等高频词汇的出现,表明了玩家对游戏的正面情感和喜好。

1.5 基于语义关系的游戏在线评论数据关键词共现分析

本研究借助高频词提取与词云图分析,获取了玩家最为关注的多项要素。但高频词分析虽能揭示玩家的关注焦点,却难以直接展现这些要素之间的内在联系与相互影响。因此,需要进一步对关键词进行共现分析。共现分析的核心理念在于,它首先基于词频统计的数据,进一步运用聚类分析的方法,以深入挖掘并揭示文本中潜藏的主题结构。在关键词共现分析的具体实践中,整个流程主要包含三个关键步骤:提取游戏在线评论数据关键词、构建关键词共现矩阵、构建关键词语义网络图。

基于预处理后的在线评论数据,利用Python 中textrank4zh 库的TextRank4Keyword 函数提取前20 个有效关键字,分别是:世界、动作、内容、支线、问题、优化、剧情、战斗、体验、设计、角色、任务、主线、朋友、系统、故事、画面、人物、地图、结局。TextRank[10]算法提取关键词是一种基于图的排序算法,主要用于从文本数据中自动提取出关键信息。该算法由Mihalcea和Tarau于2004年提出,是PageRank[11]算法在文本处理领域的改进版本。

根据上述提取出的20个关键词,构建关键字共现矩阵。共现矩阵是一个二维矩阵,其行和列代表一个关键词,矩阵中的元素则表示对应关键字之间的共现次数,如图2所示。

最后,使用GooSeeker软件构建关键词语义网络图,如图3所示。

从图2和图3可以发现,共现次数较高的关键词对包括(剧情,体验)、(战斗,体验)、(故事,体验)、(朋友,体验)、(剧情,故事)、(剧情,问题)、(故事,结局)、(世界,设计)等。这表现出玩家在游戏过程中注重主观感受,包括游戏性、剧情、画面等多个方面的综合体验,以及玩家对游戏内容的高度关注。

2 结论

本研究使用文本挖掘技术对5款年度最佳游戏的89 135条在线评论数据进行了词频分析和共现网络分析,结论如下:

本研究对5款年度最佳游戏的在线评论进行了高频词分析,并通过关键词提取构建共现矩阵进行网络分析。研究确定了“好玩”和“剧情”是整个游戏评论中最具影响力的关键词,是最受玩家关注的因素。该分析结果对于游戏开发者来说具有重要的参考价值,可以帮助他们更好地了解玩家的需求和期望,从而改进游戏设计和提升游戏体验。

本研究还存在不足之处。文章中的游戏在线评论可能存在不易识别的虚假评论,这对研究结果的可靠性产生一定影响,未来研究须更注重数据的质量和真实性。此外,后续可以引入文本情感分析方法,了解游戏在线评论的情感倾向,及时把握游戏行业的情感趋势。

上一篇 点击页面呼出菜单 下一篇