电商平台用户评论数据的情感分析:以家庭用陪伴机器人为例

作者: 陈茁 高博研 张晓扬 邸杨伟 王顺晔

电商平台用户评论数据的情感分析:以家庭用陪伴机器人为例0

摘要:随着科技的飞速发展,机器人逐渐走入普通家庭,辅助完成幼儿早教、老人陪伴等功能,但因品种众多,功能繁杂,质量参差不齐,普通用户无法理性判断并做出选择。另外,产品销售后,商家和厂家距离用户较远无法获得产品反馈信息,阻碍了产品的持续改进。针对以上问题,本文通过Python 网络爬虫技术,采集京东商城家庭用机器人的用户评论数据,通过中文分词、情感分析等进行数据分析并对结果可视化展示,以方便用户快速理解商品优劣,做出理智选择。同时也为产品性能迭代和服务提升提供了宝贵的参考依据。

关键词:家庭用机器人;用户评价;爬虫技术;情感分析

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2025)06-0079-04 开放科学(资源服务)标识码(OSID):

0 引言

我国作为新晋的老龄化人口大国,陪伴机器人备受市场青睐,市场前景广阔[1],同时越来越多的幼儿早教机器人进入普通家庭,担任起教育和陪伴的角色。厂家和商家都需及时了解用户对家庭用机器人产品的反馈和服务满意度情况,对促进产品功能迭代、售后服务和市场营销具有重要意义。同时用户购买前也需了解各种商品性能、特点,以选择最适合的机器人。此时用户评论便成为第一手数据,网络爬虫、中文信息处理、文本情感分析、数据可视化等技术为数据增值提供有效帮助。京东商城作为优秀的电子商务平台之一,汇聚着海量的商品和海量的用户,以及用户的浏览、点击、加入购物车、购买的行为数据和商品评论数据。这些数据不仅反映了市场的需求、商品的优劣、用户的喜好,还能为产品升级、商业决策、用户选择提供支持。

本文以京东商城中某款家用机器人产品的用户评论文本数据为研究对象,通过Python语言编程分别实现网络爬虫采集评论信息、数据预处理、中文分词、文本情感分析和数据可视化,探索商品评论数据对功能升级迭代和服务质量提升、帮助用户决策中的应用价值。

1 商品评论数据采集

1.1网络爬虫原理

网络爬虫技术是指按照一定的规则,自动抓取互联网信息的程序或是脚本[2],用于互联网信息收集和后续分析处理。它模拟人类用户在浏览器中的行为,访问网页并提取有用数据。网络爬虫的执行过程如图1所示,首先爬虫模拟浏览器向目标网页服务器发送HTTP请求,服务器收到请求后并做出HTTP响应;然后网络爬虫将收到的响应数据进行解析,提取有效信息以及URL链接;最后将解析后的数据存储到文件中。尽管网络爬虫功能强大,但使用时需遵守法律法规和道德规范,确保数据安全和用户隐私保护,需要尊重网站的使用条款,遵守网站设定的爬取规则,避免对网站造成巨大的访问压力。

1.2 数据采集实现

网络爬虫库是网络爬虫数据采集框架的核心模块,主要用于获取和解析网页数据[3]。具体实现过程如下:

1)导入模块,requests 库用于发送HTTP 请求,pandas库用于数据处理,JSON库用于解析JSON数据,Threading库用于实现多线程爬取,random库用于随机化请求头和控制请求间隔。

2)定义run函数,负责单个线程的爬取工作。

3)构造URL用于发送请求并解析数据,每次请求后,进入短暂休眠时间。

4)定义save_info 函数将抓取到的数据转换成DataFrame结构,并保存到Excel文件中。

5)定义main函数,创建并启动四个线程,每个线程分别负责处理不同数据,并发执行,整体加快数据爬取的速度。

6)在主程序入口输入商品ID,并初始化全局变量Lis,调用main函数开始爬取。

为避免爬虫程序过于频繁地访问页面而被拒绝服务,使用Random库生成随机User-Agent字符串,用于模拟不同浏览器发起的请求,调用Threading模块中的threading.Thread类创建线程对象,采用target参数指定线程执行的函数,args参数传递给目标函数。线程启动时调用线程对象start( )方法,使用join( )方法实现线程同步。

在京东商城主页以家庭用机器人中的“幼儿早教及陪伴机器人”关键词进行搜索,选择购买量较大、评论数据较丰富的商品,点击筛选标签确定某款幼儿早教或陪伴机器人商品后,商品界面中地址栏里对应商品的ID,如图2所示。运行爬虫程序,输入商品ID,商品页面的URL 地址为https://item.jd.com/100002./+#comment,编程实现指定爬取京东商城机器人商品的所有用户评论信息。

3 数据分析及可视化

数据可视化部分分别调用Matplotlib库绘制饼状图,Wordcloud库构建词云图。词云是一种用来展示词汇出现频率的图形[8]。

为统计用户评论的积极、消极及中性词语,大致理解用户的总体评价情况,做了如下设置,当某个词汇的情感值等于0.5时,将其归类为积极词汇,这些积极词汇如“满足”“喜悦”等。当情感值等于0.5时,该单词则被划分为中性词汇,中性词汇没有明显的感情色彩倾向,更多地则是以客观的方式表达信息。当情感值小于0.5时,该单词则被判定为消极词汇,如“恐惧”“笨重”和“厌烦”等,在人们的日常交流中通常扮演着次要角色,用于表达负面情绪。

定义三个列表pei_5_10、pei_5 和pei_0_5,分别存储积极、中性和消极的词语。根据情感得分将词语分类到这三个列表中。Matplotlib库中设置图形属性确保中文显示正确,默认的字体为Microsoft YaHei。使用plt.pie() 函数绘制饼状图,通过x=[len(pei_5_10),len(pei_5), len(pei_0_5)]指定每个类别的数值,使用ex⁃plode=[0.1, 0, 0]设置第一个类别(积极)突出显示,百分比的显示格式为保留两位小数,最后使用plt.save⁃fig() 保存饼状图。蓝颜色代表积极词汇,占比为85.55%,说明市场上大部分陪伴机器人商品能够得到用户青睐,在模型设计和功能上,符合用户审美以及预期效果;橙黄色代表中性词汇,占比为6.75%,说明小部分商品也能够满足用户的使用;绿色代表消极词汇,占比为7.70%,说明部分商品给予用户的服务不满意度较高,在市场上,该类商品的提升空间也较大,需改善的方面也较多。如图4所示。

另外,除了统计用户的大致评论情感,还需要了解用户对产品的哪些方面最满意,哪些方面问题最大,所以对积极和消极的极性进行极化,并根据出现的词频,构建词云图,直观明了表现优劣特点。极性做如下假设:如果某个词汇的情感得分大于0.9,则认为是明显的正面情感,划分为积极词汇;如果某个词汇的情感得分小于0.1,则认为是明显的负面情感,划分为消极词汇。

积极词汇词云图如图5所示,“陪伴”“信赖”“贴心”“功能齐全”“物超所值”“成长”“古诗词”等词汇充分说明,幼儿早教及陪伴机器人紧密贴合用户的日常需求。“陪伴”“贴心”“成长”等是设计灵魂,在快节奏社会中显得珍贵,以其独特存在为用户带来温暖。“信赖”体现了对服务的高度认可,源于产品性能与贴心服务。考虑到产品主要的面向对象是老年人和儿童,人机交互的重要性不言而喻,所以幼儿早教及陪伴机器人的操作界面既简洁又直观,让用户能够快速掌握操作方法。增强用户的满意度和信赖感。“小巧”考虑便携性,方便用户携带与灵活使用。“物超所值”“一流”赞誉人工智能技术赋能产品,提升了性能与智能高效的体验。“语文”“古诗文”体现了陪伴机器人的主要设计功能,也说明了用户的需求取向。

同时,消极词汇词云图如图6所示,揭示了家庭用机器人商品存在的一些问题和有待改进的方面。其中,“监控”是最大的问题,掩盖了陪伴的本质,存在数据安全和隐私保护潜在风险,用户无法接受。“刺耳”“再大点”“遥控器”“机械”等词汇,直观地反映了用户体验上的感受,与用户交流时显得生硬和机械,依赖手动操作,音质不够和谐,声音对老年人来说较小,与“陪伴”这一核心任务相悖。“英文字母”说明不能很好地满足老年人的需求,“不经用”“弄脏”也是在外观和材质上提出了更高的要求。客服服务存在不足,影响购物体验和品牌信任度。部分幼儿早教及陪伴机器人在,声音控制和操作界面设计也需要改进,其声音应当轻柔,避免产生噪声干扰用户的生活;操作界面文字应以中文为主,确保用户能够轻松理解并使用。

如图5所示。

综上所述,幼儿早教及陪伴机器人以其卓越的性能、贴心的服务以及人性化的设计,赢得了用户的广泛赞誉和喜爱。虽然家庭用机器人幼儿早教、老人陪伴领域具有广泛的应用前景,但在隐私保护、用户体验、人机交互、客户服务等方面仍有很大的提升空间。厂商可通过词云图及时掌握产品问题,不断优化产品设计,提高用户服务。

4 总结

本文首先分析了幼儿早教及老人陪伴等家庭用机器人的市场需求,采用网络爬虫技术采集京东商城中商品的用户评论,经过中文分词和情感分析技术对评论数据进行分析和,最终通过饼图和词云图对数据进行可视化,为用户提供购买决策,直观为厂家和商家反馈用户体验信息,尤其是揭示了用户对该类产品的意见建议。研究结果受限于数据来源的单一性,可能不足以代表更广泛的情况。我国《新一代人工智能发展规划》强调,要大力发展智能教育,构建包含智能学习、交互式学习的新型教育体系,并指明将人机协同增强作为人工智能发展的重点之一[9]。人机交互越发全面深入,人机关系也从人机分离向人机融合发展。正如凯文·凯利在《失控》一书中所说:“机器,正在生物化;而生物,正在工程化。”完善幼儿早教及陪伴机器人的人性化交互设计和售后服务可以最大程度上满足用户需求,根据提供的建议来进一步完善幼儿早教及陪伴机器人,使其更加智能化,有利于提升幼儿早教及陪伴机器人的实用性,从而提高市场竞争力。

经典小说推荐

杂志订阅