基于网络数据挖掘的长江经济带户外体育旅游流时空特征研究

作者: 肖年乐 周道平

基于网络数据挖掘的长江经济带户外体育旅游流时空特征研究0

摘      要:随着旅游数字化变革和在线旅游网站的日益普及,基于Python技术挖掘的网络游记为户外体育旅游研究提供可靠的数据源和开辟新的研究方法,对于进一步理解户外体育旅游业的发展具有重要意义。综合运用GIS空间分析法和统计分析法,研究长江经济带户外体育旅游流时空特征。研究认为:1)时间上,户外体育旅游流年内变化呈“山岭”型峰林结构分布和“三峰四谷”的峰林结构变化规律;户外体育旅游流季节性变化特征明显,呈现出不稳定的发展态势;户外体育旅游流在清明小长假、“五一”假期、“十一”假期客流量大,形成3个明显波峰;户外体育旅游流从周五开始拉升,周六达到峰值,客流量周内幅度变化呈现淡季-旺季客流量>旺季-淡季客流量>淡季客流量>旺季客流量>整体客流量的变化特征。2)空间上,户外体育旅游流客源地主要分布在长江下游地区的长三角城市群,呈明显集聚态势;户外体育旅游流目的地主要分布在户外体育旅游资源丰富的城市,呈“大分散、小集聚”的空间分布特征;户外体育旅游流的辐射中心为客流流动量大、流动频次高的成都市和上海市等城市节点,具体表现出地理邻近效应显著、经济发达城市与户外体育旅游资源丰富的城市之间流动频繁等特征。

关  键  词户外体育旅游流;网络游记;旅游大数据;长江经济带;时空特征

中图分类号:G80-05    文献标志码:A    文章编号:1006-7116(2024)06-0056-08

Research on spatial and temporal characteristics of outdoor sports tourism flow in the Yangtze River Economic Belt based on the network data mining

XIAO Nianle1,ZHOU Daoping2

(1.School of Physical Education,Sichuan Normal University,Chengdu 610101,China;

2.School of Physical Education,Jishou University,Jishou 416000,China)

Abstract: With the digital transformation of tourism and the increasing popularity of online travel websites, online travel notes mining based on Python technology provide reliable data sources and open up new research methods for outdoor sports tourism research, which is of great significance for further understanding the development of outdoor sports tourism. This study comprehensively utilizes GIS spatial analysis and statistical analysis methods to investigate the temporal and spatial characteristics of outdoor sports tourism flows in the Yangtze River Economic Belt. The findings are as follows: 1) in terms of time, the annual variation of outdoor sports tourism flows exhibits a "mountain range"-like peak-forest structure distribution and a "three peaks and four troughs" peak-forest structural variation pattern. The seasonal variation characteristics of outdoor sports tourism flows are pronounced, indicating an unstable development trend. Significant peaks in outdoor sports tourism flows occur during the Qingming Festival holiday, the May Day holiday, and the National Day holiday, forming three distinct peaks. The outdoor sports tourism flows begin to increase from Friday, reaching a peak on Saturday, with weekly fluctuations showing a pattern of off-season to peak-season traffic > peak-season to off-season traffic > off-season traffic > peak-season traffic > overall traffic. 2) In terms of space, the origins of outdoor sports tourism flows are mainly distributed in the Yangtze River Delta urban agglomeration in the lower reaches of the Yangtze River, showing a clear trend of agglomeration. The destinations of outdoor sports tourism flows are primarily located in cities with abundant outdoor sports tourism resources, exhibiting a spatial distribution characteristic of "large dispersion and small agglomeration." The radiation centers of outdoor sports tourism flows are urban nodes such as Chengdu and Shanghai, which have high volumes and frequencies of tourist flows. And specifically, these centers demonstrate notable geographical proximity effects and frequent flows between economically developed cities and cities rich in outdoor sports tourism resources.

Keywords: outdoor sports tourism flow;online travel notes;big data of tourism;Yangtze River Economic Belt;spatial and temporal characteristics

户外体育旅游是户外运动与旅游深度融合,以人们在非惯常的自然环境中,参与徒步、攀岩、露营、骑行、滑雪、水上冲浪等户外运动项目为形式,串联景区景点、度假区的一类旅游活动[1],在提升国民身体素质、助推乡村振兴、促进地方产业结构转型升级等方面作用日益凸显,现已成为我国旅游业重要发展方向之一。2016年文化和旅游部、国家体育总局印发《关于大力发展体育旅游的指导意见》指出“重点发展冰雪运动旅游、山地户外旅游、水上运动旅游、汽车摩托车旅游、航空运动旅游、健身气功养生旅游等体育旅游新产品、新业态”[2]。2021年文化和旅游部、国家发展改革委、国家体育总局印发的《冰雪旅游发展行动计划(2021—2023年)》和2022年国家体育总局等八部门印发的《户外运动产业发展规划(2022—2025年)》等文件,也明确提出体育旅游和户外运动发展的相关举措与要求。随着互联网技术不断进步和在线旅游网站分享平台的体系化运营,基于网络挖掘的旅游大数据已成为驱动户外体育旅游产业现代化发展的重要引擎。旅游大数据的出现摆脱了问卷调查等传统统计数据的局限性,为定量研究户外体育旅游提供有效数据源。携程旅行网、马蜂窝旅游网、去哪儿旅游网等专业性旅游网站的兴起为游客提供了大量可供参考的旅游信息,在线旅游评价、旅游产品预订、旅游心得分享等服务深刻地影响着人们旅游选择和出行计划。同时,基于Python技术在专业性旅游网站上挖掘的网络游记提供海量、精准的带有地理位置信息的数据[3],为个性化定制式户外体育旅游发展、传统户外体育旅游转型升级提供丰富的基础数据,为全面、精细化地定量研究国内户外体育旅游流带来了可能,也为研究户外体育旅游开辟了新方法和新视角。

旺盛的户外体育旅游需求、积极的政府政策支持、良好的交通可达性和发达的网络旅游信息等为户外体育旅游发展提供广阔的发展前景。但现实中也存在户外体育旅游资源过度集中、户外体育旅游产品同质化严重、户外体育旅游线路规划不合理以及户外体育旅游发展较快而基础配套设施未及时跟进等问题。目前,相关学者在户外体育旅游资源开发[4]、户外体育旅游风险识别与管理[5]、体旅融合[6]以及户外体育旅游助力乡村振兴[7]等方面取得较为丰硕的研究成果,但对户外体育旅游者的出游流动轨迹关注度不够,而掌握户外体育旅游者的时空流动特征能为户外体育旅游客流预测与市场细分、户外体育旅游精准营销、合理规划户外体育旅游线路等方面提供科学依据。因此,如何全面掌握户外体育旅游者流动的时空规律,进而优化户外体育旅游资源开发,引导户外体育旅游流合理高效流动,既是当前户外体育旅游发展的现实需要,也是未来户外体育旅游研究的新方向。鉴于此,本研究以长江经济带为研究区域,利用Python技术获取在线旅游大数据,对长江经济带户外体育旅游流的年内、季节、月内、周内的时间分布特征和长江经济带户外体育旅游流客源地空间特征、目的地空间特征、空间流动特征进行探析,以期为长江经济带户外体育旅游高质量发展提供理论借鉴与现实参考。

1  数据来源和研究方法

1.1  数据来源及处理

1)数据来源。

网络游记是旅游大数据的重要表征方式之一,包含照片、视频和带有地理信息位置的文本等数据,因其具有数据量大、覆盖面广、时间跨度大、易于获取等特点,能更精确、真实地反映游客流动的线路和时空特征,而成为学者研究旅游流的重要数据来源[8]。“站长之家”网站(https://www.chinaz.com/)主要依据Alexa排名、百度权重、PR值等指标对各行业主流网站进行综合排名,具有较强的权威性。为保障网络游记的可靠性和代表性,本研究参考相关文献[9],依据“站长之家”网站中的旅游网站排行榜进行筛选,同时综合考虑各旅游网站界面设置、主营业务、网络游记数据内容构成等因素,最终选择携程旅行网、马蜂窝旅游网、去哪儿旅游网作为本研究数据采集的网站,并从以上3个专业性旅游网站内采集2012—2022年游客发布的出发地、目的地、出发时间、旅行路线等数据。

2)数据处理。

网络数据具有复杂性、商业操纵性和难辨真伪性等特征[10]。因此,需要对原始的网络游记数据进行科学筛选,以符合研究要求。在爬取数据时设置户外体育旅游关键词一栏,爬取的网络游记以EXCEL表格形式呈现,通过EXCEL表格中的筛选功能将不含户外体育旅游关键词的数据剔除,最终得到含有户外体育旅游关键词的数据163 855条。其中,户外体育旅游关键词的确定分为两个步骤,第一步:参考国家部门、地方政府发布的体育旅游、户外运动和体育产业等相关文件(如《关于加快发展体育产业促进体育消费的若干意见》《关于大力发展体育旅游的指导意见》《浙江省文化和旅游厅关于认定2022年度浙江省运动休闲旅游示范基地、精品线路和优秀项目的通知》),以及相关文献[11-13]初步确定107个户外体育旅游关键词。第二步:对体育旅游和户外运动相关领域的专家进行3轮意见征询,最终筛选徒步、登山、攀岩等94个户外体育旅游关键词。

因含有徒步、登山等户外体育旅游关键词的游记并不一定是户外体育旅游游记。因此,课题组成员采用人工逐条阅读方法,对163 855条网络游记进行人工判别与筛选,最终得到符合户外体育旅游要求的有效样本数据16 586条。筛选符合户外体育旅游游记的标准有:(1)户外体育旅游的上位概念是旅游,因此户外体育旅游游记需符合旅游基本要素:不以营利为目的;旅游时间不低于24小时,不超过1年;以地级市及以上城市为尺度,游客在同一市域范围内流动的户外体育旅游不纳入。(2)从区域看,出发地与目的地均在长江经济带11个省市范围内的游记才纳入。例如,游客出游的线路是广州市→上海市→成都市,因广州市未在长江经济带范围内则不纳入,出游线路只计算上海市→成都市。(3)以旅游动机或目的来看,需以直接参与或间接观赏户外运动为旅游目的,强调旅游过程中的健身性、娱乐休闲性、冒险性。(4)删除旅游公司及地方旅游局的商业性旅游推文,确保游记是游客真实旅游经历的记录。(5)具有完整的旅游行程及线路。(6)删除仅有文字无照片的网络游记。