基于ECharts的鲜苹果数据分析与可视化研究
作者: 何婷婷 张璐 吕珍
关键词:数据分析;数据可视化;鲜苹果;ECharts;Python
中图分类号:TP391.1 文献标识码:A
文章编号:1009—3044(2024)21-0006-04
0引言
在大数据时代,互联网广泛应用于生活中,人们的消费观念和消费结构发生了改变,随之而来的是海量数据。面对庞大的海量数据,利用传统的数据分析方法无法挖掘出数据背后隐藏的信息,只有通过可视化技术将海量数据呈现在图表中进行分析才能获得事物的特点、发展趋势以及与其他事物的关联性。目前大量的研究者都采用可视化技术对数据进行处理以获得大数据背后隐藏的信息。例如:王亚歌[1]等人从骑行时间、骑行空间、骑行距离、骑行速度等维度对用户骑行数据进行分析,为管理者和使用者提供了参考。吴聪[2]等人运用CiteSpace数据处理软件工具对服装设计领域文献进行整理、归纳,通过网络图清晰地显示出服装设计领域文献中高频关键词的分布。何培育[3]等人对1985—2023年知网收录的数据产权相关期刊进行研究,利用关键词时序图直观展现了该期间数据产权研究内容的演变过程。邓慈云[4]等人采用Pandas 对第七次人口普查数据预处理,并通过Py⁃echarts对性别、年龄、地区、出生率和死亡率进行分析可视化,清晰直观地了解我国人口实情。王姣姣[5]等人将互联网行业招聘信息作为研究对象,利用PySpark技术进行数据清洗,FineBI工具进行可视化,分析出了各地区的岗位信息,为毕业生寻找工作提供了参考。鲜苹果作为国人消费最多的食品之一,其种植、产量、销量、进出口等因素影响着鲜苹果产业的发展以及国家的农业经济[6]。为了了解鲜苹果市场,本文通过收集和分析过去几年的鲜苹果产量、种植面积、进出口数据、2023年每月份苹果价格变动情况,并利用Python对数据进行分析,ECharts进行数据可视化,通过可视化图表找到数据背后隐藏的规律并分析可能产生的原因。
1 分析与可视化相关概念
1.1数据分析流程
数据分析可分为明确目的、数据采集、数据清洗与预处理、数据分析和数据展示5 个步骤,如图1 所示。
明确目的是分析流程中最为重要的步骤之一,即确定研究对象并明确要达到什么样的结果。第二步为数据采集,数据的来源渠道有很多,例如公开的数据集、网络爬虫、数据采集工具等。由于采集后的数据存在重复、异常、缺失、杂乱等特征,并不能直接进行数据分析,因此需要进行数据清洗与预处理。首先可对采集后的数据进行探索性分析,分析数据中是否存在异常值、缺失值、乱码、重复值等情况。然后可根据分析情况对数据进行相应处理,例如对异常值进行删除、对缺失值进行填充、对重复值进行去重等。最后将处理后的数据集保存。第三步是数据分析,是指利用合适的统计分析方法对处理后的数据进行分析,从中提取出有价值的信息。数据分析方法可分为三类:统计分析类、高级分析类和数据挖掘类。其中统计分析类是最基本的数据分析方法,包括对比分析法、同比分析法、环比分析法、80/20分析法等。高级分析类是指通过建立模型进行分析,包括回归分析法、聚类分析法、主成分分析法、时间序列分析法等。数据挖掘类是通过机器学习等算法进行分析,包括决策树、支持向量机、朴素贝叶斯等算法。本文主要采用统计分析类和高级分析类方法进行分析。最后一步是数据可视化,是呈现有效分析结果的重要环节。数据可视化是根据分析目的和实际需求将数据以各种图表、符号、图形、纹理等形式展现,并进行交互处理的一种技术。目的是使人们可以清晰直观地观察到数据中隐含的有效信息。
1.2可视化图表
可视化是指将海量、复杂、多维的数据通过图表或者图形的方式清晰直观地展示在人们眼前,可视化的方式直接决定着数据呈现出的信息。实质上可视化的方式与数据类型、可视化表达目的相关,二者共同决定数据可视化的方式。可视化图表类型包括柱形图、条形图、饼状图、环形图、折线图、堆叠面积图、堆叠柱形图、散点图、直方图等等,在设计可视化图表时一定要明确分析目标,遵循用户需求,易于理解、切忌华而不实。选择合适的可视化图表有助于使用户简单快速地发现数据的内在规律。
当比较两个以上变量数据时可利用对比分析方法,对应的图表为柱状图或者条形柱状图;当为了突出某一连续变量随时间而发生的变化或者趋势可使用对比分析法、环比分析法、同比分析法,通常可用折线图、梯形图呈现。若数据规律不明显,可使用回归分析法,绘制散点并形成拟合曲线观察其特点并预测;当数据为离散型时间数据,可用散点图、堆叠柱形图可视化。为了突出整体与部分的关系,可用饼状图和环形图;若需兼顾数据的时间属性和比例属性,可采用堆叠比例图和堆叠面积图。若倾向于表示数据的关联性,可采用散点图、气泡图可视化以及散点图矩阵,表示数据分布性可用直方图、密度分布图、数据地图等进行可视化。在做一些复杂多维度的图表时,通常会利用多种图表进行混合展示。
2 研究获取与数据处理
2.1 研究工具
本文利用Python的第三方库Pandas对数据进行清洗处理,由于采集数据质量较高,主要从异常数据、重复数据、缺失数据、乱码数据方面对数据进行清洗处理。针对可视化,本文采用了ECharts工具对鲜苹果大数据可视化。ECharts是数据可视化中常用的图表控件工具,具有使用简单方便,图表美观生动,交互丰富等特点,内部提供了常规的柱形图、折线图、饼图、散点图、K线图、地图、雷达图、盒须图、关系图等37种类型图表,用户可在图表基础代码上修改数据即可完成美观且有交互性的图表。除此之外,用户还可将图表进行混合搭配,利用ECharts帮助文档进行图表的个性化定制。
2.2 数据获取与分析处理
本文数据来源于农业农村部、国家统计局、中国鲜苹果产业协会、中国果品流通协会、海关总署、立鼎产业研究中心、华经产业研究院等网站,登录各网站按照关键词检索收集历史数据并整合成CSV文件。本文选取了鲜苹果产量及种植面积、鲜苹果进出口量及进出口量变化情况、全国鲜苹果批发平均价格等指标作为研究对象。其中鲜苹果产量与鲜苹果种植面积选取了2013—2022年的数据作为样本;鲜苹果进出口量选取了2015—2022年的数据作为样本;鲜苹果价格选取了2023年1—12月全国鲜苹果批发平均价格作为样本。
根据数据分析流程第3步,本文利用Python的第三方库Pandas进行分析与处理。首先读取data.csv文件,查看数据最大值、最小值、均值、方差等信息。其次利用isnull方法判断某一列中是否存在缺失值;利用duplicated方法检测数据中的重复值;对数据绘制箱线图查看数据中是否存在异常值。
代码如下:
import pandas as pd
import matplotlib.pyplot as plt
df1=pd.read_csv“( data.csv”)
data.describe()
data.isnull().sum()
data.duplicated()
plt.boxplot()
通过以上处理发现数据中存在少量缺失、重复、异常数据。因此本文利用Python的第三方库Pandas 进行分析与处理。针对缺失数据有删除和填充两种方法,鉴于获取数据质量较高,可采取均值填充方法。针对重复数据可利用drop_duplicates方法删除,针对异常数据可利用dropna方法进行删除。由于数据处理较多,部分代码示例如下:
df[1]=df[1].fillna(df[1].mean())
data.drop_duplicates()
data.dropna()
3 统计与分析
3.1 鲜苹果产量及种植面积分析
《2023 产季鲜苹果产销形势分析报告》(https://www.chinacoop.gov.cn/news.html?aid=1791284) 中显示了2013—2022年全国鲜苹果种植面积以及鲜苹果年产量,采用对比分析法对鲜苹果种植面积和年产量进行分析,并利用折线图可视化。鲜苹果种植面积折线图如图2所示,鲜苹果年产量折线图如图3所示。
由图2可知,2013—2022年10年间全国鲜苹果种植面积可分为4个阶段:第一阶段(2013—2015年)鲜苹果种植面积从1967.1千公顷上涨至1 983.0千公顷,上涨幅度为0.81%。第二阶段(2015—2018年)鲜苹果种植面积呈现大幅下降趋势,从1 983.0千公顷下降至1938.6千公顷,下降幅度为2.23%。第三阶段(2018 —2020年)鲜苹果种植面积再次出现回升,从1 938.6千公顷涨至1993.5千公顷,上涨幅度为2.83%。第四阶段(2020—2022) 鲜苹果种植面积再次开始回落,下降至1955.8千公顷,下降幅度为1.89%。从2020年开始,鲜苹果种植面积下降,分析主要原因为:1) 受疫情影响鲜苹果效益较差。农资投入品价格、人工成本不断上涨,利润低导致多数种植者放弃种植鲜苹果而外出务工;2) 国家落实耕地“非农化”,基本农田“非粮化”政策导致苹果面积减少。
由图3可知,2013—2022年10年间鲜苹果总产量呈现上升趋势,从2013年的3 629.8万吨上涨至4 757.2 万吨,上涨幅度为31.1%。在2018 年产量有略微下降。结合图2可知在2018年鲜苹果种植面积达到最低值,因此影响鲜苹果产量因素之一是鲜苹果种植面积。2020—2022年鲜苹果种植面积呈现下降趋势,但是鲜苹果产量却在上升,由此可推断原因:1)2020—2022年无极端天气出现影响鲜苹果产量;2) 农业现代化进程的加速,例如智能设备、物联网等技术的发展可以监测温度、湿度、土壤酸碱度等指标,可辅助农业生产,从而增加了鲜苹果成活率且单位面积鲜苹果产量增加。具体影响鲜苹果产量的因素较多,还需进一步分析。
根据中国果品流通协会发布的《2023产季鲜苹果产销形式分析报告》数据计算种植面积同比增减率,如表1所示。为了更直观清晰地看到各省份的鲜苹果种植面积变化情况,绘制了柱状图如图4所示。由图4可直观看到陕西、山东、山西、辽宁、河北、河南六个省份种植面积减少,而甘肃、新疆、云南、四川四个省份种植面积有所增长。其中种植面积增幅最大的是新疆产区,增长幅度为6.1%,降幅最大的是辽宁产区,减少幅度为13.9%。
2022年我国鲜苹果主要产地及年产量为:陕西省(1 302.7万吨)、山东省(1 006.4万吨)、甘肃省(475.9万吨)、河南省(421.5万吨)、山西省(418.3万吨)、辽宁省(273.7万吨)、河北省(265.6万吨)、新疆维吾尔自治区(213.9万吨)、四川省(90.7万吨)、河南省(71.7万吨),本文根据2022年各省份鲜苹果年产量绘制了南丁格尔玫瑰图,如图5所示。通过南丁格尔玫瑰图可以明显地看出2022年陕西鲜苹果年产量占比最高,云南鲜苹果年产量占比最少。
3.2 鲜苹果进出口量分析
本文研究了2015—2022年间全国鲜苹果出口量与进口量数据以及进出口量的变化,结合了柱状图与折线图将其进行可视化如图6所示。
从图6可以看出,我国鲜苹果出口量远高于进口量,呈现贸易顺差。我国鲜苹果出口量及变化趋势可以分为4个阶段:2015—2017年,我国的鲜苹果出口量呈现了明显的增长趋势,尤其是2016年和2017年出口量达到了高峰,由83万吨增至133万吨,上涨幅度达到58.7%。2017—2019年,全国鲜苹果出口数量呈现整体下降趋势,降至91.0万吨,下降幅度为31.6%。2019 —2021年出口量有所回升,增长至107.8万吨。2022 年受新冠疫情影响,出口数量明显下降。由图6可知我国鲜苹果进口量与出口量呈现反比趋势即当年出口量增加则进口量减少,进口量与出口量达到动态平衡。2015—2018年全国鲜苹果进口量从8.8万吨减少至6.5 万吨,2019年进口量最高达到12.5万吨,2020—2021 年进口量下降至6.8万吨,2022年增至9.5万吨。
3.3 鲜苹果价格分析
了解鲜苹果价格可以提前洞悉苹果市场价格规律,本文收集了2023年1—12月红富士(80#二级以上套袋红富士,若以下不做特殊说明,皆同)批发平均价格,每月挑选6天鲜苹果价格作为样本并对其进行可视化如图7所示。由图7可知,2023年全国鲜苹果批发平均价格浮动在8.80元/公斤,1—9月全国鲜苹果批发平均价格呈现上涨趋势,从8.47元/公斤上涨至9.48元/公斤,其中2—3月价格偏低,最低为8.29元/公斤,9月底鲜苹果批发平均价格最高,为9.48元/公斤。原因主要是国庆节与中秋节的到来导致了鲜苹果的需求量增加,供不应求使得价格上涨。10月之后价格开始略微下降。经分析可发现苹果价格波动具有季节性特征,可能原因有:1) 竞品增加。10月份砂糖桔、脐橙、枣等水果大量上市,水果市场被分散,人们可选择的水果增加,导致苹果供过于求,价格下降;2) 苹果库存增加。9—10月份是鲜苹果集中采收期,在10月份后依然库存较多,因此价格下降。
通过图7所示的价格规律,可利用时间序列分析法对数据进行预测。时间序列分析就是通过观察研究事物随时间序列而呈现的变化和规律,进而预测将来的走势。2023年鲜苹果价格在2—3月份达到低谷,在9月份价格达到顶峰,由此可推知未来一年鲜苹果价格的低谷和高峰。
4 总结
本文利用Python 和ECharts 工具将鲜苹果的产量、种植面积、进出口量、价格等指标进行可视化形成各种图表并分析原因从而获得有效的信息:2013—2022年鲜苹果产量整体呈上涨趋势,其中陕西省、山东省、甘肃省等地鲜苹果产量最多,可以预测未来的两年内如果没有极端天气的影响,产量会持续小幅上涨;我国鲜苹果进出口量近年来有升有降,预测未来两年进出口数量应当结合汇率、市场等其他指标进一步分析;2023年1—9月鲜苹果价格持续上涨,9—12 月开始有所下降,其中2—3月鲜苹果价格较低,9月份最高,消费者可以根据此价格规律购买鲜苹果,销售者也可根据此规律对鲜苹果库存和销售进行规划。