决策树模型在基于外显属性预测市场状态中的应用

作者: 蒋丽雯 张革伕 王雄峰 魏俊蓉

决策树模型在基于外显属性预测市场状态中的应用0

摘要:从卷烟品规的外显属性特征来预测其市场状态,方法简单且直接,对于卷烟销售和生产企业都有利。首先,确定卷烟品规的外显属性特征14个,分类状态预测为“俏紧平松软”。采集了衡阳市场上销售的191种卷烟品规外显特征数据,作为输入;利用已有对应的“五态”评价数据,作为输出。其次,应用IBM Modeler 18.0版本,建立数据流,构建决策树模型。最后,数据挖掘表明,决策树模型能够从卷烟品规外显属性特征来预测其市场状态,准确率能够达到80%以上,能够指导企业的生产实践。

关键词:烟草;营销;数据挖掘

中图分类号:TP3   文献标识码:A

文章编号:1009-3044(2023)26-0079-05

开放科学(资源服务)标识码(OSID)

0 引言

我国烟草生产量和销售量占全世界的35%,是烟草生产大国,也是消费大国。烟草税收是我国国民经济重要来源之一,占全国总税收收入的7%。近年来,随着“Z时代”变为消费主力,原有群体的健康消费理念的起伏,烟草消费市场同样呈现出多样化,许多品牌卷烟生产企业倾向于研发新品规香烟来应对复杂多变的市场环境。2012至2017年,卷烟行业共有673个新品上市[1],到2018年的卷烟在销品达千个,但其中有近半数的卷烟品规并未受到消费者的欢迎,年销售量仅在千箱以下的有相当一部分是新开发的品规。这种情形对于零售商和商业企业构成了巨大的库存负担,最终影响到烟草工业企业的开发生产。国家烟草局提出,要充分应用行业数据来评估品规市场状态,实施精准市场投放。本文试图通过对卷烟品规的外显属性特征进行分析,寻找其与品规的市场状态之间的关联性,从而帮助相关企业在品规采购、品规开发设计决策上快速做出优化,减少损失。

1 文献综述

随着数据在企业运行过程中积累越来越多,数据逐渐被认为是企业新的资产而加以利用,数据挖掘技术应时而生。数据挖掘作为新兴的信息处理技术逐渐被应用于各行各业,就是要从“看似无益的数据堆中找出有价信息”的过程,如在税收领域可用来寻找逃税漏税者,证券领域可用来识别老鼠仓,教育领域可用来发现行为异常者。烟草行业也有大量的应用,包括用来优化卷烟仓储、物流和营销等[2]。数据挖掘技术通常包含一系列的数据分析算法模型,例如决策树、关联规则、聚类、神经网络、回归、支持向量机等,所谓的大数据分析技术也以这些算法模型为基础。限于本研究仅采用决策树技术,在此仅就决策树技术应用做介绍。

决策树算法常用于分类预测。张伟丰[3]提出了将决策树算法应用于卷烟产品零售客户分类中,从而根据客户重要性和产品依存度来制定更为合理化的卷烟营销策略。Salazar-Concha C等人[4]通过决策树技术建立了捐赠者重复献血意愿的预测模型,准确性达到84.17%,预计可以降低联系希望献血人和血液管理系统的成本。Permana B A C等[5]通过决策树得出烦渴现象是糖尿病患者发病迹象的主导因素,分析了该因素对疾病的预测价值,可以帮助医生更快地进行诊断和分析疾病。Yunmeng Zhang[6]等人运用决策树算法来预测和分析两种类型员工的营业额,管理者可以依据实验结果制定相应的管理措施。构建决策树常用的算法有:CHAID、CART、QUEST、ID3、C4.5和C5.0算法等。邹黄刚等[7]用ID3决策树算法来设计一种新型汽车故障检查方案,查找出何种因素引起的汽车故障,使驾驶员自身具备故障检查能力,并做出相应的预检修,大大节约时间与成本。徐蕾等[8]在探讨基于信息熵的决策树在慢性胃炎中医辨证分型中的应用中,采用基于信息熵的决策树C4.5算法建立中医辨证模型,产生了可用于分类的诊断规则。蒋丽雯等[9]构建了一个两阶段卷烟市场状态评价模型,第一阶段用决策树C5.0算法进行“俏、紧、待评”三态分类,然后再用C5.0对“待评”态进行“平、松、软”三态分类预测。

将决策树算法和其他算法进行组合,形成更为精准和有效的分析模型也应用广泛,在此不再进行介绍。

2 决策树算法原理

决策树算法是一种机器学习模型,是一种导师监督的机器学习模式,保证每次学习都能比原来做得更好。有监督学习是一种从实例中学习的方法,导师能够凭借自身掌握的知识对实例中样本进行分类,学习者可以利用导师分类好的实例进行学习,总结并导出其中的决策规则。导师分类决策的结果称之为目标变量值,样本的其他属性称之为输入变量。决策树算法通过归纳和提炼现有数据中目标变量和输入变量的取值规律,以树形结构的形式展示实例的分类规则。

一棵决策树可以划分为节点和有向边两部分,节点分为三种:根节点、内部节点与叶子节点。根节点是位于决策树第一层的节点,包含了所有的样本。内部节点代表着样本中的某个属性,叶子节点则表示实例划分到最后的决策结果。有向边表示从决策树的根节点到叶节点的一条路径,对应着一条取值规则。一棵决策树如图1所示。

ID3算法作为决策树的最典型模型,采用所谓的启发式学习法,以信息增益率来确定最佳的分组变量和分割点。

基本问题描述:一个数据集可分为训练集和测试集两个实例集,每个实例属于一个特定的类型即分类,训练集用于学习以生成分类模型,测试集用来检测模型的分类效果。数据集包含一组可供分割的属性,每个属性的取值可把训练实例集划分为多个子集。每个属性就是对实例进行分类的可选影响因素。定义如下:

选择属性集A={A1, A2, …, Ai,…, An}

选择的检测属性设为:Ai

Ai的值域V(Ai)={V1, …, VS}的S个取值把训练实例集T分为S个子集如式(1) 。

[T=Uk=1sT(i)k]          (1)

子集[T(i)k]中的所有实例的属性Ai的取值为Vk。T中实例分类结果组成C={C1, C2,…, Cj,…, Cm},Cj的实例数为ej,1≤ j ≤m,且 [j=1mej=|T|],|T|表示训练实例集T中的实例总数。

实例分类结果为Cj的概率为式(2) 。

[pj=ejT]     (2)

定义训练实例集T的实例平均信息量由式(3) 决定。

[I(T)=-j=1mPjlog2Pj=-j=1meiTlog2ejT=-(j=1mejlog2ejT)/|T|]      (3)

子集 [T(i)k] 的实例平均信息量由式(4) 决定。

[I(T(i)k)=-(j=1me(i)jlog2e(i)jTik)/|T(i)k|]          (4)

子集实例数与实例总数关系满足式(5) 。

[j=1me(i)j=|T(i)k|]        (5)

如果选择属性Ai作为检测属性来将训练实例集T分为s个子集后,可以由各实例子集的实例总信息量 [|T(i)k|·I(T(i)k)] 之和对实例集T的实例总数|T|的平均值来表示实例集T的实例平均信息量,满足(6) 式。

[I(T,Ai)=(k=1s|T(i)k|⋅I(T(i)k))/|T|]     (6)

选择属性作为检测属性的原则是:属性Ai的不同取值把实例集划分为若干子集之前和之后的实例平均信息量差值最大的那个,即挑选式(7) 取最大值的属性。这就是启发式规则。

[GI(T, Ai)=I(T)-I(T, Ai)]    (7)

[GI(T, Ai)]可认为是属性Ai对训练实例集T的信息变化量,熵总是朝大的方向增加,故称之为熵增益原理。因此,启发式规则实际上是选择信息量最大的属性作为检测属性Ai来划分实例集,从而达到分类的目的。C4.5和C5.0都以ID3算法为基础,做了改进和优化。

IBM SPSS Modeler从SPSS旗下的Clementine而来,因后者被IBM公司收购,而改名为IBM SPSS Modeler。Clementine最开始由SPSS软件开发的部分人员脱离出来,以开发专业的商业智能软件,旨在对海量数据进行商业洞悉,挖掘数据价值。Clementine提供了大量的算法模型,例如决策树、C5.0、Apriori、K-Means和神经网络等,通过数据流图来完成建模,并进行可视化输出。本文将利用该工具建模,完成从卷烟品规外显属性特征来预测其市场状态。

3 卷烟的外显属性特征与品规市场状态

卷烟的外显属性是指卷烟品规的外部包装显示出来的卷烟结构特征,这种特征无需烟民实际品吸感受后形成认知,而是实际存在的物理特征,对所有人的感知无差别。这些外显特征包括如下:

1)品牌名称(品规,实际上为包含一定的子品牌和规格特征合成称呼,例如:云烟小熊猫家园);省内外(分省内品规、省外品规);类型(分烤烟型、非烤烟型);

2)焦油含量(实际由机构测定,外包装上注明);一氧化碳含量(实际由机构测定,外包装上注明);烟气烟碱量(实际由机构测定,外包装上注明);

3)长度(异型烟的参数之一,标准为84cm);过滤嘴长(异型烟的参数之一,标准为25cm);

4)包装类型(软、硬两种);包装主色调;包装副色调;

5)烟支数(20支为标准,其他数量为异型);零售价(单位元/盒)。

品规的市场状态以国家烟草总局发布的要求为依据,各地根据卷烟品规的市场表现来评估,参考品规的订购频率、覆盖面等指标,分为“俏、紧、平、松、软”,反映出消费者的接受度,是烟草商业企业采购卷烟和投放卷烟的依据。蒋丽雯等以衡阳地区销售的卷烟为研究对象,就销售的190多种卷烟品规进行了市场状态评估,本文研究的卷烟同样为衡阳烟草,将以这些状态数据为导师,应用决策树模型,基于卷烟品规的外显属性特征来预测其可能状态。也就是看卷烟外表来预判卷烟在消费者中的接受情况。本研究所采集的卷烟品规外显属性特征数据如图2所示,用Excel文件形式作为数据源,右边最后一列为市场状态,最开始将利用文献给出的状态值作为导师,交给模型学习。

4 基于SPSS Modeler C5.0的预测模型

本研究模型的构建包含三个阶段:数据准备、数据预处理和建模。

4.1 数据准备

本文使用的卷烟外显属性特征数据通过相关烟草网站和烟草局查询获得,对应的卷烟市场状态根据相关领域蒋丽雯等的研究所得。研究数据集包含湖南省在销的45个大品牌、191个香烟品规的外表特征值记录,每条记录的属性包括上文所交代的14个。

4.2 数据预处理

在实际业务中所采集的数据往往是脏数据,所谓的脏数据是指数据中出现数据缺失、数据噪声、数据冗余、数据集不均衡和离群点等问题。这需要进行处理,否则可能产生运算异常,影响准确性。

1)数据空缺值的处理。其处理方式主要有直接删除含有缺失值的记录和补全缺失值两种。对于原始数据集中部分雪茄型香烟的焦油含量、一氧化碳含量和烟气烟碱量缺失,本文通过其他雪茄烟的特征经验推导出来。对于零售价字段的缺失,本文通过获得的单支雪茄烟价格和每盒支数进行简单运算得到。

2)分类属性值较繁杂的数据。收集的原始数据集包装主色调和副色调颜色类型繁杂,在建立决策树中可能会造成“过拟合”的现象,对预测结果产生不良的影响,所以需要化繁为简。根据相同色系聚集的方法,将包装主副色调重新进行简化分类,主色调分为白、黑、红、黄、蓝、棕六种颜色,副色调分为白、黑、红、金、蓝、绿、棕七种颜色。

上一篇 点击页面呼出菜单 下一篇