摘 要 :为满足当下生鲜超市日常补货和定价需求,基于某商超经销的 6 个蔬菜品类从 2020 年 7 月 1 日至 2023 年 6 月 30 日的销售流水明细与批发价格的相关数据,采用 Apriori 算法和 K-means++ 算法研究各生鲜蔬菜的销售时间分布规律及消 费者购买各生鲜蔬菜的相关关系,进而从蔬菜种类销售购买关联度及相关性角度为生鲜超市的策略制定提供新的视角。
0 引言
随着城市化进程的加快, 商超成为人们购买蔬菜类商 品的主要途径,但是蔬菜类商品保鲜期较短 [1],某些品类 的蔬菜若当日未售出,隔日就无法再售,因此,许多商超 会对其进行打折处理以刺激消费者购买此类蔬菜商品。价 格与补货决策若未能充分适应消费者的购买力 , 容易造成 蔬菜积压、变质,造成浪费和成本损失。目前商超在定价 和补货策略方面均存在一定的问题 , 因此 , 对生鲜商超进 行购物聚类关联分析,了解购物者的消费习惯,从而能更 好地制定补货及促销计划,提高市场竞争力。
1 数据预处理
1.1 数据描述与分析
本文数据来源于 2023 年高教社杯全国大学生建模 竞赛 C 题附件,其给出了某商超蔬菜商品对应的分类 编码、单品编码、销量、销售单价、销售类型、批发价 格、打折情况、损耗率等基本信息。
1.2 数据处理
为了防止因数据异常而得出错误结论,要对数据进行 清洗处理。本文结合实际情况对数据进行了以下预处理。
(1)对附件 1、2、3、4 中的数据进行关联,并将 数据统计在一个附件中, 在同一种单品类中利用 IQR 算法,分别找出销量、销售单价、批发价格的四分位 距,用箱式图识别出异常值,并且用各个指标族中的平 均值代替异常值。
(2)对于损耗率为 0 的蔬菜,计算其单品对应的分 类族里的平均消耗率进行替代。
2 不同蔬菜品类的关联关系模型的建立
2.1 利用 Apriori 算法求解不同品类或不同单品的关联关系
基于上述的数据处理,发现附件中的品类和单品都是 大数据集,并且不同品类及单品在某一个时间段内会频繁 出现,因此认为它们之间可能存在关联规则。而 Apriori 算法善于挖掘数据间的关联规则,因此采用 Apriori 算法对其相互关系进行分析,并补充如下关联规则 [2]。
2.2 求解结果
根据上述算法,求解出不同单品以及不同品类之间 的支持度、置信度、作用度,并按照置信度的大小进行 排序,得出关联程度最强的前三类,结果分别如表 1、 表 2 所示。
2.3 关联关系可视化
根据求解出的置信度和提升度进行关联规则网络的 可视化,描述不同品类和不同单品之间的关联关系,不 同品类的关联关系如图 1 所示。
2.4 关联关系分析
根据具体数据以及规则图,可以分析得出以下结论。
(1)不同品类的关联规则中, 从置信度来看, 花菜 类和花叶类关联关系最强,其次是辣椒类和花叶类,最 后是水生根茎类和花叶类。
(2)不同单品的关联规则中, 从置信度来看, 红椒 和芜湖青椒关联关系最强,其次是紫茄子和芜湖青椒, 最后是奶白菜和芜湖青椒。
3 分析蔬菜各品类及单品销售量的分布规律及相互关系
3.1 利用 K-means++ 进行聚类分析
由于蔬菜单品以及品类在销量这个特征空间中彼此独 立,并且数据都是数值型的,从而可以利用 K-means++ 聚类寻求最佳指标中心对应的蔬菜品类特征。利用层次 聚类法 [5],通过肘形图,求出最优类别数,得出聚类系 数折线,发现 K 值超过 4 后畸变程度显著降低,因此, 将以 4 类进行 K-means++ 聚类分析,得到对应的分类 中心以及每种分类中所对应品类指标的权重,得到按照 销量聚类图,如图 2 所示。
3.2 分析聚类结果得出分布规律
3.2.1 销量分布可视化
根据图 2 的聚类结果, 分别从每个类中选取靠近聚 类中心的单品 :奶白菜、紫茄子、西兰花、高瓜,作为 特征单品,分别画出其在一天中的销售分布规律,结果 如图 3 所示。
同样,对六种品类进行上述过程,分别得到六种品 类一天之内分布的规律。
3.2.2 分布规律
基于销售分布分析,得出以下结论。
(1)对于不同单品而言,以奶白菜为特征单品的商 品销售主要集中于上午 ; 以紫茄子和西兰花为特征单品 的商品销售在早上和下午较为活跃 ;以高瓜为特征单品 的商品销售在一天内较少。
(2)对于不同品类而言,辣椒类主要在下午销售 ; 花叶类和永生根茎类商品的销售集中于上午 ;食用菌类、 茄类、花菜类在上午、下午和晚上都有稳定的销售。
3.3 分析聚类结果探究不同品类和单品之间的相互关系
3.3.1 聚类组成可视化
根据 K-means++ 的聚类结果, 画出四个类别中各 自的品类占比和单品占比,选取部分结果如图 4 所示。
3.3.2 不同品类及单品的相互关系规律
由聚类占比组成图发现,在不同蔬菜品类的销售 中,花叶类和其他品类的购买相关性最强。而在不同蔬 菜单品的销售中,根茎类和其他蔬菜单品的购买相关性 最强。
4 结语
本文针对生鲜商超的蔬菜销售的关联性及分布规Fig.4 Proportion of different category in each cluster (part) 律,首先采用 Apriori 算法计算出不同品类和不同单品 的支持度、置信度、作用度,利用可视化的关联规则网 络分析它们之间的关联关系。其次利用层次聚类法找出 最优类别数,通过 K-means++ 算法依据销量指标进行 聚类,通过肘型图,将 251 个单品分为 4 类。对这四类 中具有代表性的单品,绘制了日销售量分布图,研究不 同单品销量在一天内的分布规律及相互关系,同时分析 每个聚类中的品类分布情况及每个品类一天之内销售数 量的分布规律及相互关系,从购物者购买蔬菜的关联度 出发,为生鲜商超的补货及定价提供了一个新的视角。
参考文献
[1] 李小玲,戴浪兵.O2O背景下社区生鲜连锁超市的物流配送 模式研究—以深圳市A生鲜连锁超市为例[J].中国商论,2022 (19):48-50.
[2] 殷丽凤,李明状.基于Apriori算法的关联规则分析应用[J].电 子设计工程,2023,31(15):11-14+19.
[3] 张梦琦.基于Apriori 算法的关联规则分析[D].大连:大连理 工大学,2021
[4] 许平.基于Spark平台的关联规则算法应用研究[D].南京:南 京邮电大学,2018.
[5] 张华,龙呈,胡思洋,等.基于层次聚类法与皮尔逊相关系数的 配电网拓扑校验方法[J].电力系统保护与控制,2021,49(21):88- 96.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
可解释性是一个非常重要的标准。机器学习模型... 详细>>
如何设计有效的环境治理政策, 是学术界和政策... 详细>>