SCI论文(www.lunwensci.com)
摘 要: 大数据在为企业带来巨大价值的同时也对数据处理提出了严 峻的挑战, 各大电商平台每时每刻都 在记录用户的行为数据, 因此对数据 进行合理分析, 将有利于挖掘用户价 值从而实现基于用户特征的精准营 销。基于此,文章利用天猫商城的真实 消 费 数 据 , 使 用 RFM 模 型 与K-Means 聚类分析对天猫用户进行价值分类, 从而为不同用 户提供个性化服务,实现了基于用户分类的精准营销。
关键词:用户分层,精准营销,RFM 模型,K-Means 聚类分析,用户挖掘
一、引言
数据是生产的关键要素之一, 它已经渗透到各行各业的 功能领域 。大数据又称海量数据,主要是指其中所包含的数据 规模庞大且结构复杂 、从而无法通过传统的方式将信息转化 为可以直观理解的数据信息 。因此,通过对大数据进行处理和 分析,进一步挖掘出更深层次的价值并加以利用,将显著提升 企业的决策能力。
近年来, 我国正在全面利用大数据等信息技术推动传统 产业的结构转型与发展, 实现新的经济增长点及各产业间的 融合发展 。随着移动互联网的迅猛发展,各类电商平台的运营 逐渐趋于成熟,商家及用户数量庞大、商品种类繁多,当消费 者在网购平台浏览商品时, 大量无用商品的推荐无疑将会降 低消费者的购买率 。因此,运用大数据技术建立对用户行为进 行分析的推荐系统, 挖掘用户行为特征并进行个性化的商品 推荐,从而有针对性地唤回老用户并吸引新用户,不仅可以降 低用户的选购时长并提高用户对于网购平台消费体验的满意 度,还可以增加商家及网购平台的收益。
基于此,本文利用天猫商城的真实消费数据,使用 RFM 模 型与 K-Means 聚类分析对天猫用户进行价值分类, 从而为不 同用户提供个性化服务,实现了基于用户分类的精准营销。
二、天猫消费数据集的收集与预处理
本文的数据来源为天池平台提供的天猫商城的真实消费 数据,该数据集中包括了用户基本信息数据、用户消费数据及 用户购物行为数据 3 个部分,涵盖了 2018 年 4 月 1 日至 2019 年 3 月 31 日 期间在天猫平台购买商品的用户数据, 共计 539438 条 。其中,用户基本信息数据集中主要记录了性别、年 龄层次、消费档次等字段;用户购物行为数据集中主要记录了 商品种类编号、消费者行为类型和订单日期等字段。
在数据处理阶段,本文对数据进行去除重复值、处理缺失 值、特征选择等预处理 。第一是将字符型格式等日期字段转换 为 DateTime 类型,并计算用户购买时间与 2019 年 4 月 1 日 的 时间间隔 。第二是使用 timedelta 类型属性的 days 方法实现诸 如“1”“2”等天数的提取。第三是筛选行为类型为“pv”的记录, 再根据日期分组排序,并统计每天对应的购买记录数量,即从 用户购物行为数据集中,筛选 behavior_type 字段等于“pv”的记 录,按照 date 字段分组同时进行升序排列,并计算出每日进行 消费的用户数量。
三、天猫用户价值分析
1.基于 RFM 模型的用户价值分析 。RFM 模型通过消费时 间间隔、消费频率、消费金额 3个指标对消费者的活跃度进行 分层,从而实现对用户价值的评估 。其中,指标 R 代表最近一次消费(最近一次消费到截止时间的间隔),可以类比为消费 者近期的活跃度;指标 F 代表客户消费频率,用以反映用户近 期的购物次数;指标 M 代表消费金额,用以反映消费者的消费 能力 。综上所述,RFM 模型就是对每一个用户都从 R、F、M 三 个维度进行评估,并据此将用户划分为重点潜力用户、重点发 展用户、重点唤回用户、高价值用户、低价值用户、一般发展用 户、一般维系用户和一般价值用户等八类。
本文在将数据引入 RFM 模型前, 为了进一步了解用户的 消费习惯、消费行为及用户本身的特性,首先根据用户的购买 行为进行数据分析与探索, 计算用户在各流程之间的漏斗模 型, 研究发现用户在最后实际下单的流程中流失最多 (见图 一、图二) 。
接着,本文采用五分法(0.2、0.4、0.6、0.8)对经过预处理后 的 R、F、M 数据进行分箱处理,将用户等分为 5 个层级,分别 标记为 1-5 分并赋予每一个用户其相应的分类标签, 据此便 可以有针对性的进行符合此类用户特征的精准营销, 同时实 现了平台资源的利益最大化。
经数据处理后, 天猫商城用户消费数据集中的用户被分 为 8 类,其中高价值用户占比为 21%,此类用户为平台的核心 用户,因此需要保证该类用户的留存率,即可以分析此类用户 的行为特征或进行用户访谈, 了解产品对于此类用户的吸引 力和平台有待优化的问题。重点唤回用户占比为 14%,此类用 户过去在平台上消费较多而最近并未产生消费, 此类用户在 产品中有一定财富积累, 但最近没有消费可能是受竞品影响 或消费习惯发生改变,因此需要根据用户历史偏好,推送个性 化内容从而唤回此类用户 。重要发展用户和重点潜力用户人 数较少,占比仅为 6.2%左右,此类用户在平台的消费次数较少 但是在金额上贡献较大,说明用户一旦活跃就会大笔消费,因 此需要提高此类用户在平台的活跃度 。值得注意的是,低价值 客户占比为 41. 1%,在各种用户类型中占比最大,此类用户具 有较大的流失风险,但可以不将其作为平台的运营重点。
2.基于 K-Means 聚类的用户价值分析。K-Means 算法是一 种基于数据划分的无监督聚类算法,它以 k 为参数,把 n 个数 据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似 度较低 。 由 于 RFM 模 型 只 涉 及 了 天 猫 用 户 消 费 数 据 集 中 order_count、time_gap、total_amount 等变量, 然而通过上述变量 并不能充分挖掘用户特征, 因此本文使用 K-Means 聚类方法 将其他变量引入,从而对用户特征进行进一步挖掘。
由于 K-Means 算法中的随机因数将导致每次运行结果都 存在差异,本文为减少结果的偶然性,对每个 k 值重复计算了 10 次并对比每次计算结果的趋势图, 选择最明显的拐点所对 应的 k 值 。受篇幅所限,本文并未报告拐点的趋势图,但计算结果显示 k=3 时满足要求,因此确定用户被分为 3 类 。接着, 本文通过选取刻画用户的重要指标,用户的 id、用户的年龄及 用户的购物深度以及性别这 4 个重要指标, 将数据进行标准 化,并通过 K-Means 聚类得到聚类后的 3 类。
K-Means 聚类结果与 RFM 模型分类结果较为相似, 其中 聚类结果为一类的用户特征较为明显,此类用户多为女性,购 买频次较高且消费金额较大,因此一类用户为高价值用户,其 用户数量为 27347 人,占比为 53.21%;聚类结果为 0 类的消费 群体年龄段较高, 具有购买频次多但消费金额较小的消费行 为特征, 因此 0 类用户为中价值用户, 其用户数量为 13110 人,占比为 25.51%;聚类结果为二类的消费者中各指标均相对 较低,因此二类用户为低价值用户,其用户数量为 10937 人, 占比为 21.28%。
四、结论
运用大数据的技术建立用户推荐系统, 挖掘用户行为特 征并进行个性化商品的推荐, 不仅可以降低用户的选购时长 并提高用户对于网购平台消费体验的满意度, 还可以增加网 购商家及网购平台的收益 。本文利用天池平台提供的天猫商 城的真实消费数据,首先对数据进行了相应的预处理,最终数 据集中包含 51394 条购买记录, 接着分别基于 RFM 模型和 K-Means 聚类方法实现了对天猫用户的分类,从而为平台为用 户提供精准营销提供了相应建议。
RFM 模型的分析结果显示,重点发展客户占比 5%,高价 值客户占比 22%,应重点关注这两类客户并提高用户付费率, 维系高价值用户 、重点发展用户的忠诚度, 保持企业良好收 入。在客户总数中占比为 21.9%的高价值客户和占比 13.8%的 重点发展客户贡献了 85.8%的销售额,因此,应当提高高价值 客户和重点发展客户的消费金额, 或是把重点发展客户转化 为高价值客户,即提升该客户群的消费频次 。重要挽留客户为 1090 人, 首先应当考虑是否在计算周期内有大型促销或降价 活动,若有则转化这部分客户的难度会较大,平台应重点发展 其他类型客户, 若没有则应当分析此类顾客的购买产品的特 性从而提高其消费频率并培养其在此平台的消费习惯 。新客 户人数为 2143 人, 由于需要先把新客户转化为留存用户,因 此,在实际运营过程中,可以考虑把这部分客户和重要挽留客 户放在一起转化,提升消费频率 。流失客户人数为 1400 人,对 于销售金额的贡献占比较低,因此,需要进一步分析此类用户 群体的消费商品和消费时间,但由于此类用户人数较多,对其进行分析耗时较长故可将其作为提升销量的次要考虑因素 。 重要唤回客户人数占比约为 12%,此类用户人数较少,但消费 意愿和消费价值较高,可作为短期提升销量的重点关注对象, 通过运营活动,优惠活动刺激消费。
K-Means 聚类分析的结果显示, 聚类结果中消费能力高, 购物深度与层次较高,年龄指数较小,性别指数较大,这部分 群体可能多为年轻女士,比较追求时尚、品牌及服务,对于此 类在平台有消费记录且过往消费频率和金额较高的用户,属 于具有较高价值的核心用户, 本文认为可以为这类用户提供 VIP 特权和更多的专属服务, 后续还可以对客户追根溯源,找 到高价值用户对应标签的客户的个人信息, 重点关注此类用 户的行为路径或者对其开展用户访谈, 了解产品的优势及反 馈 。针对近期活跃度较低 、过往消费频率和金额都较高的用 户,需要将其进行唤回并重新成为平台的核心用户 。此外,还 应当提高一般维系用户、一般发展用户的活跃度,并将其转化 为潜在客户。
参考文献:
[ 1] 徐建民,申永平,吴树芳 .基于分层社交关系的微博推荐算法 [J].计算机应用研究,2021.38(12):3597-3603+3610 .
[2] 聂子临 .基于改进 RFM 模型的 D 公司理财产品用户挖掘研 究[D]. 北京交通大学,2019 .
[3] 彭晓庆 .基于 K-Means 与原型网络的两阶段聚类算法及应用 [D]. 山西大学,2020 .
[4] 罗丹 .腾讯视频付费用户运营策略研究[D]. 华中科技大学,2019 .
[5] Jacques Bughin. Digital user segmentation and privacy concerns [J]. Journal of Direct, Data and Digital Marketing Practice,2011.13(02)
[6] 赵黎明,于金秀,薛靖峰 .基于一种改进的 RFM 模型的广电 用户细分[J].科学技术创新,2021 (21): 164-165.
[7] 戴远泉 .基于 K-Means 算法实现电商企业 ERP 系统的大客户 跟踪分析[J].现代信息科技,2021.5(13):173-175.
[8] 王玉凤,孙文秀,杜梦娇 . 改进 RFM 模型的汽车 4S 店客户细 分研究[J].计算机时代,2021 (06):44-48.
[9] 周杨頓 .航空公司客户价值分析及流失预测[J]. 商讯,2021 ( 18):190-192 .
[ 10] 伍维维 .基于组合赋权法的 RFMN 模型的信用卡用户价值 分析[D].重庆工商大学,2021 .
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jingjilunwen/52551.html