Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于 XGBoost 和 SHAP的5G 潜客识别及特征分析模型论文

发布时间:2023-03-28 10:04:53 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘 要:5G 网络作为智慧城市建设的有力支撑,加快 5G 用户增长与智慧城市建设相融合成为了新的发力点。对数据预处 理后, 首先, 利用 XGBoost 模型对潜在 5G 用户进行精准识别 ;其次,与五种算法进行实验对比,结果表明 XGBoost 在各项 指标上均最优 ;最后,引入 SHAP 模型对 5G 用户进行影响因素分析,为相关部门及用户提供决策依据。

  关键词:机器学习,潜客识别,5G,影响因素

  Identification and Feature Analysis Model of 5G Potential Users Based on XGBoost and SHAP

  LIANG Jinming

  (College of Statistics and Data Science of Xinjiang University of Finance and Economics, Urumqi Xinjiang 830012)

  【Abstract】: As a powerful support for the construction of smart cities, 5G network accelerates the integration of 5G user growth and smart city construction to become a new power point. After pre-processing the data, XGBoost is used to accurately identify potential 5G users. Next, experimental comparisons with five algorithms are conducted, and the results show that XGBoost is optimal in all indexes. Finally, SHAP is introduced to analyze the influencing factors of 5G users to provide a basis for decision making for relevant departments and users.

  【Key words】: machine learning;prospect identification;5G;influence factor

\

 

  0 引言

  近年来,中国经济进入高质量发展阶段,在 2021 年发布的《第十四个五年规划和 2035 年远景目标纲要》 中,对“实施国家大数据战略”做出了重要部署。国家 正在不断激发数据要素潜能,而 5G 网络正是智慧城市 建设的有力支撑,加快 5G 用户增长与智慧城市建设相 融合成为了新的发力点。如何准确识别 5G 潜在用户, 对实现基于 5G 深度应用的智慧城市建设至关重要。而 电信运营商传统的营销方式存在客户定位不清晰、用 户消费信息利用不充分等问题。在面对日趋饱和的 5G 用户市场,如何以最少的成本挖掘和定位潜在的 5G 用 户,成为各大电信运营商亟需解决的问题。机器学习技 术作为国家大数据发展战略重点扶持的目标,已有不少 研究利用该技术挖掘数据背后的商业价值 [1.2]。

  对于 5G 用户识别、分类的研究 , 过往学者们从不 同的角度得出丰富的研究成果。张娟利用 K 均值聚类 算法对 5G 终端客户的价值进行分类分析,并提出针对 性的营销建议 [3]。薛龙利用因子分析和 K 均值聚类算 法对 5G 客户进行分析,找出了 5G 用户的重要特征, 并制定了用户细分的研究方案 [4]。毛建军基于改进的 K-means 聚类算法对 5G 用户进行分类研究,为相关 部门提供有效的服务建议 [5]。陈锋等人通过运营商所提 供的数据集, 利用 GBDT 算法构建潜在 5G 用户预测模 型,并将模型运用于非 5G 用户进行精准预测 [6]。

  为提高传统用户营销的准确性,提升 5G 用户服务质 量, 本文基于某运营商平台的客户数据, 利用 XGBoost 以及 SHAP 模型对潜在的 5G 用户进行精准识别和影响 因素分析,从而促进传统电信用户向 5G 用户转变,推动智慧城市构建。

  1 相关模型概述

  1.1 XGBoost 算法原理

  XGBoost(eXtreme Gradient Boosting) 全名叫 极端梯度提升,是一种集成策略算法。该算法以分类的 方式组成 CART 树,并不断往模型中添加新的基分类 器 CART 树以形成新的目标函数去拟合上一步预测的残 差,最终预测值为所有基分类器预测值之和 [7]。假设有 k 棵分类决策树,则通过集成策略得到的预测结果如 式(1)所示 :

\
\
\

 

  2 数据的收集与处理

  2.1 数据的收集与描述

  本文所使用的数据集来源于某运营商平台的客户数 据。该数据集包含 105921 条客户数据, 46 个特征,其 中包含 23047 条 5G 用户数据和 82874 条非 5G 用户数 据。在对定性变量进行量化处理后,部分特征的具体信 息如表 1 所示。

\

 

  2.2 数据的预处理

  本节的预处理包括 :缺失值处理、特征选择以及标 签值不平衡处理。对于缺失值处理,计算各个特征的 缺失比例, 其中缺失比例最大的为 X35. 为 0.07.整体 来看,各特征缺失比例较小。由于本文研究的样本量较 大,对部分特征缺失的样本数据进行删除,对于只含数 值 1 的二分类特征的缺失值进行填补。特征选择是指 按照特定筛选指标从原始数据集特征中搜寻最优特征子 集,从而减少冗余和不相关特征的过程。为筛选出 5G 用户数据集的最优特征子集,本文将通过卡方检验法对 所收集的 5G 用户数据集进行特征选择。最终,该方法 共选取了 19 个特征子集。通过 3.1 节对数据的描述可以 发现,该数据集 5G 用户和非 5G 用户的数量的比值不足 0.3.数据存在明显地不平衡问题。因此,本文将通过 Borderline-SMOTE 过采样方法对 5G 用户数据进行相 应的处理。处理后,两者的类别数将达到相同数量。

  3 模型评估及分析

  模型的预测值和实际值不同类别的交叉,可形成相 应的混淆矩阵。在预测矩阵中, TP 表示实际为 5G 用 户, 预测值也为 5G 用户。FN 表示实际为 5G 用户,但 预测值为非 5G 用户。FP 表示实际不是 5G 用户,但预 测为 5G 用户。TN 表示实际为非 5G 用户, 预测值也为非 5G 用户。

  本实验将采用准确率 (Accuracy)、召回率 (Recall)、 F1-score 以及 AUC 作为模型的性能评价指标。其中准 确率是被预测正确的 5G 用户数与所有 5G 用户数的百分 比 ;召回率表示正确预测为 5G 用户数占实际 5G 用户数 的比例 ;F1-score 是一项综合性评价指标,该值越接近 于 1 表示模型的性能越好。另外, AUC 值也是对模型性 能进行评价的常用指标,它是 ROC 曲线下方所围的面 积。上述相关指标的计算公式如式(5) - 式(7)所示 :

\

 

  本文将在预处理后的 5G 用户数据集上利用 XGBoost 算法建立 5G 潜客识别模型。另外,为了证明该算法性 能的优越性, 本文将与逻辑回归(Logistic Regression, LR)、随机梯度下降(Stochastic Gradient Descent, SGD)、 朴素贝叶斯(Naive Bayesian,NB)、梯度提升决策树 (Gradient Boosting Decision Tree,GBDT) 以及自适 应提升算法(Adaptive Boosting,AdaBoost) 等 5 种 主流模型进行实验结果对比。将处理后的数据按照 7:3 进行划分,其中 70% 作为训练集, 30% 作为测试集, 模型实验后各项指标如表 2 所示。

\

 

  表 2 中,所有模型的随机种子数为 100.其余参数 均为默认参数。从表 2 结果可知, XGBoost 在以上 4 项指标上均优于其余 5 种模型。准确率、召回率、F1- score 以及 AUC 值分别为 94.51%、93.16%、94.44%、 以及 98.48%。相对于最佳模型 GBDT,XGBoost 的准 确率增高了 4.63%, 召回率增高了 4.55%,F1-score 增高了 4.69%,AUC 值增高了 1.66%。另外,NB 的低 性能表明 5G 用户数据集的各变量之间拥有较为复杂的 非线性关系,这恰好适应了 XGBoost 模型的集成策略 和复杂的内部构造,从而表现出最优的性能。

  4 5G 用户的影响因素分析

  5G 潜在用户受诸多因素的影响,本章在第 3 章得到预测性能较优的 XGBoost 模型的基础上,通过引入 SHAP 模型对 5G 潜在用户进行影响因素分析, 找出 5G 潜在用户的关键影响因素以及影响趋势。为探索特 征选取后的特征对 5G 潜在用户的影响程度和它们的分 布情况, 分别计算出该数据集相关特征的 SHAP 值,绘 制了如图 1 所示的各特征的 SHAP 值散点图。

\

 

  该图颜色由蓝到红的深浅表示各特征数值的大小, 横坐标为 SHAP 值。从图 1 可以看出, X26(宽带带宽) 的大小对 5G 潜客识别的影响最大,且该值越大,转变 为 5G 用户的可能性就越大。用户宽带带宽的套餐消费 越高,说明该用户对网速的要求和需求越高,则更向往 高配速的 5G 网络服务,因此这类用户更可能是 5G 客 户的首要对象。另外, X6(当月折后消费)、X33(用 户主资费套餐)以及 X32(用户总套餐价值)对 5G 潜 在用户的影响也较大,且这些值对预测值也是具有正向 影响。另外,为了进一步了解以上重要特征和 5G 潜客 预测值之间的关系以及它们两两之间的交互效应,本文 选取了 X6 和 X10(上月流量使用量)两个特征,分别 绘制了如图 2 所示部分特征的 SHAP 值依赖图。

\

 

  在图 2 中,各子图的横坐标为相应特征的值域,纵 坐标则为其对应的 SHAP 值, 第三坐标为另一交互特征 的值域。从图中可知, X6 值与 SHAP 值存在一种近似 正比例的关系,即当月折后消费数对成为 5G 用户具有 正向作用,且当月折后消费较多、用户总套餐价值较高 时,成为 5G 用户的可能性越大。这一现象符合实际情 况,当月的消费额反映了用户对当前套餐的满足程度, 当消费数较高且超过一定数额时,这类用户接受 5G 套 餐的可能性越大,这也成为相关部门的主要营销依据。 另外, X10 对成为 5G 用户也具有促进作用, 并且在X10 的最大值附近, SHAP 值出现了极大值,说明当上 月流量使用量超过一定峰值时,下月客户成为 5G 用户 的概率最大。上月流量的使用量反映了用户的上网频繁 度,也进一步体现了该用户的用户类别,从而可以进一 步将该类用户进行细分,通过针对性的措施进行精准营 销。以上观点同时也验证了图 1 的结论,相关部分可以 结合两图的变化做出合理调整。

\

 

  5 结语

  如何准确识别 5G 潜在用户,对实现基于 5G 深度 应用的智慧城市建设至关重要。本文基于运营商的部分 客户数据,在对其进行初步的预处理后,利用 XGBoost 算法建立 5G 潜客识别模型,并同时与逻辑回归、随机 梯度下降、朴素贝叶斯、梯度提升决策树以及自适应 提升算法等 5 种主流模型进行实验结果对比,验证了 XGBoost 模型的优越性能。最后,基于 SHAP 模型对 成为 5G 用户进行影响因素分析,识别出了宽带带宽、 当月折后消费以及用户主资费套餐等重要特征。本文的 下一步工作将考虑模型怎样适应多源异构的场景,并增加更多的特征来提升模型的泛化性,从而进一步提高模 型的应用价值。

  参考文献

  [1] 刘晓群,韩志恒.图神经网络在人体骨架序列中的动作识别 [J].软件,2022.43(8):1-3+10.

  [2] 张中健,高士亮,张露,等.基于Stacking多模型融合的超短期 电网负荷预测[J].软件,2022.43(8):131-134+178.

  [3] 张娟.基于聚类算法的5G终端客户价值分析[J].电信快报, 2020(9):29-33.

  [4] 薛龙.基于因子分析和K均值聚类的5G客户挖掘[J].中国市 场,2021(4):120-122.

  [5] 毛建军.基于改进K-Means聚类算法的移动5G手机用户分 类研究[J].网络安全技术与应用,2021(2):40-41.

  [6] 陈锋,李张铮,庄毅莹.基于GBDT算法的潜在5G用户预测研 究与实现[J].邮电设计技术,2021(4):45-49.

  [7] 徐逸,甄佳宁,蒋侠朋,等.无人机遥感与XGBoost的红树林物 种分类[J].遥感学报,2021.25(3):737-752.
 
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/53758.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml