SCI论文(www.lunwensci.com):
摘要:数字化的时代只有利用好线上渠道实现高并发地服务大批量客户,经营者才能在客户市场争夺中取得先机。而为了进一步保证服务的质量,需要建立全流程数据采集应用系统获取准确完备的数据,以数据为原材料,利用计算机统计和人工智能等方式完成决策。大数据系统的方案设计,利用数据实现统计分析和画像聚类,采用极限梯度提升算法Xgboost模型输出的客户价值概率作为客户分类和优质客户筛选的依据,辅助人工完成对客户类型的提前预判;通过自动化作业流程和Tableau报表设计每日对员工工作量与客户转化效果进行统计和可视化通报,实现员工绩效回算达成全系统闭环反馈。当系统实现了更体系化的数据存储管理、更精准化的客群划分、更及时化的闭环监控后,明显获得高质量的差异化经营,为上亿数量级的客户提供个性化服务,达到更优的客户体验效果。项目方案投产后,客户的各项转化率较期初均有1.5~10倍的提升。
关键词:数据系统设计;统计报告自动化;大数据;Xgboost客户分类模型
Big Data System Design,Analysis and Modeling for the Purpose of Personalized Customer Management and Closed-loop Feedback of Employee Performance
Su Zhiyi,Ji Wenkui,Wang Yuting
(Cyber User Management and Service Center of China Merchants Bank,Shenzhen,Guangdong 518000,China)
Abstract:Only when they make better use of online channel to serve a large number of customers with high concurrency,can the operators obtain preemptive opportunity in client market contention in the digital era.In order to further ensure the quality of service,they also need to establish the data acquisition application system to obtain accurate and complete data of the whole managing process,take data as raw materials,use computer statistics and artificial intelligence and other ways to complete the decision.The solution of out project implements statistical analysis and customer clustering with the help of data and calculated the value probability of each customer using Xgboost algorithm,assisted manual to complete customer type prediction in advance.Further more,automated workflow and Tableau reports were used to make daily statistics and visual notification of employee workload and customer transformation effect,finishing the whole system closed-loop feedback.Only by realizing more systematic data storage and management,more accurate customer group division,and more timely closed-loop monitoring,can achieve high-quality differentiated customer management,provide personalized services for hundreds of millions of customers,and achieve better customer experience.After the project was put into operation,the customer's conversion rate increased by 1.5 to 10 times compared with the beginning.
Key words:data system design;automation of statistical reports;big data;Xgboost customer classification model
0引言
设计系统主要内容为一项以突破线上与线下渠道的断点为目的,突破传统的以单个员工经验为主导的服务模式,并充分以客户客观属性与历史行为数据为基础打造的,以全新模式实现到店客户的及时经营与离店线上精准触达的项目。该项目设计的出发点是,在手机的普及与电商的发展的时代,传统金融机构也逐步将经营服务的阵地从线下往线上转移,手机银行App也从仅提供查账转账等基本功能的轻型软件,升级至为客户提供账户管理、产品咨询与推荐、产品交易、资讯共享、城市服务与社区分享等一站式服务的平台。在业务平台的定位发生质变的同时,管理者希望经营模式也能从“每位个体经营人员依靠个人经验主观判断客户诉求”逐步向“系统以客观数据事实为基础对不同层次客户需求进行预测并能有效指导员工高效进行客户经营服务”迭代。当业务发展对整个经营流程提出高效、个性化、可闭环等要求时,进行系统的流程设计和整体方案规划就显得尤为重要。在此领域已经提出“数据中台”[1]概念的基础上,完善数据存储实现数据资产管理,依靠利用沉淀的业务数据为基石结合大数据算法,通过计算机挖掘隐藏规律替代经验完成决策[2],充分融合兼顾“人工”和“智能”的元素。“基于客户个性化经营与员工绩效闭环反馈的大数据统设计与分析建模”专题就是围绕这样的出发点产生与落地的。
1业务流程与数据分析
线上化的流程和系统固然能给客户提供更便捷、不受时间和空间所制约的服务,但也对经营者提出更大的挑战:面对千万级至亿级客户的并发到访,要求更精准地对客户进行客群划分,实现差异化经营[3],为客户提供个性化服务推荐。因此在“得数据者得天下”的大数据时代,不能忽略数据的客观性和潜在价值,充分利用数据挖掘更接近客观事实的规律,实时提供绩效监控数据以快速校正优化服务客户完成操作。
1.1业务流程
根据项目需求和业务流程框架,设计了基于客户个性化经营与员工绩效回算的闭环系统,按照方案实施后的整个业务的流转逻辑,如图1所示。全流程数据采集应用系统的运转方式表明,贯穿整个业务流程,使得系统能运转落地的重要因子就是“数据”,如何让数据在各个环节之间传递有价值的信息,显得尤为关键。
图1全流程数据采集应用系统
1.2数据分析
如何进行数据的采集、数据的清洗与存储、数据的应用与策略落地,不仅是大数据技术的重要环节,也是当前业务需要关注和重点设计的部分。图2所示为整个系统方案中的数据流程框架。
图2数据流程框架
(1)采集到的数据在存储阶段会天然地清洗掉部分格式登记有误、表结构无法兼容或关键信息为空无法录入的脏数据。
(2)在数据分析阶段,利用各系统底层数据的唯一ID进行数据的合并关联。并基于业务需求筛选出与当期业务目标相关性高的数据特征,清洗[4]或标注业务关键指标为空值的记录。
(3)数据分析通常会利用分箱、计算均值和分布、简单回归拟合等计算方式进行。主要使用统计分析[5]和画像聚类两种途径。
通过统计分析针对大量客户样本的重点结果指标进行汇总,以通报报表的形式直接对业务成效进行呈现;采用画像分析[6]对客户进行基础特征分层与人群计算,并在此基础上对客群内部的行为特征[7]进行聚类或对行为模式进行探索挖掘,通过个性化推荐[8]的方式直接落地到客户使用场景。
为实现数据链路的闭环,需对客户的二次行为通过相关埋点进行采集和回送,持续迭代、优化模型和规则的准确性。
2数据的建模、运用与统计
业务流程框架是为业务策略能按照业务规则分阶段落地服务,数据流程框架是为支持业务系统间的数据传递流转服务的,而系统实现“智能”的关键就是足量数据特征的获取和特征的合理使用,以下将对系统组成的几个重要环节的设计要点进行展开说明。
2.1页面埋点的设计与系统间参数传递
如图3所示,当基于业务需求,进行新产品设计或在原产品上新增模组时,除了要保证客户使用层面上基本功能的实现,还需要为数据回流回检做铺垫,规范完备的埋点设计就是第一步。“规范”体现在:需要在统一框架格式下进行编码以进行管理和检索,且能避免后续数据映射的错乱;“完备”体现在:任何一个提供给客户交互的环节都应设置埋点,才能在客户与页面交互的瞬时获取到操作日志并记录。埋点的设计会决定日志数据的维度和粒度,对后续分析、建模时对客户行为特征的获取起到重要的作用。除了对交互页面需要进行埋点管理和设计,页面的参数入口预留与系统间传参及记录也至关重要。在各系设计允许的情况下,尽可能将ID信息、时点状态等进行逐层传递,以减少后续在离线端使用未及时更新的数据进行关联匹配,影响特征的准确性。
图3页面埋点框架示意图
2.2数据的建模与输出结果应用
获取到规范准确且足量的数据后,为进一步提高客户转化效果,需对客户进行分类分层的个性化经营。初期通过“客户画像与组合特征客户标注的特征”的方式,“高价值”客户转化效果并不理想。因此,在合理利用画像分析初步结论的基础上,考虑将系统中生成存储的近100多个客户基础属性标签纳入分析标组、分箱统计与分层抽样、行为特征对比、特征组合等方法完善建模的特征工程。对当年的全部数据采样出1000 w量级的样本,进行影响因子的分析与分类模型的价值概率输出。
(1)数据模型算法的选择
分类模型的选择主要是在集成算法[9]中进行挑选,主流有套袋法(bagging)和提升法(boosting)两种方式[10],核心都是训练由弱分类器组合的强分类器,其中,bagging采用的是有放回抽样式的并行训练方式,假设每个基模型的权重ri=,方差为σ。bagging的基模型间相关系数ρ、期望μ近似相等,故bagging模型的总体期望为:
因此bagging主要是通过增加基模型数量减少模型的方差,但是期望和基模型是接近的。相反,boosting模型的训练是串行的,每个基模型都会在前一个基模型学习的基础上进行学习,模型间的相关系数近似等于1:
由此可见,整体模型的期望由基模型的期望累加而成,所以随着基模型数的增多,整体模型的期望值增加、准确度提高;但要保证框架中的基模型使用弱模型,以降低方差。
本项目中的模型训练流程,分别使用随机森林(randomforest)[11]和极限梯度提升算法(xgboost)[12]两类基于决策树的模型进行效果对比,并尝试用IV值(information value)的指标,来对系统内固有的用户标签进行特征初筛。其中,IV值代表利用自变量的WOE证据权重来衡量输入对输出的预测能力。
(2)模型训练的效果
所有模型的训练,采用的是同一批样本和同样的特征列,表1为随机森林混淆矩阵,表2所示为Xgboost1混淆矩阵。其中按照模型预测的结果和样本实际的分类,计算出4个基本因子的统计值:TP=True Postive(预测正实际正),FP=False Positive(预测正实际负),FN=False Negative(预测正实际正)及TN=True Negative(预测负实际负)。不同模型的混淆矩阵结果如表3所示。
基于混淆矩阵计算模型效果,对模型效果的判断主要依靠同一阈值下的混淆矩阵所求出的所有样本分类预测正确的占比准确率(Accuracy),和正样本中预测为正的占比召回率(Recall)。常用的衡量指标表达式如下。
准确率

即被正确分类的样本比例或数量;
召回率
常用来衡量分类器对正例类别的敏感程度。
故计算结果如表4所示。
使用同一组历史样本数据建模,验证集上的效果显示:经过特征筛选后的Xgboost模型拥有更好的预测效果,因此采用Xgboost模型2输出的客户价值概率作为客户分类依据。
建模并对模型训练调整优化后,使用新一周期的样例数据进行测试,在同一概率阈值下仍可获得84.39%的准确率和的94.42%召回率,模型具有较好的泛化能力。
(3)模型投产效果对比
模型分类结果投产后,一线在承接客户需求时系统会计算出客户的价值概率,客户经理可根据客户的价值概率取值与当前的闲忙状态,合理调整自己的预期阈值,为不同概率区间的客户提供不同方向层面的服务或引导。模型投产后整体客户转化效果提升较为显著,客户分类模型投产前后效果对比如图4所示。
2.3自动化统计可视化通报
当流程和系统都完成搭建之后,整个业务就可以按照规划的框架运作。为保证项目的正常运作,日常的统计通报需要紧跟上线,才能更及时地获取一线员工执行情况、实现业绩效果监控闭环。
数据采集应用系统改进往常按照执行脚本代码、导出统计数据、加工图表、生成并发送报告等步骤,以作业调度系统和自动导数工具搭建作业组合,结合软件Tableau平台开发商业智能报表,创新设计自动化统计通报可视化看板。统计计算如图5所示。
自动作业组合依靠SQL语言和kettle[13]软件完成每日数据清洗汇总和简单的统计分析,主要包括按时间、客群、场景等维度的统计;员工维度的绩效明细;客户效果维度的增量增幅、转化占比;分行维度的排名比对等要素,基于自动作业加工后的数据,使用Tableau[14]开发的商业智能报表,将统计结果表达为:多轴图实现当期数据的趋势监控,简单柱状图自排序实现分类对比,各类表计算/字段计算嵌套实现同环比,合理利用时间参数可便捷回溯历史状态[15]。报表开发完成后,只需要更新后台数据,便可以一致的风格和统一的数据发布给不同的使用方。
自动作业组合保证了统计结果的自动按日以同一逻辑更新底层数据,较好地保证了数据执行的准时准确性。而选择使用Tableau开发商业智能报表,则实现将统计结果转化为宽表、图表,以一致的风格呈现发布,且随时可回溯历史状态。部分呈现内容数据指标看板如图6所示。
3应用效果分析
为了更好地衡量整个系统及模型的使用对实际业务效果的影响,使用模拟对照实验的方法对项目效果进行评估,图7所示为项目持续提升效果对比。
项目前期阶段,为了证明通过系统引流和数据回检的方式在打通线上线下渠道壁垒、连通客户服务的断点、通过业绩精准回算帮助中台快速完成效果分析及员工辅导等方面有综合且显著的效果,在试运行阶段在不同等级的分支行中随机抽取试点行做效果测算。通过客户在各渠道的持续活跃情况、以及资产持续达标、复杂产品配置等综合评价,得到如图7中01对标组和02实验组的效果对比。线上线下联动后,客户在各渠道的黏性和产品持有比例都有显著提升,线上渠道的灵活性和非时空限制性可以为客户诉求的达成提供便利,跳出“客户首面”的场景局限,大大提升了客户转化的可能性。此外,在手机App的依托下,线上渠道更容易让客户产生使用习惯,促成客户的品牌依赖性,实现客户深度绑定。
项目中后期,为进一步做好精细化、差异化、个性化客户经营,将2.2所述的客户分类模型投产后,客户转化效果又出现新的拐点。如图7中03实验增强组所示:当客户模型的输出结果辅助员工完成客户的转化价值预判后,客户经理可以根据实际情况调配单位客户的承接时长与深度。对于价值概率高的客户及时深挖、调取适配的个推产品刺激客户潜在需求,加速客户的转化效率。而对于价值概率偏低客户,需要为客户当期需求提供良好解决方案,提升客户满意度的同时为客户对品牌的认可奠定基础,也减少在客户意向较低时过量的推销类行为带来的客户投诉抱怨而导致未来高价值客户流失的可能。有的放矢的模式,缩短了探索了解客户的时长、提供客户管理经营的效率,对各个分支行的客户整体转化率和长期经营成效都有显著帮助。
4结束语
综上,“基于客户个性化经营与员工绩效闭环反馈的大数据系统”很好地解决了客户到店完成业务办理后持续经营的断点问题,整个系统参考数据中台搭建的基本原理,从数据的产生环节开始规划,打通前台客户业务和后台数据分析之间的通路,整个系统及数据对外通过客户分类模型评估客户需求为客户输出对应的服务,对内利用自动化工具和智能报表对员工绩效统计完成回算,辅助员工对客户转化效果进行及时回检和校正。以系统为依托的数据全流程流转,使得当期数据持续闭环正反馈于下一周期的策略执行,突破以个人经验为主导模式下的探索式经营,往数字化、智能化、可量化方向发展,以数据为先导挖掘客观事实,用数据为度量公平衡量结果,是经营模式上的突破性尝试,亦可作为其他业务场景的数据系统流程设计与数据收集积累应用的方案经验。
参考文献:
[1]付登坡,江敏.数据中台(让数据用起来)[M].1版.北京:机械工业出版社,2020.
[2](英)迈尔-舍恩伯格,(英)库克耶,盛杨燕,等.大数据时代(生活工作与思维的大变革)[M].1版.杭州:浙江人民出版社,2013.
[3](日)大前研一若松茂美.麦肯锡经营战略系列:麦肯锡成熟期差异化战略[M].天津:天津人民出版社,2018.
[4]谢东亮,黄天春.数据清洗基础与实践[M].西安:西安电子科大出版社,2019.
[5]埃维森.统计学基本概念和方法[M].北京:高等教育出版社,2020.
[6]赵宏田.用户画像:方法论与工程化解决方案[M].北京:机械工业出版社,2020.
[7]锡南·厄兹代米尔.特征工程入门与实践[M].1版.北京:人民邮电出版社,2019.
[8]吕苗.基于情境的商品个性化推荐方法研究[M].1版.沈阳:东北大学出版社,2018.
[9](印度)阿洛克·库马尔(Alok Kumar),(印度)马扬克·贾因(Mayank Jain).集成学习入门与实战:原理、算法与应用[M].1版.北京:化学工业出版社,2022.
[10]周志华.machine learning机器学习[M].1版.北京:清华大学出版社,2016.
[11]王奕森,夏树涛.集成学习之随机森林算法综述[J].信息通信技术,2018(1):49-55.
[12]陈天奇.introduction of boosting tree[OL].https://www.csdn.net/tags/MtjaggzsMDA0ODItYmxvZwO0O0OO0O0O.html
[13]林子雨.数据采集与预处理[M].1版.北京:人民邮电出版社,2022.
[14]喜乐君.业务可视化分析-从问题到图形的tableau方法[M].1版.北京:电子工业出版社出版,2021.
[15]刘红阁,王淑娟,温融冰.人人都是数据分析师Tableau应用实战[M].2版.北京:人民邮电出版社,2019.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/ligonglunwen/49749.html