SCI论文(www.lunwensci.com)
摘 要:客户行为数据是证券公司对客户全方位分析的重 要组成部分, 是实现个性化金融服务的基础,但传统检索 方式已经难以满足日益增长的海量客户数据的高性能检索 和分析需求。为此, 本文提出了一种基于分布式非结构化 数据搜索技术Elasticsearch与非结构化文本数据挖掘相结合 的架构,即通过对国元证券客户APP操作日志进行检索, 将客户点击模块的行为实施TF-IDF词频分析, 建立客户行 为的LDA主题模型,并且对客户行为进行K-means聚类。
关键词:Elasticsearch技术,LDA模型,聚类分析,客户行为
一、研究背景
在经历新冠病毒疫情后,各国的金融业数字化均 呈现加速趋势[1] 。面对海量的客户操作行为数据,证 券公司需要利用金融科技的手段去实现对客户访问和 操作的监控分析。Elasticsearch是一个准实时的分布式 搜索和分析引擎,其建立在全文搜索引擎框架Apache Lucene基础之上,能够帮助大数据需求企业使用该技 术,提供前所未有的搜索速度,提升分析和数据挖掘 效率。目前,Elasticsearch在搜索领域有大量的成功 应用案例:维基百科使用Elasticsearch进行全文搜索 并高亮显示关键词;StackOverflow采用Elasticsearch将 全文搜索与地理位置和相关信息进行结合;GitHub使 用Elasticsearch来检索超过上千亿行代码[2-3] 。因此, Elasticsearch可以作为实时分析大量客户访问数据的架 构选择。
近些年, 大多数学者将客户在微博、资讯、在 线评论的访问日志作为非结构化数据,将其访问的 日志关键字和分词后的高权重TF-IDF构建Document matrix,建立LDA模型提炼主题。通过LDA对客户偏好进行刻画和分类;通过文本-词频矩阵将访问日志和 一些文本数据等非结构化数据转化成结构化数据,再 利用文本分析的模型和机器学习模型对客户的行为进 行聚类分析[4-6] 。结合Elasticsearch架构可以对数十亿级 别的客户访问日志数据进行聚类分析,实时提取客户 的访问行为,可以更好地了解客户的行为偏好,制定 适合策略服务客户,创造更高的价值。
本文依靠Elasticsearch技术提取国元证券的“国 元点金APP”日志,对客户操作APP对应模块行为进 行LDA分析,生成客户点击模块主题,提取主题-文 档分布识别最优的主题,利用文本聚类细分客户的行 为偏好,分析国元证券客户操作行为。提出一种基于 Elasticsearch架构,结合LDA算法、文本聚类算法以及 可视化技术的国元证券客户操作行为监控的智能技术 架构。
二、Elasticsearch技术介绍
Elasticsearch技术是一个分布式的免费开源搜索 和分析引擎,适用于包括文本、数字、地理空间、 结构化和非结构化数据等在内的所有类型的数据。 Elasticsearch在Apache Lucene的基础上开发而成,以 其简单的REST风格API、分布式特性、速度和可扩 展性获得大数据技术使用者的普遍认可,是Elastic Stack的核心组件。Elastic Stack是一套适用于数据 采集、存储、分析和可视化的免费开源工具,包括 Elasticsearch、Logstash、Kibana和Beats。
Elasticsearch是面向文档型分布式搜索引擎,这意 味着它存储的是整个对象或者文档,不仅存储数据, 还可以为数据建立索引,这样使用者就可以对内容进行搜索。在Elasticsearch中可以索引、搜索、排序和过 滤文档,不需要传统关系型数据库成行成列的数据。 Elasticsearch在避免复杂的分布式系统做了很多工作, 很多操作都是自动完成的:可以将文档分区到不同容 器或者分片中,这些文档可能被存在一个节点或者多 个节点;跨节点平衡集群中节点间索引与搜索负载; 自动复制数据以提供冗余副本,防止硬件错误导致数 据丢失;自动在节点之间路由,以帮助使用者找到所 需要的数据;支持无缝扩展或者恢复集群[4]。
三、基于LDA模型的客户访问日志主题提取
隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型由Blei等人于2003年提出,是一种典型 的“词袋”模型。它通过构建“文本-主题-词”三层 的贝叶斯结构,将文本集中每篇文本的主题以概率分 布的形式给出,从而根据主题分布进行主题分类(文本 分类)。LDA主题模型在文本挖掘领域中的文本主题识 别、文本分类及相似度计算等方面都有广泛应用。
“文本-主题-词”三层贝叶斯结构包括两部分: “文本-主题”,即根据文本d以一定概率生成主题z; “主题-词”,即根据主题z以一定概率生成词w。文本 中每个词出现的条件概率可分成两部分。
图2是LDA主题模型的概率图,展示了LDA模型中 一篇文本生成的步骤。
四、基于文本聚类的客户访问日志特征模式提取
传统的聚类分析算法不仅可以用在文本数据上, 对其他数据也具有通用性。针对文本表示的不同形 式,使用的聚类算法也有所区别,文本聚类主要可 以分为三类方法:划分聚类方法、层次聚类方法和基 于标准参数化模型的方法。本文基于Elasticsearch搜 索技术,可以快速获取大数据级别的客户访问日志, 文本聚类上首先通过LDA主题算法对研究客户进行主 题分布计算,基于每一位研究客户的数据由聚类算法 K-means实施聚类,用K-means做文本聚类的优点是可 以快速收敛算法,计算的时间复杂度较小,可以判断 各类中心不同类别的客户行为模式特征。
K-means聚类算法对异常值和不对称数据更稳健, 特别是能够容纳混合类型数据。与此同时,与K-means 算法将簇内样本特征均值作为簇中心点特征,所不同 的是该算法输出的簇中心点为实际样本点,这使得本 研究根据簇中心点提炼簇特征,使研究任务得到客观 的结论。在基于高尔相异度系数的PAM聚类算法中, 将中心点定义为与簇内其他所有样本点高尔相异度最 小的样本对象,算法的收敛条件是当所有样本点到它 所在聚类中心点的相异度之和(总相异度)达到最小 时算法停止[6]。具体迭代步骤如下:
第1步随机选择 k 个对象作为初始中心点;
第2步遍历数据点,将每个对象分配至最近的中 心点;
第3步随机选择一个非中心点对象替换中心点,并 计算相异度的变化;
第4步选择能使总相异度最小的方案;
第5步重复2-4步,直至中心点不再变化。
五、Elasticsearch技术驱动的客户操作行为实时 监控
本研究依靠Elasticsearch技术提取国元点金APP日 志,对研究时段内APP的对应模块的客户操作行为进 行提取记录,例如:
客户1:模块A,100次。模块B,20次。模块C,3次。
客户2:模块A,120次。模块B,200次。模块C, 30次。
根据每位客户的点击行为模块作为文本分析的词 条,通过建立LDA模型对其行为模型进行分析。构建 客户—行为模块矩阵,进行聚类分析,判断不同类别 客户的行为偏好。主要借助R平台的rJava、Rwordseg、 RcolorBrewer、wordcloud2、lda等。
(一)客户行为模块监控
利用Elasticsearch技术的快速处理能力,将输出结 果与R平台对接,构建了日访问量过万的客户访问模块 实时词云图,如图3所示。可以看到,客户点击最多的 APP模块是投顾社区、视频直播模块。客户更多的选 择在APP投顾社区去进行投资交流,其次是选择视频 直播的方式了解国元证券投资顾问对证券市场的投资 策略。“筹码分布”“决策工具”“金融商城”“股 票扫雷”和“投资学堂”模型的点击访问量偏低。
进一步可以借助R平台中TF-IDF对每位客户点击 模块频次执行TF-IDF计算并可视化,图4是部分客户的 主要行为记录的可视化展示。
TF-IDF衡量的是每个客户其代表性的模块行为 的程度,其可以显著区别和其他客户的不同,可以看 到,不同客户的行为偏好是不一样的。例如,第一位客户行为偏向新股日历,第二位客户行为更偏向大盘 诊断,第三位客户更偏向于智能选股模块。
(二)客户行为主题分析
根据Elasticsearch技术实时将数据对接到R平台, 快速将客户-模块的点击数据转化为文档-词条矩 阵,根据困惑度和一致性确定LDA模型的最优主题数,对客户的操作行为构建行为主题,实时分析客户 的行为偏好。图5是实时构建的LDA客户行为主题分析 可视化结果。
可视化结果显示将客户的行为整体分为五大主 题,分别是“活动专区”“投顾社区”“资讯中 心”“视频直播”和“新股日历”五种行为模型。为 了进一步分析五大主题行为模型的客户占比,借助R平 台的heat绘制了主题分布热力图进行可视化(如图6) 所示。
热力图的y轴是客户代码(折叠显示),本文主 要关注客户的行为主题分布。可以看到,客户的行为 最多的是主题4和主题2.即“视频直播”和“投顾社 区”,大部分客户偏向于在APP中以视频直播的方式 证券投资参考,以及更多地参与到投顾社区的咨询。 第二大行为主题是主题3“资讯中心”,说明一部分客 户更偏向于研究型,通过在APP中查看证券资讯获取 有价信息,辅助决策。“新股日历”主题模块的访问 客户数量最少。
(三)客户行为聚类分析
通过Elasticsearch技术快速提取客户的操作日志, 嵌入R平台的K-means包中,通过对其客户行为主题的 聚类将客户的行为特征进行分类,以实时监控不同类 别的客户的关键行为特征。采用K-means算法对客户的 主题行为进行聚类,聚类结果可视化如图7所示。
通过聚类分析,客户行为特征可分为四类,第一 类客户偏向于查看新股日历,但其很少观看视频直 播,对投资顾问市场观点较少参考。第二类客户具 备显著的自主研究特征,通过“资讯中心”“视频直 播”获取证券投资信息及投资顾问实时观点。第三类 客户是服务依赖度高,操作行为以“听”和“问”为 主,访问“视频直播”和“投顾社区”,倾听投资策 略的同时,进行相关的问题咨询。第四类客户不热衷 于投资相关的功能,对APP内的资讯、工具、投顾服 务等模块极少操作,而倾向于访问“活动专区”,偏 向参与活动的乐趣或奖励。
六、研究结论
本文借助Elasticsearch对非结构化数据的存储和搜 索能力,结合R平台的文本处理接口,以国元证券客 户APP访问日志为研究对象,进行客户行为模块的TF- IDF计算、LDA主题分析以及行为特征分类,构建了国 元证券客户操作行为的监控分析框架,对客户的行为 模块点击量、行为主题以及客户的行为特征分类进行 了研究。应用的实现可视化结果表明:“投顾社区” 和“视频直播”的客户点击量最高;客户行为主题可 以分为“活动专区”“投顾社区”“资讯中心”“视 频直播”和“新股日历”等五类,其中“视频直播” 和“投顾社区”的行为主题的客户最多;根据客户行 为主题分布实施聚类分析,得到四种行为偏好客户, 分别是偏向查看新股信息、关注资讯和研究、重视投 资顾问服务以及关注运营活动四类。
参考文献
[1] 王雅静,郭强,邓春燕,等.基于LDA主题模型的用户特征 预测研究[J].复杂系统与复杂性科学,2020.17(4):9-15.
[2] 张姣.基于主题模型的资讯推荐系统的研究与实现[D].上 海交通大学,2015.
[3] 李锐,张伟彬.基于TF-IDF算法和LDA主题模型数据挖掘 技术在电力客户抱怨文本中的应用[J].自动化技术与应 用,2018.37(11):46-50.
[4] Kuc R,Rogozinski M.ElasticSearch server[M].Packt Publishing Ltd,2013.
[5] Jelodar H,Wang Y,Yuan C,et al.Latent Dirichlet allocation(LDA)and topic modeling:models, applications,a survey[J].Multimedia Tools and Applications,2019.78(11):15169-15211.
[6] Likas A,Vlassis N,Verbeek J J.The global k-means clustering algorithm[J].Pattern recognition,2003.36(2): 451-461.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/guanlilunwen/66709.html