Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 管理论文 > 正文

基于Elasticsearch技术的企业客户操作行为研究——以国元证券为例论文

发布时间:2023-11-09 13:35:28 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)
 
   摘 要:客户行为数据是证券公司对客户全方位分析的重 要组成部分, 是实现个性化金融服务的基础,但传统检索 方式已经难以满足日益增长的海量客户数据的高性能检索 和分析需求。为此, 本文提出了一种基于分布式非结构化 数据搜索技术Elasticsearch与非结构化文本数据挖掘相结合 的架构,即通过对国元证券客户APP操作日志进行检索, 将客户点击模块的行为实施TF-IDF词频分析, 建立客户行 为的LDA主题模型,并且对客户行为进行K-means聚类。

  关键词:Elasticsearch技术,LDA模型,聚类分析,客户行为

  一、研究背景

  在经历新冠病毒疫情后,各国的金融业数字化均 呈现加速趋势[1] 。面对海量的客户操作行为数据,证 券公司需要利用金融科技的手段去实现对客户访问和 操作的监控分析。Elasticsearch是一个准实时的分布式 搜索和分析引擎,其建立在全文搜索引擎框架Apache Lucene基础之上,能够帮助大数据需求企业使用该技 术,提供前所未有的搜索速度,提升分析和数据挖掘 效率。目前,Elasticsearch在搜索领域有大量的成功 应用案例:维基百科使用Elasticsearch进行全文搜索 并高亮显示关键词;StackOverflow采用Elasticsearch将 全文搜索与地理位置和相关信息进行结合;GitHub使 用Elasticsearch来检索超过上千亿行代码[2-3] 。因此, Elasticsearch可以作为实时分析大量客户访问数据的架 构选择。

  近些年, 大多数学者将客户在微博、资讯、在 线评论的访问日志作为非结构化数据,将其访问的 日志关键字和分词后的高权重TF-IDF构建Document matrix,建立LDA模型提炼主题。通过LDA对客户偏好进行刻画和分类;通过文本-词频矩阵将访问日志和 一些文本数据等非结构化数据转化成结构化数据,再 利用文本分析的模型和机器学习模型对客户的行为进 行聚类分析[4-6] 。结合Elasticsearch架构可以对数十亿级 别的客户访问日志数据进行聚类分析,实时提取客户 的访问行为,可以更好地了解客户的行为偏好,制定 适合策略服务客户,创造更高的价值。

  本文依靠Elasticsearch技术提取国元证券的“国 元点金APP”日志,对客户操作APP对应模块行为进 行LDA分析,生成客户点击模块主题,提取主题-文 档分布识别最优的主题,利用文本聚类细分客户的行 为偏好,分析国元证券客户操作行为。提出一种基于 Elasticsearch架构,结合LDA算法、文本聚类算法以及 可视化技术的国元证券客户操作行为监控的智能技术 架构。

  二、Elasticsearch技术介绍


\

 
  Elasticsearch技术是一个分布式的免费开源搜索 和分析引擎,适用于包括文本、数字、地理空间、 结构化和非结构化数据等在内的所有类型的数据。 Elasticsearch在Apache Lucene的基础上开发而成,以 其简单的REST风格API、分布式特性、速度和可扩 展性获得大数据技术使用者的普遍认可,是Elastic Stack的核心组件。Elastic Stack是一套适用于数据 采集、存储、分析和可视化的免费开源工具,包括 Elasticsearch、Logstash、Kibana和Beats。

  Elasticsearch是面向文档型分布式搜索引擎,这意 味着它存储的是整个对象或者文档,不仅存储数据, 还可以为数据建立索引,这样使用者就可以对内容进行搜索。在Elasticsearch中可以索引、搜索、排序和过 滤文档,不需要传统关系型数据库成行成列的数据。 Elasticsearch在避免复杂的分布式系统做了很多工作, 很多操作都是自动完成的:可以将文档分区到不同容 器或者分片中,这些文档可能被存在一个节点或者多 个节点;跨节点平衡集群中节点间索引与搜索负载; 自动复制数据以提供冗余副本,防止硬件错误导致数 据丢失;自动在节点之间路由,以帮助使用者找到所 需要的数据;支持无缝扩展或者恢复集群[4]。

  三、基于LDA模型的客户访问日志主题提取

  隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型由Blei等人于2003年提出,是一种典型 的“词袋”模型。它通过构建“文本-主题-词”三层 的贝叶斯结构,将文本集中每篇文本的主题以概率分 布的形式给出,从而根据主题分布进行主题分类(文本 分类)。LDA主题模型在文本挖掘领域中的文本主题识 别、文本分类及相似度计算等方面都有广泛应用。

  “文本-主题-词”三层贝叶斯结构包括两部分: “文本-主题”,即根据文本d以一定概率生成主题z; “主题-词”,即根据主题z以一定概率生成词w。文本 中每个词出现的条件概率可分成两部分。


\

 
  图2是LDA主题模型的概率图,展示了LDA模型中 一篇文本生成的步骤。


\

 
  四、基于文本聚类的客户访问日志特征模式提取

  传统的聚类分析算法不仅可以用在文本数据上, 对其他数据也具有通用性。针对文本表示的不同形 式,使用的聚类算法也有所区别,文本聚类主要可 以分为三类方法:划分聚类方法、层次聚类方法和基 于标准参数化模型的方法。本文基于Elasticsearch搜 索技术,可以快速获取大数据级别的客户访问日志, 文本聚类上首先通过LDA主题算法对研究客户进行主 题分布计算,基于每一位研究客户的数据由聚类算法 K-means实施聚类,用K-means做文本聚类的优点是可 以快速收敛算法,计算的时间复杂度较小,可以判断 各类中心不同类别的客户行为模式特征。

  K-means聚类算法对异常值和不对称数据更稳健, 特别是能够容纳混合类型数据。与此同时,与K-means 算法将簇内样本特征均值作为簇中心点特征,所不同 的是该算法输出的簇中心点为实际样本点,这使得本 研究根据簇中心点提炼簇特征,使研究任务得到客观 的结论。在基于高尔相异度系数的PAM聚类算法中, 将中心点定义为与簇内其他所有样本点高尔相异度最 小的样本对象,算法的收敛条件是当所有样本点到它 所在聚类中心点的相异度之和(总相异度)达到最小 时算法停止[6]。具体迭代步骤如下:

  第1步随机选择 k 个对象作为初始中心点;

  第2步遍历数据点,将每个对象分配至最近的中 心点;

  第3步随机选择一个非中心点对象替换中心点,并 计算相异度的变化;

  第4步选择能使总相异度最小的方案;

  第5步重复2-4步,直至中心点不再变化。

  五、Elasticsearch技术驱动的客户操作行为实时 监控

  本研究依靠Elasticsearch技术提取国元点金APP日 志,对研究时段内APP的对应模块的客户操作行为进 行提取记录,例如:

  客户1:模块A,100次。模块B,20次。模块C,3次。

  客户2:模块A,120次。模块B,200次。模块C, 30次。

  根据每位客户的点击行为模块作为文本分析的词 条,通过建立LDA模型对其行为模型进行分析。构建 客户—行为模块矩阵,进行聚类分析,判断不同类别 客户的行为偏好。主要借助R平台的rJava、Rwordseg、 RcolorBrewer、wordcloud2、lda等。

  (一)客户行为模块监控

  利用Elasticsearch技术的快速处理能力,将输出结 果与R平台对接,构建了日访问量过万的客户访问模块 实时词云图,如图3所示。可以看到,客户点击最多的 APP模块是投顾社区、视频直播模块。客户更多的选 择在APP投顾社区去进行投资交流,其次是选择视频 直播的方式了解国元证券投资顾问对证券市场的投资 策略。“筹码分布”“决策工具”“金融商城”“股 票扫雷”和“投资学堂”模型的点击访问量偏低。


\


\
\




 
  进一步可以借助R平台中TF-IDF对每位客户点击 模块频次执行TF-IDF计算并可视化,图4是部分客户的 主要行为记录的可视化展示。

  TF-IDF衡量的是每个客户其代表性的模块行为 的程度,其可以显著区别和其他客户的不同,可以看 到,不同客户的行为偏好是不一样的。例如,第一位客户行为偏向新股日历,第二位客户行为更偏向大盘 诊断,第三位客户更偏向于智能选股模块。

  (二)客户行为主题分析

  根据Elasticsearch技术实时将数据对接到R平台, 快速将客户-模块的点击数据转化为文档-词条矩 阵,根据困惑度和一致性确定LDA模型的最优主题数,对客户的操作行为构建行为主题,实时分析客户 的行为偏好。图5是实时构建的LDA客户行为主题分析 可视化结果。

  可视化结果显示将客户的行为整体分为五大主 题,分别是“活动专区”“投顾社区”“资讯中 心”“视频直播”和“新股日历”五种行为模型。为 了进一步分析五大主题行为模型的客户占比,借助R平 台的heat绘制了主题分布热力图进行可视化(如图6) 所示。

\

 
  热力图的y轴是客户代码(折叠显示),本文主 要关注客户的行为主题分布。可以看到,客户的行为 最多的是主题4和主题2.即“视频直播”和“投顾社 区”,大部分客户偏向于在APP中以视频直播的方式 证券投资参考,以及更多地参与到投顾社区的咨询。 第二大行为主题是主题3“资讯中心”,说明一部分客 户更偏向于研究型,通过在APP中查看证券资讯获取 有价信息,辅助决策。“新股日历”主题模块的访问 客户数量最少。

  (三)客户行为聚类分析

  通过Elasticsearch技术快速提取客户的操作日志, 嵌入R平台的K-means包中,通过对其客户行为主题的 聚类将客户的行为特征进行分类,以实时监控不同类 别的客户的关键行为特征。采用K-means算法对客户的 主题行为进行聚类,聚类结果可视化如图7所示。


\

 
  通过聚类分析,客户行为特征可分为四类,第一 类客户偏向于查看新股日历,但其很少观看视频直 播,对投资顾问市场观点较少参考。第二类客户具 备显著的自主研究特征,通过“资讯中心”“视频直 播”获取证券投资信息及投资顾问实时观点。第三类 客户是服务依赖度高,操作行为以“听”和“问”为 主,访问“视频直播”和“投顾社区”,倾听投资策 略的同时,进行相关的问题咨询。第四类客户不热衷 于投资相关的功能,对APP内的资讯、工具、投顾服 务等模块极少操作,而倾向于访问“活动专区”,偏 向参与活动的乐趣或奖励。

  六、研究结论

  本文借助Elasticsearch对非结构化数据的存储和搜 索能力,结合R平台的文本处理接口,以国元证券客 户APP访问日志为研究对象,进行客户行为模块的TF- IDF计算、LDA主题分析以及行为特征分类,构建了国 元证券客户操作行为的监控分析框架,对客户的行为 模块点击量、行为主题以及客户的行为特征分类进行 了研究。应用的实现可视化结果表明:“投顾社区” 和“视频直播”的客户点击量最高;客户行为主题可 以分为“活动专区”“投顾社区”“资讯中心”“视 频直播”和“新股日历”等五类,其中“视频直播” 和“投顾社区”的行为主题的客户最多;根据客户行 为主题分布实施聚类分析,得到四种行为偏好客户, 分别是偏向查看新股信息、关注资讯和研究、重视投 资顾问服务以及关注运营活动四类。

  参考文献

  [1] 王雅静,郭强,邓春燕,等.基于LDA主题模型的用户特征 预测研究[J].复杂系统与复杂性科学,2020.17(4):9-15.

  [2] 张姣.基于主题模型的资讯推荐系统的研究与实现[D].上 海交通大学,2015.

  [3] 李锐,张伟彬.基于TF-IDF算法和LDA主题模型数据挖掘 技术在电力客户抱怨文本中的应用[J].自动化技术与应 用,2018.37(11):46-50.

  [4] Kuc R,Rogozinski M.ElasticSearch server[M].Packt Publishing Ltd,2013.

  [5] Jelodar H,Wang Y,Yuan C,et al.Latent Dirichlet allocation(LDA)and topic modeling:models, applications,a survey[J].Multimedia Tools and Applications,2019.78(11):15169-15211.

  [6] Likas A,Vlassis N,Verbeek J J.The global k-means clustering algorithm[J].Pattern recognition,2003.36(2): 451-461.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/guanlilunwen/66709.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml