Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于数据挖掘的计算机用户行为分析与识别论文

发布时间:2023-08-26 13:52:31 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘 要:近年来随着科技的迅速发展,网络已经是大众生活及工作的一部分,此文根据对互联网用户上网时表现出的内容 进行研究分析,探寻其行为特点及行为方式,构建计算机用户行为模型,运用聚类分析法技术和相关算法创建了计算机用户分 析识别技术,根据对互联网用户日志信息表现出的内容进行预备处理、模式挖掘及聚类分析法完成了用户身份核查功能。并对 系统的准确度和偏差进行分析,最终对于该模型的健全和优化给出了多个构想。
  Computer User Behavior Analysis and Recognition Based on Data Mining

  WANG Qin, WANG Qian

  (Xi'an Siyuan University, Xi'an Shaanxi 710038)

  【Abstract】:With the rapid development of science and technology in recent years, the network has become a part of public life and work. Based on the research and analysis of the content of Internet users when they surf the Internet, this paper explores their behavior characteristics and behavior patterns, builds a computer user behavior model, and uses cluster analysis technology and related algorithms to create a computer user analysis and identification technology, according to the content of Internet user log information, the user identity verification function is completed by pre processing, pattern mining and clustering analysis. The accuracy and deviation of the system are analyzed, and finally several ideas for the improvement and optimization of the model are given.

  【Key words】:data mining;computer users;analysis and identification;behavior mode

  0 引言

  此文根据数据挖掘算法从大量的用户网络日记信息 中处理用户行为数据的高效特征内容,建立起用户分 析模型,根据 ANOVA 展开了模型可行性研究,根据 C# 和 SPSS 统计分析工具制定了一套计算机用户分析 系统,建立起数据的预处理、聚类分析法等模型,根据 K-MEANS 算法对用户行为特点数据进行处理、分析和 归类,实现用户特征匹配,并且对识别偏差开展分析研 究,给出了多个改进方案,该模式的探析运用对以后大 数据统计分析及其处理技术发展意义重大。
\

  1 数据挖掘发展现况

  近几年数据挖掘的研究综述引发各行各业的关注, 其 原因是伴随市场发展,各个行业都累积了大量数据,为了 更好支撑市场发展, 急切需要把这些数据交换成有用的信息与知识。获得的信息与知识用于各个领域中,包含商业 管理、生产管控、行业分析、工程技术和科学探究等。

  数据挖掘的研究综述起源于 20 世纪 80 年代末期,在 20 世纪 90 年代早期,伴随人们对于这一新起研究方向的 重视,数据挖掘算法开始迅速发展。Gartner Group 在 2001 年做了高级技术鉴定,确认了在今后的 3~5 年里, AI 人工智能与数据挖掘都会是对工业生产最受欢迎的 核心技术,并且,数据挖掘与并行计算体系也将成为最 具升值空间的前沿技术 [1]。

  数据挖掘算法在各行各业里都有普遍使用,例如数 据挖掘算法顺利运用在 SKICAT 体系中, 这一体系的 开发人员是天文专家与加州理工大学喷气推动试验室,根 据数据挖掘算法,天文学家找到来自于宇宙星空里的类星 体,成为空间与天文学中数据挖掘算法具有代表性的一个运用 ;生物学也是通过数据挖掘算法探讨了 DNA ;根据 数据挖掘算法,零售行业掌握顾客的消费习惯,并预估 与分析顾客的消费行为 ;根据 NBA 数据, IBM 企业将 AS 程序开发出来,以推动和提升战术搭配等的构建。

  2 数据挖掘的原理

  2.1 数据挖掘定义和程序

  数据挖掘,是数据库管理中知识挖掘 (KDD) 过程 的高端处理步骤,是信息科学的交叉学科子行业,是在 大量的信息中发觉方式的计算步骤,涉及数据库管理、 应用统计学、分布式存储、并行处理、机器学习算法、 人工智能和众多交叉的科目。

  2.2 聚类分析法的原理及算法

  聚类分析法是探究样品或指标分类问题中的一种多 元统计方式,类是指类似元素的结合。依据归类主体的 不同,聚类分析法可分为样品聚类和变量值聚类,在应 用统计学中,样品聚类也被称为 Q 型聚类,是为事情 或观察量开展聚类,而变量值聚类则被称作 R 型聚类, 体现同个事物特点的变量值好多,一般依据探索的问题 选取部分变量值对事物的某个方面进行探讨。

  聚类分析法的算法可分为区分法、层级法、依据密 度方式、依据网格的办法、基于模型的办法。此文通常 采用依据距离的区分法,给出要搭建的分区数 k,构建 一个复位区分,选用迭代更新重定位技术,依据把目标 从一个组挪动到其他组去进行区分。同一组中的焦点尽 量彼此贴近及相关,但不同的组中的焦点尽量避开或不 同。采用这种思想的算法主要包括 K-MEANS 算法和 K-MEDOIDS 算法等 [2]。

  3 存在问题原因分析

  3.1 预估数据变化的问题

  探究的数据是很多的,但这些信息中必定会有一定 趋势分析与相关性,因而预估数据变化对电商至关重要, 特别是预估商品与客户信息的合理化,这对平时企业的 管理决定实效性有很大帮助,进而获得更多的盈利。但 怎么根据历史数据统计分析结论进行科学预估,尚未找 到一个统一标准,但在数据挖掘中,好多数据的建立形 式不是规范化的,这为数据挖掘实效性引起新的难题。 3.2 数据模型稳定性问题在数据模型中涉及 3 种模型 :物理模型、概念模 型、逻辑模型。对数据挖掘而言,其模型是多元化的, 基本可以大概分为 :处置模型、收集模型、别的模型, 但是这类模型还处在萌芽期,存有各自欠缺,针对不同 数据模型,处置的形式也不尽相同。最后结果可能出现 巨大差别,因而这需要考虑数据模型稳定性和实效性的问题。尤其对于互联网和电商行业而言,数据模型的稳 定性和实效性尤为重要。

  3.3 数据挖掘应该考虑数据的安全性和机密性

  在这些信息中,必定存有安全性和机密性问题,特 别是电商所产生的不同内容,这些都是数据挖掘环节中 必定要考虑的因素,在运用环节中,如何才能对这些事 进行合理解决是技术的关键因素。当在数据挖掘环节 中,技术人员必须具有对应的职业道德,遵循社会公 德,使内容的安全机密性得到保障 [3]。

  3.4 数据挖掘结果并不清楚

  在数据挖掘环节中,所取得的结果就是不确定性 的,因为不同的目的,最后会得到不同的挖掘结论,因 此在挖掘环节中,需要和挖掘目的紧密联系下去,便于 可以进行适当的判定,从而发掘出公司预想的结论,使 企业管理人员可以有效地选择决定,从而实现提升企业 运营能力,提升企业竞争优势,寻找利润最大化。依据 数据挖掘算法,可以寻找潜在客户,这为电商带来一定 有意思的价值,数据挖掘的成功重在于科研人员可以深 入把握其期待克服的行业现象,依据此项技术,能使电 商数据信息无法得到合理利用现象得到处理,可是在实 际应用中,依然存在许多需要大家彻底解决探索的现 象。以求可以更加深入分析与改善数据挖掘算法,从而 使得电商行业得到更快速良性发展。

  4 计算机用户行为分析模型设计

  4.1 模型目的作用及总体结构

  此文主要是为了根据用户上网产生的网络日记数据 来完成对计算机用户的鉴别,因而对模型设计主要是考 量算法的应用及其类型的区划。此文应用 K- 均值聚类 算法对预备处理之后的信息进行聚类分析,将信息进行 持续聚类,获取聚类中心,直至区分用户的实际岗位及 其文凭。样例用户职业类型分成学生、乡村在外务工人 员与产业、服务行业工人 3 类,而文凭则在后两种行业 中开展区划,在这当中产业、服务行业工人文凭区划包 含普通高中、专科与本科 3 种,乡村在外务工人员文凭 区划则只包括初高中两种。文凭的聚类分析在行业划分 完成后开展,而且在同一种岗位之中开展聚类 [4]。

  模型整体主要分成 2 个模块, 包含数据的预处理模 块和聚类分析模块。

  4.2 数据的预处理模型

  数据的预处理是所有设计的基本,对它进行探究要 识别出能代表用户行为特点的特性,实现对原始记录的 处理方法分析,获取有用的信息作为新的样本调查数 据,这也是计算机用户行为分析与识别条件。

  4.3 数据处理方法分类模型

  K- 均值聚类算法是一种很简单和更高效的聚类算法, 目前的运用是最普遍的,因而使用此算法去完成最终的 分类模块。

  本设计是利用 K- 均值聚类算法对预处理后的数据 以及通过聚类分析提取出的聚类中心进行匹配计算,主 要计算预处理后的用户行为数据和聚类中心之间的欧式 距离,比较与不同聚类中心之间距离的大小,将用户归 为距离最小的那一类当中。

  5 系统实现

  5.1 模型作用完成

  整体系统主要包含数据的预处理、聚类分析、K- 均 值算法解决分类等 3 个模块,系统进行主要是鉴于 C# 语言与 SPSS 统计分析工具去完成,将 1 位本科用户 ID 为 :99BFDBE657AC81470256210593973290 的行业、 服务行业工人数据被导入到系统内。

  但是并不是 100% 的用户信息都可被精确的鉴别 出,根据非建模运用数据对系统作用开展深化分析认 证,系统对用户职业类别识别准确度为 55.6%,但对用 户文凭分类识别准确度为 42.5%。

  5.2 误差分析

  系统根据网络日记数据对用户岗位及其文凭的分析 鉴别差错率分别是 44.4% 和 57.5%。造成误差的要素 主要包括原始记录合理实效性、聚类算法所存有的缺 点、鉴别用户时日志信息的选择等 3 个方面。

  (1)初始数据的完整性。原始记录是以公示的数据 库中搜索出并用在对本系统设计完成中,根据数据的观 测剖析,数据自身存在一定不合理性,虽对原始记录做 了处置剖析,但依然有一定问题存有,例如在对用户上 网时需访问网址进行筛选时,有一些信息中的 URL 和 窗口进度存有不全或欠缺的状况,而无法对用户的上网 行为开展真正的统计分析,而且有的用户上网行为较类 似用户总体对比存有异常,没法对它进行最后的聚类分 析,最后导致该类用户在聚类结束后并未被分类出,最 后对设计结论造成对应的影响并增大错误。

  (2) K- 均值聚类算法存有的缺点。K- 均值聚类算 法主要是针对预备处理之后的数据进行解析,此算法里 的 K 值要提前设置,因为无法准确知晓要解析的数据应 当划分为几类,因此 K 值的挑选难以分辨,如果归类不 科学就可能对最后系统的完成产生影响。另外原始聚类 中心的挑选对聚类的区分也存在一定影响。

  (3)鉴别用户时用户日志信息的选择。本设计里原 始记录包含用户持续 28 天的网络活动日志,在推进时 所用数据采用的是各个用户有着最大信息量的网络日 记,这类选择方法适用对不同类用户的全部总体展开分 析聚类,获取客户群体的行为方式,而对一个朋友来 说,信息量再大的网络日记也无法反映其全部行为特 点,唯有对它进行长久的分析方能把它行为特点最大 化,所以这样的选择方法对系统的完成也有一定影响。

  5.3 对于改善系统设计的多个构想

  根据误差分析发觉本系统设计还有一定改善空间, 因此提出下列改善构想 :

  (1)创建异常检测体制,对用户行为数据展开分析 时,将异常用户行为数据标识出,单独导出对应结论。 原始聚类中心的选择则能通过遗传算法来达到。

  (2)尝试别的不同的算法对客户网络日记信息进行 处理解析,例如 ISODATA 算法、RPCL 算法等,并且 将处置结果的准确度和本设计里的成果准确度进行对 比,挑选出最佳算法。

  (3)对客户持续 28 天的网络日记信息进行处理解 析取平均值,当作聚类分析需要数据,开展系统实现, 与该系统结论进行对比,观测准确度变化趋势。
\

  6 结语

  此文阐述了数据挖掘定义特点和聚类分析的原理, 通过对比计算机用户网络日记数据设立了分析与识别模 型,与过去的配对识别不一样,该模型是由数据分析用 户属性,应用 K-means 算法开展聚类,从而完成用户 识别作用。该系统的完成对网络智能化服务和大数据应 用的进步有重要作用。但是该系统的识别通过率还有待 提升,搜集更加全面且不同种类的数据,创建异常检测 体制及其改善更新识别技术,全面提高识别准确度无疑 是将来探究的核心。

  参考文献

  [1] 胡富增,王勇军.基于数据挖掘的计算机用户行为分析与识 别[J]. 自动化技术与应用,2020.39(6):42-47.
  [2] 杨晓庆.网络安全中用户和实体行为分析技术的研究与应用 [D].成都:电子科技大学,2020.
  [3] 席兵,骆云龙,王建.LTE网络用户行为分析系统的设计与实 现[J].重庆邮电大学学报(自然科学版),2015.27(2):208-212.
  [4] 张顺颐.互联网信息监测和网络管理技术[D].南京:南京邮电 大学,2012.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/62233.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml