Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于关联图谱的短文本匹配技术研究与应用论文

发布时间:2023-08-25 14:34:06 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘 要: 自然语言处理技术已经广泛的应用在企业的业务场景使用中,是企业自动化建设的重要手段。本文对短文本匹配 关键技术及其实现展开研究,设计出一种能够准确理解用户需求的解决方案。由于用户表达方式的多样性,单纯依靠表达中的 关键词与目标信息之间的相似性难以准确匹配,所以我们提出新的解决方法。首先以目标名称为中心词,基于 FP-Growth 算 法构建中心词的相关词关联图谱,然后通过句法分析识别用户需求关键词, 在此基础上基于 BERT 预训练模型实现关键词和相 关词的相似度计算,从而定位中心词。实验结果表明提出的方法在大屏名称匹配的业务场景中取得了很好的效果。
  Association Graph-based Short Text Matching Technology Research and Application

  LI Xingang, YE Guolin, ZHANG Xiaoyu

  (China UnionPay Merchant Services Co.,Ltd., Shanghai 200120)

  【Abstract】:Natural language processing technology has been widely used in business scenarios of enterprises, which is an important means of enterprise automation construction. In this paper, the key technologies of short text matching and their implementation are studied, and a solution that can accurately understand the needs of user is designed. Due to the diversity of the expression of user, it is difficult to match accurately depending solely on the similarity between keywords and target information in the expression. Therefore, we propose a new solution. Firstly, the target name is taken as the central word, and the correlation map of the relevant words of the central word is constructed based on FP-growth algorithm. Then, the keywords required by users are identified by syntactic analysis. On this basis, the similarity between keywords and related words is calculated based on BERT pre-training model, so as to locate the central word. Experimental results show that the proposed method achieves good results in the business scenario of large screen name matching.

  【Key words】:natural language processing;calculation ofcorrelation degree;syntactic analysis;calculation ofsimilarity

  0 引言

  在人机交互发展越来越多元化的今天,自然语言处 理已经成为人与计算机沟通的重要工具。基于自然语言 处理的情感分析能够帮助商家在众多商品评论中准确地 获取客户的需求,可以帮助商家为客户做定制化的服 务,从而赢得更多客户的青睐 [1]。
\

  经过近 20 年的发展,银联商务所存储的文档不仅 数量巨大,种类也越来越多样。传统的按部门去查询相 关文档资料,已经成为工作人员高效工作的拦路虎。为了方便工作人员更便捷地工作,公司开展了关于办公场 景自动化的建设。即通过用户的查询输入,能快速的匹 配到他们想查询的文档。本文研究了如何将用户输入自 动匹配到公司信息大屏的技术。从传统用户查询到特定文 档匹配技术通常是通过从用户查询输入中提取关键词信 息,然后与目标大屏做一个文本的匹配,来帮助用户匹配 特定的大屏。然而在这个过程中却处处充满挑战,主要 体现在以下两个方面 :(1)简单通过关键词与大屏名称建 立联系是困难的 ;(2)对于从短文本中提取目标的相关信息,纯文本信息中的内容往往是模糊的。句法分析 [2] 的 基本任务是确定句子的语法结构或句子中词汇之间的依 存关系。根据用户输入的实际情况来看,用户指令往往 分为两种情况 :由一个名词性短语构成、指令中最内层 的从句包含关键信息。通过句法分析获取第一种情况中 的一级名词性短语和第二种情况中最内层从句里的一级 名词性短语作为目标名称的相关信息,这样就可以避免 依赖词频来提取相关信息,同时能够取得更好的效果。

  针对以上挑战,本文提出了基于关联图谱的短文本 匹配技术来更好地完成用户查询信息与文档(屏幕名 称)的匹配。首先是利用自然语言处理关键技术,构建 目标名称中心词及其相关词之间的关联图谱。然后,在 应用时,从用户指令文本中提取目标名称的相关信息, 根据构建的关联图谱中的相关信息准确定位到目标名称。

  1 基于自然语言处理的短文本匹配算法

  本文提出基于关联图谱的短文本匹配算法整体框架 主要包括三部分内容,分别是关联图谱生成、需求词获 取以及相似度计算。整体框架结构如图 1 所示。
\

  1.1 关联图谱生成

  由于汉语语义理解上存在一定的复杂性,同一种语 义的表达有不同的方式,用户指令中的关键信息和目标 名称中心词可能只是相关但并不相似,仅仅考虑它们之 间的相似度无法准确定位目标名称。在这种情况下,想 要根据用户指令高效匹配目标名称,那么关联图谱的构 建就尤为重要。

  关联图谱的生成包括两个步骤 :通过网络工具获取 目标名称中心词的相关词,包括扩展词和近义词 ;通过 中心词与相关词之间的关联度构建它们之间的映射关系。

  由于不同中心词的相关词可能出现重合,当一个相关词同时对应了不同中心词时,就需要相关词和中心词 之间的关联度来帮助判断哪一个中心词是目标中心词。 传统的方法对关联度的计算都以相似度为基础,只包括 词语之间的上下位关系和同义关系,而本文针对的相关词 不仅仅是近义词,还包括中心词的扩展词,利用相似度作 为关联度的方法并不适用。因此,本文以新闻语料为外部 数据库, 利用 FP-Growth 算法 [3] 计算词语之间的置信 度,从而挖掘相关词和中心词之间出现频率的关联性。

  1.1.1 关联规则

  Agrawal R 等人 [4] 在 1993 年第一次提出关联规则 挖掘问题。它表示从大量的数据中获取隐藏的数据关联 关系,从而描述指代同一事物的不同属性同时出现的规 律和模式。通过对数据集进行关联分析找出关联规则, 可以获取两个或多个事件同时发生的相关性。

  对于一个项集I={i1.i2.…,im},给定一个事务T 的集合D, 每个事务T 都是项集I 的子集,即满足T ⊂ I 。有 X ⊂ I , Y ⊂ I ,并且X∩ Y = Φ,关联规则可表示为X⇒ Y ,支 持度和置信度的定义如式(1)、式(2)所示 :
  support(X ⇒ Y) = P(X ∪ Y)                   (1)

  confidence(X ⇒ Y) = P(Y∣X)                          (2)

  当满足支持度和置信度分别大于等于给定的阈值 时,即为关联规则挖掘出的强关联规则。

  1.1.2 FP-Growth 算法计算关联度

  挖掘关联规则主要包括两个过程 :首先找出数据语 料中的所有频繁项集 ;然后通过频繁项集挖掘满足最小 支持度和最小置信度的规则。利用 FP-Growth 算法计 算关联度的基本过程如下。

  第一步 :构建 FP-Tree。

  FP-Tree 是一棵前缀树,将集合 D 的事务 T 中每一 个数据项按照支持度降序排列,依次插入到一棵头节点 为空的树中,并记录该项出现的支持度。本文中项集 I 即为每个目标名称中心词以及其相关词的集合,新闻语 料分词后,每条新闻只保留属于项集 I中的词,这些词 语集合构成集合D,预处理后仅包括词的每一条新闻为一 个事务 T,遍历集合D,统计每一项出现的次数,创建头 指针表,将出现次数小于阈值的项移除。再次遍历数据 集,对每个项集执行过滤并且重排序操作,依次按规则插 入空的 FP 树中,更新节点计数值,创建 FP-Tree。

  第二步 :从 FP-Tree 中抽取频繁项集。

  首先从 FP 树中获取条件模式基,条件模式基是以 项集中中心词为尾的路径集合,也就是该元素节点所有 祖先路径的集合。然后基于条件模式基,创建一棵条件 FP 树。重复上述过程,直到树中只有一个频繁项为止。
\



  是用户意图与目标名称不一致的个数。

  召回率计算公式如式(7)所示:
  Recall = SNC / (SNC + SNM )                                 (7)

  其中 SNM 是用户意图匹配为非目标名称的个数。 F1 分数计算公式如式(8)所示:
  F1 = 2 × (Pr ecision × Re call) / (Pr ecision + Re call)                               (8)

  同时,为了与其他匹配算法进行对比,我们使用了直 接计算用户短文本和目标大屏名称之间的相似度来进行匹 配的方法,实验结果如表 2 所示。在目标大屏名称差别较 大的情况下,匹配相对容易,准确度相对较高,但是对于 目标大屏名称相似的情况下,匹配的准确率有所降低。相 对于直接计算相似度的方法,由于引入相关词等关联的语 义信息, 我们提出的短文本匹配算法大幅提高了匹配的准 确率,能够满足大部分应用场景下用户的需求。
\

  3 结论

  本文对短文本匹配关键技术及其实现展开研究,设 计了一种快速准确匹配目标名称的算法,将自然语言处 理中的关键词识别、关联度计算和相似度计算等技术应用 到短文本匹配算法中。实验结果表明,我们设计的算法可 以快速提取用户文本中的有效信息,从而准确匹配目标名 称。通过在不同业务场景下匹配目标大屏名称的应用,进 一步验证了该算法的有效性,具有一定的实用价值。

  参考文献

  [1] 江洋洋,金伯,张宝昌 .深度学习在自然语言处理领域的研究进展[J].计算机工程与应用,2021.57(22):1-14.
  [2] 何龙.基于依存句法分析的企业税法实体关系抽取方法研究 [D].烟台:鲁东大学,2019.
  [3] HAN J,PEI J,YIN Y.Mining Frequent Patterns Without Candidate Generation[J].ACM sigmod Record,2000.29 (2):1-12.
  [4] AGRAWAL R,IMIELIŃSKI T,SWAMI A . Mining Association Rules Between Sets of Items in Large Databases [C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data,1993:207-216.
  [5] 董晨辉,师文慧 .数据挖掘关联规则在词语关联度计算中的 应用[J].唐山学院学报,2018.31(3):20-25.
  [6] CHEN D,MANNING C D.A Fast and Accurate Dependency Parser Using Neural Networks[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP),2014:740-750.
  [7] SAKATA W,SHIBATA T,TANAKA R,et al.FAQ Retrieval Using Query- question Similarity and BERT-based Query-answer Relevance[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval,2019.
  [8] LI Z,WANG X,LI X.Research on Intelligent Evaluation System of Influence Model Using Cosine Similarity[C]// Journal of Physics:Conference Series.IOP Publishing,2021.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/62195.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml