SCI论文(www.lunwensci.com)
摘 要 :当前,随着大数据的发展,数据包含的价值越来越丰富,如何对海量的数据实现毫秒级的关键字检索越来越被各 个信息化系统所需要。因此,文中基于 Elasticsearch 作为框架,通过知识库检索引擎技术研究及应用实现,形成一套具备海 量数据存储、自定义知识库接入、高效全文检索等特点的分布式全文搜索引擎系统解决上述问题。
Design and Implementation of Knowledge Base Retrieval Engine System Based
on Elasticsearch
LI Mingkai, WEN Li
(Guizhou Jiangnan Aerospace Information Network Communication Co., Ltd., Zunyi Guizhou 563000)
【Abstract】:At present, with the development of big data, the value contained in data is becoming more and more abundant. How to realize millisecond-level keyword retrieval for massive data is increasingly required by various information systems. Therefore, based on Elasticsearch as the framework, a distributed full-text search engine system with the characteristics of massive data storage, custom knowledge base access, and efficient full-text retrieval is formed to solve the above problems through the research and application of knowledge base search engine technology.
【Key words】:equipment industry knowledge base;Elasticsearch;big data;architecture design
引言
近年来, 伴随生产的工业化速度迅速加快,工业化 信息系统存储了大量数据,用户获取特定信息的需求一 直存在 [1]。尤其在装备业信息化管理中,查询产品知识 库信息的效率低下、高出错率都有可能导致整个管理遇 到问题,如检索某型号图纸时查询耗时过长,服务人员 凭借经验实施交付后,出现精度不准、故障导致的设备 无法完成生产任务 ;客户无法查询知识库或等待时间过 长而频繁报修,上述问题给装备业生产与运维带来了巨 大的物力、人力损失。
1 装备业信息系统现状
当今世界,以信息化和信息产业发展水平为主要特 征的综合国力竞争日趋激烈,各国已制定相应的战略计 划。信息技术和信息网络的结合与应用,为传统制造业 注入了新的活力,加快了经济全球化和信息网络现代化的进程,形成了当代最先进的生产力。装备业信息化 是一项重大国事,对于传统产业的省级改造、提升、做 大做强,以节能减排、技术进步和创新驱动都有重大意 义。是我国发展工业的重点之一 [2]。
当前大多数装备业信息系统实现全文搜索,是通过 正则匹配文档中的字符串 [3]。这种方式的缺点会导致检 索时间长,扫描全部文件时,检索一个磁盘可能需要半 小时之久,这大大降低了检索的效率。
因此,通过对知识库检索引擎技术研究及研发,形 成分布式全文搜索引擎系统,提升企业的信息系统在全 文检索、知识库管理等过程的信息化和智能化的管理能 力,助力企业转型升级,精准查询,智能排序,提高企 业信息化系统建设的核心竞争力。
2 检索引擎架构设计
知识库检索引擎作为企业的“图书馆”,与企业众多的知识相互交织,数据量巨大,种类繁杂。本文以 Elasticsearch 作为企业构建数据中心的平台为目标, 以广泛积累的知识为基础,以自主可控,响应迅速,维 护便捷为设计原则,结合我国当前时期装备行业功能与 应用现状,对检索引擎进行架构设计。
知识库检索引擎系统采用 Elasticsearch 为后端, Vue 为前端进行开发。检索引擎的技术架构分为分布式 技术、倒排索引技术、Query 分析技术和排序模型的选 型,下面分别针对这几部分进行介绍。
2.1 分布式技术
系统基于 Elasticsearch 采用了集群、节点、分片 的设计。一个集群是由多个节点组成,而一个节点就是 一个系统实例。每一个节点都存储着集群的状态信息, 包含了所有的索引和相关的分片路由信息。分片则是分 布式存储的基石,是底层的基本读写单元。分片的目的 是将巨大的索引分割,将数据分散到集群内各处。
哈希分布是根据数据的某个关键字计算哈希值,并 将哈希值与集群中的服务器建立关系,从而将不同哈希 值的数据分布到不同的服务器上。传统哈希算法是将哈 希值和服务器个数做除法取模映射。这种方法的优点是 计算方式简单 ;缺点是当服务器数量改变时,数据映 射会被完全打乱,数据需要重新分布和迁移,频繁的迁 移会大大增加再平衡的成本。此外,通过关键字哈希分 区,丧失了良好的区间查询特性。
对于分区再平衡数据迁移,解决思路是引入中间 层,用中间层来维护哈希值和服务器节点之间的映射关 系。系统中则使用了此设计,首先创建远超实际节点数 的分区数,然后为每个节点分配多个分区。维持分区总 数不变,也不改变关键字到分区的映射关系,仅需要调 整的是分区和节点的对应关系 [4]。
2.2 倒排索引技术
通常,正排索引基于文档建立,在加入新的文档 时,会直接为该文档创建一个新的索引块,挂接在原来 的索引文件后面。使用正排索引在数据库中直接查询全 表的时间复杂度是 O(n),如果对索引列进行查询,其 时间复杂度则为 O(logn),这会使得检索时间大大延 长,检索效率底下。
倒排索引是实现“单词 - 文档矩阵”的一种具体存 储形式,单词词典内每条索引项记载单词本身的一些信 息和指向“倒排列表”的指针。使用倒排索引,数据以 key-value 形式存储,查询时间复杂度将降为 O(1),这 大大降低了检索时的时间。在全文搜索时,使用直接建 立从查询词到文档的映射,就能获取 O(1) 的查询性能, 词汇到文档的映射帮助系统在执行关键字检索时,能够 高效地处理百万级的知识文档。
2.3 Query 分析技术
在搜索框键入关键字信息时,需要对整个句子进行 意图识别、改写、分词和词权重分析等。装备业设备中 不同的设备型号在不同的知识库里都有不同的标准,存 储的数据具有规模大,类型多等特点。而 Query 技术 先将关键词或句进行数据预处理,包括分词处理,去停 用词,同义词替换等 [5]。再通过关键字哈希算法,自动 计算并选择分片,最后通过召回,特征生成和粗排、精 排,将人类自然语言经过处理后,通过检索引擎能够准 确识别到用户真正的含义,从而提高准确率。
2.4 排序模型
大部分装备行业存储的知识包括文档和图片,需要 对多个字段进行综合匹配检索,将输出的结果按照一定 的相似度进行排序。因此,检索引擎系统采用 Most_ Fields 排序机制,该机制尽可能返回更多 field 匹配到 某个关键词的 doc。关键词句进行分词后,将该字符 串解析为多个词条,根据 docid 可以取到多个索引词 条,它会综合多个 field 一起进行搜索,尽可能多地让 所有 field 的 query 参与到总分数的计算中来,使排序 结果比较均匀。结合应用实际,采用了词频、逆向文档 频率、罕见词、匹配文档长度、权重和向量空间模型等 综合计算,得到最终排序分数,将输出结果按照分数排 序,符合装备行业用户的检索预期。
3 系统实现与测试
3.1 系统功能实现
通过知识库检索引擎技术研究及应用实现,已完成 知识库检索引擎系统。系统含盖主要的检索主页面、检 索结果、详情页、知识库后台管理等主功能单元 5 个。
包含检索联系、检索历史、热门检索词等 8 个功能模块。
3.2 系统测试
通过系统主页面搜索框,键入关键字或句,选择文档或图片,点击“搜索”按钮,即可在浏览器中弹出相关的检索结果,关键字以标红的形式提示。
当显示检索结果后,若想查看关键字在文中具体出现的位置,可点击文档标题,即可查看文档的详细内 容,并且自动跳转到文档中包含关键字段落。
输入账号密码后登录系统后台,可以对检索引擎的 文档和图片进行管理。可进行新增,编辑,删除等功 能,将知识文档转换为 .md 格式,上传至系统。图片 则采用上传至本地图床的形式,保证了系统安全性。
3.3 结论
通过该系统设计与实现,能够满足企业知识库检索 的需要,解决了装备信息化管理过程中查询产品知识库 信息的效率低下、高出错率等问题,从而有效地提高了 人员对知识库管理的工作能力和管理效率。
4 结语
通过开展知识库检索引擎相关技术研究,设计了基 于 Elasticsearch 的知识库检索引擎系统,并针对装备 行业对检索引擎开展了符合行业的排序模型研究工作, 达到了预期技术指标要求,能够满足实际需要。但该系 统面临着文档转换时需要自行转换格式,会导致使用人 员维护知识库时增加工作量的问题,下一步是研究在系 统内实现自动格式转换和图片的自动图床添加,提高使 用人员维护后台管理系统时的效率。
参考文献
[1] 杜建国.管理信息系统研发及其应用[M].南京:南京东南大 学出版社,2018.
[2] 康龙.浅谈制造业企业信息化系统建设[J].电子世界,2014 (8):231.
[3] 沈宇桔.正则表达式复杂度攻击自动化检测技术研究[D].南 京:南京大学,2019.
[4 ]陈友旭.分布式文件系统中元数据管理优化[D].合肥:中国科 学技术大学,2019.
[5] 张豪,张华熊.基于EDA的中文语义相似度数据集增强方法 [J].软件,2021.42(5):125-127.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/57642.html