摘 要 :针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬 取,采用 BiLSTM-CRF 算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建 App 数据来源的数据层,再 基于数据层的数据开发 App 应用层。开发的 App 应用层模块包括用户认证模块和主页模块。BiLSTM-CRF 模型比 LSTM 和 BiLSTM 在实体边界的识别率更高,模型准确率、召回率和 F1 值分别可以达到 96.58%,88.94%,92.60%。
0 引言
随着信息技术的广泛应用,房屋租赁中介行业也由 传统的线下模式向线上模式转变,主要由房东和房屋租 赁经纪人组成微信群,房东把要出租的房屋信息以文字 的形式发布到微信群中,房屋中介记录下房源信息,以 便进行后续实地查看及发布房源信息。由于房东人数多 且每天都有大量的信息发布,很多消息会被覆盖,且每 个房东编辑的内容、格式各不相同,中介很难查阅。为 解决这个问题,提高房屋出租效率,本文开发一款基于微信小程序的租房平台,该平台基于优化的 BiLSTM- CRF 融合算法对租房实体关键信息进行抽取, BiLSTM- CRF 融合模型将 BiLSTM 和 CRF 两个模型进行有机融 合,通过模型训练和评估, BiLSTM-CRF 融合模型的评 价指标高于 BiLSTM 和 CRF[1]。通过整合房源信息、提 供在线预订、租金支付等一系列功能,旨在帮助房东及 时出租空闲房源、帮助中介提高租房效率的同时,也为 租户提供便捷、高效的租房服务,解决租户在租房过程 中遇到的问题,使租房体验更加舒适和便利。
1 模型介绍
1.1 BiLSTM 模型
在序列标记任务中,需要访问给定时间的过去和未 来的输入特征,因此采用双向 LSTM 网络,即所谓的 BiLSTM(Bidirectional LSTM)。单向的 LSTM 模型只 能捕捉到从前向后传递的信息,而双向的网络可以同时 捕捉正向信息和反向信息,对文本信息的利用更全面, 效果也更好 [2]。BiLSTM 序列标记模型网络如图 1 所示。 在 BiLSTM 网络最终的输出层后面增加了一个线性层, 用来将 BiLSTM 产生的隐藏层输出结果投射到具有某种 表达标签特征意义的区间。

1.2 CRF 模型
CRF 模型,全称为条件随机场(Conditional Random Field),是一种概率图模型,常用于建模序列标注问 题。传统的隐马尔可夫模型(Hidden Markov Model, HMM)在序列标注问题中有一些局限性,比如,仅考 虑局部的标签依赖性、假设当前观测和当前状态之间是 独立的等。而 CRF 模型是一种无向图模型,可以更灵 活地建模标签间的依赖关系。
在 CRF 模型中,序列的每个位置都被建模为一个 节点,节点之间的连接代表标签的依赖关系。CRF 模 型结合局部观测和全局标签之间的关系,通过定义节点 上的特征函数和标签之间的转移概率来建模整个序列。 CRF 模型的基本思想是给定一组观测序列, 找到最优 的隐含标签序列,使条件概率最大化。利用概率图模型 中的推断算法,比如前向 - 后向算法、维特比算法,对 CRF 模型进行训练和预测。
1.3 BiLSTM-CRF 融合模型
BiLSTM-CRF 融合模型将 BiLSTM 和 CRF 两个模 型进行有机融合,以实现优势互补。BiLSTM 模型负责 学习文本的上下文信息,并输出每个位置的标签概率分 布 ;CRF 模型根据 BiLSTM 输出的标签概率分布以及全 局标注规则,对整个序列进行标注 [3]。所有经 BiLSTM 层输出的分数将作为 CRF 层的输入, 类别序列中分数 最高的类别就是预测的最终结果。事实上,即使没有 CRF 层,照样可以训练一个基于 BiLSTM 的命名实体识别模型。但是,因为 BiLSTM 模型的结果是单词对应 各类别的分数,可以直接选择分数最高的类别作为预测 结果 [4]。
单独的 BiLSTM 预测结果不能保证一个实体开头、 中间和结尾位置的顺序是正确的, 而 CRF 层可以加入 一些约束保证最终预测结果实体的位置顺序是正确的, 并且这些约束可以在训练数据时被 CRF 层自动学习得 到 [5]。BiLSTM-CRF 融合模型网络模型如图 2 所示。

2 算法实现及 App 系统的模块设计
2.1 App 系统架构
App 系统由两大层组成,即数据层和应用层。其中 数据层是 App 应用层的数据来源。数据层又包括爬虫 模块、数据库模块、模型模块,爬虫模块负责实时爬取 各大城市相关的微信群消息数据,数据库又分为原始的 非结构化数据库和经过模型抽取后的结构化数据库,模 型模块有两个功能 :(1) 使用爬取的数据进行模型的训 练 ;(2) 将原始的非结构化数据抽取为结构化数据后, 存储到对应的数据库中。应用层包括后端和前端,后端 实现了前端需要进行数据交换的各种 API 接口。

2.2 数据层
由于每个房东在微信群中发布的房源信息很随意, 格式不固定,造成文本信息杂乱无章,混乱无比,要将 其中的有用信息提取出来难度不小。需要将这些微信信 息爬取出来,然后将有用信息抽取成结构化数据写入数 据库,抽取后的内容如表 1 所示。
2.3 应用层
应用层就是租房 App 前后端,包括以下 6 个模块。 (1)用户认证模块。提供用户注册、登录、信息修改等 功能。(2)主页模块。应用程序的核心页面,需要考虑 页面布局、内容设计以及功能设计。(3)房源搜索模块。 提供房源列表展示、筛选、排序等功能,用户可以根据 自己的需求找到符合要求的房源。(4)房屋详情模块。
展示房源的详细描述、价格、图片、设施、楼层等信 息。(5)分类模块。帮助用户快速浏览和筛选信息,并 将内容按照一定的分类方式进行组织和展示。(6)房源 添加模块。在租房应用程序中,提供给中介进行房屋信 息抽取,添加房源信息。如图 3 所示。

3 系统的模块实现
3.1 爬取微信群数据
通过 Python 爬虫程序爬取微信群数据,并将爬取 的数据存储到原始数据库中。使用 Python 的库,通过 解析 HTML 页面的结构和标签提取所需数据,使用正则 表达式匹配和提取文本数据,使用第三方库 Selenium 模拟浏览器行为,并自动爬取网站数据。
3.2 模型训练结果
首先,将训练数据进行人工标注。其次,将标注好 的数据与原始数据结合,处理成模型需要的格式,对于模型训练阶段的数据,通过编写训练模型的部分代码对 其进行训练,模型训练结果如表 2 所示。
最后,调用模型将原始数据的信息提取出来, 并保 存到模型抽取后的结构化房源数据库中,以供上层应用使用。
4 结语
本系统是基于 BiLSTM-CRF 融合算法进行实体信息 抽取的 App 软件,经过模型训练,对比 LSTM、BiLSTM 模型, BiLSTM-CRF 融合算法效率最高。在数据层这 一层,成功地解决了房东与中介之间数据传递低效问 题。在基于数据层的应用层中,目前只开发了最主要的 功能,这些功能基本能够满足中介的日常需求,也提高 了其工作效率,使得中介的收入得到极大提高,房东的 房屋闲置时间也大大减少。本系统总体上实现了预期目 标,未来还需要完善现有功能和添加更多功能,例如添 加数据分析、房源推送、支付等功能模块。
参考文献
[1] 徐健,张婧,宋玲钰,等.基于RoBERTa-BiLSTM-CRF融合模 型的在线评论细粒度情感分析[J].系统工程理论与实践,2023 (10):1-18.
[2] 袁里驰.基于BERT-BiLSTM-CRF的中文分词和词性标注联 合方法[J].小型微型计算机系统,2023(9):1906-1911.
[3] 曹阳,曹存根,资康莉,等.基于BiLSTM-CRF的中文分组单字 错误识别方法研究[J].中文信息学报,2023(4):156-165.
[4] 张文,王强,杜宇航,等.在线商品评论有用性主题分析及预测 研究[J].系统工程理论与实践,2022(10):2757-2768.
[5] 蒋延杰,李云红,苏雪平,等.基于特征权重的词向量文本表示 模型[J].西安工程大学学报,2022(1):108-114.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
可解释性是一个非常重要的标准。机器学习模型... 详细>>
如何设计有效的环境治理政策, 是学术界和政策... 详细>>
