SCI论文(www.lunwensci.com)
摘 要 :在图文双模态情绪分类任务中,特征提取不充分和多模态特征融合出现信息冗余等问题较为普遍,本文在多通道 特征提取和融合的过程中引入注意力机制,提出融合注意力机制的多模态情绪分类模型。首先,使用 TextCNN 和 BERT 模型 分别提取文本局部特征、文本上下文特征, 用残差网络提取图像特征 ;其次, 利用跨模态注意力机制实现模态间的信息交互, 从而增强各模态特征表示 ;然后,利用自注意力机制进行多模态特征融合 ;最后,通过 Softmax 分类器获得最终情绪分类结 果。在公开的 TumEmo 图文数据集上,情绪七分类的准确率和 F1 值分别达到了 75.2%、74.3%,表现出良好的性能。
A Multimodal Emotion Classification Model for Image and Text Fusion with Attention Mechanism
PENG Junwen, LI Lei
(School of Statistics and Data Science, Xinjiang University of Finance and Economics,Urumqi Xinjiang 830012)
【Abstract】:In the task of image text bimodal emotion classification, insufficient feature extraction and information redundancy in multimodal feature fusion are common problems. In this paper, attention mechanism is introduced in the process of multi-channel feature extraction and fusion, and a multimodal emotion classification model integrating attention mechanism is proposed. Firstly, TextCNN and BERT models are used to extract text local features and text context features respectively, and residual network is used to extract image features. Secondly, the cross modal attention mechanism is used to realize the information interaction between modes, so as to enhance the representation of modal features; Then, the self attention mechanism is used to fuse multimodal features in turn; Finally, the final emotion classification result is obtained through Softmax classifier. On the public TumEmo image text data set, the accuracy rate of emotion seven classification and F1 value reached 75.2% and 74.3% respectively, showing good performance.
【Key words】:sentiment classification;multi-mode;attention mechanism;BERT;ResNet;TextCNN
0 引言
人类认知世界的方式是多模态的,每一种信息载体 都可以被称之为一种模态 [1]。多模态情绪分析是指利用 声音、图像、文本等多种信息载体,对人类情绪进行识 别和分析的技术。与单模态情绪分析相比,多模态情绪 分析更加准确和全面。从多模态在线评论中挖掘的情绪 信息在风险管理等方面具有重要的研究价值,多模态情 绪分析也由此成为当前研究热点之一。
在多模态情绪分析领域的研究中,已经提出了多种融合方法对不同模态数据进行特征融合。张继东等 [2] 引入注意力机制来挖掘图像与文本之间的关联。周婷 等 [3] 在图像特征提取中引入卷积注意力模块加强视觉 特征提取,再通过注意力机制进行图文特征间的特征 融合。Yadav 等 [4] 提出了一种双向多层次注意力模型, 利用图像和文本数据中的互补信息进行图文情绪分类。 Zadeh 等 [5] 提出张量融合网络,通过创建多维张量来 捕捉单模态和多模态之间的相互作用。在此基础上, Zadeh 等 [6] 还提出了一种用于特定视图和跨视图交互的记忆融合网络,该网络使用 LSTM 挖掘单视图特征, 注意力机制捕捉跨视图之间的信息交互。尽管这些方法 在多模态分类任务中表现出了良好的效果,但是仍存在 一些不足。一方面,在文本特征提取中,先前方法往往 只考虑到文本上下文信息,忽略了局部信息的作用 :即 能识别文本中的关键部分,加强文本特征提取 ;另一方 面,将特征简单地拼接会引起信息冗余问题,降低模型 精度。
针对以上问题,本文构建了一个基于多模态数据融 合的情绪分类模型,其基本贡献如下 :(1)提出一种 融合注意力机制的图文多模态情绪分类模型,有效地 融合多模态数据,从而建模文本与图像之间的语义关 系。(2)为了进一步提高文本特征与图像特征的信息交 互,在特征提取方面,采用双通道 BERT 和 TextCNN 充分捕捉文本上下文特征和局部特征,对图片利用 ResNet50 网络提取图像特征。(3)通过跨模态注意力 机制,进行不同特征间的信息交互,并利用自注意力机 制进行特征融合,减少模态噪声干扰。
1 模型构建
本文提出一种融合注意力机制的图文多模态情绪分 类模型,总体架构如图 1 所示。模型主要由特征提取、 图文双模态特征融合、多模态情绪分类三部分组成。首 先,特征提取主要提取图像、文本各单模态特征 ;其 次,在图文双模态特征融合阶段,通过跨模态注意力机制实现图像特征、文本特征间的模态交互 ;然后,使用 自注意力机制进行多模态特征融合,以减少冗余信息 ; 最后,通过 Softmax 函数实现多模态情绪分类。
1.1 特征提取
给定一个图文对 (I, T),对于文本模态,且文本由 n 个单词组成,则文本描述可以表示为 T={t1.t2. … ,tn}。 采用 BERT 提取文本上下文特征。首先,将输入文本中的 每个词(Token) 送入 Token Embedding 层、Segment Embeddings 层和 Position Embeddings 层后, 最终 得到文本的词嵌入表示,如公式(1)所示 :
其次,将得到的词嵌入表示输入到编码层进行训 练,最终得到文本的上下文特征表示 T s ,如公式(2) 所示 :
为了充分捕捉文本特征,利用 TextCNN 对文本局 部特征进行提取。首先,使用词嵌入技术将每个单词表 示成一个 d 维的词向量 tiw ∈ Rd,此时,经过词嵌入后 的文本 Ti={t1w,t2w, … ,tnw}。鉴于 TextCNN 能捕捉到文本 局部的关键特征,且在自然语言处理任务中所表现出的 优越性,因此使用 TextCNN 提取文本局部特征,如公 式(3)所示 :
对于图像模态,使用预训练的 ResNet50 来进行图 像特征提取,得到的图像特征表示如公式(4)所示 :
其中 IS ∈ Rwidth*height*fn , width 代表图像的宽度, height 代表图像高度, fn 代表特征图数量。ResNet 的输出层 不同, width、height、fn 的值也不相同。
1.2 图文双模态特征融合
本文引入跨模态注意力机制来实现图文模态之间的 信息交互。通过这种跨模态注意力机制,可以相互获取 文本模态与图像模态之间的重要信息, 增强多模态特征的 表征能力。同时,利用自注意力机制在模态内部进行信息 融合,抑制噪声干扰和降低信息冗余。这种方法能够更有 效地利用多模态数据的特征,提高情绪分类的性能。
1.2.1 图文特征增强
利用跨模态注意力机制使文本、图像特征相互引导, 捕获模态间的相关性,从而实现不同模态间的信息交互, 进而增强特征表示。当有两种模态特征 “ 和 β,表示为 X“ ∈ RT“ ×d“、Xβ ∈ RTβ ×dβ ;将查询向量表示为Q“=X“WQ“,键 向量表示为Kβ=XβWKβ,值向量表示为Vβ=XβWVβ。其中WQ“ ∈ Rd“×dk、Wk“ ∈ Rd“×dk、Wv“ ∈ Rd“×dk,且W 均为可训练的参数矩阵。 “ 引导的 β 模态特征可以表示为如式(5)所示 :
将图像特征作为 Query,文本上下文特征作为 Key 和 Value 输入到跨模态注意力网络,得到图像引导的文本上下文特征ZTs(Is)。同理,将图像特征作为 Query,文本局部特征作为 Key 和 Value 输入跨模态注意力网络,得到图像引导的文本局部特征ZTp(Is)。通过跨模态注意力 机制,使得文本上下文特征和文本局部特征中与图像情 绪有关的部分得到增强。
同样,图像中也存在与文本相关联特征, 使用跨模 态注意力机制对图像特征以及文本上下文特征和文本局 部特征进行处理,进而挖掘图像中与文本情绪相关的区 域,达到增强图像表征的效果。将文本上下文特征作为 Query,图像特征作为 Key 和 Value 输入跨模态注意力网络,得到文本上下文特征引导的图像特征ZIs(T)s 。同理,将文本局部特征作为 Query,图像特征作为 Key 和 Value 输入跨模态注意力网络,得到文本局部特征引导的图像特征ZIs(T)p。
1.2.2 图文特征融合
为了进一步减少信息交互后产生的冗余信息, 提取与 情绪相关性高的特征, 将增强后的特征使用自注意力机制 依次进行模态内的特征融合、模态间的特征融合。通过注 意力权重对特征进行更新,减少无关信息的干扰。
首先获取跨模态注意力机制增强后的单模态特征表 示。将四组跨模态交互特征两两拼接, 分别得到图像 - 文本关联特征、文本 - 图像关联特征,其表示为如式(6)、 式(7)所示 :
通过自注意力机制进行第一次特征融合, 获取图像与 文本关联特征的内部相关性。将 ZT、ZI 分别输入公式 (8)得到如式(9)、式(10)所示 :
1.3 情绪分类
将多模态融合后的最终融合总特征Zz 输入全连接 层、Softmax 函数得到情绪分类结果,如公式(13)所 示。对于情绪多分类任务,使用交叉熵损失函数来计算 预测标签与真实标签之间的损失,进一步优化模型的参 数。损失函数如式(14)所示 :
其中, N 表示样本数量, y 和y分别表示样本真实标 签和预测标签结果。
2 实验
2.1 实验数据集
为验证本文所提出模型的有效性,采用 TumEmo 数据集 [9] 进行实验。TumEmo 数据集来自轻博客网站 Tumblr(汤博乐)上用户所发布的图文数据。数据集 标签采用帖子上的分类标签作为图像-文本对的弱情绪 标签。数据总体包含七种情绪类别(Angry、Bored、 Calm、Fear、Happy、Love、Sad)。数据集中每种情 绪类别的数量分布如表 1 所示。
数据集总样本数为 195265 条图像文本对。本文实 验按照 8 :2 的比例划分训练集和测试集。
2.2 实验设置与评价指标
模型选用 PyTorch 框架进行训练测试,将训练轮 次设置为 25.文本上下文特征利用预训练模型 BERT 获得输入的词向量表示,其维度为 768 维。文本局部特 征提取中词嵌入的词表容量设置为 10000.词嵌入维度 为 64 维。将图像进行缩放裁剪等预处理操作后,得到 输入大小为 224×224 的 RGB 图像, 利用 PyTorch 预 训练模型 ResNet50 进行特征提取。使用 ReLu 作为激 活函数,并利用 Dropout 技术防止过拟合,其参数设置为 0.2.采用交叉熵损失函数, Adam 优化函数,进 行参数更新,学习率设置为 3×10-5.
本文中针对情绪七分类实验结果的评价标准为准确 率(Accuracy)、F1值(F1-score)。其计算公式如式(15)、 式(16)所示 :
利用上述公式分别计算出每种情绪类别的准确率、 F1 值,然后将每种情绪类别的准确率、F1 值分别相加 取平均值得到最终的准确率、F1 值。其中, T 和 F 分别 表示预测值等于标签值和预测值不等于标签值的情况 ;P 和 N 分别表示预测值为正例和预测值为反例的情况。
2.3 实验结果
2.3.1 对比模型
为证明模型的有效性,选取以下单模态情绪分类模 型和基于图文多模态的情绪分类模型进行比较。
(1)单模态图像情绪分类模型。
ResNet50 :基于 ResNet50 的图像情绪识别模型。
Incep-V :基于 Inception V3 的图像情感分析模型。
(2)单模态文本情绪分类模型。
BiACNN[7] :基于 CNN 和具有注意力机制的 BiLSTM 的文本情感分析模型。
BiLSTM :基于 BiLSTM 的文本情感分析模型。
(3)多模态情绪分类模型。
HSAN[8] :提出了一种基于图像字幕的分层语义注 意网络。该网络对文本使用层次结构提取语义,并使用 图像标题作为视觉特征进行多模态情感分析。
MultiSentiNet[9] :提出了一种视觉特征引导的 LSTM 模型提取文本中的重要关键词,然后聚合文本特征、图 像对象特征和场景特征进行情感预测。
Co-Memory[10] :提出了供记忆网络来迭代地建模 视觉内容和文本之间的交互,以进行多模态情感分析。
MAVN[11] :提出了一种基于多视角注意网络的多模 态情感分析模型,该模型通过注意记忆网络模块交互学 习文本和图像特征。然后,利用多层感知器和池化模块 构建多模态特征融合模块,进行情绪识别。
2.3.2 结果分析
如表 2 所示显示了模型在 TumEmo 数据集上的准 确率与 F1 值对比结果。
首先,在单模态模型实验中,基于文本的 BiLSTM 模型相较于基于图像的 ResNet50 模型, Acc 指标提高 了 21.8%, F1 指标提高了 12.0%。文本单模态情绪分类模型效果明显优于图像单模态情绪分类,表明文本模 态自身蕴含丰富的情感语义,在情绪分类任务中占主 导地位。而多模态模型与文本单模态模型相比,基于多 模态数据的 HSAN 模型相较于基于文本的 BiACNN 模 型, Acc 指标提高了 0.97%, F1 指标提高了 3.8%, 表 明加入了图像模态信息,不同模态间信息起到互补作 用,使得情绪分类性能均优于单模态情绪分类性能。其 次,与其他多模态模型相比,本文模型 Acc 指标比 Co- Memory 和 MVAN 分别提 高 了 10.9%、8.8% ;F1 指 标分别提高了 15.2%、10.8%。实验结果表明,本文提 出的模型在各项指标上优于大部分对比模型。验证了融 合多模态信息的可行性,以及跨模态注意力机制进行信 息交互,自注意力机制进行特征融合,降低冗余信息的 有效性。
3 结语
针对图文双模态情绪分类任务中,特征提取不充分 和多模态特征融合中出现信息冗余等问题,提出了一种 融合注意力机制的图文多模态情绪分类模型。本文首先 在文本特征提取中增加了 TextCNN 通道,加强局部特 征的捕捉能力,丰富了多模态数据的低层特征,利用跨 模态注意力机制对文本、图像特征分别进行交互,实现 模态间信息增强。然后通过自注意力机制依次进行模态 内、模态间的特征融合,得到融合多模态信息的总特征 表示。最后将总特征输入全连接层、Softmax 层, 完成 多模态情绪分类任务。在多模态公开数据集 TumEmo 上与 HSAN、MVAN 等模型进行训练与测试。结果表 明,本文提出的模型在准确率和 F1 值等评价指标上均 有所提升。通常情绪的表达与人物所处的场景有关,在未来的研究工作中,将会考虑不同场景对人物情绪表达 的影响,增强多模态情绪分类模型的泛化性。
参考文献
[1] 宋云峰,任鸽,杨勇,等.基于注意力的多层次混合融合的多任 务多模态情感分析[J].计算机应用研究,2022.39(03):716-720.
[2] 张继东,张慧迪.融合注意力机制的多模态突发事件用户情 感分析[J].情报理论与实践,2022.45(11)170-177.
[3] 周婷,杨长春.基于多层注意力机制的图文双模态情感分析 [J].计算机工程与设计,2023.44(06):1853-1859.
[4] YADAV A,VISHWAKARMA D K.A Deep Multi-level Attentive Network for Multimodal Sentiment Analysis[J]. ACM Transactions on Multimedia Computing, Communications and Applications,2023.19(1):1-19.
[5] ZADEH A,CHEN M H,PORIA S,et al.Tensor Fusion Network for Mul-timodal Sentiment Analysis[C]// Proc of Conference on EmpiricalMethods in Natural Language Processing.Stroudsburg,PA:Associationfor Computational Linguistics,2017:1103-1114.
[6] ZADEH A,LIANG P P,MAZUMDER N,et al.Memory Fusion Network for Multi-view Sequential Learning[C]// Proceedings of the AAAI Conference on Artificial Intelligence,2018.32(1).
[7] LAI S,XU L,LIU K,et al.Recurrent Convolutional Neural Networks for Text Classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2015.29(1).
[8] XU N.Analyzing Multimodal Public Sentiment Based on Hierarchical Semantic Attentional Network[C]//2017 IEEE international Conference on Intelligence and Security Informatics(ISI).IEEE,2017:152-154.
[9] XU N,MAO W.Multisentinet:A Deep Semantic Network for Multimodal Sentiment Analysis[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management,2017:2399-2402.
[10] XU N,MAO W,CHEN G.A Co-memory Network for Multimodal Sentiment Analysis[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval,2018:929-932.
[11] YANG X,FENG S,WANG D,et al.Image-text Multimodal Emotion Classification Via Multi-view Attentional Network[J].IEEE Transactions on Multimedia,2020.23 (06):4014-4026.
[12] 陈军,王力,徐计.基于多模态组合模型的语音情感识别[J]. 软件,2019.40(12):56-60+214.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/75030.html