张铭洲
观点检索的目标是从社交文档库中搜索出与主题内容相匹配,并且带有一定用户情感倾向的文档[1].因此,检索得到的结果不仅要与输入的主题相关,还需要结合用户的主观评论,过程中涉及到主题—文档相关性及文本观点特征的刻画.近年来相关学者主要集中于主题—文档相关性特征提取方面研究.早期的研究主要集中于词语匹配法[2],该方法引入情感词典进行比对,计算出相关性特征并应用于统一检索模型中.之后为了解决词语匹配法“一词多义”的问题,廖祥文等[3]引入了知识图谱进行词语概念扩展,在相关性特征提取方面取得了较好的效果.随着深度表示学习的兴起,为了进一步提升模型的语义泛化能力,张铭洲等[4]提出了基于循环卷积网络的观点检索模型,通过将主题—文档映射到高维语义空间中,进行语义信息表示,得到更为准确的主题—文档相关性特征.现有相关性特征提取方法虽然取得了较好的成效,但是仍然存在着一定的不足:由于忽视了对主题—文档中不同词语间的权重分配,导致模型在语义表示方面存在一定的噪声,进而影响了观点检索结果.以“这个苹果吃起来真好吃”为例,词语“苹果”相对“这个”对句子语义的理解具有更明显的指代作用,但相同的权重将导致模型无法识别词语的重要性,在语义层面的匹配能力较弱,对“苹果”“好吃”等焦点词语,应通过加权放大对词语的重要性,并削弱不相关词语的权重,从而提升模型的观点检索性能.
针对上述问题,该文在现有模型的基础上引入了交互注意力机制模型[5]:将主题—文本分别使用注意力机制和pooling 压缩方式得到attention 向量和pooling 向量,对两个向量分别进行交互式拼接得到新的向量,该模型可以很好地根据语境表示出文本的向量,解决以往观点检索中文本表示时忽视的词语权重问题.
现有的观点检索方法主要是基于统一检索模型[6]进行构建的,该方法直接计算出候选文本与主题的相关特征和文本的观点特征,并将两个指标组合成统一的文本观点检索指标.其创新点在于使用基于交互注意力机制的相关性特征方法解决主题—文档中词语权重不同的问题,进而更为准确地刻画出相关性特征,结合已提取到的文本观点特征,最后根据统一检索模型将两种特征进行结合,得到最终的观点检索特征,并根据最终的结果进行排序,输出最终的排序结果,具体模型如图1 所示.
图1 基于统一检索模型的观点检索方法
统一检索模型如公式(1)所示:
其中:Iopn(d,q,T) 指的是观点挖掘方法对文档内容进行观点挖掘工作,Irel(d,q)则是该文方法计算得到的相关性特征,接下来针对相关性、观点特征提取方法展开详细的介绍.
1.1 基于交互注意力机制的相关性特征提取算法
先将输入的主题—文档转换为词向量矩阵;
然后,采用长短期记忆网络结合词汇在句子中的上下文信息进行编码,以加强对句子语义信息的学习;
之后,通过交互注意力机制计算主题—文档中具有较大关联性的信息以丰富两者的向量表示;
最后,计算出主题—文档向量之间的交互矩阵,并通过卷积核及池化层计算矩阵中含有的精确匹配特征和软匹配特征,形成最终的文本相关性特征,将其应用于统一检索模型中,具体模型如图2 所示.
图2 基于交互注意力机制的相关性特征提取
该模型由以下几个部分组成:
词嵌入层(Embedding Layer).将主题—文档分别映射为m*d维的矩阵向量,假设主题或文档中有m个单词,那么每个词会被映射为一个向量t−>,因此Embedding Layer 将主题—文档分别映射为矩阵向量Tq和Td:
循环层(LSTM Layer).将主题—文档分别转化为向量矩阵后,通过LSTM 层进行全输出,获得新的向量表示,目的是更好地获取上下文间的语义信息.在此主题—文档矩阵向量进行了一次池化操作,将池化后的向量拼接至所获得的循环层向量:
其中:f为遗忘门,i为输入门,O为输出门,ht−1表示上一个单元的输出,xt表示本单元的输入,b是偏移变量.
注意力层(Attention Layer).将初始化表示的主题—文档向量作为输入,使用交互注意力机制去捕获句中重点词语以判断文中的情感极性,加大极性词语的向量表示权重,从而获取到新的主题—文档向量表示:
卷积层(Convolutional Layer).通过采用一个窗口大小为h的卷积核来产生向量表示Embedding,目的是提取局部特征,挖掘文本中的局部上下文特征表示:
其中:relu 为非线性激活函数,Ti:i+h是第i个单词到第i+h个单词的词向量,b表示偏移向量.
匹配层(Cross−Match Layer).从主题—文档中捕获不同大小的N−gram,目的是计算主题文档之间关系相关性特征,构建主题—文档的特征矩阵,由于该文使用卷积窗口大小为[1,2,3]进行处理,因此主题文档进行交互时会生成9 个交互矩阵,分别代表不同粒度主题文档的交互矩阵:
核化层(Kernel pooling Layer).将K高斯函数作为核函数,用以捕捉特征之间的潜在关系,计算K个不同强度级别的单词或者N−gram对的软匹配信息,生成Soft−TF 特征.
其中:μ为函数中心点,δ为核心函数的超参数,x为函数的输入值.
排序学习层(Learning−to−rank Layer).对语义特征进行训练,获得相关性特征,最后通过sigmoid 函数进行归一化处理,得到最终的相关性得分作为特征进行表示:
其中:f(q,d)为最终计算出的主题—文档相关性得分,sigmoid 为激活函数,可将结果映射到[0,1]的区间中,用以损失函数的计算.
1.2 观点特征提取算法
为了验证该文所提方法的有效性,实验过程中使用与廖祥文等[3]一致的观点挖掘方法,包括基于情感词典的观点挖掘方法(Lexicon)、基于支持向量机的观点挖掘方法(NBSVM),以及基于卷积神经网络的观点挖掘方法(CNN),通过控制观点特征判断本文相关性特征提取方法对观点检索的影响.
2.1 问题形式化定义
观点检索作为一个排序类的研究课题,任务的形式化定义为:给定一个主题和对应的文档集D={d1,d2,d3,…,dn}和一个标签集合L={l1,l2,l3,…,ln}.一个文档di对应着一个标签li,给定一个主题(query)和一个文档(document)获得它们的相关性特征Irel(d,q)和di的观点特征Iopn(d,q,T),最后将所得的相关性特征与观点特征进行结合排序.
2.2 实验数据集
该文选取的数据集为Twitter 公开数据集,其中小数据集为公共数据集[7],共包含了49个主题词和3 308 个文档.由于Twitter 数据集较小,为了进一步证明该文所提方法的有效性,新增了廖祥文等采集Twitter 大数据集作为扩展数据集[3],其中包含了10 个主题词和29 634 个文档,文档通过采用缓冲池技术,得到7 172 个文档用于实验,该文的情感词来源于SentiWordNet[8],具体的数据集信息如表1所示.
表1 数据集信息
2.3 评价指标
该文使用评价指标:MAP(Mean Average Precision)、NDCG、R−Prec(R−Precision)和B−Pref(Binary preference)对模型进行评估,以主要评价指标MAP 为例,具体评价指标公式如下:
其中:Nq表示主题的数量,N代表文档的总数,如果第i个文档与主题相关并且包含用户观点,则ri=1,否则ri=AP是指单个主题下,检索模型的准确率,反应了某一个主题下该模型的检索性能.当评价该模型的性能时,若MAP越高,则说明检索效果越好,反之,检索效果越差.
2.4 实验环境及参数设置
实验环境.处理器:Intel(R)Xeon(R)CPU E5−2620 v4 2.10 GHz;
操作系统:Ubuntu 14.04.5 LTS;
内存:32 GB RAM;
GPU:Tesla K40m;
开发平台:Python 2.7.13.该文方法是采用Glove模型[9]进行词向量的转化,使得向量之间尽可能多地蕴含语义与语法信息,向量维度为300,具体的实验参数设置如表2 所示.
表2 实验参数设置
2.5 实验对比模型
近年来,观点检索研究主要是通过计算更为准确的主题—文档相关性特征,应用于统一检索模型,以获取更好的观点检索效果.为了验证本文所提方法的有效性,选取近年来基于统一检索模型的观点检索方法进行对比,具体模型如下所示.
BOC_LEXICON[2].提出了基于概念模型的主题—文档相关性特征提取方法计算出主题—文档的相关性特征,结合基于情感词典计算文档文本对应的观点特征,最后将两者结合起来,应用于统一检索模型,实现观点检索.
BOC_NE+X[3].在BOC_LEXICON[2]基础 上提出了基于网络表示计算相关性特征与BOC_LEXICON 计算出的相关性特征相结合,解决了BOC 方法无法根据上下文将词汇进行知识、概念层面的抽象问题,将计算出的相关性特征结合不同的观点特征有3 种变形:BOC_NE+LEXICON、BOC_NE+CNN、BOC_NE+NBSVM.
RCKNRM+X[4].在BOC_NE 的基础上提出了基于循环卷积网络的相关性特征提取方法,解决了BOC_NE 方法获取主题—文档相关性特征时存在的“一词多义”问题,将计算出的相关性特征结合不同的观点特征有3 种变形:RCKNRM+LEXICON、RCKNRM+CNN、RCK⁃NRM+NBSVM.
RCIKNRM+X(本文模型方法).在RCK⁃NRM 基础上提出基于交互注意力机制方法解决传统方法忽视的词语间权重问题,将其与3种不同的观点特征模型计算的观点特征进行结 合:RCIKNRM+LEXICON、RCIKNRM+CNN、RCIKNRM+NBSVM.
2.6 实验结果分析
对比近年来基于统一检索模型观点的检索方法,验证该文提出方法的有效性,使用相同的Twitter 大小数据集.为了更好地利用数据集,准确地计算出模型的性能,实验过程还引入了K折交叉验证方法,将数据集中的K−1作为训练集,1 折作为测试集,做K次实验,所得的结果进行均值计算,最终的实验结果如表3 所示.
表3 (A)Twitter 和(B)Twitter extension 数据集上的MAP、NDCG、R-Prec、B-Pref 指标
实验结果表明:
比较近年来的观点检索模型结果可以看出,BOC_NE+LEXICON 中的实验结果相较于BOC_LEXICON 在两个数据集的各项指标都得到了提升,说明引入文本概念化特征有利于扩展通过知识图谱捕获词汇的语义信息.不仅如此,廖祥文等[3]还在观点特征方面进行了研究,分别使用了CNN、NBSVM 进行文档文本的观点挖掘工作,取得了不错的成效.
张铭洲等[4]引入循环卷积神经网络对主题—文档的相关性特征进行提取,弥补了BOC_NE 方法使用传统词语匹配方法的不足.观察实验结果可以得出,RCKNRM+X 与BOC_NE+X 相比,在大小数据集上的性能得到了提升,很好地证明了引入深度表示学习模型计算相关性指标的有效性.
进一步分析可得,该文所提方法对比基于循环卷积网络的观点检索模型可得,RCK⁃NRM+LEXICON 与RCIKNRM+LEXICON 在大数据上R−Prec 和B−Pref 中有个别指标低于基准实验,其余的指标均高于基准实验,由此可得,所提方法通过增强文档词的权重,有效地改善了基于统一检索的观点检索模型,很好验证了该文方法的有效性.
该文引入注意力机制方法用以计算出主题—文档中词语的重要性,对其进行加权,解决了传统方法的不足之处,提升了主题—文档相关性准确性,最终将相关性特征应用于统一检索模型.在未来的工作中,计划引入知识图谱进一步丰富文档中的语义信息,以便更为准确地计算出主题—文档的相关性,提升观点检索性能.
猜你喜欢特征提取文档观点浅谈Matlab与Word文档的应用接口客联(2022年3期)2022-05-31有人一声不吭向你扔了个文档中国新闻周刊(2021年26期)2021-07-27基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14观点军营文化天地(2018年1期)2018-08-15Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04基于RI码计算的Word复制文档鉴别信息安全研究(2016年4期)2016-12-01Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar ratAsian Pacific Journal of Reproduction(2015年1期)2015-12-22业内观点营销界(2015年22期)2015-02-28基于MED和循环域解调的多故障特征提取噪声与振动控制(2015年4期)2015-01-01新锐观点清风(2014年10期)2014-09-08