从ACL 2020看知识图谱研究进展

发布时间:2024-10-29 23:04:46    浏览:

  其中 x 是文档,y 是取自训练集 D 的已知文档★★,而θ是模型参数。该目标函数的作用是使得生成的文档 x 最大限度的与已知训练集中的已知确定文档保持一致,从而实现对知识图谱中节点所表征的文档的局部特征进行准确描述。

  此外,本文还提出了一种新的多选完形填空(multi-choice cloze)奖励来驱动模型获得对输入文档的语义理解★■◆★■◆。具体地说,在设计完型填空问题时,移除与谓词相关的成对实体或在人类生成的摘要句中同时出现的实体。而以往的研究中★◆◆◆■,一般只考虑使用单个实体来构造问题。与知识图谱编码相结合,引入完形填空奖励进一步通过强化学习获得全局实体的交互信息。

  知识图谱(Knowledge Graph)是一种多关系图◆■◆★◆,其中,节点表示实体■■★◆,边表示实体之间的关系。知识图谱存储来自不同来源的关于人、地方和世界的事实★◆。这些事实以三元组形式保存(头实体★★、关系实体◆◆★、尾部实体)■■★■,并表示为(h◆★■■, r■◆■★■◆, t) ◆★。知识图谱在很多 NLP 领域中应用获得了很好的效果,例如推荐系统、问答系统★■◆◆,文本生成任务等。不过,知识图谱需要定期更新事实■◆■■★★,为此,人们提出了许多知识图谱嵌入方法来完成知识图谱的链接预测(Link Prediction)。

  构造的概念图提供了关于概念如何与常识知识相关的明确语义◆■■★。ConceptFlow 利用它来建模对话并指导生成回答。它从用户发布开始,经过中心图 G_central 和外部图 G_outer。这一步骤是通过根据用户话语对中心和外部 ConceptFlow 进行编码来实现的。

  本文是清华大学刘知远老师组与来自于布朗大学、微软的研究人员共同完成的◆★■■★。本文主要关注知识图谱在会话生成任务中的应用,具体提出了一种新的会话生成模型★★★◆:ConceptFlow◆◆■◆★■,它利用常识知识图谱对会话流进行显式建模。通过将会话连接到概念空间,ConceptFlow 将潜在的会话流表示为沿常识关系在概念空间中的遍历。在概念图中,以图注意力为导向,在概念空间中向更有意义的方向移动◆■■★◆◆,以产生更具语义性和包含更多信息量的会话回答■◆■◆★◆。

  给定一个具有 m 个单词的用户线◆★★■■◆;★■★◆.★■◆.★◆★.■◆★;x_m}★★◆,典型的会话生成模型通常使用编解码器架构来生成回答 Y={y_1;■★◆◆...★★◆★;y_n}。编码器将用户话语 X 表示为表示集 H={h1;...;h_m}。使用门控循环单元(GRU)完成◆★:

  随着语言模型和自然语言理解技术的发展,会话生成任务获得了广泛的应用。然而◆■■★★,生成模型可能会产生枯燥和重复的内容■◆◆★■,在会话助手应用中,这会导致生成离题和无用的回答,从而损害用户体验。解决这一问题的有效方法是与外部知识(如开放领域知识图谱★◆■◆◆★、常识知识库或背景文档)进行对话◆★■。然而,人类的对话并不是「静止的」——人们在谈论一组相关概念的时候★★◆,经常会将讨论从一个概念转移到另一个概念■◆★★,并且可能会完全切换对话主题。

  本文作者为仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理★■■■■,现从事电子政务领域信息化新技术研究工作◆★★◆。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步◆■★★。

  模型以一个文档作为输入,表示为一系列的符号 x={x_k},以及一个由节点 {v_i} 组成的知识图谱 G。首先将 x 输入 RoBERTa[6],将最后一层的输出作为嵌入。将嵌入输入双向 LSTM(Bi-LSTM),生成 k 时刻的编码隐状态 h_k。利用上文生成的知识图谱,为谓词创建节点◆■■。增加从主语到谓语以及从谓语到宾语的有向、无标记的边。进一步,添加反向边和自循环来增强信息流,从而形成知识图谱 G。

  其中,u_2 为训练参数。在训练期间,如果在参考引用的摘要中包含该节点的至少一个内容词◆★★■■,则该节点的标准掩码 m_i 设置为 1,否则为 0。对数据库 D 中的全部节点都增加下面的目标函数:

  把知识图谱看作是一个三元组的集合 D={(h◆■◆■,r★★◆◆◆★,t) },其中 V 是图的节点集,r 是图的边集。每个三元组都有一个头实体 h 和尾部实体 t。关系 r 用从头到尾的方向连接两个实体。1-to-N、N-to-1 和 N-to-N 的链接预测问题是通过如下方法解决的:1)在嵌入空间组上实现的正交关系变换★★■■■。每个小组都是独立建模和评分的◆★★◆■■,最终得分是所有小组得分的总和。因此,每个组可以解决实体 - 关系对的不同方面◆◆★■,以解决 1-to-N 和 N-to-N 关系映射问题◆■;2)引入有向图上下文,整合知识图谱结构信息,减少歧义◆◆。

  其中 f(r’,t’)为公式(4)的计算结果。然后■★◆,计算 h 的尾 -- 关系对上下文和相应的基于正交变换的三元组表示的距离,如下所示:

  本文是京东人工智能研究院的一篇文章,具体是提出了一种新的基于距离的知识图谱嵌入方法◆★■,称为基于图上下文的正交变换嵌入( orthogonal transform embedding,OTE),以解决知识图谱中 1-to-N、N-to-1 和 N-to-N 的链接预测问题■◆。京东人工智能研究院在关于京东智联云的工作中★★★◆◆■,应用知识图谱技术构建了基于商品的「商品图谱」,并将「商品图谱」与语言模型相结合实现了营销内容智能生成◆■,可以说是 NLP 技术很好的一个应用实例★◆◆★■。本文是关于知识图谱本身构建的工作■◆,目的是改进知识图谱中源实体到目标实体的链接预测水平。

  本文提出的 ConceptFlow 将会话结构显式地建模为潜在概念空间中的转换◆■◆,从而能够生成具有更多信息量和更有意义的回答★◆■■★。未来的工作中■★◆◆,作者计划探索如何将多跳概念与预先训练的深层语言模型(即 GPT-2)相结合,以及如何有效地在生成模型中引入更多的多跳概念。

  其中,e_t 为 t 的嵌入■★■,f(h’◆◆■, r★■◆★’)为利用公式(2)计算得到的表示■★◆★◆。当 N_g(t)为空时,在式(6)中引入 e_t,从而保证上下文表示的计算成为可能。这可以看作是上下文表示计算的一种加性平滑■★。然后◆★◆★■,计算 t 的头相关上下文和相应的基于正交变换的三元组表示的距离,如下所示:

  知识图谱嵌入方法大致可以分为两类 [1]■★◆■◆:基于距离的模型和语义匹配模型★◆◆★。基于距离的模型也被称为加性模型,因为它将头和尾部实体投影到同一个嵌入空间◆◆◆◆★★,使用两个实体嵌入之间的距离评分来衡量给定三元组的合理性。TransE 是最有代表性的基于距离的模型[2]。语义匹配模型通常采用乘法得分函数来计算给定三元组的似然性。本文采用的是基于距离的模型,通过将上下文信息直接集成到距离评分函数中■★★■,实现在链接预测的过程中引入知识图谱的结构以及相邻节点和边的上下文信息◆◆★。

  作者使用不同指标从相关性、多样性和新颖性三个方面对生成的对话的回答质量进行评价。表 1 和表 2 给出实验结果。在表 1 中,所有评估指标都用于计算生成的回答和标准回答之间的相关性■★■★■。ConceptFlow 优于所有基线模型。ConceptFlow 生成的回答更具主题相关性,与基本事实回答更吻合。表 2 中 Dist-1、Dist-2 和 ENT-4 用于衡量所生成回答的多样性◆★◆★★,其余指标则是通过将生成的回答与用户的话语进行比较来衡量其新颖性■★★◆◆■。ConceptFlow 所生成的回答在新颖性和多样性方面都获得了较好的效果★■★■。GPT-2 生成的回答更具有多样性★◆,这可能是由它在解码过程中的采样机制所导致的★◆◆。但是,与 ConceptFlow 相比★★★,GPT-2 生成的回答的新颖性和主题相关性要差一些。

  中心流编码(Central Flow Encoding)。中心概念图 G_central 由一个图神经网络编码,该网络将用户话语 H 的信息传播到中心概念图。具体而言★■◆,它将概念 e_i 编码生成表示 g_ei:

  为了生成第 t 个时刻的回答符号,首先根据话语编码和潜在 ConceptFlow 计算 t 次解码的输出上下文表示★◆★:

  我们选择了 ACL 2020 中三篇与知识图谱相关的文章进行详细解读。其中,第一篇重点关注知识图谱本身,提出了一种基于距离的知识图谱中的源实体到目标实体的链接预测(Link Prediction)方法。第二篇文章是知识图谱在摘要生成任务中的应用★◆◆■,第三篇文章是知识图谱在会话生成任务中的应用。

  两个库中的链接预测性能见表 1◆★★★。从表 1 可以看出:1)在 FB15k-237 上,OTE 的性能优于 RotatE,GC-OTE 在所有指标上都优于其他所有模型。具体地说◆◆★■★◆,MRR 从 0.338(RotatE)增加到 0.361◆■◆★■,相对性能提高了约 7%。OTE 将子嵌入维度数从 2 增加到 20◆◆★◆,每一个图上下文都贡献了大约一半的改进;2)在 WN18RR 上◆■◆,OTE 的性能优于 RotatE 和 GC-OTE,达到了最新的最优结果(据作者从已发表的论文中所知)■★■◆◆。这些实验结果证明了所提出的 OTE 和图上下文对于知识图谱中缺失链接的预测是有效的。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点★★★■◆,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台★■★■。申请澎湃号请用电脑访问★◆■■。

  通过使用输入嵌入矩阵和矩阵 W_out 之间的权重共享,以允许复用语言知识★★★■。进一步,添加了一个复制机制,计算复制概率为:

  机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里,已有数百名来自全球各地的 AI 领域专业学生学者、工程专家■◆■、业务专家,利用自己的学业工作之余的闲暇时间★★★◆★◆,通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识,并从中获得了自身的能力成长、经验积累及职业发展。

  本文使用两个基准数据库(FB15k-237 和 WN18RR)来评估性能。FB15k-237[12]数据集包含知识库关系三元组和自由基实体对的文本提及。FB15k-237 中的知识库三元组是 FB15K[13]的子集,最初取自 Freebase◆■★★★■,但在构建 FB15k-237 时取消了逆关系。WN18RR[14]源自 WN18★◆◆★★◆,WN18 是 WordNet 的一个子集◆■★■★。WN18 由 18 个关系和 40943 个实体组成。然而◆★■,WN18 中许多文本三元组是通过从训练集中反转三元组得到的■◆◆。因此◆★◆◆■,创建 WN18RR 的目的是以确保评估数据集不会因冗余的反向关系而出现测试泄漏■■■◆。

  基于概念的表示 c_(t-1)^concept→是中心和外部流的编码组合

  注意力图表(Attending the Graph)。在每个解码步骤 t,计算一个带有注意机制的图上下文向量 (c_t)^v:

  对于头实体 h 的每个子嵌入 e_h(i) ,定义从 r 和 t 到 h 的投影★★,如下所示:

  进一步的■★★■■,捕获主题移位信息以得到 SEGGRAGH。通过对主题转换和重现进行建模可以识别出文档中的显著内容,从而有利于生成摘要。由于段落自然地将一个文档分成不同的主题段,因此可以直接扩展 DocGragh■★★■◆■。首先使用相同的图编码器将每个段落编码为子图 G_p(对于第 p 个段落)◆■★■★,然后用 BiLSTM 连接所有子图■★■★。首先从最终 GAT 层的输出对子图 G_p 中的所有节点进行最大池化处理■■◆◆■。然后将池化的结果用作为 BiLSTM 的输入,以产生 G_p 的最终子图表示(h_p)^g■◆■◆。

  作者选择了六个基线对比算法,这些算法主要属于三类:标准 Seq2Seq◆★■■■★、知识增强型系统和微调的 GPT-2 系统★■■◆。具体包括:Seq2Seq(语言生成任务的最基本的编解码器模型)■■◆★★、知识增强型系统(MenmNet、CopyNet、CCM)■■■◆★◆、微调的 GPT-2 系统(用于语言生成任务的基本预训练模型 GPT-2 的两种微调◆■■■★:像语言模型一样进行训练的 GPT-2 lang 和用编解码器架构扩展并使用回答数据监控的 GPT-2conv)。此外■★◆◆,本文分别使用 TransE 嵌入和 Glow 嵌入初始化概念表示和单词表示。采用学习率为 0■◆◆◆.0001 的 Adam 优化器训练模型■◆。

  在使用 L_ml 进行极大似然训练后,作者在第二阶段强化学习(RL)中进一步设计了一个多项选择完形填空奖励,使得模型能够生成更真实■■◆■、信息更丰富的摘要。

  本文提出了一种知识图谱增强摘要生成框架,并提出了一种用于强化学习的多项选择完形填空奖励。该模型能够从输入文本中捕捉实体的局部特征和全局交互信息■★,从而生成高质量的摘要。与图表示相结合■★■■◆,本文引入的多项选择完形填空奖励进一步改进了摘要内容。

  对于给定的头实体 h,将头部为 h 的三元组的所有尾 -- 关系对视为其图形上下文,并表示为 N_g(h) ◆◆。首先★★■,计算尾 -- 关系对上下文表示如下:

  进一步,将上面讨论的四个距离分数(式 3、式 5、式 7 和式 9)结合起来作为图上下文正交变换嵌入(Graph Context-OTE★◆■■■◆,GC-OTE)的最终距离分数★★★■◆,用于训练和推理。

  图 2 给出 ConceptFlow 的整体结构。ConceptFlow 首先根据与真实概念之间的距离(hops)构造一个概念图 G,包括中心图 G_central 和外部图 G_outer(3.1.2 小节)◆★■★。然后利用图神经网络和概念嵌入技术,将中心和外部 ConceptFlow 编码到中心图 G_central 和外部图 G_outer 中(3.1■★■★◆.3 小节)★★★■。解码器模块利用 ConceptFlow 和用户话语的编码来生成用于回答的单词或概念(3■★.1.4 小节)。

  表 3 列出了从三种对话模型生成的一些回答实例。其中,CCM 生成的回答可能会不断重复相同的内容,因为它没有在概念空间中显式地建模遍历★■◆◆。例如,第一个和第三个案例的回答总是重复「我不确定」。GPT-2 能够生成更为流利和顺畅的回答。然而,表 3 中一些 GPT-2 生成的答案案例仅仅是从给定的帖子中复制内容或概念■■■■★。例如,对于第三种情况,GPT-2(conv)主要讨论概念音乐。相比之下,ConceptFlow 生成的回答比 CCM 和 GPT-2 生成的回答更流畅■◆★★、更具信息量。例如◆★★★■★,在第三种情况下,ConceptFlow 将相关的概念声音(sound)和检查(check)引入到了回答生成中,从而能够从固定的概念音乐(music)和建议(advice)中跳脱出来★★。引入这些多跳概念有效地提高了所生成回答的信息主题相关性和多样性。

  节点初始化(Node Initialization)★★。每个节点通常包含一个实体的多个引用。因此,通过使用其符号的平均嵌入来初始化节点表示 v_i。本文利用文档编码器的隐藏状态 h_k 作为符号的上下文表示。文档中提到的节点次数作为一个额外的编码添加到 v_i 中■★★■,以增强实体的显著性◆◆★◆★★。

  其中,x_i→ 为单词 x_i 的嵌入。解码器根据先前的 t-1 个生成的单词和用户话语 X 生成回答中的第 t 个字:

  概念图从固定概念(零跳概念(zero-hop)■★■★◆:V^0)开始■★,这些概念出现在会话话语中,并由实体链接系统进行标注。然后■◆,ConceptFlow 用一跳概念(one-hop)v^1 和两跳概念(two-hop)v^2 扩大零跳概念 v^0★■◆。v^0 和 v^1 中的概念以及它们之间的所有关系构成了中心概念图 G_central◆★■■★,它与当前的会线 中的概念及其连接构成了外部图 G_outer。

  目前,ACL 2020 收录的文章大部分已经在网上公开。从论文的题目、主题等关键词可以看出,主要的研究方向包括人机对话,多模态■■★◆◆◆、多语言和多领域,图神经网络◆★■◆,以及经典的信息提取类问题■◆◆■★★,包括实体抽取(NER)★■、事件抽取以及关系抽取等。研究手段则仍集中于各类机器学习的方法,包括:神经网络★★■★、预训练、注意力★◆◆◆◆★、知识图谱等。还有一些文章特别关注了低资源、少样本等实际应用中经常会遇到的问题★■★◆◆。

  本文重点关注的就是知识图谱中的链接预测问题。1-to-N、N-to-1 和 N-to-N 的链接预测是目前知识图谱链接预测中的主要难点。以图 1 中所示为例■■★■,关系「profession」展示了一个 N-to-N 的例子,该示例中重点关注的边被突出显示为绿色。假设三元组(SergeiRachmaninoff, Profession, Pianist)是未知的。链接预测模型以「SergeiRachmaninoff」和关系「Profession」为基础,对知识图谱中的所有实体进行排序★■,对 「Pianist」(「钢琴家」)进行预测。实体「SergeiRachmaninoff」通过关系「profession」连接到多个作为头实体的实体,而作为尾部实体的「Pianist」也通过关系 「profession」到达多个实体◆■■■◆。从单个实体 - 关系对出发,会出现映射到多个不同的实体的情况■◆,这使得 N-to-N 预测变得非常困难。同样的问题也发生在 1-to-N 和 N-to-1 的预测中■■■◆◆。

  将主客体视为由有向边连接的节点,谓词作为属性★★。进一步★◆◆★◆,将同一实体的共同提及考虑为一个节点。通过这一点,可以定位与每个实体相关的显著内容,以及通过图路径连接展开的实体◆■★■。ASGARD 框架如图 2 所示。

  本文实验采用两个包含多个句子的摘要数据集★★★:注释语料库(NYT)和 CNN / 每日邮报数据集(CNN/DM)。本文提出的方法与不同基线方法的实验对比结果分别见表 1(NYT 库)和表 2(CNN/DM 库)。对于本文所提出的方法,除了使用 ML 目标训练的 ASGARD-DOC 和 ASGARDSEG 外■◆★◆,表 1 和表 2 的实验中还给出了用 ROUGE 作为奖励(R_rouge)和使用一个额外的完形填空奖励(R_cloze)训练的结果。最后■◆★,还给出了一个消除图编码器的变体方法 NOGRAPH 的实验结果。

  给定一个尾 t,三元组中以 t 为尾的全部头 -- 关系对 (h’, r■★’) 看作是 t 的图上下文★★◆■◆,定义为 N_g(t)。首先,计算头 -- 关系对上下文表示如下:

  本文提出了一种新的基于距离的知识图嵌入方法。它主要包括两个部分■◆★:首先,利用正交关系变换将 RotatE 从二维复域扩展到高维空间。第二,提出用图上下文将图结构信息集成到距离评分函数中,以衡量三元组在训练和推理过程中的合理性★★◆。

  知识图谱是有向图■◆★◆★★,即存在(h, r, t),不代表存在(t, r, h)◆■★★★★。因此,对于知识图谱中给定的实体,有两种上下文信息:进入它的节点和离开它的节点■■★★。特别地★■,在本文中,对于每个实体 e 考虑以下两个上下文设置:

  除了对节点的局部特征进行建模外,本文还增加了一个目标函数来标记节点的显著性,即节点显著性标记(Node Salience Labeling)★★■■◆。例如,节点中的实体是否在作为参考的摘要中出现过?在每个节点被传递到图编码器之前◆■■■,在每个节点中引入一个软掩码层(Soft Mask Layer)★★■◆★,用以表征该节点的显著性。该层的作用类似于一个「信息通道(information gate)」。针对每个节点 v_i 预测得到一个实数 m_i(m_i 大小满足[0,1])■■◆■★★,使用 m_i 乘以 v_i 得到掩码。对于节点 v_i,掩码计算为:

  对于 RL,本文引入一种自判别策略梯度算法(a self-critical policy gradient algorithm)[8]。在训练过程中,会生成两个摘要:第一,摘要 y^s,在每个解码步骤基于概率分布 p(y^s x;θ)抽样符号◆★;第二,基线摘要 y^,在每个步骤中贪婪选择概率最高的符号。定义目标函数如下★■★■:

  本文奖励函数使用 ROUGE 和下面介绍的多项选择完形填空得分的组合:R(y) = R_rouge(y) +γ_clozeR_cloze。ROUGE(Recall-Oriented Understudy for Gisting Evaluation),是一种常用的机器翻译和文章摘要评价指标[9],其表征的意义是系统算法生成的摘要与参考摘要相同的 N-gram 数 / 参考摘要中的 N-gram 总数。本文提出了一种新的多选完形填空奖励◆■■,用以引导摘要模型提高实体互动的意识■★◆★★◆。将系统生成的摘要视为上下文(context)。另外,提供了一组由人手工编写的对应于参考摘要自动生成的问题(questions)★■■★◆◆。分别训练了一个问答(QA)模型,通过阅读上下文来解决问题。如果系统摘要与参考文献共享了显著信息,问答模型将能够以较高的概率给出正确答案。本文使用正确答案的平均概率作为完形填空的奖励◆◆。本文对 RoBERTa 进行微调■■★★■■,以构建 QA 模型。

  摘要生成(Abstractive Summarization)目的是产生简洁◆◆★◆■★、信息丰富的摘要,从而促进有效的信息消费和知识获取。针对单文档摘要生成任务◆◆◆,基于序列对序列的神经网络模型取得了很好的效果。然而,由于模型结构和基于词预测的学习目标的局限性■◆,这些模型往往产生不真实的内容和过于精练的摘要★◆★。这些情况表明,现有的模型缺乏对输入的语义解释,而对语义的正确理解对于摘要生成任务来说是至关重要的。本文作者认为,摘要的信息性和简洁性的生成需要结构化的表示,以便于实现相关主题之间的联系■★,并保持有全局上下文信息,如实体交互和主题流。以图 1 为示例■■,与同一实体相关的复杂事件可能跨越多个句子,这使得现有的序列模型难以捕捉这些信息。相反,图表示能够产生一个结构化的摘要,并突出了相关概念的近似性。

  基于文本的表示 c_(t-1)^text→ 以标准的注意机制读取用户的话语编码:

  ϕ 表示 Gram-Schmidt 过程★◆★◆■◆。ϕ (M_r(i)) 为正交矩阵。进一步的,使用标量张量 s_r(i) 来分别缩放每组嵌入的 L2 范数■■★★。则上式改写为:

  本文提出了概念流(Conversation Generation with Concept Flow,ConceptFlow)◆★★■◆,它利用常识知识图谱在显式概念空间中对会话流进行建模。例如,如图 1 所示■■◆◆■★,Reddit 的对话概念从聊天(chat)和未来(future)转移到相邻的概念——对话(talk),还沿着常识关系跳跃到遥远的概念——梦(dream),这是自然对话中的一种非常典型的情况。为了更好地捕捉这种对话结构,ConceptFlow 明确地将会话建模为常识知识图谱中的遍历:它从基础概念(如聊天(chat)和未来(future))开始◆■★◆◆,并通过沿着常识关系跳转到相关概念(如谈话(talk)和梦想(dream)),从而生成更有意义的对话★◆。概念图中的遍历由 ConceptFlow 的图注意机制引导★◆■■◆◆,通过图神经网络学习★■■■,利用会话话语、连接的概念以及它们之间的关系来关注更合适的概念。因此,模型学习在常识知识图中沿着更有意义的关系来建模会话发展。因此■■■,ConceptFlow 学会了通过从会话话语、常识关系跳到更遥远但仍然有意义的概念,来「扩大」基础概念——这将引导生成器能够生成包含更多信息性和更具主题相关性的回答。

  类似于上文针对 SegGraph 的处理,引入分级注意机制■◆■◆◆◆。使用标量乘法和重整化对输入中的所有节点进行处理,从而将子图中节点的注意(a_t)^g 与先前计算得到的注意(a_t)^v 相结合。

  图上下文建模没有引入新的参数,因为消息传递是通过 OTE 实体关系映射来完成的,通过替换 OTE,图上下文可以很容易地应用到其他平移嵌入算法中■■★★,如 RotatE 和 TransE 等。

  因此★◆■■,完整的 GC-OTE 模型可以看作是 K 个局部 GC-OTE 模型的集合◆■■。

  摘要解码器在步骤 t 使用一个单层单向 LSTM 生成隐藏状态 s_t,它通过共同关注输入文档和图来循环生成摘要符号。

  在词汇表、中心概念集 V^0,1 和外部概念集 V^2 上计算单词 w、中心概念 e_i 和外部概念 e_k 的生成概率:

  本文是美国东北大学和 IBM 研究人员的研究成果。本文重点关注知识图谱在摘要生成任务中的应用,提出了一种引入图谱增强和语义驱动 RewarD 的摘要生成框架(Abstractive Summarization with Graph Augmentation and semantic-driven RewarD■★,ASGARD)。使用双编码器(dual encoders):顺序文档编码器和图形结构编码器,来提取知识图谱中实体的全局上下文特征和局部特征◆★■◆■◆。进一步,设计了一个基于多项选择完形填空测试(a reward based on a multiple choice cloze test)的奖励,以驱动模型更好地捕捉实体间的交互信息。

  本文的工作主要受到 RotatE 启发[3]。在 RotatE 中■■■■,距离评分是通过定义在复域上的 Hadamard 乘积(元素级)来完成的。对于三元组(h,r◆◆★★★,t)★★★,对应的嵌入为 e_h◆◆■◆, θ_r■◆, e_t。对应关系和头实体的 t 的投影 e_t 以正交变换形式表达,如下所示■★◆◆: