Knowledge Graph Embedding by Translating on Hyperplanes阅读笔记

作为trans系列经典文献,必读。文章主要精华在于这种超平面想法的由来解决了同一实体的多关系问题。

Authors proposed TransH which models a relation as a hyperplane together with a translation operation on it. It solves the problem of multi-relation and makes a good trade-off between model capacity and efficiency.

推测transH的想法来源

既然实际是表达同一关系不同实体最后通过TransE后会趋于一致,那么我直接通过一个中介来进行映射将同一表示映射成不同向量表示,那么这些向量表示就可以代表不同的实体,就达到了不同实体拥有不同表示的目的。因为关系是不变的所以想到了将关系作为映射平面,让实体向量向其中映射。

research objective

  • solves the problem of multi-relation
  • makes a good trade-off between model capacity and efficiency

Problem Statement

  • TransE can’t deal with reflexive, one-to-many, many-to-many and many -to-one relations
  • some complex model sacrifice efficiency in the process(although can deal with transE’s problem)

Contribution

  • proposing a method named translation on hyperplanes(TransH)
    • interpreting a relation as a translating operation on a hyperplane
  • proposing a simple trick to reduce the chance of false negative labeling

Embedding by Translating on Hyperplanes

Relations’ Mapping Properties in Embedding

transE

  • the representation of an entity is the same when involved in any relations, ignoring distributed representations of entities when invovled in different relaions

Translating on Hyperplanes (TransH)

同一个实体在不同关系中的意义不同,同时不同实体,在同一关系中的意义,也可以相同

将每个关系定义在一个独特的平面呢,在该平面内有符合该关系的transE的表示(h,r,t),多加入的代表该平面的法向量完成了将不同实体向平面内和h,t转化的任务,使得同一关系的不同实体拥有不同的表示,但是在关系平面内的投影相同;同一实体可以在不同的关系平面内拥有不同的含义(平面内的投影)

20190601155935483248827.jpg

如图所示,对于正确的三元组来说$(h, r, t) \in \Delta$,所需满足的关系如图所示。那么对于一个实体$h’’$如果满足$\left(h^{\prime \prime}, r, t\right) \in \Delta $,在transE中是需要$h’’=h$,而在transH中则将约束放宽到$h,h’’$在$W_r$上的投影相同就可以了,也可以实现将$h,h’’$区分开并且具有不同的表示。

目标函数

scoring function:

As the hyperplane $W_r$, the $w_r$ is the normal vector of it, and $\left|w_{r}\right|_{2}^{2}=1$, so the projection $h$ in $w_r$ is:

其中,$w_r^{T} h=|w_r||h| \cos \theta$可以表示$h$在$w_r$上的投影的长度和$w_r$长度的乘积,因为$\left|w_{r}\right|_{2}^{2}=1$,所以可以代表投影的长度,再乘上单位向量即可表示投影向量。所以:

如图所示:2019060115593616504994.jpg

the score function is:

Training

loss function consists of margin-based ranking loss and some constraints:

the constraints:

  • the second grantees the translation vectot $d_r$ is in the hyperplane
  • they project each $w_r$ to unit $l_2$-ball before visiting each mini-batch

既然transH可以完成将同一实体映射到不同的关系平面来获得不同的含义,那么我觉得

  • 是不是不同代表同一含义的投影表示应该相同或者相似
  • 这样是不是可以解决同一个实体的多义性问题。

Reducing Ralse Negative Labels

Authors set different probabilities for replacing the head or tail entity depending on the mapping property of the relation (one-to-many, many-to-one, many-to-many)

  • give more chance to replacing the head entity if the relation is one-to-many

    • 分别统计每个头实体对应尾实体的数量(反之亦然),按占比进行生成负样例
  • 通过这样的方式,例如one-many关系,替换头实体显然更不容易得到正样例(因为只有一种头实体是对的,然而替换尾实体因为对于头实体对应该关系的尾实体更多,说不定就有其他不在此many中的尾实体符合这个关系。
  • 相比之下我认为在《Bootstrapping-Entity-Alignment-with-Knowledge-Graph-Embedding》采用的均匀截断负采样效果会更好一些

Experiments

the detail can be seen in the paper

outperform TransE in one-to-one

Authors explain:

  • entities are connected with relations so that better embeddings of some parts lead to better results on the whole.

我是觉得有些牵强,不过要是硬理解也是可以,毕竟通过投影相当于把实体和关系进行了一个联系,可能这个增强了效果。

Triplets Classification

This means FB13 is a very dense subgraph where strong correlations exist between entities

Relational Fact Extraction from Text

  • Actually, knowledge graph embedding is able to score a candidate fact, without observing any evidence from ex- ternal text corpus

可以看到从14年开始就有利用知识图谱来从文本抽取关系,最近这个应用好像又有起色,这个也可作为自己实验的一部分。

Reference


 上一篇
Learning Knowledge Embeddings by Combining Limit-based Scoring Loss阅读笔记 Learning Knowledge Embeddings by Combining Limit-based Scoring Loss阅读笔记
此篇文章最为重要的就是作者设计的 margin-based ranking loss 的改进,对两个超参数$\lambda$和$\gamma$的实验,对于实验结果有很多值得分析与思考的地方。 论文下载地址 Problem Statem
下一篇 
Attention Is All You Need阅读笔记 Attention Is All You Need阅读笔记
transformer 是一个完全由注意力机制组成的搭建的模型,模型复杂度低,并可以进行并行计算,使得计算速度快。在翻译模型上取得了较好的效果。本篇论文属于经典必读论文,阅读笔记中对一些不清楚的地方进行了汉语解释,读完论文后阅读参考链接以
  目录