2021 Hyperbolic Geometry is Not Necessary/ Lightweight Euclidean-Based Models for Low-Dimensional Knowledge Graph Embeddings 阅读笔记

0. 前言

Topic

hyperbolic geometry;KGE;

motivation

However, the necessity of hyperbolic space in KGE is still questionable, because the calculation based on hyperbolic geometry is much more complicated than Euclidean operations. Which will cost more training time.

challenge

problems in previous work

1. 作者试图解决什么问题?

通过抽取RotH模型中有效的组件并消除冗余,来设计一个高效的、低维的KGE模型。

2. 这篇论文的关键元素是什么?

hyperbolic geometry;

3. 论文中有什内容可以“为你所用”?

  • 双曲空间对于树形结构数据的建模是有一定优势的;
  • 双曲空间可以大大简化参数;
  • 文中transformation的堆叠;
  • 文中提出的RotL和变体Rot2L,分别去描述其优势;可以借鉴写作思路;
  • 可以参考其他数学定义新的运算符合(如本文中定义的加法操作);

4.有哪些参考文献你想继续研究?

  • Chami I, Wolf A, Juan D-C, et al. Low-Dimensional Hyperbolic Knowledge Graph Embeddings.[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020. 2020: 6901-6914.
  • Balazevic I, Allen C, Hospedales T M. Multi-relational Poincaré Graph Embeddings.[C]//Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada. 2019: 4465-4475.
  • Chami I, Wolf A, Juan D-C, et al. Low-Dimensional Hyperbolic Knowledge Graph Embeddings.[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020. 2020: 6901-6914.

5. 还存在什么问题

  • 为什么会想到堆叠transformation,如何解释其作用和意义;

1 背景知识

Hyperbolic Space(双曲空间)

优缺点

  • 优点:
    • 捕获分层模式;
    • 低维表示
  • 缺点
    • 计算复杂度高,训练速度慢;
    • 目前大多数机器学习模型都建立在欧式空间假设下,所以普适性、推广性受限;

与本文相关的定义和公式

negative curvature:

Möbius addition:

Möbius matrix-vector multiplication:

RotH

Rotation:

score function:

  • 其中$c_{r}>0$是关系特定的曲率参数;$b_{e}(e \in E)$是实体偏移量(在评分函数中充当边距margin);
  • $\boldsymbol{r}^{H}, \boldsymbol{r}^{\prime H} \in \mathbb{B}_{c}^{d}$是两个平移操作,$e^{H} \in \mathbb{B}_{c}^{d}$

RotE

RotE是基于欧几里得的RotH的变体,评分函数为:

2 模型

RotH 表现好的两点原因

  • rotation-translation transformation:这种特别的转化操作可以推断在KG中不同的关系模式;
  • flexible-normalization:在双曲空间中需要满足$|\mathbf{e}|^{2}<\frac{1}{c}$,由于低维向量空间的表示能力有限,灵活归一化的效果会更加明显。(这解释了为什么在低维度KGE任务上,RotH比RotE的效果好)

RotL

RotL的目的是实现和RotH相似的效果,并将其计算复杂度降至接近 RotE 的计算复杂度。RotL保留RotH灵活地归一化并简化双曲线运算的复杂度。

定义了一个简化的Möbius Addition:

  • $\alpha$是一个关系特定的缩放参数。

转换函数:

距离函数:

  • $\varphi(x)=x e^{x}$

评分函数:

  • $\alpha_{r}, \alpha_{r}^{\prime}$是两个不同的缩放参数

Rot2L

Rot2L通过堆叠两层转换来代替一个。

转换函数定义为:

平移向量:

旋转矩阵:

  • 因为作者设计的两层中关系需要不同的参数,这样会导致关系参数翻倍。
  • 作者设计为每层提供一个可学习的向量$\boldsymbol{f} \in \mathbb{R}^{d}$,用该向量的一半来替代原来关系向量中的一半,这样就可以节省出一个$N_{r} \times d$的关系矩阵。

距离函数:

作者指出了不用更多层的原因:

  • 更多的层需要更多的参数,这与作者的轻量级的初衷背道而驰;
  • 作者发现向量值在通过多个层时逐渐放大。使用3层发现效果出现下降。

3 实验

3.1 实验设置

数据集:

loss function:

实验结果:链接预测

消融实验

效率分析

讨论

问题1:作者模型到底提升了哪部分关系,对比RotH?

问题2:作者的模型是否能够保留对分层模式的处理?

问题3:

参考链接


 上一篇
screen 后台运行 screen 后台运行
1. screen基础应用新建窗口 $ screen -S name #这样新建一个名字为name的窗口,并入到该窗口中 例如:screen -S count 新建了一个叫count的窗口并进入 会话分离 在当前会话窗口中按Ctr
2022-01-05
下一篇 
pickle中保存加载类对象时可能发生的错误 pickle中保存加载类对象时可能发生的错误
保存的数据为类对象时需要注意路径问题实用时错误产生原因:用pickle dump()封装类对象,并将数据保存,然后在另一个文件夹中解析数据时产生数据能拿到,但不能正确解析出类对象。后来发现是缺少了对应的类对象,并且类对象要和打包时的类对象路
2021-11-16
  目录