研究问题
使用文本信息完成inductive KGC任务,并在inductive场景下提出了一些新的评估协议
背景动机
- 现有的基于结构的KGE模型无法处理动态图中新加入的实体,而这在现实生活中非常常见(inductive 场景定义:关系已知、实体未见)
- 基于文本的KGC模型只评测了在链路预测任务下模型的表现,不能全面反映其泛化性能
- 现有的使用文本信息完成KGC的方法是为实体和关系共同学习一个嵌入,这样就无法应对实体分类或关系分类任务
符号定义
定义一个带实体描述的知识图谱为G=(E,R,T,D)\mathcal{G}=(\mathcal{E}, \mathcal{R}, \mathcal{T}, \mathcal{D})G=(E,R,T,D),其中一个三元组记做(ei,rj,ek)\left(e_i, r_j, e_k\right)(ei,rj,ek),对实体eie_iei的文本描述为dei=(w1,…,wn)∈Dd_{e i}=\left(w_1, \ldots, w_n\right) \in \mathcal{D}dei=(w1,…,wn)∈D
链路预测的目标是让正样本的得分高于负样本
Bert对文本表示进行编码,经过投影矩阵得到实体表示
关系的表示像传统KGE模型一样,自己学习出来
实验
链路预测
论文在链路预测任务下设计了两个子任务
- Dynamic evaluation:测试时,未见过的实体在三元组中出现的位置是随机的,候选实体是训练集和测试集中实体的集合(实验数据集为FB和WN)
- Transfer evaluation:测试时,三元组的头尾实体都必须是未见过的实体,候选实体是测试集中实体的集合,也就是全部都没见过(实验数据集为Wikidata5M)
使用了TransE, DistMult, ComplEx, SimplE的得分函数
减少训练集样本,效果下降得不是很显著
实体分类
将WN数据集中的实体分为四类,将FB中的实体分为五十类