ICML 2020 Work shop 图对比GRACE

news/2024/5/2 2:37:28/文章来源:https://blog.csdn.net/qq_40926715/article/details/127361033

talk

这篇文章还是有可读的必要性。关注点： 1. 丢弃边丢弃节点的视图增强方法。 2. 不同于原来的 dgi gmi mvgrl 采用 JS散度或者 Infomax的目标函数，本文采用 infonce。 3. Pubmed数据集引发的对评价指标和评价方法的讨论

缺点：可扩展性差，PubMed就需要 12G
有最大的一个问题，这个算法的评价指标和之前的 dgi gmi（LR也采用了 early stop） mvgrl 的不一样

1.实验

1.1 Cora

在这里插入图片描述

1.2 CiteSeer

在这里插入图片描述

1.3 PubMed

在这里插入图片描述
GPU内存占的还是比较多的

这里修改了训练：测试 = 0.05：0.95 变成标准的半监督节点分类，原本以为会 drop，可是效果出奇的好！！但是是不是这个评价有问题呢？

这里重新又对 GRACE 采用了 DGI等的评价方法，发现结果不一致
在这里插入图片描述

2. 三个关注点

2.1 视图增强 drop_edge + drop_feature

代码还是比较简单，送入x edge_index. 生成视图，计算损失
在这里插入图片描述

drop_edge

这里采用是 PyG的库函数在这里插入图片描述
以p的概率从伯努利分布中进行丢边，默认参数无向图=False，即单方向丢弃边，mask是掩码，通过filter_adj 进行边的丢弃。拼接之后返回新edge_index。

这里 mask = True处的元素就会保留，mask的长度是边的个数。
在这里插入图片描述

drop_feature

传入参数：x矩阵和 drop p
操作：对x中的每一个维度进行丢弃。意味着所有节点的某一个属性就都没有了。如果这里的mask是每个节点的每个维度和X大小相同，则意味着每个节点丢失的维度都不一样随机的。
在这里插入图片描述
通过 torch.empty((size))创建空矩阵。 torch.tensor.uniform_是通过均匀分布对tensor填值，进行判断，生成mask，进行mask。

2.2 损失计算

这里有两个版本的损失计算，第一个 full-batch 通过两个矩阵内积，通过指数e和维度tao对应原论文里的公式 infonce，损失 -log （ii/ii+ij) 。这里不是很直观，找个栗子~
在这里插入图片描述

2.2.1 example

在这里插入图片描述

因此上面的损失就是内积的矩阵 n*n 分子取对角元素（一维向量）即是论文里面的 uv 第几个元素就是 uivi
分母第2项就是论文分母的前面两项分母第一和第三项是论文里面的第三项（k≠i）
返回的损失l1 就是一个向量长度为节点总数，分别是每个节点的 infonce损失，采用mean() 来得出 loss
在这里插入图片描述
这里有另外 sample-batch的 infonce损失，即 bacthed 。通过节点总数/batch_size 进行多次batch计算，但这样不是越小batch 越好，Pubmed 2w节点，采4000-5000 可以到9G，但是采用 50 直接24G都爆了。

2.3 评价指标问题

作者自己写的评价指标，这里也是采用LogReg ，精度计算出来很高
在这里插入图片描述
但如果采用下面 DGI版本的LR 的精度就不是很高，上面实验cora citeseer pubmed 最后一行就是采用DGI式，每个数据集都远远低于作者的，这个现象在 PyG实现的 infomax_transductive 例子里面也有，PyG的例子评测也是调用 from sklearn.linear_model import LogisticRegression 最终也是比DGI这样评测要好的。有明白的同学希望相互讨论~
在这里插入图片描述