> 文章列表 > MGAT: Multimodal Graph Attention Network for Recommendation

MGAT: Multimodal Graph Attention Network for Recommendation

文章列表

MGAT: Multimodal Graph Attention Network for Recommendation

模型总览如下：

图1：多模态图注意力网络

背景：本论文是对MMGCN（Wei et al., 2019）的改进。MMGCN简单地在并行交互图上使用GNN，平等地对待从所有邻居传播的信息，无法自适应地捕获用户偏好。

MMGCN的消息聚合方式如下：

（平均值聚合

或

（最大值聚合）

$j_{m}$ ：邻居的特征向量

$W_{1,m}$ ：可训练的权重矩阵用于提取邻居的有用特征

由公式可见所有邻居都信息都通过 $W_{1,m}$ 矩阵进行特征提取。当用户分别喜欢物品A的音乐，B的字幕。在音频模态上同等程度的提取B的音频特征，无疑会加入噪声。MGAT对MMGCN针对这点做了改进。

MGAT消息构造如下所示：

h：中心节点
t：h的邻居节点
$e_{m,t}$ ：物品t在模态m上的特征表示
$f_{a}(h,t)$ ：注意力组件，学习不同邻居的重要性，反映两个节点之间的亲疏关系。

利用Sotfmax函数进行正则化：

其中 $w_{m,h}$ 以及 $w_{m,t}$ 是两个可训练矩阵， $e_{m,i}$ 为物品i 在模态m上的特征。为了简单起见，论文中直接用内积做为注意力分数。

$f_{g}(h,t)$ 决定项目的每个模态是否将信息传播给目标用户。

（内积门）

（连接门）

（双相互作用门）

其中d为节点h 的邻居的数量。

三种门的效果对比：

由实验结果可以发现“最简单”的内积门在两个数据集上的表现都最好，可能原因是其他两个门通过变换矩阵做了特征变换，造成了过拟合。

一层信息融合(h距离一跳的邻居)：

$e_{m,h}$ 为用户h在模态m上的特征表示， $e_{h}$ 为用户h的id特征。物品的不同模态属于不同的语意空间，通过下方的公式将物品所有模态的特征表示都转换到id空间，并在用户的特征表示中加入id属性。上面的公式也是同样的道理，将模态m上从邻居那里得到的信息转换到ID空间，并与自己的特征相结合，得到h在模态m上的最终表示

高层信息融合

节点h在模态m上汇聚了l跳邻居信息后得到的表征。

节点h的表征为。

预测：

同时融合了各层邻居的信息。