论文阅读《GlueStick: Robust Image Matching by Sticking Points and Lines Together》

文章列表

论文地址：https://arxiv.org/abs/2304.02008
源码地址：https://github.com/cvg/GlueStick

概述

针对视角变化时在闭塞、无纹理、重复纹理区域的线段匹配难的问题，本文提出一种新的匹配范式（GlueStick），该方法基于深度图神经网络将点、线的描述符统一到一个框架中，利用点之间的信息将来自匹配图像之间的线进行粘合，提高了模型的联合匹配效率，表明了在单一框架中使用两种特征的互补性能大幅度提升性能。
本文的主要贡献如下：

使用数据驱动的方法代替启发式几何策略进行线匹配，在统一的框架中联合表征点与线。
提供了一种新的架构，充分挖掘图像内特征之间的局部关联信息。
实验结果表明，所提出的方法比之前最先进的方法有较大提升。

模型架构

在这里插入图片描述
受启发于：在匹配过程中，每个特征都可以利用其周围的特征信息来提高匹配性能，如线段可以利用周围的点来增强自己的表征能力，或者反之亦然。此外，网络在训练的过程中可以自动学习到对匹配任务有用的周围的点或者线。模型的主要框架如图2所示，主要包含三个部分：

Front-End：使用常用的特征检测器来提取点、线与它们的描述符，然后将其编码成一个统一的线框。
GNN：使用图神经网络来对输入特征的外观与空间信息进行编码，充分挖掘特征点之间的内部关联，输入为增强后带有更多信息的匹配特征描述符。
Dual-Softmax：使用两个独立的softmax层来分别对点和线进行匹配，确定最后的匹配对应关系。

From Points and Lines to Wireframes

GNN的输入为特征点的位置与描述符、表示线段链接关系的连接矩阵。第一步是建立这些连接关系并构建线框图。使用SuperPoint来预测关键点与稠密的描述符图，并通过LSD检测器检测线段，并将线段两端附近的关键点删除，避免特征冗余。
LSD检测的线段的为断开的独立线段，为了给模型更多结构化信息，并鼓励网络按照线段的连接性进行推理，使用阈值 $d$ 来将相邻端点进行合并，此过程将非结构化的线转换成了互联的线框，将每个关键点与线段端点表示为线框中的一个节点，每个节点有不同的连接性：0表示孤立节点，2表示角点。继而在节点周围使用SP生成的特征点插入，用来增强线段的表征能力，这种方式会改变线段端点的位置，而不会改变线段的数量，对于有高精度要求的下游任务，使用端点的原始位置来保证原始检测器的亚像素精度。

Attention-based Graph Neural Network (GNN)

模型的关键部分是GNN，该模块可以将视觉和空间信息编码为一组表征能力丰富的特征描述符，通过特征描述符的相似性来建立最后的匹配关系。在网络内部，每个节点（关键点、线段端点）都与一个基于视觉外观和位置信息的描述符相关联。
在这里插入图片描述

不妨设 A 与 B 为一对图像，对于每幅图像，网络的输入为：特征点集合 $p\\mathbf{p}$ 的坐标 $x_p, y_p)$ ，置信度 $s_p$ 和视觉特征描述符 $dvis∈RD\\mathbf{d}^{vis}\\in \\mathbb{R}^D$ ; 线集合 $l\\mathbf{l}$ 的端点 $(xp,yp),(xp′,yp′)(x_p, y_p), (x_p^\\prime, y_p^\\prime)$ 与线段分数 $s_l$ 。线段分数可以为先检测器返回的任何值，也可以用线段的长度来表示。节点置信度 $s_p$ 由关键点检测器计算而来，如果是线段端点则等于 $s_l$ 。
Positional and Directional Encoding.
首先对每个特征点的空间信息进行编码，使用MLP来学习位置编码 $PE^p$ 与 $PE^e$ , 对于每个点生成空间描述符 $dp\\mathbf{d}^p$ ，并未每个从该节点发出的线段生成描述符 $de\\mathbf{d}^e$ 。如具有3个连接点的节点将被分配一个 $dp\\mathbf{d}^p$ 与 3 个 $de\\mathbf{d}^e$ 。边位置编码还需要额外的信息，即到线段另一端的偏移量，从而能够范围线段的角度与长度。

$dp=PE⁡p([xp,yp,sp]⊤)de=PE⁡e([xp,yp,xp′−xp,yp′−yp,sl]⊤)(1)\\begin{aligned} \\mathbf{d}^{p} & =\\operatorname{PE}^{p}\\left(\\left[x_{p}, y_{p}, s_{p}\\right]^{\\top}\\right) \\\\ \\mathbf{d}^{e} & =\\operatorname{PE}^{e}\\left(\\left[x_{p}, y_{p}, x_{p}^{\\prime}-x_{p}, y_{p}^{\\prime}-y_{p}, s_{l}\\right]^{\\top}\\right) \\end{aligned} \\tag{1}$
其中 $dp\\mathbf{d}^p$ 用于初始化节点信息，而 $de\\mathbf{d}^e$ 用于线消息传递。
Network Architecture.
GNN 包含三种无向边：self-attention edges( $εself\\varepsilon_{self}$ ) 连接同一副图像之间的节点； line edges( $εline\\varepsilon_{line}$ ) 将同一条线的端点连接； cross attention edges ( $εcross\\varepsilon_{cross}$ ) 连接不同图像之间的节点；
每个节点 $i$ 的特征向量使用空间与视觉信息来初始化： $0xi=dip+divis{}^0x_i = \\mathbf{d}^p_i + \\mathbf{d}^{vis}_i$ ，然后通过 $L$ 次 Self，Line与 Cross layers的更新迭代，节点的描述符被不断丰富与精细化，最后将每个节点的特征进行线性投影得到输出层特征。

Self and Cross Layers.
$εself\\varepsilon_{self}$ 与 $εcross\\varepsilon_{cross}$ 的定义是类似的。第 $m$ 层的特征更新过程如下：
$}^{(m+1)} \\mathbf{x}_{i}={ }^{(m)} \\mathbf{x}_{i}+\\psi_{m}\\left(\\left[{ }^{(m)} \\mathbf{x}_{i} \\| a_{m}\\left({ }^{(m)} \\mathbf{x}_{i} ; \\mathcal{E}\\right)\\right]\\right),\\tag{2}$
其中 $∣∣$ 代表拼接，函数 $ψm\\psi_{m}$ 使用 MLP来拟合。 $am((m)xiE)a_{m}\\left({ }^{(m)} \\mathbf{x}_{i}\\mathcal{E}\\right)$ 为多头注意力机制，其中：
$am(xi;E)=∑j:(i,j)∈Esoftmax⁡j(qi⊤kjD)vj,(3)a_{m}\\left(\\mathbf{x}_{i} ; \\mathcal{E}\\right)=\\sum_{j:(i, j) \\in \\mathcal{E}} \\operatorname{softmax}_{j}\\left(\\frac{\\mathbf{q}_{i}^{\\top} \\mathbf{k}_{j}}{\\sqrt{D}}\\right) \\mathbf{v}_{j},\\tag{3}$
其中 $qi\\mathbf{q}_{i}$ 与 $kj\\mathbf{k}_{j}$ 是由节点特征 $x_i$ 和 $x_j$ 生成的，在自注意力层中， $k_j$ 和 $v_j$ 来自同一图像，而在交叉注意力中来自不同图像。自注意力允许网络利用整个图像的上下文，并解决重复结构下的模糊匹配问题。交叉注意力将相应特征在描述符空间中的距离拉近，并可以在另一幅图像中搜索类似的节点结构，以充分利用空间信息。

Line Message Passing.
本文提出一种新的 Line Message Passing(LMP) 的方法在线 $εline\\varepsilon_{line}$ 之间传播信息，通过在 wireframe 结构中连接 line segments，利用第 $i$ 个节点与邻域节点 $N_i$ 的连接关系在匹配图像中寻找类似的连接关系。基于 $m$ 层LMP来不断更新聚合来自两个端点{ }^{(m)} \\mathbf{x}_{i} 与 $}^{(m)} \\mathbf{x}_{j}$ 本身的信息与相应的位置编码信息 $dje\\mathbf{d}^e_j$
$}^{(m+1)} \\mathbf{x}_{i}={ }^{(m)} \\mathbf{x}_{i}+\\sum_{j \\in \\mathcal{N}_{i}} \\frac{\\phi_{m}\\left(\\left[{ }^{(m)} \\mathbf{x}_{i}\\left\\|\\left.\\right|^{(m)} \\mathbf{x}_{j}\\right\\| \\mathbf{d}_{j}^{e}\\right]\\right)}{\\left|\\mathcal{N}_{i}\\right|},\\tag{2}$
其中 $ϕm\\phi_{m}$ 由MLP来实现， $∣Ni∣|\\mathcal{N}_{i}|$ 为节点 $i$ 的邻域节点之和，此处使用邻域节点的信息的均值来更新当前节点信息，也可以对邻域节点增加注意力机制，从经验数据上看书这样会增加模型的计算量，而对性能的提升不大。

Dual-Softmax for Points and Lines

最近一些工作表明，dual-softmax相较于Sinkhorm 算法有更好的性能，为此本文采用独立的dual-softmax处理点与线的匹配。此外，再一次使用GNN来对所有的节点（点与线）进行一次匹配：对于A图中的所有节点 $fiA∈RD\\mathbf{f}_i^A\\in \\mathbb{R}^D$ 与 $fjB∈RD\\mathbf{f}_j^B\\in \\mathbb{R}^D$ ，每个节点的分配矩阵 $Sp\\mathbf{S}^p$ ：
$Sijp=(fiA)⊤fjB.(5)\\mathbf{S}_{i j}^{p}=\\left(\\mathbf{f}_{i}^{A}\\right)^{\\top} \\mathbf{f}_{j}^{B} .\\tag{5}$
使用可学习的参数来对分配矩阵增加 dustbin 的行与列（参考super glue）来表示非匹配点，然后对所有行和所有列进行softmax：
$p=softmax⁡row(Sp)⊙softmax⁡col(Sp).(6)\\mathbf{S}_{\\text {final }}^{p}=\\sqrt{\\operatorname{softmax}_{\\mathrm{row}}\\left(\\mathbf{S}^{p}\\right) \\odot \\operatorname{softmax}_{\\mathrm{col}}\\left(\\mathbf{S}^{p}\\right)} .\\tag{6}$
其中 $⊙\\odot$ 为逐元素相乘，选择两个节点之间的匹配分数高于阈值 $η\\eta$ 的视为匹配点。线的匹配过程是类似的，使用两个端点来表示一条线段 $fs∈RD\\mathbf{f}_{s}\\in\\mathbb{R}^D$ 与 $fe∈RD\\mathbf{f}_{e}\\in\\mathbb{R}^D$ , 为了消除端点顺序对匹配的影响，选择分配矩阵中得分比较大的一项作为最后的选择值，如图4所示：
在这里插入图片描述
$Sijl=max⁡((fsA)⊤fsB+(feA)⊤feB,(fsA)⊤feB+(feA)⊤fsB).(7)\\begin{array}{r} \\mathbf{S}_{i j}^{l}=\\max \\left(\\left(\\mathbf{f}_{s}^{A}\\right)^{\\top} \\mathbf{f}_{s}^{B}+\\left(\\mathbf{f}_{e}^{A}\\right)^{\\top} \\mathbf{f}_{e}^{B},\\right. \\left.\\left(\\mathbf{f}_{s}^{A}\\right)^{\\top} \\mathbf{f}_{e}^{B}+\\left(\\mathbf{f}_{e}^{A}\\right)^{\\top} \\mathbf{f}_{s}^{B}\\right) . \\end{array}\\tag{7}$
最后通过公式6的dual-softmax来得到最后的分配矩阵。

Ground Truth Generation

为了得到点的 Ground True(GT) 值 $Mp\\mathcal{M}^p$ ，利用相机参数与深度图，将关键点从一幅图像中warp到另外一幅图像中，如果重投影点落在现有关键点的一个小邻域内，则认为两个关键点在空间中是接近的，则认为他们是匹配的。

线段匹配的一大挑战就是对一些碎片化、和部分遮挡的的线段生成高质量的标签数据。不妨设图像 $A$ 与 $B$ 分别包含 $M$ 和 $N$ 条线段，表示为 $A:={1,...,M}\\mathcal{A}:=\\{1, ...,M\\}$ ， $B:={1,...,N}\\mathcal{B}:=\\{1, ...,N\\}$ , 则匹配线段表示为 $Ml={(i,j)⊂A×B}\\mathcal{M}^l=\\{(i, j)\\subset\\mathcal{A}\\times \\mathcal{B}\\}$ ，对于图 $A$ 中的每条线段 $IiA\\mathbf{I}_i^A$ ，从线段中采样 $K$ 个点 $[xi,1A,...,xi,KA][\\mathbf{x}_{i,1}^A, ..., \\mathbf{x}_{i,K}^A]$ 。如果这个点没有深度值或者重投影到B图时没有深度值，则将该点剔除。同时，这些点应该不属于遮挡区域，使用图 A 中的点warp到图B，然后计算深度值偏差度，如果大于阈值则认为该点是遮挡点：
$,(8)\\text { Occluded }=\\frac{\\left|d\\left(\\mathbf{X}_{i}\\right)-d^{B}\\right|}{d^{B}}>T_{\\text {occlusion }},\\tag{8}$
然后生成一个邻近矩阵来统计A图中，第 $i$ 条线段有多少个点能成功warp到B图中 $j$ 条线段附近：
$Ci,jB=∑k=1K1(valid⁡(xi,kB)∧d⊥(xi,kB,ljB)<Tdist)(9)\\mathbf{C}_{i, j}^{B}=\\sum_{k=1}^{K} \\mathbb{1}\\left(\\operatorname{valid}\\left(\\mathbf{x}_{i, k}^{B}\\right) \\wedge d_{\\perp}\\left(\\mathbf{x}_{i, k}^{B}, \\mathbf{l}_{j}^{B}\\right)<T_{\\mathrm{dist}}\\right)\\tag{9}$

其中 $1(⋅)1(\\cdot)$ 为指示函数， $d⊥(⋅,⋅)d_{\\perp}(\\cdot,\\cdot)$ 为垂直与点线距离。 $TdistT_{\\mathrm{dist}}$ 为像素为单位的距离阈值，用于控制 GT 的严格程度， $C^A$ 的定义与 $C^B$ 类似，为此定义一个具有最小重叠阈值 $T_{overl}$ 的成本矩阵：
$(10)\\mathbf{C}_{i, j}=\\left\\{\\begin{array}{ll} \\infty, & \\text { if } \\mathbf{C}_{i, j}^{A}<T_{\\text {overl }} \\vee \\mathbf{C}_{j, i}^{B}<T_{\\text {overl }} \\\\ -\\mathbf{C}_{i, j}^{A} \\mathbf{C}_{j, i}^{B},& \\text { otherwise. } \\end{array}\\right.\\tag{10}$
最后使用匈牙利算法来求解该分配问题，分配结果 $j)\\in \\mathbb{M}^l$ 为匹配特征，未被匹配的特征都被标记为未匹配状态。

损失函数

一般使用带有 hard negative mining 的 triplet-ranking-loss作为损失函数，而线段经常出现重复结构，这会导致不稳定的 hard negative，因此使用点与线的分配的负对数似然来作为损失函数：
$l,Ml)2(11)\\mathcal{L}=\\frac{\\operatorname{NLL}\\left(\\mathbf{S}_{\\text {final }}^{p}, \\mathcal{M}^{p}\\right)+\\operatorname{NLL}\\left(\\mathbf{S}_{\\text {final }}^{l}, \\mathcal{M}^{l}\\right)}{2} \\tag{11}$

$NLL⁡(A,M)=−∑(i,j)∈Mlog⁡Ai,j−∑i∈Ilog⁡Ai,N+1−∑j∈Jlog⁡AM+1,j(12)\\begin{aligned} \\operatorname{NLL}(\\mathbf{A}, \\mathcal{M})= & -\\sum_{(i, j) \\in \\mathcal{M}} \\log \\mathbf{A}_{i, j} -\\sum_{i \\in \\mathcal{I}} \\log \\mathbf{A}_{i, N+1}-\\sum_{j \\in \\mathcal{J}} \\log \\mathbf{A}_{M+1, j} \\end{aligned}\\tag{12}$

实验结果

在这里插入图片描述

论文阅读《GlueStick: Robust Image Matching by Sticking Points and Lines Together》

概述

模型架构

From Points and Lines to Wireframes

Attention-based Graph Neural Network (GNN)

Dual-Softmax for Points and Lines

Ground Truth Generation

损失函数

实验结果

相关问题

公告

标签