> 文章列表 > 【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

(20230410-20230416)论文阅读简单记录和汇总


2023/04/09:很久没有动笔写东西了,这两周就要被抓着汇报了,痛苦啊呜呜呜呜呜

目录

  • (CVPR 2023): Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields
  • (ICCV 2021):Video Autoencoder: self-supervised disentanglement of static 3D structure and motion
  • (CVPR 2023):DINER: Disorder-Invariant Implicit Neural Representation
  • (CVPR 2023):Regularize implicit neural representation by itself
  • (DCC 2023):RQAT-INR: Improved Implicit Neural Image Compression

1. (CVPR 2023)Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields

Paper: https://arxiv.org/pdf/2302.09311.pdf

1.1 摘要

在动态场景中,时间插值在学习有意义的表示中起着至关重要的作用。本文提出了一种基于特征向量时间插值的动态场景四维时空神经辐射场训练方法。两种特征插值方法的建议取决于底层表示,神经或网格表示。在神经表示中,我们通过多个神经网络模块从时空输入中提取特征,并根据时间框架进行插值。所提出的多层特征插值网络有效地捕获了短期和长期时间段的特征。在网格表示中,时空特征是通过四维哈希网格学习的。网格表示显著减少了训练时间,与神经网络模型相比,速度快100多倍,同时保持训练模型的渲染质量。静态和动态特征的拼接以及简单平滑项的加入进一步提高了模型的性能。尽管其网络结构简单,但我们证明了所提出的方法在神经表示方面表现出优于以往工作的性能,并且在网格表示方面表现出最快的训练速度。

1.2 方法

【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
所提出方法的框架图还是挺简单的,我没有去看平滑项的部分,关于静态和动态特征的描述是场景中既包含了几乎不变的静态背景和随时间发生变化的物体形变、位移和闪出,仅采用随着xxxttt变化的嵌入编码作为输入特征向量是不够的。因此NeRF MLP的输入向量由静态特征和动态特征两部分组成,使用concat拼接起来。不同层次之间的动态特征由不同层次相邻的tiny MLP处理得到,最后也通过concat拼接得到。
【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
上方的示意图已经很好滴说明了动态特征是如何得到的了,可惜就是没有开源,对于网络的一些细节并不了解。

1.3 限制

虽然本文提出的特征插补方法能够学习到有意义的时空特征,但也存在图8所示特征插补失败的情况。使用神经表示,当视频序列中的小物体快速移动时,很难恢复3D结构(图8左)。(那这里其实有点像NeRV中采用MLP从位置编码学习时空信息一样,插值效果还是很拉跨,这是否说明位置编码或神经表示是存在问题的?) 使用诸如光流之类的附加信息有助于估计在物理上有意义的3D空间中的对应关系,这将是有益的。与此同时,我们的特征插值框架由于估计在训练序列中不可见的动态区域而受到影响(图8右)。平滑项基本上假设不可见区域保持静态,在这种情况下可能会降低性能。
【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

1.4 结论

在本文中,我们提出了一种简单而有效的特征插值方法来训练动态nerf。神经表示和网格表示都表现出了令人印象深刻的性能。由于这些方法与现有的变形建模或估计场景流的方法无关,我们认为所提出的方法为训练动态nerf提供了一个新的方向。平滑项应用于中间特征向量进一步提高了性能。

虽然由于神经网络的表示能力,神经表示模型显示了高质量的渲染结果,但它需要数小时的训练和数秒的渲染,这对实时应用造成了障碍。另一方面,网格表示在经过几分钟的训练后,能够在不到一秒钟的时间内渲染动态场景,这使得它在现实应用中更加实用。两种表示法是相互补充的,研究利用两种表示法的混合表示法将是一个有趣的研究方向。

2. (ICCV 2021)Video Autoencoder: self-supervised disentanglement of static 3D structure and motion

Project Page:https://zlai0.github.io/VideoAutoencoder/
Paper:https://arxiv.org/abs/2110.02951
Code:https://github.com/zlai0/VideoAutoencoder/

2.1 摘要

提出了一种视频自编码器,用于自监督地从视频中学习三维结构和摄像机姿态的解纠缠表示。基于视频中的时间连续性,我们的工作假设附近视频帧中的3D场景结构保持静态。给定一个视频帧序列作为输入,视频自动编码器提取场景的解纠缠表示,包括:(i)一个时间一致的深体素特征来表示3D结构;(ii)每个帧的相机姿态的3D轨迹。然后,这两种表示将重新纠缠以呈现输入视频帧。该视频自动编码器可以直接使用像素重建损失进行训练,无需任何地面真相3D或相机姿态注释。该解纠缠表示可以应用于一系列任务,包括新视图合成、摄像机姿态估计和通过运动跟踪生成视频。我们在几个大规模的自然视频数据集上评估了我们的方法,并在域外图像上显示了泛化结果。

2.2 方法

看了下对我没啥用,就不继续看了,以下是网络结构图。
【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

2.3 结论

我们提出了视频自动编码器,将视频编码为3D结构和相机姿态的解纠缠表示。该模型只使用原始视频进行训练,没有使用任何明确的3D监督或相机姿势。我们表明,我们的表示可以实现诸如摄像机姿态估计、新视图合成和通过运动跟踪生成视频等任务。我们的模型在所有任务上都表现出卓越的泛化能力,并在自监督相机姿态估计方面取得了最先进的结果。与训练中使用地面真实摄像机的方法相比,我们的模型在新视图合成方面也取得了相同的结果。

3. (CVPR 2023)DINER: Disorder-Invariant Implicit Neural Representation

Project Page:https://ezio77.github.io/DINER-website/
Paper:https://arxiv.org/pdf/2211.07871.pdf
Code:https://github.com/Ezio77/DINER
CVPR 2023版本之后还有一个arxiv的16页扩展版《Disorder-invariant Implicit Neural Representation》,有兴趣的可以自己去找一下。

3.1 摘要

隐式神经表示(INR)将信号的属性表征为对应坐标的函数,成为求解逆问题的利器。然而,网络训练中的光谱偏置限制了INR的能力。在本文中,我们发现这样一个与频率相关的问题可以通过重新排列输入信号的坐标来很大程度上解决,为此我们提出了通过在传统的INR主干上增加哈希表来实现无序不变隐式神经表示(DINER)。给定具有相同属性直方图且排列顺序不同的离散信号,哈希表可以将坐标投影到相同的分布中,后续的INR网络可以更好地对映射信号进行建模,从而显著缓解频谱偏差。实验不仅揭示了DINER对于不同INR主干(MLP vs. SIREN)和各种任务(图像/视频表示、相位检索和折射率恢复)的泛化性,而且还显示了其在质量和速度上优于最先进的算法。

3.2 方法

作者首先提出现有方法的两个问题:

  • 现有INR方法的性能受到信号自频分布的限制,通常需要更深或更宽的网络架构来提高拟合精度。
  • 尽管参数编码具有收敛速度快、精度高的优势,但仍有一个关键问题没有得到解答,即这些特征的几何意义是什么?

同时作者分析了二维输入图像的频率分量对于INR拟合效果的影响,作者不改变图像的色彩直方图,将图像中的像素按顺序进行排列或者重新排列得到两幅图像进行INR拟合。
【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
那么这里可以看出,针对不同调整过后的图像拟合效果是完全不同的,对于最后的随机像素排列图像,图像中存在大量高频信息导致INR拟合效果是非常差的。但是这也启发了作者另一个想法,INR的输入是坐标输出是像素值,采用不同顺序或者映射的输入输出对网络来说是没有变化的。

这句话可能有点拗口,我的意思是有正常图像中坐标x1x_1x1输入得到输出y1y_1y1,和输入x2x_2x2得到输出y2y_2y2;那么通过位置变换输入x3x_3x3时得到y1y_1y1,输入x4x_4x4时得到y2y_2y2,这完全是没有去别的。我只需要知道x3x_3x3输入得到的输出值对应的是x1x_1x1位置的像素即可,既如果每个像素点和网络输入之间的映射即可。但是输入坐标的不同对于INR拟合的效果是千差万别的,那么想当然可以有一个想法,我们把输入坐标映射(输入坐标映射到了d部分)成另一个呈现为比较平滑、低频分量较多的图像(上图中的f部分,其实就是INR学习了f这个图,映射坐标重新映射回去进行排列就会变成a部分的图)上去,就能够使INR拟合能力大大增强,并且这个映射关系是可以根据输入图像的性质进行学习的

作者总结本文的贡献为:

  • 所提出DINER方法极大地提高了现有INR方法的精度,其中利用学习过的哈希表映射原始输入的坐标,以便在后续INR模型中更好地表征。
  • 所提出的DINER为具有相同属性直方图和不同排列顺序的信号提供了一致的映射和表示能力。
  • 所提出的DINER被推广到各种任务中,包括二维图像和三维视频的表示,无透镜成像中的相位检索,以及强度衍射层析成像中的3D折射率恢复,报告了现有最先进技术的显著性能增益

并提出了两个命题:

  • 信号的不同排列有不同的频率分布,导致INR表示信号自身的能力不同。
  • DINER是无序不变的,具有相同属性直方图分布的信号共享具有相同参数值的优化网络。(这一点也很有意思,那么对于相同直方图的图像可以仅采用一个INR进行压缩,只需要改变他的哈希表即可)
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    该表格也验证了现有方法在拟合图像时会趋向于拟合图像的低频部分,而对高频部分的拟合训练缓慢,这也是INR论文中常提的网络偏置或叫光谱偏差。实验中各个部分都充分证明了所提出方法的有效性,实验表现简而言之就是牛逼Plus, 45dB真是牛逼啊。
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

DINER仅采用8.77k的参数量实现了一个300帧 1080P视频的表征,这要是放在压缩任务真是吓死个人了,但是其实这用在压缩上应该是不切实际的,哈希表就会非常非常大。
此外,将原始输入通过哈希表映射,然后再输入网络得到颜色通道的值,大家看看本节最上图中的f部分,这个图像什么,像不像PS或者Visio里面的取色版(手动狗头Dog)。那么其实上面我的说法也错了,甚至不需要相同直方图,只需要一个足够大的SIREN或者MLP能够映射8位色彩中的所有颜色,即2563=(28)3=224256^3=(2^8)^3=2^{24}2563=(28)3=224,那么只需要更换哈希表就可以表示所有的图像了。

我们有理由相信,DINER中INR部分其实是学习了一个色彩上的集合,没有任何实际意义,真正能体现图像的部分在哈希表中的坐标映射。我目前还没有看这个代码,不知道这个哈希表存储下来得有多大,不过在实验中对[1200,1200]大小图像采用了2212^{21}221长度的哈希表,不可能太小- -。

3.3 讨论

前面提到的实验都集中在离散信号上。为了查询连续信号中不可见的坐标,建议对网络输出进行后插补操作,而不是向网络输入插值哈希键(如图11所示),例如Plenoxels的探索,它将密度和谐波系数的网格[8]插入,而不是直接向网络输入不可见的位置和方向坐标[22]。【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

太对味了,太对味了!!从我们上面的粗体字分析很容易得出DINER完全不具备INR的插值能力!! ,因为他根本算不上一个INR!!MLP中除了拟合图像中的颜色信息,不包含任何关于图像的结构、纹理等信息!!MLP只是学了个调色盘!!他在插值方面注定是失败的!!

【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
那么现在抛出另一个问题,实验中其实可以看出MLP结构和SIREN结构所学习到的调色盘是存在一定差别的,这种情况是什么呢?我的猜测是MLP和SIREN结构的网络偏差是不同的,SIREN由于采用了Sin激活函数,所以带有一定频率的网络偏置,会学习最适合这个频率的信息,那么在调色板上也会显示一定的变化出来。 有其他见解的朋友可以将你们的看法发在评论区

3.5 结论

在这项工作中,我们提出了DINER,通过引入额外的哈希表,可以大大提高当前INR骨干的准确性。我们指出了INR表示信号的性能是由信号中元素的排列顺序决定的。该方法可以将输入的离散信号映射成一个低频信号,在不改变属性直方图的情况下,仅改变排列顺序,低频信号是不变的。因此,不同INR骨干网的精度可以大大提高。 <—(结合这两句话去看这个文章所提出的方法会非常简单)大量的实验验证了所提出的DINER在信号拟合和反问题优化任务中具有较高的精度和效率。
然而,目前的DINER只能处理离散信号。在未来,我们将专注于连续映射方法,而不是基于离散哈希表的映射,以扩展连续信号的优势,例如有符号距离函数[26]。

4. (CVPR 2023) Regularize implicit neural representation by itself

Paper:https://arxiv.org/abs/2303.15484

简而言之就是一大堆公式懒得花时间看,对于提升INR表征能力应该是近乎于没有,作者采用迪利克雷能量和拉普拉斯矩阵平滑性复原图像,取得了优于原始INR的性能。(在我看来是利用MLP计算传统方法中的一些矩阵、能量等公式并使其最小化,和传统图像增强方法采用什么能量计算、局部方差对比度优化差不多?)

实验中采用的基本都是采样不均匀或者人为添加噪声的图像进行拟合实验,并不认为该方法真的增强了INR的泛化性,而是INR+传统套皮得到一个针对不均匀采样图像的增强表示,真有这么垃圾的图像我直接一波图像复原、图像补全再INR拟合不好吗。

当然最有可能的结论是我没看完所以在这瞎扯hhhhh,感兴趣的朋友可以看看这篇论文然后在评论区讨论233333

4.1 摘要

本文提出了一种隐式神经表示正则化器(INRR)提高隐式神经表示(INR)的泛化能力。INR是一个完全连接的网络,可以表示不受网格分辨率限制的细节信号。但是,它的泛化能力还有待提高,特别是对于非均匀采样数据。提出的INRR基于可学习的狄利克雷能量(DE),测量矩阵的行/列之间的相似性。通过使用一个极小的INR参数化DE可以进一步整合拉普拉斯矩阵的平滑性。INRR通过将信号的自相似性与拉普拉斯矩阵的平滑性完美地结合起来,实现了INR信号表示能力的泛化性提升。通过精心设计的数值实验,本文还揭示了INRR的一系列性质,包括收敛轨迹和多尺度相似等动量方法。此外,该方法可以提高其他信号表示方法的性能。

4.2 方法和贡献

作者总结滴贡献:

  • 神经切核(NTK)[1]从理论上分析了INR的泛化能力,并给出了INR在非均匀采样情况下性能较差的原因。
  • 在DE的基础上,提出了一种微小的INR参数化正则子INRR,该正则子将图像的自相似性和拉普拉斯矩阵的平滑性完美地结合在一起。
  • 通过精心设计的数值实验,揭示了INRR的动量方法、多尺度相似性和泛化能力等一系列性质
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总
    【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

4.3 结论

本文提出了一种新的正则化子INRR,该正则化子显著提高了INR的表示性能,特别是在任意采样训练数据的情况下。INRR将DE中的拉普拉斯矩阵参数化了一个极小的INR,然后自适应地学习隐藏在图像数据中的非局部相似性。INRR是一个通用框架,用于将多个先验函数集成到一个正则化函数中,从而减少正则化函数的冗余。INRR、动量项、内隐偏差和多尺度自相似度之间的联系值得进一步的理论分析。

5. (DCC 2023):RQAT-INR: Improved Implicit Neural Image Compression

Paper:https://arxiv.org/abs/2303.03028

5.1 摘要

近年来,用于图像和视频压缩的深度变分自编码器获得了巨大的吸引力,因为与数十年之久的传统编解码器(如AVC、HEVC或VVC)相比,它们有潜力提供具有竞争力或更好的压缩率。但由于其复杂性和能耗,这些方法离工业实际应用还有很长的路要走。近年来,基于隐式神经表示(INR)的编解码器已经出现,与传统的解码方法相比,它具有更低的复杂度和能量消耗。但是,他们的表现与目前最先进的方法还不能相提并论。在这项研究中,我们首先证明了基于INR的图像编解码器比基于VAE的方法具有更低的复杂度,然后我们提出了基于INR的图像编解码器的几个改进,并在很大程度上优于基线模型。