Consistency Models

文章列表

Consistency Models

Consistency Models- 理解

- - 问题定义
  - - - 研究动机
      - 本文中心论点
  - 相关工作和进展
  - - - Consistency Models创新点
      - review扩散模型
  - Consistency Model-Definition
  - - - 一致性模型的定义
      - 一致性模型参数化
      - 一致性模型采样
  - Training Consistency Models via Distillation
  - Training Consistency Models in Isolation

Consistency Models

pdf：https://arxiv.org/pdf/2303.01469.pdf
github：https://github.com/openai/consistency_models

问题定义

图像编辑等

研究动机

扩散模型依赖于迭代生成过程，导致采样速度较慢，实时应用有限。

本文中心论点

给定一个概率流(PF) ODE，它能平滑地将数据转换为噪声。作者学习将ODE轨迹上的任何点(例如， $x_t, x'_t$ )映射到它的原点(例如， $x_0$ )，用于生成建模。
这些映射的模型称为一致性模型，因为对于同一轨迹上的点，他们的输出被训练为的一致的。

Consistency Model-Definition

一致性模型的定义

假设存在一个函数f，对于同一条PF ODE轨迹上的任意点都有相同的输出 $\\boldsymbol{f}\\left(\\mathrm{x}_{t}, t\\right)=\\boldsymbol{f}\\left(\\mathrm{x}_{t^{\\prime}}, t^{\\prime}\\right) \\text { for all } t, t^{\\prime} \\in[\\epsilon, T]$
在这里插入图片描述
consistency model的目标是从数据中估计一致性函数 $f$ ，来迫使self-consistency性质

一致性模型参数化

对于任意的一致性函数 $f(\\cdot, \\cdot)$ ，用神经网络来拟合。但要满足两个条件：①同一个轨迹上的点输出一致；②在起始点f为一个对于x的恒等函数

第一种做法简单地参数化consistency models
第二种做法使用跳跃连接（作者和许多其他的都用这个）

一致性模型采样

有了训练好的一致性模型 $f_\\theta(\\cdot, \\cdot)$ ，就可以通过初始分布采样来产生样本。（这里指的是训练好后怎么来生成样本）

在这里插入图片描述

在一致性模型中，可以一步生成样本。也可以多步生成，算法1为多步生成。
想法就是预测出x后回退然后再进行预测减小误差。实际中，采用贪心算法来寻找时间点，通过三值搜索每次确定一个时间点，优化算法得到的样本的FID(不太重要)

Training Consistency Models via Distillation

第一种训练consistency model的方式——蒸馏预训练好的score model $s_{\\phi}(\\mathrm{x}, t)$
假设采样轨迹的时间序列为 $t_{1}=\\epsilon<t_{2}<\\cdots<t_{N}=T$
通过运行数值ODE求解器的一个离散化步骤从 $\\mathbf{x}_{t_{n+1}}$ 得到 $\\mathbf{x}_{t_{n}}$

$\\Phi(...;\\phi)$ 为ODE solver
例如使用Euler solver $\\frac{\\mathrm{dx}}{\\mathrm{d} t}=-t s_{\\phi}\\left(\\mathrm{x}_{t}, t\\right)$ ， $\\Phi(\\mathrm{x}, t ; \\phi)=-t s_{\\phi}(\\mathrm{x}, t)$ 带入上式得到

沿着ODE轨迹的分布进行第一次采样 $\\mathrm{x}$ ~ $p_{data}$ ，然后添加高斯噪声，生成一对在PF ODE轨迹上相邻的数据点 $\\left(\\hat{\\mathbf{x}}_{t_n}^\\phi, \\mathbf{x}_{t_{n+1}}\\right)$

通过最小化这一对的输出差异来训练一致性模型，作者遵循一致性蒸馏损失来训练一致性模型，就有如下的consistency distillation loss：
在这里插入图片描述
Consistency Models
在蒸馏的过程中，作者用预训练模型来估计得分.
采用EMA来更新模型会提高训练的稳定性，并且性能会更好

Training Consistency Models in Isolation

Consistency models也可以单独进行训练，而不依赖于预训练好的扩散模型。
作者说这与扩散蒸馏技术不同，使一致性模型成为一个新的独立的生成模型家族。
在consistency distillation中，使用了预训练的score model $s_{\\phi}(\\mathrm{x}, t)$ 来近似ground truth score function $\\bigtriangledown logp_t(\\mathbf{x})$ 。
作者证明了 $\\bigtriangledown logp_t(\\mathbf{x})$ 的一种无偏估计，即证明了一种新的得分函数的估计
在这里插入图片描述

即给定x, xt,可以用 $-(\\mathbf{x}_t -\\mathbf{x})/t^2$ 形式化 $\\bigtriangledown logp_t(\\mathbf{x})$ 的蒙特卡罗估计，可以理解为
在这里插入图片描述
利用该得分估计，作者构建了新的consistency training (CT) loss记作 $L_{CT}^{N}(\\theta,\\theta^-)$

Consistency Models

Consistency Models- 理解

问题定义

研究动机

本文中心论点

相关工作和进展

Consistency Models创新点

review扩散模型

Consistency Model-Definition

一致性模型的定义

一致性模型参数化

一致性模型采样

Training Consistency Models via Distillation

Training Consistency Models in Isolation

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

Consistency Models

Consistency Models- 理解

问题定义

研究动机

本文中心论点

相关工作和进展

Consistency Models创新点

review扩散模型

Consistency Model-Definition

一致性模型的定义

一致性模型参数化

一致性模型采样

Training Consistency Models via Distillation

Training Consistency Models in Isolation

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签