> 文章列表 > VAE学习小记

VAE学习小记

文章列表

VAE学习小记

神经网络基本不可能实现百分之百的 $x = f (x)$ ,再被压缩之后再解压中产生损失，这个类似于有损压缩。

熵

信息论中的熵，用来衡量一个事件所蕴含的信息量，信息量受事件的概率影响，事件概率大的信息量相对低，事件概率小的，信息量高。

为什么信息量大？因为内容出乎意料，违反常理，难以预测，用少的信息难以描述这个内容，必须要用更多的信息去描述。
信息熵就是一个系统内的所有事件的信息量之和。
$S(x)=−ΣiP(xi)logbP(xi)S(x)=-\\Sigma_iP(x_i)log_bP(x_i)$ 其中 $P(x_i)$ 表示事件概率，而 $log_bP(x_i)$ 表示这个事件的信息量。那么这个加和就是一个系统的信息熵，也就是这个系统内的众多事件x，所蕴含的信息量的期望。

KL散度

用于衡量两个分布之间的距离，也可以理解两个事件之间的区别。
KL散度定义式： $DKL(A∣∣B)=ΣiPA(xi)logbPA(xi)−ΣiPA(xi)logbPB(xi)D_{KL}(A||B)=\\Sigma_iP_A(x_i)log_bP_A(x_i)-\\Sigma_iP_A(x_i)log_bP_B(x_i)$
这个式子表达的是，如果B系统把他所有的事件的信息熵求出来，再
从这个式子上来看就是表示A系统的信息熵减去B事件(或系统)在A系统的信息熵，那么也可以简化理解为A系统内的期望信息量减去如果B在A系统内部的信息量之差是多少，就可以衡量出在A看来，到B系统需要多少距离。

作用原理

VAE可以看作高斯混合模型的叠加。就像是傅立叶级数一样，任何分布都可以看作高斯混合模型的叠加。