> 文章列表 > VAE学习小记

VAE学习小记

VAE学习小记

  • 神经网络基本不可能实现百分之百的x=f(x)x=f(x)x=f(x),再被压缩之后再解压中产生损失,这个类似于有损压缩。

信息论中的熵,用来衡量一个事件所蕴含的信息量,信息量受事件的概率影响,事件概率大的信息量相对低,事件概率小的,信息量高。

  • 为什么信息量大?因为内容出乎意料,违反常理,难以预测,用少的信息难以描述这个内容,必须要用更多的信息去描述。
    信息熵就是一个系统内的所有事件的信息量之和。
  • S(x)=−ΣiP(xi)logbP(xi)S(x)=-\\Sigma_iP(x_i)log_bP(x_i)S(x)=ΣiP(xi)logbP(xi) 其中P(xi)P(x_i)P(xi)表示事件概率,而logbP(xi)log_bP(x_i)logbP(xi)表示这个事件的信息量。那么这个加和就是一个系统的信息熵,也就是这个系统内的众多事件x,所蕴含的信息量的期望。

KL散度

  • 用于衡量两个分布之间的距离,也可以理解两个事件之间的区别。
  • KL散度定义式:DKL(A∣∣B)=ΣiPA(xi)logbPA(xi)−ΣiPA(xi)logbPB(xi)D_{KL}(A||B)=\\Sigma_iP_A(x_i)log_bP_A(x_i)-\\Sigma_iP_A(x_i)log_bP_B(x_i)DKL(A∣∣B)=ΣiPA(xi)logbPA(xi)ΣiPA(xi)logbPB(xi)
    这个式子表达的是,如果B系统把他所有的事件的信息熵求出来,再
    从这个式子上来看就是表示A系统的信息熵减去B事件(或系统)在A系统的信息熵,那么也可以简化理解为A系统内的期望信息量减去如果B在A系统内部的信息量之差是多少,就可以衡量出在A看来,到B系统需要多少距离

作用原理

VAE可以看作高斯混合模型的叠加。就像是傅立叶级数一样,任何分布都可以看作高斯混合模型的叠加。