> 文章列表 > 指数分布族和广义线性模型

指数分布族和广义线性模型

指数分布族和广义线性模型

1.指数分布族

1.1 定义

  指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。 指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。 在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。
p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))p(y;\\theta)=b(y)exp\\left(\\eta(\\theta)T(y)-A(\\theta)\\right) p(y;θ)=b(y)exp(η(θ)T(y)A(θ))
其中,η\\etaη是分布的自然参数(nature parameter);T(y)T(y)T(y)是充分统计量(sufficient statistic),通常T(y)=yT(y)=yT(y)=ya(η)a(\\eta)a(η)是 对数配分函数,e−a(η)e^{-a(\\eta)}ea(η)在式子中起到归一化作用,保证概率密度函数在随机变量yyy上的积分为1, 一旦T、a、bT、a、bTab确定,就可以确定一种分布,η\\etaη 为参数。

常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。

1.2伯努利分布

伯努利分布的概率密度函数为:
p(y;θ)=θy(1−θ)1−y=exp(ylog⁡θ+(1−y)log⁡(1−θ))=exp(log⁡θ1−θy+log⁡(1−θ))\\begin{align} p(y;\\theta)&=\\theta^y(1-\\theta)^{1-y} \\\\[2ex] &=exp\\left(y\\log\\theta+\\left(1-y\\right)\\log\\left(1-\\theta\\right)\\right) \\\\[2ex] &=exp\\left(\\log\\frac{\\theta}{1-\\theta}y+\\log(1-\\theta)\\right) \\end{align} p(y;θ)=θy(1θ)1y=exp(ylogθ+(1y)log(1θ))=exp(log1θθy+log(1θ))
对应指数分布族的概率密度函数可以发现:
b(y)=1η(θ)=log⁡θ1−θT(y)=yA(θ)=−log(1−θ)=log(1+eη(θ))\\begin{align} &b(y)=1 \\\\[2ex] &\\eta(\\theta)=\\log\\frac{\\theta}{1-\\theta}\\\\[2ex] &T(y)=y \\\\[2ex] &A(\\theta)=-log(1-\\theta)=log(1+e^{\\eta(\\theta)}) \\end{align} b(y)=1η(θ)=log1θθT(y)=yA(θ)=log(1θ)=log(1+eη(θ))

1.3 高斯分布

对于均值为μ\\muμ,方差为σ\\sigmaσ的高斯分布的概率密度函数为:
p(y;μ,σ)=12πσe−(y−μ)22σ2=12πeη(μ,σ)T(y)−log⁡σ−μ22σ2\\begin{align} p(y;\\mu,\\sigma)&=\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y-\\mu)^2}{2\\sigma^2}} \\\\[2ex] &=\\frac{1}{\\sqrt{2\\pi}}e^{\\eta(\\mu,\\sigma)T(y)-\\log\\sigma-\\frac{\\mu^2}{2\\sigma^2}} \\\\[2ex] \\end{align} p(y;μ,σ)=2πσ1e2σ2(yμ)2=2π1eη(μ,σ)T(y)logσ2σ2μ2
对应指数分布族的概率密度函数可以发现:
b(y)=12πη(σ)=[μσ2,−12σ2]T(y)=[y,y2]A(θ)=μ22σ2+log⁡σ\\begin{align} &b(y)=\\frac{1}{\\sqrt{2\\pi}} \\\\[2ex] &\\eta(\\sigma)=[\\frac{\\mu}{\\sigma^2},-\\frac{1}{2\\sigma^2}]\\\\[2ex] &T(y)=[y,y^2] \\\\[2ex] &A(\\theta)=\\frac{\\mu^2}{2\\sigma^2}+\\log\\sigma \\end{align} b(y)=2π1η(σ)=[σ2μ,2σ21]T(y)=[y,y2]A(θ)=2σ2μ2+logσ

1.4 其他指数分布族

  • 多项式分布(multinomial),用来对多元分类问题进行建模;
  • 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
  • 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
  • β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
  • Wishart分布(Wishart),用于协方差矩阵分布。

2.广义线性模型(GLM)

我们所熟知的 线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。

2.1 三个假设

  • 在给定自变量xxx和参数θ\\thetaθ的情况下,因变量yyy服从指数分布族
  • 给定xxx,最终目的是求出T(y)T(y)T(y)的期望E[T(y)∣x]E[T(y)|x]E[T(y)x]
  • 自然参数η\\etaη可以表示为自变量xxx的线性关系,即η=θTxη=\\theta^Txη=θTx

广义线性模型通过拟合yyy的条件均值/期望(在xxx和参数θ\\thetaθ给定的情况下),并假设yyy符合指数分布族中的某种分布,从而扩展了标准线性模型

2.2 伯努利分布

对于伯努利分布,因为是二分类问题,我们选择p(y∣x;θ)∼Bernoulli(Φ)p(y|x;\\theta) \\sim Bernoulli(\\Phi)p(yx;θ)Bernoulli(Φ)的均值为ϕ\\phiϕ,就是指数分布族下的唯一参数。 根据上面的推导可得:
hθ(x)=E[y∣x;θ]=Φ\\begin{align} h_\\theta(x) &= E[y|x;\\theta] \\\\[2ex] & =\\Phi \\end{align} hθ(x)=E[yx;θ]=Φ

η=log⁡ϕ1−ϕ=θTx\\begin{align} \\eta&=\\log\\frac{\\phi}{1-\\phi}\\\\[2ex] &=\\theta^Tx \\\\[2ex] \\end{align} η=log1ϕϕ=θTx
推导出:
y=11+e−η=11+e−θTx\\begin{align} y&=\\frac{1}{1+e^{-\\eta}}\\\\[2ex] &=\\frac{1}{1+e^{-\\theta^Tx}}\\ \\\\[2ex] \\end{align} y=1+eη1=1+eθTx1 
上式就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设。

2.3 高斯分布

对于高斯分布,yyy的均值为参数μ\\muμ, 根据上面的推导可得:
y=μ=η=θTx(假设σ=1)y=\\mu=\\eta=\\theta^Tx(假设\\sigma=1) y=μ=η=θTx(假设σ=1)
上式和线性回归对于yyy作高斯分布的假设相呼应

3.GLM建模过程

  • 根据问题在指数分布族中选择一种分布作为对yyy的假设
  • 计算该分布下的η\\etaη,实际上η=η(wT)\\eta=\\eta(w^T)η=η(wT),其中wTw^TwT为该分布的真实参数,而η\\etaη只是以wTw^TwT为参数的一个link function
  • 计算该分布的期望,将其用η\\etaη表示,例如上面伯努利分布时的y=ϕ=11+e−ηy=\\phi=\\frac{1}{1+e^{−η}}y=ϕ=1+eη1
  • 根据GLM的假设替换η=θTx\\eta=\\theta^Txη=θTx即得到GLM模型

4.总结

  • 指数族分布的形式:p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))p(y;\\theta)=b(y)exp\\left(\\eta(\\theta)T(y)-A(\\theta)\\right)p(y;θ)=b(y)exp(η(θ)T(y)A(θ))
  • 常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。
  • 广义线性模型通过拟合yyy的条件均值/期望(在xxx和参数θ\\thetaθ给定的情况下),并假设yyy符合指数分布族中的某种分布,从而扩展了标准线性模型

本文仅作为个人学习记录使用, 不用于商业用途, 谢谢您的理解合作。

参考:https://shangzhih.github.io/zhi-shu-fen-bu-zu-he-yan-yi-xian-xing-hui-gui.html