指数分布族和广义线性模型
1.指数分布族
1.1 定义
指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。 指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。 在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。
p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))p(y;\\theta)=b(y)exp\\left(\\eta(\\theta)T(y)-A(\\theta)\\right) p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))
其中,η\\etaη是分布的自然参数(nature parameter);T(y)T(y)T(y)是充分统计量(sufficient statistic),通常T(y)=yT(y)=yT(y)=y。a(η)a(\\eta)a(η)是 对数配分函数,e−a(η)e^{-a(\\eta)}e−a(η)在式子中起到归一化作用,保证概率密度函数在随机变量yyy上的积分为1, 一旦T、a、bT、a、bT、a、b确定,就可以确定一种分布,η\\etaη 为参数。
常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。
1.2伯努利分布
伯努利分布的概率密度函数为:
p(y;θ)=θy(1−θ)1−y=exp(ylogθ+(1−y)log(1−θ))=exp(logθ1−θy+log(1−θ))\\begin{align} p(y;\\theta)&=\\theta^y(1-\\theta)^{1-y} \\\\[2ex] &=exp\\left(y\\log\\theta+\\left(1-y\\right)\\log\\left(1-\\theta\\right)\\right) \\\\[2ex] &=exp\\left(\\log\\frac{\\theta}{1-\\theta}y+\\log(1-\\theta)\\right) \\end{align} p(y;θ)=θy(1−θ)1−y=exp(ylogθ+(1−y)log(1−θ))=exp(log1−θθy+log(1−θ))
对应指数分布族的概率密度函数可以发现:
b(y)=1η(θ)=logθ1−θT(y)=yA(θ)=−log(1−θ)=log(1+eη(θ))\\begin{align} &b(y)=1 \\\\[2ex] &\\eta(\\theta)=\\log\\frac{\\theta}{1-\\theta}\\\\[2ex] &T(y)=y \\\\[2ex] &A(\\theta)=-log(1-\\theta)=log(1+e^{\\eta(\\theta)}) \\end{align} b(y)=1η(θ)=log1−θθT(y)=yA(θ)=−log(1−θ)=log(1+eη(θ))
1.3 高斯分布
对于均值为μ\\muμ,方差为σ\\sigmaσ的高斯分布的概率密度函数为:
p(y;μ,σ)=12πσe−(y−μ)22σ2=12πeη(μ,σ)T(y)−logσ−μ22σ2\\begin{align} p(y;\\mu,\\sigma)&=\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y-\\mu)^2}{2\\sigma^2}} \\\\[2ex] &=\\frac{1}{\\sqrt{2\\pi}}e^{\\eta(\\mu,\\sigma)T(y)-\\log\\sigma-\\frac{\\mu^2}{2\\sigma^2}} \\\\[2ex] \\end{align} p(y;μ,σ)=2πσ1e−2σ2(y−μ)2=2π1eη(μ,σ)T(y)−logσ−2σ2μ2
对应指数分布族的概率密度函数可以发现:
b(y)=12πη(σ)=[μσ2,−12σ2]T(y)=[y,y2]A(θ)=μ22σ2+logσ\\begin{align} &b(y)=\\frac{1}{\\sqrt{2\\pi}} \\\\[2ex] &\\eta(\\sigma)=[\\frac{\\mu}{\\sigma^2},-\\frac{1}{2\\sigma^2}]\\\\[2ex] &T(y)=[y,y^2] \\\\[2ex] &A(\\theta)=\\frac{\\mu^2}{2\\sigma^2}+\\log\\sigma \\end{align} b(y)=2π1η(σ)=[σ2μ,−2σ21]T(y)=[y,y2]A(θ)=2σ2μ2+logσ
1.4 其他指数分布族
- 多项式分布(multinomial),用来对多元分类问题进行建模;
- 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
- 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
- β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
- Wishart分布(Wishart),用于协方差矩阵分布。
2.广义线性模型(GLM)
我们所熟知的 线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。
2.1 三个假设
- 在给定自变量xxx和参数θ\\thetaθ的情况下,因变量yyy服从指数分布族
- 给定xxx,最终目的是求出T(y)T(y)T(y)的期望E[T(y)∣x]E[T(y)|x]E[T(y)∣x]
- 自然参数η\\etaη可以表示为自变量xxx的线性关系,即η=θTxη=\\theta^Txη=θTx
广义线性模型通过拟合yyy的条件均值/期望(在xxx和参数θ\\thetaθ给定的情况下),并假设yyy符合指数分布族中的某种分布,从而扩展了标准线性模型
2.2 伯努利分布
对于伯努利分布,因为是二分类问题,我们选择p(y∣x;θ)∼Bernoulli(Φ)p(y|x;\\theta) \\sim Bernoulli(\\Phi)p(y∣x;θ)∼Bernoulli(Φ)的均值为ϕ\\phiϕ,就是指数分布族下的唯一参数。 根据上面的推导可得:
hθ(x)=E[y∣x;θ]=Φ\\begin{align} h_\\theta(x) &= E[y|x;\\theta] \\\\[2ex] & =\\Phi \\end{align} hθ(x)=E[y∣x;θ]=Φ
η=logϕ1−ϕ=θTx\\begin{align} \\eta&=\\log\\frac{\\phi}{1-\\phi}\\\\[2ex] &=\\theta^Tx \\\\[2ex] \\end{align} η=log1−ϕϕ=θTx
推导出:
y=11+e−η=11+e−θTx\\begin{align} y&=\\frac{1}{1+e^{-\\eta}}\\\\[2ex] &=\\frac{1}{1+e^{-\\theta^Tx}}\\ \\\\[2ex] \\end{align} y=1+e−η1=1+e−θTx1
上式就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设。
2.3 高斯分布
对于高斯分布,yyy的均值为参数μ\\muμ, 根据上面的推导可得:
y=μ=η=θTx(假设σ=1)y=\\mu=\\eta=\\theta^Tx(假设\\sigma=1) y=μ=η=θTx(假设σ=1)
上式和线性回归对于yyy作高斯分布的假设相呼应
3.GLM建模过程
- 根据问题在指数分布族中选择一种分布作为对yyy的假设
- 计算该分布下的η\\etaη,实际上η=η(wT)\\eta=\\eta(w^T)η=η(wT),其中wTw^TwT为该分布的真实参数,而η\\etaη只是以wTw^TwT为参数的一个link function
- 计算该分布的期望,将其用η\\etaη表示,例如上面伯努利分布时的y=ϕ=11+e−ηy=\\phi=\\frac{1}{1+e^{−η}}y=ϕ=1+e−η1
- 根据GLM的假设替换η=θTx\\eta=\\theta^Txη=θTx即得到GLM模型
4.总结
- 指数族分布的形式:p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))p(y;\\theta)=b(y)exp\\left(\\eta(\\theta)T(y)-A(\\theta)\\right)p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))
- 常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。
- 广义线性模型通过拟合yyy的条件均值/期望(在xxx和参数θ\\thetaθ给定的情况下),并假设yyy符合指数分布族中的某种分布,从而扩展了标准线性模型。
本文仅作为个人学习记录使用, 不用于商业用途, 谢谢您的理解合作。
参考:https://shangzhih.github.io/zhi-shu-fen-bu-zu-he-yan-yi-xian-xing-hui-gui.html