在统计学 上,广义线性模型 (英语:generalized linear model ,缩写作 GLM )是一种应用灵活的线性回归 模型。该模型允许因变量 的偏差分布有除了正态分布 之外的其它分布。此模型假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数 (link function )建立可解释其相关性的函数。
约翰·内尔德 与彼得·麦古拉 在1989年出版,被视为广义线性模式的代表性文献中提纲挈领地说明了广义线性模式的原理、计算(如最大似然估计量 )及其实务应用。
概说
广义线性模型是简单最小二乘回归 (OLS)的扩展,在广义线性模式中,假设每个资料的观测值
Y
{\displaystyle \mathbf {Y} }
来自某个指数族 分布。 该分布的平均数
μ
{\displaystyle {\boldsymbol {\mu }}}
可由与该点独立的X解释:
E
(
y
)
=
μ
=
g
−
1
(
X
β
)
{\displaystyle \operatorname {E} ({\boldsymbol {y}})={\boldsymbol {\mu }}=g^{-1}(\mathbf {X} {\boldsymbol {\beta }})}
其中
E
(
y
)
{\displaystyle E({\boldsymbol {y}})}
为
y
{\displaystyle {\boldsymbol {y}}}
的期望值 ,
X
β
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}}
是由未知待估计参数
β
{\displaystyle {\boldsymbol {\beta }}}
与已知变量
X
{\displaystyle \mathbf {X} }
构成的线性估计式,
g
{\displaystyle g}
则为链接函数。
在此模式下,
y
{\displaystyle {\boldsymbol {y}}}
的方差
V
{\displaystyle V}
可表示为:
Var
(
y
)
=
V
(
μ
)
=
V
(
g
−
1
(
X
β
)
)
.
{\displaystyle \operatorname {Var} ({\boldsymbol {y}})=\operatorname {V} ({\boldsymbol {\mu }})=\operatorname {V} (g^{-1}(\mathbf {X} {\boldsymbol {\beta }})).}
一般假设
V
{\displaystyle V}
可视为一指数族 随机变量 的函数 。
未知参数
β
{\displaystyle {\boldsymbol {\beta }}}
通常会以最大似然估计量 , 殆最大似然估计量 , 或以贝氏方法 来估计。
模式组成
广义线性模式包含了以下主要部分:
来自指数族的分布函数
f
{\displaystyle f}
。
线性预测子
η
=
X
β
{\displaystyle {\boldsymbol {\eta }}=\mathbf {X} {\boldsymbol {\beta }}}
。
链接函数
g
{\displaystyle g}
使得
E
(
Y
∣
X
)
=
μ
=
g
−
1
(
η
)
{\displaystyle E(Y\mid X)={\boldsymbol {\mu }}=g^{-1}({\boldsymbol {\eta }})}
。 指数族
指数族 随机变量 意指其具参数θ 与τ 的概率密度函数 , f (在论离散型随机变量时,则为概率质量函数 )可表为:
f
Y
(
y
;
θ
,
τ
)
=
exp
(
a
(
y
)
b
(
θ
)
+
c
(
θ
)
h
(
τ
)
+
d
(
y
,
τ
)
)
.
{\displaystyle f_{Y}(y;\theta ,\tau )=\exp {\left({\frac {a(y)b(\theta )+c(\theta )}{h(\tau )}}+d(y,\tau )\right)}.\,\!}
τ 称之为变异参数 ,通常用以解释方差。函数a 、b 、c 、d 及h 为已知。许多(不包含全部)型态的随机变量可归类为指数族
θ 与该随机变量的期望值有关。若a 为恒等函数 ,则称该分布属于 正则型式 。 另外,若b 为恒等而τ 已知,则θ 称为正则参数 ,其与期望值的关系可表为:
μ
=
E
(
Y
)
=
−
c
′
(
θ
)
.
{\displaystyle \mu =\operatorname {E} (Y)=-c'(\theta ).\,\!}
一般情形下,该分布的方差可表为:
Var
(
Y
)
=
−
c
″
(
θ
)
h
(
τ
)
.
{\displaystyle \operatorname {Var} (Y)=-c''(\theta )h(\tau ).\,\!}
线性预测子
线性预测子是用将独立变量经由线性组合来寻模式所能提供之资讯的计量变量。符号η (希腊字母 "Η ")通常用来表示线性预测子。它与资料的期望值 的链接函数值有关(故称"预测子")。
η 表为未知参数β 的线性组合(故为"线性")。X 则为独立变量所组合而成的观测矩阵。如此一来,η 可表示为
η
=
X
β
.
{\displaystyle \eta =\mathbf {X} {\boldsymbol {\beta }}.\,}
X 的元素通常为模式设计时可观测的资料或为实验时所得的数据。
链接函数
链接函数解释了线性预测子与分布期望值 的关系。链接函数的选择可视情形而定。通常只要符合链接函数的值域有包含分布期望值的条件即可。
当使用具正则参数θ 的分布时,链接函数需符合X T Y 为β 的充份统计量 此一条件。这在θ 与线性预测子的链接函数值相等时方成立。下面列出若干指数族分布的典型链接函数及其反函数(有时称为均值函数):
典型链接函数
Y的分布
名称
链接函数
均值函数
正态
恒等
X
β
=
μ
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu \,\!}
μ
=
X
β
{\displaystyle \mu =\mathbf {X} {\boldsymbol {\beta }}\,\!}
指数
倒数
X
β
=
μ
−
1
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu ^{-1}\,\!}
μ
=
(
X
β
)
−
1
{\displaystyle \mu =(\mathbf {X} {\boldsymbol {\beta }})^{-1}\,\!}
Gamma
逆高斯
二次倒数
X
β
=
μ
−
2
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\mu ^{-2}\,\!}
μ
=
(
X
β
)
−
1
/
2
{\displaystyle \mu =(\mathbf {X} {\boldsymbol {\beta }})^{-1/2}\,\!}
泊松
自然对数
X
β
=
ln
(
μ
)
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln {(\mu )}\,\!}
μ
=
exp
(
X
β
)
{\displaystyle \mu =\exp {(\mathbf {X} {\boldsymbol {\beta }})}\,\!}
二项式
Logit
X
β
=
ln
(
μ
1
−
μ
)
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}=\ln {\left({\frac {\mu }{1-\mu }}\right)}\,\!}
μ
=
exp
(
X
β
)
1
+
exp
(
X
β
)
{\displaystyle \mu ={\frac {\exp {(\mathbf {X} {\boldsymbol {\beta }})}}{1+\exp {(\mathbf {X} {\boldsymbol {\beta }})}}}\,\!}
多项式
在指数分布与Gamma分布中,其典型链接函数的值域并不包含分布均值,另外其线性预测子亦可能出现负值,此两种分布绝无均值为负的可能。当进行极大似然估计进行计算时需避免上述情形出现,这时便需要使用到非典型链接函数。
例子
一般线性模式
有些人可能会把一般线性模式和广义线性模式给弄混了。一般线性模式可视为广义线性模式的一个链接函数为恒等的特例。一般线性模式有着悠长的发展历史。广义线性模式具非恒等链接函数者有着渐近一致的结果。
线性回归
广义线性模式最简单的例子便是线性回归。此例中分布函数为正态分布而链接函数为恒等函数在方差已知的条件下并符合正规式。
这个例子具有广义线性模式罕有的极大似然估计 的解析解
二元数据
在讨论二元反应结果(如有 跟没有 )时,通常以二项式分布 建模。其期望值'μi 通常解释为样本 Yi 发生事件的概率 p
二项式分布 有许多常用的链接函数,最常用的链接函数是logit :
g
(
p
)
=
ln
(
p
1
−
p
)
.
{\displaystyle g(p)=\ln \left({p \over 1-p}\right).}
以此建模的广义线性模式通常称为logistic回归 模式。
另外,任何连续型概率分配累积函数 (CDF)的反函数皆可使用此模式,因为其值域为[0,1],包含了二项式分布期望值的可能值域。正态概率分配累积函数
Φ
{\displaystyle \Phi }
是一个广受应用于probit模式 的选择。其链接函数为
g
(
p
)
=
Φ
−
1
(
p
)
.
{\displaystyle g(p)=\Phi ^{-1}(p).\,\!}
有时恒等函数也会被用为二项式分布的链接函数,其缺点为预测值可能超出合理范围。经过若干修正可以避免上述问题,但会在解释上造成困难。此模式通常适用于p 接近0.5的情形。 此种建模很接近logit及probit的线性变换,有时计量经济学家会称其为Harvard模式。
二元资料的广义线性模式变异函数可写为
Var
(
Y
i
)
=
τ
μ
i
(
1
−
μ
i
)
{\displaystyle \operatorname {Var} (Y_{i})=\tau \mu _{i}(1-\mu _{i})\,\!}
其中变异参数
τ
{\displaystyle \tau }
通常等于1,若非,则该模式称为溢变异或殆二元。
计次资料
另一个常用的例子为用于计次的泊松分布 。此例的链接函数为自然对数,为正规链接。
方差函数与均值成等比
var
(
Y
i
)
=
τ
μ
i
,
{\displaystyle \operatorname {var} (Y_{i})=\tau \mu _{i},\,}
其中变异参数
τ
{\displaystyle \tau }
通常为1。 若非,此模式通常称为溢变异或似泊松。
参考文献
Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models. Chapman & Hall/CRC. 1990. ISBN 978-0-412-34390-2 .
Madsen, Henrik; Thyregod, Poul. Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. 2011. ISBN 978-1-4200-9155-7 .
McCullagh, Peter ; Nelder, John . Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. 1989. ISBN 0-412-31760-5 .
Wood, Simon. Generalized Additive Models: An Introduction with R. Chapman & Hall/CRC. 2006. ISBN 1-58488-474-6 .
延伸阅读
McCullagh, Peter; John Nelder . Generalized Linear Models. London: Chapman and Hall. 1989. ISBN 0-412-31760-5 .
Dobson, A.J. Introduction to Generalized Linear Models, Second Edition. London: Chapman and Hall/CRC. 2001.
Hardin, James; Joseph Hilbe . Generalized Linear Models and Extensions. College Station: Stata Press. 2001, 2007.