一般线性模型,广义线性模型,广义可加模型,多水平模型


1. 一般线性模型

 y是反应变量,结局变量,观测变量等等。

x是自变量,解释变量,预测变量等等。

注意:

X和Y之间的关系是线性的,Y必须是定量数据。

2. 广义线性模型

 g(u)是连接函数,而不是反应变量本身

在线性回归中,g(u)是反应变量本身,是u

在logic回归中,g(u)是根据阳性率p变成了

在Poisson回归中,g(u)是ln(u), u是发生次数。

注意:

广义线性模型中,反应变量可以是定量数据,也可以是分类数据,也可以是计数资料。要求因变量的函数和自变量间是线性关系。

也可以对自变量做变换,使之满足线性条件,这种情况下叫做非线性回归。

分类资料和计数资料区别是:

分类资料,这个随机变量就是类别,后续统计需要对类别计数。如性别,各多少人。

计数资料,这个随机变量本身就可以计数。如感染人数

3. 广义可加模型

 是关于X1的单变量函数。注意是单变量函数,其形式可能是X方,X三次方,根号X的线性组合。而不是一次函数。

注意:

此模型中 f 可以是线性的,也可以是非线性的。x和g(u)之间可以是线性的,也可以是非线性的。

评估模型时:在偏差和模型间的方差找个平衡。

4. 多水平模型

上述三个模型都要求自变量独立,多水平模型打破这一限制。

上述三个模型都暗含一个假设,即个体间截距和斜率是相同。事实并非如此,如不同儿童的智力,智力随年龄增长的差异。不同人的基础代谢和代谢速度。

把水平2的差异归结到了残差中,导致模型误差增大。

4.1

多水平模型分为固定效应模型和随机效应模型。

固定效应模型是把每个水平2的截距和斜率估算出来,通过哑变量方式。但这种方式意义不大,因为我们关注的是总体差异,而不是某个具体人之间的差异。