一般线性模型,广义线性模型,广义可加模型,多水平模型
1. 一般线性模型
y是反应变量,结局变量,观测变量等等。
x是自变量,解释变量,预测变量等等。
注意:
X和Y之间的关系是线性的,Y必须是定量数据。
2. 广义线性模型
g(u)是连接函数,而不是反应变量本身
在线性回归中,g(u)是反应变量本身,是u
在logic回归中,g(u)是根据阳性率p变成了
在Poisson回归中,g(u)是ln(u), u是发生次数。
注意:
广义线性模型中,反应变量可以是定量数据,也可以是分类数据,也可以是计数资料。要求因变量的函数和自变量间是线性关系。
也可以对自变量做变换,使之满足线性条件,这种情况下叫做非线性回归。
分类资料和计数资料区别是:
分类资料,这个随机变量就是类别,后续统计需要对类别计数。如性别,各多少人。
计数资料,这个随机变量本身就可以计数。如感染人数
3. 广义可加模型
是关于X1的单变量函数。注意是单变量函数,其形式可能是X方,X三次方,根号X的线性组合。而不是一次函数。
注意:
此模型中 f 可以是线性的,也可以是非线性的。x和g(u)之间可以是线性的,也可以是非线性的。
评估模型时:在偏差和模型间的方差找个平衡。
4. 多水平模型
上述三个模型都要求自变量独立,多水平模型打破这一限制。
上述三个模型都暗含一个假设,即个体间截距和斜率是相同。事实并非如此,如不同儿童的智力,智力随年龄增长的差异。不同人的基础代谢和代谢速度。
把水平2的差异归结到了残差中,导致模型误差增大。
4.1
多水平模型分为固定效应模型和随机效应模型。
固定效应模型是把每个水平2的截距和斜率估算出来,通过哑变量方式。但这种方式意义不大,因为我们关注的是总体差异,而不是某个具体人之间的差异。