Logistic 回归
如果所有的变量之间有主次之分,有解释变量,有反应变量,且反应变量是类别变量。则用逻辑回归。
如果变量全是解释变量,而且是类别变量,则用对数线性模型。PROC CATMOD;
CMH方法只是adjust类别性变量,而且还忽略顺序。
用于疾病危险因素探索或疾病判别和预测。
1. 介绍
这是逻辑函数,通过模型把值映射到0-1之间。
事件发生概率的模型。
等号左边是odd。
第i个协变量的Odd Ratio.
这个是说Xi每变化一单位,事件Odd增加的百分比。
2.
模型是对relapse = YES求解。
- 加了协变量后,AIC SC -2LogL都降低,模型改善。
- BETA = 0是模型整体检验,模型总体来讲有意义。包含与不包含协变量。
协变量的系数。
OR值,e-1.1191 = 0.327,100·(0.327–1) = –67.3%,ACT相比于PBO组,odd of event 减少67%. 或者ACT风险是PBO的0.3倍。
data aml; input pat group $ x relapse $ @@; datalines; 1 ACT 3 NO 2 ACT 3 YES 4 ACT 3 YES 6 ACT 6 YES 7 ACT 15 NO 10 ACT 6 YES 11 ACT 6 YES 14 ACT 6 YES 15 ACT 15 NO 17 ACT 15 NO 20 ACT 12 NO 21 ACT 18 NO 22 ACT 6 YES 25 ACT 15 NO 26 ACT 6 YES 28 ACT 15 NO 29 ACT 12 YES 32 ACT 9 NO 33 ACT 6 YES 36 ACT 6 NO 39 ACT 6 NO 42 ACT 6 NO 44 ACT 3 YES 46 ACT 18 NO 49 ACT 9 NO 50 ACT 12 YES 52 ACT 6 NO 54 ACT 9 YES 56 ACT 9 YES 58 ACT 3 NO 60 ACT 9 YES 62 ACT 12 NO 63 ACT 12 NO 66 ACT 3 NO 67 ACT 12 NO 69 ACT 12 NO 71 ACT 12 NO 73 ACT 9 YES 74 ACT 6 YES 77 ACT 12 NO 79 ACT 6 NO 81 ACT 15 YES 83 ACT 9 NO 85 ACT 3 YES 88 ACT 9 NO 90 ACT 9 NO 92 ACT 9 NO 94 ACT 9 NO 95 ACT 9 YES 98 ACT 12 YES 99 ACT 3 YES 102 ACT 6 YES 3 PBO 9 YES 5 PBO 3 NO 8 PBO 12 YES 9 PBO 3 YES 12 PBO 3 YES 13 PBO 15 YES 16 PBO 9 YES 18 PBO 12 YES 19 PBO 3 YES 23 PBO 9 YES 24 PBO 15 YES 27 PBO 9 YES 30 PBO 6 YES 31 PBO 9 YES 34 PBO 6 YES 35 PBO 12 NO 37 PBO 9 NO 38 PBO 15 NO 40 PBO 15 YES 41 PBO 9 NO 43 PBO 9 NO 45 PBO 12 YES 47 PBO 3 YES 48 PBO 6 YES 51 PBO 6 YES 53 PBO 12 NO 55 PBO 12 NO 57 PBO 12 YES 59 PBO 3 YES 61 PBO 12 YES 64 PBO 3 YES 65 PBO 12 YES 68 PBO 6 YES 70 PBO 6 YES 72 PBO 9 YES 75 PBO 15 NO 76 PBO 15 NO 78 PBO 12 NO 80 PBO 9 NO 82 PBO 12 NO 84 PBO 15 NO 86 PBO 18 YES 87 PBO 12 NO 89 PBO 15 YES 91 PBO 15 NO 93 PBO 15 NO 96 PBO 18 NO 97 PBO 18 YES 100 PBO 18 NO 101 PBO 18 NO ; ods graphics on; proc logistic data=aml plots(only)=(effect oddsratio); class group(ref='PBO') / param=ref; model relapse(event='YES')= group x; oddsratio group; oddsratio x; run; ods graphics off;
class group(ref='PBO') / param=ref;
- param = ref 是显示参照组均值和其他组与参照组的差值
- param = effect则显示的是每类的均值
- 如果指定 ref = ,一定指定param = ref
- ref就是用来作哑变量
class rx(ref=’B’) / param = ref; model resp(descending) = rx hist;
这是多个分类,写了descending,就是会从最高向最低分,例如共四类,4,4 3,4 3 2. 如果是5类,就是5,5 4,5 4 3,5 4 3 2.
Intercept4 是4 VS 1,2,3
Intercept3 是4 ,3 VS 1,2
Intercept2 是4 3,2VS 1
反映的是P(y<=k)和P(y>K的比值)
3. "重复测量"
例如:
要求患者记录服药后每次头疼,在2 hour内有没有好转。patient之间是福独立的,但每个patient会有自己的特质,即数据不是完全独立。
model succ/attpt = trt age / scale = williams;
succ是好转次数,attpt是发生头痛次数。
指定scale = williams是To correct for overdispersion or underdispersion,在among the clusters中很好用。
- 下图高亮是调整variance-covariance matrix,。就是SCALE 指定离群点的检验方法。
- 指定SCALE后,协方差矩阵会乘以指定的那个参数,那个参数系统自动计算。目的是为了调整过度离散。Specifies the method to correct overdispersion
- 指定scale = williams后,这两个检验就不再适用。这两种方法是判断离群点,当 value值大于2时认为有离群点。
- 这两个指标也可以衡量模型拟合,当不显著时候,认为拟合较好。
- Pearson是通过比较模型预测和实际差距来判断模型
- Deviance是通过判断饱和模型和和当前模型之间的差异度。
RSQUARE可以输出R2,表示解释变量对因变量的解释比例。