[整理]二分类与多分类Logistic回归模型..docx
《[整理]二分类与多分类Logistic回归模型..docx》由会员分享,可在线阅读,更多相关《[整理]二分类与多分类Logistic回归模型..docx(14页珍藏版)》请在课桌文档上搜索。
1、二分类1.ogistic回归模型在对资料进行统计分析时常遇到反应变M为分类变旧的资料,那么,能否用类似于雄性回归的模型来时这种资料进行分析呢?答案是肯定的,本章将向大家介绍对二分类因变型进行回打建模的1.ogistic回打模型.第一节模型简介一、模型入门在很多场合下称能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某衲也者结局是否径.愈、调性对象是否为某商品的潜在消费者等.对于分类资料的分析,相信大家并不陌生,当要考察的影响因索较少,且也为分类变录时,分析者常用列联表(ConIingenCyTable)的形式对这种资料诳行整理,并使用z检骗来进行分析,
2、汉存在分类的混杂内索时.还可应用Mantd-HaCnd检验进行统计学检验.这种方法可以很好地控制混杂因素的影响.但是这种经典分析方法也存在局限性,首先它虽然可以控制若干个囚素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含业的要求较大,音控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中领数Ul能很小甚至为0.将杼致检脸结果的不可先,最后,/2检骁无法时连续性自变成的影响进行分析,而这将大大限制其应用范用,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以用简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出
3、现阳性结果时反应变量取值为1.反之期取值为0.例如当领导层有女性职员、卜.闲、裕愈时反应变呆.V=I,而没有女性职员、未下雨、未痊愈时反应变量.y=0记出现阳性结果的频率为反应变fitP(y=Do首先,I可颐一下标准的税性何归模型:y=+zu+zuw如果对分类变fit直接拟合.则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的网归模型:P=+力内+A1显然,该模型可以描述当各自变量变化时.因变盘的发生概率会怎样变化,可以满足分析的基本要求.实际上,统计学家In最口也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问册,对计算方法进行了改迸,最终提出了加权以
4、小:乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问时是这种分析思路所无法解决的:(1)取伯区间;上述模型右侧的取伯莅困,或者说应用上述模型进行预报的范国为整个实数集(-8,+8),而模型的左边的取值范围为0l,二者并不相符.模型本身不能保证在自变量的各种组合下因变量的估计值仍限制在0-1内,因此可能分析者会得到这种荒唐的结论:男性、:如岁、病情较轻的患者被治愈的概率是208!研究者当然可以将此结果等价于10的可以治愈,但是从数理统计的角度讲,这种模型显然是极不严迸的,(2)曲线美联:根据人城的观察
5、,反应变量P与自变量的关系通常不是出城关系,而S型曲线关系.这里以收入水平和购车概率的关系来加以说明当收入非常低时,收入的增加而购买概率影响很小:但是在收入达到某一阀他时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱,如果用图形来表示,则如图I所示。显然,城性关联是线性回归中至关取要的一个前提假设.而在上述模型中这一假设是明显无法满足的.图1S型曲戏图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变用变换,使御曲线直线化.然后再进行直线回归方程的拟合.僚么,能否考虑对所预测的因变IN加以变换
6、,以使得以上矛盾如以解决?基于这一思想.又有一大批统计学家在寻找合适的变换函数,终于,在1970年,COX引入了以前用于人口学领域的1.ogin).成功地解决了上述问卷,那么,什么是1.ogit变换呢?通常的把H;现某种结果的概率与不出现的概率之比称为比(git变换.下面来看一下该变换是如何解决上述两个问题的,首先是因变域取值区间的变化,概率是以0.5为对称点,分布在01的范围内的,而相应的Iogit(P)的大小为:乃=0logit(-)=ln(0/1)=n=0.5logit(111)=ln(0.5/0.5)=0-=1logit()=ln(l0)=+oo显然,通过变换,1.OgiI(7)的取值
7、范树就被扩展为以0为对称点的整个实效域,这使得在任何自变址取优下,对灯值的预测均有实际意义.其次大量实践证明,1.Ogit(万)往往和自变所呈级性关系,换吉之,概率和自变求间关系的S形曲线往往就符合logic函数关系,从而可以通过该变换将此战直规化,因此,只的要以1.Ogil(乃)为因变IE建立包含P个自变量的IogiSliC回归模型如下:IOgil(P)=4+48+.+4/以上即为Iogisiic回归模型。由上式可推汨:p=ex世风+6X+Bp)JP=I1+cxp(A+z+凡XP)1+exP(A+X+3%)上面三个方程式相互等价。通过大量的分析实践,发现IOgiSiiC回归模型可以很好地满足
8、对分类数据的建模需求,因此目前它己经成为了分类因变量的标准建模方法。通过上面的讨论,可以很容易地理解二分类IOgEiC回归模型对资料的要求是:(I)反应变豉为二分类的分类变限或是某事件的发生率.(2)自变瞅与1.OgiH不)之间为战性关系,(3)残差合计为0,且眼从二项分布,(4)各观测值间相互独立.由于因度量为二分类,所以I。妙SUC回归模型的误差应当版从二项分布,而不是正杳分布因此,该模型实际上不应当使用以前的最小课法进行多数估计,上次均使用量大似然法来解决方程的估计和检险问题二、一些基本概念由于使用了Iogil变换,1.OgiSIiC模型中的参数含义略显复杂,但有很好的实用价值,、为此现
9、对一些基本概念加以解修。1.优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值ItPPOddS=C两个比值之比称为优势比(iMsRatio,简称0/?首先考察Cw的特性:I-P若Pl02,则OddSI=B=odds、1l-AjI-P2若PlP2,则odd=一/一=oddsiIll2若/1=P2,则odds.=odds、I-Rl-*显然,OK是否大于I可以用作两种情形下发生概率大小的比较.2.1.ogistic回归系数的鹿义从数学上济,夕和多元回归中系敷的解狎并无不同,代表改变一个单位时I。Rit(P)的平均改变量,但由于OddS的自然对数即为IORit交换,因此1.ogist
10、ic回归模型中的系数和OR有着直接的交换关系,使得IRgkUC回归系数有更加贴近实际的解狎,从而也使得该模IWW了广泛的JUB.卜面用一个实例加以说明:以4格表资料为例具体说明各回归系数的意义:表14恪表资料治疗方法_(real)治疗结果(outcome)合计治愈率治愈=1)未治愈1.ogistic过程:i1.ogisticRegression冈图21.ogiSliC回归主对话框本例中涉及的对话框界面如图9.2所示.注意对话框中都有一个以前未出现过的a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能,性别虽为分类变革,但
11、仅有两个取值水平,所以可以百.接引入模型,结果仍然可以被正常解徉.结果如下:首先Jft出分析中使用的记录数汇总,此处略.衣2DependentVariableEncodingOriginalValueInternalValue卡思橘忠病01表2为因变;*的取值水平编码,SPSS拟借模型时蚊认取值水平福的为阳性结果,时广本例来讲,拟合的模型是Iogit(Pty=患物).随后进行模型拟合,首先给出的是模型不含任何自变量,而只干j常数项(即无效模型时的输出结果,标题为:-BIockO:BeginningBIock.此时的模型为:IOg()=4=003,exp(A)_CXP(OJ03)_05257l+
12、exp()I+exp(O.lO3)表3ClassificationTable*bObSerVedPredicted是否患冠心病Percentage未患病患病CorrectStep0未患病是否患冠心病037,0患病0411.0OverallPercentage52.6a. Constantisincludedinthemodel.b. Thecutvalueis.500表93输出的是模型中仅含有常数项(见衣4)时计舞的预测分类结果,SPSS根据P值是否大于05将观察对象判断为是否出现阳性结果,即是否患冠心描。由于模型中仅含有肺数琰.因此所布人的预刈概率均为样本率估计值P=O5257.将所有的观察
13、对象均判断为冠心病.判断正确率为52.6%,实际上就是全部研究对取的患病率41、78=0.5256(细小差别为四舍五入产生).也就是说,由于当前样本中大部分人为患病.因此当模型中不包含任何自变出时.样本中所仃观察对取皆被预测为患病,总的预测准确率为52.6%表4VariablesIntheEquationBS.E.WaWdfSig.EXP(B)Step0Constant.103.227.2051.6511.108表4输出结果中B为模型中未引入白变址时常数项的估计侑,S.E为其标准谈,Wakl为WaId/.是对总体网归系数是否为0进行统计学检5条衣格中df为其自由度,Sig.为相应的P侑.此时的
14、exp(B)为e的片次方,其实际意义为总体研究对象忠病率与未患病率的比tfl.JP1.108=0.5256,0.4744.裳5VariablesnotintheEquationScoredfSgStep0Variablessex6.0211.014eg7.1111.008age7.7341.005OverallStatistics18.5623.000表5输出了力前未百入模型的变M的比分检验(ScoreTest)结果,其意义为向当前模型中引入某变最(如SeX时),该变V回归系数是否等于0的比分检验假设。对于取值水平为:分类的自变盘来说,得分检验的/值等于的该自变盘与反应变代构成的四格表的Pea
15、rsonz。基于无效模型.现在开始在分析中引入自变8t标题为“Block1.Mcthod=Entb.表6OmnibusTestsofModelCoefficientsCisquaredlSj.Step1Step21.1143.000Block21.1143.OOOModel21.1143.000由于此处尚未涉及变业箱选的问鹿,模型中会同时引入三个自变玳,自由度=3.此处的/(ft为似然比/值.等于上一步(模型中只含有常数项时的-21OS(似然比值)与当前模型的华(似然比伯)的差伯,参见衣6本例Z2=-86.8113-(-107.9257)=21.1144*7ModelSummaryStep-2
16、1.ogM0.5划标为出现阳性结果,可见己经出现了被预测为未患衲的研究时象,此处78例研究对象中共有56(25+31)例判断正确,总正确率为56/78=71.8%,如表8所示.表9怆出了模型中各自变破的馆何归系数及其标准误、Wald自由度、P(,fi,OR值(即表格最右侧的EXP(B”.由此可以得出结论,男性(SCX=I)较女性更容易患冠心病、心电图异常程度越高,越容易被诊断为冠心病,年龄越大的越容易患冠心病。由于年龄不可能为O,这也超出了样本所观察的自变IihIge取伯范围,因此这里的常数项无实际意义。*9VariablesIntheEquationBS.E.WaldS.Exp(B)Step
17、1asx1.356.5466.1621.0133.882OCO87338451621.0232.395a.09303570001.0081.097Constant56421.8069.7571.002.004aVariabie(三)enteredonstep1sc.ccg.age到此为1上,可建立如1下1.ogiStiCMI打方程:_exp(-5.642-1.356Xser-0.873XeClg-().0934ge)1+exp(-5.642-1.356sex-0.873ecg-0.093age)或1.git(P)=-5.642-1.356SeX-0.873ecg-0.093age第二节分类自变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整理 分类 Logistic 回归 模型

链接地址:https://www.desk33.com/p-1425144.html