[整理]二分类与多分类Logistic回归模型..docx
二分类1.ogistic回归模型在对资料进行统计分析时常遇到反应变M为分类变旧的资料,那么,能否用类似于雄性回归的模型来时这种资料进行分析呢?答案是肯定的,本章将向大家介绍对二分类因变型进行回打建模的1.ogistic回打模型.第一节模型简介一、模型入门在很多场合下称能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某衲也者结局是否径.愈、调性对象是否为某商品的潜在消费者等.对于分类资料的分析,相信大家并不陌生,当要考察的影响因索较少,且也为分类变录时,分析者常用列联表(ConIingenCyTable)的形式对这种资料诳行整理,并使用z检骗来进行分析,汉存在分类的混杂内索时.还可应用Mantd-HaCn"d检验进行统计学检验.这种方法可以很好地控制混杂因素的影响.但是这种经典分析方法也存在局限性,首先它虽然可以控制若干个囚素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含业的要求较大,音控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中领数Ul能很小甚至为0.将杼致检脸结果的不可先,最后,/2检骁无法时连续性自变成的影响进行分析,而这将大大限制其应用范用,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以用简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1.反之期取值为0.例如当领导层有女性职员、卜.闲、裕愈时反应变呆.V=I,而没有女性职员、未下雨、未痊愈时反应变量.y=0记出现阳性结果的频率为反应变fitP(y=Do首先,I可颐一下标准的税性何归模型:y=+zu+zuw如果对分类变fit直接拟合.则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的网归模型:P=+力内+A1显然,该模型可以描述当各自变量变化时.因变盘的发生概率会怎样变化,可以满足分析的基本要求.实际上,统计学家In最口也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问册,对计算方法进行了改迸,最终提出了加权以小:乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问时是这种分析思路所无法解决的:(1)取伯区间;上述模型右侧的取伯莅困,或者说应用上述模型进行预报的范国为整个实数集(-8,+8),而模型的左边的取值范围为0>l,二者并不相符.模型本身不能保证在自变量的各种组合下因变量的估计值仍限制在0-1内,因此可能分析者会得到这种荒唐的结论:男性、:如岁、病情较轻的患者被治愈的概率是208!研究者当然可以将此结果等价于10的可以治愈,但是从数理统计的角度讲,这种模型显然是极不严迸的,(2)曲线美联:根据人城的观察,反应变量P与自变量的关系通常不是出城关系,而S型曲线关系.这里以收入水平和购车概率的关系来加以说明当收入非常低时,收入的增加而购买概率影响很小:但是在收入达到某一阀他时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱,如果用图形来表示,则如图I所示。显然,城性关联是线性回归中至关取要的一个前提假设.而在上述模型中这一假设是明显无法满足的.图1S型曲戏图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变用变换,使御曲线直线化.然后再进行直线回归方程的拟合.僚么,能否考虑对所预测的因变IN加以变换,以使得以上矛盾如以解决?基于这一思想.又有一大批统计学家在寻找合适的变换函数,终于,在1970年,COX引入了以前用于人口学领域的1.ogi<变换(1.ogitT1111sfo11nali>n).成功地解决了上述问卷,那么,什么是1.ogit变换呢?通常的把H;现某种结果的概率与不出现的概率之比称为比½(<kls,国内也译为优势、比数),即a%=一,取其对数人=IMQd小)=In/一.-11-11这就是k>git变换.下面来看一下该变换是如何解决上述两个问题的,首先是因变域取值区间的变化,概率是以0.5为对称点,分布在01的范围内的,而相应的Iogit(P)的大小为:乃=0logit(-)=ln(0/1)=n=0.5logit(111)=ln(0.5/0.5)=0-=1logit()=ln(l0)=+oo显然,通过变换,1.OgiI(7)的取值范树就被扩展为以0为对称点的整个实效域,这使得在任何自变址取优下,对灯值的预测均有实际意义.其次大量实践证明,1.Ogit(万)往往和自变所呈级性关系,换吉之,概率和自变求间关系的S形曲线往往就符合logic函数关系,从而可以通过该变换将此战直规化,因此,只的要以1.Ogil(乃)为因变IE建立包含P个自变量的IogiSliC回归模型如下:IOgil(P)=4+48+.+4/以上即为Iogisiic回归模型。由上式可推汨:p=ex世风+6X+Bp)JP=I1+cxp(A+z+凡XP)1+exP(A+X+3%)上面三个方程式相互等价。通过大量的分析实践,发现IOgiSiiC回归模型可以很好地满足对分类数据的建模需求,因此目前它己经成为了分类因变量的标准建模方法。通过上面的讨论,可以很容易地理解二分类IOgEiC回归模型对资料的要求是:(I)反应变豉为二分类的分类变限或是某事件的发生率.(2)自变瞅与1.OgiH不)之间为战性关系,(3)残差合计为0,且眼从二项分布,(4)各观测值间相互独立.由于因度量为二分类,所以I。妙SUC回归模型的误差应当版从二项分布,而不是正杳分布因此,该模型实际上不应当使用以前的最小课法进行多数估计,上次均使用量大似然法来解决方程的估计和检险问题二、一些基本概念由于使用了Iogil变换,1.OgiSIiC模型中的参数含义略显复杂,但有很好的实用价值,、为此现对一些基本概念加以解修。1.优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值ItPPOddS=C两个比值之比称为优势比(iMsRatio,简称0/?首先考察Cw的特性:I-P若Pl>02,则OddSI=>B=odds、1l-AjI-P2若Pl<P2,则odd='一</一=oddsiIll2若/1=P2,则odds.='='=odds、I-Rl-*显然,OK是否大于I可以用作两种情形下发生概率大小的比较.2.1.ogistic回归系数的鹿义从数学上济,夕和多元回归中系敷的解狎并无不同,代表改变一个单位时I。Rit(P)的平均改变量,但由于OddS的自然对数即为IORit交换,因此1.ogistic回归模型中的系数和OR有着直接的交换关系,使得IRgkUC回归系数有更加贴近实际的解狎,从而也使得该模IWW了广泛的JUB.卜面用一个实例加以说明:以4格表资料为例具体说明各回归系数的意义:表14恪表资料治疗方法_(real)治疗结果(outcome)合计治愈率治愈=1)未治愈<=0)新疗法(=1)60(八)21(c)8174.07%传统疗法(=0)42(b)27(d)6960.87%合计1024813068.00%该资料如果拟合1.ofiMicmiUl模型,则结果如下(操作步骤详见后述):1.ogit(PIoutcome=I)=&+?IXtreat=-0.442+0.608x/re«r(1)常数项:表示自变量取全为。称基戏状态)时,比数(Y=I与Y=O的概率之比)的自然对数值,本例中为片=-0.442=ln(42/69)/(27/69)=ln(42/27)=n(b/d).W传统疗法组的治愈率与未治愈率之比的自然对数侬,在不同的研究设计中,常数项的具体含义可能不同,如战线状态卜个体患病率、基线个体发病率、地线状态中病例所占比例等,但这些数值的大小研究者般并不关心.(2)各自变最的回归系数:i(i=,P)表示自变珏七旬改变一个单位,优势比的自然对数值改变量,而exp(/?J即SfGi,表示自变IiU,每变化一个单位.阳性结果出现概率与不出现概率的比值是变化前的相应比伯的倍数,即优势比(注意:不是出现阳性结果的概率为变化前的倍数,即优势比并不等同于相对危险度)。本例中自变圻治疗方法的e1归系数4=0.608,为两组病人的治愈率与未治愈率之比的对数值之差,pin(608l)(2181)=ln(4269)(2769)=ln(rffrc)o因此,对于四格表资料而言,所建立的1.OgiMiC回归模型也可以与成:logit(PIoutcome=I)=Ins/J)+ln(wJ)×treat=n(bd)+In(OZf)×treat由以上关系可知,exp(aj表示传统疗法组的治愈率与未治愈之比fft.exp(¾)则表示治疗方法增加一个单位,即将疗法从传统疗法改为新疗法时.新疗法组病人治愈率与未治愈率之比值相对于传统疗法机病人的治愈率与未治愈率比值的倍数.而两组病人的治愈率之比=(60/81)/(42/69)=1.217,并不完全相同.但是,当研究结果出现阳性的概率较小时(一般认为小于0.反之当概率大于0.9时亦可),OR值大小和发生概率之比非常接近,此时可以近似地说一组研究对望的阳性结果发生率是男一组研究对望发生率的OR值信,即用OR侑的大小来挖地表示相对危险度的大小.三、简明分析实例SPSS中通过regression模块中的Binary1.ogistic过程实现结果变量为二分类的1.ogisticI可归,下面通过一个实例分析,具体讲解相应的操作和结果好择.例1某医师希里研究病人的年龄岁入性别(0为女性,1为男性)、心电图检骁是否异常(ST段压低,0为正常、I为轻度异常、2为重度异常)与患冠心拂是否有关。调用SPSS中的Binar>1.ogistic过程:i1.ogisticRegression冈图21.ogiSliC回归主对话框本例中涉及的对话框界面如图9.2所示.注意对话框中都有一个以前未出现过的a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能,性别虽为分类变革,但仅有两个取值水平,所以可以百.接引入模型,结果仍然可以被正常解徉.结果如下:首先Jft出分析中使用的记录数汇总,此处略.衣2DependentVariableEncodingOriginalValueInternalValue卡思橘忠病01表2为因变;*的取值水平编码,SPSS拟借模型时蚊认取值水平福的为阳性结果,时广本例来讲,拟合的模型是Iogit(Pty=患物).随后进行模型拟合,首先给出的是模型不含任何自变量,而只干j常数项(即无效模型时的输出结果,标题为:-BIockO:BeginningBIock".此时的模型为:IOg()=4=003,exp(A>)_CXP(OJ03)_05257l+exp()I+exp(O.lO3)表3ClassificationTable*bObSerVedPredicted是否患冠心病Percentage未患病患病CorrectStep0未患病是否患冠心病037,0患病0411.0OverallPercentage52.6a. Constantisincludedinthemodel.b. Thecutvalueis.500表93输出的是模型中仅含有常数项(见衣4)时计舞的预测分类结果,SPSS根据P值是否大于05将观察对象判断为是否出现阳性结果,即是否患冠心描。由于模型中仅含有肺数琰.因此所布人的预刈概率均为样本率估计值P=O5257.将所有的观察对象均判断为冠心病.判断正确率为52.6%,实际上就是全部研究对取的患病率41、78=0.5256(细小差别为四舍五入产生).也就是说,由于当前样本中大部分人为患病.因此当模型中不包含任何自变出时.样本中所仃观察对取皆被预测为患病,总的预测准确率为52.6%表4VariablesIntheEquationBS.E.WaWdfSig.EXP(B)Step0Constant.103.227.2051.6511.108表4输出结果中B为模型中未引入白变址时常数项的估计侑,S.E为其标准谈,Wakl为WaId/.是对总体网归系数是否为0进行统计学检5条衣格中df为其自由度,Sig.为相应的P侑.此时的exp(B)为e的片次方,其实际意义为总体研究对象忠病率与未患病率的比tfl.JP1.108=0.5256,0.4744.裳5VariablesnotintheEquationScoredfSgStep0Variablessex6.0211.014©eg7.1111.008age7.7341.005OverallStatistics18.5623.000表5输出了力前未百入模型的变M的比分检验(ScoreTest)结果,其意义为向当前模型中引入某变最(如SeX时),该变V回归系数是否等于0的比分检验假设。对于取值水平为:分类的自变盘来说,得分检验的/值等于的该自变盘与反应变代构成的四格表的Pearsonz。基于无效模型.现在开始在分析中引入自变8t标题为“Block1.Mcthod=Entb.表6OmnibusTestsofModelCoefficientsCisquaredlSj.Step1Step21.1143.000Block21.1143.OOOModel21.1143.000由于此处尚未涉及变业箱选的问鹿,模型中会同时引入三个自变玳,自由度=3.此处的/(ft为似然比/值.等于上一步(模型中只含有常数项时>的-21OS(似然比值)与当前模型的华(似然比伯)的差伯,参见衣6"本例Z2=-86.8113-(-107.9257)=21.1144*7ModelSummaryStep-21.ogM<e*hoodCox&SnollRSquareNagclkCfkcRSquare186.81V.237.316a.Estimationterminatedatitcrattonnumber5becauseparameterestimateschangedbylessthan.001.表7输出了当前模型的2log(似然比例和两个伪决定系数(“伪”,以示与戏性回归模型中的决定系数相区别)Cox&Snell片和NagelkerkeR2.后两者从不同角度反映当前模型中自恋量解粹了反应变琏的变异占反应变量总变异的比例,但对于1.ogiMiC回归而H.通常看到的模型伪决定系数的大小不像线性回IH模型中的决定系数那么大。表8ClassificationTablejObservedPredicted½JfIOWPercentageCorrect未患病为病Stopi是否思冠心病未患就您就OverallPercentage2510123167.6756718aThecutvalueis.500这是应用引入三个自变量后重新拟合的回归模型进行预测的分类表格,P>0.5划标为出现阳性结果,可见己经出现了被预测为未患衲的研究时象,此处78例研究对象中共有56(25+31)例判断正确,总正确率为56/78=71.8%,如表8所示.表9怆出了模型中各自变破的馆何归系数及其标准误、Wald自由度、P(,fi,OR值(即表格最右侧的EXP(B”.由此可以得出结论,男性(SCX=I)较女性更容易患冠心病、心电图异常程度越高,越容易被诊断为冠心病,年龄越大的越容易患冠心病。由于年龄不可能为O,这也超出了样本所观察的自变IihIge取伯范围,因此这里的常数项无实际意义。*9VariablesIntheEquationBS.E.WaldS.Exp(B)Step1asx1.356.5466.1621.0133.882OCO87338451621.0232.395a.09303570001.0081.097Constant56421.8069.7571.002.004aVariabie(三)enteredonstep1sc.ccg.age到此为1上,可建立如1下1.ogiStiCMI打方程:_exp(-5.642-1.356Xser-0.873XeClg-().0934ge)'1+exp(-5.642-1.356×sex-0.873×ecg-0.093×age)或1.>git(P)=-5.642-1.356×SeX-0.873×ecg-0.093×age第二节分类自变量的定义与比较方法一、使用及变量的必要性在网归模型中,回归系数b龙示其他自变版不变,X每改变一个单位时,所鼓测的y的平均变化量,当X为连续性变量时这样解棒没有问鹿,二分类变型出于只存在两个类别间的比较也可以对系数科到很好的解择.但是当'为多分类变量时报合一个回归系数就不太合适了,此时番要使用变交量(DummyVariable)方式对模型加以定义,为说明该问题,先引入下面的一个实例.例2HOSmer和1.emCShOW干1989年研究了低出生体重暨儿的影响因素,结果变埴为是否娩出低出生体重儿(变量名为1.OW,1为低出生体重,即婴儿出生体重v2500g,O为北低出生体重),考虑的影响(自变SU有:产妇妊娠前体重1wt,跻)、产妇年龄aSc,岁)、产妇在妊娠期间是否吸烟(smoke,O=未吸、I=吸烟)、本次妊娠前早产次数(ptl.次)、是否患有高血压(hi.O=未患,1=患病)、子宫时按摩,催产素等刺激引起收缩的应激性(ui.O=无、I=行、妊娠前三个月社区医生随访次数(f»v.次).种族(race.1=白人.2=黑人,3=其他民族.本例包含的自变址种类齐全,有连续性变量、:分类、无序多分类变收,SPSS默认将所有的自变%均视作连续性变用,如本例,不同种族的变龊赋值为1、2、3,但.这仅是一个代码而已,并不选味着白人、思人、其他民族间存在大小次序的关系,即并非代表产妇娩出低出生体屯儿概率的Icgit(P)会按此顺序线性增加或战少.即使是有序多分类变量,如家庭收入分高、中、低三档,各类别间的差距也是无法准确衡状的,按编码数伯来分析实际上就是强行规定为等距,这显然UJ能引入更大的误差.在以上情况时,就必须将原始的多分类变让转化为数个呼变fit.每个呼变也只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义.图3CategoricalfXitfi三SPSS提供了CategOriCaI按钮用于指定无序多分类力变Jk如图3所示,对于取值有n个水平的自变MX,默认会产生nl个哑变求X(1),X(n-l),此时以第n个水平为翱照水平,SPSS会在分类变城编码矩阵中输出具体的赋值侍况,矩阵中元案均为“0”的那一行表示以该自变量相对应的取值水平作为参照水平.例如种族race行三个水平,则SpSS会产生两个呼变即*10CategoricalVariablesCodingsFrequencyParameterCodinq(2)种族白人961.000OOO垠人26.o1.0其他种蜜67.000.0在表1()中可以看出,相应的两个地变量含义如下:racc(l)=l,白人:0.非白人race<2)=l.黑人:0,非黑人由于两个唾变量是同时使用的,而只有“其他种族”这一类在两个吨变量中取值都为0.因此当同时使用时,实际上两个呼变量都足以“其他种族”作为参照水平.分别对上述哑变设的系数进行估计,就可以分别得知白人、阳人和参照水平(其他种族)的差弁,而这两个哑变出的参数估计值之差就反映了白人和黑人间的差异,例如在本例中如果只分析种族的作用,则报终的结果参见表II.和其他种族相比,白人低出生体重的风险较低.而照人则风险较高,但两者均无统计学意义.如果招白人和黑人相比.则相应的系数为-0.6WO.209=-0.X45.其OR(Ili为cxp(-0.845)=0.43,白人的风险要比黑人小得多.显然,这两个类别之间彳f无这差异还需要进行检监,而这在去11中是无法直接体现的,11VariablesintheEquationBS.E.WaJddTS.Exp(B)Stop18race49222.0S5race-63634833451,067529race-209.471.1971.6571.232Constant-.5192534.2181.040.595aVariatte(三)enteredonstep1:race.衣11的谕出中两个哑变Ift均无统计学意义,如果同一分类变量的不同哑变量出现了有些有意义,有些无意义的情形,又该如何处理?首先,结果中会对分类变埴先进行一个总体的检验,例如在本例中种族的依紧其P值为0.085.表明从总体上讲,种族应当对因变最无影响,此时所有的唾变中都不用再纳入分析了,总的检验比分项的检验更有权威性;如果总的检验布差异,而有些喳变Jit无统计学意义,则由于喳变后应当问进问出,胤则上仍然应当在模型中纳入所有的呼变S1.以保证呼变量代表含义的正确性.否则.剔除部分哑变成将会导致参照水平的变化,从而呼变埴的具体含义也会发生改变.二、SPSS中预设的哑变量:编码方式除以I浜认的呼变量对比方式外.SPSS的CategOriCal子对话框中还提供了其余几种对比方式:1.Indkaton指示对比。用于指定某一分类变量的参照水平。这时计舞出来的参数舟是以该变愤的最后一个或第一个水平作为参照水平(取决于下面的RCfeBnCeCaIegOry中选择的是Iastii½first).在本例中.RCrerCneCategory均为IaM-变:让race以"其他种族”作为参照水平。2.Simple:简单对比.可计算该分类变fit的各水平与参照水平相比的0,Gh对于本例来说.SimPle与IndiCator选项是-样的.前提是下面的RCfCrCnCCCategOry中所选择的同是last(或first).TDiffenrncc:差别时比.分类变好某个水平与其前面的所有水平平均值进行比较,此法与HClmen法相反,因此也叫反HdmCll法.如12水平与1水平相比:3水平与I、2水平的平均值相比,以此类推.如果在某水平处系数变小且无统计学意义<P>005),说明该分类变t对风险率产生的影响在该水平处达到停滞状态。此选择项一般用于有序的分类变累,对无序多分类变埴则无实际意义4.UeInlCTt:赫尔默特时比.分类变量某水平与其后面各水平平均值进行比较。如果在某水平系数增大且有统计学意义,说明该分类变量自该水平起开始对风险率产生影响.同样也适用于有序的分类变累,SRepeled:重生时比.分类变优的各水平与其前面相邻的水平相比较(笄一水平除外),此时以“前一水平”为参照水平.6.Polynomial:多项式对比.仅用于数字型的分类变麻.无效假设是假设各水平是等距离的(可以是线性的关系,也可以是立方、四次方的关系例加年龄每增加5岁.娩出低出生体里.儿的危险增加帼度是样的,但实际情况常常与之相反,例如在20岁与30岁年龄段,年龄都增加5岁,所增加的娩出低出生体V儿的危险肯定是不一样的,具体情况需要根据各人的研究课题而定.!.Deviation:离差对比.除所比定的参照水平外,其余每个水平均与总体水平相比.此时每个水平的网归系数都是相对于总体水平而言的改变量.对于那个参照水平而古,它的I可归系数可以通过其他n个回归系数算出来,等于Oai去其他几个水平回心系数的代数和,即些时n个水平的回归系数的代数和为“0”,三、设置吗变量时要注意的问遨I.参照水平最好要有实际意义,否则将会推动比较的目标.如果然一些难以分类的个体放到一起,然后美其名日“其他”,此时往往不知道己知的某个类别具体在与i隹进行比较,进而朴数吨变量的回归系数难以解译。因为不同研究样本中的“其他'往往是不同的,这样研究结果之间难以相互进行比较.2 .参照水平组应有一定的疑数作保证,如果参照水平炖数过少,将导致其他与之相对比的水平参数估计的标准谈增大,进而汽信区间扩大,精确度降低,有学者认为,参照水平组的频数应不少于30例或50例,3 .如果不通过CatCgoriCaI模R对分类自变址产生呼变量,而是自己通过COmPUte过程产生,需要注意在逐步回归筛选自变量时,晚变fit应该同时进入模型或者同时退出模型.4 .对有序自变录的分析,一是从专业出发,如果认为在不同等级对反应变法的影响程度是一致的,如文化程度短熠加一个等段,成为某项时尚消费品潜在消协者的比数(P/(I-P)的自然对数增加幅度也相同.这时可以符该变fit作为连续性变量进行处理,这样得到的模型也更简洁,结果的解择也更方便.当专业上不能给出以上假设时,则需要先将该有序变量分别以吨变量和连续性变僦的方式引入模吧,观察各哑变中的回归系数间是否存在等级关系,以及对两个模型进行似然比检验,似然比值等于两个模型的2lCg(D之差,自由度为两个模型中自变Jlt个数之差,如果似然比检验无统计学意义.各唾变麻的网归系数间存在等级关系,可以将该自变僦作为连续性变引入模型,否则最好还是采用唾变量的方式引入模型,第三节标准化回归系数和回归模型的拟合优度-、标准化回归系数与多重战性回归类似,自变量量纲(单位)不同,非标准化的IogiStiC回归系数不能用于比较各自变量对事件发生概率的贡献大小,欲研究IOgiStiC回打中各变强的相对贡帆.要么事先将各自变量标准化后再作I可归分析,要么对IogiNicI可归系数进行标准化.我们可以用极大似然估计的回归系数乘以该变址的样本标准差求汨logistic回归的标准化网以系数.b'=bl×St<16)SpSS软件可以提供回归系数及其变H的样本标准必但不能直接得到标准化回归系数.在标准化系数问题上要诣慎,应注超标准化的原意是消去不同址纲的影响,增加可比性,对于一些二分类的自变附,不存在量纲问题,则不宜作标准化。另外,一般不利用标准化回归系数估计优势比,因为按标准化1可归系数所计算的优势比不是变化个单位,而是变化个标准差的优的比了.二、回归模型的拟合优度对回归系数进行假设检脸只能说明logistic回归方程中的回打系数是否有统计学意义.因变家与自变从是否有统计学联系,不表明自变献对因变后变异的解糅程度.要说明这一点,如践性回归一样,应对回归方程进行拟合优度评价。1.ogistic回归方程拟合优度评价的思路有两种:第一种是希望找到一个评价指标.类岐线性回IU中的确定系数R-但是IogiMicmilU还没有对应的理想指标:第二种是通过回归方程预刈值与实际观测位的吻合程度,说明回归方程的拟合优度.考核预冽吻合程度的样本来源有两种,种是用于建立回归方程的训练样本,错判率指标往往偏低:笫:种是新样本,考核结果相对更客观,SPSS软件中有下列几种方法评价拟合优度,1. .似然比检验似然比检验是常用的评价方法,如同回归系数的似然比检验原理一样,对于某特定网归方程,其一2ln(1.)越大,标志该I,IUI方程的拟合程便越差.SPSS软件对logistic回IU整体拟合优度桧5金时,以仅含截距项的回回方程为参照将所得回归方程与截即方程比较,判断拟合效果是否改善.如果要判断回归方程的拟合优僮是否达到较好状态,常以所建立的1-1归方程为框础,再向方程中出入变疑,如新的自变吊、己知自变般的:次项或己知自变量的交互项,并用似然比检粉判断拟合效果是否改善,如果没有进一步改善,则以此方程为域终结果.2. Hosmcr-1.cmeshow检5该方法按预测概率大小,将所观测的样本IO等分,然后根据每组因变法实际观测值与I可归方程段测值.计%力拟合统计收:A为实际观测频数,7"为回归方程预测频数,当预测箱数都不太小时,该统计后版从12分布,自由度等于组数减回归方程参数个数,该方法常用于自变球很多或自变此中包含连续里定量变量的情形.HOSmCr-1.CmCShOW检验中组的划分对检验结果有影响.一般根据样本多少划分10级或略少些,应尽设保证每个组预冽物数不小于5,否则易得到拒绝零假设的结论而犯【类错误.3. Cox&SnellR2系数该系数与我性IyI归分析中的决定系数R-有相似之处,也是回归方程对因变景变异解样程度的反映.计算公式为:3Cox&SnellR2=l-12,<18>tln(£)J式中,人为截距方程的似然函数值,1.为当前拟合方程的慨然函数值,”为样本数,由于CoN&SneIIRT系数取伯莅困不易确定,治口观判断拟合效果带来不便。4. NagelkerkeR:系数NagclkcrkcR2系数工,'jCox&SndlR2系数的修正.取值范胭在01之间.该系数越接近于1.说明方程的拟合优度越高:越接近于0,拟合优度越低,NagelkerkeR2=Cox&SnellR2-111(4i)"(19)5. 错判矩阵描判矩阵是一种点观的拟合优度评价方法通过电阵表格的形式展现灯方程对训练样本或考核样本预测的正确率,以此判断I可归方程拟合效果的优劣,