第12章简单线性回归.ppt
《第12章简单线性回归.ppt》由会员分享,可在线阅读,更多相关《第12章简单线性回归.ppt(72页珍藏版)》请在课桌文档上搜索。
1、第十二章 简单线性回归,对于考察变量与变量之间关系时,我们采用回归分析的方法建立模型或方程进行变量间关系的分析。因变量:被预测的变量自变量:进行预测的变量,简单线性回归模型(对总体而言)为未知参数,为随机误差项,反映其它未列入回归模型的变量对因变量的影响。,关于简单线性回归模型的标准假设:1.,可推知,该方程称为回归方程。2.对于所有的X,误差项 的方差 一样:即同方差假定。3.误差项 独立。其协方差为零,4.自变量是给定的变量,与误差项线性无关。5.误差项 服从正态分布,从而说明Y服从正态分布,对于总体的线性回归模型,由于总体参数未知,我们只能利用样本数据进行估计,得到样本回归模型(对样本而
2、言)。分别为 的估计。其中真实值与估计值之间的差距用e来表示:是y的一个估计值。,我们称下式为估计回归方程:,估计回归方程与总体回归模型之间的区别。总体回归模型是未知的,它只有一个。而估计回归方程则是根据样本数据拟合的,每抽取一组样本,便可以拟合一个样本估计方程。总体回归模型中的1和2是未知的参数,表现为常数。而回归估计方程中的 和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。总体回归模型中的E是Y 与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归模型中的e 是Y 与估计回归线之间的纵向距离,当根据样本观测值拟合出估计回归方程之后,可以计算出e 的具体数值。,最小二乘
3、估计法,该法的目的:使残差平方和达到最小残差:因变量y的观察值与估计值之间的距离求该式对应的b0,b1可以根据微分的方法求解最优解。,令,披萨连锁店的销售量与学生人数的回归方程,模型的拟合度,判定系数:用来判断估计回归方程的拟合程度。误差平方和SSE总平方和SST回归平方和SSRSST=SSR+SSE 判定系数,SST=SSR+SSE WHY?,在该披萨店的例题中,由样本估计得到的回归方程的判定系数为:0.9027我们认为:该估计回归方程有90.27%的总平方和可以通过估计回归方程来解释,我们认为该模型较好的拟合了学生人数与销售额之间的线性关系。,判定系数与相关系数的关系:,从而有:判定系数=
4、SSR/SST=回忆相关系数的计算公式:本例中:r0.9501,模型的显著性检验,在模型进行估计以后,得到了估计回归方程。由于估计回归方程是由样本信息得到的,具有随机性。为了由样本推及总体,我们需要对估计参数进行显著性检验。因此可以利用之前介绍的假设检验的统计方法来判断。,1.估计回归模型中残差项的方差,之前的假设中,令误差项 的方差记为可得,因此 也代表了y值的方差。数学上可以证明,方差 的无偏估计为MSE(mean square error),其中SSE的自由度为n-2,受两个约束(b0,b1)MSE=SSE/(n-2)s称为估计量的标准误差pizza店的例子中,计算得到SSE=1530,
5、因此方差 的一个无偏估计,,2.T检验及相应的抽样分布,T检验:用来判定 是否显著为零。H0:=0;Ha:0如果x和y相关,则有 0.如果通过假设检验,我们拒绝了H0,可以相应得到 0的结论。由于 是唯一的,是未知总体的参数,我们需要借助样本计算得到的斜率b1来进行判断。,考察b0,b1的抽样分布:可以证明,在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有:,我们给出截距项估计参数的推导公式:以上公式的推导,是由于:令,推导:,由于总体方差未知,我们用之前说过的MSE来渐近估计总体方差:代入估计参数的方差和标准差公式:,构造统计量T,在H0为真是,T统计量服从自
6、由度为(n-2)的t分布。显著水平下的拒绝规则:如果Tt(a/2;n-2),拒绝H0的初始假定。说明 显著非零。,披萨店的例子,我们来看人数的估计参数是否显著,也就是看学生人数是否真的与销售量有显著关系:显著水平为0.01H0:=0;Ha:0在H0为真的前提下,有统计量T服从自由度为8的t分布。,比较T与临界值t(0.005,8),T3.36从而可以拒绝H0的假定,统计上提供依据可以认为学生人数与披萨店的销售量有显著相关关系。,3.F检验及相关抽样分布,F检验是针对整体模型是否显著而设计的假设检验。在一元简单回归模型中,F检验的对象与T检验一致,结果也一致。但在多元回归模型中,F检验是对所有自
7、变量的显著性同时进行检验。,F检验的原理:类似于方差分析的构造方式,总体方差有两个独立的估计量。之前介绍的MSE是总体方差 的无偏估计,的另一个独立估计量为MSRMSR=SSR/(k-1)k为模型待估参数个数。在一元回归模型中,k=2,当H0:为真时,两个估计量应当相当接近,且MSR和MSE相除后得到的统计量服从F分布,自由度为(k-1,n-2)我们依照该分布的特点,且在一定显著水平下,找到统计值落入小概率事件的区域。F=MSR/MSEF(a;k-1,n-2)拒绝原则:如果FF临界值,则拒绝H0,从而可以认为模型整体通过显著检验。,类似于方差分析,我们同样可以列出ANOVA表:,披萨店的例子:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 12 简单 线性 回归

链接地址:https://www.desk33.com/p-680962.html