讲课3第一章统计案例1.2独立性检验的基本思想及其初步应用课件新课标人教A版选修1.ppt
日常生活中我们关心这样一些问题:吸烟与患呼吸道疾病有无关系?秃顶与心脏病之间有无关系?性别与喜欢数学课之间有无关系?以上问题用什么知识来解决呢?,独立性检验的基本思想 及其初步应用,第一章,统计案例,1.2 独立性检验的基本思想及其初步应用 在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。所谓“分类变量”,就是指个体所属的类别不同,也称为属性变量或定型变量。在日常生活中,我们常常关心两个分类变量之间是否有关系,例如吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等。,探究:,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人),列联表22,0.54%,2.28%,1)通过图形直观判断,三维柱状图,2)通过图形直观判断,二维条形图,3)通过图形直观判断,患肺癌比例,不患肺癌比例,等高(频率)条形图,问题1:判断的标准是什么?,吸烟与不吸烟,患病的可能性的大小是否有差异?,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大,问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?,问题3:能否用数量刻画出“有关”的程度?,独立性检验,H0:吸烟和患肺癌之间 没有关系,通过数据和图表分析,得到结论是:吸烟与患肺癌有关,结论的可靠程度如何?,吸烟的人中不患肺癌的比例:,不吸烟的人中不患肺癌的比例:,若H0成立,引入一个随机变量(卡方统计量),随机变量:p12页划书,通过公式计算,此结果,说明“两个变量有关系”的程度 有多大呢?界定的标准是什么哪?。,已知在H0成立的情况下(卡方分布规律表p13),,故有99%的把握认为H0不成立,即有99%的把握认为患肺癌与吸烟有关系,现在的卡方的观测值 k=56.632的观测值远大于6.635,出现这样的观测值的概率不超过0.010=1%。,即在 成立的情况下,大于6.635概率非常小,近似为0.010,H0:表示吸烟和患肺癌之间没有关系,随机事件12页划书,认为“患肺癌与吸烟有关系”犯错误的概率不会超过.010=1%.,一般地,对于两个分类变量X和Y。X有两类取值:即类 和(如吸烟与不吸烟);Y也有两类取值:即类 和(如患病与不患病)。于是得到下列样本频数的22列联表为:,用卡方统计量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为这两个分类变量的独立性检验。,要推断“X和Y有关系”,可按下面的步骤进行:,(1)提出假设H0:X和Y没有关系;,(3)查对临界值,作出判断。,(2)根据22列联表与公式计算 的值;,小结,反证法原理与独立性检验原理,反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。,独立性检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。,例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?,秃顶与患心脏病列联表,有99%的把握认为“秃顶与患心脏病有关”,说明:在熟悉独立性检验的原理后,可以通过直接计算K的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题,但是,借助图形更直观。,犯错误的概率是指将“秃顶与患心脏病有关系”错判成“秃顶与心脏病没有关系”的概率,例2 为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取300名学生。得到如下列联表:,性别与喜欢数学课程列联表,由表中数据计算得到K2的观测值k4.514。能够以95的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?,解:在假设“性别与是否喜欢数学课程之间没有关系”的前提下,应该很小,并且而我们所得到的 的观测值 超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”。,作业:P15 练习题,再见,练习:(P17),甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下列联表:,画出列联表的条形图,并通过图形判断成绩与班级是否有关.利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。,列联表的条形图:,