生物统计学复习2.ppt
统计学的中心内容,总体,样本,抽样分布,统计推断,以总体分布和样本抽样分布的理论关系为基础,总体指导思想:根据抽样分布理论和小概率原理,对未知或不完全知道的总体,做出一定概率意义推断,统计推断的主要内容:假设检验 参数估计任务:分析数据差异产生原因,判断分布差异是由处理引起,还是由于随机误差引起的;确定误差性质,排除误差干扰,从而对总体特征做出正确判断。,第四章 统计推断,1.建立检验假设:零假设或无效假设 H0:=0 备择假设 HA。0(双侧检验)0 或 0(单侧检验)2.选定检验方法和计算检验统计量(t值、u值、2值、F值等)。3.确定检验水准显著水平4.确定P值,作出推断结论,基本步骤,一、假设检验,对于单侧检验,一般都是“增加了”、“提高了”或“减少了”、“降低了”这一类问题比如某产品的在使用了新技术生产后,问产品质量是否提高了,我们期待的结果是提高了,这样就把大于号定为备择假设,相反的小于等于号定为原假设。,(原假设与备择假设的确定)我们关心的,一项研究表明,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上。检验这一结论是否成立。按照前面的理论,研究者是想证明自己的研究结论(寿命延长)是正确的,于是备择假设的方向为“”(寿命延长),即建立的原假设与备择假设应为:H0:1500 H1:1500,1.如果研究者感兴趣的备择假设的方向“”,称为左单侧检验;这时拒绝域在左边,检验临界值为“U 2”。假设:H0:m0;H1:m02.如果研究者感兴趣的备择假设的方向“”,称为右单侧检验;这时拒绝域在右边,检验临界值为“U 2”。假设:H0:m0;H1:m0,第一类错误:真实情况为H0成立,根据小概率原理却否定了它,就犯了“弃真”错误,即把非真实差异错判为真实差异,也叫型错误(type error)或错误。即 为真,却接受了 第二类错误:H0不成立,假设检验却接受了它,就犯了“纳伪”错误,即把真实差异错判为非真实差异,也叫型错误(type error)或错误。即 为真,却未能否定,两类错误,样本平均数的显著性检验,大样本平均数的显著性检验u检验,1.一个样本平均数比较的u检验,2.两个样本平均数比较的u检验,小样本平均数的显著性检验t检验,1.一个样本平均数比较的t检验,2.成组数据平均数比较的t检验,3.成对数据平均数比较的t检验,统计推断,方差的同质性检验,1.单个样本方差的同质性检验,2.两个样本方差的同质性检验,大方差作分子小方差作分母,样本频率的假设检验,利用统计次数法对二项总体进行量化获得次数资料,进而转化为百分数资料。对二项百分率的检验正态近似法 条件:n足够大,p不是特别小(一般p0.1),且 np 和 nq 均大于5,1.单个样本百分率的假设检验,2.两个样本百分率的假设检验,参数估计:用样本统计量来估计总体参数,有 点估计 和区间估计 之分。区间估计:在一定概率保证下指出总体参数的可能范围,所给出的可能范围叫 置 信 区 间,给出的概率称为置信度 或 置信概率,以p1-表示。比较常用的置信水平是:90,95和99,二、参数的区间估计与点估计,单个总体平均数的参数估计,总体均数置信度为1-的置信区间,置信下限,置信上限,两个总体平均数的参数估计,的1-置信度的置信区间为,(成组资料),df n1+n2-2;df=n-1,(成对资料),二项总体百分率p的置信区间,例 某地抽样调查了部分健康成人的RBC数,其中男性360人,均数为,标准差,女性255人,均数,标准差,试问该地男、女RBC数的均数有无差别?本例样本含量较大,适合 检验条件,(双侧),=13.631.96 0.05 按 水准拒绝,接受,可认为该地男女RBC数的均数不同,男性高于女性。,例 对两种不同饲料喂养鸡,一段时间后,测得每小池鱼的体重增加量(g)如下表:,表 不同饲料喂养鸡的体重增加量,解:(1)F检验(两样本方差同质性检验),1.提出无效和备择假设2.设定显著性水平=0.05,3.统计量F值计算,=1.591F0.05,1.提出无效假设与备择假设,两种鱼的增重没有差异;,2.确定显著水平0.01(两尾概率),3.计算,=,58.3267+55.2350,10,=6.7809,(2)两样本平均数的显著性检验,=,98.47-132.65,6,26.7809,由于两总体方差同质 df=2(n-1)=10,4.统计推断 由df10,0.01查附表3得t0.01(10)3.169。实得|t|22.735t0.01(10)3.169,P 0.01,故应否定无效假设H0,即两种鸡的增重有高度显著差异,饲料效果明显。,【例】用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见表。设体温服从正态分布,问注射前后体温有无显著差异?表 10只家兔注射前后的体温,1、提出无效假设与备择假设,即假定注射前后体温无差异,即假定注射前后体温有差异2、设定显著性水平=0.013、计算t值4、统计推断:t0.01(9)=3.250,|t|t0.01(9),P0.01;否定零假设,接受备择假设,表明家兔注射该批注射液前后体温差异极显著。,【例】药物处理后的大豆种子播种后45d,取10个样本,每样本各取10株测其干物重分别为1.5、1.2、1.3、1.4、1.8、0.9、1.0、1.1、1.6、1.2(g),求该大豆播种45d后干物重总体平均数的95%置信区间。,经计算得,由,查 t 值 表得,因此,95%置信下限为 95%置信上限为,该大豆播种45d后重总体平均数的95%置信区间为 99%置信下限为99%置信上限为,该大豆播种45d后重总体平均数的99%置信区间为,第五章 2检验,适合性检验独立性检验,离散型资料的假设检验,用于次数资料(计数资料)分析的2公式:,O为实际观察到的数值,E为理论预期值。,基本思想 检验实际观测值和理论推断值的差别是否由抽样误差所引起的。,一、适合度检验,比较理论值和观测值是否符合的假设检验叫做适合度检验,也称拟合优度检验。方法:对样本的理论值先通过一定的理论分布推算出来,然后用实际观测值与理论值比较,从而得出是否吻合的结论。,例:玉米花粉粒碘染反应,玉米花粉粒碘反应观察次数与理论次数,1、设立无效假设,即假设观察次数与理论次数的差异由抽样误差所引起。H0:花粉粒碘反应比例为1:1 HA:花粉粒碘反应比例不成1:1。,2、确定显著水平=0.05。3、2值的计算,2分布是连续的,而次数资料则是间断的。由间断性资料算得的2值有偏大的趋势(尤其是在df=1时),需作连续性矫正。,本例,与理论次数相符,接受玉米F1代花粉粒碘反应比率为1:1的假设。,4、推断,二、独立性检验,独立性检验:根据次数资料判断两类或两类以上因子彼此相关或相互独立的假设检验。,表 22列联表的一般形式,【例】调查经过种子灭菌处理与未经种子灭菌处理的小麦发生散黑穗病的穗数,得相依表如下,试分析种子灭菌与否和散黑穗病穗多少是否有关。,1.设立假设H0:种子灭菌与否和散黑穗病病穗多少无关;HA:种子灭菌与否和散黑穗病病穗多少有关。,2.确定显著水平=0.05。3.2计算 T11=76(210/460)=34.7,用同样的方法算出其余格子的理论次数,并将其写入上表的括号中。,查附表4,现实得 故P0.05,否定H0。即种子灭菌与否和散黑穗病发病高低有关,种子灭菌对防治小麦散黑穗病有一定效果。,适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。,方差分析的基本功能,对多组样本平均数差异的显著性进行检验,实质上是关于观测值变异原因的数量分析,观测值不同的原因,处理效应,试验误差,第六章 方差分析,方差分析的基本思想,将所有测量值间的总变异按照其变异的原因不同分解为处理效应与实验误差,然后进行数量估计,评价由某种因素所引起的变异是否具有统计学意义。,总变异,组间变异,组内变异,总离均差平方和,总自由度,方差分析的基本步骤归纳,(一)计算各项平方和与自由度;(二)列出方差分析表,进行F检验;(三)若F 检验显著,则进行多重比较。(四)列出平均数多重比较表(五)依据多重比较方法计算 最小显著差数(LSD)最小显著极差(LSR:q值;SSR值)(六)两两平均数的差数与之比较(七)表示结果:梯形法和标记字母法。,1,2,多重比较表绘制,3,最小显著差数法(LSD法,least significant difference)最小显著极差法(LSR 法,Least significant ranges),4,5,6,单因素试验资料的方差分析,组内观察值数目相等,2.组内观察值数目不相等,两因素单独观测值试验资料的方差分析,二因素试验资料的方差分析,线性模型,互作效应:实际指的就是由于两个或两个以上试验因素的相互作用而产生的效应。方差分析的基本假定 效应的可加性 分布的正态性 方差的同质性,【例1】抽测5个不同品种鸡的孵化数,结果见表6-12,试检验不同品种鸡的孵化数的差异是否显著。表6-12 五个不同品种鸡的孵化数,这是一个单因素试验,k=5,n=5。现对此试验结果进行方差分析如下:1、计算各项平方和与自由度,2、列出方差分析表,进行F检验 不同品种鸡的孵化数的方差分析表,根据df1=dft=4,df2=dfe=20查临界F值 得:F0.05(4,20)=2.87,F0.05(4,20)=4.43 因为FF0.01(4,20),即P0.01,表明品种间孵化数的差异达到1%显著水平。,3、多重比较 各处理平均数多重比较表。,不同品种鸡的孵化数多重比较表,4.最小显著极差计算采用新复极差法,因为MSe=3.14,n=5,所以 为:根据dfe=20,秩次距k=2,3,4,5由附表6查出=0.05和=0.01的各临界SSR值,乘以=0.7925,即得各最小显著极差,所得结果列于下表。,SSR值及LSR值,将多重比较表中的差数与LSR表中相应的最小显著极差比较并标记检验结果。检验结果表明:5号品种鸡的孵化数极显著高于2号品种鸡,显著高于1、4号品种,但与3号品种差异不显著;3号品种鸡的孵化数极显著高于2号品种,与1号和4号品种差异不显著;1号、4号、2号品种鸡的孵化数间差异均不显著。五个品种中以5号鸡的孵化数最高,3号品种次之,2号品种鸡的孵化数最低。,5.两两平均数的差数与之比较,几种常用的数据转换方法,1、平方根转换 适用于总体呈泊松分布的资料2、对数转换3、反正弦转换 适用于二项分布的资料,相关变量间的关系分为两种:因果关系,即一个变量的变化受另一个或几个变量的影响。回归分析平行关系,即二个变量相互影响,互为因果。相关分析表示原因的变量称为自变量(x),表示结果的变量称为依变量(y),第七章 直线回归与相关分析,回归分析的任务:1.揭示出呈因果关系的相关变量间的联系形式2.建立它们之间的回归方程3.利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,相关分析的任务:只研究两个变量之间线性相关的程度和性质或一个变量与多个变量之间线性相关的程度。,直线回归的数学模型,反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR或U;反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr或Q,直线回归的标准误可以反映不同资料中误差的大小。,U,df1=1,df2=n-2,来检验回归关系即回归方程的显著性。,比值 叫做x对y的决定系数,记为 r2,即,(7-16),决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,显然0r21。r2的平方根既可表示y与x的直线相关的程度,也可表示y与x直线相关的性质。统计学上把这样计算所得的统计数称为x与y的相关系数,记为r。,直线回归方程的计算例设某食品感官评定时,测得食品甜度与蔗糖浓度的关系如下表,试求y对x的直线回归方程。,试解以下问题:(1)Y依X的线性回归方程;(2)离回归标准差;(3)相关系数。,首先计算个一级数据,然后由一级数据算出个二级数据,得到:,(1)直线回归方程,(2),(3),第九章 抽样原理与方法,1、平均数估计的必要样本单位数的确定,t通常以df的t值代替,t(0.05,)=1.962,2、成数估计的必要样本单位数的确定,3、成对资料样本容量的确定,抽样方法,随机抽样,典型抽样,顺序抽样,随机抽样,简单随机抽样,分层随机抽样,双重随机抽样,整体随机抽样,随机抽样技术的分类及技术特点,【例】进行南阳黄母牛体高调查,已测得南阳黄母牛的体高的标准差S=4.07cm,今欲以95%的置信度使调查所得的样本平均数与总体平均数的允许误差不超过0.5cm,问需要抽取多少头黄牛组成样本才合适?t(0.05,)2已知:S=4.07,=0.5,1-=0.95,先取t0.05=2,得:n=224.072/0.52 265(头)即对南阳黄母牛体高进行调查,至少需要调查255头,才能以95%的置信度使调查所得样本平均数与总平均数相差不超过5cm。,第十章 常用试验设计及其统计分析,生物学试验的基本要求试验目的明确试验条件要有代表性试验结果可靠试验结果可重演,准确度,精确度,试验中同一性状的重复观测值彼此接近的程度,即试验误差的大小。误差越小,处理间比较越精确,试验中某一性状的观测值与其相应真值的接近程度,不易确定。越接近,准确度越高,使观测值偏离试验处理真值的偶然影响称为试验误差或误差(error)。,系统误差(片面误差):由于试验处理以外的其他条件明显不一致所产生的带有倾向性的或定向性的偏差。可以避免,随机误差(偶然误差):由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差。不可以避免,试验设计的基本原理,重 复,随 机,局部控制,常用的试验设计方法简介,单因素试验设计,两因素试验设计,多因素试验设计,单因素随机区组设计;拉丁方设计,两因素随机区组设计;裂区设计,正交设计,(一)单因素随机区组设计,适用范围:单因素试验时,有一个明显的干扰因素,使得试验单位不一致,试验地,肥 瘦,肥力梯度,例如:5个不同小麦品种的产量比较试验,试验地按某方向存在明显肥力梯度(见下图),则试验小区间存在肥力差异。,设计方法:先将整个试验地按干扰因素(肥力水平)分成若干个区组,每个区组内土壤肥力等环境条件相对均匀一致,而不同区组间相对差异较大;,肥 瘦,肥力梯度,然后在每个区组中随机安排全部处理。,5个不同小麦品种产量试验的随机区组设计图为:,设计特点,它重点体现了局部控制的原则,从而将试验环境均匀性的控制范围从整个试验地缩小到一个区组,区组间的差异可以通过统计分析方法使其与试验误差分离,所以随机区组设计的试验精确度较高。可以减少由于地力条件不同而带来的试验误差,即可以从总平方和中分解出由于地力差异所引起的平方和,减少误差平方和,提高试验精确度。,在长江中下游地区进行棉花品种测试,供试品种10个,采用4次重复的随机区组设计,小区面积10m2,假设试验地的肥力梯度呈南北方向。试画出田间种植图。,随机区组设计图,N,S,肥力梯度,肥 瘦,补充:拉丁方设计,适用范围:单因素试验时,有两个明显的干扰因素,使得试验单位不一致,试验地,肥 瘦,肥力梯度,例如:5个不同小麦品种的产量比较试验,试验地按某方向存在明显肥力梯度,按另一个方向存在明显的水分梯度(见下图),肥力和水分两个干扰因素使得试验小区间存在肥力差异。,水分梯度,设计方法:拉丁方设计从横行和直列两个方向对试验环境条件(干扰因素)进行局部控制,使每个横行和直列都成为一个区组;然后在每个区组内随机安排全部处理。,在拉丁方设计中,同一处理在每一横行区组和每一直列区组出现且只出现一次,所以拉丁方设计的处理数、重复数、横行区组数、直列区组数均相同。,肥力区组,例如,5个不同小麦品种产量试验,采用拉丁方设计以控制肥力和水分两个干扰因素,其设计图为:,水分区组,设计特点,由于每一横行和每一直列都形成一个区组,因此拉丁方设计具有双向的局部控制功能,可以从两个方向消除试验环境条件的影响,具有较高的精确性。,(一)两因素随机区组设计,适用范围:有两个地位平等的试验因素;有一个明显的干扰因素,使得试验单位不均匀一致,试验地,肥 瘦,肥力梯度,例如:玉米品种(A)和施肥(B)的两因素试验,试验地按某方向存在明显肥力梯度(见下图),则试验小区间存在肥力差异。,2 两因素试验设计方法,设计方法:与单因素随机区组设计类似,不同之处是在单因素时处理是单因素的每个水平,在两因素时处理是两因素各水平之间的交叉组合。,肥 瘦,肥力梯度,例如:玉米品种(A)与施肥(B)两因素试验,A因素有A1,A2,A3,A4这四个水平,B因素有B1和B2两个水平,共有8个水平组合即处理,随机区组设计,设置3个区组。设计示意图为:,设计特点,它使用了局部控制的原则,从而将试验环境均匀性的控制范围从整个试验地缩小到一个区组,区组间的差异可以通过统计分析方法使其与试验误差分离。,(二)裂区设计,适用范围:有两个地位不平等的试验因素A和B:A因素是次要因素,精确度要求较低;B因素是主要因素,精确度要求较高。试验有一个明显的干扰因素,使得试验单位不均匀一致,设计方法:裂区设计与两因素随机区组设计近似。不同点是后者在每一个区组内A,B两因素的ab次处理是完全随机化的,只经过一次随机化过程。而裂区设计的每一区组内A因素先分为a个处理,在A的每一个处理内B因素再分为b个处理。也就是说随机化过程分两步进行,分别在A因素的a个处理间及B因素的b个处理之间进行。,例如:拟进行小麦中耕次数(A,次要因素)和施肥量(B,主要因素)试验,A因素设置3个水平:A1、A2、A3,B因素设置4个水平:B1、B2、B3、B4。试验地按肥力梯度设置3个区组,进行裂区设计。设计示意图为:,肥 瘦,肥力梯度,设计特点,(1)裂区设计副区因素是主要的研究因素,主区因素是次要的研究因素;副区面积小,主区面积大。,(2)裂区设计是以牺牲主区因素的精确性来提高副区因素以及副区因素与主区因素的互作效应的精确性。因此,对于副区因素效应来说,裂区设计比随机区组设计精确度高。,(3)裂区设计往往是管理实施的需要。如果某一因素比另一因素需要更大的小区面积时,为了管理实施的方便而采取裂区设计。应将需要面积较大的因素作为主区因素,需要面积较小的因素作为副区因素。例如在栽培试验中,施肥和灌溉需要较大的面积,以便于实际操作和控制水肥在相邻小区之间的移动,应将施肥和灌溉作为主区因素,将其它因素作为副区因素。,正交试验设计,适用范围,试验考察的试验因素较多(不小于3),并且允许进行的试验次数不多。通常适用于用较少的试验次数找出最佳水平组合。,正交设计是利用正交表安排多因素试验、分析试验结果的一种设计方法。它从多因素的全部水平组合中挑选部分有代表性的水平组合进行试验,通过对这部分试验结果的分析了解全面试验的情况,找出因素最佳水平组合。,设计方法,3 多因素试验设计方法,一 正交表及特点,正交表,因素的水平数,最多可安排的因素(互作)数,试验次数(水平组合数、处理),因素的水平数,最少试验次数或处理组合数,交互项自由度,4因素,B,A,C,D,2水平,AB,AC,(2-1)4+(2-1)(2-1)2+15,例如:某水稻栽培试验选择了3个水稻优良品种(A):二九矮、高二矮、窄叶青,3种密度(B):15、20、25(万苗/亩),3种施氮量(C):3,5,8(kg/亩),可以用L9(34)正交表安排试验如下:,