1、生物统计学复习资料第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等生物统计学的作用:1. 提供整理、描述数据资料的科学方法并确定其特征 2. 判断试验结果的可靠性3. 提供由样本推断总体的方法 4. 试验设计的原则生物统计学的研究包括了两个过程:1. 从总体抽取样本的过程抽样过程2. 从样本的统计数到总体参数的过程统计推断
2、过程第二章7样本标准差: (1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大(2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍STDEV: 基于给定样本的标准偏差STDEVP:基于给定样本总体的标准偏差8变异系数(CV):样本标准差除以样本的平均数,得到百分比(1)变异系数是样本变量的相对变量,是不带单位的纯数(2)用变异系数可以比较不同样本相对变异程度的大小1次数分布:在不同区间内变量出现的次数所构成的分布。2.资料根据生物的形状特性,可分为数量性状和质量性状3间断性变数:指用计数方法
3、获得的数据,其各个观测值必须以整数表示,在两个相邻整数间不允许带有小数的值存在。4.连续性变数:指称量、度量或测量方法所得到得数据,其各个观测值并不限制于整数,在两个数值之间可以有微量数值差异的第三个数值存在5.质量性状资料的方法:统计次数法,评分法统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别及其次数或相对次数给分法:给予每类性状以相对数量的方法。6.试验资料搜集方法:调查和试验7.资料调查方法:普查和抽样调查抽样调查:根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。8
4、.随机抽样满足条件:1)总体中每个个体被抽中的机会均相等;2)总体中任意一个个体是否被抽中是相互独立的9.统计表要求:1)标题:简明扼要,准确地说明表的内容,有时须注明时间、地点 2)标目:分横纵两项,横列在表的左侧,纵列表上端,须注明计算单位 3)数字:一律用阿拉伯数字,以小数点对齐,无数字用“/”表示 4)线条:多用三线条。上下两条边路略粗10.统计图绘制的要求:1) 标题简明扼要,列于图的下方2) 横纵坐标两轴有刻度,注明单位3) 横轴从左至右,纵轴由下而上,数值由小至大,图形长宽约为5.4或6.54) 图中要不同颜色或线条代表不同的事物时,应有图例说明11.计数资料基本采用单项式分组法
5、进行整理12.计量资料的整理一般采用组距式分组法13.次数分布图分类:条形图、饼图、直方图、多边形图、散点图14.变量的基本特征:1) 集中性:变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。特征数是平均值2) 离散性:变量有着离中分散变异的性质。特征数是变异数,常用的指标是极差、方差、标准差和变异系数15.平均数的种类:算术平均数、中位数、纵数、几何平均数17.标准差的作用;1) 表示变量分布的离散度2) 利用标准差的大小,可以概括的估计出变量的次数分布及各类观测值在总体中所占有的比例3) 估计平均数的标准误4) 进行平均数的区间估计和变异系数的计算18.组距:根据极差分
6、成若干组,每组的距离相等,称为组距。组距=极差/组数19.自由度:样本内独立且能自由变动的离均差的个数。20.变异系数:样本的标准差除以平均数的百分比21. 平均数的用处:平均数指出了一组数据的中心位置,标志着资料所代表性状的数量水平和质量水平; 作为样本或资料的代表数据与其他资料进行比较。平均数的特征:离均差之和为零; 离均差平方和为最小。21.标准差的用处: 标准差的大小,受实验后调查资料中的多个观测值的影响,如果观测值之间的差异大,离均差就越大; 在计算标准差是如果对观察值加上一个或减去一个a,标准差不变;如果给各观测值乘以或除以一个常数a,所得的标准差就扩大或缩小a倍; 在正态分布中,
7、X+-S内的观测值个数占总个数的68.26%,X-+2s内的观测值个数占总个数的95.49%,x-+3s 内的观测值个数占总个数的99.73%。标准差的特征: 表示变量分布的离散程度; 标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例; 估计平均数的标准差; 进行平均数区间估计和变异数的计算。22.比较总体和样本的平均数、标准差:总体平均数=x/N,式中分母为总体观察个数N; 样本平均数x=x/n,公式中n是样本容量; 样本平均数是总体平均数的无偏估计值。总体和样本标准差都等于离均差的平方和除以样本容量; 而总体标准差= ,分母上是总体观测值个数N; 而样本标准差是s= ,分
8、母上是样本自由度n-1. 样本标准差s是总体标准差的无偏估计值。第三章:概率的计算法则:(1)乘法定理:如果A和B为独立事件,则事件A和B同时发生的概率等于各自事件的概率的乘积(2)加法定理:互斥事件A和B的和的概率等于事件A和事件B的概率之和加法定理推理1: 如果A1、A2、An为n个互斥事件,则其和事件的概率为: P(A1A2An)=P(A1)+P(A2)P(An)加法定理:如果A和B是任何两件事件,则概率分布:(1)离散型随机变量的概率分布变量(x) x1 x2 x3 xn概率(P) p1 p2 p3 pnP(x=xi)=pi (i=1,2, n)离散随机变量的方差(2)连续型随机变量的
9、概率分布连续型随机变量的概率分布1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值2. 它取任何一个特定的值的概率都等于03. 不能列出每一个值及其相应的概率4. 通常研究它取某一区间值的概率5. 用数学函数的形式和分布函数的形式来描述概率密度函数:(1)设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件(2) ,f(x)不是概率几种常见的概率分布:(适用范围,尾函数,自由度)1. 二项分布的概率函数 记作B(n,p)或者B(n,)(1)每次试验只有两个对立结果,分布记为A与 它们出现的概率分布为p与q(q1-p)(2)试验具有重复性和独立性二项式分布的
10、概率累积函数:若随机变量x服从二项式分布,则有二项分布的总体平均数为二项分布的总体标准差为:二项成数(百分数)分布的平均数:二项成数(百分数)分布的标准差:例:假设年龄6064岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,6064岁的男性老人第二年的死亡率约为0.02)解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点异常,但不是很异常。 如果至少死亡1
11、0人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。2. 泊松分布二项式分布中,如果p值很小而n值很大( p0.1 和np5 ),则泊松分布 式中: 为参数,泊松分布的平均数、方差、标准差例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲曾患有乳腺癌的1000名4049岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性?解:如果用二项分布,则n1000,p1/1000,BINOMDISTnumber_sTrialsprobability_scumula
12、tive310000.001Ture0.9810.019解:如果用泊松分布,则n1000,p1/1000, 则平均值 1则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性6. 正态分布求和为04 t分布:是小样本分布,小样本分布一般是指n1时,与连续型随机变量卡方分相近似,这时可以不做连续性矫正 注意:要求各个组内的理论次数不小于5,如某组理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止适合性检验(吻合性检验或拟合优度检验)步骤: 1. 提出无效假设,即认为观测值和理论值之间没有差异 2. 规定显著性水平 3. 计算样本卡方值 4. 根据规定的显著水
13、平和自由度计算出卡方值,再和实际计算的卡方值进行比较独立性检验步骤: 1. 提出无效假设,即认为所观测的各属性之间没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进行比较。 如果接受假设,则说明因子之间无相关联,是相互独立的 如果拒绝假设,则说明因子之间的关联是显著的,不独立1. 检验主要有三种用途:一个样本方差的同质性检验,适合性检验和独立性检验。一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著,适合性检验是比较观测值与理论值是否符合的假设检验;独立性检验是判断两个或两个以上因素间是否
14、具有关联关系的假设检验。检验用途:一个样本方差的同质性检验、适合性检验、独立性检验1)适合性检验:比较观测值与理论值是否符合的假设检验。这种方法是对样本的理论值先通过一定的理论分布推算出来,然后用实际观测值与理论观测值比较,从而得出实际观测值与理论观测值之间是否吻合的结论,因此适合性检验也叫吻合性检验或拟合优度检验。2)独立性检验:实验九两个或两个以上因子彼此之间的相互独立的还是相互影响的一类统计方法。2.检验基本原理:应用理论推算值E与观测值O之间的偏离程度来决定的。理论推算值与实际观测值之间偏差越大,越不符合;偏差越小,越趋于符合;若两值完全相等时,表明理论值与实际值完全符合。3. 检验的
15、步骤为:(1)提出无效假设H0:观测值与理论值的差异由抽样误差引起即观测值=理论值 备择假设HA:观测值与理论值的差值不等于0,即观测值理论值(2)确定显著水平a.一般可确定为0.05或0.01(3)计算样本的x2,求得各个理论次数Ei,并根据各实际次数Oi,代入公式,计算出样本的x2。(4)进行统计推断4.在计算是应注意:1)任何一组的理论次数Ei都必须大于5,如果Ei5;2)在自由度df=1时,需进行连续性矫正 公式:对同一资料,进行矫正的值要比未校正的值小。当自由度df=2时,一般不需要矫正。第六章方差分析又称 F 检验 (F -test);方差分析是关于k(k3)个样本平均数的假设测验
16、方法,是将总变异按照来源分为处理效应和试验误差,并做出其数量估计。 发现各变异原因在总变异中相对重要程度的一种统计分析方法。 总变异分解为组间变异和组内变异。组内变异是个体差异所致,是抽样误差。组间变异可能由两种原因所致,一是抽样误差;二是处理不同。在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断方差分析基本思想:1、把k个总体当作一个整体看待2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度3、计算不同方差估计值的比值 4、检验各样本所属的平均数是否相等 实际上是观察值变异原因的数量分析方差分析应用条件: 1、各
17、样本须是相互独立的随机样本 2、各样本来自正态分布总体 3、各总体方差相等,即方差齐 方差分析基本用途: 1、多个样本平均数的比较 2、多个因素间的交互作用 3、回归方程的假设检验 4、方差的同质性检验总平方和=处理间平方和处理内平方和总自由度=处理间自由度处理内自由度统计假设的显著性检验F检验:F检验的目的:推断处理间的差异是否存在方差分析中的F检验总是单尾检验,而且为右尾检验 F越大,越说明组间方差是主要方差来源,因子影响越显著; F越小,越说明随机方差是主要的方差来源, 因子的影响越不显著F检验如果否定了H0,接受了HA,表明试验的总变异主要来源于处理间的变异多重比较:多个平均数的相互比
18、较 常用的:1、最小显著差数法(LSD法) 2、最小显著极差法(LSR法)新复极差检验(SSR法)q检验总结:差异不显著标同一字母,差异显著标不同字母最小显著极差法(LSR法) 把平均数的差异看成是平均数的极差(range) 根据极差范围内所包括的处理数(称为秩次距)k的不同,而采用不同的检验尺度叫做 最小显著极差LSR 秩次距是指当平均数由大到小排序后,相比较的两个平均数之间(含这两个平均数)包含的平均数个数 I类错误下降、工作量加大新复极差法q检验法两因素方差分析:互作:某一因素在另一因素的不同水平上所产生的效应不同,则二因素间存在交互作用,简称互作。互作效应实际是由于两个或多个试验因素的
19、相互作用而产生的效应采用EXCEL计算重复观测值的二因素方差分析:1、数据输入区域必须有标题2、直接分析结果仅适用用固定模型1.试验因素:试验中所研究的影响试验指标的原因或原因组合,简称为因素或因子。按照性质不同,因素可以分为可控因素和非可控因素。2.因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差别)。3.试验处理:指对受试对象给予某种外部干预(或措施),是试验实施因子水平的一个组合。可分为单因素处理和多因素处理。4.试验单位:试验中能接受不同试验处理的独立的试验载体。实际上就是根据目的而确定的观测总体。5.重复:是指在试验中,将一个处理实施在两个或两个以上的试验单位上。6.
20、方差分析基本原理:将所有处理的观测值作为一个整体,一次比较就对所有各组间样本平均数是否有差异作出判断。基本思想:将测量数据的总变异按照变异原因不同分解为处理效应和试验效应,并作出其数量估计。7.方差分析避免的问题;1) j检验过程繁琐2) 无统一的试验误差,误差估计的精确性和检验的灵敏性低3) 推断的可靠性降低,犯错误的概率增加8.方差分析的基本假定:正态性、可加性、方差同质性9.数据转换:平方根转换、对数转换、反正弦转换、倒数转换样本所来自的总体和方差分析基本假定相抵触,这些数据必须进行适当的数据转换10.方差分析的概念、基本思想、一般步骤1)方差分析是对两个或多个样本平均数差异显著性检验的
21、方法。(2)方差分析的基本思想是将测量数据的总变异按照变异来源分为处理效应和误差效应,并作出数量估计,在一定显著水平下进行比较,从而检验处理效应是否显著。(3)方差分析的基本步骤如下:a.将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度。b.列方差分析表进行F检验,分析各变异因素在总变异中的重要程度。c.若F检验显著,对个处理平均数进行多重比较。11.多重比较(1)多个平均数两两间的相互比较称为多重比较。(2)多重比较常用的方法有最小显著差数法和最小显著极差法,其中最小显著极差法又有新复极差检验和q检验法。(3)多重比较的结果常以标记字母法和梯形法表示。标记字母法是将全部平均数从大
22、到小依次排列,然后再最大的平均数上标字母a,将该平均数与以下各平均数相比,凡相差不显著的都标上字母a,直至某个与之相差显著的则标以字母b。再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较,凡差数不显著的继续标以字母b,直至差异显著的平均数标以字母c,再与上面的平均数比较。如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。这样各平均数间,凡有一个相同标记的字母即为差异不显著,凡具不同标记的字母即为差异显著。差异极显著标记方法同上,用大写字母标记。梯形法是将各处理的平
23、均数差数按梯形列于表中,并将这些差数进行比较。差数LSD(LSR)0.05说明处理平均数间的差异达到显著水平,在差数的右上角标上“*”号;差数LSD(LSR)0.01说明处理平均数间的差异达到极显著水平,在差数的右上角标上“*”号。差数 LSD(LSR)0.05,说明差异不显著。第七章相关系数的显著性检验 上述根据实际观测值计算得来的相关系数r是样本相关系数, 它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,还须对样本相关系数r 进行显著性检验。 此 时 无 效 假 设、备 择 假 设 为HO:=0,HA:0。 与直线回归关系显著性检验一样,可采用t检验法与F检验法
24、对相关系数r的显著性进行检验。 1.回归分析:用来研究呈因果关系的相关变量间的关系的统计分析方法,其中表示原因的变量为自变量,表示结果的变量为因变量。2.回归截距是当自变量为零时,因变量的取值,即回归线在y轴上的截距;3.回归系数是回归直线的斜率,其含义是自变量改变一个单位,因变量y平均增加或减少的单位数。4.相关分析:相关分析是用来研究呈平行关系的相关变量之间的关系的统计方法。5.相关系数表示变量x与变量y相关的程度和性质,6.决定系数是相关系数的平方,表示变量x引起y变异的回归平方和和占y变异总平方和的比率,它只能表示相关的程度而不能表示相关的性质。第八章对于同一组实测数据,根据散点图的形
25、状,可用若干相近的曲线拟合,同时建立若干曲线回归方程,然后根据R2的大小和生物学等相关专业知识,选择即符合生物学规律,拟合度又较高的曲线回归方程来描述两个变量间的曲线回归关系第九章1.抽样调查中必须考虑的重点问题:抽样误差,样本容量以及抽样方法2.生物学领域常用的抽样方法:随机抽样,顺序抽样,典型抽样3.平均数资料样本容量的确定: 样本容量的确定第十章1.区间实验:在田间条件下对作物品种选育及遗传规律与栽培技术等方面进行的试验。2.真值:一定时刻,一定位置,一定状态下某量得程度所体现出来的客观值或实际值。3.准确度:指在实验中某一实验指标或性状的观测值接近的程度。4.精确度:指在实验中同一实验
26、指标或性状的重复观测值很大接近的程度。5因素:也叫供试因子,在试验中所研究的对试验指标有影响的各种技术措施。例如:品种、密度6.水平:试验因素的质的不同状态或量得不同等级(因素内划分的不同等级)7.处理:实际参加试验的试验因素水平或不同因素的实验水平组合。在单因素试验中指各个因素的试验的水平。在所有因素试验中指不同因素水平的组合。8试验设计三个基本要素:包括处理因素、受试对象和处理效应9.田间试验的类型:一)按试验研究内容划分:品种、栽培、土壤肥料、病虫害防治二)按试验因素划分:单因素试验、多因素试验、综合性试验单因素试验:指在整个试验中只重复比较一个试验因素不同水平,其他作为试验条件的因素均
27、应该严格控制一致的试验。多因素试验:指同一试验中包含两个或两个以上的试验因素,各因素又分为不同水平,其他试验条件均应该严格控制一致的试验。综合性试验:是在较大面积上运用成套的生产栽培技术措施,从中探索高产、稳产、低成本、综合栽培技术的效应三)按试验小区大小划分:小区试验、大区试验小区:在田间试验中,安排一个处理的小块地段称为试验小区。区组:将全部处理分配于具有相对同质的一块土地上,称为一个区组,包括完全区组和不完全区组。10试验方案:按试验目的要求所拟定的进行比较的一组试验处理的总称。11.试验指标:试验中用来衡量各种处理效果的好坏的指标,如产品的产量、品质。通常指作物产量经济性状,包括定性指
28、标和定量指标。定量指标:可以直接用来表示数量的指标。定性指标:不能直接用数量来表示,只能定性描述的指标。12.均衡方案:方案内包含有全部的处理组的方案称为均衡方案;方案内只有部分处理组的方案则称为非均衡方案。13.对照:用来与试验处理进行比较的处理。14.唯一差异原则:指除处理以外,其他条件应该完全一致。15试验效应:试验因素的独立作用,即因素对试验指标所起的增加或减少的作用。16.简单效应:同一因素不同水平之间试验效应的差异。17.平均效应:(主效应):同一因素内各个简单效应的平均数。18.互作(交互作用):两个或两个以上因素相互作用所引起的效应或两个因素简单效应间的差异。19.三原则:重复
29、、随机和局部控制) 重复:同一处理所放置的试验单元数,即同一处理种植的小区数) 随机:每一重复的每一处理都有同等的机会放在任何一个试验小区上。) 局部控制:将整个试验空间分成若干个各自相对均匀的局部(区组)20.生物试验基本要求:1) 试验目的要明确2) 试验条件要有代表性3) 试验结果要可靠4) 试验结果要能重演21.试验误差:试验中观测值与理论值之间的偏差,包括粗大误差、系统误差、随机误差。 粗大误差:由不正确的操作所引起的误差。 系统误差:由试验仪器、条件、设备、工具等原因所照成的各个观测值具有一定规律性变化的误差。 随机误差:由多种偶然的无法控制的因素所引起的误差。试验误差来源:1)实
30、验材料固有的差异2)试验条件不一致3)操作技术不一4)偶然性因素影响控制试验误差的途径:1)选择纯合一致的试验材料2)改进操作管理制度,使之标准化 3)精心选择试验单位4)采用合理的实验设计和统计分析22.边际效应:小区两边或两端的植株因有较大的空间而表现出的生长优势23生长竞争:由于相邻小区所加处理不同(如种植不同作物或施肥水平不同)造成边行植物与中间植株生长发育不一致的现象。24.保护行:为了使试验在较为均匀的环境下安全进行,在试验地周围种植同种作物品种的保护地段。25.完全区组:重复和区组数目相等,每一区组或重复都安排全套处理26.不完全区组:一个重复安排在几个区组上,每个区组只安排部分处理27主区:按照处理划分的小区。 副区:主区内按各副区划分的小区。28.试验设计:试验设计包括广义的试验设计和狭义的试验设计。广义的试验设计是指整个研究课题的设计,包括试验方案的拟订,试验单位的选择,分组的排列,试验过程中试验指标的观察记载,试验资料的整理,分析等内容;而狭义的试验设计则仅是指试验单位的选择,分组与排列方法。生物统计学中的试验设计主要指狭义的试验设计。29.名词解释:处理、处理效应、主效应、互作处理:是指对