1、应用统计应用统计第四章:抽样与抽样分布第四章:抽样与抽样分布抽样的基本概念抽样的基本概念抽样调查的特点抽样调查的特点经济性经济性时效性时效性必要性必要性抽样所需样本必需要有代表性抽样所需样本必需要有代表性例:例:文学摘要文学摘要杂志的停刊杂志的停刊Gallup(http:/ Literary Digest(文学摘文学摘要要)杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统是挑战者,堪萨斯州州长是挑战者,堪萨斯州州长Alf Landon,还是现任总统还是现任总统 Franklin Delano Roosevelt。为了解选民意向,民意调
2、查专家们根据电话为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在车在1936年并不像现在那样普及,但是这些名单比较容易得到)。年并不像现在那样普及,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,的调查表中,Alf Landon非常受欢迎。于是该杂志预测非常受欢迎。于是该杂志预测 Landon 将赢得选举。但事实上是将赢得选举。但事实上是Franklin Roosevelt赢得了
3、这次选举赢得了这次选举在经济大萧条时期调查有电话和汽车的人们,并不能够反映全体选在经济大萧条时期调查有电话和汽车的人们,并不能够反映全体选民的观点。此外,只有少数的问卷被收回。这些都是值得怀疑的民的观点。此外,只有少数的问卷被收回。这些都是值得怀疑的抽样方法抽样方法简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样概率抽样概率抽样方便抽样方便抽样判断抽样判断抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样配额抽样非概率抽样非概率抽样抽样方式抽样方式概率抽样概率抽样1.根根据据一一个个已已知知的的概概率率来来抽抽取取样样本本单单位位,也也称随机抽样称随机
4、抽样.2.特点特点按一定的概率以随机原则抽取样本按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中抽取样本时使每个单位都有一定的机会被抽中每每个个单单位位被被抽抽中中的的概概率率是是已已知知的的,或或是是可可以以计计算出来的算出来的 当当用用样样本本对对总总体体目目标标量量进进行行估估计计时时,要要考考虑虑到到每个样本单位被抽中的概率每个样本单位被抽中的概率简单随机抽样简单随机抽样1.从从总总体体N个个单单位位中中随随机机地地抽抽取取n个个单单位位作作为为样样本本,使使得得每每一一个个容容量量为为n样样本本都都有有相相同同的的机机会会(概概率率)被被抽抽中中 2.抽取元素的
5、具体方法有重复抽样和不重复抽样抽取元素的具体方法有重复抽样和不重复抽样3.特点特点简单、直观,在抽样框完整时,可直接从中抽取样本简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便用样本统计量对目标量进行估计比较方便4.局限性局限性当当N很大时,不易构造抽样框很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率没有利用其他辅助信息以提高估计的效率简单随机抽样简单随机抽样【例】某公司想从某公司想从某公司想从某公司想从800800800800名专职雇员中抽取一个由名专职雇员中抽取一个由名
6、专职雇员中抽取一个由名专职雇员中抽取一个由32323232名专职雇员组成的样本,来获得有关公司发名专职雇员组成的样本,来获得有关公司发名专职雇员组成的样本,来获得有关公司发名专职雇员组成的样本,来获得有关公司发起的护牙计划支出情况的信息。公司认为,并起的护牙计划支出情况的信息。公司认为,并起的护牙计划支出情况的信息。公司认为,并起的护牙计划支出情况的信息。公司认为,并非每个人都愿意回答问卷,因此他们必须寄多非每个人都愿意回答问卷,因此他们必须寄多非每个人都愿意回答问卷,因此他们必须寄多非每个人都愿意回答问卷,因此他们必须寄多于于于于32323232份的问卷才能获得想要的份的问卷才能获得想要的份
7、的问卷才能获得想要的份的问卷才能获得想要的32323232份答案。假设份答案。假设份答案。假设份答案。假设平均每平均每平均每平均每10101010个专职雇员中有个专职雇员中有个专职雇员中有个专职雇员中有8 8 8 8人愿意回答调查问卷人愿意回答调查问卷人愿意回答调查问卷人愿意回答调查问卷(即(即(即(即80808080的回答率),就必须抽取总数为的回答率),就必须抽取总数为的回答率),就必须抽取总数为的回答率),就必须抽取总数为40404040个个个个雇员的样本才能得到想要的雇员的样本才能得到想要的雇员的样本才能得到想要的雇员的样本才能得到想要的32323232份回答。因此,份回答。因此,份回
8、答。因此,份回答。因此,要从公司的个人档案中抽取要从公司的个人档案中抽取要从公司的个人档案中抽取要从公司的个人档案中抽取40404040名专职雇员。在名专职雇员。在名专职雇员。在名专职雇员。在实际工作中,该怎样进行简单随机抽样?实际工作中,该怎样进行简单随机抽样?实际工作中,该怎样进行简单随机抽样?实际工作中,该怎样进行简单随机抽样?系统抽样(等距抽样)1.将将总总体体中中的的所所有有单单位位(抽抽样样单单位位)按按一一定定顺顺序序排排列列,在在规规定定的的范范围围内内随随机机地地抽抽取取一一个个单单位位作作为为初初始始单单位位,然然后后按按事事先先规规定定好好的的规规则则确确定定其其他他样本
9、单位样本单位先先从从数数字字1到到k之之间间随随机机抽抽取取一一个个数数字字r作作为为初初始始单单位位,以后依次取以后依次取r+k,r+2k等单位等单位2.优点:操作简便,可提高估计的精度优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难缺点:对估计量方差的估计比较困难4.【例例】续上例续上例分层抽样1.将将总总体体单单位位按按某某种种特特征征或或某某种种规规则则划划分分为为不不同同的的层层(类类),然然后后从从不不同同的的层层中中独独立立、随随机机地地抽取样本抽取样本2.原则:层间差异较大,而层内差异较小原则:层间差异较大,而层内差异较小3.优点优点保保证证样样本本的的结结
10、构构与与总总体体的的结结构构比比较较相相近近,从从而而提提高高估估计的精度计的精度组织实施调查方便组织实施调查方便既既可可以以对对总总体体参参数数进进行行估估计计,也也可可以以对对各各层层的的目目标标量量进行估计进行估计分层抽样分层抽样【例例例例】假设某大学的商学院想对今年的毕业生进行一次假设某大学的商学院想对今年的毕业生进行一次假设某大学的商学院想对今年的毕业生进行一次假设某大学的商学院想对今年的毕业生进行一次调查,以便了解他们的就业倾向。该学院有调查,以便了解他们的就业倾向。该学院有调查,以便了解他们的就业倾向。该学院有调查,以便了解他们的就业倾向。该学院有5 5个专业:个专业:个专业:个
11、专业:会计,金融,市场营销,经营管理,信息系统。今年共会计,金融,市场营销,经营管理,信息系统。今年共会计,金融,市场营销,经营管理,信息系统。今年共会计,金融,市场营销,经营管理,信息系统。今年共有有有有15001500名毕业生,其中会计专业名毕业生,其中会计专业名毕业生,其中会计专业名毕业生,其中会计专业500500名,金融专业名,金融专业名,金融专业名,金融专业350350名,名,名,名,市场营销专业市场营销专业市场营销专业市场营销专业300300名,经营管理专业名,经营管理专业名,经营管理专业名,经营管理专业150150名,信息系统专名,信息系统专名,信息系统专名,信息系统专业业业业2
12、00200名。假定要选取名。假定要选取名。假定要选取名。假定要选取180180人作为样本,各专业应抽取的人作为样本,各专业应抽取的人作为样本,各专业应抽取的人作为样本,各专业应抽取的人数分别为:会计专业人数分别为:会计专业人数分别为:会计专业人数分别为:会计专业6060人,金融专业人,金融专业人,金融专业人,金融专业6262人,市场营销人,市场营销人,市场营销人,市场营销专业专业专业专业3636人,经营管理专业人,经营管理专业人,经营管理专业人,经营管理专业1818人,信息系统人,信息系统人,信息系统人,信息系统2424人。人。人。人。整群整群抽样抽样1.将将总总体体中中若若干干个个单单位位合
13、合并并为为组组(群群),抽抽样样时时直直接接抽抽取取群群,然然后后对对中中选选群群中中的的所所有有单单位位全全部部实实施施调查调查2.原则:群间差异小,群内差异大。原则:群间差异小,群内差异大。3.特点特点抽样时只需群的抽样框,可简化工作量抽样时只需群的抽样框,可简化工作量调调查查的的地地点点相相对对集集中中,节节省省调调查查费费用用,方方便便调调查查的的实实施施缺点是估计的精度较差缺点是估计的精度较差抽样分布理论抽样分布理论 总体参数总体参数总体平均值总体平均值总体方差总体方差总体标准差总体标准差总体比率总体比率抽样分布理论抽样分布理论样本统计量样本统计量样本平均值样本平均值样本方差样本方差
14、样本标准差样本标准差样本比率样本比率三种不同性质的分布三种不同性质的分布总体分布总体分布样本分布样本分布抽样分布抽样分布总体分布总体分布(population distribution)1.1.总体中各元素的观察值所形成的分布总体中各元素的观察值所形成的分布 2.2.分布通常是未知的分布通常是未知的3.3.可以假定它服从某种分布可以假定它服从某种分布 总体总体总体总体样本分布样本分布(sample distribution)1.1.一个样本中各观察值的分布一个样本中各观察值的分布 2.2.也称经验分布也称经验分布 3.3.当样本容量当样本容量n n逐渐增大时,样本分布逐渐逐渐增大时,样本分布逐
15、渐接近总体的分布接近总体的分布 样样本本抽样分布抽样分布(sampling distribution)1.样本统计量的概率分布,样本统计量的概率分布,是一种理论分布是一种理论分布在重复选取容量为在重复选取容量为n的样本时,由该统计量的所有可的样本时,由该统计量的所有可能取值形成的相对频数分布能取值形成的相对频数分布 2.样本统计量样本统计量是随机变量是随机变量样本均值样本均值,样本比例,样本方差等样本比例,样本方差等3.结果来自结果来自容量相同容量相同的的所有所有可能样本可能样本4.提供了样本统计量长远而稳定的信息,是进行提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学
16、性的重要推断的理论基础,也是抽样推断科学性的重要依据依据 抽样分布的形成过程抽样分布的形成过程(sampling distribution)总体总体计算样本统计计算样本统计计算样本统计计算样本统计计算样本统计计算样本统计量量量量量量如:样本均值、如:样本均值、如:样本均值、比例、方差比例、方差比例、方差样样本本一个总体参数推断时样本一个总体参数推断时样本统计量的抽样分布统计量的抽样分布样本均值的抽样分布样本均值的抽样分布1.在重复选取容量为在重复选取容量为n的样本时,由样本均的样本时,由样本均值的所有可能取值形成的相对频数分布值的所有可能取值形成的相对频数分布2.一种理论概率分布一种理论概率分
17、布3.推断总体均值推断总体均值 的理论基础的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析例题分析)【例例例例】设设设设一一一一个个个个总总总总体体体体,含含含含有有有有4 4个个个个元元元元素素素素(个个个个体体体体),即即即即总总总总体体体体单单单单位位位位数数数数N=N=4 4。4 4 个个个个个个个个体体体体分分分分别别别别为为为为x x1 1=1=1,x x2 2=2=2,x x3 3=3=3,x x4 4=4=4 。总总总总体的均值、方差及分布如下体的均值、方差及分布如下体的均值、方差及分布如下体的均值、方差及分布如下总体分布总体分布总体分布总体分布1 14 42 23 3
18、0 0.1.1.2 2.3.3均值和方差均值和方差均值和方差均值和方差样本均值的抽样分布样本均值的抽样分布(例题分析例题分析)计计算算出出各各样样本本的的均均值值,如如下下表表。并并给给出出样样本本均均值的抽样分布值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)x x样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P(x x)1.51.53.03.04.0
19、4.03.53.52.02.02.52.5样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较(例题分析例题分析)=2.5 2=1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布抽样分布抽样分布P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x样本来自正态分布样本来自正态分布【正态分布再生定理正态分布再生定理】:设:设 为一组为一组随机变量,若它们相互独立,而且都服从正态分布随机变量,若它们相互独立,而且都服从正态分布 ;则服从正态分布;则服
20、从正态分布 。已知时,样本均值的抽样分布已知时,样本均值的抽样分布【正态分布再生定理正态分布再生定理】:如果容量为如果容量为n的随机样本抽自的随机样本抽自平均数为平均数为u方差为方差为 的正态分布总体,则样本平均的正态分布总体,则样本平均数数 也服从也服从正态正态分布,该分布的期望值为分布,该分布的期望值为 ,方差为方差为 。当当N远远大于远远大于n时,即时,即时,也可将不退还抽样看作退还抽样时,也可将不退还抽样看作退还抽样。其中其中已知时,样本均值的抽样分布已知时,样本均值的抽样分布样本来自非正态总体样本来自非正态总体【中心极限定理中心极限定理】设设 为一组随机变为一组随机变量,若它们相互量
21、,若它们相互独立,而且具有相同分布;期望独立,而且具有相同分布;期望,方差方差 ;则服从;则服从正态正态分布分布 。【注】对任意分布形态的平均数为对任意分布形态的平均数为u,方差为方差为 的总体进行随机抽样,只要样本容量足够大的总体进行随机抽样,只要样本容量足够大(n3030)则样本平均数抽样分布逼近期望值则样本平均数抽样分布逼近期望值 为为 ,方差为,方差为 的的正态正态分布分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布其中通常把通常把n3030作为作为“n很大很大”的标准。样本容量的标准。样本容量n3030称为称为大样本大样本,否则称为,否则称为小样本小样本。
22、中心极限定理中心极限定理 x x 的的的的分分分分布布布布趋趋趋趋于于于于正正正正态态态态分分分分布布布布的过程的过程的过程的过程例题例题1【例例】某类钢制产品的重量,经过多次衡量,某类钢制产品的重量,经过多次衡量,取得有差异的一系列数据,这些数据近似的取得有差异的一系列数据,这些数据近似的服从正态分布,设平均值为服从正态分布,设平均值为2800公斤,方差公斤,方差为为9000公斤。现假定从该总体中抽出容量为公斤。现假定从该总体中抽出容量为10的随机样本。问这个样本的平均重量小于的随机样本。问这个样本的平均重量小于或等于或等于2750公斤的概率为多大?公斤的概率为多大?例题分析例题分析【解解解
23、解】:样本来自于标准差已知的正态分布总体,:样本来自于标准差已知的正态分布总体,:样本来自于标准差已知的正态分布总体,:样本来自于标准差已知的正态分布总体,故抽样分布为正态分布。其中故抽样分布为正态分布。其中故抽样分布为正态分布。其中故抽样分布为正态分布。其中例题例题2【例例】从海外从海外A地区、地区、B地区、和地区、和C地区到货地区到货了了3批大豆批大豆,分别为分别为1000包、包、10000包和包和100000包,已知包,已知3批大豆中平均每包重量都批大豆中平均每包重量都为为100公斤公斤,标准差都是标准差都是4公斤公斤。现从每批中现从每批中都按都按不重复不重复抽样抽取样本容量抽样抽取样本
24、容量n=500包的样包的样本,来测定这本,来测定这3批大豆的每包平均重量,要批大豆的每包平均重量,要求分别标出样本平均重量短秤半公斤的概率求分别标出样本平均重量短秤半公斤的概率。例题分析例题分析解:从A地区大豆抽样的从B地区大豆抽样的例题分析例题分析从C地区大豆抽样的如果不作总体修正,则例题分析例题分析A地区B地区C地区抽样分布与总体分布的关系抽样分布与总体分布的关系总体分布总体分布总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本正态分布正态分布正态分布正态分布非正态分布非正态分布未知时,样本均值的抽样分布未知时,样本均值的抽样分布 总体是正态总体或非正态总总体是正
25、态总体或非正态总体但样本量很大体但样本量很大 未知,总体是正态总体未知,总体是正态总体未知,总体非正态总体且样未知,总体非正态总体且样本量很大本量很大未知,总体非正态总体且样未知,总体非正态总体且样本量很小本量很小分布未知分布未知t分布分布 t-分布分布是由是由W.S.Gosset(1876-1937)于于1908年在一篇署名为年在一篇署名为“student”的论文的论文中首次提出,因此又称为中首次提出,因此又称为“学生氏学生氏”分布分布。设随机变量设随机变量X N(0,1),Y ,且,且X和和Y相互独立,则随机变量相互独立,则随机变量 的分布称的分布称为为自由度自由度为为n的的t-分布,并记
26、为分布,并记为T t(n)t分布分布t -分布分布 是一概率分布簇。是一概率分布簇。某一特定的某一特定的 t 分布依赖于参数分布依赖于参数n,称之为自称之为自由度。由度。随着自由度的增加,随着自由度的增加,t-分布与正态分布之间分布与正态分布之间的差距将会不断减小的差距将会不断减小(n30)。随着自由度的增加,随着自由度的增加,t-分布的离散程度也将分布的离散程度也将减小。减小。t-分布的均值为分布的均值为0,方差为,方差为t分布分布 x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t t不同自由度的不同自由度的t t分布分布标准正态分
27、布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)z zt分布表的使用分布表的使用 【例例】某银行向审计部门报告,其向企业发放的短期贷某银行向审计部门报告,其向企业发放的短期贷款中,未偿还的贷款额近似服从正态分布,平均值为款中,未偿还的贷款额近似服从正态分布,平均值为8.58.5万元,标准差未知。现审计人员为了验证这个报告万元,标准差未知。现审计人员为了验证这个报告结果,随机抽取了结果,随机抽取了2525个项目进行检查,查得平均拖欠贷个项目进行检查,查得平均拖欠贷款额为款额为7.67.6万元,标准差为万元,标准差为1.61.6万元。审计人员所关心的万元。审计人员所关心的
28、问题是,如果总体均值为问题是,如果总体均值为8.58.5万元,那么能抽到的样本万元,那么能抽到的样本其平均值不超过其平均值不超过7.67.6万元的概率有多大?万元的概率有多大?例题分析例题分析解解:由于总体标准差未知:由于总体标准差未知,所以采用,所以采用t分布分布其中,其中,n=25,自由度自由度n-1=24比例比例(proportion)1.总体总体(或样本或样本)中具有某种属性的单位与全中具有某种属性的单位与全部单位总数之比部单位总数之比不同性别的人与全部人数之比不同性别的人与全部人数之比合格品合格品(或不合格品或不合格品)与全部产品总数之比与全部产品总数之比2.总体比例可表示为总体比例
29、可表示为3.样本比例可表示为样本比例可表示为样本比例的抽样分布样本比例的抽样分布1.样本比例的数学期望样本比例的数学期望2.样本比例的标准差样本比例的标准差重复抽样重复抽样不重复抽样不重复抽样样本比例的抽样分布样本比例的抽样分布3.当样本容量很大,即当样本容量很大,即 时,时,由中心极限定理有:由中心极限定理有:例题例题【例例】假定我们已知办公室人员所填写的表假定我们已知办公室人员所填写的表格中有格中有5至少包括一处笔误。如果我们检至少包括一处笔误。如果我们检查一个由查一个由475份表格组成的简单随机样本,份表格组成的简单随机样本,其中至少含一处笔误的表格所占的比例在其中至少含一处笔误的表格所
30、占的比例在3和和7.5%之间的概率有多大?之间的概率有多大?例题分析例题分析解解:由于:由于n较大较大较小,较小,n23.55.所以可用正态近所以可用正态近似处理,认为样本比率的抽样分布服从正态分布似处理,认为样本比率的抽样分布服从正态分布样本方差的抽样分布样本方差的抽样分布对于来自正态总体的简单随机样本,则比值对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为的抽样分布服从自由度为(n-1)的的2分布,即分布,即 2分布分布(2 distribution)1.由由阿阿贝贝(Abbe)于于1863年年首首先先给给出出,后后来来由由海海尔尔墨墨特特(Hermert)和和卡卡皮皮尔尔逊
31、逊(KPearson)分分别别于于1875年年和和1900年推导出来年推导出来2.设设 ,则,则3.令令 ,则,则 Y 服从自由度为服从自由度为1的的 2分布,即分布,即 4.当总体当总体 ,从中抽取容量为,从中抽取容量为n的样本,则的样本,则 2分布分布(性质和特点性质和特点)1.分布的变量值始终为正分布的变量值始终为正 2.分分布布的的形形状状取取决决于于其其自自由由度度n的的大大小小,通通常常为为不不对对称称的的正正偏偏分分布布,但但随随着着自自由由度度的的增增大大逐逐渐渐趋趋于于对对称称 3.期期望望为为:E(2)=n,方方差差为为:D(2)=2n(n为为自自由由度度)4.可可加加性性
32、:若若U和和V为为两两个个独独立立的的 2分分布布随随机机变变量量,U 2(n1),V 2(n2),则则U+V这这一一随随机机变变量量服服从从自由度为自由度为n1+n2的的 2分布分布c c2分布分布(图示图示)选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差s2计算卡方值计算卡方值 2=(n-1)s2/2计算出所有的计算出所有的 2值值不同容量样本的抽样分布不同容量样本的抽样分布不同容量样本的抽样分布不同容量样本的抽样分布 2 2 2 22 2n n=1=1n n=4=4n n=10=10n n=20=20 s s s s总体总体 样本统计量的抽样分布样本统计量的
33、抽样分布 (两个总体参数推断时两个总体参数推断时两个总体参数推断时两个总体参数推断时)两个样本均值之差的抽样分布两个样本均值之差的抽样分布两个样本比例之差的抽样分布两个样本比例之差的抽样分布 两个样本方差比的抽样分布两个样本方差比的抽样分布两个样本均值之差的抽样分布两个样本均值之差的抽样分布1.两个两个独立独立总体都为正态分布,即总体都为正态分布,即 ,2.两两个个样样本本均均值值之之差差 的的抽抽样样分分布布服服从从正正态态分分布,其分布的数学期望为两个总体均值之差布,其分布的数学期望为两个总体均值之差3.方差为各自的方差之和方差为各自的方差之和 两个样本均值之差的抽样分布两个样本均值之差的
34、抽样分布 1 1s s s s 1 1总体总体1s s s s 2 2 2 2总体总体2抽取简单随机样抽取简单随机样样本容量样本容量 n1计算计算x1抽取简单随机样抽取简单随机样样本容量样本容量 n2计算计算x2计算每一对样本计算每一对样本的的x1-x2所有可能样本所有可能样本的的x1-x2 1 1-2 2抽样分布抽样分布抽样分布抽样分布例题例题【例例】一个市场分析人员研究顾客在甲乙一个市场分析人员研究顾客在甲乙2个不同类个不同类型的食品杂货店中所花费的时间,他在每个商店型的食品杂货店中所花费的时间,他在每个商店中各观察了一个由中各观察了一个由75人组成的样本,发现商店甲人组成的样本,发现商店
35、甲的顾客所花费的平均时间为的顾客所花费的平均时间为55分钟,商店乙的顾分钟,商店乙的顾客所花的平均时间为客所花的平均时间为49分钟。假定甲乙分钟。假定甲乙2个商店的个商店的顾客所花费平均时间的真值无差别,且标准差对顾客所花费平均时间的真值无差别,且标准差对每个总体来说都是每个总体来说都是15分钟,问观察到样本差大于分钟,问观察到样本差大于或等于或等于6分钟的概率有多大?分钟的概率有多大?例题分析例题分析解解:两样本是相互独立,都服从正态分布。或总体:两样本是相互独立,都服从正态分布。或总体不是正态总体,单位大样本。故均值差的分布为正不是正态总体,单位大样本。故均值差的分布为正态分布,且均值为态
36、分布,且均值为 ,方差为,方差为两个样本比例之差的抽样分布两个样本比例之差的抽样分布1.两个总体都服从二项分布两个总体都服从二项分布2.分分别别从从两两个个总总体体中中抽抽取取容容量量为为n1和和n2的的独独立立样样本本,当当两两个个样样本本都都为为大大样样本本时时,两两个个样样本本比比例例之之差差的的抽抽样分布可用正态分布来近似样分布可用正态分布来近似3.分布的数学期望为分布的数学期望为4.方差为各自的方差之和方差为各自的方差之和 两个样本方差比的抽样分布两个样本方差比的抽样分布1.两两两两个个个个总总总总体体体体都都都都为为为为正正正正态态态态分分分分布布布布,即即即即X X1 1 N N
37、(1 1,1 12 2),X X2 2 N N(2 2,2 22 2)2.从两从两从两从两个总体中分别抽取容量为个总体中分别抽取容量为个总体中分别抽取容量为个总体中分别抽取容量为n n1 1和和和和n n2 2的独立样本的独立样本的独立样本的独立样本3.两两两两个个个个样样样样本本本本方方方方差差差差比比比比的的的的抽抽抽抽样样样样分分分分布布布布,服服服服从从从从分分分分子子子子自自自自由由由由度度度度为为为为(n n1 1-1)-1),分母自由度为分母自由度为分母自由度为分母自由度为(n n2 2-1)-1)的的的的F F分布,即分布,即分布,即分布,即 F分布分布(F distribution)1.由由统统计计学学家家费费希希尔尔(R.A.Fisher)提提出出的的,以以其其姓姓氏氏的第一个字母来命名的第一个字母来命名2.设设若若U为为服服从从自自由由度度为为n1的的 2分分布布,即即U 2(n1),V为为服服从从自自由由度度为为n2的的 2分分布布,即即V 2(n2),且且U和和V相互独立,则相互独立,则3.称称F为服从自由度为服从自由度n1和和n2的的F分布,记为分布,记为F分布分布(图示图示)不同自由度的不同自由度的F分布分布F F F(1,10)1,10)(5,10)(5,10)(10,10)(10,10)
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922