1、应用统计应用统计第一章:统计数据的采集和整理第一章:统计数据的采集和整理统统计计数数据据的的分分类类初级数据与次级数据初级数据与次级数据初级数据:如果数据分析和数据采集置于初级数据:如果数据分析和数据采集置于同一整体方案指导下,从同一整体方案指导下,从原始数据的载体或提原始数据的载体或提供者供者那里采集数据,继而进行分析,就称统计那里采集数据,继而进行分析,就称统计分析使用的是分析使用的是初级数据初级数据。次级数据:如果进行分析时数据来自次级数据:如果进行分析时数据来自本项统本项统计活动之外的数据采集和编辑结果计活动之外的数据采集和编辑结果,就称统计,就称统计分析使用的是分析使用的是次级数据次
2、级数据。如:研究收入与教育、职业、家庭等因素的关如:研究收入与教育、职业、家庭等因素的关系。系。统统计计数数据据的的分分类类截面数据与时间序列数据截面数据与时间序列数据截面数据截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况描述现象在某一时刻的变化情况比如,比如,2003年我国各地区的国内生产总值数据年我国各地区的国内生产总值数据时间序列数据时间序列数据(time series data)在不同时间上收集到的数据在不同时间上收集到的数据描述现象随时间变化的情况描述现象随时间变化的情况比如,比
3、如,1996年至年至2003年国内生产总值数据年国内生产总值数据统统计计数数据据的的分分类类 质别质别数据和量别数据数据和量别数据标志标志(attribute)表示总体单位属性的名词。表示总体单位属性的名词。数量标志数量标志(quantitative attribute)表现为数量表现为数量上不等的标志。上不等的标志。品质标志品质标志(qualitative attribute)表现为状态表现为状态上差异的标志。上差异的标志。质别数据量别数据标志数量标志质量标志数据质别数据量别数据非数值型数值型离散型数值型离散型连续型中国统计年中国统计年中国统计年中国统计年鉴鉴鉴鉴20012001中中中中国国
4、国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社统统计计数数据据的的采采集集政府、行业或者个人已经公布或出版政府、行业或者个人已经公布或出版的各种数据的各种数据1.统统计计部部门门和和政政府府部部门门公公布布的的有有关关资资料料,如如各各类类统统计计年鉴年鉴2.各各类类经经济济信信息息中中心心、信信息息咨咨询询机机构构、专专业业调调查查机机构构等提供的数据等提供的数据3.
5、各类专业期刊、报纸、书籍所提供的资料各类专业期刊、报纸、书籍所提供的资料4.各各种种会会议议,如如博博览览会会、展展销销会会、交交易易会会及及专专业业性性、学术性研讨会上交流的有关资料学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料6.专专门门的的数数据据公公司司,如如A.C.尼尼尔尔森森(A.C.Nielsen)公公司、信息资源司、信息资源(Information Resources Inc.)公司。公司。InternetInternethttp/http/WWW.WWW.统统计计数数据据的的采采集集统计调查统计调查统计调查分为普查和抽查统计调
6、查分为普查和抽查普查(全面调查),是对总体无一遗漏地进普查(全面调查),是对总体无一遗漏地进行调查。行调查。抽查(抽样调查),从总体中抽取部分样本抽查(抽样调查),从总体中抽取部分样本进行调查。按抽样方式不同分为随机调查和进行调查。按抽样方式不同分为随机调查和非随机调查。非随机调查。统计调查的工具统计调查的工具问卷问卷调查卷调查卷总体总体总体总体随机样本随机样本随机样本随机样本 统统计计数数据据的的采采集集实验实验通过实验方法得到的数据通过实验方法得到的数据通常是对自然现象而言通常是对自然现象而言 也被广泛运用到社会科学中也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等如心理
7、学、教育学、社会学、经济学、管理学等试验设计试验设计对照原则对照原则齐同原则齐同原则随机原则随机原则观察研究观察研究统统计计数数据据的的整整理理和和表表述述质别数据的整理和表述质别数据的整理和表述质别数据分组是按品质标志将总体划分为若干个质别数据分组是按品质标志将总体划分为若干个组,然后将每一个体按其标志表现归入一组组,然后将每一个体按其标志表现归入一组.频数分布表频数分布表(frequency distribution table)(组别组别栏、频数栏,相对频数栏栏、频数栏,相对频数栏)例:根据例:根据饮料文摘饮料文摘,“古典可乐古典可乐”(Coke Classic)、健怡)、健怡可乐(可乐
8、(Diet Coke)、)、彭伯碳酸饮彭伯碳酸饮料(料(Dr.Pepper)、)、百事可乐(百事可乐(Pepsi-Cola)、)、以以及雪碧(及雪碧(Sprite)是销售量居前五位的软饮料是销售量居前五位的软饮料(华尔街日报华尔街日报,1998),下表是所选择的购),下表是所选择的购买买50次的软饮料的样本次的软饮料的样本绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品统统计计数数据据的的整整理理和和表表述述统统计计数数据据的的整整理理和和表表述述品质标志频数相对频数质别数据频数分布表质别数据频数分布表统统计计数数据据的的整整理理和和表表述述质别数据的图形表示质别数据的图形表示19981998
9、年京津沪三直辖市的进出口值年京津沪三直辖市的进出口值直辖市直辖市进出口值进出口值出口值出口值进口值进口值北京市北京市305.17305.17105.23105.23199.94199.94天津市天津市106.14106.1454.9954.9951.1551.15上海市上海市313.44313.44159.56159.56153.88153.88其他的图形表示其他的图形表示统统计计数数据据的的整整理理和和表表述述 量别数据的整理量别数据的整理-频数分组频数分组单项式分组单项式分组单项式分组是作为分组的数量标志的每一个具单项式分组是作为分组的数量标志的每一个具体标志都列为一个组的分组办法体标志都
10、列为一个组的分组办法单项式分组的适用条件单项式分组的适用条件分组的标志值个数少分组的标志值个数少只能对离散型变量进行分组只能对离散型变量进行分组组距式分组组距式分组总体按数量标志分组以后,每个组用两个标志总体按数量标志分组以后,每个组用两个标志值所决定的区间来表示值所决定的区间来表示组距式分组的几个问题组距式分组的几个问题统统计计数数据据的的整整理理和和表表述述统统计计数数据据的的整整理理和和表表述述1.组数(通常组数(通常515组组,原则上组内频数原则上组内频数不少于不少于5个个,两端除外两端除外)通常通常515组组,原则上组内频数不少于原则上组内频数不少于5个个,两端除外两端除外两个参考公
11、式两个参考公式:例例:N=62,K=7.统统计计数数据据的的整整理理和和表表述述统统计计数数据据的的整整理理和和表表述述2.组距组距全距全距=总体中个体最大值总体中个体最大值-个体最小值个体最小值组距组距=例:全距例:全距=135-78=57,组距组距=57/7=8.14,组组距取为距取为10统统计计数数据据的的整整理理和和表表述述3.组限组限a,b).a a,b).a 代表下限,代表下限,b b 代表上限代表上限规定重叠的数值归于后一组的下限规定重叠的数值归于后一组的下限组距组距=上限上限-下限下限缺上限或缺下限称为开口组缺上限或缺下限称为开口组智商分数的组限为智商分数的组限为7070,80
12、)80),80,90)80,90),,130,140),130,140)等距分组和不等距分组等距分组和不等距分组统统计计数数据据的的整整理理和和表表述述4.4.组中值组中值组中值组中值=(上限(上限+下限)下限)/2/2智商分数例的组中值为智商分数例的组中值为(70+80)/2=7570+80)/2=75,8585,9595,105105,115115,125125,135135缺上(下)限开口组组中值缺上(下)限开口组组中值=上(下)限上(下)限 -(+)相邻组组距)相邻组组距/2/2统计数列(统计数列(截面数列截面数列和时序数列)和时序数列)次数分布的概念次数分布的概念在统计分组的基础上,
13、将总体中所有单位按组在统计分组的基础上,将总体中所有单位按组划分整理,形成总体单位在各组间的分布划分整理,形成总体单位在各组间的分布截面数列放映总体中各单位在各组间的分配状截面数列放映总体中各单位在各组间的分配状态和分布特征态和分布特征截面数列的两个要素截面数列的两个要素:分组标志表现分组标志表现,各组的频各组的频数数各组的相对频数各组的相对频数=各组的频数各组的频数/频数总和频数总和统统计计数数据据的的整整理理和和表表述述表表1.4 621.4 62人皮尔逊智商分数频数分布表人皮尔逊智商分数频数分布表分数分数频数(人)频数(人)相对频数(相对频数(%)708070802 23.22 3.22
14、 809080907 711.29 11.29 9010090100101016.13 16.13 100110100110161615.81 15.81 110120110120141422.58 22.58 120130120130101016.13 16.13 1301401301403 34.84 4.84 合计合计6262100.00 100.00 总体成分总体结构截面数列的种类截面数列的种类品质数列品质数列变量数列变量数列频数密度频数密度频数密度频数密度=频数频数/组距组距例:某地人口年龄分组频数分布表例:某地人口年龄分组频数分布表统统计计数数据据的的整整理理和和表表述述年龄年龄人
15、数(万人)人数(万人)组距宽度(年)组距宽度(年)频数密度频数密度01545153.00155078352.235011227620.44合计合计150累计频数分布累计频数分布累计频数(向上和向下累计)和累计频率累计频数(向上和向下累计)和累计频率统统计计数数据据的的整整理理和和表表述述分数分数人数(人)人数(人)比重比重(%)向上累计向上累计向下累计向下累计人数(人)人数(人)比重比重(%)人数(人)人数(人)比重比重(%)708070802 23.22 3.22 23.2262100.00809080907 711.29 11.29 914.516096.78901009010010101
16、6.13 16.13 1930.645385.49100110100110161615.81 15.81 3556.454369.36110120110120141422.58 22.58 4979.032743.55120130120130101016.13 16.13 5995.161320.971301401301403 34.84 4.84 62100.0034.84合计合计62100.00The manager of Hudson would like to get a better picture of the distribution of costs for engine tu
17、ne-up parts.A sample of 50 customer invoices has been taken and the costs of parts,rounded to the nearest dollar,are listed below.Example:Hudson Auto RepairnFrequency DistributionIf we choose six classes:Approximate Class Width=(109-52)/6=9.5 10Cost($)Frequency 50-59 2 60-69 13 70-79 16 80-89 7 90-9
18、9 7100-109 5 Total 50Example:Hudson Auto RepairnDot Plot .50 60 70 80 90 100 11050 60 70 80 90 100 110 .Cost($)Cost($)Example:Hudson Auto RepairExample:Hudson Auto RepairCumulative Cumulative Cumulative Relative PercentCost($)Frequency Frequency Frequency 59 2 .04 4 69 15 .30 30 79 31 .62 62 89 38 .
19、76 76 99 45 .90 90 109 50 1.00 100 统统计计图图(Statistical Chart)直方图直方图我我一一眼眼就就看看出出来来了了,智智商商分分数数在在100100110110之之间间的的人人数数最最多多!频数多边形频数多边形统统计计图图(Statistical Chart)例:某工厂装配车间对例:某工厂装配车间对22名工人装配一种部件的时间名工人装配一种部件的时间进行了调查。后来,部件的设计改进了,相应地缩短进行了调查。后来,部件的设计改进了,相应地缩短了装配时间,生产规模扩大了,再次对装配时间进行了装配时间,生产规模扩大了,再次对装配时间进行调查,观察人数
20、为调查,观察人数为59人,新老部件装配时间频数分布人,新老部件装配时间频数分布表如下:表如下:统统计计图图(Statistical Chart)图形说明图形说明:新部件装配时间的分布中心比老部件的低(前者总耗用低)新部件装配时间的分布中心比老部件的低(前者总耗用低)新部件的装配时间较为离散(工人间熟练程度差距变大)新部件的装配时间较为离散(工人间熟练程度差距变大)新部件较老部件略偏(少数工人较熟练)新部件较老部件略偏(少数工人较熟练)新部件装配时间更尖顶(新部件装配中部水平者更多)新部件装配时间更尖顶(新部件装配中部水平者更多)统统计计图图(Statistical Chart)累计频数曲线累计
21、频数曲线统统计计图图(Statistical Chart)频数曲线与分布形态频数曲线与分布形态中央集中分布中央集中分布统统计计图图(Statistical Chart)其他形态分布其他形态分布U型分布J型分布反J型分布统统计计图图(Statistical Chart)对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布统统计计图图(Statistical Chart)茎叶图茎叶图例:例:62人皮尔逊智商分数人皮
22、尔逊智商分数统统计计图图(Statistical Chart)62人皮尔逊智商分数茎叶图人皮尔逊智商分数茎叶图频数茎叶27899802466781990013456899(16)10012223445567778927110001123455778913120234455899313125用用Minitab得到的得到的62人人皮尔逊智商分数茎叶图皮尔逊智商分数茎叶图统统计计图图(Statistical Chart)SCORE Stem-and-Leaf Plot Frequency Stem&Leaf 2.00 7.89 7.00 8.0246678 10.00 9.0013456899 16
23、.00 10.0122234455677789 14.00 11.00011234557789 10.00 12.0234455899 3.00 13.125 Stem width:10 Each leaf:1 case(s)SPSS得到的茎叶图得到的茎叶图1.用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布2.由由“茎茎”和和“叶叶”两两部部分分构构成成,其其图图形形是是由数字组成的由数字组成的3.以以该该组组数数据据的的高高位位数数值值作作树树茎茎,低低位位数数字字作树叶作树叶4.树叶上只保留一位数字树叶上只保留一位数字5.对对于于n(20 n 300)个个数数据据,茎茎叶叶图
24、图最最大大行数不超过行数不超过 L=10 lg n 统统计计图图(Statistical Chart)6.茎茎叶叶图图类类似似于于横横置置的的直直方方图图,但但又又有有区区别别直直方方图图可可观观察察一一组组数数据据的的分分布布状状况况,但但没没有给出具体的数值有给出具体的数值茎茎叶叶图图既既能能给给出出数数据据的的分分布布状状况况,又又能能给给出出每每一一个个原原始始数数值值,保保留留了了原原始始数数据据的的信信息息统统计计图图(Statistical Chart)例:例:47种高风险共同基金在三年内的年回种高风险共同基金在三年内的年回报率报率统统计计图图(Statistical Chart)1-221-223-1203-1207-053207-05320150011466881500114668819133571913357(11)223346889999(11)22334688999917305678917305678911423579911423579955485548363836381717186186用用Minitab得到的得到的47只高风险共同基金三年内回报率茎叶图只高风险共同基金三年内回报率茎叶图统统计计图图(Statistical Chart)