多元统计分析课程设计终稿.doc可修改原格式下载

资源描述

1、山东财经大学统计专业应用多元统计实验报告课程实验报告一、实验内容本文通过分析研究更深一步了解山东省农村居民生活水平。实验中充分利用了回归分析、聚类分析等多种分析手段。先通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势，以及城乡之间的对比；然后利用聚类分析说明了收入支出的地区差异。然后利用回归分析建立了山东省农村居民收入与支出之间的模型，试图寻找出农村居民收入的消费分配现状，即单位收入的支出方向问题。二、实验目的通过本实验主要想达到三个目的：1、利用山东省统计年鉴中有关农村居民收入支出的数据，结合多元统计方法，熟练掌握聚类分析和回归分析的原理

2、及其基本步骤；2、希望通过本次实验充分掌握和运用多元统计分析的统计方法，能够利用基本的统计软件如Eviews、Spss等软件处理分析数据，并对结果作出合理的解释。3、了解近几年来山东省农村居民收入支出的基本状况，其中包括城乡差距问题和居民收入的消费分配问题，进而掌握山东省农村居民的基本生活状况，为我省经济的长远发展提供依据。三、实验方法背景和原理、聚类分析的背景和原理1聚类分析的定义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析，它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”，通俗地说就是相似元素的集合。2聚类的方法分类聚类分析的内容十分丰富，按

3、其聚类的方法可分为以下几种：系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。本文中应用的是系统聚类法：开始每个对象自成一类，然后每次将最相似的两类合并，合并后重新计算新类与其他类的距离或相近性测度，这一过程一直继续直到所有对象归为一类为止。并类的过程可用一张谱系聚类图描述。3.系统聚类法的基本步骤（1）计算n个样品两两间的距离，得样品间的距离矩阵。类与类之间的距离本文应用的是类平均法。所谓类平均法就是：两类样品两两之间平方距离的平均作为类之间的距离，即：采用这种类间距离的聚类方法，称为类平均法。（2）初始（第一步：i=1）n个样本各自构成一类，类的个数k=n，第t类（t=

4、1,2，n）。此时类间的距离就是样品间的距离（即）。（3）对步骤i得到的距离矩阵，合并类间距离最小的两类为一新类。此时类的总个数k减少1类，即k=n-i+1.（4）计算新类与其他类的距离，得新的距离矩阵。若合并后类的总个数k扔大于1，重新步骤（3）和（4）；直到类的总个数为1时转到步骤（5）。（5）画谱系聚类图；（6）决定总类的个数及各类的成员。、回归分析的背景和原理1.回归分析的基本原理回归分析是研究两个或多个变量之间关系的统计分析方法，在实际问题中，因变量 y 往往不是只与一个变量有关，而是和多个变量有关，设（3.1）其中是p+1个未知参数，称为回归常数，称为回归系数，y为被解释变量（

5、因变量），而是p个可以精确测量并可控制的一般变量，称为解释变量（自变量），是随机误差.称E(y)= （3.2）为理论回归方程。对一个实际问题我们获的n组观测数据，则线性回归模型（3.2）可表示为 (3.3)写成矩阵形式为 (3.4)其中最小二乘原理就是求一个参数向量的估计，使得回归的残差平方和函数SSE()取得最小值由微分求极值法及矩阵微商有：得到正规方程组若非退化，则得的最小二乘解 2. 模型的基本假定及检验为了方便进行模型的参数估计，做如下基本假定：.解释变量是确定性变量，不是随机变量.并且要求 rank ( X ) = p + 1 n，它表明设计矩阵是满秩的.对随机误差项假定这个假定

6、称为高斯-马尔科夫条件。.正态分布的假定为对于多元线性回归的矩阵形式这个条件可以表示为由此可以得到）为了验证是否能做到基本假定，所以需要做回归模型的显著性检验：F检验对多元回归方程的显著性检验就是要看自变量从整体上对随机变量y是否有明显的影响，故提出原假设构成F统计量并且称为均方回归和均方误差，他们都是误差项的方差的估计量，但两者的性质有差别。MSR总是得无偏有效估计量，而MSR只当原假设成立时才会是的有效估计量，则将趋于无穷。假设成立时统计量服从自由度（p，n-p-1）的F分布。对事先给定的显著性水平确定临界值或者计算F对应的相伴概率值p。若，就拒绝原假设，认为回归方程显著，自变量与因

7、变量之间存在显著的线性关系。t检验在多元回归中，回归方程显著并不意味着每个自变量对因变量的影响都显著，因此需要对每个系数进行显著性检验故提出原假设由记则因此构造t统计量为，其中是标准回归差。在原假设成立时，统计量服从自由度为n-p-1的t分布。对于给定的显著性水平，查处双侧检验的临界值。当，或者t值所对应的相伴概率值，就拒绝原假设，认为该系数对应的自变量与因变量之间存在显著的线性关系。否则，就接受原假设，认为该自变量与因变量之间不存在显著性的线性关系。拟合优度检验拟合优度检验用与检验回归方程对样本观测值的拟合程度，定义样本决定系数时，就需要对加以修正，理由方差之比得调整后的为在线性回归中越

8、大越好。共线性诊断如何诊断模型是否存在多重共线性，现在还没有一个统一的诊断标准，这里提供一些经验的诊断规则：. 判定系数很高的同时，针对回归系数的t检验统计量的值又偏小. 自变量之间有高度的线性相关关系. 回归方程的很高的同时，因变量与自变量之间的偏相关系数却很低. 特征值、病态指数（条件数）、方差比、膨胀因子、容许度这些统计量都可以用来诊断多重共线性残差分析进行残差分析有两个目的，一是证实关于模型中误差项随机变量的正态性假定；二是检验数据集中可能包含的异常值残差分析是回归分析的最后一项工作，也是最基本的一项工作3.回归模型建立的步骤确定回归方程中的解释变量和被解释变量由于回归分析用于分析一

9、个事物如何随其他事物的变化而变化，因此回归分析的第一步应确定哪个事物是需要被解释的，即哪个变量是被解释变量（记为y）；哪些事物是用于解释其他变量的，即哪些变量是解释变量（记为x）。在多元线性回归分析中，模型中应引入多少解释变量是需要重点研究的。如果引入的解释变量较少，回归方程将无法很好地解释说明被解释变量的变化。但是也并非引入解释变量越多越好，因为这些变量之间可能存在多重共线性。因此要采取一些策略对解释变量引入回归方程加以控制和筛选。在多元的回归分析中并不是所有的变量都对因变量具有显著的影响，因此就存在着挑选自变量的问题，挑选自变量有多种方法：前进法、后退法、逐步筛选法等。这里主要采用后退法挑

10、选自变量。后退法策略是解释变量不断剔除出回归方程的过程。首先，所有的解释变量全部引入回归方程，并对回归方程进行各种检验。然后，在回归系数显著性检验不显著的一个或多个变量中，剔除t检验值最小的解释变量，并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量，并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量的回归系数检验都显著，则回归方程建立结束。否则，按照上述方法再一次剔除最不显著的解释变量，直到再也没有可剔除的解释变量为止确定回归模型根据函数拟合方式，通过观察散点图确定应通过哪种教学模型来概括回归线。如果被解释变量和解释变量之间存在线性关系，则应进行线性回归分析，建

11、立线性回归模型；反之，如果被解释变量和解释变量之间存在非线性关系，则应进行非线性回归分析，建立非线性回归模型。建立回归模型根据手机到样本数据以及上一步所确定的回归模型，在一定得统计拟合准则下估计出模型中的各个参数，得到一个确定的回归方程。对回归方程进行各种检验各种检验方法在前文中已经涉及，在此不在一一说明。利用方程进行回归预测建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。四、实验数据与实验结果、数据的收集和处理通过图书馆查阅资料以及网络查询资料等方式采集了山东省统计年鉴（2010）中有关各市农村居民指标（2009）的数据。分析过程中，一般利用了Eviews,spss等

12、统计软件进行统计分析。农村人均总收入与总支出应用一元线性回归模型分析数据；城乡差异应用折线图来展现；各城市之间的地区差异运用SPSS软件进行聚类分析的处理；消费的不同类别应用因子分析法处理数据并得出结论；收入和支出模型的建立利用了后退法筛选变量并做出回归分析，同时用散点图直观展现其线性关系。、数据分析（一）收入和支出的概况分析（1）收入支出随时间的增长趋势表21-1（a）2000年至2009年山东省农村居民人均总收入年份2000 200120022003200420052006200720082009人均总收入3872.224138.61 4305.774482.155037.525037.5

13、25037.527150.288136.668683.22通过上表信息，利用Eviews进行一元线性回归分析，得到如下结果表21-1（b）人均总收入线性回归结果Dependent Variable: YMethod: Least SquaresDate: 12/09/11 Time: 16:09Sample: 2000 2009Included observations: 10VariableCoefficientStd. Errort-StatisticProb. C2724.857299.55399.0963850.0000X553.163248.2774811.458000.0000R-

14、squared0.942564 Mean dependent var5767.255Adjusted R-squared0.935385 S.D. dependent var1725.057S.E. of regression438.5020 Akaike info criterion15.18146Sum squared resid1538272. Schwarz criterion15.24198Log likelihood-73.90731 F-statistic131.2857Durbin-Watson stat0.479131 Prob(F-statistic)0.000003由表知

15、回归模型为： =2724.857+553.1632,回归模型的斜率是553.1632,表明每增长一年，人均纯收入增加553.1632元。从上表中R-squared为0.942564，说明拟合优度比较高；Prob(F-statistic)为0.000003，说明方程显著地。2724.857所对应的Prob( t-Statistic）为0.0000，在显著性水平0.05的条件下是显著的，回归系数553.1632所对应的Prob( t-Statistic）为0.0000，说明是显著的。山东省农民的收入水平是随着我国经济发展而快速增长的一个过程，以2000年为基期，如图所示，山东农民在 2000

16、年时候的人均纯收入水平是 3872.22元，到 2009 年的时候，山东省农民的人均总收入水平已经达到了 8683.22元。十年间，山东省农民的收入一共增加了 4811.00 元，收入增长了约 2.24倍。总体来讲，山东省农民的收入一直是呈增加的趋势的。年份2000200120022003200420052006200720082009平均每人全年总支出（元）3036.203326.793438.783521.42.3999.234561.275059.485863.216697.387258.17表21-1（c）2000年至2009年山东省农村居民人均总支出及分析结果表21-1（d）人均总

17、支出回归结果Dependent Variable: YMethod: Least SquaresDate: 12/09/11 Time: 16:31Sample: 2000 2009Included observations: 10VariableCoefficientStd. Errort-StatisticProb. C2046.519272.70717.5044580.0001X478.686243.9507210.891430.0000R-squared0.936820 Mean dependent var4679.293Adjusted R-squared0.928923 S.D.

18、dependent var1497.368S.E. of regression399.2023 Akaike info criterion14.99367Sum squared resid1274900. Schwarz criterion15.05419Log likelihood-72.96835 F-statistic118.6233Durbin-Watson stat0.435934 Prob(F-statistic)0.000004由表知回归模型为： =2046.519+478.6862,回归模型的斜率是478.6862,表明每增长一年，人均纯支出增加478.6862元。从上表中R

19、-squared为0.936820，说明拟合优度比较高；Prob(F-statistic)为0.000004，说明方程显著地。2046.519所对应的Prob( t-Statistic）为0.0001，在显著性水平0.05的条件下是显著的，回归系数478.6862所对应的Prob( t-Statistic）为0.0000，说明是显著的。山东省农民的支出水平也是随着我国经济发展而快速增长的一个过程，以2000年为基期，如表所示，山东农民在 2000 年时候的人均总支出水平是3036.20元，到2009年的时候，山东省农民的人均总支出水平已经达到了7258.17元。十年间，山东省农民的收入一共增加

20、了4221.97元，支出增长了约 2.39 倍。总体来讲，山东省农民的收入一直是呈增加的趋势的。（2）收入支出的城乡差异表21-1（d）农村人均总收入总支出年份2000200120022003200420052006200720082009总收入3872.224138.614305.774482.155037.525676.986188.547150.288136.668683.82总支出3036.203326.793438.783521.423999.234561.275090.485863.216697.387258.17表21-1（e）城镇人人均总收入总支出年份2000200120022

21、003200420052006200720082009总收入6521.67141.168158.139057.5810187.1210744.7913222.8515366.2617548.9719336.91总支出5022.005252.425596.436069.356673.757457.318468.49666.6111006.6112012.73由表可知：城镇收入支出和农村收入的变化速度都是随着年份的增加由缓慢逐渐增快，但是城镇明显的收入支出比农村的收入要快，而且随着时间的增加，城镇与农村的差距越来越大，但总体都是增长的较快。（3）收入支出的地区差异这里利用附录中的关于山东省17个地

22、区的收入支出表，进行聚类分析和因子分析，从而得到不同地区之间收入支出的差异和不同的支出指标之间的差异。（一）利用聚类分析处理17个地区之间的收入差异利用spss软件处理得到的结果如下：图4-2 山东省17个市的年纯收入的聚类分析结果RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+13临沂16滨州14德州11日照4枣庄8济宁15聊城17菏泽9泰安5东营12莱芜6烟台7潍坊1济南2青岛10威海3淄博这里，利用SPSS层次聚类的Q型聚类对山东17个市区进行分析。其中，个体距离采用平方欧式距离，类间距离采用组间平均连锁距离

23、，由于数据不存在数量级上的差异，因此无须进行标准化处理。生成的聚类分析树形图如图4-2所示，其他结果略去。通过分析归纳，认为分为三类比较合适，烟台，潍坊，济南，青岛，威海地理位置也是比较近，都位于山东的东北部，之间的地理特点，文化风俗，经济主体相似，都是山东的重要城市，经济发展水平较高。大都是沿海城市，有利于经济的发展，所以收入普遍肩高。淄博年纯收入较高，可以这样解释，淄博是山东乃至全国重要的重化工业基地，工业发展以石油化工、医药、建材、冶金、纺织、机械、陶瓷等行业为骨干，门类齐全，特色鲜明，比较优势突出。，淄博依靠工业发展迅速，经济水平较高，年纯收入较高。（二）利用聚类分析处理17个地区之

24、间的支出差异利用spss软件处理数据得到结果如下：图 4-1 山东省 17个市区各种支出情况的聚类分析结果RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+8济宁13临沂17菏泽4枣庄11日照9泰安12莱芜14德州15聊城16滨州济南1济南5东营6烟台3淄博10威海7潍坊青岛2青岛这里，利用SPSS层次聚类的Q型聚类对山东17个市区进行分析。其中，个体距离采用平方欧式距离，类间距离采用组间平均连锁距离，由于数据不存在数量级上的差异，因此无须进行标准化处理。生成的聚类分析树形图如图4-1所示，其他结果略去。通过分析

25、归纳，分为三类比较合适：济南，东营，烟台，淄博，威海，潍坊为一类，这些地区大致位于山东省的东北部，它们之间联系大，所以经济，文化等相互影响，支出水平差不多。济宁，临沂，菏泽，枣庄，日照，泰安，莱芜，德州，聊城为一类，也可以很好解释，这些地区位于山东省的西南方，比较东部沿海的几个城市有着一定的差距，所以与第一类可以区分开成为另一类。青岛自成一类，青岛市位于沿海，有着较强的地理优势，对经济的发展相当有利，生活水平支出水平较高，在全省比较突出，所以归为一类。二、收入的消费分配回归分析根据山东省统计年鉴（2009年）提供的各地区农村居民家庭平均每人按来源分的纯收入数据，选取总收入和四项收入来源指标作为

26、分配来源我们把Y作为全年纯收入，Y1为工资性纯收入，Y2为家庭经营性纯收入，Y3为财产性纯收入，Y4为转移性收入。再选取 8 个反映消费支出的指标为消费分配的去向：x1食品支出，x2 衣着支出，x3居住支出，x4 家庭设备及服务支出， x5医疗保健支出，x6 交通和通讯支出，x7文教和娱乐用品及服务支出，x8 其他商品及服务支出下面我们将利用后退法分别进行回归分析。全年纯收入Y与各项支出指标之间的回归分析这里利用spss软件处理数据，观测每一步检验的变化情况，并进行残差分析和异常点探测，分析结果如表所示：表22-1（a）多元线性回归分析结果（向后筛选策略）Model SummarygMod

27、elRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.958a.917.835505.520932.958b.917.853476.950813.957c.916.865457.086624.956d.914.874440.813855.953e.907.877436.651166.948f.899.876437.721831.334a. Predictors: (Constant), 其他商品和服务消费, 医疗保健消费, 家庭设备用品消费, 交通和通讯消费, 衣着消费, 居住消费, 文化教育娱乐消费, 食品消

28、费b. Predictors: (Constant), 其他商品和服务消费, 医疗保健消费, 家庭设备用品消费, 交通和通讯消费, 衣着消费, 文化教育娱乐消费, 食品消费c. Predictors: (Constant), 其他商品和服务消费, 医疗保健消费, 交通和通讯消费, 衣着消费, 文化教育娱乐消费, 食品消费d. Predictors: (Constant), 其他商品和服务消费, 医疗保健消费, 交通和通讯消费, 衣着消费, 文化教育娱乐消费e. Predictors: (Constant), 其他商品和服务消费, 医疗保健消费, 交通和通讯消费, 衣着消费f. Predicto

29、rs: (Constant), 其他商品和服务消费, 医疗保健消费, 衣着消费g. Dependent Variable: 全年纯收入表22-1（b）最终方程线性回归检验ANOVAgModelSum of SquaresdfMean SquareFSig.6Regression2.224E737411694.40838.683.000fResidual2490805.22413191600.402Total2.473E716f. Predictors: (Constant), 其他商品和服务消费, 医疗保健消费, 衣着消费g. Dependent Variable: 全年纯收入下表省略了前五步

30、，只留下第六步的最终模型表22-1（c）多元线性回归分析结果CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta6(Constant)4030.718460.7038.749.000衣着消费10.5731.361.9407.766.000医疗保健消费4.6321.322.3333.504.004其他商品和服务消费-18.4665.972-.352-3.092.009a. Dependent Variable: 全年纯收入由上表可知，利用后退法共经过六部完成回归方程的建

31、立，最终模型为第六个模型。模型依次剔除了居住消费、家庭设备用品消费、食品消费和文化教育娱乐消费，保留了衣着消费、医疗保健消费、其他商品和服务消费。由表2-1（b）（c）可知，回归方程显著性检验和最终方程的回归系数显著性检验的概率p值远小于显著水平a（a为0.05），因此三个解释变量和被解释变量间的线性关系显著，其留在模型中是合理的。所以可以得到的最终回归方程为Y=4030.718+10.573*衣着消费+4.632*医疗保健消费-18.466*其他商品和服务消费，即为Y=4030.718+10.573*x2+4.632*x5-18.466*x8。该方程意味着全年纯收入主要与衣着消费，医疗保健消

32、费呈正相关，与其他商品和服务消费呈负相关，可以通过散点图看出，如图22-1（d）。而且从标准化后的方程（Y=0.940*x2+0.333*x5-0.352*x8）可以看出单位收入主要流向了衣着消费（0.94）和医疗保健（0.333），说明农村居民的基本消费趋向还主要停留在自身基本状况的需要上；作为其他商品和服务消费（-0.352），系数为负，说明这项消费远远低于农村居民的基本消费指标。图22-1（d）全年纯收入分别和衣着消费、医疗保健消费、其他商品和服务消费的散点图 2 工资性纯收入Y1、家庭经营性纯收入Y2、财产性纯收入Y3、转移性纯收入Y4与支出各项指标之间的线性回归这里同样利用后退法进

33、行回归分析，利用SPSS软件可以分别得到相应的回归分析结果，并通过后退法回归后，得到其散点图，如下所示：表22-2（a）工资性纯收入与支出指标的回归分析结果CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta7(Constant)625.478365.7561.710.109衣着消费4.525.983.6384.605.000医疗保健消费3.6081.214.4122.971.010a. Dependent Variable: 工资性纯收入 (a1) (a2) 劳动法

34、中的工资是指用人单位依据国家有关规定或劳动合同的约定，以货币形式直接支付给本单位劳动者的劳动报酬，一般包括计时工资、计件工资、资金、津贴和补贴、延长工作时间的工资报酬以及特殊情况下支付的工资等。工资是劳动者劳动收入的主要组成部分。通过观察标准化后的各项数据可知P值小于0.05，所以工资性纯收入与衣着消费，医疗保健消费线性显著;由散点图乐意看出它们之间存在正相关。写出标准化后的回归方程Y1(工资性纯收入)=0.638*x1(衣着)+0.412*x5（医疗保健），一单位的衣着消费需要0.638个单位的工资性纯收入，一单位的医疗保健消费需要0.412个单位的工资性纯收入；工资性收入是农民最主要最基

35、本的收入来源，衣着也是其重要消费方式，当工资提高时，人们会提高对衣着的需求和医疗保健的支出。表22-2（b）家庭经营性纯收入与支出指标的回归分析结果CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta8(Constant)2123.285525.7644.038.001交通和通讯消费2.9981.012.6082.962.010a. Dependent Variable: 家庭经营纯收入 (b) 经营性收入（Operational Income）是指纳税人通过经常性的

36、生产经营活动而取得的收益，即企业在销售货物、提供劳务以及让渡资产使用权等日常活动中所产生的收入，通常表现为现金流入、其他资产的增加或负债的减少。由表可知P值小于0.05，认为家庭经营性收入与交通和通讯消费线性关系显著;由图可以很好看出他们之间成正相关。标准化后的回归方程Y2（经营性收入）=0.608*x6(交通通讯)，增加一单位的交通通讯消费需要0.608个单位的经营性收入；增加一单位的经营性收入用于0.608个单位的交通通讯消费；经营性收入不是农民普遍的收入方式，因为需要一定的成本，并且收入高。他们的生活条件也相应较好，从而会增加享受消费，如度假旅游，购买手机等通讯设备。表22-2（c）财产

37、性纯收入与支出指标的回归分析结果CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta8(Constant)-15.13657.584-.263.796医疗保健消费.913.204.7574.481.000a. Dependent Variable: 财产纯收入 (c) 财产性收入，指通过资本、技术和管理等要素与社会生产和生活活动所产生的收入。即家庭拥有的动产(如银行存款、有价证券)和不动产(如房屋、车辆、收藏品等)所获得的收入。包括出让财产使用权所获得的利息、租金、专

38、利收入；财产营运所获得的红利收入、财产增值收益等。由表可知检验的P值为0.000认为财产性收入与医疗保健消费线性相关关系显著；同样图也能看出之间呈正相关。由表可以写出其标准化后的回归方程为Y3（财产性纯收入）=0.757*x5（医疗保健消费），可以这样解释，一单位的财产性收入的百分之75.7用于医疗保健消费，说明财产性收入的大部分用于医疗保健支出；同样支出一单位的医疗保健消费需要从财产性纯收入中支付0.757个单位。通过财产性收入的定义范围可以理解两者之间的关系，对于家庭比较富裕的农民来说，他们会有剩余的钱存入银行获得利息收入和出租房屋车辆等的收入。由于医疗保健不属于必须消费，所以在生活比较宽裕的情况下此种消费会随之提高，这一回归方程很符合现实情况。表22-2（d）转移性纯收入与支出指标的回归分析结果CoefficientsaModelUnstandardized CoefficientsStandardized Coeffici

展开阅读全文