基于SPSS的多元统计分析三种算法的实例研究.doc可修改原格式下载

资源描述

1、摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题，从而能更深的理解多元统计分析这门课程，并熟悉SPSS软件的一些基本操作。关键词：多元回归分析，因子分析，判别分析，SPSS第一章多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节，完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型，而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系，由于忽略了对消费支出有显著影响的变量，其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素，如收入水平、价格、恩格尔系数、居住面积等，采用

2、进入逐步、向前、向后、删除、岭回归方法，对消费支出的多元线性回归模型进行研究，找出能较准确描述客观实际结果的最优模型。1.2 问题提出与描述、数据收集按照经济学理论，决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状，本文主要研究农村居民的消费支出模型。文中取因变量Y为农村居民年人均生活消费支出（单位：元），自变量为农村居民人均纯收入X1（单位：元）、商品零售价格定基指数X2（1978年的为100）、消费价格定基指数X3（1978年的为100）、家庭恩格尔系数X4（%）、人均住宅建筑面积X5（单位：m2）。本文取1900年至2009年的数据

3、（数据来源：中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴）列于附录的表一中。1.3 模型建立1.3.1 理论背景多元线性回归模型如下： Y表示因变量，Xi（i=1，p）表示自变量，表示随机误差项。对于n组观测值，其方程组形式为即模型假设：零均值假设: i=1,2，n同方差：无自相关：误差与自变量不相关： i=1,2，n， k=0,1，p自变量之间无多重共线性 1.3.2模型建立及SPSS运算结果分析假设因变量Y（农村居民年人均生活消费支出）与自变量X1（农村居民人均纯收入）、X2（商品零售价格定基指数）、X3（消费价格定基指数）、X4（家庭恩格尔系数）、X5（人均住宅

4、建筑面积）满足下述等式：强行回归：在SPSS中进行强行回归，会得到如下表格：输入变量从表1-1中可以看到，本文先强行将五个自变量与因变量进行线性拟合，希望得到一个线性函数。表1-1 输入的变量输入移去的变量模型输入的变量移去的变量方法1X5, X2, X4, X1, X3a.输入a. 已输入所有请求的变量。描述性统计量均值标准偏差NY1847.2585983.0383720X12391.8901292.887420X2335.25559.981520X3298.05069.430020X450.9526.340720X524.9434.876220拟合优度检验表1-2 拟合优度检验模型汇总b

5、模型RR 方调整 R 方标准估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.999a.998.99756.89386.9981131.672514.0001.197a. 预测变量: (常量), X5, X2, X4, X1, X3。b. 因变量: Y表1-2是对回归方程的拟合优度检验的说明样本决定系数,说明自变量可以解释因变量99.8%的变化，而调整后的样本决定系数，这两个值非常接近1，所以拟合程度比较高。方程显著性检验表1-3 方程显著性检验Anovab模型平方和df均方FSig.1回归1.832E753663121.5341131.672

6、.000a残差45316.766143236.912总计1.836E719a. 预测变量: (常量), X5, X2, X4, X1, X3。b. 因变量: Y表1-3是对回归方程显著性检验的说明统计量，对应的概率值，说明回归方程显著成立（我们给定显著水平为0.05）。参数求解及其显著性检验表1-4 参数求解及显著性检验系数a模型非标准化系数标准系数tSig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1(常量)-1457.646936.744-1.556.142X1.836.0651.10012.808.000.998.960.170.02441.819X23.4173.837.

7、209.891.388.755.232.012.003310.892X3-5.2934.780-.374-1.107.287.888-.284-.015.002646.608X416.65711.904.1071.399.184-.896.350.019.03033.443X535.61124.308.1771.465.165.969.365.019.01282.463a. 因变量: Y表1-4是对参数的求解及显著性检验的说明我们可以从上表看出系数向量的估计值，其中，则拟合的回归方程为另外，由上表中的t检验（我们给定显著水平为0.10）知：只有自变量X1（其对应的概率p=0.000）与因变量Y

8、在总体上存在比较显著的线性关系，其余自变量与因变量的线性关系不显著。多重共线性检验表1-5 共线性检验共线性诊断a模型维数特征值条件索引方差比例(常量)X1X2X3X4X5115.7821.000.00.00.00.00.00.002.2015.357.00.01.00.00.00.003.01420.626.00.04.00.00.00.004.00344.800.00.36.00.00.04.065.000218.270.88.29.01.01.49.8763.947E-5382.720.12.29.99.99.47.06a. 因变量: Y关于多重共线性的检测，我们采用计算条件索引或方差膨

9、胀因子的方式。当条件索引小于30的时候，说明共线性不明显。从表1-5中可以看出，X3、X4、X5所对应的条件索引都大于30，说明有一定的共线性。另外从表1-4中可以看出方差膨胀因子VIFi（一般认为该值小于10时，说明不存在共线性）都大于10，说明变量之间存在严重的共线性。自相关检验从表1-2的Durbin-Watson列我们得到回归模型的，在（0，2）区间范围内，属于部分正自相关。1.4 模型修正再运算与结果分析虽然上述的强行回归建立的线性回归方程具有很好的拟合度，并且方程的显著性也很高，但是部分参数的显著性并不高且具有比较严重的多重共线性关系。所以本文又分别用逐步回归、向前回归、向后回归、

10、岭回归对模型进行一定的修正，所得结果如下。逐步回归所谓逐步回归就是在许多自变量共同影响着一个因变量的关系中，判断哪个（或哪些）自变量的影响是显著的，哪些自变量的影响是不显著的，然后从两端分别将影响显著的自变量选入和将影响不显著的变量剔除。通过SPSS对附表一中的数据做逐步回归分析，得到下列数据表格：表1-6输入移去的变量a模型输入的变量移去的变量方法1X1.步进（准则: F-to-enter 的概率 = .100）。2X4.步进（准则: F-to-enter 的概率 = .100）。3X3.步进（准则: F-to-enter 的概率 = .100）。a. 因变量: Y表1-7模型汇总d模型RR

11、方调整 R 方标准估计的误差Durbin-Watson1.998a.995.99570.621792.998b.996.99663.892823.999c.997.99757.490271.045a. 预测变量: (常量), X1。b. 预测变量: (常量), X1, X4。c. 预测变量: (常量), X1, X4, X3。d. 因变量: Y表1-8Anovad模型平方和df均方FSig.1回归1.827E711.827E73663.434.000a残差89773.881184987.438总计1.836E7192回归1.829E729145762.7302240.350.000b残差6

12、9398.978174082.293总计1.836E7193回归1.831E736102680.7801846.426.000c残差52882.098163305.131总计1.836E719a. 预测变量: (常量), X1。b. 预测变量: (常量), X1, X4。c. 预测变量: (常量), X1, X4, X3。d. 因变量: Y表1-9系数a模型非标准化系数标准系数tSig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1(常量)33.05333.879.976.342X1.758.013.99860.526.000.998.998.9981.0001.0002(常量)-

13、741.801348.188-2.130.048X1.815.0281.07129.525.000.998.990.440.1695.923X412.5695.626.0812.234.039-.896.476.033.1695.9233(常量)-605.786319.150-1.898.076X1.866.0341.13825.696.000.998.988.345.09210.903X413.2755.072.0862.617.019-.896.548.035.1685.946X3-.985.441-.070-2.235.040.888-.488-.030.1865.385a. 因变量:

14、Y表1-10共线性诊断a模型维数特征值条件索引方差比例(常量)X1X4X3111.8851.000.06.062.1154.044.94.94212.8051.000.00.00.002.1943.800.00.13.003.00153.5991.00.871.00313.7931.000.00.00.00.002.2004.359.00.06.00.003.00724.004.01.54.02.994.00162.482.99.40.98.01a. 因变量: Y从上述表格可以看出，SPSS在做逐步回归的时候，共得到了三个比较好的回归方程，及三种剔除变量的情况。预测变量为常量、X1，剔除了变量

15、X2、X3、X4、X5, 拟合回归方程：拟合优度检验：，说明自变量可以解释因变量99.5%的变化，所以拟合程度比较高。方程显著性检验：统计量，对应的概率值，说明回归方程显著成立（我们给定显著水平为0.05）。参数显著性检验：X1对应的，概率值，说明自变量X1与因变量Y在总体上存在显著的线性关系（显著水平定为0.05）多重共线性检验：条件索引都小于30，方差膨胀因子都小于10，说明线性回归方程中得变量不具有共线性关系。自相关检验：对应的DW不存在，所以变量间无关。预测变量为常量、X1、X4，剔除了变量X2、X3、X5, 拟合回归方程：拟合优度检验：，说明自变量可以解释因变量99.6%的变化，所以

16、拟合程度比较高。方程显著性检验：统计量，对应的概率值，说明回归方程显著成立（我们给定显著水平为0.05）。参数显著性检验：X1对应的，概率值；X4对应的，概率值，说明自变量X1、X4与因变量Y在总体上存在显著的线性关系（显著水平定为0.05）多重共线性检验：只有X4的条件索引大于30，而方差膨胀因子都小于10，说明线性回归方程中得变量间的共线性关系不是很明显。自相关检验：对应的DW不存在，所以变量间无关。预测变量为常量、X1、X4、X3，剔除了变量X2、X5, 拟合回归方程：拟合优度检验：，说明自变量可以解释因变量99.7%的变化，所以拟合程度比较高。方程显著性检验：统计量，对应的概率值，说明

17、回归方程显著成立（我们给定显著水平为0.05）。参数显著性检验：X1对应的，概率值；X4对应的，概率值；X3对应的，概率值，说明自变量X1、X4、X3与因变量Y在总体上存在显著的线性关系（显著水平定为0.05）多重共线性检验：只有X3的条件索引大于30，而方差膨胀因子都小于10（只有X1的为10.903），说明线性回归方程中得变量间的共线性关系不是很明显。自相关检验：对应的，所以变量间有正自相关性。向前回归所谓向前回归就是按显著性由大到小将影响显著的自变量选入。通过SPSS对附表一中的数据做向前回归分析，得到下列数据表格：表1-11输入移去的变量a模型输入的变量移去的变量方法1X1.向前（准则

18、: F-to-enter 的概率 = .050）2X4.向前（准则: F-to-enter 的概率 = .050）3X3.向前（准则: F-to-enter 的概率 = .100 的概率）。3.X5向后（准则: F-to-remove = .100 的概率）。a. 已输入所有请求的变量。b. 因变量: Y表1-17模型汇总d模型RR 方调整 R 方标准估计的误差Durbin-Watson1.999a.998.99756.893862.999b.997.99756.500373.999c.997.99757.490271.045a. 预测变量: (常量), X5, X2, X4, X1, X3

19、。b. 预测变量: (常量), X5, X4, X1, X3。c. 预测变量: (常量), X4, X1, X3。d. 因变量: Y表1-18Anovad模型平方和df均方FSig.1回归1.832E753663121.5341131.672.000a残差45316.766143236.912总计1.836E7192回归1.831E744578260.0151434.161.000b残差47884.379153192.292总计1.836E7193回归1.831E736102680.7801846.426.000c残差52882.098163305.131总计1.836E719a. 预测变量:

20、 (常量), X5, X2, X4, X1, X3。b. 预测变量: (常量), X5, X4, X1, X3。c. 预测变量: (常量), X4, X1, X3。d. 因变量: Y表1-19系数a模型非标准化系数标准系数tSig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1(常量)-1457.646936.744-1.556.142X1.836.0651.10012.808.000.998.960.170.02441.819X23.4173.837.209.891.388.755.232.012.003310.892X3-5.2934.780-.374-1.107.287.88

21、8-.284-.015.002646.608X416.65711.904.1071.399.184-.896.350.019.03033.443X535.61124.308.1771.465.165.969.365.019.01282.4632(常量)-1663.350901.545-1.845.085X1.808.0571.06314.250.000.998.965.188.03131.986X3-1.054.437-.074-2.413.029.888-.529-.032.1835.471X423.1579.339.1492.480.026-.896.539.033.04820.872X5

22、28.55422.821.1421.251.230.969.307.016.01473.7023(常量)-605.786319.150-1.898.076X1.866.0341.13825.696.000.998.988.345.09210.903X3-.985.441-.070-2.235.040.888-.488-.030.1865.385X413.2755.072.0862.617.019-.896.548.035.1685.946a. 因变量: Y表1-20共线性诊断a模型维数特征值条件索引方差比例(常量)X1X2X3X4X5115.7821.000.00.00.00.00.00.00

23、2.2015.357.00.01.00.00.00.003.01420.626.00.04.00.00.00.004.00344.800.00.36.00.00.04.065.000218.270.88.29.01.01.49.8763.947E-5382.720.12.29.99.99.47.06214.7891.000.00.00.00.00.002.2014.878.00.02.00.00.003.00726.035.00.09.98.00.014.00341.079.00.44.01.07.085.000200.5051.00.46.01.92.91313.7931.000.00.00.00.002.2004.359.00.06.00.003.00724.004.01.54.99.024.00162.482.99.40.01.98a. 因变量: Y15

展开阅读全文