1、一、 问题的提出现实中存在着这种现象:各个地区间的人均寿命存在差异,是什么因素造成了地区间的这种差异呢?在这篇文章中,我们以2010年全国的各地区的人均寿命以及一些相关数据来进行分析,寻找造成各地人均寿命存在差异的原因。二、 模型设定研究各地区人均寿命的差异,我们通常考虑以下几个因素对寿命的影响。各地区的人们生活水平通常影响着各地区的人均寿命,我们以人均GDP来衡量各地区生活水平,各地区的卫生机构数可能对人均寿命产生影响,不同地区的环境状况也可能对人均寿命产生影响,我们以单位面积污染比来反映环境状况,以及研究教育支出对人均寿命是否产生影响。二、收集数据地区地区人均寿命y人均GDP (万元)x1
2、卫生机构数x2单位面积污染比x3教育支出(万元)x4北京76.11.8266476176184402503068天津74.911.637722298314822.0339685499.8河北72.540.762505206634978.787881559084.1山西71.650.506099137364070.55215794624.1内蒙古69.870.5906457852387.642276580861.6辽宁73.341.115932125646205.263161463314.7吉林73.10.67904255441580.51282902941.6黑龙江72.370.8544798
3、038884.6625771175133上海78.142.7734513689086.68732008864.6江苏73.911.171384128138484.112152905677.2浙江74.71.31339170346140.566042200449.9安徽71.850.48333467052720.689661129954福建72.551.14958198072262.41225753.9江西68.950.48278480481275.86207752776.6山东73.920.949371171187659.748432462775.5河南71.540.5414910764427
4、3.563221709181.4湖北71.080.717503110652909.743591706416.4湖南70.660.562615246781629.680371523036.8广东73.271.253695134994291.752583609720.5广西71.290.431608137071872.76423934717.9海南72.920.65713626891225.9887223093.3重庆71.730.51401793752234.19204698720.6四川71.20.466233351940.7480311619987.5贵州65.960.26451889922
5、193.22034528486.6云南65.490.46099713356668.856448976174.5西藏64.370.45527112371.1811023681549.8陕西70.070.455796107371111.682241014584.4甘肃67.470.3845767191597.014925535287.2青海66.030.509845184780.9333333128177.5宁夏70.170.47936813612088.15029148649.4新疆67.410.7378916705116.407186702243.4表一(来源于国家统计局网站)三、建立模型并回
6、归建立回归方程:Y=a0+a1*X1+a2*X2+a3*X3+a4*X4+u Y表示地区人均寿命,X1为人均GDP (万元),X2为 卫生机构数,X3表示单位面积污染比,X4为 教育支出(万元)运用OLS估计方法对模型中的参数进行估计,得回归分析结果:Dependent Variable: YMethod: Least SquaresDate: 06/10/11 Time: 11:09Sample: 1 31Included observations: 31VariableCoefficientStd. Errort-StatisticProb. C65.976461.13033158.369
7、160.0000X14.9821041.6594543.0022540.0059X27.02E-057.05E-050.9958130.3285X3-2.99E-054.42E-05-0.6769880.5044X45.41E-077.19E-070.7534090.4580R-squared0.652727 Mean dependent var71.24387Adjusted R-squared0.599300 S.D. dependent var3.191195S.E. of regression2.020053 Akaike info criterion4.390815Sum squar
8、ed resid106.0960 Schwarz criterion4.622103Log likelihood-63.05763 F-statistic12.21726Durbin-Watson stat1.285255 Prob(F-statistic)0.000010从以上的结果中可得到回归方程为:Y = 65.97646 + 4.982104*X1 + 7.02E-05*X2 -2.99E-05*X3 +5.41E-07*X41、模型的经济意义检验Y = 65.97646 + 4.982104*X1 + 7.02E-05*X2 -2.99E-05*X3 +5.41E-07*X4回归方程
9、表明: X1人均GDP(万元),X2 卫生机构数,X3单位面积污染比,X4 教育支出都为0时,地区人均寿命是65.97646 。表明没有任何卫生机构没有污染和教育支出等因素的影响下 ,人均寿命约是66岁。 当其他条件不变,每增加一单位的人均GDP,人均寿命大约增长5岁。 当其他条件不变时,每增加一单位的卫生机构,人均寿命增加7.02E-05个单位。 当其他条件不变时,每增加一单位的面积污染比,人均寿命减少2.99E-05个单位。 当其他条件不变时,每增加一单位教育支出,人均寿命增加5.41E-07个单位。2、统计检验(1)F检验:针对H0:a1=a2=a3=a4=0,给定显著性水平,在F分布表
10、中查出自由度为k-1=4和n-k=26的临界值为2.74。由表中可得F=12.21726,由于F值大于临界值2.74,应拒绝原假设H0:a1=a2=a3=a4=0,说明回归方程显著,人均GDP,卫生机构数,单位面积污染比,教育支出联合起来确实对人均寿命有着显著的影响。(2)进行t检验:原假设为H0:aj=0(j=1,2,3,4),给定显著性水平查t分布表得自由度为n-k=26得临界值为2.056,由上表中可知,与各个回归系数对应的t统计量分别为3.002254,0.995813,-0.676988,0.753409,也就是说,接受原假设H0:a2=0,a3=0,a4=0。拒绝原假设H0:a1=
11、0。所以在0.05的显著性水平下,卫生机构数 ,单位面积污染比,教育支出对人均寿命没有显著性影响,只有人均GDP对人均寿命有着显著的影响。因此,由t检验的结果,剔除解释变量x2,x3,x4,只研究人均GDP对人均寿命的影响。现在单独对人均寿命和人均GDP进行回归。回归结果为Dependent Variable: YMethod: Least SquaresDate: 06/10/11 Time: 11:34Sample: 1 31Included observations: 31VariableCoefficientStd. Errort-StatisticProb. C67.510130.7
12、0612395.606750.0000X14.5951260.7326516.2719170.0000R-squared0.575632 Mean dependent var71.24387Adjusted R-squared0.560999 S.D. dependent var3.191195S.E. of regression2.114395 Akaike info criterion4.397756Sum squared resid129.6494 Schwarz criterion4.490271Log likelihood-66.16521 F-statistic39.33694Du
13、rbin-Watson stat1.169499 Prob(F-statistic)0.000001最后的回归方程为Y = 67.51013 + 4.595126*X1经济意义是:人均GDP每增加一个单位,人均寿命就增加4.595126个单位。其中,可决系数为0.575632,说明解释变量对模型的解释程度为0.575632。四、经济计量学检验异方差检验、 散点图检验1、相关图形分析(y与x的散点图)2、残差图形分析(残差平方对x的散点图)散点图表明可能不存在异方差。进一步进行异方差检验,采用white检验。White Heteroskedasticity Test:F-statistic2.3
14、03808 Probability0.118507Obs*R-squared4.380453 Probability0.111891Test Equation:Dependent Variable: RESID2Method: Least SquaresDate: 06/12/11 Time: 22:20Sample: 1 31Included observations: 31VariableCoefficientStd. Errort-StatisticProb. C11.565183.7171093.1113360.0043X1-13.661637.092647-1.9261680.064
15、3X124.0023112.5403491.5754960.1264R-squared0.141305 Mean dependent var4.182237Adjusted R-squared0.079970 S.D. dependent var6.093022S.E. of regression5.844318 Akaike info criterion6.460583Sum squared resid956.3694 Schwarz criterion6.599355Log likelihood-97.13903 F-statistic2.303808Durbin-Watson stat1
16、.862642 Prob(F-statistic)0.118507White检验结果:Obs*R-squared4.380453Probability0.111891由上表中可得nR=4.380453,在0.05的显著性水平下,查分布表,得临界值(2)=5.9915,比较计算的统计量与临界值,因为nR=4.380453(2)=5.9915,所以接受原假设,表明模型不存在异方差。(二)自相关性检验进行DW检验Log likelihood-66.16521 F-statistic39.33694Durbin-Watson stat1.169499 Prob(F-stati0.000001DW=1.
17、169499,对样本容量为31,一个解释变量的模型,在0.01的显著性水平上,查表可知dl=1.147,du=1.273.因为dlDWdu,所以不能判断模型是否存在自相关。残差的图示检验(1)按照各地区的顺序绘制回归残差项e的图形(2)绘制et和et-1的散点图由上述两图推断模型不存在自相关性。五、本文的最终结论(1)由以上分析可知,各地区的卫生机构数,单位面积污染比,教育支出并不是影响各地区人均寿命最重要的因素。影响各地区人均寿命的最显著的因素是人均GDP,即各地区人们的生活水平。(2)由以上可以看出,人们的预期寿命首先由当地经济发展水平决定,要提高人们的寿命,最重要的是提高人们的生活水平。因此政府为提高人民的寿命必须大力发展经济,增长。