1、 20142015第二学期多元统计分析课程论文论文题目 回归分析 姓 名 学 号 专 业 信息与计算科学 成 绩 居民消费指数影响因素回归分析摘要:选择其中居民的消费指数作为响应变量,其它变量作为解释变量,对居民的消费指数和食品和消费指数、衣着价格指数、医疗保健及个人用品价格指数,交通和通信的价格指数之间进行参数检验和回归分析。在求解实际问题时通常使用SAS软件中的REG过程来进行回归分析。本文主要采用了逐步回归分析法求解多个因变量时关于自变量的回归方程,研究居民的消费指数和食品和消费指数、衣着价格指数,交通和通信的价格指数是影响居民消费指数之间的关系。关键词:居民消费指数;参数检验;回归分析
2、一、问题提出与分析居民消费价格指数是反映一定时期内城乡居民所购买的生活消费品和服务项目价格变动趋势和程度的相对数,是对城市居民消费价格指数和农村居民消费价格指数进行综合汇总计算的结果。通过对居民的消费指数和食品和消费指数、衣着价格指数、医疗保健及个人用品价格指数,交通和通信的价格指数之间进行参数检验和回归分析。来分析影响居民的消费指数的因素做研究。已知某个地区两年内消费指数与价格指数的数据。现在是分析这些数据来求出这几种消费的价格指数和居民的消费指数的关系。共有24组观测值,如下:序号食品衣着价格医疗保健交通和通信居住消费指数1103102.6101.4100.2101.91022103.51
3、00.8100.499.8100.9101.53102.6100.6100.699.3100.9101.34103105.5101.7100.2101.1102.15103.4102.7101.1100.1100.4101.86102.8102.1100.999.4100.7101.57103.7102.6101.9100.7101.1102.28103.3103.4100.6100.6101.9102.19103.7101.3102.599.6100.5101.910102.9104100.6100.1104.4102.611102.4104101.7100.4102.2102.312103
4、.4101.9101.8100.2102.5102.313102.2101.6101.899.2102.1101.614103101.7100.9100.6101.7101.915103.3102.2101.4100102.4102.316102.4103.3101.6100.2102.8102.117103.1102.5101100.3102.2102.118102.2102.6100.7100.4103.1101.919101.7101.3102.3100101.1101.620103.6103.6100.9100101.31022110498.6101.499.8101.1101.722
5、103.5100.7101.5100.710210223102.8102.7102.9100.9101.3101.724102.3102.2101100.5101.5101.5二、 模型建立 逐步回归是多元回归中用以选择自变量的一种常用方法。回归分析法在分析多因素模型时,更加简单和方便;运用回归模型,只要采用的模型和数据相同,通过标准的统计方法可以计算出唯一的结果。回归分析可以准确地计量各个因素之间的相关程度与回归拟合程度的高低,提高预测方程式的效果;在回归分析法时,受实际一个变量仅受单个因素的影响的情况较少。1.准备工作: (1)考虑是否对原始数据进行标准化;为了减少量纲的影响及减少计算误差
6、,经常对数据进行标准化。 (2)由中心化后的数据阵计算阶矩阵; (3)给定引入变量时的显著性水平和剔除变量时的显著性水平。 2.逐步筛选自变量:从出发利用消去变换进行多因变量逐步回归计算 . 第1步:考虑从m个自变量中能否引入变量; 第k步:考虑能否剔除变量的步骤. 不妨设已引入回归方程的变量记为,每引入或剔除一个自变量作一次消去变换,经若干次消去变换后化为 第k+1步:考虑能否引入新变量的步骤. 不妨设从未入选回归方程的变量为;当前矩阵为。3.给出计算结果: 设筛选自变量的过程结束时,入选的自变量为,矩阵经多次消去变换后化为。 (1) 与的回归方程为 (2) 协差阵的无偏估计为; (3) 第
7、j个因变量对的多元回归模型的残差平方和,复相关系数 三、SAS软件操作:data mkp;input X1 X2 X3 X4 X5 Y; cards;103102.6101.4100.2101.9102103.5100.8100.499.8100.9101.5102.6100.6100.699.3100.9101.3103105.5101.7100.2101.1102.1103.4102.7101.1100.1100.4101.8102.8102.1100.999.4100.7101.5103.7102.6101.9100.7101.1102.2103.3103.4100.6100.6101.
8、9102.1103.7101.3102.599.6100.5101.9102.9104100.6100.1104.4102.6102.4104101.7100.4102.2102.3103.4101.9101.8100.2102.5102.3102.2101.6101.899.2102.1101.6103101.7100.9100.6101.7101.9103.3102.2101.4100102.4102.3102.4103.3101.6100.2102.8102.1103.1102.5101100.3102.2102.1102.2102.6100.7100.4103.1101.9101.71
9、01.3102.3100101.1101.6103.6103.6100.9100101.310210498.6101.499.8101.1101.7103.5100.7101.5100.7102102102.8102.7102.9100.9101.3101.7102.3102.2101100.5101.5101.5;proc reg;model Y=X1-X5;model Y=X1-X5/selection=stepwise;run;输出结果:输出图 一输出图 二输出图 三输出图 四输出图 一 输出图 六 描述性统计分析与区间估计这是利用用分析家进行描述性统计分析,从分布直方图中可以得到:1、
10、 食品的价格指数主要分布在103和103.52、 衣着的价格指数主要分布在1023、 医疗保健及个人用品价格指数主要分布在101.7及以前100.5和101.3,在101.7之后很少分布4、 交通和通信的价格指数主要分布在100和100.45、 居住的价格指数主要分布在101.5和102.6、 居民消费价格指数的价格指数主要分布在102,且分布比较均匀。在means过程结果中可以看到各个变量的均值、偏差、标准偏差、最大值、最小值以及中位数。这是用isight模块进行参数估计得到的结果,从得到的盒形图可以得到为中位数102。在得到的分布图及正态分布拟合中可以得出初步结论,实验数据大体上符合正态分
11、布模型。下面的图中可以看出数据的中位数,变异系数校正平方和,标准误差等用分析家分析做全回归分析分析结果包括方差分析表、拟合的汇总信息以及回归系数估计值与显著性检验。方差分析表中显示模型的作用是显著的( F统计量的值为63.23,p值0.00010.05 = )。参数显著性检验表明,进入回归的 5个自变量,其中X1、 X2、 X5其作用在其它变量进入回归的前提下并不都是显著的。例如X3 ,X4的作用就不显著。因此有必要适当选择变量建立一个“最优”的回归方程。五、总结输出图一给出了由REG过程得到的学生体能测试成绩的方差分析与参数估计,X1到X5都作为自变量(回归变量),Y作为响应变量(因变量)。
12、由此可以拟合的回归模型为:Y=20.16331+0.30756X1+0.10109X2+0.12462X3+0.02247X4+0.24439X5 由输出,对于原假设的t值及相应的P值,只有X4对Y的影响是显著的。而其它变量对Y的影响均不显著。下面使用逐步回归分心建立相应的回归模型。见输出图二。 输出图二给出了由REG过程得到的学生体能测试成绩数据逐步回归分析的第一步可以看出X5首先进入模型,此时模型的R平方是0.4239,C(p)是64.1242。由参数估计及其相应的P值可以看出X5对Y的影响是显著的。由此可以拟合的回归模型为:Y=78.98423+0.22546X5接着,输出图二给出了由R
13、EG过程得到的学生体能测试成绩数据逐步回归分析的第二步可以看出X4进入了回归模型,此时模型的R平方是0.6249,C(p)是36.7786。可以看出该模型明显优于第一步得到的回归模型,因为C(p)统计量有了明显的下降。此时得到的回归模型为:Y=48.09755+0.25633X1+0.26958X5输出图三给出了由REG过程得到的学生体能测试成绩数据逐步回归分析的第三步可以看出X2进入了回归模型,此时模型的R平方是0.8314,C(p)是11.2468。可以看出该模型明显优于第一步得到的回归模型,因为R的平方接近于1,且C(p)统计量又有了明显的下降。由C(p)统计量最小准则可以看出该模型优于
14、第二步得到的回归模型。此时得到的回归模型为:Y=38.24576+0.0.29227X1+0.10616X2+0.22330X5输出图三下面给出了由REG过程得到的学生体能测试成绩数据逐步回归分析的第四步可以看出X3进入了回归模型,此时模型的R平方是0.8760,C(p)是4.1134。因为R的平方更加接近于1,且C(p)统计量又有了明显的下降。由C(p)统计量最小准则可以看出该模型优于第三步得到的回归模型。此时得到的回归模型为:Y=21.13140+0.31152X1+0.10336X2+0.12816X3+0.24718X5输出图四给出了由REG过程得到的学生体能测试成绩数据逐步回归分析打概括,主要列出了R平方,C(p)统计量,F值与P值等主要统计量。从得到数学模型方程可以看出:居民的消费指数的主要因素这为食品和消费指数、衣着价格指数,交通和通信的价格指数居住的价格指数之间存在的关系,对于医疗保健及个人用品被排除在这个数学模型外,可以进行猜想,由于医疗保健及个人用品涨价的幅度不是很快,并且在承受范围之内,而且是居民的必须用品,并不能对居民的消费指数产生很大影响,或者是在这上面花费的很稳定,所以不会出现在数学模型之内。