setwd("D:\\Rdownload\\lianxi\\dazuoye")
data<-read.csv("dazuoye.csv",header=T) #将dazuoye.csv数据读入到data中
data=data[,-1] #data的第一列不是数值先去掉
rownames(data)=data[,1] #用data的第一列为data的行重新命名
colnames(data) <- c("y", "x1", "x2", "x3", "x4", "x5")
lm.exam<-lm(y~x1+x2+x3+x4+x5,data=data) #建立y关于x1,x2,x3,x4,x5的线性回归方程
summary(lm.exam) #模型汇总,给出模型回归系数的估计和显著性检验等
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -57333 -12573 -1795 12085 48258
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -8.991e+05 1.735e+06 -0.518 0.60893
## x1 -2.000e+00 3.963e-01 -5.045 3.32e-05 ***
## x2 4.784e+00 1.180e+00 4.055 0.00043 ***
## x3 8.762e+03 1.733e+04 0.506 0.61751
## x4 4.050e+00 2.706e+00 1.497 0.14698
## x5 -6.048e+00 4.237e+00 -1.427 0.16587
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23120 on 25 degrees of freedom
## Multiple R-squared: 0.5862, Adjusted R-squared: 0.5035
## F-statistic: 7.084 on 5 and 25 DF, p-value: 0.0003012
###系数信息
####城镇非私营单位就业人员平均工资x1的系数估计值为 -2.000e+00,标准误差为 3.963e-01,t值为 -5.045,p值为 3.32e-05(非常小,远小于0.05),表示城镇非私营单位就业人员平均工资对因变量地区生产总值有显著的负影响,即在其他自变量不变的情况下,城镇非私营单位就业人员平均工资每增加一个单位,地区生产总值平均会减少2个单位
####城镇私营单位就业人员平均工资的系数估计值为 4.784e+00,标准误差为 1.180e+00,t值为 4.055,p值为 0.00043(小于0.05),说明城镇私营单位就业人员平均工资对因变量地区生产总值有显著的正影响,即城镇私营单位就业人员平均工资每增加一个单位,地区生产总值平均会增加约4.784个单位。
###模型拟合优度和统计检验
####残差标准误差为23120,自由度为25。残差标准误差衡量了模型预测值与实际值之间的平均差异程度,较小的值表示模型拟合较好,但这里的值相对较大,可能意味着模型的预测准确性有待提高。
####多重判定系数(Multiple R-squared)为0.5862,表示自变量解释了因变量总变异的58.62%,说明模型对因变量的解释能力尚可。
####调整后的判定系数(Adjusted R-squared)为0.5035,考虑了模型中自变量的个数,对多重判定系数进行了调整,使其更能反映模型的拟合优度。这里调整后的判定系数相对较低,可能暗示模型中可能存在一些不必要的自变量或者模型还可以进一步优化。
####F统计量为7.084,自由度为5和25,对应的p值为0.0003012(非常小),这表明整个模型在统计上是显著的,即至少有一个自变量对因变量有显著影响,但结合前面各个自变量的系数显著性,只有城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资是显著的自变量。
###结论:该线性回归模型中,自变量城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资对因变量地区生产总值有显著影响。模型整体在统计上显著,但拟合优度还有提升空间,残差标准误差较大。
colnames(data) <- c( "x1", "x2", "x3", "x4", "x5","y")
lm.exam<-lm(y~x1+x2+x3+x4+x5,data=data) #建立y关于x1,x2,x3,x4,x5的线性回归方程
summary(lm.exam) #模型汇总,给出模型回归系数的估计和显著性检验等
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1894.2 -632.2 -60.4 544.8 1956.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.119e+05 7.596e+04 -1.473 0.153
## x1 -1.246e-02 8.729e-03 -1.427 0.166
## x2 -3.865e-02 2.436e-02 -1.587 0.125
## x3 1.109e-01 6.528e-02 1.698 0.102
## x4 1.124e+03 7.578e+02 1.483 0.151
## x5 6.034e-01 4.329e-02 13.936 2.73e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1050 on 25 degrees of freedom
## Multiple R-squared: 0.9803, Adjusted R-squared: 0.9763
## F-statistic: 248.3 on 5 and 25 DF, p-value: < 2.2e-16
###系数信息:居民人均可支配收入的系数估计值为 6.034e-01,标准误差为 4.329e-02,t值为 13.936,p值为 2.73e-13(非常小,远小于0.05),说明居民人均可支配收入对因变量居民人均消费支出有非常显著的正影响,即在其他自变量不变的情况下,居民人均可支配收入每增加一个单位,居民人均消费支出平均会增加约0.6034个单位。
###模型拟合优度和统计检验
####残差标准误差为1050,自由度为25。与之前模型的残差标准误差(23120)相比,该模型的残差标准误差大幅减小,说明模型对数据的拟合精度更高,预测值与实际值之间的平均差异更小。
####多重判定系数(Multiple R-squared)为0.9803,表示自变量解释了因变量总变异的98.03%,说明模型对因变量的解释能力非常强。
####调整后的判定系数(Adjusted R-squared)为0.9763,考虑了模型中自变量的个数,对多重判定系数进行了调整,使其更能反映模型的拟合优度。这里调整后的判定系数也很高,进一步表明模型的拟合效果较好,且自变量的选择相对合理。
####F统计量为248.3,自由度为5和25,对应的p值非常小(小于2.2e-16),这表明整个模型在统计上是高度显著的,即至少有一个自变量对因变量有显著影响。结合前面各个自变量的系数显著性,虽然只有居民人均可支配收入是显著的自变量,但整个模型由于其高拟合优度和显著的F统计量,仍然具有一定的价值和解释力。
###结论:该线性回归模型中,只有自变量居民人均可支配收入对因变量居民人均消费支出有显著影响。尽管如此,模型整体在统计上高度显著,且拟合优度非常高,残差标准误差较小,说明模型能够很好地拟合数据,对因变量的变异具有很强的解释能力。在实际应用中,可以进一步研究居民人均可支配收入与居民人均消费支出之间的关系,并考虑是否可以通过其他方法(如变量变换、添加交互项等)来提高其他自变量的显著性,或者根据业务背景和实际需求对模型进行进一步的优化和解释。
colnames(data) <- c( "y","x1", "x2", "x3", "x4", "x5")
lm.exam<-lm(y~x1+x2,data=data) #建立y关于x1,x2的线性回归方程
summary(lm.exam) #模型汇总,给出模型回归系数的估计和显著性检验等
##
## Call:
## lm(formula = y ~ x1 + x2, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -52032 -14385 -1913 12871 45681
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.525e+04 1.909e+04 -1.846 0.0755 .
## x1 -1.948e+00 3.748e-01 -5.198 1.61e-05 ***
## x2 4.815e+00 8.326e-01 5.783 3.29e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22840 on 28 degrees of freedom
## Multiple R-squared: 0.548, Adjusted R-squared: 0.5158
## F-statistic: 16.98 on 2 and 28 DF, p-value: 1.484e-05
###系数信息
####城镇非私营单位就业人员平均工资的系数估计值为 -1.948e+00,标准误差为 3.748e-01,t值为 -5.198,p值为 1.61e-05(非常小,远小于0.05),表明城镇非私营单位就业人员平均工资对因变量地区生产总值有显著的负影响,即在其他自变量不变的情况下,城镇非私营单位就业人员平均工资每增加一个单位,地区生产总值平均会减少约1.948个单位。
####城镇私营单位就业人员平均工资的系数估计值为 4.815e+00,标准误差为 8.326e-01,t值为 5.783,p值为 3.29e-06(非常小,远小于0.05),说明城镇私营单位就业人员平均工资对因变量地区生产总值有显著的正影响,即城镇私营单位就业人员平均工资每增加一个单位,地区生产总值平均会增加约4.815个单位。
###模型拟合优度和统计检验
####残差标准误差为22840,自由度为28。残差标准误差衡量了模型预测值与实际值之间的平均差异程度,该值相对较大,表明模型的预测准确性还有提升空间。
####多重判定系数(Multiple R-squared)为0.548,表示自变量(城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资)解释了因变量地区生产总值总变异的54.8%,说明模型对因变量的解释能力尚可。
####调整后的判定系数(Adjusted R-squared)为0.5158,考虑了模型中自变量的个数,对多重判定系数进行了调整,使其更能反映模型的拟合优度。这里调整后的判定系数相对较低,可能暗示模型中可能存在一些可以改进的地方,例如可能还有其他重要的自变量未纳入模型,或者模型的形式可以进一步优化。
####F统计量为16.98,自由度为2和28,对应的p值为 1.484e-05(非常小),这表明整个模型在统计上是显著的,即自变量城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资作为一个整体对因变量地区生产总值有显著影响。
###结论:该线性回归模型中,自变量城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资对因变量地区生产总值有显著影响,其中城镇非私营单位就业人员平均工资为负影响,城镇私营单位就业人员平均工资为正影响。模型整体在统计上显著,但拟合优度还有提升空间,残差标准误差较大。可以考虑进一步检查数据、探索其他可能的自变量或对模型进行改进,以提高模型的准确性和解释能力。例如,可以检查数据是否存在异常值、是否需要进行变量变换,或者尝试添加交互项等方法来优化模型。
colnames(data) <- c( "y","x1", "x2", "x3", "x4", "x5")
lm.exam<-lm(x5~x1+x2+x4,data=data) #建立x5关于x1,x2,x4的线性回归方程
summary(lm.exam) #模型汇总,给出模型回归系数的估计和显著性检验等
##
## Call:
## lm(formula = x5 ~ x1 + x2 + x4, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1740.99 -902.84 40.75 532.11 2483.80
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1133.80956 1143.45512 0.992 0.330
## x1 -0.01230 0.01836 -0.670 0.508
## x2 0.04403 0.05389 0.817 0.421
## x4 0.61338 0.04341 14.130 5.42e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1090 on 27 degrees of freedom
## Multiple R-squared: 0.977, Adjusted R-squared: 0.9744
## F-statistic: 382.2 on 3 and 27 DF, p-value: < 2.2e-16
###残差信息:Min(最小值)为 -1740.99,1Q(第一四分位数)为 -902.84,Median(中位数)为 40.75,3Q(第三四分位数)为 532.11,Max(最大值)为 2483.80;残差范围相对较小,说明模型预测值与实际值之间的差异在一定程度上较为稳定,这是模型拟合较好的一个迹象。
###系数信息:居民人均可支配收入的系数估计值为 0.61338,标准误差为 0.04341,t值为 14.130,p值为 5.42e-14(非常小,远小于0.05),说明居民人均可支配收入对因变量居民人均消费支出有非常显著的正影响,即在其他自变量不变的情况下,居民人均可支配收入每增加一个单位,居民人均消费支出平均会增加约0.61338个单位。
###模型拟合优度和统计检验
####残差标准误差为1090,自由度为27。残差标准误差较小,表明模型对数据的拟合精度较高,预测值与实际值之间的平均差异较小。
####多重判定系数(Multiple R-squared)为0.977,表示自变量(城镇非私营单位就业人员平均工资、城镇私营单位就业人员平均工资、居民人均可支配收入)解释了因变量居民人均消费支出总变异的97.7%,说明模型对因变量的解释能力非常强。
####调整后的判定系数(Adjusted R-squared)为0.9744,考虑了模型中自变量的个数,对多重判定系数进行了调整,使其更能反映模型的拟合优度。这里调整后的判定系数也很高,进一步表明模型的拟合效果较好,且自变量的选择相对合理,尽管城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资不显著,但整体模型仍然具有很好的解释力。
####F统计量为382.2,自由度为3和27,对应的p值非常小(小于2.2e-16),这表明整个模型在统计上是高度显著的,即至少有一个自变量对因变量有显著影响。结合前面各个自变量的系数显著性,虽然只有居民人均可支配收入是显著的自变量,但由于模型的高拟合优度和显著的F统计量,该模型仍然具有重要的价值和意义。
###结论:该线性回归模型中,只有自变量居民人均可支配收入对因变量居民人均消费支出有显著影响,城镇非私营单位就业人员平均工资和城镇私营单位就业人员平均工资的影响在统计上不显著。尽管如此,模型整体在统计上高度显著,且拟合优度非常高,残差标准误差较小,说明模型能够很好地拟合数据,对因变量的变异具有很强的解释能力。在实际应用中,可以进一步研究居民人均可支配收入与居民人均消费支出之间的关系,并考虑是否可以通过其他方法(如变量变换、添加交互项等)来提高其他自变量的显著性,或者根据业务背景和实际需求对模型进行进一步的优化和解释。同时,也需要注意模型的局限性,例如可能存在未考虑到的其他重要因素等。
colnames(data) <- c( "y","x1", "x2", "x3", "x4", "x5")
lm.exam<-lm(y~x3+x5,data=data) #建立x5关于x1,x2,x4的线性回归方程
summary(lm.exam) #模型汇总,给出模型回归系数的估计和显著性检验等
##
## Call:
## lm(formula = y ~ x3 + x5, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -40061 -20100 -7644 11833 84541
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.336e+05 2.265e+06 0.280 0.782
## x3 -6.265e+03 2.266e+04 -0.277 0.784
## x5 1.875e+00 8.846e-01 2.120 0.043 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 31460 on 28 degrees of freedom
## Multiple R-squared: 0.1424, Adjusted R-squared: 0.0811
## F-statistic: 2.324 on 2 and 28 DF, p-value: 0.1165
###残差信息:Min(最小值)为 -40061,1Q(第一四分位数)为 -20100,Median(中位数)为 -7644,3Q(第三四分位数)为 11833,Max(最大值)为 84541;残差范围较大,说明模型预测值与实际值之间存在较大差异,模型的拟合效果可能不太理想,需要进一步检查和改进。
###系数信息:居民人均消费支出的系数估计值为 1.875e+00,标准误差为 8.846e-01,t值为 2.120,p值为 0.043,说明居民人均消费支出对因变量地区生产总值有显著的正影响,即在其他自变量不变的情况下,居民人均消费支出每增加一个单位,地区生产总值平均会增加约1.875个单位。
###模型拟合优度和统计检验
####残差标准误差为31460,自由度为28。残差标准误差较大,表明模型预测值与实际值之间的平均差异较大,模型的准确性有待提高。
####多重判定系数(Multiple R-squared)为0.1424,表示自变量(居民消费价格指数和居民人均消费支出)仅解释了因变量地区生产总值总变异的14.24%,说明模型对因变量的解释能力较弱。
####调整后的判定系数(Adjusted R-squared)为0.0811,考虑了模型中自变量的个数,对多重判定系数进行了调整,使其更能反映模型的拟合优度。这里调整后的判定系数更低,进一步表明模型可能存在过拟合或自变量选择不合理等问题。
####F统计量为2.324,自由度为2和28,对应的p值为0.1165,大于0.05,这表明整个模型在统计上不显著,即自变量居民消费价格指数和居民人均消费支出作为一个整体对因变量地区生产总值的影响不具有统计学上的显著性。
###结论:该线性回归模型中,只有自变量居民人均消费支出对因变量地区生产总值有显著影响,居民消费价格指数的影响在统计上不显著。模型整体在统计上不显著,且拟合优度较低,残差标准误差较大。这表明该模型可能不是一个很好的拟合模型,需要进一步检查数据、考虑是否存在其他重要的自变量未纳入模型、或者对现有自变量进行变换等操作来改进模型,以提高模型的准确性和解释能力。例如,可以检查数据是否存在异常值、是否需要进行变量标准化,或者尝试添加其他可能相关的自变量等。
colnames(data) <- c( "y","x1", "x2", "x3", "x4", "x5")
KM<-kmeans(data[, c("y", "x1", "x2", "x3", "x4", "x5")], 2, nstart=20, algorithm="Hartigan-Wong") #聚类的个数为2
#初始随机集合的个数为20, 算法为"Hartigan-Wong"(默认)
KM$centers
## y x1 x2 x3 x4 x5
## 1 87485.60 167442.8 89475.20 100.3600 45258.20 30517.00
## 2 31288.61 107428.5 58017.81 100.1577 22205.12 16036.23
KM$cluster #对分类结果进行排序并查看
## 43760.7 16737.3 43944.1 25698.2 24627 30209.4 13531.2 15883.9
## 1 2 2 2 2 2 2 2
## 47218.7 128222.2 82553.2 47050.6 54355.1 32200.1 92068.7 59132.4
## 1 1 1 2 2 2 2 2
## 55803.6 50012.9 135673.2 27202.4 7551.2 30145.8 60132.9 20913.3
## 2 2 1 2 2 2 2 2
## 30021.1 2392.7 33786.1 11863.8 3799.1 5315 19125.9
## 2 2 2 2 2 2 2
KM
## K-means clustering with 2 clusters of sizes 5, 26
##
## Cluster means:
## y x1 x2 x3 x4 x5
## 1 87485.60 167442.8 89475.20 100.3600 45258.20 30517.00
## 2 31288.61 107428.5 58017.81 100.1577 22205.12 16036.23
##
## Clustering vector:
## 43760.7 16737.3 43944.1 25698.2 24627 30209.4 13531.2 15883.9
## 1 2 2 2 2 2 2 2
## 47218.7 128222.2 82553.2 47050.6 54355.1 32200.1 92068.7 59132.4
## 1 1 1 2 2 2 2 2
## 55803.6 50012.9 135673.2 27202.4 7551.2 30145.8 60132.9 20913.3
## 2 2 1 2 2 2 2 2
## 30021.1 2392.7 33786.1 11863.8 3799.1 5315 19125.9
## 2 2 2 2 2 2 2
##
## Within cluster sum of squares by cluster:
## [1] 20319170909 19957520583
## (between_SS / total_SS = 46.9 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
###K-means聚类结果,这次K-means聚类将数据分为了两个簇,但从簇内平方和以及组间平方和占比等指标来看,聚类效果还有一定的改进空间。可以考虑调整聚类的参数(如聚类个数、初始中心等),或者对数据进行预处理(如标准化、归一化等),以获得更好的聚类结果和更有意义的簇划分。同时,结合实际业务背景和数据特点,进一步分析不同簇的特征和含义,以便从聚类结果中获取更有价值的信息和 insights。
colnames(data) <- c( "y","x1", "x2", "x3", "x4", "x5")
KM<-kmeans(data[, c("y", "x1", "x2", "x3", "x4", "x5")], 4, nstart=30) #聚类的个数 k=4
KM$centers
## y x1 x2 x3 x4 x5
## 1 7159.06 131344.2 65420.00 100.300 22919.00 16883.40
## 2 45489.70 223824.5 108639.00 100.350 58109.00 38608.50
## 3 109629.32 124174.0 72786.00 100.300 34250.75 23162.25
## 4 34281.99 101464.5 56015.85 100.125 21790.40 15762.20
KM$cluster #对分类结果进行排序并查看
## 43760.7 16737.3 43944.1 25698.2 24627 30209.4 13531.2 15883.9
## 2 1 4 4 4 4 4 4
## 47218.7 128222.2 82553.2 47050.6 54355.1 32200.1 92068.7 59132.4
## 2 3 3 4 4 4 3 4
## 55803.6 50012.9 135673.2 27202.4 7551.2 30145.8 60132.9 20913.3
## 4 4 3 4 1 4 4 4
## 30021.1 2392.7 33786.1 11863.8 3799.1 5315 19125.9
## 4 1 4 4 1 1 4
KM
## K-means clustering with 4 clusters of sizes 5, 2, 4, 20
##
## Cluster means:
## y x1 x2 x3 x4 x5
## 1 7159.06 131344.2 65420.00 100.300 22919.00 16883.40
## 2 45489.70 223824.5 108639.00 100.350 58109.00 38608.50
## 3 109629.32 124174.0 72786.00 100.300 34250.75 23162.25
## 4 34281.99 101464.5 56015.85 100.125 21790.40 15762.20
##
## Clustering vector:
## 43760.7 16737.3 43944.1 25698.2 24627 30209.4 13531.2 15883.9
## 2 1 4 4 4 4 4 4
## 47218.7 128222.2 82553.2 47050.6 54355.1 32200.1 92068.7 59132.4
## 2 3 3 4 4 4 3 4
## 55803.6 50012.9 135673.2 27202.4 7551.2 30145.8 60132.9 20913.3
## 4 4 3 4 1 4 4 4
## 30021.1 2392.7 33786.1 11863.8 3799.1 5315 19125.9
## 4 1 4 4 1 1 4
##
## Within cluster sum of squares by cluster:
## [1] 2492514784 85767349 2865141619 6710884958
## (between_SS / total_SS = 84.0 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
###簇内平方和(Within cluster sum of squares by cluster)
####簇1的簇内平方和为2865141619,簇2为2492514784,簇3为6710884958,簇4为85767349。
####簇内平方和衡量了簇内数据点到簇中心的距离平方和,值越小表示簇内数据越紧密,聚类效果越好。这里簇4的簇内平方和相对较小,说明该簇内的数据点相对更集中;而簇3的簇内平方和较大,表明该簇内数据的离散程度较高。
###组间平方和与总平方和比例(between_SS / total_SS = 84.0 %):组间平方和占总平方和的比例为84.0%,这个比例较高,说明簇间的差异较大,聚类效果相对较好,不同簇之间能够较好地区分开。
####总体而言,此次K-means聚类将数据分为4个簇,从组间平方和占比来看,聚类效果较好,能够在一定程度上区分不同的数据模式。但不同簇的规模差异较大,且部分簇的簇内平方和较大,可能需要进一步分析数据特点和聚类结果的合理性,例如检查数据是否需要预处理(如标准化)、聚类个数是否合适等,以优化聚类结果和提高其可解释性。同时,可以结合实际业务背景和数据含义,对不同簇的特征和意义进行深入探讨,以便从聚类中获取更有价值的信息和洞察。