Средние значения и дисперсия каждого регрессора.
## Sales CompPrice Income Advertising Population Price
## 7.496325 124.975000 68.657500 6.635000 264.840000 115.795000
## ShelveLoc Age Education Urban US
## 2.307500 53.322500 13.900000 1.705000 1.645000
## Sales CompPrice Income Advertising Population
## 7.975626e+00 2.351472e+02 7.832182e+02 4.422734e+01 2.171981e+04
## Price ShelveLoc Age Education Urban
## 5.605844e+02 6.946805e-01 2.624496e+02 6.867168e+00 2.084962e-01
## US
## 2.295489e-01
Стоит отметить, что функция центрированных переменных выдает нам также средние значения каждого регрессора. По последнему графику видно, что нам достаточно 6 компонент. Они суммарно объясняют более 70% дисперсии.
## [1] "sdev" "rotation" "center" "scale" "x"
## Sales CompPrice Income Advertising Population Price
## 7.496325 124.975000 68.657500 6.635000 264.840000 115.795000
## ShelveLoc Age Education Urban US
## 2.307500 53.322500 13.900000 1.705000 1.645000
K=2. Разбиение на 2 кластеры мне не кажется наилучшим вариантом, так как некоторые значения из разных кластеров находятся почти на 1 горизонтальной линии.
K=3. Разбиение на 3 кластера следует считать приемлемым. Стоит отметить, что при nstart больше 1, внутриклассовая дисперсия такая же, что и при nstart=1.
## [1] 1207487
## [1] 1207487
Из 3 графиков четко видно, что в первом, где полное присоединение, кластеров меньше, поэтому используем этот метод.
Суммарный отчет по регрессионной модели 1 кластера и средняя ошибка.
##
## Call:
## lm(formula = Sales ~ . - y - Education - Urban - US - Population,
## data = kl1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.1763 -1.3078 -0.4679 0.9787 4.8264
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.592410 1.245299 4.491 1.13e-05 ***
## CompPrice 0.086059 0.010027 8.583 1.51e-15 ***
## Income 0.017515 0.004365 4.012 8.17e-05 ***
## Advertising 0.125081 0.017726 7.056 2.07e-11 ***
## Price -0.084735 0.006895 -12.289 < 2e-16 ***
## ShelveLoc 0.553607 0.149832 3.695 0.000276 ***
## Age -0.044294 0.007622 -5.812 2.09e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.899 on 226 degrees of freedom
## Multiple R-squared: 0.5303, Adjusted R-squared: 0.5179
## F-statistic: 42.53 on 6 and 226 DF, p-value: < 2.2e-16
## [1] 7
Суммарный отчет по регрессионной модели 2 кластера и средняя ошибка.
##
## Call:
## lm(formula = Sales ~ . - y - Urban - US - Education, data = kl2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.4709 -1.4401 -0.3289 1.3373 4.5759
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.412661 3.669216 0.385 0.701114
## CompPrice 0.114058 0.018960 6.016 3.50e-08 ***
## Income 0.018691 0.009308 2.008 0.047533 *
## Advertising 0.123245 0.035780 3.445 0.000860 ***
## Population 0.012204 0.005344 2.284 0.024662 *
## Price -0.094146 0.010326 -9.117 1.51e-14 ***
## ShelveLoc 0.672611 0.249680 2.694 0.008379 **
## Age -0.050143 0.012539 -3.999 0.000128 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.945 on 93 degrees of freedom
## Multiple R-squared: 0.6104, Adjusted R-squared: 0.5811
## F-statistic: 20.82 on 7 and 93 DF, p-value: < 2.2e-16
## [1] 11
Суммарный отчет по регрессионной модели 3 кластера и средняя ошибка.
##
## Call:
## lm(formula = Sales ~ . - y - US - Population - Urban - Income,
## data = kl3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.1967 -1.0196 -0.2340 0.9718 3.6443
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.961112 2.211580 3.600 0.000653 ***
## CompPrice 0.105466 0.014307 7.372 6.34e-10 ***
## Advertising 0.165218 0.039166 4.218 8.59e-05 ***
## Price -0.109937 0.009689 -11.347 < 2e-16 ***
## ShelveLoc 0.621614 0.227063 2.738 0.008167 **
## Age -0.040954 0.012862 -3.184 0.002318 **
## Education -0.117870 0.068204 -1.728 0.089185 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.496 on 59 degrees of freedom
## Multiple R-squared: 0.7544, Adjusted R-squared: 0.7294
## F-statistic: 30.21 on 6 and 59 DF, p-value: 2.865e-16
## [1] 8