Анализ главных компонент

Средние значения и дисперсия каждого регрессора.

##       Sales   CompPrice      Income Advertising  Population       Price 
##    7.496325  124.975000   68.657500    6.635000  264.840000  115.795000 
##   ShelveLoc         Age   Education       Urban          US 
##    2.307500   53.322500   13.900000    1.705000    1.645000
##        Sales    CompPrice       Income  Advertising   Population 
## 7.975626e+00 2.351472e+02 7.832182e+02 4.422734e+01 2.171981e+04 
##        Price    ShelveLoc          Age    Education        Urban 
## 5.605844e+02 6.946805e-01 2.624496e+02 6.867168e+00 2.084962e-01 
##           US 
## 2.295489e-01

Стоит отметить, что функция центрированных переменных выдает нам также средние значения каждого регрессора. По последнему графику видно, что нам достаточно 6 компонент. Они суммарно объясняют более 70% дисперсии.

## [1] "sdev"     "rotation" "center"   "scale"    "x"
##       Sales   CompPrice      Income Advertising  Population       Price 
##    7.496325  124.975000   68.657500    6.635000  264.840000  115.795000 
##   ShelveLoc         Age   Education       Urban          US 
##    2.307500   53.322500   13.900000    1.705000    1.645000

Кластеризация

Кластеризация по методу К средних

K=2. Разбиение на 2 кластеры мне не кажется наилучшим вариантом, так как некоторые значения из разных кластеров находятся почти на 1 горизонтальной линии.

K=3. Разбиение на 3 кластера следует считать приемлемым. Стоит отметить, что при nstart больше 1, внутриклассовая дисперсия такая же, что и при nstart=1.

## [1] 1207487
## [1] 1207487

Иерархическая кластеризация

Из 3 графиков четко видно, что в первом, где полное присоединение, кластеров меньше, поэтому используем этот метод.

Суммарный отчет по регрессионной модели 1 кластера и средняя ошибка.

## 
## Call:
## lm(formula = Sales ~ . - y - Education - Urban - US - Population, 
##     data = kl1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.1763 -1.3078 -0.4679  0.9787  4.8264 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.592410   1.245299   4.491 1.13e-05 ***
## CompPrice    0.086059   0.010027   8.583 1.51e-15 ***
## Income       0.017515   0.004365   4.012 8.17e-05 ***
## Advertising  0.125081   0.017726   7.056 2.07e-11 ***
## Price       -0.084735   0.006895 -12.289  < 2e-16 ***
## ShelveLoc    0.553607   0.149832   3.695 0.000276 ***
## Age         -0.044294   0.007622  -5.812 2.09e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.899 on 226 degrees of freedom
## Multiple R-squared:  0.5303, Adjusted R-squared:  0.5179 
## F-statistic: 42.53 on 6 and 226 DF,  p-value: < 2.2e-16
## [1] 7

Суммарный отчет по регрессионной модели 2 кластера и средняя ошибка.

## 
## Call:
## lm(formula = Sales ~ . - y - Urban - US - Education, data = kl2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.4709 -1.4401 -0.3289  1.3373  4.5759 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.412661   3.669216   0.385 0.701114    
## CompPrice    0.114058   0.018960   6.016 3.50e-08 ***
## Income       0.018691   0.009308   2.008 0.047533 *  
## Advertising  0.123245   0.035780   3.445 0.000860 ***
## Population   0.012204   0.005344   2.284 0.024662 *  
## Price       -0.094146   0.010326  -9.117 1.51e-14 ***
## ShelveLoc    0.672611   0.249680   2.694 0.008379 ** 
## Age         -0.050143   0.012539  -3.999 0.000128 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.945 on 93 degrees of freedom
## Multiple R-squared:  0.6104, Adjusted R-squared:  0.5811 
## F-statistic: 20.82 on 7 and 93 DF,  p-value: < 2.2e-16
## [1] 11

Суммарный отчет по регрессионной модели 3 кластера и средняя ошибка.

## 
## Call:
## lm(formula = Sales ~ . - y - US - Population - Urban - Income, 
##     data = kl3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.1967 -1.0196 -0.2340  0.9718  3.6443 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.961112   2.211580   3.600 0.000653 ***
## CompPrice    0.105466   0.014307   7.372 6.34e-10 ***
## Advertising  0.165218   0.039166   4.218 8.59e-05 ***
## Price       -0.109937   0.009689 -11.347  < 2e-16 ***
## ShelveLoc    0.621614   0.227063   2.738 0.008167 ** 
## Age         -0.040954   0.012862  -3.184 0.002318 ** 
## Education   -0.117870   0.068204  -1.728 0.089185 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.496 on 59 degrees of freedom
## Multiple R-squared:  0.7544, Adjusted R-squared:  0.7294 
## F-statistic: 30.21 on 6 and 59 DF,  p-value: 2.865e-16
## [1] 8