Анализ главных компонент

Средние значения и дисперсия каждого регрессора.

##               Type          Min.Price              Price 
##           3.024390          16.826829          19.170732 
##          Max.Price           MPG.city        MPG.highway 
##          21.515854          23.085366          29.975610 
##            AirBags         DriveTrain          Cylinders 
##           2.146341           2.109756           2.780488 
##         EngineSize         Horsepower                RPM 
##           2.589024         139.951220        5328.048780 
##       Rev.per.mile    Man.trans.avail Fuel.tank.capacity 
##        2367.865854           1.682927          16.113415 
##         Passengers             Length          Wheelbase 
##           4.939024         183.158537         103.207317 
##              Width        Turn.circle     Rear.seat.room 
##          68.902439          38.621951          27.536585 
##       Luggage.room             Weight             Origin 
##          13.890244        2988.170732           1.487805
##               Type          Min.Price              Price 
##       1.777176e+00       7.960125e+01       9.918802e+01 
##          Max.Price           MPG.city        MPG.highway 
##       1.310186e+02       3.128892e+01       2.511051e+01 
##            AirBags         DriveTrain          Cylinders 
##       5.215297e-01       2.223728e-01       1.284553e+00 
##         EngineSize         Horsepower                RPM 
##       1.008150e+00       2.606615e+03       3.407468e+05 
##       Rev.per.mile    Man.trans.avail Fuel.tank.capacity 
##       2.472901e+05       2.192111e-01       9.061670e+00 
##         Passengers             Length          Wheelbase 
##       5.024089e-01       2.332955e+02       4.182069e+01 
##              Width        Turn.circle     Rear.seat.room 
##       1.364469e+01       1.001581e+01       8.072719e+00 
##       Luggage.room             Weight             Origin 
##       8.987805e+00       3.202836e+05       2.529359e-01

Стоит отметить, что функция центрированных переменных выдает нам также средние значения каждого регрессора. По последнему графику видно, что нам достаточно 2 компонент. Они суммарно объясняют более 70% дисперсии.

##               Type          Min.Price              Price 
##           3.024390          16.826829          19.170732 
##          Max.Price           MPG.city        MPG.highway 
##          21.515854          23.085366          29.975610 
##            AirBags         DriveTrain          Cylinders 
##           2.146341           2.109756           2.780488 
##         EngineSize         Horsepower                RPM 
##           2.589024         139.951220        5328.048780 
##       Rev.per.mile    Man.trans.avail Fuel.tank.capacity 
##        2367.865854           1.682927          16.113415 
##         Passengers             Length          Wheelbase 
##           4.939024         183.158537         103.207317 
##              Width        Turn.circle     Rear.seat.room 
##          68.902439          38.621951          27.536585 
##       Luggage.room             Weight             Origin 
##          13.890244        2988.170732           1.487805

Кластеризация

Кластеризация по методу К средних

K=2. Разбиение на 2 кластеры мне не кажется наилучшим вариантом, так как некоторые значения из разных кластеров находятся почти впритирку.

##  [1] 1 1 1 1 1 2 2 2 2 2 1 2 2 2 1 2 1 2 2 1 2 2 2 1 1 1 2 1 2 2 2 2 2 1 1
## [36] 1 1 1 2 1 2 1 1 1 1 2 2 2 2 1 2 1 2 2 1 1 1 1 2 1 2 2 2 1 2 2 2 2 1 2
## [71] 2 1 1 1 2 1 1 2 1 1 2 1

K=3. Разбиение на 3 кластера следует считать приемлемым. Стоит отметить, что при nstart больше 1, внутриклассовая дисперсия больше, чем при nstart=1.

## [1] 6491824
## [1] 6448973

Иерархическая кластеризация

Из 3 графиков четко видно, что в первом, где полное присоединение, кластеров меньше, поэтому используем этот метод.