mid_23

Author

hjlee

중간고사 출제 문제

ggplot2패키지의 내장데이터인 mpg 데이터를 가지고, 1999년과 2008년의 미국 자동차 시장현황을 10개 이상의 관점에서 의미있는 인사이트를 도출하시오. (제조사, 차종 별 출시 현황과 연비를 중심으로 분석)

1. mpg data에 관하여

mpg data는 ggplot2 패키지의 내장데이터이다. mpg 데이터에는 1999년과 2008년에 출시된 234개 차량의 모델, 연비와 사양 데이터 등, 11개의 속성으로 구성된 데이터프레임/티블 형식의 데이터이다. (e = 이탄올(E85), d = 디젤, r = 가솔린, p = 고급 휘발유, c = CNG)

??mpg ## mpg 데이터란? / ?? Search the help system
##install.packages(ggplot2)
library(ggplot2) # ggplot2 package load
data(mpg) # mpg data load
par (family="AppleGothic") #### mac
?mpg # mpg data contents
str(mpg)
tibble [234 × 11] (S3: tbl_df/tbl/data.frame)
 $ manufacturer: chr [1:234] "audi" "audi" "audi" "audi" ...
 $ model       : chr [1:234] "a4" "a4" "a4" "a4" ...
 $ displ       : num [1:234] 1.8 1.8 2 2 2.8 2.8 3.1 1.8 1.8 2 ...
 $ year        : int [1:234] 1999 1999 2008 2008 1999 1999 2008 1999 1999 2008 ...
 $ cyl         : int [1:234] 4 4 4 4 6 6 6 4 4 4 ...
 $ trans       : chr [1:234] "auto(l5)" "manual(m5)" "manual(m6)" "auto(av)" ...
 $ drv         : chr [1:234] "f" "f" "f" "f" ...
 $ cty         : int [1:234] 18 21 20 21 16 18 18 18 16 20 ...
 $ hwy         : int [1:234] 29 29 31 30 26 26 27 26 25 28 ...
 $ fl          : chr [1:234] "p" "p" "p" "p" ...
 $ class       : chr [1:234] "compact" "compact" "compact" "compact" ...
is.data.frame(mpg)
[1] TRUE
View(mpg)
head(mpg)
# A tibble: 6 × 11
  manufacturer model displ  year   cyl trans      drv     cty   hwy fl    class 
  <chr>        <chr> <dbl> <int> <int> <chr>      <chr> <int> <int> <chr> <chr> 
1 audi         a4      1.8  1999     4 auto(l5)   f        18    29 p     compa…
2 audi         a4      1.8  1999     4 manual(m5) f        21    29 p     compa…
3 audi         a4      2    2008     4 manual(m6) f        20    31 p     compa…
4 audi         a4      2    2008     4 auto(av)   f        21    30 p     compa…
5 audi         a4      2.8  1999     6 auto(l5)   f        16    26 p     compa…
6 audi         a4      2.8  1999     6 manual(m5) f        18    26 p     compa…

2. mpg 데이터의 기술 통계 (Descriptive analysis)

데이터 형식은 정수형(int), 숫자형(num), 문자형(chr)으로 되어 있는데, 문자형 데이터에서 manufacturer, year, trans, drv, fl, class는 범주형(factor)로 전환하는 것이 필요하다.

summary(mpg)
 manufacturer          model               displ            year     
 Length:234         Length:234         Min.   :1.600   Min.   :1999  
 Class :character   Class :character   1st Qu.:2.400   1st Qu.:1999  
 Mode  :character   Mode  :character   Median :3.300   Median :2004  
                                       Mean   :3.472   Mean   :2004  
                                       3rd Qu.:4.600   3rd Qu.:2008  
                                       Max.   :7.000   Max.   :2008  
      cyl           trans               drv                 cty       
 Min.   :4.000   Length:234         Length:234         Min.   : 9.00  
 1st Qu.:4.000   Class :character   Class :character   1st Qu.:14.00  
 Median :6.000   Mode  :character   Mode  :character   Median :17.00  
 Mean   :5.889                                         Mean   :16.86  
 3rd Qu.:8.000                                         3rd Qu.:19.00  
 Max.   :8.000                                         Max.   :35.00  
      hwy             fl               class          
 Min.   :12.00   Length:234         Length:234        
 1st Qu.:18.00   Class :character   Class :character  
 Median :24.00   Mode  :character   Mode  :character  
 Mean   :23.44                                        
 3rd Qu.:27.00                                        
 Max.   :44.00                                        
mpg_n <-mpg
mpg_n$manufacturer <-as.factor(mpg$manufacturer)
mpg_n$year <-as.factor(mpg$year)
mpg_n$trans <-as.factor(mpg$trans)
mpg_n$drv <-as.factor(mpg$drv)
mpg_n$fl <-as.factor(mpg$fl)
mpg_n$class <-as.factor(mpg$class)
summary(mpg_n)
     manufacturer    model               displ         year          cyl       
 dodge     :37    Length:234         Min.   :1.600   1999:117   Min.   :4.000  
 toyota    :34    Class :character   1st Qu.:2.400   2008:117   1st Qu.:4.000  
 volkswagen:27    Mode  :character   Median :3.300              Median :6.000  
 ford      :25                       Mean   :3.472              Mean   :5.889  
 chevrolet :19                       3rd Qu.:4.600              3rd Qu.:8.000  
 audi      :18                       Max.   :7.000              Max.   :8.000  
 (Other)   :74                                                                 
        trans    drv          cty             hwy        fl     
 auto(l4)  :83   4:103   Min.   : 9.00   Min.   :12.00   c:  1  
 manual(m5):58   f:106   1st Qu.:14.00   1st Qu.:18.00   d:  5  
 auto(l5)  :39   r: 25   Median :17.00   Median :24.00   e:  8  
 manual(m6):19           Mean   :16.86   Mean   :23.44   p: 52  
 auto(s6)  :16           3rd Qu.:19.00   3rd Qu.:27.00   r:168  
 auto(l6)  : 6           Max.   :35.00   Max.   :44.00          
 (Other)   :13                                                  
        class   
 2seater   : 5  
 compact   :47  
 midsize   :41  
 minivan   :11  
 pickup    :33  
 subcompact:35  
 suv       :62  

Manufacturer는 dodge가 가장 많고, 99년, 08년 모델이 117개씩 있으며, auto(l4) 유형이 가장 많고, 구동 방식은 4륜, 전륜 구동이 많다. fl 타입은 r타입이 다수이고, 차량 유형은 suv>compact>midsize 순이다.

library(psych)

Attaching package: 'psych'
The following objects are masked from 'package:ggplot2':

    %+%, alpha
describe(mpg_n)
              vars   n  mean    sd median trimmed   mad  min max range  skew
manufacturer*    1 234  7.76  5.13    6.0    7.68  5.93  1.0  15  14.0  0.21
model*           2 234 19.09 11.15   18.5   18.98 14.08  1.0  38  37.0  0.11
displ            3 234  3.47  1.29    3.3    3.39  1.33  1.6   7   5.4  0.44
year*            4 234  1.50  0.50    1.5    1.50  0.74  1.0   2   1.0  0.00
cyl              5 234  5.89  1.61    6.0    5.86  2.97  4.0   8   4.0  0.11
trans*           6 234  5.65  2.88    4.0    5.53  1.48  1.0  10   9.0  0.29
drv*             7 234  1.67  0.66    2.0    1.59  1.48  1.0   3   2.0  0.48
cty              8 234 16.86  4.26   17.0   16.61  4.45  9.0  35  26.0  0.79
hwy              9 234 23.44  5.95   24.0   23.23  7.41 12.0  44  32.0  0.36
fl*             10 234  4.63  0.70    5.0    4.77  0.00  1.0   5   4.0 -2.25
class*          11 234  4.59  1.99    5.0    4.64  2.97  1.0   7   6.0 -0.14
              kurtosis   se
manufacturer*    -1.63 0.34
model*           -1.23 0.73
displ            -0.91 0.08
year*            -2.01 0.03
cyl              -1.46 0.11
trans*           -1.65 0.19
drv*             -0.76 0.04
cty               1.43 0.28
hwy               0.14 0.39
fl*               5.76 0.05
class*           -1.52 0.13

시내 연비의 평균값은 16.86, 고속도로 연비의 평균은 23.44로 고속도로 연비가 더 높다.

3. 시내 및 고속도로 연비 비교 (Box plot)

데이터에 입력된 모든 차종의 시내 및 고속도로 연비값 범위를 분석하였다.

boxplot(mpg_n$cty, mpg_n$hwy, col = "lightblue3",
     lwd = 1, #line width
     main = "시내와 고속도로 연비비교",
     xlab = "좌: 시내 연비, 우:고속도로 연비",
     ylab = "연비(mile/gallon)", family="AppleGothic")

시내 연비는 값의 범위가 좁은 편이고, 고연비 이상치가 더 많았다. 고속도로 연비는 범위가 넓고, 연비가 상대적으로 높으며, 연비순 25%-50% 사이의 범위가 넓다.(50-75% 연비순의 범위는 조밀하다. 값 차이가 적다.)

4. 제조사별 차량 사양 수 비교

plot(mpg_n$manufacturer, horiz=T, las=1, col="yellow3",cex.names = 0.8, main = "제조사별 차량 사양 출시 수 비교")

dodge, toyota, folkswagen, ford 등이 출시 사양수 상위권이고, 현대차는 subaru, nissan, audi, chevrolet과 중위권 정도의 사양수를 출시하고 있다.

5. 차량 타입별 사양 수 비교

plot(mpg_n$class, las=1, horiz=T,col="pink3",main = "차량 타입별 사양 수 비교", cex.names = 0.8)

미국 시장은 suv차종이 주류를 이루고, compact, sub compact와 midsize가 그 다음으로 많다.

6. 2008년과 1999년의 연비 차이 비교

boxplot(mpg_n$cty ~mpg_n$year, col="lightgreen",  main = "1999년과 2008년의 시내 연비 비교")

연비의 중앙값은 유사한데, 2008년에 연비 분포가 더 넓어졌다. 1999년에 비하여 연비 성능이 더 좋아지지는 않았다.

7. 차량 유형별 연비 차이 비교

par(family="AppleGothic") #mac
library(lattice)
histogram(~mpg_n$cty|mpg_n$class , type="count", col="yellow2",mpg_n, main = "City mpg by car type") ##mac한글 안나옴 

compact 계열의 차량이 연비가 높은 편이고, 연비 분포도 넓다. suv중 저연비 사양이 많다.

8. 제조사별 연비 차이 비교

histogram(~mpg_n$cty|mpg_n$manufacturer , type="count",mpg_n, main = "City mpg by manufactuer",family="AppleGothic") ## mac 한글 안나옴 

boxplot(mpg_n$cty ~mpg_n$manufacturer, col="pink", horizontal =T, las=1, cex.axis=0.8,main = "제조사별 시내 연비 비교", ylab="", family="AppleGothic")

혼다 차종의 연비가 가장 높고, 폭스바겐, 스바루, 현대의 연비 분포가 높은 편이다. 링컨은 연비가 가장 낮다. 토요타는 가장 넓은 연비 분포를 가지고 있다.

9. 현대 자동차의 사양 현황

mpg_hyundai <-mpg_n[(mpg_n$manufacturer=="hyundai"),]
mpg_hyundai
# A tibble: 14 × 11
   manufacturer model   displ year    cyl trans    drv     cty   hwy fl    class
   <fct>        <chr>   <dbl> <fct> <int> <fct>    <fct> <int> <int> <fct> <fct>
 1 hyundai      sonata    2.4 1999      4 auto(l4) f        18    26 r     mids…
 2 hyundai      sonata    2.4 1999      4 manual(… f        18    27 r     mids…
 3 hyundai      sonata    2.4 2008      4 auto(l4) f        21    30 r     mids…
 4 hyundai      sonata    2.4 2008      4 manual(… f        21    31 r     mids…
 5 hyundai      sonata    2.5 1999      6 auto(l4) f        18    26 r     mids…
 6 hyundai      sonata    2.5 1999      6 manual(… f        18    26 r     mids…
 7 hyundai      sonata    3.3 2008      6 auto(l5) f        19    28 r     mids…
 8 hyundai      tiburon   2   1999      4 auto(l4) f        19    26 r     subc…
 9 hyundai      tiburon   2   1999      4 manual(… f        19    29 r     subc…
10 hyundai      tiburon   2   2008      4 manual(… f        20    28 r     subc…
11 hyundai      tiburon   2   2008      4 auto(l4) f        20    27 r     subc…
12 hyundai      tiburon   2.7 2008      6 auto(l4) f        17    24 r     subc…
13 hyundai      tiburon   2.7 2008      6 manual(… f        16    24 r     subc…
14 hyundai      tiburon   2.7 2008      6 manual(… f        17    24 r     subc…
View(mpg_hyundai)
mpg_hyundai$model <- as.factor(mpg_hyundai$model)
xyplot(mpg_hyundai$cty ~mpg_hyundai$model| mpg_hyundai$year, ylim=c(0,30), jitter.x=4,data=mpg_hyundai) 

현대자동차는 sonata(midsize) 7종, tiburon(subcombact) 7종의 사양들이 출시되어 있다. 미국에서 가장 다양한 사양이 출시되는 suv 카테고리가 없습니다. 차종의 다양성이 적다. 1999년과 2008년의 출시 사양수와 시내 연비를 보면, 소나타는 연비가 개선되었고, 티뷰론은 배기량이 큰 사양을 출시하면서, 연비 개선과 관계없이 사양수가 증가하였다.

10. 연비와 배기량, 시내 연비와 고속도로 연비의 상관 관계

plot(mpg_n$cty, mpg_n$displ, col="red", pch=19, main = "연비와 배기량의 상관관계 비교",family="AppleGothic")

plot(mpg_n$cty, mpg_n$hwy, col="blue", pch=8, main = "시내 연비와 고속도로 연비의 상관관계 비교",family="AppleGothic")

배기량이 크면 연비는 낮은 편이어서 음의 상관 관계이고, 같은 연비 대비 배기량 분포가 넓다. 시내 연비가 높을 수록 고속도로 연비도 높은 양의 상관관계이지만 같은 시내 연비에서도 폭넓은 고속도로 연비 범위가 존재하여, 사양에 따라 구성 분포는 넓은 편이다.

11. 1999년, 2008년의 미국 자동차 시장 사양 및 연비 현황 요약

  1. 1999년과 2008년에 출시된 234개 차량 사양 분셕 결과 Manufacturer는 dodge가 가장 많고, 99년, 08년 모델이 117개씩 있으며, auto(l4) 유형이 가장 많고, 구동 방식은 4륜, 전륜 구동이 많다. fl 타입은 r타입이 다수이고, 차량 유형은 suv>compact>midsize 순이다.
  2. odge, toyota, folkswagen, ford 등이 출시 사양수 상위권이고, 현대차는 subaru, nissan, audi, chevrolet과 중위권 정도의 사양수를 출시하고 있다. 미국 시장은 suv차종이 주류를 이루고, compact+sub compact와 midsize가 그 다음으로 많다.
  3. 현대자동차는 sonata(midsize) 7종, tiburon(subcombact) 7종의 사양들이 출시되어 있다. 미국에서 가장 다양한 사양이 출시되는 suv 카테고리가 없다. 차종의 다양성이 적다.
  4. 시내 연비의 평균값은 17.0, 고속도로 연비의 평균은 24.0으로 고속도로 연비가 더 높다. 시내 연비는 값의 범위가 좁은 편이고, 고연비 이상치가 더 많았다. 고속도로 연비는 범위가 넓고, 연비가 상대적으로 높으며, 연비순 25%-50% 사이의 범위가 넓다.(50-75% 연비순의 범위는 조밀하다. 값 차이가 적다.)
  5. 1999년과 2008년의 연비 중앙값은 유사한데, 2008년에 연비 분포가 더 넓어졌다. 1999년에 비하여 연비 성능이 더 좋아지지는 않았다. compact 계열의 차량이 연비가 높은 편이고, 연비 분포도 넓다. suv중 저연비 사양이 많다. 제조사 별로는 혼다 차종의 연비가 가장 높고, 폭스바겐, 스바루, 현대의 연비가 높은 편이다. 링컨은 연비가 가장 낮다. 토요타는 가장 넓은 연비 분포를 가지고 있다.
  6. 사양 속성의 상관 관계를 보면, 배기량이 크면 연비는 낮은 편이어서 음의 상관 관계이고, 같은 연비 대비 배기량 분포가 넓다. 시내 연비가 높을 수록 고속도로 연비도 높은 양의 상관관계이지만 같은 시내 연비에서도 폭넓은 고속도로 연비 범위가 존재하여, 사양에 따라 연비 구성 분포는 넓은 편이다.