ggplot2패키지의 내장데이터인 mpg 데이터를 가지고, 1999년과 2008년의 미국 자동차 시장현황을 10개 이상의 관점에서 의미있는 인사이트를 도출하시오. (제조사, 차종 별 출시 현황과 연비를 중심으로 분석)
1. mpg data에 관하여
mpg data는 ggplot2 패키지의 내장데이터이다. mpg 데이터에는 1999년과 2008년에 출시된 234개 차량의 모델, 연비와 사양 데이터 등, 11개의 속성으로 구성된 데이터프레임/티블 형식의 데이터이다. (e = 이탄올(E85), d = 디젤, r = 가솔린, p = 고급 휘발유, c = CNG)
??mpg ## mpg 데이터란? / ?? Search the help system##install.packages(ggplot2)library(ggplot2) # ggplot2 package loaddata(mpg) # mpg data loadpar (family="AppleGothic") #### mac?mpg # mpg data contentsstr(mpg)
# A tibble: 6 × 11
manufacturer model displ year cyl trans drv cty hwy fl class
<chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compa…
2 audi a4 1.8 1999 4 manual(m5) f 21 29 p compa…
3 audi a4 2 2008 4 manual(m6) f 20 31 p compa…
4 audi a4 2 2008 4 auto(av) f 21 30 p compa…
5 audi a4 2.8 1999 6 auto(l5) f 16 26 p compa…
6 audi a4 2.8 1999 6 manual(m5) f 18 26 p compa…
2. mpg 데이터의 기술 통계 (Descriptive analysis)
데이터 형식은 정수형(int), 숫자형(num), 문자형(chr)으로 되어 있는데, 문자형 데이터에서 manufacturer, year, trans, drv, fl, class는 범주형(factor)로 전환하는 것이 필요하다.
summary(mpg)
manufacturer model displ year
Length:234 Length:234 Min. :1.600 Min. :1999
Class :character Class :character 1st Qu.:2.400 1st Qu.:1999
Mode :character Mode :character Median :3.300 Median :2004
Mean :3.472 Mean :2004
3rd Qu.:4.600 3rd Qu.:2008
Max. :7.000 Max. :2008
cyl trans drv cty
Min. :4.000 Length:234 Length:234 Min. : 9.00
1st Qu.:4.000 Class :character Class :character 1st Qu.:14.00
Median :6.000 Mode :character Mode :character Median :17.00
Mean :5.889 Mean :16.86
3rd Qu.:8.000 3rd Qu.:19.00
Max. :8.000 Max. :35.00
hwy fl class
Min. :12.00 Length:234 Length:234
1st Qu.:18.00 Class :character Class :character
Median :24.00 Mode :character Mode :character
Mean :23.44
3rd Qu.:27.00
Max. :44.00
시내 연비의 평균값은 16.86, 고속도로 연비의 평균은 23.44로 고속도로 연비가 더 높다.
3. 시내 및 고속도로 연비 비교 (Box plot)
데이터에 입력된 모든 차종의 시내 및 고속도로 연비값 범위를 분석하였다.
boxplot(mpg_n$cty, mpg_n$hwy, col ="lightblue3",lwd =1, #line widthmain ="시내와 고속도로 연비비교",xlab ="좌: 시내 연비, 우:고속도로 연비",ylab ="연비(mile/gallon)", family="AppleGothic")
시내 연비는 값의 범위가 좁은 편이고, 고연비 이상치가 더 많았다. 고속도로 연비는 범위가 넓고, 연비가 상대적으로 높으며, 연비순 25%-50% 사이의 범위가 넓다.(50-75% 연비순의 범위는 조밀하다. 값 차이가 적다.)
4. 제조사별 차량 사양 수 비교
plot(mpg_n$manufacturer, horiz=T, las=1, col="yellow3",cex.names =0.8, main ="제조사별 차량 사양 출시 수 비교")
dodge, toyota, folkswagen, ford 등이 출시 사양수 상위권이고, 현대차는 subaru, nissan, audi, chevrolet과 중위권 정도의 사양수를 출시하고 있다.
5. 차량 타입별 사양 수 비교
plot(mpg_n$class, las=1, horiz=T,col="pink3",main ="차량 타입별 사양 수 비교", cex.names =0.8)
미국 시장은 suv차종이 주류를 이루고, compact, sub compact와 midsize가 그 다음으로 많다.
6. 2008년과 1999년의 연비 차이 비교
boxplot(mpg_n$cty ~mpg_n$year, col="lightgreen", main ="1999년과 2008년의 시내 연비 비교")
연비의 중앙값은 유사한데, 2008년에 연비 분포가 더 넓어졌다. 1999년에 비하여 연비 성능이 더 좋아지지는 않았다.
7. 차량 유형별 연비 차이 비교
par(family="AppleGothic") #maclibrary(lattice)histogram(~mpg_n$cty|mpg_n$class , type="count", col="yellow2",mpg_n, main ="City mpg by car type") ##mac한글 안나옴
compact 계열의 차량이 연비가 높은 편이고, 연비 분포도 넓다. suv중 저연비 사양이 많다.
8. 제조사별 연비 차이 비교
histogram(~mpg_n$cty|mpg_n$manufacturer , type="count",mpg_n, main ="City mpg by manufactuer",family="AppleGothic") ## mac 한글 안나옴
현대자동차는 sonata(midsize) 7종, tiburon(subcombact) 7종의 사양들이 출시되어 있다. 미국에서 가장 다양한 사양이 출시되는 suv 카테고리가 없습니다. 차종의 다양성이 적다. 1999년과 2008년의 출시 사양수와 시내 연비를 보면, 소나타는 연비가 개선되었고, 티뷰론은 배기량이 큰 사양을 출시하면서, 연비 개선과 관계없이 사양수가 증가하였다.
10. 연비와 배기량, 시내 연비와 고속도로 연비의 상관 관계
plot(mpg_n$cty, mpg_n$displ, col="red", pch=19, main ="연비와 배기량의 상관관계 비교",family="AppleGothic")
plot(mpg_n$cty, mpg_n$hwy, col="blue", pch=8, main ="시내 연비와 고속도로 연비의 상관관계 비교",family="AppleGothic")
배기량이 크면 연비는 낮은 편이어서 음의 상관 관계이고, 같은 연비 대비 배기량 분포가 넓다. 시내 연비가 높을 수록 고속도로 연비도 높은 양의 상관관계이지만 같은 시내 연비에서도 폭넓은 고속도로 연비 범위가 존재하여, 사양에 따라 구성 분포는 넓은 편이다.
11. 1999년, 2008년의 미국 자동차 시장 사양 및 연비 현황 요약
1999년과 2008년에 출시된 234개 차량 사양 분셕 결과 Manufacturer는 dodge가 가장 많고, 99년, 08년 모델이 117개씩 있으며, auto(l4) 유형이 가장 많고, 구동 방식은 4륜, 전륜 구동이 많다. fl 타입은 r타입이 다수이고, 차량 유형은 suv>compact>midsize 순이다.
odge, toyota, folkswagen, ford 등이 출시 사양수 상위권이고, 현대차는 subaru, nissan, audi, chevrolet과 중위권 정도의 사양수를 출시하고 있다. 미국 시장은 suv차종이 주류를 이루고, compact+sub compact와 midsize가 그 다음으로 많다.
현대자동차는 sonata(midsize) 7종, tiburon(subcombact) 7종의 사양들이 출시되어 있다. 미국에서 가장 다양한 사양이 출시되는 suv 카테고리가 없다. 차종의 다양성이 적다.
시내 연비의 평균값은 17.0, 고속도로 연비의 평균은 24.0으로 고속도로 연비가 더 높다. 시내 연비는 값의 범위가 좁은 편이고, 고연비 이상치가 더 많았다. 고속도로 연비는 범위가 넓고, 연비가 상대적으로 높으며, 연비순 25%-50% 사이의 범위가 넓다.(50-75% 연비순의 범위는 조밀하다. 값 차이가 적다.)
1999년과 2008년의 연비 중앙값은 유사한데, 2008년에 연비 분포가 더 넓어졌다. 1999년에 비하여 연비 성능이 더 좋아지지는 않았다. compact 계열의 차량이 연비가 높은 편이고, 연비 분포도 넓다. suv중 저연비 사양이 많다. 제조사 별로는 혼다 차종의 연비가 가장 높고, 폭스바겐, 스바루, 현대의 연비가 높은 편이다. 링컨은 연비가 가장 낮다. 토요타는 가장 넓은 연비 분포를 가지고 있다.
사양 속성의 상관 관계를 보면, 배기량이 크면 연비는 낮은 편이어서 음의 상관 관계이고, 같은 연비 대비 배기량 분포가 넓다. 시내 연비가 높을 수록 고속도로 연비도 높은 양의 상관관계이지만 같은 시내 연비에서도 폭넓은 고속도로 연비 범위가 존재하여, 사양에 따라 연비 구성 분포는 넓은 편이다.