Data Literacy Intro_workshop: Data ver.2023

Author

Hyun Jhin Lee

소개의 글

안녕하세요. 본 장에서는 여러분들이 빅데이터 수업에서 어떤 것을 공부하고, 어떤 능력을 갖게되는지를 엿볼수 있는 데이터 기반 디자인 실습 페이지 입니다. 안내에 따라 데이터를 활용하는 디자이너는 어떻게 리서치하는지를 체험해보세요.

오늘 여러분은 현대자동차의 디자이너라고 가정합시다. 미국 시장에 출시될 신제품 차량의 기능 사양을 정의하기 위하여 기존 출시된 인기 차량의 사양 분석을 요청 받았습니다. 회사에서는2023년 미국에서 출시하는 주요 자동차 모델의 사양 데이터와 연비 관측 데이터를 제공했어요. 2024년 현대차는 어떤 기능 사양(spec)의 미주향 디자인이 필요한 걸까요?

미국 시장에 출시된 차량 사양 데이터 열기

  1. 데이터의 내용 이해를 위하여 알아둘 용어들은 다음과 같습니다.

    EngDispl(engine displacement) 엔진 배기량

    Transmission (type of transmission) 변속 형태

    Drive Sys(he type of drive train) 구동 방식 (F = front-wheel drive, R= rear wheel drive, A = 4wd)

    FE_Rating: FE Rating (1-10 rating on Label)

    Class(type of car) : 2seater, compact, midsize, minivan, pickup, subcompact, suv 등

실제 데이터가 어떤 형태를 갖고 있는지 엑셀 형태로 보도록 할까요? 2023 미국시장 모델별 연비 데이터 보기

링크의 데이터가 열리나요? 이 데이터를 보고 23년 미국 시장의 자동차 사양 현황이 어떻다고 설명할 수 있나요? 어떤 기업들이 어떤 사양을 어떤 비중으로 내놓았는지 알 수 있을까요? 현대차는 다른 기업에 비하여 어떤 특징을 갖는 차를 출시하고 있나요?

데이터 형식과 대표값 알아보기

  1. 2023FE_clean 데이터를 R로 불러와서 데이터를 살펴보겠습니다. 의 각 행은 한 모델 당 사양 데이터 입니다. 모델의 속성을 설명하는 각 열에 대한 특징을 알아보겠습니다. 데이터 이름이 좀 복잡하니 x2023car로 바꾸겠습니다.
Code
library(ggplot2)
library(dplyr)

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
Code
library(readxl)
X2023FE_clean <- read_excel("2023FE_clean.xlsx")
x2023car <- X2023FE_clean
str(x2023car)
tibble [1,096 × 14] (S3: tbl_df/tbl/data.frame)
 $ Mfr_Name      : chr [1:1096] "aston martin" "aston martin" "Volkswagen" "Volkswagen" ...
 $ Division      : chr [1:1096] "Aston Martin" "Aston Martin" "Audi" "Audi" ...
 $ Carline       : chr [1:1096] "V12 Vantage" "Vantage V8" "R8 Coupe quattro" "R8 Coupe RWD" ...
 $ EngDispl      : num [1:1096] 5.2 4 5.2 5.2 5.2 5.2 5.2 2 3 2 ...
 $ Cyl           : num [1:1096] 12 8 10 10 10 10 10 4 6 4 ...
 $ Transmission  : chr [1:1096] "Auto(A8)" "Auto(A8)" "Auto(AM-S7)" "Auto(AM-S7)" ...
 $ City          : num [1:1096] 14 18 13 14 14 13 14 23 23 25 ...
 $ Hwy           : num [1:1096] 22 24 18 23 21 18 23 30 31 33 ...
 $ DriveSys      : chr [1:1096] "R" "R" "A" "R" ...
 $ AnnualFuelCost: num [1:1096] 3400 2750 3650 3200 3200 3650 3200 1750 2100 1950 ...
 $ Class         : chr [1:1096] "Two Seaters" "Two Seaters" "Two Seaters" "Two Seaters" ...
 $ FE_Rating     : num [1:1096] 3 4 2 3 3 2 3 5 5 6 ...
 $ CityCO2       : num [1:1096] 659 494 663 621 612 663 621 391 386 351 ...
 $ HwyCO2        : num [1:1096] 413 364 479 384 423 479 384 294 280 266 ...
  1. 데이터 파일의 형식을 보니 1,096개의 차량 데이터(행)가 14개의 속성(열)으로 이루어져 있네요. 각 열의 이름은 위의 데이터 설명에서 안내하는 대로 되어있어요. 그런데 우리가 이 데이터를 제조사 별, 또는 차종 별로 분석을 하려면 데이터의 형식이 변경되어야합니다. 수정 작업할 파일 명을 x23new 파일로 새로 저장하겠습니다. x23new의 Mfr_Name, Division, Drive Sys, Transmission, Class를 카테고리별로 분석하고자 데이터 형식 변경을 하고, x23new 파일의 열형식이 잘 변경되었는지 확인해보겠습니다.
Code
x23new <-x2023car
x23new$Mfr_Name <-as.factor(x23new$Mfr_Name) #factor
x23new$Division <-as.factor(x23new$Division) 
x23new$DriveSys <-as.factor(x23new$DriveSys)
x23new$Transmission <-as.factor(x23new$Transmission)
x23new$Class <-as.factor(x23new$Class)
str(x23new)
tibble [1,096 × 14] (S3: tbl_df/tbl/data.frame)
 $ Mfr_Name      : Factor w/ 21 levels "aston martin",..: 1 1 20 20 20 20 20 20 2 2 ...
 $ Division      : Factor w/ 40 levels "Acura","ALFA ROMEO",..: 3 3 4 4 4 4 4 4 6 6 ...
 $ Carline       : chr [1:1096] "V12 Vantage" "Vantage V8" "R8 Coupe quattro" "R8 Coupe RWD" ...
 $ EngDispl      : num [1:1096] 5.2 4 5.2 5.2 5.2 5.2 5.2 2 3 2 ...
 $ Cyl           : num [1:1096] 12 8 10 10 10 10 10 4 6 4 ...
 $ Transmission  : Factor w/ 24 levels "Auto(A10)","Auto(A6)",..: 3 3 6 6 6 6 6 6 20 20 ...
 $ City          : num [1:1096] 14 18 13 14 14 13 14 23 23 25 ...
 $ Hwy           : num [1:1096] 22 24 18 23 21 18 23 30 31 33 ...
 $ DriveSys      : Factor w/ 5 levels "4","A","F","P",..: 5 5 2 5 5 2 5 2 5 5 ...
 $ AnnualFuelCost: num [1:1096] 3400 2750 3650 3200 3200 3650 3200 1750 2100 1950 ...
 $ Class         : Factor w/ 21 levels "Compact Cars",..: 21 21 21 21 21 21 21 21 21 21 ...
 $ FE_Rating     : num [1:1096] 3 4 2 3 3 2 3 5 5 6 ...
 $ CityCO2       : num [1:1096] 659 494 663 621 612 663 621 391 386 351 ...
 $ HwyCO2        : num [1:1096] 413 364 479 384 423 479 384 294 280 266 ...
  1. 변경된 Mfr_Name, DriveSys, Transmission, Class의 형식이 character에서 factor로 바뀐 것 확인하셨나요? 그러면 x23new 데이터의 내용을 어떻게 대표적인 수치로 요약할 수 있는지 실행해보겠습니다. 결과를 보면, factor 형으로 변경한 데이터들은 카테고리별 데이터 수로 요약된 것을 볼 수 있습니다. 숫자 데이터들은 최소, 최대 및 4분위 값을 보여주고 있어요. 각 데이터의 요약 내용을 해석해봅시다.
Code
summary(x23new)
       Mfr_Name        Division     Carline             EngDispl    
 GM        :145   Ford     : 97   Length:1096        Min.   :1.200  
 Ford      :111   BMW      : 82   Class :character   1st Qu.:2.000  
 BMW       :109   Porsche  : 77   Mode  :character   Median :3.000  
 Toyota    : 97   M-Benz   : 66                      Mean   :3.121  
 Volkswagen: 90   TOYOTA   : 66                      3rd Qu.:3.600  
 FCA US LLC: 81   Chevrolet: 62                      Max.   :8.000  
 (Other)   :463   (Other)  :646                                     
      Cyl              Transmission      City            Hwy        DriveSys
 Min.   : 3.000   Auto(S8)   :280   Min.   : 8.00   Min.   :11.00   4:132   
 1st Qu.: 4.000   Auto(S10)  :111   1st Qu.:16.00   1st Qu.:22.75   A:422   
 Median : 6.000   Auto(A8)   :106   Median :20.00   Median :26.00   F:200   
 Mean   : 5.608   Auto(A10)  : 82   Mean   :20.77   Mean   :26.85   P: 72   
 3rd Qu.: 6.000   Auto(A9)   : 82   3rd Qu.:23.00   3rd Qu.:31.00   R:270   
 Max.   :16.000   Auto(AM-S7): 68   Max.   :57.00   Max.   :56.00           
                  (Other)    :367                                           
 AnnualFuelCost                         Class       FE_Rating    
 Min.   : 800   Small SUV 4WD              :180   Min.   :1.000  
 1st Qu.:1900   Standard SUV 4WD           :144   1st Qu.:4.000  
 Median :2200   Midsize Cars               :134   Median :5.000  
 Mean   :2334   Subcompact Cars            : 96   Mean   :4.551  
 3rd Qu.:2750   Compact Cars               : 85   3rd Qu.:5.000  
 Max.   :6100   Standard Pick-up Trucks 4WD: 72   Max.   :9.000  
                (Other)                    :385                  
    CityCO2           HwyCO2     
 Min.   : 154.0   Min.   :158.0  
 1st Qu.: 382.0   1st Qu.:288.8  
 Median : 461.0   Median :348.0  
 Mean   : 462.4   Mean   :353.2  
 3rd Qu.: 541.0   3rd Qu.:403.2  
 Max.   :1135.0   Max.   :788.0  
                                 
  1. 제조사별로 얼마나 다양한 사양을 출시하고 있는지 볼까요?

    Code
    x23new %>% ggplot(aes(Mfr_Name))+geom_bar()+coord_flip()

출시 사양 수로 볼 때 BMW, 토요타나 폭스바겐에 비하여 수가 적은 편입니다. 물론 자국 제조사인 GM, Ford가 가장 다양한 사양을 출시하고 있네요.

타겟 데이터 현황과 경쟁사 현황

  1. 그러면 현대차는 2023년에 어떤 차량을 출시했을까요? 현대차의 모델만 추출하여 현황을 볼까요?

    Code
    x23newh <- x23new %>% filter(.,Mfr_Name == 'Hyundai')
    options(tibble.print_max = Inf)
    x23newh
    # A tibble: 48 × 14
       Mfr_Name Division Carline   EngDi…¹   Cyl Trans…²  City   Hwy Drive…³ Annua…⁴
       <fct>    <fct>    <chr>       <dbl> <dbl> <fct>   <dbl> <dbl> <fct>     <dbl>
     1 Hyundai  GENESIS  G70 AWD       2       4 Auto(S…    20    28 A          2400
     2 Hyundai  GENESIS  G70 AWD       3.3     6 Auto(S…    17    26 A          2750
     3 Hyundai  GENESIS  G70 RWD       2       4 Auto(S…    21    31 R          2200
     4 Hyundai  GENESIS  G70 RWD       3.3     6 Auto(S…    18    27 R          2600
     5 Hyundai  HYUNDAI  Elantra       1.6     4 Auto(A…    28    36 F          1450
     6 Hyundai  HYUNDAI  Elantra       2       4 Auto(A…    33    42 F          1200
     7 Hyundai  HYUNDAI  Elantra       2       4 Auto(A…    30    40 F          1300
     8 Hyundai  HYUNDAI  Elantra …     1.6     4 Auto(A…    49    52 F           900
     9 Hyundai  HYUNDAI  Elantra …     1.6     4 Auto(A…    53    56 F           800
    10 Hyundai  HYUNDAI  Elantra N     2       4 Auto(A…    20    30 F          2400
    11 Hyundai  HYUNDAI  Elantra N     2       4 Manual…    22    31 F          2200
    12 Hyundai  HYUNDAI  Venue         1.6     4 Auto(A…    29    33 F          1450
    13 Hyundai  GENESIS  G80 AWD       2.5     4 Auto(S…    22    30 A          2200
    14 Hyundai  GENESIS  G80 AWD       3.5     6 Auto(S…    16    25 A          2900
    15 Hyundai  GENESIS  G80 RWD       2.5     4 Auto(S…    22    32 R          2100
    16 Hyundai  GENESIS  G90 AWD       3.5     6 Auto(S…    18    26 A          2600
    17 Hyundai  GENESIS  G90 MHEV      3.5     6 Auto(S…    17    24 A          2750
    18 Hyundai  HYUNDAI  Sonata        1.6     4 Auto(S…    27    37 F          1450
    19 Hyundai  HYUNDAI  Sonata        2.5     4 Auto(A…    23    33 F          1650
    20 Hyundai  HYUNDAI  Sonata        2.5     4 Auto(S…    28    38 F          1400
    21 Hyundai  HYUNDAI  Sonata        2.5     4 Auto(S…    27    37 F          1450
    22 Hyundai  HYUNDAI  Sonata H…     2       4 Auto(A…    45    51 F           950
    23 Hyundai  HYUNDAI  Sonata H…     2       4 Auto(A…    50    54 F           850
    24 Hyundai  HYUNDAI  Kona FWD      1.6     4 Auto(A…    29    35 F          1400
    25 Hyundai  HYUNDAI  Kona FWD      2       4 Auto(A…    30    35 F          1400
    26 Hyundai  HYUNDAI  Kona N        2       4 Auto(A…    20    27 F          2400
    27 Hyundai  HYUNDAI  Palisade…     3.8     6 Auto(S…    19    27 F          2000
    28 Hyundai  HYUNDAI  Santa Cr…     2.5     4 Auto(S…    22    26 F          1900
    29 Hyundai  HYUNDAI  Santa Fe…     2.5     4 Auto(A…    22    28 F          1750
    30 Hyundai  HYUNDAI  Santa Fe…     2.5     4 Auto(S…    25    28 F          1700
    31 Hyundai  HYUNDAI  Tucson F…     2.5     4 Auto(S…    25    32 F          1600
    32 Hyundai  GENESIS  GV70 AWD      2.5     4 Auto(S…    22    28 A          2300
    33 Hyundai  GENESIS  GV70 AWD      2.5     4 Auto(S…    19    26 A          2500
    34 Hyundai  GENESIS  GV70 AWD      3.5     6 Auto(S…    19    24 A          2600
    35 Hyundai  HYUNDAI  Kona AWD      1.6     4 Auto(A…    27    32 A          1550
    36 Hyundai  HYUNDAI  Kona AWD      2       4 Auto(A…    28    33 A          1500
    37 Hyundai  HYUNDAI  Palisade…     3.8     6 Auto(S…    19    25 A          2100
    38 Hyundai  HYUNDAI  Santa Cr…     2.5     4 Auto(A…    19    27 A          2000
    39 Hyundai  HYUNDAI  Santa Cr…     2.5     4 Auto(S…    21    25 A          1900
    40 Hyundai  HYUNDAI  Santa Fe…     2.5     4 Auto(A…    21    28 A          1850
    41 Hyundai  HYUNDAI  Santa Fe…     2.5     4 Auto(S…    22    25 A          1850
    42 Hyundai  HYUNDAI  Santa Fe…     1.6     4 Auto(A…    33    30 A          1400
    43 Hyundai  HYUNDAI  Santa Fe…     1.6     4 Auto(A…    36    31 A          1300
    44 Hyundai  HYUNDAI  Tucson A…     2.5     4 Auto(S…    23    28 A          1750
    45 Hyundai  HYUNDAI  Tucson H…     1.6     4 Auto(A…    37    36 A          1200
    46 Hyundai  HYUNDAI  Tucson H…     1.6     4 Auto(A…    38    38 A          1150
    47 Hyundai  GENESIS  GV80 AWD      2.5     4 Auto(S…    20    24 A          2500
    48 Hyundai  GENESIS  GV80 AWD      3.5     6 Auto(S…    18    23 A          2750
    # … with 4 more variables: Class <fct>, FE_Rating <dbl>, CityCO2 <dbl>,
    #   HwyCO2 <dbl>, and abbreviated variable names ¹​EngDispl, ²​Transmission,
    #   ³​DriveSys, ⁴​AnnualFuelCost
    # ℹ Use `colnames()` to see all variable names
  2. 현대차는 G70, G80, G90, Elantra, Sonata, Kona, Palisade, Santa Fe, Santa Cruz, Tucson, 모델로 48가지 사양을 출시했네요. 차종 유형은 Compact, Midsize, Large, Small SUV, Standard SUV로 구성되어 있어요. 대표적으로 Midsize 유형에 대하여 다른 제조사들의 동향이 어떤지 알아보겠습니다.

Code
x23new_midsize <- x23new %>% filter(.,Class == 'Midsize Cars')
x23new_midsize %>% ggplot(aes(Mfr_Name))+geom_bar()+coord_flip()

midsize(중형) 차종을 출시하는 메이커는 그래프와 같이 있네요. Hyundai, Kia, GM이 사양 출시 수가 같네요. BMW다 Toyota는 많은 사양을 출시 중입니다. 이들의 연비를 비교해보면 차들의 성능 비교가 가능할 것 같습니다. 도시 주행 연비를 비교해 볼까요?

Code
x23new_midsize %>% ggplot(aes(x=City,y=Mfr_Name))+geom_jitter()

현대 중형차 사양의 연비 분포는 중상위권 정도인것 같습니다. Toyota 연비가 가장 좋아보이고, BMW는 연비가 좋지 않네요. 현대차는 연비로 인하여 불이익을 받지는 않을 듯 합니다. 다만 Toyota의 사양은 눈여겨 봐야할 것 같습니다.

미주향 인기 모델들의 사양 현황

  1. 전반적으로 다양한 사양이 출시되어 인기가 많은 차량 유형(Class)을 찾아보도록 할까요?
Code
x23new %>% ggplot(aes(Class))+geom_bar()+coord_flip()

미국 시장은 suv의 사양 비중이 가장 크네요. 그 다음 카테고리는 중형차(Midsize) 입니다.

  1. 미국 시장에서 다양성이 가장 높은 suv는 어느 제조사에서 가장 많이 출시하고 있을까요?
Code
x23new_suv <-x23new %>% filter(.,(Class=="Standard SUV 4WD")|(Class=="Standard SUV 2WD")|(Class=="Small SUV 4WD")|(Class=="Small SUV 2WD"))
x23new_suv %>% ggplot(aes(x=Mfr_Name, y=Class))+geom_point()+theme(axis.text.x=element_text(angle=90, hjust=1))

Code
x23new_suv %>% ggplot(aes(x=Mfr_Name, y=Class, color=Mfr_Name))+geom_jitter()+theme(axis.text.x=element_text(angle=90, hjust=1))

첫번째 그래프는 suv를 출시하는 제조사가 어디인지를 보기 쉽게 되어있고, 두번째 그래프는 suv차량의 사양수를 제조사 별로 볼수가 있네요. suv의 모든 유형을 출시한 제조사도 여럿 있네요. 현대는 Standard SUV 2WD는 출시하지 않습니다. 2WD 카테고리는 차종이 전체적으로 적습니다.

  1. 제조사별로 시내, 고속도로의 연비를 비교 해볼까요? 어느 제조사의 차종이 가장 경제적일까요?
Code
x23new %>% ggplot(aes(x=City, color=Mfr_Name))+geom_freqpoly(binwidth=5)

Code
x23new %>% ggplot(aes(x=Hwy, color=Mfr_Name))+geom_freqpoly(binwidth=5)

Code
x23new %>% ggplot(aes(x=Mfr_Name , y=City))+geom_boxplot()+coord_flip()

첫번째와 두번째 그래프를 보면 전체적으로 시내 주행보다는 고속도로의 연비가 높게 나오고, 제조사 마다 연비 분포가 다른 것은 알겠는데, 제조사별로 순위를 보기는 좀 불편하네요. 세번째와 같이 하면 제조사별 연비의 범위를 좀 더 명확하게 알 수 있네요. Toyota가 연비가 높고, 현대는 중위권에 속한다고 할 수 있는데, 연비가 특히 높은 몇 개의 사양이 있네요.

  1. 차종별 연비는 차이가 있는지 확인해 볼까요?
Code
x23new %>% ggplot(aes(x=City, y=Class))+geom_point()+geom_jitter()

차 유형에 따라서도 다양한 연비가 분포되어 있으나 주로 20mpg에 가장 많이 분포하고 있습니다. 전반적으로 중형차와 Compact 유형이 연비가 높은 편입니다.

  1. 당연한 결과겠지만 배기량이 크면 연비가 낮게 나오는 것도 확인할 수 있습니다. 차 유형에 따라 배기량 분포도 다르게 보입니다.
Code
x23new %>% ggplot(aes(x=EngDispl, y=City))+geom_jitter()+facet_wrap(~Class, nrow=3)

  1. 제조사별 연비 점수 상황을 보도록 하겠습니다. 이건 도심과 고속도로의 연비가 종합되어 나오겠네요.

    Code
    x23new %>% ggplot(aes(x=FE_Rating, y=Mfr_Name, color=Mfr_Name))+geom_point()+geom_jitter()

현대차는 연비 점수가 높은 구간에 속하는 편이네요. 토요타도 연비 점수가 높고, 롤스로이스, 페라리는 연비가 많이 낮은 것으로 나옵니다. 연비 점수 9점 이상인 차종을 찾아보겠습니다.

Code
x23new_r <-x23new %>% filter(., FE_Rating>=9)
x23new_r
# A tibble: 7 × 14
  Mfr_Name Division Carline    EngDi…¹   Cyl Trans…²  City   Hwy Drive…³ Annua…⁴
  <fct>    <fct>    <chr>        <dbl> <dbl> <fct>   <dbl> <dbl> <fct>     <dbl>
1 Hyundai  HYUNDAI  Elantra H…     1.6     4 Auto(A…    53    56 F           800
2 Toyota   TOYOTA   CAMRY HYB…     2.5     4 Auto(A…    51    53 F           850
3 Toyota   TOYOTA   PRIUS          2       4 Auto(A…    57    56 F           800
4 Toyota   TOYOTA   PRIUS AWD      2       4 Auto(A…    53    54 P           800
5 Toyota   TOYOTA   PRIUS XLE…     2       4 Auto(A…    52    52 F           850
6 Hyundai  HYUNDAI  Sonata Hy…     2       4 Auto(A…    50    54 F           850
7 Kia      KIA      Niro FE        1.6     4 Auto(A…    53    54 F           850
# … with 4 more variables: Class <fct>, FE_Rating <dbl>, CityCO2 <dbl>,
#   HwyCO2 <dbl>, and abbreviated variable names ¹​EngDispl, ²​Transmission,
#   ³​DriveSys, ⁴​AnnualFuelCost
# ℹ Use `colnames()` to see all variable names

현대 2건, 기아 1건, 토요타 4건이 나오네요. PRIUS 라인이 3가지나 나오는 것을 보니 PRIUS의 사양을 참조할 필요가 있습니다.

현대차의 사양 구성 전략 제안

차종:

현대차는 G70, G80, G90, Elantra, Sonata, Kona, Palisade, Santa Fe, Santa Cruz, Tucson, 모델로 48가지 사양을 출시했네요. 차종 유형은 Compact, Midsize, Large, Small SUV, Standard SUV로 구성되어 있어요. BMW, 토요타나 폭스바겐에 비하여는 수가 적은 편입니다. 시장에 적극적으로 진출하려면 토요타의 사례를 참조하는 것이 좋겠습니다.

SUV는 미국 시장에서 가장 큰 비중의 유형입니다. 현재 Standard SUV 2WD 유형을 출시하고 있지 않은데, 다양성 제고를 위하여 고려해볼 수 있습니다.

연비:

미국 시장은 연비 성능에 크게 의존하지 않아 보입니다. 다양한 구간의 연비가 출시 되어 있음을 볼 때, 고객의 선택지를 넓히기 위한 성능의 다양성이 더 중요한 것 같습니다.

시내 주행보다는 고속도로의 연비가 높게 나오고, 제조사, 차종 마다 연비 분포가 다릅니다. 제조사별 연비 점수로 보면 Toyota가 연비가 높고, 현대는 중상위권에 속한다고 할 수 있는데, 연비가 특히 높은 몇 개의 사양이 있네요. 현대차가 토요타와 경쟁하려면 PRIUS와 같은 고연비 모델이 개발되어야 할 듯 합니다.