Auto MPG

Dataset Auto MPG diperoleh dari website http://archive.ics.uci.edu/ml/index.php yang diupload pada tanggal 7 Juli`1993.

"The data concerns city-cycle fuel consumption in miles per gallon,
to be predicted in terms of 3 multivalued discrete and 5 continuous
attributes." (Quinlan, 1993)

1. Statistika Deskriptif

Dataset ini bercerita tentang Miles Per Gallon (MPG) yang dihabiskan oleh setiap mobil yang dipengaruhi oleh beberapa faktor, yaitu sebagai berikut.

Variabel Skala
Acceleration Kontinu
Displacement Kontinu
Horse Power Kontinu
Weight Kontinu
Cylinders Katagorik
Model Year Katagorik
Origin Katagorik

Jumlah data yang tercatat adalah sebanyak 398 data. Namun pada website UCI telah dijelaskan bahwa data pada variabel horsepower terdapat 6 missing values. Namun pada analisis ini missing value telah diatasi dengan bantuan software Weka.

autompg=read.csv("D:/autompg.csv")
summary(autompg)
##       mpg         displacement     horsepower        weight    
##  Min.   : 9.00   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.50   1st Qu.:104.2   1st Qu.: 76.0   1st Qu.:2224  
##  Median :23.00   Median :148.5   Median : 95.0   Median :2804  
##  Mean   :23.51   Mean   :193.4   Mean   :104.5   Mean   :2970  
##  3rd Qu.:29.00   3rd Qu.:262.0   3rd Qu.:125.0   3rd Qu.:3608  
##  Max.   :46.60   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration     cylinders       modelyear         origin     
##  Min.   : 8.00   Min.   :3.000   Min.   :70.00   Min.   :1.000  
##  1st Qu.:13.82   1st Qu.:4.000   1st Qu.:73.00   1st Qu.:1.000  
##  Median :15.50   Median :4.000   Median :76.00   Median :1.000  
##  Mean   :15.57   Mean   :5.455   Mean   :76.01   Mean   :1.573  
##  3rd Qu.:17.18   3rd Qu.:8.000   3rd Qu.:79.00   3rd Qu.:2.000  
##  Max.   :24.80   Max.   :8.000   Max.   :82.00   Max.   :3.000

Berdasarkan hasil rangkuman diatas, dapat dilihat rata-rata dari setiap variabel. Selain itu juga dapat dilihat nilai median, max, min, kuartil 1, dan kuartil 3 sehingga dapat dilihat juga persebaran data dari setiap variabel secara angka.

2. Visualisasi Data

Berikut merupakan visualisasi data pada dataset Auto MPG yang disajikan dalam plot hubungan antar variabel.

library(ggplot2)
library(RColorBrewer)
plot(autompg, col=brewer.pal(3,"Set2"))

Plot hubungan tersebut menunjukkan bahwa hampir antarvariabel menunjukkan pola hubungan yang linier, kecuali pada variabel katagorik yang mana sulit untuk dijelaskan. Pola hubungan linier tersebut juga sangat jelas, terlebih pada plot hubungan antara variabel respon (MPG) dengan variabel-variabel lain.

MPG

MPG merupakan Miles per Gallon pada setiap mobil guna untuk mengetahui kebutuhan bahan bakar masing-masing.

ggplot(autompg, aes(mpg))+geom_histogram(bins=30,colour="black",fill="firebrick3")

Histogram pada data MPG menunjukkan bahwa data tidak mengikuti distribusi normal dan cenderung menceng kanan. Sehingga apabila ingin dilakukan pemodelan regresi linier seharusnya dilakukan normalisasi terlebih dahulu.

> Persebaran Miles per Gallon berdasarkan data katagorik

Dikarenakan variabel katagorik tidak dapat dilihat plot pola hubungan, maka ingin dilihat persebaran dari Miles per Gallon berdasarkan anggota katagorik setiap variabel

> Persebaran Miles per Gallon berdasarkan faktor cylinders

ggplot(autompg,aes(y = mpg, x = factor(cylinders), fill=factor(cylinders))) + 
    geom_violin() + geom_jitter() +
    ggtitle("Miles per Gallon by Cylinders") +
    ylab("mpg") + xlab("Cylinders") +
    scale_fill_discrete(name="Cylinders", labels=c("3","4","5","6","8"))

Dilihat dari violin plot yang dihasilkan, menunjukkan bahwa setiap ukuran cylinders mobil memeliki persebaran yang berbeda pada MPG. Pada ukuran cylinders = 4, memiliki karakteristik MPG yang paling banyak disusul oleh kelompok cylinders 4, 1, 6, dan 8.

> Persebaran Miles per Gallon berdasarkan faktor Model Year

ggplot(autompg,aes(y = mpg, x = factor(modelyear), fill=factor(modelyear))) + 
    geom_boxplot() + geom_jitter() +
    ggtitle("Miles per Gallon by Model Year") +
    ylab("mpg") + xlab("Model Year") +
    scale_fill_discrete(name="Model Year",
                        labels=c("70","71","72","73","74","75",
                                 "76","77","78","79","80","81","82"))

Sama halnya dengan persebaran MPG berdasarkan faktor cylinder. pada faktor Model Year juga menunjukkan pola persebaran dengan median yang berbeda untuk setiap katagori.

> Persebaran Miles per Gallon berdasarkan faktor Origin

ggplot(autompg,aes(y = mpg, x = factor(origin), fill=factor(origin))) + 
    geom_violin() + geom_jitter() +
    ggtitle("Miles per Gallon by Origin") +
    ylab("mpg") + xlab("Origin") +
    scale_fill_discrete(name="Origin", labels=c("1","2","3"))

Persebaran data MPG berdasarkan faktor Origin menunjukkan persebaran yang berbeda untuk setiap katagori yang mana dapat dilihat pada gambar violin plot diatas.

3. Analisis Korelasi

Korelasi digunakan untuk mengetahui seberapa besar hubungan antar variabel. Dalam regresi linier, Korelasi digunakan untuk menentukan apakah antarvariabel dapat dilakukan analisis regresi linier/tidak. Berikut ini merupakan hasil korelasi dari variabel MPG terhadap 7 faktor yang diduga mempengaruhi.

library(ggcorrplot)
corr =round(cor(autompg),2)
ggcorrplot(corr, type ="lower",lab= TRUE,
              lab_size = 3, method="circle",
              colors = c("tomato2","white", "springgreen3"),
              title="Correlogram of Auto MPG",
              ggtheme = theme_bw)

Berdasarkan hasil korelasi tersebut, didapatkan bahwa hampir semua variabel memiliki korelasi yang cukup besar terhadap variabel MPG kecuali pada variabel Model Year dan Origin. Namun dalam analisis regresi linier ini, diduga seluruh variabel memiliki pengaruh yang besar terhadap variabel MPG.

4. Model Regresi Linier

Regrsi linier digunakan untuk mengetahui seberapa pengaruh variabel independen terhadap variabel dependen MPG. Berikut merupakan hasil pemodelan regresi linier yang didapatkan untuk data Auto MPG.

ggplot(autompg,aes(y=mpg, x=displacement+horsepower+weight+
                     acceleration+cylinders+modelyear+origin))+
                   geom_point()+geom_smooth(method="lm",se=T)

regresi=lm(mpg~displacement+horsepower+weight+acceleration+cylinders+modelyear+origin,autompg)
summary(regresi)
## 
## Call:
## lm(formula = mpg ~ displacement + horsepower + weight + acceleration + 
##     cylinders + modelyear + origin, data = autompg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.5946 -2.1527 -0.1126  1.9190 12.9939 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.806e+01  4.583e+00  -3.940 9.64e-05 ***
## displacement  1.889e-02  7.500e-03   2.518   0.0122 *  
## horsepower   -1.139e-02  1.317e-02  -0.865   0.3878    
## weight       -6.719e-03  6.411e-04 -10.480  < 2e-16 ***
## acceleration  1.026e-01  9.615e-02   1.067   0.2865    
## cylinders    -4.183e-01  3.220e-01  -1.299   0.1948    
## modelyear     7.568e-01  5.042e-02  15.008  < 2e-16 ***
## origin        1.418e+00  2.750e-01   5.154 4.06e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.337 on 390 degrees of freedom
## Multiple R-squared:  0.8209, Adjusted R-squared:  0.8177 
## F-statistic: 255.4 on 7 and 390 DF,  p-value: < 2.2e-16

Berdasarkan hasil pemodelan diatas menunjukkan bahwa secara serentak dengan menggunakan \(\alpha\)=5% menunjukkan bahwa model regresi telah signifikan. Begitu juga dengan hasil kebaikan modelnya yaitu \(R^2\) = 82.09% yang menyatakan bahwa penyebab hasil MPG dapat dijelaskan sebesar oleh model sebesar 82.09%. Hal ini menunjukkan bahwa model sudah baik dan dapat digunakan, namun secara parsial, terdapat variabel yang tidak berpengaruh signifikan terhadap model yaitu variabel horse power, acceleration, dan cylinders.

Terimakasih