Dataset Auto MPG diperoleh dari website http://archive.ics.uci.edu/ml/index.php yang diupload pada tanggal 7 Juli`1993.
"The data concerns city-cycle fuel consumption in miles per gallon,
to be predicted in terms of 3 multivalued discrete and 5 continuous
attributes." (Quinlan, 1993)
Dataset ini bercerita tentang Miles Per Gallon (MPG) yang dihabiskan oleh setiap mobil yang dipengaruhi oleh beberapa faktor, yaitu sebagai berikut.
| Variabel | Skala |
|---|---|
| Acceleration | Kontinu |
| Displacement | Kontinu |
| Horse Power | Kontinu |
| Weight | Kontinu |
| Cylinders | Katagorik |
| Model Year | Katagorik |
| Origin | Katagorik |
Jumlah data yang tercatat adalah sebanyak 398 data. Namun pada website UCI telah dijelaskan bahwa data pada variabel horsepower terdapat 6 missing values. Namun pada analisis ini missing value telah diatasi dengan bantuan software Weka.
autompg=read.csv("D:/autompg.csv")
summary(autompg)
## mpg displacement horsepower weight
## Min. : 9.00 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.50 1st Qu.:104.2 1st Qu.: 76.0 1st Qu.:2224
## Median :23.00 Median :148.5 Median : 95.0 Median :2804
## Mean :23.51 Mean :193.4 Mean :104.5 Mean :2970
## 3rd Qu.:29.00 3rd Qu.:262.0 3rd Qu.:125.0 3rd Qu.:3608
## Max. :46.60 Max. :455.0 Max. :230.0 Max. :5140
## acceleration cylinders modelyear origin
## Min. : 8.00 Min. :3.000 Min. :70.00 Min. :1.000
## 1st Qu.:13.82 1st Qu.:4.000 1st Qu.:73.00 1st Qu.:1.000
## Median :15.50 Median :4.000 Median :76.00 Median :1.000
## Mean :15.57 Mean :5.455 Mean :76.01 Mean :1.573
## 3rd Qu.:17.18 3rd Qu.:8.000 3rd Qu.:79.00 3rd Qu.:2.000
## Max. :24.80 Max. :8.000 Max. :82.00 Max. :3.000
Berdasarkan hasil rangkuman diatas, dapat dilihat rata-rata dari setiap variabel. Selain itu juga dapat dilihat nilai median, max, min, kuartil 1, dan kuartil 3 sehingga dapat dilihat juga persebaran data dari setiap variabel secara angka.
Berikut merupakan visualisasi data pada dataset Auto MPG yang disajikan dalam plot hubungan antar variabel.
library(ggplot2)
library(RColorBrewer)
plot(autompg, col=brewer.pal(3,"Set2"))
Plot hubungan tersebut menunjukkan bahwa hampir antarvariabel menunjukkan pola hubungan yang linier, kecuali pada variabel katagorik yang mana sulit untuk dijelaskan. Pola hubungan linier tersebut juga sangat jelas, terlebih pada plot hubungan antara variabel respon (MPG) dengan variabel-variabel lain.
MPG merupakan Miles per Gallon pada setiap mobil guna untuk mengetahui kebutuhan bahan bakar masing-masing.
ggplot(autompg, aes(mpg))+geom_histogram(bins=30,colour="black",fill="firebrick3")
Histogram pada data MPG menunjukkan bahwa data tidak mengikuti distribusi normal dan cenderung menceng kanan. Sehingga apabila ingin dilakukan pemodelan regresi linier seharusnya dilakukan normalisasi terlebih dahulu.
Dikarenakan variabel katagorik tidak dapat dilihat plot pola hubungan, maka ingin dilihat persebaran dari Miles per Gallon berdasarkan anggota katagorik setiap variabel
ggplot(autompg,aes(y = mpg, x = factor(cylinders), fill=factor(cylinders))) +
geom_violin() + geom_jitter() +
ggtitle("Miles per Gallon by Cylinders") +
ylab("mpg") + xlab("Cylinders") +
scale_fill_discrete(name="Cylinders", labels=c("3","4","5","6","8"))
Dilihat dari violin plot yang dihasilkan, menunjukkan bahwa setiap ukuran cylinders mobil memeliki persebaran yang berbeda pada MPG. Pada ukuran cylinders = 4, memiliki karakteristik MPG yang paling banyak disusul oleh kelompok cylinders 4, 1, 6, dan 8.
ggplot(autompg,aes(y = mpg, x = factor(modelyear), fill=factor(modelyear))) +
geom_boxplot() + geom_jitter() +
ggtitle("Miles per Gallon by Model Year") +
ylab("mpg") + xlab("Model Year") +
scale_fill_discrete(name="Model Year",
labels=c("70","71","72","73","74","75",
"76","77","78","79","80","81","82"))
Sama halnya dengan persebaran MPG berdasarkan faktor cylinder. pada faktor Model Year juga menunjukkan pola persebaran dengan median yang berbeda untuk setiap katagori.
ggplot(autompg,aes(y = mpg, x = factor(origin), fill=factor(origin))) +
geom_violin() + geom_jitter() +
ggtitle("Miles per Gallon by Origin") +
ylab("mpg") + xlab("Origin") +
scale_fill_discrete(name="Origin", labels=c("1","2","3"))
Persebaran data MPG berdasarkan faktor Origin menunjukkan persebaran yang berbeda untuk setiap katagori yang mana dapat dilihat pada gambar violin plot diatas.
Korelasi digunakan untuk mengetahui seberapa besar hubungan antar variabel. Dalam regresi linier, Korelasi digunakan untuk menentukan apakah antarvariabel dapat dilakukan analisis regresi linier/tidak. Berikut ini merupakan hasil korelasi dari variabel MPG terhadap 7 faktor yang diduga mempengaruhi.
library(ggcorrplot)
corr =round(cor(autompg),2)
ggcorrplot(corr, type ="lower",lab= TRUE,
lab_size = 3, method="circle",
colors = c("tomato2","white", "springgreen3"),
title="Correlogram of Auto MPG",
ggtheme = theme_bw)
Berdasarkan hasil korelasi tersebut, didapatkan bahwa hampir semua variabel memiliki korelasi yang cukup besar terhadap variabel MPG kecuali pada variabel Model Year dan Origin. Namun dalam analisis regresi linier ini, diduga seluruh variabel memiliki pengaruh yang besar terhadap variabel MPG.
Regrsi linier digunakan untuk mengetahui seberapa pengaruh variabel independen terhadap variabel dependen MPG. Berikut merupakan hasil pemodelan regresi linier yang didapatkan untuk data Auto MPG.
ggplot(autompg,aes(y=mpg, x=displacement+horsepower+weight+
acceleration+cylinders+modelyear+origin))+
geom_point()+geom_smooth(method="lm",se=T)
regresi=lm(mpg~displacement+horsepower+weight+acceleration+cylinders+modelyear+origin,autompg)
summary(regresi)
##
## Call:
## lm(formula = mpg ~ displacement + horsepower + weight + acceleration +
## cylinders + modelyear + origin, data = autompg)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.5946 -2.1527 -0.1126 1.9190 12.9939
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.806e+01 4.583e+00 -3.940 9.64e-05 ***
## displacement 1.889e-02 7.500e-03 2.518 0.0122 *
## horsepower -1.139e-02 1.317e-02 -0.865 0.3878
## weight -6.719e-03 6.411e-04 -10.480 < 2e-16 ***
## acceleration 1.026e-01 9.615e-02 1.067 0.2865
## cylinders -4.183e-01 3.220e-01 -1.299 0.1948
## modelyear 7.568e-01 5.042e-02 15.008 < 2e-16 ***
## origin 1.418e+00 2.750e-01 5.154 4.06e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.337 on 390 degrees of freedom
## Multiple R-squared: 0.8209, Adjusted R-squared: 0.8177
## F-statistic: 255.4 on 7 and 390 DF, p-value: < 2.2e-16
Berdasarkan hasil pemodelan diatas menunjukkan bahwa secara serentak dengan menggunakan \(\alpha\)=5% menunjukkan bahwa model regresi telah signifikan. Begitu juga dengan hasil kebaikan modelnya yaitu \(R^2\) = 82.09% yang menyatakan bahwa penyebab hasil MPG dapat dijelaskan sebesar oleh model sebesar 82.09%. Hal ini menunjukkan bahwa model sudah baik dan dapat digunakan, namun secara parsial, terdapat variabel yang tidak berpengaruh signifikan terhadap model yaitu variabel horse power, acceleration, dan cylinders.