

Email          : ali.19arifin@gmail.com
RPubs         : https://rpubs.com/aliciaarifin/
Jurusan      :
Statistika
Address     : ARA Center, Matana University Tower
   Â
         Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua,
Tangerang, Banten 15810.
Library
setwd(getwd())
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(broom)
library(ggpubr)
Simple Regression
Simple regression : 1 variabel independen + 1 variabel dependen. ##
import data
income.data = read.csv("data/income.data.csv")
summary(income.data)
## X income happiness
## Min. : 1.0 Min. :1.506 Min. :0.266
## 1st Qu.:125.2 1st Qu.:3.006 1st Qu.:2.266
## Median :249.5 Median :4.424 Median :3.473
## Mean :249.5 Mean :4.467 Mean :3.393
## 3rd Qu.:373.8 3rd Qu.:5.992 3rd Qu.:4.503
## Max. :498.0 Max. :7.482 Max. :6.863
cek asumsi
Agar regresi bisa dijalankan, diperlukan beberapa asumsi-asumsi agar
regresi yang kita buat hasilnya maksimal. Asumsi-asumsi tersebut adalah
linearitas, autokorelasi, homodesitas, dan normalitas.
Yang harus
ditekanakan di regresi adalah data tersebut tidak autokorelasi,
homogenitas (tolak homodesitas), dan normalitas. Kalau linearitas akan
menentukan apakah kita akan membuat regresi linear atau regresi
non-linear.
linearitas
plot(happiness ~ income, data = income.data)
Karena pola grafik linear, maka kita akan menggunakan regresi
linear.
independensi atau
autokorelasi
Karena kita akan menggunakan regresi linear, maka kita hanya
mempunyai variabel independen dan variabel dependen. Kita tidak perlu
mencek hubungan antar variabel dependen karena variabel dependennya
hanya terdapat satu.
Apa itu autokorelasi?
Autokorelasi
adalah terdapat hubungan antara variabel dependen, hubungan tersebut
bisa mempengaruhi output sehingga regresi yang kita buat bisa tidak
akurat. Pada regresi antara variabel dependen harus tidak
berautokorelasi.
homosdesitas
(kehomogenitas varians)
ini akan diliat setelah plotnya jadi.
normalitas
hist(income.data$happiness)
hasil dari histogram di atas kira-kira datanya bersebar normal atau
berbentuk lonceng (bell-shaped), maka data kita merupakan normal.
Linear regression
analisis
income.happiness.lm <- lm(happiness ~ income, data = income.data)
summary(income.happiness.lm)
##
## Call:
## lm(formula = happiness ~ income, data = income.data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.02479 -0.48526 0.04078 0.45898 2.37805
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.20427 0.08884 2.299 0.0219 *
## income 0.71383 0.01854 38.505 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7181 on 496 degrees of freedom
## Multiple R-squared: 0.7493, Adjusted R-squared: 0.7488
## F-statistic: 1483 on 1 and 496 DF, p-value: < 2.2e-16
Dari hasil tersebut didapat bahwa p-value < dari alpha 5%, dan
Adjusted R-square sebesar 74,88%. Berarti terdapat 74,88% variabel yang
sudah termsuk kedalam regresi. Untuk penelitian sosial, R-square >
70% sudah dikatakan baik. Sehingga regresi tersebut sudah bisa digunakan
meskipun belum terlalu baik. Kalau dilihat dari variabel dependen
(income) memiliki pengaruh yang signifikan terhadap variabel
independen(happiness).
Rumus / Model Regresinya adalah :
happiness = 0.204 + 0.714*income
Income atau
pendapatan memiliki dampak + terhadap regresi, yang berarti income atau
pendapatan berbanding lurus dengan happiness/kebahagiaan. Jika
pendapatan meningkat, maka kebahagiaan meningkat, begitu juga
sebaliknya.
visualisasi Hasil
dengan grafik
ggplot(income.data, aes(x=income, y=happiness))+
geom_point()+
geom_smooth(method="lm", col="black")+
stat_regline_equation(label.x = 3, label.y = 7)+
theme_bw() +
labs(title = "Reported happiness as a function of income",
x = "Income (x$10,000)",
y = "Happiness score (0 to 10)")
## `geom_smooth()` using formula = 'y ~ x'

homosdesitas
(kehomogenitas varians)
par(mfrow=c(2,2))
plot(income.happiness.lm)

Residu yang disebutkan di atas merupakan varians. jika rata-rata
ataua mean dari residu tersebut terbentuk garis horizontal dan mendekati
0, maka tidak terdapat outlier atau pencilan. Kalau diliat dari Q-Qplot
yang bisa diliat adalah residunya hampir membentuk satu garis. dari
hasil residunya, kita bisa bilang kalau model yang dibuat homogen
(variansnya sama).
Multiple
Regression
Multiple regression : 1 variabel independen + n variabel dependen
dengan n > 1.
import data
heart.data = read.csv("data/heart.data.csv")
summary(heart.data)
## X biking smoking heart.disease
## Min. : 1.0 Min. : 1.119 Min. : 0.5259 Min. : 0.5519
## 1st Qu.:125.2 1st Qu.:20.205 1st Qu.: 8.2798 1st Qu.: 6.5137
## Median :249.5 Median :35.824 Median :15.8146 Median :10.3853
## Mean :249.5 Mean :37.788 Mean :15.4350 Mean :10.1745
## 3rd Qu.:373.8 3rd Qu.:57.853 3rd Qu.:22.5689 3rd Qu.:13.7240
## Max. :498.0 Max. :74.907 Max. :29.9467 Max. :20.4535
cek asumsi
Sama seperti simple regression, kita harus mengecek asumsi-asumsi
yang ada. ### linearitas
plot(heart.disease ~ biking, data=heart.data)

plot(heart.disease ~ smoking, data=heart.data)

Pola grafik biking linear, pola grafik smoking juga linear meskipun
kurang berpola tetapi linear. karena kedualnya linear, kita akan
membentuk regresi linear.
independensi atau
autokorelasi
cor(heart.data$biking, heart.data$smoking)
## [1] 0.01513618
korelasi antara biking dan smoking hanya 0.015 atau 1.5%, maka bisa
dipastikan bahwa variabel dependen kita tidak autokorelasi. kita bisa
menggunakan kedua parameter tersebut.
homosdesitas
(kehomogenitas varians)
akan di tes setelah plotnya terbentuk
normalitas
hist(heart.data$heart.disease)
hasil dari histogram di atas kira-kira datanya bersebar normal atau
berbentuk lonceng (bell-shaped), maka data kita merupakan normal.
Linear regression
analisis
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)
summary(heart.disease.lm)
##
## Call:
## lm(formula = heart.disease ~ biking + smoking, data = heart.data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.1789 -0.4463 0.0362 0.4422 1.9331
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 14.984658 0.080137 186.99 <2e-16 ***
## biking -0.200133 0.001366 -146.53 <2e-16 ***
## smoking 0.178334 0.003539 50.39 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.654 on 495 degrees of freedom
## Multiple R-squared: 0.9796, Adjusted R-squared: 0.9795
## F-statistic: 1.19e+04 on 2 and 495 DF, p-value: < 2.2e-16
Dari hasil tersebut didapat bahwa p-value < dari alpha 5%, dan
Multiple R-square sebesar 97.96%. Berarti terdapat 97.96% variabel yang
sudah termsuk kedalam regresi yang dibuat. Untuk penelitian scientific,
R-square harus lebih dari samadengan 90%. Jadi regresi yang telah kita
buat sudah oke.
Kedua variabel dependen (biking dan smoking)
memiliki pengaruh siknifikan terhadap heart.disease.
Rumus / Model
Regresinya adalah :
heart.disease = 14.98 - 0.2*biking + 0.17*smoking
Biking/bersepeda memiliki dampak negatif terhadap penyakit jantung, dan
smoking/merokok memiliki dampak positif. Karena ini penyakit jantung,
semakin kecil nilai regresi yang didapat semakin kecil resiko seseorang
mengalami penyakit jantung. Sehingga Bisa dikatakan bahwa
biking/bersepeda memiliki dampak yang baik untuk tubuh, dan
smoking/merokok memiliki dampak negatif untuk tubuh. Smoking/merokok
bisa memicu penyakit jantung, dan sebaliknya pada biking/bersepeda.
visualisasi Hasil
dengan grafik
plotting.data<-expand.grid(
biking = seq(min(heart.data$biking), max(heart.data$biking), length.out=30),
smoking=c(min(heart.data$smoking), mean(heart.data$smoking), max(heart.data$smoking)))
plotting.data$predicted.y <- predict.lm(heart.disease.lm, newdata=plotting.data)
plotting.data$smoking <- as.factor(round(plotting.data$smoking, digits = 2))
ggplot(heart.data, aes(x=biking, y=heart.disease)) +
geom_point()+
geom_line(data=plotting.data, aes(x=biking, y=predicted.y, color=smoking), size=1.25)+
theme_bw() +
labs(title = "Rates of heart disease (% of population) \n as a function of biking to work and smoking",
x = "Biking to work (% of population)",
y = "Heart disease (% of population)",
color = "Smoking \n (% of population)")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.

homosdesitas
(kehomogenitas varians)
par(mfrow=c(2,2))
plot(heart.disease.lm)

sama seperti simple regresi, residunya tidak menunjukkan adanya bias,
dan bisa dibilnag model kita cocok untuk asumsi homogenitas.
