Seorang peneliti ingin mengetahui apakah terdapat perbedaan nilai statistika antara mahasiswa yang mengikuti bimbingan belajar dan yang tidak mengikuti bimbingan belajar.
Karena variabel ‘ikut bimbel’ bukan angka melainkan kategori Ya dan Tidak, maka digunakan variabel dummy dalam model regresi
data <- read.csv("D:/Youtube/Regresi/Dummy.csv")
head(data)
## X jam_belajar bimbel nilai
## 1 1 3.588198 Ya 73.87332
## 2 2 8.094746 Tidak 86.04061
## 3 3 4.680792 Ya 76.05678
## 4 4 8.947157 Tidak 79.21195
## 5 5 9.464206 Ya 94.87221
## 6 6 1.410008 Ya 57.66267
data$d1 <- ifelse(
data$bimbel=="Ya",
1,
0
)
model <- lm(
nilai ~ jam_belajar +
d1,
data=data
)
summary(model)
##
## Call:
## lm(formula = nilai ~ jam_belajar + d1, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.1323 -3.6707 -0.7581 3.1955 19.7470
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 44.3799 1.2426 35.72 <2e-16 ***
## jam_belajar 4.5519 0.1795 25.36 <2e-16 ***
## d1 9.7159 0.9252 10.50 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.621 on 147 degrees of freedom
## Multiple R-squared: 0.8264, Adjusted R-squared: 0.8241
## F-statistic: 350 on 2 and 147 DF, p-value: < 2.2e-16
data$Ydummy <- predict(model)
library(ggplot2)
ggplot(data,
aes(jam_belajar,
nilai,
color=bimbel))+
geom_point(size=2)+
geom_smooth(
method="lm",
se=F
)+
theme_minimal()+
labs(
title="Regresi Dummy Variable",
x="Jam Belajar",
y="Nilai"
)
## `geom_smooth()` using formula = 'y ~ x'