Pendahuluan
Kemarin saya sudah menuliskan tentang dasar-dasar regresi namun hanya
3 materi saja, yaitu : Regresi linear sederhana,
Regresi linear berganda &
Regresi logistik. Materi ini akan saya coba jelaskan yang
saya tau lebih dulu dari sampean. ohiya klik di sini untuk materi
sebelumnya. kita akan mencoba membuat contoh data set untuk membuat
model Regresi.
ohh iya literatur lain bisa di cek di sini
Jambelajar= round(runif(50, min = 5, max = 20))
Nilai = round(Jambelajar*2+rnorm(50, mean = 0, sd = 1))
data_Regsed = data.frame(Jambelajar, Nilai)
str(data_Regsed)
## 'data.frame': 50 obs. of 2 variables:
## $ Jambelajar: num 10 9 9 6 11 14 5 11 11 19 ...
## $ Nilai : num 22 18 18 13 22 27 10 23 22 38 ...
set.seed(123)
Jmlh_jam_bljr = round(runif(100, min = 10, max = 40))
Jmlh_prsn_bljr = round(runif(100, min = 5, max = 20))
prob_lulus = plogis(-5 + 0.1 * Jmlh_jam_bljr + 0.2 * Jmlh_prsn_bljr)
Keterangann = ifelse(runif(100) < prob_lulus, "lulus", "tidak lulus")
# Data set
data_reglog =data.frame(Jmlh_jam_bljr, Jmlh_prsn_bljr, Keterangann)
data_reglog$Keterangann = ifelse(data_reglog$Keterangann == "lulus", 1, 0)
str(data_reglog)
## 'data.frame': 100 obs. of 3 variables:
## $ Jmlh_jam_bljr : num 19 34 22 36 38 11 26 37 27 24 ...
## $ Jmlh_prsn_bljr: num 14 10 12 19 12 18 19 14 11 7 ...
## $ Keterangann : num 1 0 0 1 1 0 1 1 1 1 ...
Regresi
Sebelum di lakukan Regresi berikut adalah beberapa hal yang harus di
persiapkan.
Package
library(readxl)
library(readr)
library(stats)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ purrr 1.0.2
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
##
## The following object is masked from 'package:dplyr':
##
## recode
##
## The following object is masked from 'package:purrr':
##
## some
library(lmtest)
## Loading required package: zoo
##
## Attaching package: 'zoo'
##
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(MASS)
##
## Attaching package: 'MASS'
##
## The following object is masked from 'package:dplyr':
##
## select
library(ggplot2)
library(corrplot)
## corrplot 0.92 loaded
library(lmtest)
library(broom)
library(MLmetrics)
##
## Attaching package: 'MLmetrics'
##
## The following object is masked from 'package:base':
##
## Recall
library(cowplot)
##
## Attaching package: 'cowplot'
##
## The following object is masked from 'package:lubridate':
##
## stamp
library(corrplot)
library(lattice)
Pemilihan Jenis Regresi
Nah ini adalah hal pertama yang harus di lakukan, jenis regresi di
pilih sesuai dengan jenis datanya. saya tulis sebelumnya klik di sini. ku coba
ringkas lagi.
Regresi linear Sederhana
Di gunakan ketika data yang di miliki hanya terdapat satu variabel
independen dan satu variabel dependen.
Regresi linear Berganda
Analisis regresi yang melibatkan lebih dari satu variabel independen
untuk memprediksi variabel dependen.
Regreli Logistik
Digunakan ketika data yang digunakan adalah data berbentuk
Biner.Regresi untuk memprediksi probabilitas kejadian suatu kejadian
tertentu (biasanya diwakili oleh kategori 1) berdasarkan nilai-nilai
variabel independen.
Data Eksprolation
Kedua adalah Data eksplorasi data, ini bertujuan untuk membersihkan
data dan memahami data secara menyeluruh.
Data preparation
Mencari data set, sudah ada di pendahuluan.
Data cleaning
Data cleaning bisa di cek di
sini
Cek Missing value
Data duplicate
Check data type
Exploration
Sebaran data
plots = lapply(names(data_Regsed), function(var_x){
p <-
ggplot(data_Regsed)+
aes_string(var_x)+
geom_density(lwd = 1, color = "darkorange")
})
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
plot_grid(plotlist = plots)

Korelasi
# Menghitung korelasi antar kolom
cor_matrix = round(cor(data_Regsed),2)
cor_matrix
## Jambelajar Nilai
## Jambelajar 1.00 0.99
## Nilai 0.99 1.00
# Membuat plot antar korelasi
corrplot(cor_matrix,
type = "lower",
method = "color",
tl.cex = 0.5,
tl.col = "black",
)

corrplot(cor(data_reglog), method = "circle", type = "lower", number.cex = 0.5, tl.cex = 0.7, tl.col = "black", diag = FALSE)

Di tahap ini adalah tahap melihat beberapa asumsi yang harus di
penuhi model regresi, yaitu : Multikolinearitas.
Membuat Model
Model Regresi linear
membuat model regresi linier
model_regresi_linear = lm(Nilai ~ ., data = data)
Model Regresi linear
Model_regresi_logistik <- glm(Nilai ~ ., family = binomial,
data_Regsed) step(Model_regresi_logistik)
Evaluasi Model
Confusion Matrix
Evaluasi terhadap model klasifikasi dilakukan dengan membuat tabel
klasifikasi antara kelas sebenarnya dengan kelas hasil prediksi dari
model klasifikasi. Tabel klasifikasi ini biasa disebut dengan Confusion
Matrix.
Confusion matrix dapat diartikan sebagai suatu alat yang memiliki
fungsi untuk melakukan analisis apakah classifier tersebut baik dalam
mengenali tuple dari kelas yang berbeda. Nilai dari True-Positive (TP)
dan True-Negative (TN) memberikan informasi ketika classifier dalam
melakukan klasifikasi data bernilai benar, sedangkan False-Positive (FP)
dan False-Negative (FN) memberikan informasi ketika classifier salah
dalam melakukan klasifikasi data (Han dan Kamber, 2011).
Pada performa klasifikasi akan dihitung akurasi, spesifisitas,
sensitivitas dan AUC. Akurasi merupakan persentase classifier benar
melakukan prediksi. Sensitivitas merupakan Persentase data positif yang
diprediksi sebagai positif. Dan Spesifisitas merupakan Persentase data
negatif diprediksi sebagai negatif (Faisal dan Nugrahadi,
2019).Sedangkan AUC adalah kinerja dari model klasifikasi.

ROC Plot
library(ROCR) pred<-
prediction(predict.glm(credit.glm.final,german.credit.test),german.credit.test$class)
perf <- performance(pred,“tpr”,“fpr”) plot(perf)

Penutup
Selanjutnya jika model sudah baik asumasi terpenuhi. maka model itu
bisa kita jadikan sebagai alat prediksi, dengan menggunakan data set
baru yang berisi variable yang sama dengan data set model. caranya
adalah :
membuat prediksi dengan data baru dari model
predicted_values <- predict(model_reglog, newdata = new_data)
Evaluasi model
residuals <- true_values - predicted_values mse <-
mean(residuals^2)
Plot model
plot(new_data\(X1, predicted_values, col =
"red", pch = 16, xlab = "X1", ylab = "Predicted
Y", main = "Model Regression Plot")
points(new_data\)X1, true_values, col = “blue”, pch = 16)
legend(“topleft”, legend = c(“Predicted Values”, “True Values”), col =
c(“red”, “blue”), pch = 16)
