Pendahuluan

Kemarin saya sudah menuliskan tentang dasar-dasar regresi namun hanya 3 materi saja, yaitu : Regresi linear sederhana, Regresi linear berganda & Regresi logistik. Materi ini akan saya coba jelaskan yang saya tau lebih dulu dari sampean. ohiya klik di sini untuk materi sebelumnya. kita akan mencoba membuat contoh data set untuk membuat model Regresi.

ohh iya literatur lain bisa di cek di sini

  • Regresi Linear
Jambelajar= round(runif(50, min = 5, max = 20))
Nilai = round(Jambelajar*2+rnorm(50, mean = 0, sd = 1))
data_Regsed = data.frame(Jambelajar, Nilai)

str(data_Regsed)
## 'data.frame':    50 obs. of  2 variables:
##  $ Jambelajar: num  10 9 9 6 11 14 5 11 11 19 ...
##  $ Nilai     : num  22 18 18 13 22 27 10 23 22 38 ...
  • Regresi logistik
set.seed(123)
Jmlh_jam_bljr = round(runif(100, min = 10, max = 40))
Jmlh_prsn_bljr = round(runif(100, min = 5, max = 20))
prob_lulus = plogis(-5 + 0.1 * Jmlh_jam_bljr + 0.2 * Jmlh_prsn_bljr)
Keterangann = ifelse(runif(100) < prob_lulus, "lulus", "tidak lulus")
# Data set
data_reglog =data.frame(Jmlh_jam_bljr, Jmlh_prsn_bljr, Keterangann)
data_reglog$Keterangann = ifelse(data_reglog$Keterangann == "lulus", 1, 0)
str(data_reglog)
## 'data.frame':    100 obs. of  3 variables:
##  $ Jmlh_jam_bljr : num  19 34 22 36 38 11 26 37 27 24 ...
##  $ Jmlh_prsn_bljr: num  14 10 12 19 12 18 19 14 11 7 ...
##  $ Keterangann   : num  1 0 0 1 1 0 1 1 1 1 ...

Regresi

Sebelum di lakukan Regresi berikut adalah beberapa hal yang harus di persiapkan.

Package

library(readxl)
library(readr)
library(stats)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ purrr     1.0.2
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some
library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## 
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(MASS)
## 
## Attaching package: 'MASS'
## 
## The following object is masked from 'package:dplyr':
## 
##     select
library(ggplot2)
library(corrplot)
## corrplot 0.92 loaded
library(lmtest)
library(broom)
library(MLmetrics)
## 
## Attaching package: 'MLmetrics'
## 
## The following object is masked from 'package:base':
## 
##     Recall
library(cowplot)
## 
## Attaching package: 'cowplot'
## 
## The following object is masked from 'package:lubridate':
## 
##     stamp
library(corrplot)
library(lattice)

Pemilihan Jenis Regresi

Nah ini adalah hal pertama yang harus di lakukan, jenis regresi di pilih sesuai dengan jenis datanya. saya tulis sebelumnya klik di sini. ku coba ringkas lagi.

Regresi linear Sederhana

Di gunakan ketika data yang di miliki hanya terdapat satu variabel independen dan satu variabel dependen.

Regresi linear Berganda

Analisis regresi yang melibatkan lebih dari satu variabel independen untuk memprediksi variabel dependen.

Regreli Logistik

Digunakan ketika data yang digunakan adalah data berbentuk Biner.Regresi untuk memprediksi probabilitas kejadian suatu kejadian tertentu (biasanya diwakili oleh kategori 1) berdasarkan nilai-nilai variabel independen.


Data Eksprolation

Kedua adalah Data eksplorasi data, ini bertujuan untuk membersihkan data dan memahami data secara menyeluruh.

Data preparation

Mencari data set, sudah ada di pendahuluan.

Data cleaning

Data cleaning bisa di cek di sini

  • Cek Missing value

  • Data duplicate

  • Check data type

Exploration

Sebaran data

plots = lapply(names(data_Regsed), function(var_x){
  p <- 
    ggplot(data_Regsed)+
    aes_string(var_x)+
    geom_density(lwd = 1, color = "darkorange")
})
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
plot_grid(plotlist = plots)

Korelasi

# Menghitung korelasi antar kolom
cor_matrix = round(cor(data_Regsed),2)
cor_matrix
##            Jambelajar Nilai
## Jambelajar       1.00  0.99
## Nilai            0.99  1.00
# Membuat plot antar korelasi
corrplot(cor_matrix,
         type = "lower",
         method = "color",
         tl.cex = 0.5,
         tl.col = "black",
)

corrplot(cor(data_reglog), method = "circle", type = "lower", number.cex = 0.5, tl.cex = 0.7, tl.col = "black", diag = FALSE)

Di tahap ini adalah tahap melihat beberapa asumsi yang harus di penuhi model regresi, yaitu : Multikolinearitas.

Membuat Model

Model Regresi linear

membuat model regresi linier

model_regresi_linear = lm(Nilai ~ ., data = data)

Model Regresi linear

Model_regresi_logistik <- glm(Nilai ~ ., family = binomial, data_Regsed) step(Model_regresi_logistik)

Evaluasi Model

Confusion Matrix

Evaluasi terhadap model klasifikasi dilakukan dengan membuat tabel klasifikasi antara kelas sebenarnya dengan kelas hasil prediksi dari model klasifikasi. Tabel klasifikasi ini biasa disebut dengan Confusion Matrix.

Confusion matrix dapat diartikan sebagai suatu alat yang memiliki fungsi untuk melakukan analisis apakah classifier tersebut baik dalam mengenali tuple dari kelas yang berbeda. Nilai dari True-Positive (TP) dan True-Negative (TN) memberikan informasi ketika classifier dalam melakukan klasifikasi data bernilai benar, sedangkan False-Positive (FP) dan False-Negative (FN) memberikan informasi ketika classifier salah dalam melakukan klasifikasi data (Han dan Kamber, 2011).

Pada performa klasifikasi akan dihitung akurasi, spesifisitas, sensitivitas dan AUC. Akurasi merupakan persentase classifier benar melakukan prediksi. Sensitivitas merupakan Persentase data positif yang diprediksi sebagai positif. Dan Spesifisitas merupakan Persentase data negatif diprediksi sebagai negatif (Faisal dan Nugrahadi, 2019).Sedangkan AUC adalah kinerja dari model klasifikasi.

ROC Plot

library(ROCR) pred<- prediction(predict.glm(credit.glm.final,german.credit.test),german.credit.test$class) perf <- performance(pred,“tpr”,“fpr”) plot(perf)

Penutup

Selanjutnya jika model sudah baik asumasi terpenuhi. maka model itu bisa kita jadikan sebagai alat prediksi, dengan menggunakan data set baru yang berisi variable yang sama dengan data set model. caranya adalah :

membuat prediksi dengan data baru dari model

predicted_values <- predict(model_reglog, newdata = new_data)

Evaluasi model

residuals <- true_values - predicted_values mse <- mean(residuals^2)

Plot model

plot(new_data\(X1, predicted_values, col = "red", pch = 16, xlab = "X1", ylab = "Predicted Y", main = "Model Regression Plot") points(new_data\)X1, true_values, col = “blue”, pch = 16) legend(“topleft”, legend = c(“Predicted Values”, “True Values”), col = c(“red”, “blue”), pch = 16)


