Import Dataset Kita yagesya

setwd("D:/STIS/4SE/4. Data Mining/Tugas/Kelompok Datmin/Bismillah Ya")
library(readxl)
## Warning: package 'readxl' was built under R version 4.0.5
Data <- read_excel("Data.xlsx")
View(Data)

Load Library kita yagesya

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.5
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.0.5
library(data.table)
## Warning: package 'data.table' was built under R version 4.0.5
## 
## Attaching package: 'data.table'
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
library(DT)
## Warning: package 'DT' was built under R version 4.0.5
library(caret)
## Warning: package 'caret' was built under R version 4.0.5
## Loading required package: lattice
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.0.5
library(rpart)
## Warning: package 'rpart' was built under R version 4.0.5
library(rpart.plot)
## Warning: package 'rpart.plot' was built under R version 4.0.5
library(randomForest)
## Warning: package 'randomForest' was built under R version 4.0.5
## randomForest 4.6-14
## Type rfNews() to see new features/changes/bug fixes.
## 
## Attaching package: 'randomForest'
## The following object is masked from 'package:ggplot2':
## 
##     margin
## The following object is masked from 'package:dplyr':
## 
##     combine
library(e1071)
## Warning: package 'e1071' was built under R version 4.0.5
library(rmarkdown)
## Warning: package 'rmarkdown' was built under R version 4.0.5
library(ggplot2)
library(pROC)
## Warning: package 'pROC' was built under R version 4.0.5
## Type 'citation("pROC")' for a citation.
## 
## Attaching package: 'pROC'
## The following objects are masked from 'package:stats':
## 
##     cov, smooth, var
library(smotefamily)
## Warning: package 'smotefamily' was built under R version 4.0.5
dataset<-as.data.frame(Data)
str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : num  0 1 0 1 0 0 0 0 1 0 ...
##  $ Daerah             : chr  "2" "2" "1" "1" ...
##  $ Gender             : num  1 1 1 1 1 1 2 1 1 1 ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : num  2 2 2 2 1 2 2 4 2 2 ...
##  $ Ijazah             : num  1 11 1 1 14 10 1 1 14 7 ...
##  $ Pelatihan          : num  2 2 2 2 2 1 2 2 1 2 ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
#View(dataset)

PREPROCESSING 1. Mengubah kategori terdampak : tidak = 0, terdampak = 1

dataset$Terdampak <- gsub("0", "Tidak", dataset$Terdampak)
dataset$Terdampak <- gsub("1", "Ya", dataset$Terdampak)
str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "2" "2" "1" "1" ...
##  $ Gender             : num  1 1 1 1 1 1 2 1 1 1 ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : num  2 2 2 2 1 2 2 4 2 2 ...
##  $ Ijazah             : num  1 11 1 1 14 10 1 1 14 7 ...
##  $ Pelatihan          : num  2 2 2 2 2 1 2 2 1 2 ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
  1. Mengubah kategori daerah : perkotaan = 1, perdesaan = 2
dataset$Daerah <- gsub("1", "Perkotaan", dataset$Daerah)
dataset$Daerah <- gsub("2", "Perdesaan", dataset$Daerah)
str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : num  1 1 1 1 1 1 2 1 1 1 ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : num  2 2 2 2 1 2 2 4 2 2 ...
##  $ Ijazah             : num  1 11 1 1 14 10 1 1 14 7 ...
##  $ Pelatihan          : num  2 2 2 2 2 1 2 2 1 2 ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
  1. Mengubah kategori gender : laki = 1, perempuan = 2
dataset$Gender <- gsub("1", "Laki", dataset$Gender)
dataset$Gender <- gsub("2", "Perempuan", dataset$Gender)
str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : chr  "Laki" "Laki" "Laki" "Laki" ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : num  2 2 2 2 1 2 2 4 2 2 ...
##  $ Ijazah             : num  1 11 1 1 14 10 1 1 14 7 ...
##  $ Pelatihan          : num  2 2 2 2 2 1 2 2 1 2 ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
  1. Mengubah kategori status perkawinan : Belum Pernah Menikah = 1, Sudah Pernah Menikah = 2,3,4
dataset$StatusPerkawinan <- gsub("1", "Belum Pernah Menikah", dataset$StatusPerkawinan)
dataset$StatusPerkawinan <- gsub("2", "Sudah Pernah Menikah", dataset$StatusPerkawinan)
dataset$StatusPerkawinan <- gsub("3", "Sudah Pernah Menikah", dataset$StatusPerkawinan)
dataset$StatusPerkawinan <- gsub("4", "Sudah Pernah Menikah", dataset$StatusPerkawinan)
str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : chr  "Laki" "Laki" "Laki" "Laki" ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : chr  "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" ...
##  $ Ijazah             : num  1 11 1 1 14 10 1 1 14 7 ...
##  $ Pelatihan          : num  2 2 2 2 2 1 2 2 1 2 ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
  1. Mengubah kategori Ijazah : SD kebawah = 1-4, SMP dan SMA = 5-11, Perguruan Tinggi = 12-16
dataset$Ijazah <- gsub("12", "Perguruan Tinggi", dataset$Ijazah)
dataset$Ijazah <- gsub("13", "Perguruan Tinggi", dataset$Ijazah)
dataset$Ijazah <- gsub("14", "Perguruan Tinggi", dataset$Ijazah)
dataset$Ijazah <- gsub("15", "Perguruan Tinggi", dataset$Ijazah)
dataset$Ijazah <- gsub("16", "Perguruan Tinggi", dataset$Ijazah)

dataset$Ijazah <- gsub("5", "SMP dan SMA", dataset$Ijazah)
dataset$Ijazah <- gsub("6", "SMP dan SMA", dataset$Ijazah)
dataset$Ijazah <- gsub("7", "SMP dan SMA", dataset$Ijazah)
dataset$Ijazah <- gsub("8", "SMP dan SMA", dataset$Ijazah)
dataset$Ijazah <- gsub("9", "SMP dan SMA", dataset$Ijazah)
dataset$Ijazah <- gsub("10", "SMP dan SMA", dataset$Ijazah)
dataset$Ijazah <- gsub("11", "SMP dan SMA", dataset$Ijazah)

dataset$Ijazah <- gsub("1", "SD kebawah", dataset$Ijazah)
dataset$Ijazah <- gsub("2", "SD kebawah", dataset$Ijazah)
dataset$Ijazah <- gsub("3", "SD kebawah", dataset$Ijazah)
dataset$Ijazah <- gsub("4", "SD kebawah", dataset$Ijazah)

str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : chr  "Laki" "Laki" "Laki" "Laki" ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : chr  "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" ...
##  $ Ijazah             : chr  "SD kebawah" "SMP dan SMA" "SD kebawah" "SD kebawah" ...
##  $ Pelatihan          : num  2 2 2 2 2 1 2 2 1 2 ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...

7.Mengubah kategori Pelatihan : Ya = 1, Tidak = 2

dataset$Pelatihan <- gsub("1", "Ya", dataset$Pelatihan)
dataset$Pelatihan <- gsub("2", "Tidak", dataset$Pelatihan)
str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : chr  "Laki" "Laki" "Laki" "Laki" ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : chr  "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" ...
##  $ Ijazah             : chr  "SD kebawah" "SMP dan SMA" "SD kebawah" "SD kebawah" ...
##  $ Pelatihan          : chr  "Tidak" "Tidak" "Tidak" "Tidak" ...
##  $ LU                 : num  1 3 3 1 1 14 1 1 9 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
  1. Lapangan Usaha : Primer = 1-2, Sekunder = 3-6, Tersier = 7-17
dataset$LU <- gsub("10", "Tersier", dataset$LU)
dataset$LU <- gsub("11", "Tersier", dataset$LU)
dataset$LU <- gsub("12", "Tersier", dataset$LU)
dataset$LU <- gsub("13", "Tersier", dataset$LU)
dataset$LU <- gsub("14", "Tersier", dataset$LU)
dataset$LU <- gsub("15", "Tersier", dataset$LU)
dataset$LU <- gsub("16", "Tersier", dataset$LU)
dataset$LU <- gsub("17", "Tersier", dataset$LU)
dataset$LU <- gsub("7", "Tersier", dataset$LU)
dataset$LU <- gsub("8", "Tersier", dataset$LU)
dataset$LU <- gsub("9", "Tersier", dataset$LU)

dataset$LU <- gsub("1", "Primer", dataset$LU)
dataset$LU <- gsub("2", "Primer", dataset$LU)

dataset$LU <- gsub("3", "Sekunder", dataset$LU)
dataset$LU <- gsub("4", "Sekunder", dataset$LU)
dataset$LU <- gsub("5", "Sekunder", dataset$LU)
dataset$LU <- gsub("6", "Sekunder", dataset$LU)

str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : chr  "Laki" "Laki" "Laki" "Laki" ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : chr  "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" ...
##  $ Ijazah             : chr  "SD kebawah" "SMP dan SMA" "SD kebawah" "SD kebawah" ...
##  $ Pelatihan          : chr  "Tidak" "Tidak" "Tidak" "Tidak" ...
##  $ LU                 : chr  "Primer" "Sekunder" "Sekunder" "Primer" ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: num  2 2 2 2 2 2 2 2 2 2 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
#View(dataset)
  1. Mengubah Kategori Menggunakan Komputer : Ya = 1, Tidak = 2
dataset$MenggunakanKomputer <- gsub("1", "Ya", dataset$MenggunakanKomputer)
dataset$MenggunakanKomputer <- gsub("2", "Tidak", dataset$MenggunakanKomputer)

str(dataset)
## 'data.frame':    20000 obs. of  15 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : chr  "Tidak" "Ya" "Tidak" "Ya" ...
##  $ Daerah             : chr  "Perdesaan" "Perdesaan" "Perkotaan" "Perkotaan" ...
##  $ Gender             : chr  "Laki" "Laki" "Laki" "Laki" ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : chr  "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" "Sudah Pernah Menikah" ...
##  $ Ijazah             : chr  "SD kebawah" "SMP dan SMA" "SD kebawah" "SD kebawah" ...
##  $ Pelatihan          : chr  "Tidak" "Tidak" "Tidak" "Tidak" ...
##  $ LU                 : chr  "Primer" "Sekunder" "Sekunder" "Primer" ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : num  2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: chr  "Tidak" "Tidak" "Tidak" "Tidak" ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...

============================================================================

MENGGABUNGKAN PENDAPATAN DAN UPAH

dataset <- dataset %>% mutate(PendapatanUpah = Pendapatan+Upah)
#View(dataset)

SET AS FACTOR

dataset$Terdampak <- as.factor(dataset$Terdampak)
dataset$Daerah <- as.factor(dataset$Daerah)
dataset$Gender <- as.factor(dataset$Gender)
dataset$StatusPerkawinan <- as.factor(dataset$StatusPerkawinan)
dataset$Ijazah <- as.factor(dataset$Ijazah)
dataset$Pelatihan <- as.factor(dataset$Pelatihan)
dataset$LU <- as.factor(dataset$LU)
dataset$StatusPekerjaan <- as.factor(dataset$StatusPekerjaan)
dataset$MenggunakanKomputer <- as.factor(dataset$MenggunakanKomputer)

str(dataset)
## 'data.frame':    20000 obs. of  16 variables:
##  $ No                 : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ Terdampak          : Factor w/ 2 levels "Tidak","Ya": 1 2 1 2 1 1 1 1 2 1 ...
##  $ Daerah             : Factor w/ 2 levels "Perdesaan","Perkotaan": 1 1 2 2 1 1 1 1 2 1 ...
##  $ Gender             : Factor w/ 2 levels "Laki","Perempuan": 1 1 1 1 1 1 2 1 1 1 ...
##  $ Umur               : num  46 37 45 31 25 33 55 73 60 45 ...
##  $ StatusPerkawinan   : Factor w/ 2 levels "Belum Pernah Menikah",..: 2 2 2 2 1 2 2 2 2 2 ...
##  $ Ijazah             : Factor w/ 3 levels "Perguruan Tinggi",..: 2 3 2 2 1 3 2 2 1 3 ...
##  $ Pelatihan          : Factor w/ 2 levels "Tidak","Ya": 1 1 1 1 1 2 1 1 2 1 ...
##  $ LU                 : Factor w/ 3 levels "Primer","Sekunder",..: 1 2 2 1 1 3 1 1 3 1 ...
##  $ JamKerja           : num  36 77 70 56 56 45 28 30 7 28 ...
##  $ StatusPekerjaan    : Factor w/ 7 levels "1","2","3","4",..: 2 4 4 5 2 4 7 5 3 2 ...
##  $ MenggunakanKomputer: Factor w/ 2 levels "Tidak","Ya": 1 1 1 1 1 1 1 1 1 1 ...
##  $ JumlahHariKerja    : num  NA 30 30 30 NA 20 NA 20 NA NA ...
##  $ Pendapatan         : num  NA 0 0 1500000 NA 0 NA 500000 NA NA ...
##  $ Upah               : num  NA 1000000 1200000 0 NA 1000000 NA 0 NA NA ...
##  $ PendapatanUpah     : num  NA 1000000 1200000 1500000 NA 1000000 NA 500000 NA NA ...
summary(dataset)
##        No        Terdampak           Daerah            Gender     
##  Min.   :    1   Tidak:15640   Perdesaan:14310   Laki     :12336  
##  1st Qu.: 5001   Ya   : 4360   Perkotaan: 5690   Perempuan: 7664  
##  Median :10000                                                    
##  Mean   :10000                                                    
##  3rd Qu.:15000                                                    
##  Max.   :20000                                                    
##                                                                   
##       Umur                   StatusPerkawinan              Ijazah    
##  Min.   :15.00   Belum Pernah Menikah: 3167   Perguruan Tinggi:2673  
##  1st Qu.:33.00   Sudah Pernah Menikah:16833   SD kebawah      :8962  
##  Median :43.00                                SMP dan SMA     :8365  
##  Mean   :42.87                                                       
##  3rd Qu.:52.00                                                       
##  Max.   :98.00                                                       
##                                                                      
##  Pelatihan            LU          JamKerja     StatusPekerjaan
##  Tidak:17628   Primer  :8648   Min.   : 1.00   1:4870         
##  Ya   : 2372   Sekunder:2874   1st Qu.:28.00   2:3974         
##                Tersier :8478   Median :40.00   3: 750         
##                                Mean   :39.38   4:5993         
##                                3rd Qu.:49.00   5: 848         
##                                Max.   :98.00   6: 696         
##                                                7:2869         
##  MenggunakanKomputer JumlahHariKerja   Pendapatan            Upah         
##  Tidak:17396         Min.   : 1.00   Min.   :       0   Min.   :       0  
##  Ya   : 2604         1st Qu.:21.00   1st Qu.:       0   1st Qu.:       0  
##                      Median :25.00   Median :  122500   Median :       0  
##                      Mean   :24.01   Mean   :  927128   Mean   : 1317753  
##                      3rd Qu.:30.00   3rd Qu.: 1500000   3rd Qu.: 2000000  
##                      Max.   :70.00   Max.   :30000000   Max.   :67075700  
##                      NA's   :7594    NA's   :7593       NA's   :7593      
##  PendapatanUpah    
##  Min.   :       0  
##  1st Qu.:  800000  
##  Median : 1600000  
##  Mean   : 2244881  
##  3rd Qu.: 3000000  
##  Max.   :67075700  
##  NA's   :7593

LALU MEMBUAT MELIHAT APAKAH DATA IMBALANCE ATAU TIDAK

propTerdampak<-table(dataset$Terdampak)
propTerdampak
## 
## Tidak    Ya 
## 15640  4360
perc<-round(prop.table(propTerdampak), digits=2)
barplot(perc,
        main="Terdampak Pandemi COVID-19",
        xlab="Label",
        ylab="proporsi",
        col="brown",
        density = 10,
        angle = 45,
        names.arg = c("Tidak","Ya"))

datasetcoba <- dataset


datasetcoba$PendapatanUpah <- datasetcoba$PendapatanUpah %>% replace_na(0)



for(i in 1:nrow(datasetcoba)){
  if (datasetcoba$PendapatanUpah[i] < 5000000)
    {datasetcoba$ket[i] <- "Miskin"}
  else
  {datasetcoba$ket[i] <- "Kaya"}
}

View(datasetcoba)