setwd("E:/Semester 2/Data Mining Visualisation/LabAss2")
df <- read.csv('E:/Semester 2/Data Mining Visualisation/LabAss2/bike_buyers.csv')
Data: ID : ID KTP STatus : status apakah maried/singgle gender: laki2/wanita income :pendapatan pembeli& peinjam children : jumlah anak yang dimiliki Education: latar belakang dari pembeli home owner: apakah punya rumah/engga cars: punya mobil/tidak comute distance : jarak rumah pembeli dengan company Region : apakah lokasi di mana peminjam age : usia pembeli /pemonajm purchased : apakah jadi meminjam / tidak
head(df)
## ï..ID Marital.Status Gender Income Children Education Occupation
## 1 12496 Married Female 40000 1 Bachelors Skilled Manual
## 2 24107 Married Male 30000 3 Partial College Clerical
## 3 14177 Married Male 80000 5 Partial College Professional
## 4 24381 Single 70000 0 Bachelors Professional
## 5 25597 Single Male 30000 0 Bachelors Clerical
## 6 13507 Married Female 10000 2 Partial College Manual
## Home.Owner Cars Commute.Distance Region Age Purchased.Bike
## 1 Yes 0 0-1 Miles Europe 42 No
## 2 Yes 1 0-1 Miles Europe 43 No
## 3 No 2 2-5 Miles Europe 60 No
## 4 Yes 1 5-10 Miles Pacific 41 Yes
## 5 No 0 0-1 Miles Europe 36 Yes
## 6 Yes 0 1-2 Miles Europe 50 No
tail(df)
## ï..ID Marital.Status Gender Income Children Education Occupation
## 995 13466 Married Male 80000 5 Partial College Professional
## 996 23731 Married Male 60000 2 High School Professional
## 997 28672 Single Male 70000 4 Graduate Degree Professional
## 998 11809 Married 60000 2 Bachelors Skilled Manual
## 999 19664 Single Male 100000 3 Bachelors Management
## 1000 12121 Single Male 60000 3 High School Professional
## Home.Owner Cars Commute.Distance Region Age Purchased.Bike
## 995 Yes 3 1-2 Miles North America 46 No
## 996 Yes 2 2-5 Miles North America 54 Yes
## 997 Yes 0 2-5 Miles North America 35 Yes
## 998 Yes 0 0-1 Miles North America 38 Yes
## 999 No 3 1-2 Miles North America 38 No
## 1000 Yes 2 10+ Miles North America 53 Yes
EXPLANATION Dari data bike buyers dapat dilihat bahwa tidak ada variabel yang terdistribusi normal. Hanya variabel age/usia sajalah yang hampir berbentuk seperti lonceng (bell curved).
dim(df)
## [1] 1000 13
EXPLANATION Data Insurance terdiri dari 1000 observasi dan 13 variables.
str(df)
## 'data.frame': 1000 obs. of 13 variables:
## $ ï..ID : int 12496 24107 14177 24381 25597 13507 27974 19364 22155 19280 ...
## $ Marital.Status : chr "Married" "Married" "Married" "Single" ...
## $ Gender : chr "Female" "Male" "Male" "" ...
## $ Income : int 40000 30000 80000 70000 30000 10000 160000 40000 20000 NA ...
## $ Children : int 1 3 5 0 0 2 2 1 2 2 ...
## $ Education : chr "Bachelors" "Partial College" "Partial College" "Bachelors" ...
## $ Occupation : chr "Skilled Manual" "Clerical" "Professional" "Professional" ...
## $ Home.Owner : chr "Yes" "Yes" "No" "Yes" ...
## $ Cars : int 0 1 2 1 0 0 4 0 2 1 ...
## $ Commute.Distance: chr "0-1 Miles" "0-1 Miles" "2-5 Miles" "5-10 Miles" ...
## $ Region : chr "Europe" "Europe" "Europe" "Pacific" ...
## $ Age : int 42 43 60 41 36 50 33 43 58 NA ...
## $ Purchased.Bike : chr "No" "No" "No" "Yes" ...
EXPLANATION Data bike buyers trdiri dari 1000 observasi dan 13 variabel yakni ID, Martial Status, Gender, Income, Children, Education, Occupation, Home Owner, Cars, Commute Distance, Region, Age, dan Purchased Bike. Data bike buyrs hanya memiliki 2 jenis tipe data yakni integer yakni pada variabel ID, Income, Children, Cars, dan Age sedangkan tipe data characther dimiliki pada variabel Martial status, Gender, Education, Occupation, Home Owner, Region, dan Purchased Bike.
*Pada data bike buyers jumlah tipe data characther lebih banyak dari pada tipe data integer.
Catatan: int = integer -> nilai bulat char = characther -> nilai yang tidak dapat dioperasikan / string
BasicSummary <- function(df, dgts = 3){
## #
## ################################################################
## #
## # Create a basic summary of variables in the data frame df,
## # a data frame with one row for each column of df giving the
## # variable name, type, number of unique levels, the most
## # frequent level, its frequency and corresponding fraction of
## # records, the number of missing values and its corresponding
## # fraction of records
## #
## ################################################################
## #
m <- ncol(df)
varNames <- colnames(df)
varType <- vector("character",m)
topLevel <- vector("character",m)
topCount <- vector("numeric",m)
missCount <- vector("numeric",m)
levels <- vector("numeric", m)
for (i in 1:m){
x <- df[,i]
varType[i] <- class(x)
xtab <- table(x, useNA = "ifany")
levels[i] <- length(xtab)
nums <- as.numeric(xtab)
maxnum <- max(nums)
topCount[i] <- maxnum
maxIndex <- which.max(nums)
lvls <- names(xtab)
topLevel[i] <- lvls[maxIndex]
missIndex <- which((is.na(x)) | (x == "") | (x == " "))
missCount[i] <- length(missIndex)
}
n <- nrow(df)
topFrac <- round(topCount/n, digits = dgts)
missFrac <- round(missCount/n, digits = dgts)
## #
summaryFrame <- data.frame(variable = varNames, type = varType,
levels = levels, topLevel = topLevel,
topCount = topCount, topFrac = topFrac,
missFreq = missCount, missFrac = missFrac)
return(summaryFrame)
}
BasicSummary(df)
## variable type levels topLevel topCount topFrac missFreq
## 1 ï..ID integer 1000 11000 1 0.001 0
## 2 Marital.Status character 3 Married 535 0.535 7
## 3 Gender character 3 Male 500 0.500 11
## 4 Income integer 17 60000 165 0.165 6
## 5 Children integer 7 0 274 0.274 8
## 6 Education character 5 Bachelors 306 0.306 0
## 7 Occupation character 5 Professional 276 0.276 0
## 8 Home.Owner character 3 Yes 682 0.682 4
## 9 Cars integer 6 2 342 0.342 9
## 10 Commute.Distance character 5 0-1 Miles 366 0.366 0
## 11 Region character 3 North America 508 0.508 0
## 12 Age integer 54 40 40 0.040 8
## 13 Purchased.Bike character 2 No 519 0.519 0
## missFrac
## 1 0.000
## 2 0.007
## 3 0.011
## 4 0.006
## 5 0.008
## 6 0.000
## 7 0.000
## 8 0.004
## 9 0.009
## 10 0.000
## 11 0.000
## 12 0.008
## 13 0.000
EXPLANATION * Data insurance memiliki 1000 observasi dan 13 variabel dengan 2 jenis tipe data. * Pada variabel ID, terdapat 1000 nilai berbeda, hal ini merupakan hal yang wajar dikarenakan ID merupakan penanda masing-masing orang jadi tidak mungkin ada data ID yag terduplikasi. * Pada variabel MArtial Status terdapat 3 nilai yang berbeda, dengan status “menikah” terbanyak yakni sebanyan 535. Pada variabel Gender terdapt 3 nilai yang berbeda, terlihat bahwa pembeli/peminjam sepeda kebanyakan bergender laki-laki yakni sebanyak 500 observasi atau sekitar 50% dari observasi. Pada variabel income terdapat 17 nilai berbeda dengan nilai paling sering muncul adalah 60.000 sebanyak 165 kali. * Pada variabel Children terdapat 7 nilai berbeda dengan pemasukan 0 sebagai nilai yang paling seing muncul. Pada vriabel education terdiri dari 5 nilai berbeda dengan gelar yang paling banyak disandang oleh pembeli maupun pembeli adalah “Bachelors” yakni sebanyak 306 observasi. Pada variabel Occupation, tedapat 5 nilai berbeda dengan pekerjaan yang paling banyak muncul ialah “Professional” yakni sebanyak 276 observasi. * Pada variabel Home Owenr terdapat 3 nilai berbeda dengan “Ya” sebagai modus sebanyak 682, atau dengan kata lain dari 1000 observasi, lebih dari sebagian pembeli maupun peminjam sepeda memiliki rumah. Pada variabel Cars terdapat 6 nilai berbeda dengan 2 sebagai nilai yang paling sering muncul (342 kalib atau setara dengan 34,2%) Pada variabel commute Distance terdpat 5 nilai berbeda dengan modus 0-1 Miles (sebanyak 366 kali atau setara dengan 36,6%) Pada variabel region terdapat 3 nilai berbeda dengan modus “North America” (sebanyak 508 atau setara dengan 50.8%) Pada variabel region terdapat 54 nilai berbeda dengan nilai modus ialah usia 40 tahun (sebanyak 40 atau setara dengan 4%) *Pada variabel prchased Bike terdapt 2 nilau berbeda dengan “No” sebagai nilai yang paling sering muncul(sebanyak 519 atau setara dengan51.9%)
Dari penjelasan diatas didapatkan insight sebagai berikut:
Data bike buyer juga merupakan data yang tidak lengkap atau memiliki nilai missing value yakni pada seluruh variabel kecuali ID, Education, Occupation, Coummute Distance,Region, dan Purchased bike, sehingga perlu dilakukan penanganan khusus sebelum berlanjut pada tahapan pengelolahan data selanjutnya.
Nilia missing value terbanyak tercatat pada variabel gender yakni sebanyak 11 observasi mengalami nilai missing value.
sapply(df[,c(4,5,9,12)],mean, na.rm=TRUE)
## Income Children Cars Age
## 56267.605634 1.910282 1.455096 44.181452
sapply(df[,c(4,5,9,12)],quantile, na.rm=TRUE)
## Income Children Cars Age
## 0% 10000 0 0 25
## 25% 30000 0 1 35
## 50% 60000 2 1 43
## 75% 70000 3 2 52
## 100% 170000 5 4 89
EXPLANATION Dari data diatas dapat di peroleh infoemasi sebagai berikut: * 1. Rata - rata pendapatan dari pembeli/peminjam sepeda adalah 56.267,rata-rata ini terbilang cukup besar sebab pendapatan rata-rata di Amerika ialah sebesar 33,740 dolar. * 2. Mayoritas pembeli/peminjam seepeda memiliki anak sebanyak 1- 2 anak * 3. Rata-rata pembeli/peminjam sepeda juga telah memiliki transportasi pribadi yakni mobil sebanyak 1-2 buah * 4. Rata-rata peminjam/pembeli sepeda berusia 44 tahun * 5. Pendapatan terkecil dari pembeli/peminjam sebpeda adalah 10.00 dolar, dengan usia termuda yakni 25 tahun, dan terdapat pembeli/peminjam sepeda yang belum memiliki anak, serta terdapat pembeli/peminjam sepeda yang tidak memiliki mobil * 6. Sebaliknya pendapatan terbesar dari peminjam/pembeli mobil ialah 170.000 * 7. Terdapat pembeli/peminjma sepeda yang meiliki 5 orang anak (paling banyak) * 8. Terdapat pembeli/peminjma sepeda yang meiliki 4 buah mobil (paling banyak) * 9. Terdapat pembeli/peminjma sepeda yang berusia 89 tahun (paling banyak)
library(Hmisc)
## Warning: package 'Hmisc' was built under R version 4.1.3
## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.1.3
##
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
##
## format.pval, units
describe(df)
## df
##
## 13 Variables 1000 Observations
## --------------------------------------------------------------------------------
## ï..ID
## n missing distinct Info Mean Gmd .05 .10
## 1000 0 1000 1 19966 6176 11781 12627
## .25 .50 .75 .90 .95
## 15291 19744 24471 27544 28413
##
## lowest : 11000 11047 11061 11090 11116, highest: 29337 29355 29380 29424 29447
## --------------------------------------------------------------------------------
## Marital.Status
## n missing distinct
## 993 7 2
##
## Value Married Single
## Frequency 535 458
## Proportion 0.539 0.461
## --------------------------------------------------------------------------------
## Gender
## n missing distinct
## 989 11 2
##
## Value Female Male
## Frequency 489 500
## Proportion 0.494 0.506
## --------------------------------------------------------------------------------
## Income
## n missing distinct Info Mean Gmd .05 .10
## 994 6 16 0.986 56268 34273 10000 20000
## .25 .50 .75 .90 .95
## 30000 60000 70000 100000 120000
##
## lowest : 10000 20000 30000 40000 50000, highest: 120000 130000 150000 160000 170000
##
## Value 10000 20000 30000 40000 50000 60000 70000 80000 90000
## Frequency 73 74 134 153 40 165 123 90 38
## Proportion 0.073 0.074 0.135 0.154 0.040 0.166 0.124 0.091 0.038
##
## Value 100000 110000 120000 130000 150000 160000 170000
## Frequency 29 16 17 32 4 3 3
## Proportion 0.029 0.016 0.017 0.032 0.004 0.003 0.003
## --------------------------------------------------------------------------------
## Children
## n missing distinct Info Mean Gmd
## 992 8 6 0.96 1.91 1.827
##
## lowest : 0 1 2 3 4, highest: 1 2 3 4 5
##
## Value 0 1 2 3 4 5
## Frequency 274 169 209 133 126 81
## Proportion 0.276 0.170 0.211 0.134 0.127 0.082
## --------------------------------------------------------------------------------
## Education
## n missing distinct
## 1000 0 5
##
## lowest : Bachelors Graduate Degree High School Partial College Partial High School
## highest: Bachelors Graduate Degree High School Partial College Partial High School
##
## Value Bachelors Graduate Degree High School
## Frequency 306 174 179
## Proportion 0.306 0.174 0.179
##
## Value Partial College Partial High School
## Frequency 265 76
## Proportion 0.265 0.076
## --------------------------------------------------------------------------------
## Occupation
## n missing distinct
## 1000 0 5
##
## lowest : Clerical Management Manual Professional Skilled Manual
## highest: Clerical Management Manual Professional Skilled Manual
##
## Value Clerical Management Manual Professional
## Frequency 177 173 119 276
## Proportion 0.177 0.173 0.119 0.276
##
## Value Skilled Manual
## Frequency 255
## Proportion 0.255
## --------------------------------------------------------------------------------
## Home.Owner
## n missing distinct
## 996 4 2
##
## Value No Yes
## Frequency 314 682
## Proportion 0.315 0.685
## --------------------------------------------------------------------------------
## Cars
## n missing distinct Info Mean Gmd
## 991 9 5 0.925 1.455 1.226
##
## lowest : 0 1 2 3 4, highest: 0 1 2 3 4
##
## Value 0 1 2 3 4
## Frequency 238 267 342 85 59
## Proportion 0.240 0.269 0.345 0.086 0.060
## --------------------------------------------------------------------------------
## Commute.Distance
## n missing distinct
## 1000 0 5
##
## lowest : 0-1 Miles 1-2 Miles 10+ Miles 2-5 Miles 5-10 Miles
## highest: 0-1 Miles 1-2 Miles 10+ Miles 2-5 Miles 5-10 Miles
##
## Value 0-1 Miles 1-2 Miles 10+ Miles 2-5 Miles 5-10 Miles
## Frequency 366 169 111 162 192
## Proportion 0.366 0.169 0.111 0.162 0.192
## --------------------------------------------------------------------------------
## Region
## n missing distinct
## 1000 0 3
##
## Value Europe North America Pacific
## Frequency 300 508 192
## Proportion 0.300 0.508 0.192
## --------------------------------------------------------------------------------
## Age
## n missing distinct Info Mean Gmd .05 .10
## 992 8 53 0.999 44.18 12.85 28.00 30.00
## .25 .50 .75 .90 .95
## 35.00 43.00 52.00 60.90 65.45
##
## lowest : 25 26 27 28 29, highest: 73 74 78 80 89
## --------------------------------------------------------------------------------
## Purchased.Bike
## n missing distinct
## 1000 0 2
##
## Value No Yes
## Frequency 519 481
## Proportion 0.519 0.481
## --------------------------------------------------------------------------------
EXPLANATION DAri data diatas dapat dilihat bahwa * 1.Seluruh ID pembeli/peminjam sepeda terdiri dari 5 digit * 2. Status maried pada pembahasan sebelumnya memiliki 3 distinct value setelah diteluri 3 distict value tersebut adalah Married/Single/NA (missing value) * 3. Status gender pada pembahasan sebelumnya memiliki 3 distinct value setelah diteluri 3 distict value tersebut adalah Female/Male/NA (missing value) * 4. Status Education pada pembahasan sebelumnya memiliki 5 distinct value setelah diteluri 5 distict value tersebut adalah Bachelors/Graduate Degree/High School/Partial College/Partial High School * 5. Variabel COmmute Distance berbentuk kategori pilihan jarak * 6. Status Occupation pada pembahasan sebelumnya memiliki 5 distinct value setelah diteluri 5 distict value tersebut adalah Clerical/Management/Manual Professional/Skilled Manual * 7. Data pembeli/penjual sepeda didapat dari orang-orang yang tinggal di bumi belahan barat
###3. Look for data anomalies ####a.qqplot() function
library(car)
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
par(mfrow=c(1,2))
qqPlot(df$Income)
## [1] 13 44
qqPlot(df$Age)
## [1] 376 402
EXPLANATION Dari data diatas dapat dilihat bahwa variabel income nilai yang diskrit, tidak terdistribusi normal, dan memiliki cukup banyak outliers. Sedangkan pada variabel age dari grafik di atas terlihat nilai yang cenderung continu, cukup terdistribusi normal ealupun tidak sempurna (skewed), dan lebih sedikit memiliki nilai outliers.
library(car)
par(mfrow=c(1,2))
qqPlot(df$Children)
## [1] 3 13
qqPlot(df$Cars)
## [1] 7 12
EXPLANATION Dari garfik diatas dapat dilihat bahwa baik children maupun cars belum memiliki data yang terdistribusi normal. Dalam hal ini nilai outliers dari belum ditemukan sebab seorang yang memiliki jumlah anak 0 amupun 5 merupakan hal yang wajar, demikian halnya dengan Cars, hal ini merupakan hal yang wajar bila sesorang meiliki 4 mobil ataupun tidak meiliki mobil sama sekali.
out <- boxplot.stats(df$Income)$out
boxplot(df$Income,
ylab = "",
main = "Income"
)
mtext(paste("Outliers: ", paste(out, collapse = ", ")))
out <- boxplot.stats(df$Children)$out
boxplot(df$Children,
ylab = "",
main = "Children"
)
mtext(paste("Outliers: ", paste(out, collapse = ", ")))
out <- boxplot.stats(df$Cars)$out
boxplot(df$Cars,
ylab = "",
main = "Cars"
)
mtext(paste("Outliers: ", paste(out, collapse = ", ")))
out <- boxplot.stats(df$Age)$out
boxplot(df$Age,
ylab = "",
main = "Age"
)
mtext(paste("Outliers: ", paste(out, collapse = ", ")))
####c. Find Outlier()Function
ThreeSigma <- function(x, t = 3){
mu <- mean(x, na.rm = TRUE)
sig <- sd(x, na.rm = TRUE)
if (sig == 0){
message("All non-missing x-values are identical")
}
up <- mu + t * sig
down <- mu - t * sig
out <- list(up = up, down = down)
return(out)
}
Hampel <- function(x, t = 3){
mu <- median(x, na.rm = TRUE)
sig <- mad(x, na.rm = TRUE)
if (sig == 0){
message("Hampel identifer implosion: MAD scale estimate is zero")
}
up <- mu + t * sig
down <- mu - t * sig
out <- list(up = up, down = down)
return(out)
}
BoxplotRule<- function(x, t = 1.5){
xL <- quantile(x, na.rm = TRUE, probs = 0.25, names = FALSE)
xU <- quantile(x, na.rm = TRUE, probs = 0.75, names = FALSE)
Q <- xU - xL
if (Q == 0){
message("Boxplot rule implosion: interquartile distance is zero")
}
up <- xU + t * Q
down <- xU - t * Q
out <- list(up = up, down = down)
return(out)
}
ExtractDetails <- function(x, down, up){
outClass <- rep("N", length(x))
indexLo <- which(x < down)
indexHi <- which(x > up)
outClass[indexLo] <- "L"
outClass[indexHi] <- "U"
index <- union(indexLo, indexHi)
values <- x[index]
outClass <- outClass[index]
nOut <- length(index)
maxNom <- max(x[which(x <= up)])
minNom <- min(x[which(x >= down)])
outList <- list(nOut = nOut, lowLim = down,
upLim = up, minNom = minNom,
maxNom = maxNom, index = index,
values = values,
outClass = outClass)
return(outList)
}
FindOutliers <- function(x, t3 = 3, tH = 3, tb = 1.5){
threeLims <- ThreeSigma(x, t = t3)
HampLims <- Hampel(x, t = tH)
boxLims <- BoxplotRule(x, t = tb)
n <- length(x)
nMiss <- length(which(is.na(x)))
threeList <- ExtractDetails(x, threeLims$down, threeLims$up)
HampList <- ExtractDetails(x, HampLims$down, HampLims$up)
boxList <- ExtractDetails(x, boxLims$down, boxLims$up)
sumFrame <- data.frame(method = "ThreeSigma", n = n,
nMiss = nMiss, nOut = threeList$nOut,
lowLim = threeList$lowLim,
upLim = threeList$upLim,
minNom = threeList$minNom,
maxNom = threeList$maxNom)
upFrame <- data.frame(method = "Hampel", n = n,
nMiss = nMiss, nOut = HampList$nOut,
lowLim = HampList$lowLim,
upLim = HampList$upLim,
minNom = HampList$minNom,
maxNom = HampList$maxNom)
sumFrame <- rbind.data.frame(sumFrame, upFrame)
upFrame <- data.frame(method = "BoxplotRule", n = n,
nMiss = nMiss, nOut = boxList$nOut,
lowLim = boxList$lowLim,
upLim = boxList$upLim,
minNom = boxList$minNom,
maxNom = boxList$maxNom)
sumFrame <- rbind.data.frame(sumFrame, upFrame)
threeFrame <- data.frame(index = threeList$index,
values = threeList$values,
type = threeList$outClass)
HampFrame <- data.frame(index = HampList$index,
values = HampList$values,
type = HampList$outClass)
boxFrame <- data.frame(index = boxList$index,
values = boxList$values,
type = boxList$outClass)
outList <- list(summary = sumFrame, threeSigma = threeFrame,
Hampel = HampFrame, boxplotRule = boxFrame)
return(outList)
}
fullSummary <- FindOutliers(df$Income)
fullSummary$summary
## method n nMiss nOut lowLim upLim minNom maxNom
## 1 ThreeSigma 1000 6 10 -36935.85 149471.1 10000 130000
## 2 Hampel 1000 6 10 -28956.00 148956.0 10000 130000
## 3 BoxplotRule 1000 6 10 10000.00 130000.0 10000 130000
fullSummary <- FindOutliers(df$Children)
fullSummary$summary
## method n nMiss nOut lowLim upLim minNom maxNom
## 1 ThreeSigma 1000 8 0 -2.970448 6.791013 0 5
## 2 Hampel 1000 8 0 -2.447800 6.447800 0 5
## 3 BoxplotRule 1000 8 0 -1.500000 7.500000 0 5
fullSummary <- FindOutliers(df$Cars)
fullSummary$summary
## method n nMiss nOut lowLim upLim minNom maxNom
## 1 ThreeSigma 1000 9 0 -1.91017 4.820362 0 4
## 2 Hampel 1000 9 0 -3.44780 5.447800 0 4
## 3 BoxplotRule 1000 9 297 0.50000 3.500000 1 3
fullSummary <- FindOutliers(df$Age)
fullSummary$summary
## method n nMiss nOut lowLim upLim minNom maxNom
## 1 ThreeSigma 1000 8 2 10.09543 78.26747 25 78
## 2 Hampel 1000 8 2 7.41760 78.58240 25 78
## 3 BoxplotRule 1000 8 25 26.50000 77.50000 27 74
EXPLANATION Berdasarkan ketiga metode diatas dapat dilihat bahwa pada variabel vars dan chlidren tidak memiliki nilai outliers. Sedangkan untuk variabel Income terdapat 10 ouliers, sedangkan untuk Age terdapat 2 ouliers.
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.1.3
df_new = subset(df, select = c(1,4,5,9,12))
df_new %>% drop_na()
## ï..ID Income Children Cars Age
## 1 12496 40000 1 0 42
## 2 24107 30000 3 1 43
## 3 14177 80000 5 2 60
## 4 24381 70000 0 1 41
## 5 25597 30000 0 0 36
## 6 13507 10000 2 0 50
## 7 27974 160000 2 4 33
## 8 19364 40000 1 0 43
## 9 22155 20000 2 2 58
## 10 22173 30000 3 2 54
## 11 12697 90000 0 4 36
## 12 25323 40000 2 1 35
## 13 23542 60000 1 1 45
## 14 20870 10000 2 1 38
## 15 23316 30000 3 2 59
## 16 12610 30000 1 0 47
## 17 27183 40000 2 1 35
## 18 25940 20000 2 2 55
## 19 25598 40000 0 0 36
## 20 21564 80000 0 4 35
## 21 19193 40000 2 0 35
## 22 26412 80000 5 3 56
## 23 27184 40000 2 1 34
## 24 12590 30000 1 0 63
## 25 17841 30000 0 1 29
## 26 18283 100000 0 1 40
## 27 18299 70000 5 2 44
## 28 16466 20000 0 2 32
## 29 19273 20000 2 0 63
## 30 22400 10000 0 1 26
## 31 20942 20000 0 1 31
## 32 18484 80000 2 2 50
## 33 12291 90000 5 2 62
## 34 28380 10000 5 2 41
## 35 17891 10000 2 1 50
## 36 27832 30000 0 1 30
## 37 26863 20000 0 1 28
## 38 16259 10000 4 2 40
## 39 27803 30000 2 0 43
## 40 14347 40000 2 2 65
## 41 17703 10000 1 0 40
## 42 17185 170000 4 3 48
## 43 29380 20000 3 0 41
## 44 23986 20000 1 0 66
## 45 24466 60000 1 1 46
## 46 29097 40000 2 2 52
## 47 19487 30000 2 2 42
## 48 14939 40000 0 0 39
## 49 13826 30000 0 1 28
## 50 20619 80000 0 4 35
## 51 12558 20000 1 0 65
## 52 24871 90000 4 3 56
## 53 17319 70000 0 1 42
## 54 28906 80000 4 2 54
## 55 12808 40000 0 0 38
## 56 20567 130000 4 4 61
## 57 25502 40000 1 0 43
## 58 15580 60000 2 1 38
## 59 24185 10000 1 1 45
## 60 19291 10000 2 0 35
## 61 16713 40000 2 1 52
## 62 16185 60000 4 3 41
## 63 14927 30000 1 0 37
## 64 29337 30000 2 2 68
## 65 29355 40000 0 0 37
## 66 25303 30000 0 1 33
## 67 14813 20000 4 1 43
## 68 16438 10000 0 2 30
## 69 14238 120000 0 4 36
## 70 16200 10000 0 2 35
## 71 24857 130000 3 4 52
## 72 26956 20000 0 1 36
## 73 14517 20000 3 2 62
## 74 12678 130000 4 4 31
## 75 16188 20000 0 2 26
## 76 27969 80000 0 2 29
## 77 15752 80000 2 2 50
## 78 27745 40000 2 2 63
## 79 20828 30000 4 0 45
## 80 19461 10000 4 2 40
## 81 26941 30000 0 0 47
## 82 28412 20000 0 1 29
## 83 24485 40000 2 1 52
## 84 16514 10000 0 1 26
## 85 17191 130000 3 3 51
## 86 19608 80000 5 4 40
## 87 24119 30000 0 1 29
## 88 25458 20000 1 1 40
## 89 26886 30000 0 1 29
## 90 28436 30000 0 1 30
## 91 19562 60000 2 1 37
## 92 15608 30000 0 1 33
## 93 16487 30000 3 2 55
## 94 17197 90000 5 2 62
## 95 12507 30000 1 1 43
## 96 23940 40000 1 1 44
## 97 26852 20000 3 2 43
## 98 12274 10000 2 0 35
## 99 20236 60000 3 2 43
## 100 24149 10000 2 0 49
## 101 26139 60000 1 1 45
## 102 18491 70000 2 2 49
## 103 22707 30000 0 1 30
## 104 20430 70000 2 2 52
## 105 27494 40000 2 2 53
## 106 26829 40000 0 0 38
## 107 28395 40000 0 0 39
## 108 14682 70000 0 1 38
## 109 17650 40000 2 2 35
## 110 29191 130000 1 1 36
## 111 15030 20000 0 0 26
## 112 24140 10000 0 0 30
## 113 22496 30000 1 2 42
## 114 19914 80000 5 2 62
## 115 12871 30000 0 1 29
## 116 22988 40000 2 2 66
## 117 15922 150000 2 4 48
## 118 12344 80000 0 3 31
## 119 23627 100000 3 4 56
## 120 27775 40000 0 0 38
## 121 29301 80000 5 4 40
## 122 12716 30000 0 1 32
## 123 12472 30000 1 1 39
## 124 20970 10000 2 1 52
## 125 26818 10000 3 1 39
## 126 12993 60000 2 1 37
## 127 14192 90000 4 3 56
## 128 19477 40000 0 0 40
## 129 26796 40000 2 2 65
## 130 21094 30000 2 2 42
## 131 12234 10000 2 1 52
## 132 28683 10000 1 1 35
## 133 17994 20000 2 2 42
## 134 24273 20000 2 2 55
## 135 26547 30000 2 2 60
## 136 22500 40000 0 0 40
## 137 23993 10000 0 1 26
## 138 14832 40000 1 0 42
## 139 16614 80000 0 3 32
## 140 20877 30000 1 0 37
## 141 20729 40000 2 1 34
## 142 22464 40000 0 0 37
## 143 19475 40000 0 0 40
## 144 19675 20000 4 2 60
## 145 12728 30000 0 1 27
## 146 26154 60000 1 1 43
## 147 29117 100000 1 3 48
## 148 17845 20000 0 2 32
## 149 25058 100000 1 3 47
## 150 23426 80000 5 3 40
## 151 14798 10000 4 2 41
## 152 12664 130000 5 4 59
## 153 23979 10000 2 0 50
## 154 25605 20000 2 1 54
## 155 20797 10000 1 0 48
## 156 21980 60000 1 1 44
## 157 25460 20000 2 0 40
## 158 29181 60000 2 1 38
## 159 24279 40000 2 2 52
## 160 22402 10000 0 1 25
## 161 15465 10000 0 1 25
## 162 26757 90000 1 1 47
## 163 14233 100000 0 3 35
## 164 14058 70000 0 1 41
## 165 12273 30000 1 0 47
## 166 17203 130000 4 4 61
## 167 18144 80000 5 2 61
## 168 23963 10000 0 2 33
## 169 17907 10000 0 1 27
## 170 19442 50000 0 0 37
## 171 17504 80000 2 2 52
## 172 12253 20000 0 0 29
## 173 27304 110000 2 3 48
## 174 14191 160000 4 2 55
## 175 12212 10000 0 0 37
## 176 25529 10000 1 0 44
## 177 22170 30000 3 2 55
## 178 19445 10000 2 1 38
## 179 15265 40000 2 2 66
## 180 28918 130000 4 4 58
## 181 15799 90000 1 1 47
## 182 11047 30000 3 2 56
## 183 18151 80000 5 2 59
## 184 20606 70000 0 4 32
## 185 19482 30000 1 1 44
## 186 16489 30000 3 2 55
## 187 15682 80000 5 2 62
## 188 26032 70000 5 4 41
## 189 17843 10000 0 2 32
## 190 25559 20000 0 0 25
## 191 11147 60000 2 1 67
## 192 15214 100000 0 1 39
## 193 11453 80000 0 3 33
## 194 24584 60000 0 3 31
## 195 12585 10000 1 0 27
## 196 29298 60000 1 1 46
## 197 24842 90000 3 1 51
## 198 15657 30000 3 0 46
## 199 11415 90000 5 2 62
## 200 28729 20000 0 2 26
## 201 22633 40000 0 0 37
## 202 25649 30000 3 0 42
## 203 14669 80000 4 1 36
## 204 19299 50000 0 0 36
## 205 20946 30000 0 1 30
## 206 11451 70000 0 4 31
## 207 25553 30000 1 0 65
## 208 27951 80000 4 2 54
## 209 25026 20000 2 3 54
## 210 16043 10000 1 0 48
## 211 22399 10000 0 1 26
## 212 27696 60000 1 1 43
## 213 25313 10000 0 2 35
## 214 13813 30000 3 0 42
## 215 18711 70000 5 4 39
## 216 19650 30000 2 2 67
## 217 12833 20000 3 1 42
## 218 26849 10000 3 2 43
## 219 20962 20000 1 0 45
## 220 28915 80000 5 3 57
## 221 22830 120000 4 3 56
## 222 14777 40000 0 0 38
## 223 12591 30000 4 0 45
## 224 24174 20000 0 0 27
## 225 24611 90000 0 4 35
## 226 11340 10000 1 0 70
## 227 25693 30000 5 0 44
## 228 25555 10000 0 1 26
## 229 22006 70000 5 3 46
## 230 20060 30000 0 1 34
## 231 17702 10000 1 0 37
## 232 12503 30000 3 2 27
## 233 23908 30000 1 1 39
## 234 22527 20000 0 1 29
## 235 19057 120000 3 2 52
## 236 18494 110000 5 4 48
## 237 11249 130000 3 3 51
## 238 21568 100000 0 4 34
## 239 13981 10000 5 3 62
## 240 23432 70000 0 1 37
## 241 22931 100000 5 1 78
## 242 18172 130000 4 3 55
## 243 12666 60000 0 4 31
## 244 20598 100000 3 0 59
## 245 21375 20000 2 2 57
## 246 20839 30000 3 0 47
## 247 21738 20000 1 0 43
## 248 14164 50000 0 0 36
## 249 14193 100000 3 4 56
## 250 12705 150000 0 4 37
## 251 22672 30000 2 0 43
## 252 26219 40000 1 1 33
## 253 28468 10000 2 0 51
## 254 23419 70000 5 3 39
## 255 17964 40000 0 0 37
## 256 20919 30000 2 2 42
## 257 20927 20000 5 2 27
## 258 13133 100000 5 1 47
## 259 19626 70000 5 3 45
## 260 21039 50000 0 0 37
## 261 12231 10000 2 0 51
## 262 25665 20000 0 1 28
## 263 24061 10000 4 1 40
## 264 26879 20000 0 1 30
## 265 12284 30000 0 0 36
## 266 26654 90000 1 0 37
## 267 14545 10000 2 0 49
## 268 24201 10000 2 0 37
## 269 20625 100000 0 3 35
## 270 16390 30000 1 0 38
## 271 14804 10000 3 2 43
## 272 12629 20000 1 0 37
## 273 14696 10000 0 2 34
## 274 22005 70000 5 3 46
## 275 14544 10000 1 0 49
## 276 14312 60000 1 1 45
## 277 29120 100000 1 4 48
## 278 24187 30000 3 0 46
## 279 15758 130000 0 0 48
## 280 29094 30000 3 2 54
## 281 28319 60000 1 1 46
## 282 16406 40000 0 0 38
## 283 20923 40000 1 0 42
## 284 11378 10000 1 1 46
## 285 20851 20000 0 1 36
## 286 21557 110000 0 3 32
## 287 26663 60000 2 1 39
## 288 11896 100000 1 0 36
## 289 14189 90000 4 2 54
## 290 13136 30000 2 2 69
## 291 25906 10000 5 2 62
## 292 26928 30000 1 0 62
## 293 20897 30000 1 2 40
## 294 28207 80000 4 1 36
## 295 25923 10000 2 2 58
## 296 11000 90000 2 0 40
## 297 20974 10000 2 1 66
## 298 28758 40000 2 1 35
## 299 11381 20000 2 1 47
## 300 17522 120000 4 1 47
## 301 21207 60000 1 1 46
## 302 28102 20000 4 2 58
## 303 23105 40000 3 2 52
## 304 18740 80000 5 1 47
## 305 21213 70000 0 1 41
## 306 17352 50000 2 1 64
## 307 14154 30000 0 0 35
## 308 19066 130000 4 3 54
## 309 11386 30000 3 0 45
## 310 20228 100000 0 0 40
## 311 16675 160000 0 3 47
## 312 16410 10000 4 2 41
## 313 27760 40000 0 0 37
## 314 22930 90000 4 0 38
## 315 23780 40000 2 2 36
## 316 20994 20000 0 0 26
## 317 28379 30000 1 2 40
## 318 14865 40000 2 2 36
## 319 12663 90000 5 2 59
## 320 24898 80000 0 3 32
## 321 19508 10000 0 2 30
## 322 11489 20000 0 2 35
## 323 18160 130000 3 4 51
## 324 25241 90000 2 1 47
## 325 24369 80000 5 2 39
## 326 27165 20000 0 2 34
## 327 29424 10000 0 2 32
## 328 15926 120000 3 4 50
## 329 14554 20000 1 0 66
## 330 16468 30000 0 1 30
## 331 19174 30000 0 1 32
## 332 19183 10000 0 2 35
## 333 13683 30000 0 1 32
## 334 17848 30000 0 1 31
## 335 17894 20000 1 0 50
## 336 25651 40000 1 0 43
## 337 22936 60000 1 1 45
## 338 23915 20000 2 2 42
## 339 24121 30000 0 1 29
## 340 27878 20000 0 0 28
## 341 27941 80000 4 2 53
## 342 26354 40000 0 0 38
## 343 14785 30000 1 1 39
## 344 17238 80000 0 3 32
## 345 23608 150000 3 3 51
## 346 22538 10000 0 2 33
## 347 12332 90000 4 3 58
## 348 17230 80000 0 3 30
## 349 13082 130000 0 0 48
## 350 22518 30000 3 2 27
## 351 13687 40000 1 1 33
## 352 23571 40000 2 2 66
## 353 19305 10000 2 1 38
## 354 22636 40000 0 0 38
## 355 17310 60000 1 1 45
## 356 12133 130000 3 3 50
## 357 25918 30000 2 2 60
## 358 25752 20000 2 1 53
## 359 17324 100000 4 1 46
## 360 12510 40000 1 1 43
## 361 25512 20000 0 1 30
## 362 16179 80000 5 4 38
## 363 15628 40000 1 1 89
## 364 20977 20000 1 0 64
## 365 18140 130000 3 3 51
## 366 20417 30000 3 2 56
## 367 18267 60000 3 2 43
## 368 13620 70000 0 3 30
## 369 22974 30000 2 2 69
## 370 13586 80000 4 2 53
## 371 17978 40000 0 0 37
## 372 12581 10000 0 1 28
## 373 18018 30000 3 0 43
## 374 13690 20000 0 2 34
## 375 12568 30000 1 0 64
## 376 13122 80000 0 1 41
## 377 21184 70000 0 1 38
## 378 26150 70000 0 1 41
## 379 24151 20000 1 0 51
## 380 23962 10000 0 2 32
## 381 17793 40000 0 0 38
## 382 14926 30000 1 0 38
## 383 16163 60000 2 1 38
## 384 21365 10000 2 2 58
## 385 27771 30000 1 1 39
## 386 26167 40000 2 1 53
## 387 25792 110000 3 4 53
## 388 11555 40000 1 0 80
## 389 22381 10000 1 0 44
## 390 17882 20000 1 0 44
## 391 22174 30000 3 2 54
## 392 22439 30000 0 0 37
## 393 18012 40000 1 0 41
## 394 27582 90000 2 0 36
## 395 12744 40000 2 0 33
## 396 22821 130000 3 4 52
## 397 20171 20000 2 1 46
## 398 11116 70000 5 2 43
## 399 20053 40000 2 0 34
## 400 25266 30000 2 2 67
## 401 17960 40000 0 0 35
## 402 13961 80000 5 3 40
## 403 11897 60000 2 1 37
## 404 11139 30000 2 2 67
## 405 11576 30000 1 2 41
## 406 19255 10000 2 1 51
## 407 18153 100000 2 4 59
## 408 14547 10000 2 0 51
## 409 24901 110000 0 3 32
## 410 27169 30000 0 1 34
## 411 14805 10000 3 2 43
## 412 15822 40000 2 2 67
## 413 19389 30000 0 1 28
## 414 17048 90000 1 0 36
## 415 22204 110000 4 3 48
## 416 12718 30000 0 1 31
## 417 15019 30000 3 2 55
## 418 28488 20000 0 0 28
## 419 21891 110000 0 3 34
## 420 27814 30000 3 1 26
## 421 22175 30000 3 2 53
## 422 29447 10000 2 1 68
## 423 19784 80000 2 2 50
## 424 27824 30000 3 2 28
## 425 24093 80000 0 0 40
## 426 19618 70000 5 2 44
## 427 21561 90000 0 3 34
## 428 26651 80000 4 0 36
## 429 21108 40000 1 1 43
## 430 12731 30000 0 1 32
## 431 25307 40000 1 1 32
## 432 14278 130000 0 1 48
## 433 20711 40000 1 0 32
## 434 12497 40000 1 0 42
## 435 16559 10000 2 0 36
## 436 11585 40000 1 0 41
## 437 20277 30000 2 2 69
## 438 26765 70000 5 2 45
## 439 12389 30000 0 1 34
## 440 13585 80000 4 1 53
## 441 26385 120000 3 4 50
## 442 12236 20000 1 0 65
## 443 21560 120000 0 4 32
## 444 21554 80000 0 3 33
## 445 13662 20000 0 2 31
## 446 13089 120000 1 2 46
## 447 14791 40000 0 0 39
## 448 19331 20000 2 1 40
## 449 17754 30000 3 0 46
## 450 11149 40000 2 2 65
## 451 16549 30000 3 0 47
## 452 24305 100000 1 3 46
## 453 18253 80000 5 3 40
## 454 20147 30000 1 0 65
## 455 15612 30000 0 1 28
## 456 28323 70000 0 2 43
## 457 22634 40000 0 0 38
## 458 15665 30000 0 0 47
## 459 27585 90000 2 0 36
## 460 19748 20000 4 2 60
## 461 21974 70000 0 1 42
## 462 14032 70000 2 2 50
## 463 22610 30000 0 0 35
## 464 26984 40000 1 1 32
## 465 18294 90000 1 1 46
## 466 28564 40000 2 0 33
## 467 28521 40000 0 0 36
## 468 15450 10000 1 0 70
## 469 25681 30000 0 1 31
## 470 19491 30000 2 2 42
## 471 26415 90000 4 4 58
## 472 12821 40000 0 0 39
## 473 15629 10000 0 2 34
## 474 27835 20000 0 2 32
## 475 11738 60000 4 0 46
## 476 25065 70000 2 2 48
## 477 26238 40000 3 1 31
## 478 23707 70000 5 3 60
## 479 27650 70000 4 0 51
## 480 24981 60000 2 2 56
## 481 20678 60000 3 1 40
## 482 15302 70000 1 0 34
## 483 26012 80000 1 1 48
## 484 26575 40000 0 2 31
## 485 15559 60000 5 1 47
## 486 19235 50000 0 0 34
## 487 15275 40000 0 1 29
## 488 20339 130000 1 4 44
## 489 25405 70000 2 1 38
## 490 15940 100000 4 4 40
## 491 25074 70000 4 2 42
## 492 24738 40000 1 1 51
## 493 16337 60000 0 2 29
## 494 18613 70000 0 1 37
## 495 18052 60000 1 1 45
## 496 13353 60000 4 2 61
## 497 19399 40000 0 1 45
## 498 16154 70000 5 2 47
## 499 22219 60000 2 2 49
## 500 17269 60000 3 0 47
## 501 23586 80000 0 1 34
## 502 15740 80000 5 2 64
## 503 27638 100000 1 3 44
## 504 18976 40000 4 2 62
## 505 19413 60000 3 1 47
## 506 13283 80000 3 2 49
## 507 17471 80000 4 2 67
## 508 16791 60000 5 3 59
## 509 15382 110000 1 2 44
## 510 11641 50000 1 0 36
## 511 11935 30000 0 1 28
## 512 13233 60000 2 1 57
## 513 25909 60000 0 1 27
## 514 14092 30000 0 2 28
## 515 29143 60000 1 1 44
## 516 24941 60000 3 2 66
## 517 24637 40000 4 2 64
## 518 23893 50000 3 3 41
## 519 13907 80000 3 1 41
## 520 14900 40000 1 1 49
## 521 11262 80000 4 0 42
## 522 22294 70000 0 1 37
## 523 12195 70000 3 2 52
## 524 25375 50000 1 0 34
## 525 11143 40000 0 2 29
## 526 25898 70000 2 2 53
## 527 24397 120000 2 4 40
## 528 19758 60000 0 2 29
## 529 15529 60000 4 2 43
## 530 19884 60000 2 2 55
## 531 18674 80000 4 0 48
## 532 14063 70000 0 1 42
## 533 27393 50000 4 2 63
## 534 14417 60000 3 2 54
## 535 17533 40000 3 2 73
## 536 17025 50000 0 1 39
## 537 25293 80000 4 0 42
## 538 24725 40000 3 0 31
## 539 23200 50000 3 2 41
## 540 15895 60000 2 0 58
## 541 18577 60000 0 0 40
## 542 18560 70000 2 0 34
## 543 25006 30000 0 1 28
## 544 17369 30000 0 1 27
## 545 14495 40000 3 2 54
## 546 18847 60000 2 2 70
## 547 14754 40000 1 1 48
## 548 23378 70000 1 1 44
## 549 26452 50000 3 2 69
## 550 20370 70000 3 2 52
## 551 20528 40000 2 2 55
## 552 23549 30000 0 2 30
## 553 21751 60000 3 2 63
## 554 21266 80000 0 1 34
## 555 13388 60000 2 1 56
## 556 18752 40000 0 1 31
## 557 16917 120000 1 4 38
## 558 15313 60000 4 2 59
## 559 25329 40000 3 2 32
## 560 20380 60000 3 2 69
## 561 23089 40000 0 1 28
## 562 13749 80000 4 0 47
## 563 24943 60000 3 2 66
## 564 28667 70000 2 1 37
## 565 15194 120000 2 3 39
## 566 17436 60000 2 2 51
## 567 18935 130000 0 3 40
## 568 16871 90000 2 1 51
## 569 12100 60000 2 0 57
## 570 23158 60000 1 0 35
## 571 18545 40000 4 2 61
## 572 18391 80000 5 2 44
## 573 19812 70000 2 0 49
## 574 27660 80000 4 2 70
## 575 18058 20000 3 2 78
## 576 20343 90000 4 1 45
## 577 28997 40000 2 1 58
## 578 24398 130000 1 4 41
## 579 19002 60000 2 1 57
## 580 28609 30000 2 2 49
## 581 29231 80000 4 2 43
## 582 18858 60000 2 2 52
## 583 20000 60000 1 0 35
## 584 25261 40000 0 2 27
## 585 17458 70000 3 0 52
## 586 11644 40000 2 0 36
## 587 16145 70000 5 3 46
## 588 16890 60000 3 2 52
## 589 25983 70000 0 1 43
## 590 14633 60000 1 1 44
## 591 22994 80000 0 1 34
## 592 22983 30000 0 2 27
## 593 25184 110000 1 4 45
## 594 14469 100000 3 4 45
## 595 16245 80000 4 0 47
## 596 17858 40000 4 2 44
## 597 25347 20000 3 2 49
## 598 15814 40000 0 1 30
## 599 11259 100000 4 4 41
## 600 11200 70000 4 1 58
## 601 25101 60000 5 1 47
## 602 21801 70000 4 1 55
## 603 25943 70000 0 2 27
## 604 22127 60000 3 2 67
## 605 20414 60000 0 2 29
## 606 23672 60000 3 2 67
## 607 29255 80000 3 1 51
## 608 28815 50000 1 0 35
## 609 27753 40000 0 2 30
## 610 27643 70000 5 3 44
## 611 13754 80000 4 0 48
## 612 22088 130000 1 2 45
## 613 27388 60000 3 2 66
## 614 24745 30000 2 2 49
## 615 29237 120000 4 3 43
## 616 15272 40000 0 2 30
## 617 14507 100000 2 3 65
## 618 25886 60000 2 2 56
## 619 21441 50000 4 2 64
## 620 21741 70000 3 2 50
## 621 14572 70000 3 0 35
## 622 23368 60000 5 3 41
## 623 16217 60000 0 0 39
## 624 16247 60000 4 0 47
## 625 22010 40000 0 2 31
## 626 25872 70000 2 1 58
## 627 19164 70000 0 1 38
## 628 18435 70000 5 2 67
## 629 14284 60000 0 2 32
## 630 11287 70000 5 3 45
## 631 13066 30000 0 2 31
## 632 29106 40000 0 2 31
## 633 26236 40000 3 1 31
## 634 17531 60000 2 2 50
## 635 12964 70000 1 1 44
## 636 19133 50000 2 1 38
## 637 24643 60000 4 2 63
## 638 21599 60000 1 0 36
## 639 22976 40000 0 2 28
## 640 27637 100000 1 3 44
## 641 11890 70000 5 1 47
## 642 28580 80000 0 0 40
## 643 14443 130000 1 4 40
## 644 17864 60000 1 1 46
## 645 20505 40000 5 2 61
## 646 14592 60000 0 0 40
## 647 22227 60000 2 2 50
## 648 21471 70000 2 1 59
## 649 22252 60000 1 0 36
## 650 21260 40000 0 2 30
## 651 11817 70000 4 0 35
## 652 19223 30000 2 2 48
## 653 18517 100000 3 4 41
## 654 21717 40000 2 1 47
## 655 13760 60000 4 0 47
## 656 18145 80000 5 2 62
## 657 21770 60000 4 2 60
## 658 11165 60000 0 1 33
## 659 16377 80000 4 0 47
## 660 26248 20000 3 2 52
## 661 23461 90000 5 3 40
## 662 29133 60000 4 2 42
## 663 27673 60000 3 2 53
## 664 12774 40000 1 1 51
## 665 18910 30000 0 2 30
## 666 16725 30000 0 2 26
## 667 28269 130000 1 1 45
## 668 23144 50000 1 0 34
## 669 23376 70000 1 1 44
## 670 25970 60000 4 2 41
## 671 28068 80000 3 0 36
## 672 18390 80000 5 2 44
## 673 29112 60000 0 2 30
## 674 14090 30000 0 2 28
## 675 27040 20000 2 2 49
## 676 23479 90000 0 2 43
## 677 16795 70000 4 1 59
## 678 22014 30000 0 2 26
## 679 13314 120000 1 4 46
## 680 11619 50000 0 0 33
## 681 29132 40000 0 1 42
## 682 11199 70000 4 1 59
## 683 20296 60000 0 1 33
## 684 17546 70000 1 1 44
## 685 18069 70000 5 4 60
## 686 23712 70000 2 1 59
## 687 23358 60000 0 2 32
## 688 20518 70000 2 1 58
## 689 28026 40000 2 2 59
## 690 11669 70000 2 1 38
## 691 16020 40000 0 2 28
## 692 27090 60000 1 0 37
## 693 27198 80000 0 0 40
## 694 19661 90000 4 1 38
## 695 26327 70000 4 0 36
## 696 26341 70000 5 2 37
## 697 24958 40000 5 3 60
## 698 13287 110000 4 4 42
## 699 14493 70000 3 2 53
## 700 26678 80000 2 2 49
## 701 23275 30000 2 2 49
## 702 11270 130000 2 3 42
## 703 20084 20000 2 2 53
## 704 16144 70000 1 1 46
## 705 27731 40000 0 2 27
## 706 11886 60000 3 1 48
## 707 24324 60000 4 2 41
## 708 22220 60000 2 2 49
## 709 26625 60000 0 1 38
## 710 23027 130000 1 4 44
## 711 16867 130000 1 3 45
## 712 14514 30000 0 1 26
## 713 19634 40000 0 1 31
## 714 18504 70000 2 2 49
## 715 28799 40000 2 1 47
## 716 11225 60000 2 1 55
## 717 17657 40000 4 0 30
## 718 14913 40000 1 1 48
## 719 14077 30000 0 2 30
## 720 13296 110000 1 3 45
## 721 20535 70000 4 1 56
## 722 12452 60000 4 0 47
## 723 28043 60000 2 0 56
## 724 12957 70000 1 1 44
## 725 15412 130000 2 3 69
## 726 20514 70000 2 1 59
## 727 20758 30000 2 2 50
## 728 11801 60000 1 0 36
## 729 22211 60000 0 2 32
## 730 28087 40000 0 1 27
## 731 23668 40000 4 2 59
## 732 27441 60000 3 2 53
## 733 27261 40000 1 1 36
## 734 18649 30000 1 2 51
## 735 21714 80000 5 0 47
## 736 23217 60000 3 0 43
## 737 23797 20000 3 2 50
## 738 13216 60000 5 3 59
## 739 20657 50000 2 0 37
## 740 12882 50000 1 0 33
## 741 25908 60000 0 1 27
## 742 16753 70000 0 2 34
## 743 14608 50000 4 3 42
## 744 24979 60000 2 2 57
## 745 13313 120000 1 4 45
## 746 18952 100000 4 4 40
## 747 14657 80000 1 1 47
## 748 11540 60000 4 0 47
## 749 11783 60000 1 0 34
## 750 14602 80000 3 0 36
## 751 29030 70000 2 2 54
## 752 26490 70000 2 1 59
## 753 13151 40000 0 2 27
## 754 17260 90000 5 3 41
## 755 15372 80000 3 2 50
## 756 18105 60000 2 1 55
## 757 19660 80000 4 0 43
## 758 16112 70000 4 2 43
## 759 20698 60000 4 3 42
## 760 20076 10000 2 2 53
## 761 24496 40000 0 2 28
## 762 15468 50000 1 1 35
## 763 28031 70000 2 1 59
## 764 26270 20000 2 2 49
## 765 22221 60000 2 2 48
## 766 28228 80000 2 2 50
## 767 18363 40000 0 2 28
## 768 23256 30000 1 1 52
## 769 12768 30000 1 1 52
## 770 20361 50000 2 2 69
## 771 21306 60000 2 2 51
## 772 13382 70000 5 2 57
## 773 20310 60000 0 1 27
## 774 22971 30000 0 2 25
## 775 15287 50000 1 0 33
## 776 15532 60000 4 2 43
## 777 11255 70000 4 2 73
## 778 28090 40000 0 1 27
## 779 15255 40000 0 2 28
## 780 13154 40000 0 2 27
## 781 23248 10000 2 2 53
## 782 21417 60000 0 2 32
## 783 17668 30000 2 2 50
## 784 27994 40000 4 2 69
## 785 20376 70000 3 2 52
## 786 25954 60000 0 2 31
## 787 15749 70000 4 2 61
## 788 25899 70000 2 2 53
## 789 13351 70000 4 2 62
## 790 23333 40000 0 2 30
## 791 21660 60000 3 0 43
## 792 17012 60000 3 0 42
## 793 24514 40000 0 1 30
## 794 27505 40000 0 2 30
## 795 29243 110000 1 1 43
## 796 26582 60000 0 2 33
## 797 14271 30000 0 2 32
## 798 23041 70000 4 0 50
## 799 29048 110000 2 3 37
## 800 24433 70000 3 1 52
## 801 15501 70000 4 0 36
## 802 13911 80000 3 2 41
## 803 20421 40000 0 2 26
## 804 16009 170000 1 4 66
## 805 18411 60000 2 2 51
## 806 19163 70000 4 2 43
## 807 18572 60000 0 0 39
## 808 27540 70000 0 1 37
## 809 19889 70000 2 2 54
## 810 12922 60000 3 0 40
## 811 18891 40000 0 2 28
## 812 16773 60000 1 0 33
## 813 19143 80000 3 2 41
## 814 23882 80000 3 0 37
## 815 11233 70000 4 2 53
## 816 12056 120000 2 3 64
## 817 15555 60000 1 1 45
## 818 18423 80000 2 2 52
## 819 22743 40000 5 2 60
## 820 25343 20000 3 2 50
## 821 13390 70000 4 1 56
## 822 17482 40000 0 2 29
## 823 13176 130000 0 2 38
## 824 20504 40000 5 2 60
## 825 12205 130000 2 4 67
## 826 16751 60000 0 1 32
## 827 21613 50000 2 1 39
## 828 24801 60000 1 0 35
## 829 17519 60000 0 2 32
## 830 18347 30000 0 1 31
## 831 29052 40000 0 1 27
## 832 11745 60000 1 1 47
## 833 19147 40000 0 1 42
## 834 19217 30000 2 2 49
## 835 15839 30000 0 1 32
## 836 13714 20000 2 2 53
## 837 22330 50000 0 0 32
## 838 18783 80000 0 1 38
## 839 25041 40000 0 2 31
## 840 22046 80000 0 1 38
## 841 28052 60000 2 2 55
## 842 26693 70000 3 1 49
## 843 24955 30000 5 3 60
## 844 26065 110000 3 4 42
## 845 13942 60000 1 1 46
## 846 11219 60000 2 2 55
## 847 22118 70000 3 2 53
## 848 23197 50000 3 2 40
## 849 14883 30000 1 1 53
## 850 27279 70000 2 0 38
## 851 18322 30000 0 2 26
## 852 15879 70000 5 2 61
## 853 28278 50000 2 2 71
## 854 24416 90000 4 2 45
## 855 28066 80000 2 0 37
## 856 11275 80000 4 2 72
## 857 14872 30000 0 0 32
## 858 16151 60000 1 1 48
## 859 19731 80000 4 2 68
## 860 23801 20000 2 2 49
## 861 11807 70000 3 0 34
## 862 11622 50000 0 0 32
## 863 26597 60000 4 2 42
## 864 27074 70000 1 0 35
## 865 19228 40000 2 1 48
## 866 13415 100000 1 3 73
## 867 17000 70000 4 2 43
## 868 14569 60000 1 0 35
## 869 13873 70000 3 0 35
## 870 20401 50000 4 2 64
## 871 21583 50000 1 0 34
## 872 12029 30000 0 2 28
## 873 18066 70000 5 3 60
## 874 28192 70000 5 3 46
## 875 16122 40000 4 2 44
## 876 18607 60000 4 2 42
## 877 28858 80000 3 0 40
## 878 14432 90000 4 1 73
## 879 26305 60000 2 0 36
## 880 22050 90000 4 1 38
## 881 25394 60000 1 0 34
## 882 19747 50000 4 2 63
## 883 23195 50000 3 2 41
## 884 21695 60000 0 0 39
## 885 13934 40000 4 2 46
## 886 13337 80000 5 2 64
## 887 27190 40000 3 1 32
## 888 28657 60000 2 0 36
## 889 21713 80000 5 0 47
## 890 21752 60000 3 2 64
## 891 27273 70000 3 0 35
## 892 22719 110000 3 4 40
## 893 22042 70000 0 2 34
## 894 21451 40000 4 2 61
## 895 20754 30000 2 2 51
## 896 12153 70000 3 1 49
## 897 16895 40000 3 2 54
## 898 26728 70000 3 2 53
## 899 11090 90000 2 1 48
## 900 15862 50000 0 0 33
## 901 26495 40000 2 2 57
## 902 11823 70000 0 0 39
## 903 23449 60000 2 2 48
## 904 23459 60000 2 2 50
## 905 19543 70000 5 3 47
## 906 14914 40000 1 1 49
## 907 12033 40000 0 2 27
## 908 14389 60000 2 0 59
## 909 18050 60000 1 1 45
## 910 19856 60000 4 2 60
## 911 11663 70000 4 0 36
## 912 27740 40000 0 2 27
## 913 23455 80000 2 2 50
## 914 15292 60000 1 0 35
## 915 21587 60000 1 0 34
## 916 23513 40000 3 2 54
## 917 24322 60000 4 2 42
## 918 26298 50000 1 0 34
## 919 25419 50000 2 1 38
## 920 13343 90000 5 2 63
## 921 11303 90000 4 3 45
## 922 21693 60000 0 0 40
## 923 28056 70000 2 2 53
## 924 11788 70000 1 0 34
## 925 22296 70000 0 1 38
## 926 15319 70000 4 1 59
## 927 17654 40000 3 1 30
## 928 14662 60000 1 1 48
## 929 17541 40000 4 2 43
## 930 13886 70000 4 0 35
## 931 13073 60000 0 2 30
## 932 21940 90000 5 0 47
## 933 20196 60000 1 1 45
## 934 16651 120000 2 3 62
## 935 16813 60000 2 2 55
## 936 16007 90000 5 2 66
## 937 27434 70000 4 1 56
## 938 27756 50000 3 1 40
## 939 23818 50000 0 0 33
## 940 19012 80000 3 1 56
## 941 18329 30000 0 2 27
## 942 29037 60000 0 0 39
## 943 26576 60000 0 2 31
## 944 12192 60000 2 2 51
## 945 14887 30000 1 1 52
## 946 11734 60000 1 1 47
## 947 17462 70000 3 2 53
## 948 20659 70000 3 0 35
## 949 28004 60000 3 2 66
## 950 19741 80000 4 2 65
## 951 17450 80000 5 3 45
## 952 17337 40000 0 1 31
## 953 18594 80000 3 3 40
## 954 15982 110000 5 4 46
## 955 28625 40000 2 1 47
## 956 11269 130000 2 2 41
## 957 25148 60000 2 2 48
## 958 13920 50000 4 2 42
## 959 28972 60000 3 2 66
## 960 22730 70000 5 2 63
## 961 29134 60000 4 3 42
## 962 14332 30000 0 2 26
## 963 19117 60000 1 0 36
## 964 22864 90000 2 0 49
## 965 11292 150000 1 3 44
## 966 13466 80000 5 3 46
## 967 23731 60000 2 2 54
## 968 28672 70000 4 0 35
## 969 11809 60000 2 0 38
## 970 19664 100000 3 3 38
## 971 12121 60000 3 2 53
cor_data <- cor(df_new[,setdiff(names(df_new), 'Age')])
#Numerical Correlation Matrix
cor_data
## ï..ID Income Children Cars
## ï..ID 1 NA NA NA
## Income NA 1 NA NA
## Children NA NA 1 NA
## Cars NA NA NA 1
corrplot::corrplot(cor_data)
nf <- layout( matrix(c(1,1,2,3), nrow=2, byrow=TRUE) )
# Fill with plots
#buat kategori dengan kategori
mosaicplot(Age ~ Income, data = df, main = "", las = 1, shade = TRUE)
# Scatterplot between sugars and carbs
plot(df$Children, df$Age)
boxplot(Cars ~ Income, data= df, xlab = "Cars", ylab ="Income")