datap = read.csv("C:/Folder ITS/Semester 7/Business Intellegence/dkikepadatankelurahan2013.csv", sep=";")
#Ganti nama variabel
names(datap)[1] <- "Tahun"
names(datap)[2] <- "Prov"
names(datap)[3] <- "Kab"
names(datap)[4] <- "Kec"
names(datap)[5] <- "Kel"
names(datap)[6] <- "Luas"
names(datap)[7] <- "Kepadatan"
summary(datap)
## Tahun Prov Kab Kec
## Min. :2013 Length:267 Length:267 Length:267
## 1st Qu.:2013 Class :character Class :character Class :character
## Median :2013 Mode :character Mode :character Mode :character
## Mean :2013
## 3rd Qu.:2013
## Max. :2013
## Kel Luas Kepadatan
## Length:267 Min. : 0.270 Min. : 628
## Class :character 1st Qu.: 0.965 1st Qu.:11734
## Mode :character Median : 1.800 Median :17304
## Mean : 2.487 Mean :21974
## 3rd Qu.: 3.315 3rd Qu.:29226
## Max. :13.070 Max. :94166
sd(datap$Luas)
## [1] 2.109983
sd(datap$Kepadatan)
## [1] 15797.28
Berdasarkan ouput diatas, dapat diketahui bahwa data kepadatan penduduk DKI Jakarta tahun 2013 berjumlah 267 data. Untuk variabel Luas memiliki nilai mean 2.487 dan nilai standar deviasi 2.109983. Sedangkan, untuk variabel Kepadatan memiliki nilai mean 21974 dan nilai standar deviasi 15797.28. Dapat dilihat bahwa kedua variabel memiliki nilai mean yang lebih besar dari nilai standar deviasinya, sehingga penyimpangan data yang terjadi rendah dan dapat disimpulkan bahwa penyebaran nilainya merata.
library(ggplot2)
ggplot(data=datap)+
geom_point(mapping=aes(x=Luas, y=Kepadatan, colour=Kab))+
scale_y_continuous(name=expression(paste("Kepadatan (Jiwa/", Km^2,")")))+
scale_x_continuous(name=expression(paste("Luas Wilayah (", Km^2,")")))
Berdasarkan output diatas, dapat disimpulkan bahwa variabel Luas dan Kepadatan memiliki hubungan linier negatif yang artinya ketika satu variabel meningkat, maka variabel lainnya cenderung menurun. Selain itu, terdapat beberapa outlier yaitu Luas Wilayah kabupaten Jakarta Timur sebesar 13.07 Km^2 dan Kepadatan kabupaten yang lebih besar dari 75000 Jiwa/Km^2 sebanyak 3 data yaitu 1 dari kabupaten Jakarta Barat dan 2 dari kabupaten Jakarta Pusat.
ggplot(data=datap)+
geom_boxplot(mapping=aes(x=Kab, y=Kepadatan, fill=Kab)) + coord_flip()
Berdasarkan output diatas, dapat dilihat bahwa hanya kabupaten Jakarta Utara yang tidak memiliki outlier. Outlier merupakan nilai-nilai ekstrem atau tidak biasa yang terdapat dalam data.