Summary Data

datap = read.csv("C:/Folder ITS/Semester 7/Business Intellegence/dkikepadatankelurahan2013.csv", sep=";")

#Ganti nama variabel
names(datap)[1] <- "Tahun" 
names(datap)[2] <- "Prov" 
names(datap)[3] <- "Kab" 
names(datap)[4] <- "Kec" 
names(datap)[5] <- "Kel" 
names(datap)[6] <- "Luas" 
names(datap)[7] <- "Kepadatan"

summary(datap)
##      Tahun          Prov               Kab                Kec           
##  Min.   :2013   Length:267         Length:267         Length:267        
##  1st Qu.:2013   Class :character   Class :character   Class :character  
##  Median :2013   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :2013                                                           
##  3rd Qu.:2013                                                           
##  Max.   :2013                                                           
##      Kel                 Luas          Kepadatan    
##  Length:267         Min.   : 0.270   Min.   :  628  
##  Class :character   1st Qu.: 0.965   1st Qu.:11734  
##  Mode  :character   Median : 1.800   Median :17304  
##                     Mean   : 2.487   Mean   :21974  
##                     3rd Qu.: 3.315   3rd Qu.:29226  
##                     Max.   :13.070   Max.   :94166
sd(datap$Luas)
## [1] 2.109983
sd(datap$Kepadatan)
## [1] 15797.28

Berdasarkan ouput diatas, dapat diketahui bahwa data kepadatan penduduk DKI Jakarta tahun 2013 berjumlah 267 data. Untuk variabel Luas memiliki nilai mean 2.487 dan nilai standar deviasi 2.109983. Sedangkan, untuk variabel Kepadatan memiliki nilai mean 21974 dan nilai standar deviasi 15797.28. Dapat dilihat bahwa kedua variabel memiliki nilai mean yang lebih besar dari nilai standar deviasinya, sehingga penyimpangan data yang terjadi rendah dan dapat disimpulkan bahwa penyebaran nilainya merata.

Plot Variabel Luas Dengan Variabel Kepadatan

library(ggplot2)
ggplot(data=datap)+
  geom_point(mapping=aes(x=Luas, y=Kepadatan, colour=Kab))+
  scale_y_continuous(name=expression(paste("Kepadatan (Jiwa/", Km^2,")")))+
  scale_x_continuous(name=expression(paste("Luas Wilayah (", Km^2,")")))

Berdasarkan output diatas, dapat disimpulkan bahwa variabel Luas dan Kepadatan memiliki hubungan linier negatif yang artinya ketika satu variabel meningkat, maka variabel lainnya cenderung menurun. Selain itu, terdapat beberapa outlier yaitu Luas Wilayah kabupaten Jakarta Timur sebesar 13.07 Km^2 dan Kepadatan kabupaten yang lebih besar dari 75000 Jiwa/Km^2 sebanyak 3 data yaitu 1 dari kabupaten Jakarta Barat dan 2 dari kabupaten Jakarta Pusat.

Boxplot Variabel Kepadatan Berdasarkan Variabel Kabupaten

ggplot(data=datap)+
  geom_boxplot(mapping=aes(x=Kab, y=Kepadatan, fill=Kab)) + coord_flip()

Berdasarkan output diatas, dapat dilihat bahwa hanya kabupaten Jakarta Utara yang tidak memiliki outlier. Outlier merupakan nilai-nilai ekstrem atau tidak biasa yang terdapat dalam data.