Indonesia merupakan negara yang memiliki tingkat kerawanan bencana alam yang cukup tinggi. Berbagai jenis bencana seperti banjir, gempa bumi, dan tanah longsor sering terjadi di berbagai wilayah.
Analisis data terkait jumlah desa atau kelurahan yang mengalami bencana alam penting dilakukan untuk memahami pola penyebaran bencana di berbagai provinsi.
Dataset yang digunakan berasal dari Badan Pusat Statistik (BPS) mengenai jumlah desa/kelurahan yang mengalami bencana alam pada tahun 2018.
Tujuan analisis ini adalah:
Visualisasi yang digunakan dalam analisis ini meliputi:
Selain itu juga dilakukan perhitungan statistik deskriptif seperti:
Dataset ini terdiri dari dua jenis variabel yaitu variabel kategorik dan variabel numerik.
Variabel kategorik merupakan variabel yang berisi kategori atau kelompok tertentu.
Terdapat dua variabel kategorik dalam data ini yaitu:
1. Provinsi
Variabel ini menunjukkan wilayah administrasi di Indonesia tempat terjadinya bencana alam.
Contoh nilai variabel ini antara lain:
Variabel ini bersifat kategorik karena hanya menunjukkan kategori wilayah.
2. Jenis Bencana
Variabel ini menunjukkan kategori jenis bencana yang terjadi.
Jenis bencana dalam dataset ini meliputi:
Variabel numerik merupakan variabel yang berbentuk angka dan dapat dilakukan operasi matematika.
Dalam dataset ini terdapat tiga variabel numerik yaitu:
Jumlah desa/kelurahan mengalami Banjir
Jumlah desa/kelurahan mengalami Gempa Bumi
Jumlah desa/kelurahan mengalami Tanah Longsor
Ketiga variabel ini bersifat data diskrit karena menunjukkan jumlah kejadian.
Data diimport dari file Excel menggunakan bahasa pemrograman R.
library(readxl)
data <- read_excel("data_bencana.xlsx")
head(data)
## # A tibble: 6 × 5
## NO Provinsi Banjir Gempa `Tanah Longsor`
## <dbl> <chr> <dbl> <chr> <dbl>
## 1 1 ACEH 2209 1962 361
## 2 2 SUMATERA UTARA 942 1061 738
## 3 3 SUMATERA BARAT 440 366 293
## 4 4 JAWA BARAT 1185 1427 1824
## 5 5 JAWA TENGAH 1452 757 1584
## 6 6 DI YOGYAKARTA 215 69 117
Melihat struktur data.
str(data)
## tibble [16 × 5] (S3: tbl_df/tbl/data.frame)
## $ NO : num [1:16] 1 2 3 4 5 6 7 8 9 10 ...
## $ Provinsi : chr [1:16] "ACEH" "SUMATERA UTARA" "SUMATERA BARAT" "JAWA BARAT" ...
## $ Banjir : num [1:16] 2209 942 440 1185 1452 ...
## $ Gempa : chr [1:16] "1962" "1061" "366" "1427" ...
## $ Tanah Longsor: num [1:16] 361 738 293 1824 1584 ...
Ringkasan statistik awal.
summary(data)
## NO Provinsi Banjir Gempa
## Min. : 1.0 Length:16 Min. : 95.0 Length:16
## 1st Qu.: 4.5 Class :character 1st Qu.: 432.8 Class :character
## Median : 8.0 Mode :character Median : 665.0 Mode :character
## Mean : 8.0 Mean : 1388.9
## 3rd Qu.:11.5 3rd Qu.: 1014.0
## Max. :15.0 Max. :11111.0
## NA's :1
## Tanah Longsor
## Min. : 6.0
## 1st Qu.: 106.2
## Median : 217.0
## Mean : 782.5
## 3rd Qu.: 489.0
## Max. :6260.0
##
Statistik deskriptif digunakan untuk memahami karakteristik dasar dari data.
mean(data$Banjir)
## [1] 1388.875
median(data$Banjir)
## [1] 665
var(data$Banjir)
## [1] 7014205
sd(data$Banjir)
## [1] 2648.434
range(data$Banjir)
## [1] 95 11111
quantile(data$Banjir)
## 0% 25% 50% 75% 100%
## 95.00 432.75 665.00 1014.00 11111.00
modus <- function(x){
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
modus(data$Banjir)
## [1] 2209
Interpretasi statistik:
Mean menunjukkan rata-rata jumlah desa yang mengalami bencana banjir di setiap provinsi.
Median menunjukkan nilai tengah distribusi data sehingga tidak terlalu dipengaruhi oleh nilai ekstrem.
Variance dan standard deviation menunjukkan tingkat variasi data antar provinsi.
Range menunjukkan selisih antara nilai maksimum dan minimum.
Kuartil pertama (Q1) dan kuartil ketiga (Q3) menunjukkan batas bawah dan batas atas dari 50% data tengah.
Visualisasi data digunakan untuk mempermudah pemahaman terhadap pola dan distribusi data.
Pie chart digunakan untuk melihat proporsi masing-masing jenis bencana.
# 1. Pilih kolom 2 sampai 4 (Banjir, Gempa, Longsor)
kolom_bencana <- data[, 3:4]
# 2. Paksa semua isi kolom tersebut menjadi angka (numeric)
# Karakter aneh di Excel otomatis akan diubah menjadi NA (kosong)
kolom_bencana_num <- as.data.frame(lapply(kolom_bencana, function(x) as.numeric(as.character(x))))
## Warning in FUN(X[[i]], ...): NAs introduced by coercion
# 3. Hitung total per kolom, abaikan data yang NA
total_bencana <- colSums(kolom_bencana_num, na.rm = TRUE)
# 4. Buat Pie Chart
pie(total_bencana,
col=c("skyblue","orange","lightgreen"),
labels = paste(names(total_bencana), "\n", total_bencana), # Menampilkan angka di label
main="Proporsi Jenis Bencana Alam di Indonesia Tahun 2018")
Pie chart menunjukkan proporsi kejadian bencana berdasarkan jenisnya.
Dari grafik tersebut dapat terlihat banjir yang paling dominan terjadi di berbagai provinsi di Indonesia.
Jika satu bagian pie lebih besar dibandingkan yang lain, maka jenis bencana tersebut memiliki jumlah kejadian yang lebih tinggi dibandingkan jenis bencana lainnya.
Bar chart digunakan untuk membandingkan jumlah kejadian bencana antar provinsi.
barplot(data$Banjir,
names.arg=data$Provinsi,
las=2,
col="steelblue",
main="Jumlah Desa Mengalami Banjir per Provinsi",
ylab="Jumlah Desa")
Bar chart menunjukkan perbandingan jumlah desa yang mengalami banjir di setiap provinsi.
Aceh adalah daerah yang desanya paling banyak mengalami banjir.
Perbedaan tinggi batang menunjukkan adanya variasi tingkat kejadian bencana antar wilayah.
Histogram digunakan untuk melihat distribusi frekuensi data numerik.
hist(data$Banjir,
col="lightblue",
main="Distribusi Jumlah Desa Mengalami Banjir",
xlab="Jumlah Desa",
ylab="Frekuensi")
Histogram menunjukkan distribusi jumlah desa yang mengalami banjir dalam beberapa interval nilai.
Dari grafik ini dapat dilihat bahwa histogram lebih miring ke kiri (negative skew),menunjukkan adanya nilai pencilan atau nilai ekstrem yang rendah
Distribusi ini membantu memahami pola penyebaran kejadian bencana.
Density plot memberikan gambaran distribusi data secara lebih halus.
plot(density(data$Banjir),
col="blue",
main="Density Plot Jumlah Desa Mengalami Banjir",
xlab="Jumlah Desa")
Density plot menunjukkan kurva kepadatan distribusi data.
Jika kurva condong ke kanan maka sebagian besar provinsi memiliki jumlah kejadian yang relatif rendah hingga sedang, namun terdapat beberapa provinsi dengan jumlah kejadian sangat tinggi.Dan pada grafik ini kurva density condong ke kiri, atau miring negatif menunjukan bahwa kumpulan data relatif tinggi dengan beberapa data rendah
Boxplot digunakan untuk melihat penyebaran data serta mendeteksi adanya outlier.
boxplot(data$Banjir,
col="orange",
main="Boxplot Jumlah Desa Mengalami Banjir")
Boxplot menunjukkan lima komponen utama distribusi data yaitu:
Jika terdapat titik di luar whisker, maka titik tersebut merupakan outlier yang menunjukkan provinsi dengan jumlah kejadian yang sangat tinggi dibandingkan provinsi lainnya.
Berdasarkan hasil statistik deskriptif, dapat diketahui bahwa terdapat variasi jumlah kejadian bencana antar provinsi.
Nilai mean yang lebih besar dari median menunjukkan bahwa distribusi data cenderung miring ke kanan (right skewed).
Nilai standar deviasi yang cukup besar menunjukkan bahwa penyebaran data antar provinsi cukup luas.
Hal ini menunjukkan bahwa tingkat kerawanan bencana tidak merata di seluruh wilayah Indonesia.
Berdasarkan analisis data jumlah desa/kelurahan yang mengalami bencana alam di Indonesia tahun 2018 dapat disimpulkan bahwa:
Dataset terdiri dari dua variabel kategorik yaitu Provinsi dan Jenis Bencana serta tiga variabel numerik yaitu jumlah desa mengalami banjir, gempa bumi, dan tanah longsor.
Visualisasi data menunjukkan bahwa terdapat perbedaan jumlah kejadian bencana antar provinsi.
Statistik deskriptif menunjukkan adanya variasi yang cukup besar dalam jumlah desa yang mengalami bencana di berbagai wilayah.
Distribusi data cenderung tidak simetris karena terdapat beberapa provinsi dengan jumlah kejadian bencana yang jauh lebih tinggi dibandingkan provinsi lainnya.
Analisis ini memberikan gambaran awal mengenai pola penyebaran bencana alam di Indonesia dan dapat digunakan sebagai dasar untuk analisis yang lebih mendalam di masa mendatang.