1. Pendahuluan

Indonesia merupakan negara yang memiliki tingkat kerawanan bencana alam yang cukup tinggi. Berbagai jenis bencana seperti banjir, gempa bumi, dan tanah longsor sering terjadi di berbagai wilayah.

Analisis data terkait jumlah desa atau kelurahan yang mengalami bencana alam penting dilakukan untuk memahami pola penyebaran bencana di berbagai provinsi.

Dataset yang digunakan berasal dari Badan Pusat Statistik (BPS) mengenai jumlah desa/kelurahan yang mengalami bencana alam pada tahun 2018.

Tujuan analisis ini adalah:

  1. Mengidentifikasi jenis variabel dalam dataset
  2. Menyajikan visualisasi data menggunakan berbagai grafik
  3. Menghitung statistik deskriptif
  4. Melakukan interpretasi data secara statistik

Visualisasi yang digunakan dalam analisis ini meliputi:

Selain itu juga dilakukan perhitungan statistik deskriptif seperti:


2. Deskripsi Variabel Data

Dataset ini terdiri dari dua jenis variabel yaitu variabel kategorik dan variabel numerik.

2.1 Variabel Kategorik

Variabel kategorik merupakan variabel yang berisi kategori atau kelompok tertentu.

Terdapat dua variabel kategorik dalam data ini yaitu:

1. Provinsi

Variabel ini menunjukkan wilayah administrasi di Indonesia tempat terjadinya bencana alam.

Contoh nilai variabel ini antara lain:

  • Aceh
  • Sumatera Utara
  • Jawa Barat
  • Jawa Tengah

Variabel ini bersifat kategorik karena hanya menunjukkan kategori wilayah.

2. Jenis Bencana

Variabel ini menunjukkan kategori jenis bencana yang terjadi.

Jenis bencana dalam dataset ini meliputi:

  • Banjir
  • Gempa Bumi
  • Tanah Longsor

2.2 Variabel Numerik

Variabel numerik merupakan variabel yang berbentuk angka dan dapat dilakukan operasi matematika.

Dalam dataset ini terdapat tiga variabel numerik yaitu:

  1. Jumlah desa/kelurahan mengalami Banjir

  2. Jumlah desa/kelurahan mengalami Gempa Bumi

  3. Jumlah desa/kelurahan mengalami Tanah Longsor

Ketiga variabel ini bersifat data diskrit karena menunjukkan jumlah kejadian.


3. Import Data

Data diimport dari file Excel menggunakan bahasa pemrograman R.

library(readxl)
data <- read_excel("data_bencana.xlsx")

head(data)
## # A tibble: 6 × 5
##      NO Provinsi       Banjir Gempa `Tanah Longsor`
##   <dbl> <chr>           <dbl> <chr>           <dbl>
## 1     1 ACEH             2209 1962              361
## 2     2 SUMATERA UTARA    942 1061              738
## 3     3 SUMATERA BARAT    440 366               293
## 4     4 JAWA BARAT       1185 1427             1824
## 5     5 JAWA TENGAH      1452 757              1584
## 6     6 DI YOGYAKARTA     215 69                117

Melihat struktur data.

str(data)
## tibble [16 × 5] (S3: tbl_df/tbl/data.frame)
##  $ NO           : num [1:16] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Provinsi     : chr [1:16] "ACEH" "SUMATERA UTARA" "SUMATERA BARAT" "JAWA BARAT" ...
##  $ Banjir       : num [1:16] 2209 942 440 1185 1452 ...
##  $ Gempa        : chr [1:16] "1962" "1061" "366" "1427" ...
##  $ Tanah Longsor: num [1:16] 361 738 293 1824 1584 ...

Ringkasan statistik awal.

summary(data)
##        NO         Provinsi             Banjir           Gempa          
##  Min.   : 1.0   Length:16          Min.   :   95.0   Length:16         
##  1st Qu.: 4.5   Class :character   1st Qu.:  432.8   Class :character  
##  Median : 8.0   Mode  :character   Median :  665.0   Mode  :character  
##  Mean   : 8.0                      Mean   : 1388.9                     
##  3rd Qu.:11.5                      3rd Qu.: 1014.0                     
##  Max.   :15.0                      Max.   :11111.0                     
##  NA's   :1                                                             
##  Tanah Longsor   
##  Min.   :   6.0  
##  1st Qu.: 106.2  
##  Median : 217.0  
##  Mean   : 782.5  
##  3rd Qu.: 489.0  
##  Max.   :6260.0  
## 

4. Statistik Deskriptif

Statistik deskriptif digunakan untuk memahami karakteristik dasar dari data.

mean(data$Banjir)
## [1] 1388.875
median(data$Banjir)
## [1] 665
var(data$Banjir)
## [1] 7014205
sd(data$Banjir)
## [1] 2648.434
range(data$Banjir)
## [1]    95 11111
quantile(data$Banjir)
##       0%      25%      50%      75%     100% 
##    95.00   432.75   665.00  1014.00 11111.00

Fungsi untuk menghitung modus

modus <- function(x){
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

modus(data$Banjir)
## [1] 2209

Interpretasi statistik:

Mean menunjukkan rata-rata jumlah desa yang mengalami bencana banjir di setiap provinsi.

Median menunjukkan nilai tengah distribusi data sehingga tidak terlalu dipengaruhi oleh nilai ekstrem.

Variance dan standard deviation menunjukkan tingkat variasi data antar provinsi.

Range menunjukkan selisih antara nilai maksimum dan minimum.

Kuartil pertama (Q1) dan kuartil ketiga (Q3) menunjukkan batas bawah dan batas atas dari 50% data tengah.


5. Visualisasi Data

Visualisasi data digunakan untuk mempermudah pemahaman terhadap pola dan distribusi data.


5.1 Pie Chart

Pie chart digunakan untuk melihat proporsi masing-masing jenis bencana.

# 1. Pilih kolom 2 sampai 4 (Banjir, Gempa, Longsor)
kolom_bencana <- data[, 3:4]

# 2. Paksa semua isi kolom tersebut menjadi angka (numeric)
# Karakter aneh di Excel otomatis akan diubah menjadi NA (kosong)
kolom_bencana_num <- as.data.frame(lapply(kolom_bencana, function(x) as.numeric(as.character(x))))
## Warning in FUN(X[[i]], ...): NAs introduced by coercion
# 3. Hitung total per kolom, abaikan data yang NA
total_bencana <- colSums(kolom_bencana_num, na.rm = TRUE)

# 4. Buat Pie Chart
pie(total_bencana,
    col=c("skyblue","orange","lightgreen"),
    labels = paste(names(total_bencana), "\n", total_bencana), # Menampilkan angka di label
    main="Proporsi Jenis Bencana Alam di Indonesia Tahun 2018")

Interpretasi

Pie chart menunjukkan proporsi kejadian bencana berdasarkan jenisnya.

Dari grafik tersebut dapat terlihat banjir yang paling dominan terjadi di berbagai provinsi di Indonesia.

Jika satu bagian pie lebih besar dibandingkan yang lain, maka jenis bencana tersebut memiliki jumlah kejadian yang lebih tinggi dibandingkan jenis bencana lainnya.


5.2 Bar Chart

Bar chart digunakan untuk membandingkan jumlah kejadian bencana antar provinsi.

barplot(data$Banjir,
        names.arg=data$Provinsi,
        las=2,
        col="steelblue",
        main="Jumlah Desa Mengalami Banjir per Provinsi",
        ylab="Jumlah Desa")

Interpretasi

Bar chart menunjukkan perbandingan jumlah desa yang mengalami banjir di setiap provinsi.

Aceh adalah daerah yang desanya paling banyak mengalami banjir.

Perbedaan tinggi batang menunjukkan adanya variasi tingkat kejadian bencana antar wilayah.


5.3 Histogram

Histogram digunakan untuk melihat distribusi frekuensi data numerik.

hist(data$Banjir,
     col="lightblue",
     main="Distribusi Jumlah Desa Mengalami Banjir",
     xlab="Jumlah Desa",
     ylab="Frekuensi")

Interpretasi

Histogram menunjukkan distribusi jumlah desa yang mengalami banjir dalam beberapa interval nilai.

Dari grafik ini dapat dilihat bahwa histogram lebih miring ke kiri (negative skew),menunjukkan adanya nilai pencilan atau nilai ekstrem yang rendah

Distribusi ini membantu memahami pola penyebaran kejadian bencana.


5.4 Density Plot

Density plot memberikan gambaran distribusi data secara lebih halus.

plot(density(data$Banjir),
     col="blue",
     main="Density Plot Jumlah Desa Mengalami Banjir",
     xlab="Jumlah Desa")

Interpretasi

Density plot menunjukkan kurva kepadatan distribusi data.

Jika kurva condong ke kanan maka sebagian besar provinsi memiliki jumlah kejadian yang relatif rendah hingga sedang, namun terdapat beberapa provinsi dengan jumlah kejadian sangat tinggi.Dan pada grafik ini kurva density condong ke kiri, atau miring negatif menunjukan bahwa kumpulan data relatif tinggi dengan beberapa data rendah


5.5 Boxplot

Boxplot digunakan untuk melihat penyebaran data serta mendeteksi adanya outlier.

boxplot(data$Banjir,
        col="orange",
        main="Boxplot Jumlah Desa Mengalami Banjir")

Interpretasi

Boxplot menunjukkan lima komponen utama distribusi data yaitu:

  • minimum = 95
  • kuartil pertama (Q1) = 426
  • median = 619
  • kuartil ketiga (Q3) = 950
  • maksimum = 2209

Jika terdapat titik di luar whisker, maka titik tersebut merupakan outlier yang menunjukkan provinsi dengan jumlah kejadian yang sangat tinggi dibandingkan provinsi lainnya.


6. Interpretasi Statistik

Berdasarkan hasil statistik deskriptif, dapat diketahui bahwa terdapat variasi jumlah kejadian bencana antar provinsi.

Nilai mean yang lebih besar dari median menunjukkan bahwa distribusi data cenderung miring ke kanan (right skewed).

Nilai standar deviasi yang cukup besar menunjukkan bahwa penyebaran data antar provinsi cukup luas.

Hal ini menunjukkan bahwa tingkat kerawanan bencana tidak merata di seluruh wilayah Indonesia.


7. Kesimpulan

Berdasarkan analisis data jumlah desa/kelurahan yang mengalami bencana alam di Indonesia tahun 2018 dapat disimpulkan bahwa:

  1. Dataset terdiri dari dua variabel kategorik yaitu Provinsi dan Jenis Bencana serta tiga variabel numerik yaitu jumlah desa mengalami banjir, gempa bumi, dan tanah longsor.

  2. Visualisasi data menunjukkan bahwa terdapat perbedaan jumlah kejadian bencana antar provinsi.

  3. Statistik deskriptif menunjukkan adanya variasi yang cukup besar dalam jumlah desa yang mengalami bencana di berbagai wilayah.

  4. Distribusi data cenderung tidak simetris karena terdapat beberapa provinsi dengan jumlah kejadian bencana yang jauh lebih tinggi dibandingkan provinsi lainnya.

Analisis ini memberikan gambaran awal mengenai pola penyebaran bencana alam di Indonesia dan dapat digunakan sebagai dasar untuk analisis yang lebih mendalam di masa mendatang.