Data yang digunakan terdiri dari delapan variabel yaitu “Tanggal” bertipe data date, “Suhu” dengan satuan celcius bertipe numerik (kontinu), “Curah Hujan” dengan satuan milimeter bertipe numerik (kontinu), “Kelembapan” dengan satuan persen bertipe numerik (kontinu), “Jumlah Pasien Rumah Sakit” dengan satuan jiwa bertipe numerik (diskrit), “Kepadatan Penduduk” dengan satuan jiwa bertipe numerik (diskrit), “Skor Google Tren”bertipe numerik (diskrit), dan “Wabah” bertipe kategorik atau numerik binner (0,1). Data ini terdiri dari 1000 observasi. Adapun tujuan dari eksplorasi data ini adalah untuk untuk untuk memahami karakteristik dan pola distribusi data, mengidentifikasi hubungan antar variabel, serta memperoleh gambaran awal mengenai faktor-faktor yang berpotensi memengaruhi terjadinya wabah sebelum dilakukan analisis statistik lanjutan.
Data tersebut dapat ditampilkan sebagai berikut.
### VISUALISASI 1 : Bar Plot
library(dplyr)
data_bar <- data %>%
group_by(Wabah) %>%
summarise(Total_Pasien = sum(Jumlah_Pasien_Rumah_Sakit))
library(ggplot2)
ggplot(data_bar, aes(x = Wabah, y = Total_Pasien)) +
geom_bar(stat = "identity", fill = "darkred") +
geom_text(aes(label = Total_Pasien), vjust = -0.5, size = 4) +
theme_minimal(base_family = "Times New Roman") +
theme(
plot.title = element_text(
hjust = 0.5, face = "bold", size = 14
)
) +
labs(title = "Perbandingan Pasien Berdasarakan Status Wabah",
x = "Status Wabah",
y = "Jumlah Pasien")Pada visualisasi dengan jenis bar plot dengan variabel X adalah wabah (kategorik) dan variabel Y yaitu jumlah pasien rumah sakit (numerik diskrit), visualisasi data univariat ini menggambarkan perbandingan pasien terjangkit wabah dan tidak terjangkit wabah. Tujuan dari grafik ini adalah untuk melihat perbandingan atau distribusi jumlah dari pasien antara kelompok terkena wabah dan tidak terkena wabah.
Dari grafik terlihat bahwa jumlah pasien yang tidak terjangkit wabah (“Tidak”) lebih tinggi, yaitu sekitar 22.367 pasien, dibandingkan dengan pasien yang terjangkit wabah (“Ya”) yang berjumlah sekitar 17.739 pasien. Selisih antara kedua kelompok cukup terlihat jelas, di mana kategori “Tidak” memiliki batang yang lebih tinggi daripada kategori “Ya”.
Hal ini menunjukkan bahwa dalam data tersebut, mayoritas pasien tidak terjangkit wabah, sehingga diketahui penyebaran wabah belum mendominasi populasi pasien secara keseluruhan. Implikasinya, kondisi ini bisa menunjukkan bahwa langkah pencegahan atau pengendalian wabah mungkin cukup efektif atau dalam artian lain wabah belum menyebar secara luas. Akan tetapi perlu diperhatikan, jumlah pasien yang terjangkit wabah tetap cukup besar atau tidak jauh kurang dengan selisih 4.628 pasien, sehingga tetap diperlukan perhatian dan upaya pengendalian lebih lanjut agar tidak terjadi peningkatan kasus di masa mendatang.
# VISUALISASI 2 : HEATMAP
# Pilih variabel yang akan dikorelasikan
data_korelasi <- data %>%
select(
Suhu_C,
Curah_Hujan_mm,
Kelembapan_persen,
Wabah_num
)
# Hitung matriks korelasi
matriks_korelasi <- cor(data_korelasi)
# Ubah ke format long untuk ggplot
korelasi_long <- melt(matriks_korelasi)
# Heatmap korelasi
ggplot(korelasi_long,
aes(
x = Var1,
y = Var2,
fill = value
)) +
geom_tile(color = "white") +
geom_text(
aes(label = round(value, 2)),
size = 4
) +
scale_fill_gradient(
low = "darkblue",
high = "darkred",
limits = c(-1, 1)
) +
labs(
title = "Heatmap Korelasi Suhu, Curah Hujan,\ndan Kelembapan vs Pasien Terjangkit Wabah",
x = "Variabel",
y = "Variabel",
fill = "Korelasi"
) +
theme_minimal() +theme(
plot.title = element_text(
hjust = 0.5, face = "bold", size = 14
)
) Pada visualisasi dengan jenis heatmap, variabel X dan variabel Y sama-sama merupakan variabel numerik kontinu, yaitu suhu, curah hujan, kelembapan, dan jumlah pasien terjangkit wabah. Visualisasi data ini termasuk bivariat, karena bertujuan untuk melihat hubungan atau tingkat korelasi antar variabel iklim dengan jumlah pasien terjangkit wabah. Warna pada heatmap menunjukkan kekuatan hubungan, di mana warna yang semakin terang (merah) menunjukkan korelasi yang lebih tinggi, sedangkan warna yang lebih gelap menunjukkan korelasi yang lebih rendah atau mendekati nol.
Dari grafik terlihat bahwa curah hujan memiliki nilai korelasi paling tinggi terhadap jumlah pasien terjangkit wabah, yaitu sebesar 0,44, yang ditunjukkan dengan warna yang relatif lebih terang dibandingkan variabel lainnya. Sementara itu, suhu memiliki korelasi yang sangat rendah terhadap jumlah pasien terjangkit wabah, yaitu sekitar 0,03, dan kelembapan memiliki korelasi yang hampir tidak ada, yaitu sekitar -0,01. Nilai-nilai tersebut menunjukkan bahwa hubungan antara suhu dan kelembapan dengan jumlah pasien terjangkit wabah cenderung sangat lemah. Selain itu, hubungan antar variabel iklim seperti suhu dengan curah hujan (0,07) dan suhu dengan kelembapan (0,02) juga menunjukkan korelasi yang rendah, sehingga tidak terdapat hubungan yang kuat di antara variabel-variabel iklim tersebut dalam data ini.
Hal ini menunjukkan bahwa curah hujan kemungkinan memiliki pengaruh yang lebih besar dibandingkan suhu dan kelembapan dalam kaitannya dengan jumlah pasien terjangkit wabah, meskipun tingkat korelasinya masih tergolong lemah hingga sedang. Sementara itu, suhu dan kelembapan tidak menunjukkan hubungan yang signifikan terhadap jumlah pasien terjangkit wabah berdasarkan visualisasi ini..
# VISUALISASI 3 : TIMESERIES
data$date <- as.Date(data$Tanggal)
data <- data %>%
mutate(Tahun = year(date))
data_ts <- data %>%
group_by(Tahun) %>%
summarise(Jumlah_Wabah = n())
ggplot(data_ts, aes(x = Tahun, y = Jumlah_Wabah, color = Jumlah_Wabah)) +
geom_line(size = 1.2) +
geom_point(size = 3) +
geom_line(size = 1) +
geom_point(size = 2) +
geom_text(aes(label = Jumlah_Wabah), vjust = -0.5, size = 3) +
scale_color_gradient(low = "darkblue", high = "darkred") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
) +
labs(title = "Tren Pasien Terjangkit Wabah Berdasarkan Tahun",
x = "Tahun",
y = "Jumlah Kasus Wabah",
color = "Jumlah")Pada visualisasi dengan jenis line plot dengan variabel X adalah tahun (time series) dan variabel Y adalah jumlah kasus wabah yang bersifat numerik diskrit, visualisasi ini termasuk time series. Tujuan grafik ini adalah untuk melihat perkembangan atau tren jumlah kasus wabah dari waktu ke waktu.
Dari grafik terlihat bahwa jumlah kasus pada tahun 2022 dan 2023 relatif sama yaitu sekitar 365 kasus, kemudian terjadi penurunan signifikan pada tahun 2024 menjadi sekitar 270 kasus. Pola ini menunjukkan adanya kestabilan di awal periode, kemudian diikuti penurunan tajam hingga 2024 sebagai tahun terakhir dalam data.
Hal ini menunjukkan bahwa terjadi penurunan kasus wabah pada tahun terakhir, yang dapat diinterpretasikan sebagai adanya perbaikan dalam pengendalian wabah, peningkatan sistem kesehatan, atau faktor lain seperti perubahan lingkungan. Implikasinya, kebijakan atau intervensi yang dilakukan sebelumnya mungkin mulai menunjukkan hasil yang positif, namun tetap perlu dipantau untuk memastikan tren penurunan ini berlanjut.
# VISUALISASI 4 : JITTER PLOT
ggplot(data, aes(x = data$Skor_Google_Tren, y = data$Jumlah_Pasien_Rumah_Sakit)) +
geom_jitter(width = 0.3, height = 0.3, color = "blue", alpha = 0.6) +
facet_wrap(~ Wabah, ncol = 2, scales = "fixed") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
) +
theme(
panel.border = element_rect(color = "black", fill = NA, size = 1),
strip.background = element_rect(fill = "lightgray", color = "black"),
strip.text = element_text(face = "bold")
) +
labs(title = "Skor Google Trends vs Jumlah Pasien Rumah Sakit\nberdasarkan Status Wabah",
x = "Skor Google Trends",
y = "Jumlah Pasien")Pada visualisasi dengan jenis scatter plot dengan variabel X adalah Skor Google Tren (numerik kontinu) dan variabel Y adalah jumlah pasien (numerik diskrit), serta dibedakan berdasarkan status wabah (“Ya” atau “Tidak”), visualisasi ini termasuk multivariat (lebih dari dua variabel). Tujuan grafik ini adalah untuk melihat hubungan antara minat pencarian (Skor Google Tren) dengan jumlah pasien, serta perbedaannya berdasarkan kondisi wabah.
Dari grafik terlihat bahwa sebaran titik pada kedua kategori dari status wabah (“Ya” dan “Tidak”) cukup menyebar dan tidak membentuk pola linear yang jelas. Namun pada kategori “Ya”, nilai Google Trend cenderung berada pada rentang yang lebih tinggi dibandingkan kategori “Tidak”, meskipun jumlah pasien tetap bervariasi.
Hal ini menunjukkan bahwa tidak terdapat hubungan yang kuat atau langsung antara Google Tren dan jumlah pasien, tetapi pada kondisi wabah (“Ya”), minat pencarian cenderung meningkat. Implikasinya, Google Tren bisa menjadi indikator awal adanya perhatian masyarakat terhadap wabah, namun tidak secara langsung mencerminkan jumlah pasien. Oleh karena itu, data ini lebih cocok digunakan sebagai pendukung daripada sebagai prediktor utama jumlah kasus.
Hasil analisis menunjukkan bahwa jumlah pasien yang tidak terjangkit wabah masih lebih besar dibandingkan yang terjangkit, sehingga secara umum wabah belum mendominasi populasi pasien rumah sakit. Makna dari temuan ini adalah bahwa penyebaran wabah masih berada dalam kondisi yang relatif terkendali. Implikasinya, sistem kesehatan atau langkah pencegahan yang telah dilakukan kemungkinan sudah cukup efektif dalam menahan laju penyebaran. Namun demikian, karena selisih jumlahnya tidak terlalu besar, tetap terdapat risiko peningkatan kasus apabila tidak dilakukan pengawasan dan intervensi lanjutan secara konsisten.
Dari analisis heatmap, terlihat bahwa curah hujan merupakan variabel iklim yang memiliki hubungan paling menonjol terhadap jumlah pasien terjangkit wabah dibandingkan suhu dan kelembapan. Namun demikian, nilai korelasi yang diperoleh masih berada pada tingkat korelasi sedang, sehingga belum menunjukkan hubungan yang sangat kuat. Makna dari hasil ini adalah bahwa faktor iklim, khususnya curah hujan, berpotensi berkontribusi terhadap peningkatan jumlah pasien terjangkit wabah, tetapi pengaruhnya belum cukup kuat untuk dijadikan sebagai satu-satunya indikator dalam memprediksi terjadinya wabah. Sementara itu, suhu dan kelembapan dalam data ini menunjukkan hubungan yang sangat lemah terhadap jumlah pasien terjangkit wabah. Implikasinya, dalam konteks analisis atau pengendalian wabah, variabel iklim sebaiknya tidak digunakan secara terpisah, melainkan dikombinasikan dengan faktor lain seperti kepadatan penduduk, sanitasi lingkungan, mobilitas masyarakat, atau kondisi kesehatan masyarakat agar menghasilkan analisis yang lebih komprehensif dan akurat.
Grafik tren menunjukkan adanya penurunan jumlah kasus wabah pada tahun terakhir setelah sebelumnya relatif stabil. Makna dari pola ini adalah adanya indikasi perbaikan dalam pengendalian wabah, baik melalui kebijakan kesehatan, peningkatan fasilitas medis, maupun kesadaran masyarakat. Implikasinya, strategi yang telah diterapkan kemungkinan efektif dan perlu dipertahankan atau ditingkatkan. Selain itu, tren penurunan ini juga dapat menjadi dasar bagi pengambilan keputusan dalam perencanaan kebijakan kesehatan di masa depan, dengan tetap mempertimbangkan kemungkinan fluktuasi kasus.
Hasil jitter plot menunjukkan bahwa tidak terdapat hubungan linear yang kuat antara Skor Google Trends dan jumlah pasien, meskipun pada kondisi wabah nilai pencarian cenderung lebih tinggi. Makna dari temuan ini adalah bahwa peningkatan minat pencarian masyarakat lebih mencerminkan tingkat perhatian atau kekhawatiran terhadap wabah, bukan jumlah kasus secara langsung. Implikasinya, data Google Trend dapat dimanfaatkan sebagai indikator awal untuk mendeteksi meningkatnya perhatian publik terhadap isu kesehatan, tetapi tidak dapat digunakan sebagai alat prediksi utama tanpa dikombinasikan dengan data epidemiologis lainnya.
Dari hasil analisis menunjukkan bahwa kejadian wabah tidak dipengaruhi oleh satu faktor tunggal, melainkan merupakan hasil interaksi berbagai faktor seperti kondisi lingkungan, waktu, dan perilaku masyarakat. Makna dari hal ini adalah bahwa pendekatan analisis wabah harus bersifat multidimensi. Implikasinya, dalam pengambilan kebijakan, diperlukan integrasi berbagai sumber data dan metode analisis agar keputusan yang dihasilkan lebih akurat dan efektif dalam mengendalikan penyebaran wabah.
Data yang digunakan terdiri dari delapan variabel yaitu “Tanggal” bertipe data date, “Suhu” dengan satuan celcius bertipe numerik (kontinu), “Curah Hujan” dengan satuan milimeter bertipe numerik (kontinu), “Kelembapan” dengan satuan persen bertipe numerik (kontinu), “Jumlah Pasien Rumah Sakit” dengan satuan jiwa bertipe numerik (diskrit), “Kepadatan Penduduk” dengan satuan jiwa bertipe numerik (diskrit), “Skor Google Tren” bertipe numerik (diskrit), dan “Wabah” bertipe kategorik atau numerik biner (0,1). Data ini terdiri dari 1000 observasi dan berdistribusi normal untuk setiap variabel. Adapun tujuan dari eksplorasi data ini adalah untuk memahami karakteristik dan pola distribusi data, mengidentifikasi hubungan antar variabel, serta memperoleh gambaran awal mengenai faktor-faktor yang berpotensi memengaruhi terjadinya wabah sebelum dilakukan analisis statistik lanjutan.