setwd("C:/Users/fahmi/Documents/INFORMATIKA_FAHMI INAYATUR RAHMAN ATMAJA/SEMESTER 2/Probabilitas dan Statistika")
data <- read_excel("data_pengangguran.xlsx")
head(data)
## # A tibble: 6 × 10
## Pendidikan Provinsi `Usia Pengangguran` Tingkat Pengangguran…¹
## <chr> <chr> <dbl> <dbl>
## 1 Tidak Tamat Sekolah / SD DKI Jakar… 17 29.1
## 2 SD Banten 22 17.0
## 3 SMP Jawa Barat 27 7.13
## 4 SMA Jawa Teng… 32 3.7
## 5 SMK Jawa Timur 37 2.65
## 6 Diploma DKI Jakar… 42 2.43
## # ℹ abbreviated name: ¹`Tingkat Pengangguran (%)`
## # ℹ 6 more variables: `Jumlah Pengangguran (Pendidikan)` <dbl>,
## # `Tingkat Pengangguran (Provinsi%)` <dbl>,
## # `Jumlah Pengangguran (Provinsi)` <dbl>, `Jumlah Pengangguran (Umur)` <dbl>,
## # `Lama Menganggur` <dbl>, `Kesulitan Mencari Pekerjaan` <dbl>
data_pendidikan <- data %>%
group_by(Pendidikan) %>%
summarise(Total_Pengangguran = sum(`Jumlah Pengangguran (Pendidikan)`, na.rm = TRUE))
pie_chart <- ggplot(data_pendidikan, aes(x = "", y = Total_Pengangguran, fill = Pendidikan)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
theme_minimal() +
labs(title = "Jumlah Pengangguran Berdasarkan Pendidikan") +
theme(axis.text.x = element_blank())
pie_chart
Pie chart ini menggambarkan persentase distribusi pengangguran
berdasarkan tingkat pendidikan. Berdasarkan grafik ini, kita dapat
melihat bagian terbesar dari pengangguran di Indonesia berasal dari
tingkat pendidikan tertentu (misalnya, SMA atau SMK). Di sisi lain,
kelompok pengangguran dengan pendidikan rendah (seperti SD atau Tidak
Tamat Sekolah) juga bisa terlihat sebagai bagian yang signifikan.
bar_chart_provinsi_pct <- ggplot(data, aes(x = Provinsi, y = `Tingkat Pengangguran (Provinsi%)`, fill = Provinsi)) +
geom_bar(stat = "identity") +
theme_minimal() +
labs(title = "Tingkat Pengangguran Berdasarkan Provinsi (%)", x = "Provinsi", y = "Tingkat Pengangguran (%)") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
scale_y_continuous(limits = c(0, 9))
bar_chart_provinsi_pct
## Warning: Removed 205 rows containing missing values or values outside the scale range
## (`geom_bar()`).
Bar chart ini menggambarkan tingkat pengangguran per provinsi di
Indonesia. Provinsi dengan tingkat pengangguran tertinggi akan memiliki
bar lebih tinggi pada grafik, sedangkan provinsi dengan tingkat
pengangguran rendah akan terlihat memiliki bar lebih pendek. Berdasarkan
grafik ini, kita bisa mengetahui provinsi mana yang memiliki masalah
pengangguran yang lebih besar, serta daerah mana yang lebih berhasil
dalam mengurangi tingkat pengangguran.
histogram_lama_menganggur <- ggplot(data, aes(x = `Lama Menganggur`)) +
geom_histogram(binwidth = 1, fill = "lightblue", color = "black") + # Mengatur binwidth untuk bulan
theme_minimal() +
labs(title = "Distribusi Lama Menganggur (Bulan)", x = "Lama Menganggur (Bulan)", y = "Jumlah Individu") +
scale_x_continuous(breaks = seq(0, max(data$`Lama Menganggur`), by = 1)) # Menyesuaikan sumbu X
# Menampilkan histogram
histogram_lama_menganggur
ggplot(data, aes(x = `Kesulitan Mencari Pekerjaan`)) +
geom_density(fill = "lightblue", color = "darkblue", alpha = 0.5) +
theme_minimal() +
labs(title = "Distribusi Kesulitan Mencari Pekerjaan", x = "Kesulitan Mencari Pekerjaan", y = "Kepadatan")
Distribusi Bimodal (dua puncak): Grafik menunjukkan dua puncak yang berarti ada dua kelompok utama dalam data. Puncak pertama berada di sekitar 3.0 dan puncak kedua lebih dominan di sekitar 4.0. Ini mengindikasikan bahwa kebanyakan responden memberikan skor 4 (kesulitan tinggi) dalam mencari pekerjaan, sementara sebagian kecil lainnya berada di sekitar 3.
Sebaran data condong ke kanan: Tidak ada nilai yang signifikan di bawah 3.0, yang menunjukkan bahwa responden umumnya menilai kesulitan mencari pekerjaan sebagai cukup tinggi.
Mayoritas individu dalam dataset menilai kesulitan mencari pekerjaan sebagai tinggi (sekitar 4.0). Ada sebagian kecil individu yang memberikan penilaian lebih rendah (sekitar 3.0), namun jumlahnya jauh lebih sedikit dibanding kelompok yang menilai 4.0.
Distribusi bimodal menunjukkan adanya dua kelompok utama dalam persepsi kesulitan mencari pekerjaan, yang mungkin disebabkan oleh faktor-faktor berbeda (misalnya, perbedaan latar belakang pendidikan, keterampilan, atau kondisi pasar kerja).
box_plot_usia_pengangguran <- ggplot(data, aes(y = `Usia Pengangguran`)) +
geom_boxplot(fill = "lightgreen", color = "black") +
theme_minimal() +
labs(title = "Distribusi Usia Pengangguran", y = "Usia Pengangguran (Tahun)")
# Menampilkan box plot
box_plot_usia_pengangguran
Kotak hijau: Merepresentasikan interquartile range (IQR), yaitu rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3).
Garis hitam di dalam kotak: Menunjukkan median (Q2) atau nilai tengah data. Garis (whiskers) di atas dan bawah kotak: Menunjukkan sebaran data, dengan batas maksimum dan minimum dalam rentang 1,5 * IQR dari Q1 dan Q3.
Tidak terlihat outlier: Jika ada titik di luar whiskers, itu adalah outlier atau nilai pencilan. Namun, dari grafik ini, tampaknya tidak ada pencilan yang signifikan.
Median berada di sekitar 40 tahun: Ini konsisten dengan hasil sebelumnya di mana median usia pengangguran adalah 39.5 tahun.
Distribusi relatif simetris: Kotak tampak seimbang di sekitar median, yang menunjukkan bahwa data tidak terlalu condong ke kiri atau kanan.
IQR cukup lebar: Ini menunjukkan bahwa usia pengangguran cukup bervariasi, dengan rentang usia yang cukup besar.
Whiskers mencapai sekitar 70 tahun ke atas: Ini menunjukkan bahwa ada individu yang berusia lebih tua dalam kategori pengangguran, meskipun jumlahnya mungkin lebih sedikit.
mean(data$`Usia Pengangguran`, na.rm = TRUE)
## [1] 39.74762
Nilai mean adalah 39.75. ini berarti bahwa rata-rata usia pengangguran dalam dataset ini sekitar 39,75 tahun.
median(data$`Usia Pengangguran`, na.rm = TRUE)
## [1] 39.5
Nilai median adalah 39.5. Ini menunjukkan bahwa 50% pengangguran berusia di bawah 39,5 tahun dan 50% lainnya di atasnya. Karena median mendekati mean, distribusi usia kemungkinan hampir simetris, tetapi bisa sedikit condong jika diperiksa lebih lanjut.
modus_usia <- names(which.max(table(data$`Usia Pengangguran`)))
modus_usia
## [1] "17"
Modus usia adalah 17 tahun. Ini berarti bahwa usia 17 tahun adalah yang paling sering muncul dalam dataset Bisa jadi ada banyak pengangguran yang berusia muda, terutama di kelompok usia 17 tahun.
data %>% summarise(
Q1_usia = quantile(`Usia Pengangguran`, probs = 0.25, na.rm = TRUE),
Q3_usia = quantile(`Usia Pengangguran`, probs = 0.3, na.rm = TRUE)
)
## # A tibble: 1 × 2
## Q1_usia Q3_usia
## <dbl> <dbl>
## 1 27 30.5
Kode berikutnya mencoba menghitung kuartil pertama (Q1) dan kuartil ketiga (Q3), tetapi hasilnya tidak terlihat dalam gambar. Q1 adalah usia di mana 25% dari data berada di bawahnya, dan Q3 adalah usia di mana 75% dari data berada di bawahnya.
range_usia_selisih <- diff(range(data$`Usia Pengangguran`, na.rm = TRUE))
range_usia_selisih
## [1] 54
Nilai range adalah 54. Ini dihitung sebagai selisih antara nilai maksimum dan minimum dalam dataset (usia pengangguran tertua - usia termuda). Artinya, usia pengangguran dalam dataset tersebar dalam rentang 54 tahun, yang menunjukkan adanya variasi yang cukup besar.
sd_usia <- sd(data$`Usia Pengangguran`, na.rm = TRUE)
sd_usia
## [1] 14.83975
Nilai standar deviasi adalah 14.84. Standar deviasi mengukur seberapa jauh data tersebar dari nilai rata-rata (mean). Dengan SD sebesar 14.84, ini menunjukkan bahwa usia pengangguran memiliki variasi yang cukup tinggi, dengan banyak nilai yang tersebar jauh dari rata-rata (39.75 tahun, berdasarkan hasil sebelumnya). Jika distribusi usia mengikuti pola normal, sekitar 68% data akan berada dalam ±14.84 tahun dari rata-rata (sekitar usia 25 hingga 54 tahun).
variasi_usia <- var(data$`Usia Pengangguran`, na.rm = TRUE)
variasi_usia
## [1] 220.2183