setwd("C:/Users/fahmi/Documents/INFORMATIKA_FAHMI INAYATUR RAHMAN ATMAJA/SEMESTER 2/Probabilitas dan Statistika")
data <- read_excel("data_pengangguran.xlsx")
head(data)
## # A tibble: 6 × 10
##   Pendidikan               Provinsi   `Usia Pengangguran` Tingkat Pengangguran…¹
##   <chr>                    <chr>                    <dbl>                  <dbl>
## 1 Tidak Tamat Sekolah / SD DKI Jakar…                  17                  29.1 
## 2 SD                       Banten                      22                  17.0 
## 3 SMP                      Jawa Barat                  27                   7.13
## 4 SMA                      Jawa Teng…                  32                   3.7 
## 5 SMK                      Jawa Timur                  37                   2.65
## 6 Diploma                  DKI Jakar…                  42                   2.43
## # ℹ abbreviated name: ¹​`Tingkat Pengangguran (%)`
## # ℹ 6 more variables: `Jumlah Pengangguran (Pendidikan)` <dbl>,
## #   `Tingkat Pengangguran (Provinsi%)` <dbl>,
## #   `Jumlah Pengangguran (Provinsi)` <dbl>, `Jumlah Pengangguran (Umur)` <dbl>,
## #   `Lama Menganggur` <dbl>, `Kesulitan Mencari Pekerjaan` <dbl>

PIE CHART

data_pendidikan <- data %>%
  group_by(Pendidikan) %>%
  summarise(Total_Pengangguran = sum(`Jumlah Pengangguran (Pendidikan)`, na.rm = TRUE))

pie_chart <- ggplot(data_pendidikan, aes(x = "", y = Total_Pengangguran, fill = Pendidikan)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
  theme_minimal() +
  labs(title = "Jumlah Pengangguran Berdasarkan Pendidikan") +
  theme(axis.text.x = element_blank()) 
  
pie_chart

Pie chart ini menggambarkan persentase distribusi pengangguran berdasarkan tingkat pendidikan. Berdasarkan grafik ini, kita dapat melihat bagian terbesar dari pengangguran di Indonesia berasal dari tingkat pendidikan tertentu (misalnya, SMA atau SMK). Di sisi lain, kelompok pengangguran dengan pendidikan rendah (seperti SD atau Tidak Tamat Sekolah) juga bisa terlihat sebagai bagian yang signifikan.

BAR CHART

bar_chart_provinsi_pct <- ggplot(data, aes(x = Provinsi, y = `Tingkat Pengangguran (Provinsi%)`, fill = Provinsi)) +
  geom_bar(stat = "identity") + 
  theme_minimal() + 
  labs(title = "Tingkat Pengangguran Berdasarkan Provinsi (%)", x = "Provinsi", y = "Tingkat Pengangguran (%)") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
  scale_y_continuous(limits = c(0, 9))
                     
bar_chart_provinsi_pct
## Warning: Removed 205 rows containing missing values or values outside the scale range
## (`geom_bar()`).

Bar chart ini menggambarkan tingkat pengangguran per provinsi di Indonesia. Provinsi dengan tingkat pengangguran tertinggi akan memiliki bar lebih tinggi pada grafik, sedangkan provinsi dengan tingkat pengangguran rendah akan terlihat memiliki bar lebih pendek. Berdasarkan grafik ini, kita bisa mengetahui provinsi mana yang memiliki masalah pengangguran yang lebih besar, serta daerah mana yang lebih berhasil dalam mengurangi tingkat pengangguran.

HISTOGRAM

histogram_lama_menganggur <- ggplot(data, aes(x = `Lama Menganggur`)) +
  geom_histogram(binwidth = 1, fill = "lightblue", color = "black") +  # Mengatur binwidth untuk bulan
  theme_minimal() +
  labs(title = "Distribusi Lama Menganggur (Bulan)", x = "Lama Menganggur (Bulan)", y = "Jumlah Individu") +
  scale_x_continuous(breaks = seq(0, max(data$`Lama Menganggur`), by = 1))  # Menyesuaikan sumbu X

# Menampilkan histogram
histogram_lama_menganggur

  1. Pemahaman Histogram
  1. Interpretasi Statistik
  1. Kesimpulan

DENSITY PLOT

ggplot(data, aes(x = `Kesulitan Mencari Pekerjaan`)) +
  geom_density(fill = "lightblue", color = "darkblue", alpha = 0.5) +
  theme_minimal() +
  labs(title = "Distribusi Kesulitan Mencari Pekerjaan", x = "Kesulitan Mencari Pekerjaan", y = "Kepadatan")

  1. Pemahaman Density Plot
  1. Interpretasi Statistik
  1. Kesimpulan

BOX PLOT

box_plot_usia_pengangguran <- ggplot(data, aes(y = `Usia Pengangguran`)) +
  geom_boxplot(fill = "lightgreen", color = "black") +
  theme_minimal() +
  labs(title = "Distribusi Usia Pengangguran", y = "Usia Pengangguran (Tahun)")

# Menampilkan box plot
box_plot_usia_pengangguran

  1. Komponen Box Plot
  1. Interpretasi Statistik
  1. Kesimpulan

Mean (Rata-Rata)

mean(data$`Usia Pengangguran`, na.rm = TRUE)
## [1] 39.74762

Nilai mean adalah 39.75. ini berarti bahwa rata-rata usia pengangguran dalam dataset ini sekitar 39,75 tahun.

Median (Nilai Tengah)

median(data$`Usia Pengangguran`, na.rm = TRUE)
## [1] 39.5

Nilai median adalah 39.5. Ini menunjukkan bahwa 50% pengangguran berusia di bawah 39,5 tahun dan 50% lainnya di atasnya. Karena median mendekati mean, distribusi usia kemungkinan hampir simetris, tetapi bisa sedikit condong jika diperiksa lebih lanjut.

Modus (Nilai yang Paling Sering Muncul)

modus_usia <- names(which.max(table(data$`Usia Pengangguran`)))
modus_usia
## [1] "17"

Modus usia adalah 17 tahun. Ini berarti bahwa usia 17 tahun adalah yang paling sering muncul dalam dataset Bisa jadi ada banyak pengangguran yang berusia muda, terutama di kelompok usia 17 tahun.

Kuartil 1 (Q1) dan Kuartil 3 (Q3)

data %>% summarise(
  Q1_usia = quantile(`Usia Pengangguran`, probs = 0.25, na.rm = TRUE),
  Q3_usia = quantile(`Usia Pengangguran`, probs = 0.3, na.rm = TRUE)
)
## # A tibble: 1 × 2
##   Q1_usia Q3_usia
##     <dbl>   <dbl>
## 1      27    30.5

Kode berikutnya mencoba menghitung kuartil pertama (Q1) dan kuartil ketiga (Q3), tetapi hasilnya tidak terlihat dalam gambar. Q1 adalah usia di mana 25% dari data berada di bawahnya, dan Q3 adalah usia di mana 75% dari data berada di bawahnya.

Range (Jangkauan)

range_usia_selisih <- diff(range(data$`Usia Pengangguran`, na.rm = TRUE))
range_usia_selisih
## [1] 54

Nilai range adalah 54. Ini dihitung sebagai selisih antara nilai maksimum dan minimum dalam dataset (usia pengangguran tertua - usia termuda). Artinya, usia pengangguran dalam dataset tersebar dalam rentang 54 tahun, yang menunjukkan adanya variasi yang cukup besar.

Standar Deviasi (SD)

sd_usia <- sd(data$`Usia Pengangguran`, na.rm = TRUE)
sd_usia
## [1] 14.83975

Nilai standar deviasi adalah 14.84. Standar deviasi mengukur seberapa jauh data tersebar dari nilai rata-rata (mean). Dengan SD sebesar 14.84, ini menunjukkan bahwa usia pengangguran memiliki variasi yang cukup tinggi, dengan banyak nilai yang tersebar jauh dari rata-rata (39.75 tahun, berdasarkan hasil sebelumnya). Jika distribusi usia mengikuti pola normal, sekitar 68% data akan berada dalam ±14.84 tahun dari rata-rata (sekitar usia 25 hingga 54 tahun).

Variasi Data

variasi_usia <- var(data$`Usia Pengangguran`, na.rm = TRUE)
variasi_usia
## [1] 220.2183