Kita akan melakukan analisis terhadap angka kelahiran yang ada di indonesia pada tahun 1971 hingga 2020 terhadap kondisi lokasi yang terindikasi angka tinggi kelahiran dan juga sebab akibat lokasi tinggi angka kelahiran.
Data diperoleh dari bps.go.id.
library(dplyr)
library(ggplot2)kelahiran <- read.csv("data_input/angka_kelahiran.csv", sep=";")
glimpse(kelahiran)#> Rows: 35
#> Columns: 7
#> $ PROVINSI <chr> "ACEH", "SUMATERA UTARA", "SUMATERA BARAT", "RIAU", "JAMBI", …
#> $ X1971 <chr> "6,27", "7,2", "6,18", "5,94", "6,39", "6,33", "6,72", "6,36"…
#> $ X1980 <chr> "5,24", "5,94", "5,76", "5,44", "5,57", "5,59", "6,2", "5,75"…
#> $ X1990 <chr> "4,37", "4,29", "3,89", "4,09", "3,76", "4,22", "3,97", "4,05…
#> $ X2000 <chr> "2,81", "3,1", "3,06", "2,77", "2,67", "2,88", "2,68", "2,65"…
#> $ X2010 <chr> "2,79", "3,01", "2,91", "2,82", "2,51", "2,56", "2,51", "2,45…
#> $ X2020 <chr> "2,42", "2,48", "2,46", "2,28", "2,28", "2,23", "2,3", "2,28"…
kelahiran_clean <- kelahiran %>%
mutate_all(~gsub(",",".", .)) %>%
mutate_all(~gsub("-","", .)) %>%
mutate_all(~ifelse(. == "", NA, .)) %>%
setNames(c("provinsi", 1971, 1980, 1990, 2000, 2010, 2020))colSums(is.na(kelahiran_clean))#> provinsi 1971 1980 1990 2000 2010 2020
#> 0 8 8 8 4 1 0
Berdasarkan study case yang dilakukan, missing value akan diganti dengan 0 agar data tidak bias dan tidak mengurangi jumlah data yang terbatas.
kelahiran_clean <- kelahiran_clean %>%
mutate_all(~ifelse(is.na(.), 0, .))
kelahiran_clean <- kelahiran_clean %>%
mutate_at(vars(`1971`, `1980`, `1990`, `2000`, `2010`, `2020`), as.numeric)
anyNA(kelahiran_clean)#> [1] FALSE
Pengecekan tipe data setelah dilakukan pengubahan tipe data.
glimpse(kelahiran_clean)#> Rows: 35
#> Columns: 7
#> $ provinsi <chr> "ACEH", "SUMATERA UTARA", "SUMATERA BARAT", "RIAU", "JAMBI", …
#> $ `1971` <dbl> 6.27, 7.20, 6.18, 5.94, 6.39, 6.33, 6.72, 6.36, 0.00, 0.00, 5…
#> $ `1980` <dbl> 5.24, 5.94, 5.76, 5.44, 5.57, 5.59, 6.20, 5.75, 0.00, 0.00, 3…
#> $ `1990` <dbl> 4.37, 4.29, 3.89, 4.09, 3.76, 4.22, 3.97, 4.05, 0.00, 0.00, 2…
#> $ `2000` <dbl> 2.81, 3.10, 3.06, 2.77, 2.67, 2.88, 2.68, 2.65, 2.60, 0.00, 1…
#> $ `2010` <dbl> 2.79, 3.01, 2.91, 2.82, 2.51, 2.56, 2.51, 2.45, 2.54, 2.38, 1…
#> $ `2020` <dbl> 2.42, 2.48, 2.46, 2.28, 2.28, 2.23, 2.30, 2.28, 2.24, 2.21, 1…
kelahiran_clean %>%
select(-provinsi) %>%
boxplot()outlier hanya berupa data missing value yang kita ubah menjadi 0 dan tidak akan akan dihapus mengingat jumlah data yang terbatas untuk melakukan analisis.
Kita bisa melakukan analisis observasi dalam menentukan bagaimana kondisi lokasi terkait angka kelahiran yang ada di indonesia.
kelahiran_long <- kelahiran_clean %>%
tidyr::gather(key = "tahun",
value = "nilai",
-provinsi) %>%
mutate(tahun = as.numeric(tahun))kelahiran_long %>%
filter(nilai != 0 & provinsi != "INDONESIA") %>%
ggplot(aes(x = tahun,
y = nilai,
color = provinsi)) +
geom_line() +
labs(title = "Line Plot of Kelahiran Rate",
x = "Year",
y = "Kelahiran Rate",
color = "Provinsi") +
theme_minimal() +
theme(legend.position = "none")seperti yang kita lihat, untuk perkembangan angka kelahiran pertahunnya untuk seluruh provinsi yang ada di indonesia menunjukkan bahwa tingkat angka kelahiran terus menurun dari 1970 hingga tahun 2000 dan sedikit meningkat kembali hingga 2010 lalu trend kembali menurun hingga 2020.
Apakah hal tersebut valid? Untuk mengetahuinya mari kita cek.
kelahiran_long %>%
mutate(tahun = as.factor(tahun)) %>%
filter(provinsi == "INDONESIA") %>%
ggplot(aes(x = tahun,
y = nilai,
fill = nilai)) +
geom_bar(stat = "identity") +
geom_text(aes(label = nilai), nudge_y = 0.2) +
labs(title = "Tingkat Kelahiran di Indonesia",
x = "Tahun",
y = "Tingkat Kelahiran") +
theme_minimal() +
theme(legend.position = "none")Ternyata valid. Tingkat kelahiran sangat tinggi pada 1971 dengan tingkat kelahiran mencapai 5.61.
kelahiran_long %>%
filter(provinsi != "INDONESIA") %>%
select(-tahun) %>%
group_by(provinsi) %>%
summarise(total_kelahiran = sum(nilai)) %>%
arrange(desc(total_kelahiran)) %>%
ggplot(aes(y = reorder(provinsi, total_kelahiran),
x = total_kelahiran,
fill = total_kelahiran)) +
geom_bar(stat = "identity") +
geom_text(aes(label = round(total_kelahiran)), nudge_x = 0.6)+
labs(title = "Lokasi dengan tingkat kelahiran tinggi",
y = "Provinsi",
x = "Tingkat Kelahiran") +
theme_minimal() +
theme(legend.position = "none")Dari data diatas, secara keseluruhan dari tahun 1970 hingga 2020 dapat dilihat bahwa Maluku, Sulawesi Tenggara, Papua` menempati posisi tertinggi dari angka kelahiran.
kelahiran_long %>%
filter(provinsi != "Indonesia" & tahun >= 2010) %>%
group_by(provinsi) %>%
summarise(total_kelahiran = sum(nilai)) %>%
arrange(desc(total_kelahiran)) %>%
ggplot(aes(x = total_kelahiran,
y = reorder(provinsi, total_kelahiran),
fill = total_kelahiran)) +
geom_bar(stat = "identity") +
geom_text(aes(label = total_kelahiran), nudge_x = 0.3) +
labs(title = "Lokasi dengan tingkat kelahiran tinggi pada tahun 2010",
y = "Provinsi",
x = "Tingkat Kelahiran") +
theme_minimal() +
theme(legend.position = "none")Pada tahun 2010 keatas, tingkat kelahiran tertinggi dipegang oleh NTT, Maluku, dan Sulawesi Barat.
Seperti yang kita lihat, untuk perkembangan angka kelahiran pertahunnya untuk seluruh provinsi yang ada di indonesia menunjukkan bahwa tingkat angka kelahiran terus menurun dari 1970 hingga tahun 2000 dan sedikit meningkat kembali hingga 2010 lalu trend kembali menurun hingga 2020.
apa alasan hal tersebut terjadi di Indonesia? Beberapa faktor berikut mungkin mempengaruhi hal tersebut terjadi.
Dari data perdaerah, secara keseluruhan dari tahun 1970 hingga 2020 dapat dilihat bahwa Maluku, Sulawesi Tenggara, Papua menempati posisi tertinggi dari angka kelahiran.
Provinsi-provinsi seperti Maluku, Sulawesi Tenggara, Papua memiliki angka kelahiran yang tinggi mungkin karena kombinasi faktor budaya, agama, akses terhadap pelayanan kesehatan dan edukasi tentang perencanaan keluarga, serta kondisi sosial-ekonomi. Tradisi keluarga besar, akses terbatas terhadap kontrasepsi, dan struktur usia penduduk yang mayoritas muda juga dapat mempengaruhi tingkat kelahiran di wilayah-wilayah ini. Penelitian lebih lanjut diperlukan untuk memahami secara lebih mendalam faktor-faktor spesifik yang berkontribusi terhadap tingginya angka kelahiran di provinsi-provinsi tersebut.