Pendidikan merupakan salah satu bidang yang sangat penting bagi keberlangsungan hidup umat manusia. Pendidikan dapat menghantarkan dunia ke arah yang lebih baik. Namun masih banyak sekali kekurangan dan ketimpangan pendidikan di dunia. Hal ini dipengaruhi oleh banyak faktor yang dihadapi oleh masing-masing negara.
Dataset “World Educational Data” yang dibuat oleh NIDULA ELGIRIYEWITHANA berisi informasi-informasi terkait pendidikan dunia yang dapat kita manfaatkan untuk melihat bagaimana kondisi pendidikan di dunia dan menyiapkan langkah-langkah terbaik untuk mengatasi masalah-masalah yang ada.
Pada dataset tersebut, tersedia data untuk hampir seluruh negara di dunia. Namun untuk keperluan analisis yang mungkin lebih berguna, mari kita lihat data untuk negara Asia Tenggara.
Sebelum kita memulai eksplorasi data, kita perlu menyiapkan data tersebut. Kita dapat mendownload data dalam format csv yang kemudian dapat kita import di R.
raw_data <- read.csv("Global_Education.csv")
ed_data <- data.frame(raw_data)
head(ed_data)
## Countries.and.areas Latitude Longitude OOSR_Pre0Primary_Age_Male
## 1 Afghanistan 33.93911 67.709953 0
## 2 Albania 41.15333 20.168331 4
## 3 Algeria 28.03389 1.659626 0
## 4 Andorra 42.50628 1.521801 0
## 5 Angola 11.20269 17.873887 31
## 6 Anguilla 18.22055 63.068615 14
## OOSR_Pre0Primary_Age_Female OOSR_Primary_Age_Male OOSR_Primary_Age_Female
## 1 0 0 0
## 2 2 6 3
## 3 0 0 0
## 4 0 0 0
## 5 39 0 0
## 6 0 0 0
## OOSR_Lower_Secondary_Age_Male OOSR_Lower_Secondary_Age_Female
## 1 0 0
## 2 6 1
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## OOSR_Upper_Secondary_Age_Male OOSR_Upper_Secondary_Age_Female
## 1 44 69
## 2 21 15
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## Completion_Rate_Primary_Male Completion_Rate_Primary_Female
## 1 67 40
## 2 94 96
## 3 93 93
## 4 0 0
## 5 63 57
## 6 0 0
## Completion_Rate_Lower_Secondary_Male Completion_Rate_Lower_Secondary_Female
## 1 49 26
## 2 98 97
## 3 49 65
## 4 0 0
## 5 42 32
## 6 0 0
## Completion_Rate_Upper_Secondary_Male Completion_Rate_Upper_Secondary_Female
## 1 32 14
## 2 76 80
## 3 22 37
## 4 0 0
## 5 24 15
## 6 0 0
## Grade_2_3_Proficiency_Reading Grade_2_3_Proficiency_Math
## 1 22 25
## 2 0 0
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## Primary_End_Proficiency_Reading Primary_End_Proficiency_Math
## 1 13 11
## 2 0 0
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## Lower_Secondary_End_Proficiency_Reading Lower_Secondary_End_Proficiency_Math
## 1 0 0
## 2 48 58
## 3 21 19
## 4 0 0
## 5 0 0
## 6 0 0
## Youth_15_24_Literacy_Rate_Male Youth_15_24_Literacy_Rate_Female Birth_Rate
## 1 74 56 32.49
## 2 99 100 11.78
## 3 98 97 24.28
## 4 0 0 7.20
## 5 0 0 40.73
## 6 0 0 0.00
## Gross_Primary_Education_Enrollment Gross_Tertiary_Education_Enrollment
## 1 104.0 9.7
## 2 107.0 55.0
## 3 109.9 51.4
## 4 106.4 0.0
## 5 113.5 9.3
## 6 0.0 0.0
## Unemployment_Rate
## 1 11.12
## 2 12.33
## 3 11.70
## 4 0.00
## 5 6.89
## 6 0.00
Kita perlu menyiapkan beberapa library untuk memudahkan analisis eksplorasi kita.
library(tidyverse)
## Warning: package 'ggplot2' was built under R version 4.3.2
## Warning: package 'purrr' was built under R version 4.3.2
## Warning: package 'dplyr' was built under R version 4.3.2
## Warning: package 'lubridate' was built under R version 4.3.2
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Sebelum melakukan analisis lebih lanjut kita lakukan pengecekan pada data kita apakah ada data yang kosong (NA) atau tidak.
any(is.na(ed_data))
## [1] FALSE
Terlihat bahwa tidak ada data yang hilang pada data kita.
Kita juga perlu memastikan bahwa tipe data pada data kita sudah sesuai atau belum.
str(ed_data)
## 'data.frame': 202 obs. of 29 variables:
## $ Countries.and.areas : chr "Afghanistan" "Albania" "Algeria" "Andorra" ...
## $ Latitude : num 33.9 41.2 28 42.5 11.2 ...
## $ Longitude : num 67.71 20.17 1.66 1.52 17.87 ...
## $ OOSR_Pre0Primary_Age_Male : int 0 4 0 0 31 14 14 2 52 13 ...
## $ OOSR_Pre0Primary_Age_Female : int 0 2 0 0 39 0 4 2 50 14 ...
## $ OOSR_Primary_Age_Male : int 0 6 0 0 0 0 4 0 9 0 ...
## $ OOSR_Primary_Age_Female : int 0 3 0 0 0 0 1 0 9 0 ...
## $ OOSR_Lower_Secondary_Age_Male : int 0 6 0 0 0 0 1 0 11 2 ...
## $ OOSR_Lower_Secondary_Age_Female : int 0 1 0 0 0 0 2 0 9 3 ...
## $ OOSR_Upper_Secondary_Age_Male : int 44 21 0 0 0 0 14 15 16 10 ...
## $ OOSR_Upper_Secondary_Age_Female : int 69 15 0 0 0 0 12 7 4 6 ...
## $ Completion_Rate_Primary_Male : int 67 94 93 0 63 0 0 91 99 0 ...
## $ Completion_Rate_Primary_Female : int 40 96 93 0 57 0 0 94 99 0 ...
## $ Completion_Rate_Lower_Secondary_Male : int 49 98 49 0 42 0 0 70 95 0 ...
## $ Completion_Rate_Lower_Secondary_Female : int 26 97 65 0 32 0 0 79 99 0 ...
## $ Completion_Rate_Upper_Secondary_Male : int 32 76 22 0 24 0 0 46 69 0 ...
## $ Completion_Rate_Upper_Secondary_Female : int 14 80 37 0 15 0 0 53 79 0 ...
## $ Grade_2_3_Proficiency_Reading : int 22 0 0 0 0 0 0 76 0 94 ...
## $ Grade_2_3_Proficiency_Math : int 25 0 0 0 0 0 0 71 0 70 ...
## $ Primary_End_Proficiency_Reading : int 13 0 0 0 0 0 0 46 0 0 ...
## $ Primary_End_Proficiency_Math : int 11 0 0 0 0 0 0 56 55 64 ...
## $ Lower_Secondary_End_Proficiency_Reading: int 0 48 21 0 0 0 0 48 0 80 ...
## $ Lower_Secondary_End_Proficiency_Math : int 0 58 19 0 0 0 0 31 50 78 ...
## $ Youth_15_24_Literacy_Rate_Male : int 74 99 98 0 0 0 0 99 0 0 ...
## $ Youth_15_24_Literacy_Rate_Female : int 56 100 97 0 0 0 0 100 0 0 ...
## $ Birth_Rate : num 32.5 11.8 24.3 7.2 40.7 ...
## $ Gross_Primary_Education_Enrollment : num 104 107 110 106 114 ...
## $ Gross_Tertiary_Education_Enrollment : num 9.7 55 51.4 0 9.3 ...
## $ Unemployment_Rate : num 11.12 12.33 11.7 0 6.89 ...
Terlihat bahwa tipe data sudah sesuai dengan data, sehingga kita tidak perlu melakukan konversi pada tipe data. Kita dapat melihat ringkasan dari data tersebut.
Kita dapat mengambil data pada negara Asia Tenggara dengan menggunakan filter.
#List negara SEA
sea_country <- c('Brunei', 'Cambodia', 'Indonesia',
'Laos', 'Malaysia', 'Myanmar', 'Philippines',
'Singapore', 'Thailand', 'Vietnam')
sea_df <- ed_data %>%
filter(Countries.and.areas %in% sea_country)
sea_df
## Countries.and.areas Latitude Longitude OOSR_Pre0Primary_Age_Male
## 1 Brunei 4.535277 114.72767 17
## 2 Cambodia 12.565679 104.99096 48
## 3 Indonesia 0.789275 113.92133 8
## 4 Laos 19.856270 102.49550 31
## 5 Malaysia 4.210484 101.97577 1
## 6 Myanmar 21.916221 95.95597 88
## 7 Philippines 12.879721 121.77402 14
## 8 Singapore 1.352083 103.81984 0
## 9 Thailand 15.870032 100.99254 1
## 10 Vietnam 14.058324 108.27720 0
## OOSR_Pre0Primary_Age_Female OOSR_Primary_Age_Male OOSR_Primary_Age_Female
## 1 18 0 0
## 2 44 9 9
## 3 2 3 8
## 4 30 8 9
## 5 1 0 0
## 6 88 0 0
## 7 13 3 3
## 8 0 0 0
## 9 1 0 0
## 10 0 0 0
## OOSR_Lower_Secondary_Age_Male OOSR_Lower_Secondary_Age_Female
## 1 0 0
## 2 12 14
## 3 19 14
## 4 27 28
## 5 15 12
## 6 22 20
## 7 14 7
## 8 0 1
## 9 0 0
## 10 0 0
## OOSR_Upper_Secondary_Age_Male OOSR_Upper_Secondary_Age_Female
## 1 19 16
## 2 0 0
## 3 23 22
## 4 42 46
## 5 41 32
## 6 47 38
## 7 24 17
## 8 0 0
## 9 21 21
## 10 0 0
## Completion_Rate_Primary_Male Completion_Rate_Primary_Female
## 1 0 0
## 2 68 79
## 3 91 92
## 4 84 83
## 5 0 0
## 6 82 84
## 7 89 95
## 8 0 0
## 9 98 99
## 10 96 97
## Completion_Rate_Lower_Secondary_Male Completion_Rate_Lower_Secondary_Female
## 1 0 0
## 2 41 39
## 3 64 59
## 4 54 53
## 5 0 0
## 6 45 45
## 7 75 88
## 8 0 0
## 9 81 92
## 10 81 87
## Completion_Rate_Upper_Secondary_Male Completion_Rate_Upper_Secondary_Female
## 1 0 0
## 2 20 20
## 3 40 37
## 4 32 31
## 5 0 0
## 6 14 19
## 7 74 83
## 8 0 0
## 9 59 72
## 10 50 61
## Grade_2_3_Proficiency_Reading Grade_2_3_Proficiency_Math
## 1 0 0
## 2 0 0
## 3 0 18
## 4 0 0
## 5 0 0
## 6 0 0
## 7 0 0
## 8 97 93
## 9 0 0
## 10 0 0
## Primary_End_Proficiency_Reading Primary_End_Proficiency_Math
## 1 0 0
## 2 50 0
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## 7 0 0
## 8 0 0
## 9 0 0
## 10 55 51
## Lower_Secondary_End_Proficiency_Reading Lower_Secondary_End_Proficiency_Math
## 1 48 52
## 2 8 10
## 3 30 28
## 4 0 0
## 5 54 59
## 6 0 0
## 7 19 19
## 8 89 94
## 9 40 47
## 10 86 81
## Youth_15_24_Literacy_Rate_Male Youth_15_24_Literacy_Rate_Female Birth_Rate
## 1 100 100 14.90
## 2 0 0 22.46
## 3 100 100 18.07
## 4 0 0 23.55
## 5 97 97 16.75
## 6 0 0 17.55
## 7 0 0 20.55
## 8 100 100 8.80
## 9 98 99 10.34
## 10 98 98 16.75
## Gross_Primary_Education_Enrollment Gross_Tertiary_Education_Enrollment
## 1 103.2 31.4
## 2 107.4 13.7
## 3 106.4 36.3
## 4 102.4 15.0
## 5 105.3 45.1
## 6 112.3 18.8
## 7 107.5 35.5
## 8 100.6 84.8
## 9 99.8 49.3
## 10 110.6 28.5
## Unemployment_Rate
## 1 9.12
## 2 0.68
## 3 4.69
## 4 0.63
## 5 3.32
## 6 1.58
## 7 2.15
## 8 4.11
## 9 0.75
## 10 2.01
Terlihat kita berhasil mengambil data terkhusus untuk negara Asia Tenggara.
Dalam data tersebut jelas terdapat beberapa informasi antara lain:
Informasi-informasi ini akan di eksplorasi dari data.
Mari kita melihat angka anak di luar sekolah dari setiap negara. Karena pada data angka ini terbagi menjadi beberapa kolom maka kita perlu melakukan beberapa transformasi sehingga dapat divisualisasikan dengan baik.
#Kolom yang berisi data OOSR
oosr_columns <- c("Countries.and.areas",
"OOSR_Pre0Primary_Age_Male", "OOSR_Pre0Primary_Age_Female",
"OOSR_Primary_Age_Male", "OOSR_Primary_Age_Female",
"OOSR_Lower_Secondary_Age_Male", "OOSR_Lower_Secondary_Age_Female",
"OOSR_Upper_Secondary_Age_Male", "OOSR_Upper_Secondary_Age_Female"
)
#Mengambil Data OOSR
oosr_data <- sea_df %>%
select(all_of(oosr_columns)) %>%
mutate(oosr_pre_primary = OOSR_Pre0Primary_Age_Male + OOSR_Pre0Primary_Age_Female,
oosr_primary = OOSR_Primary_Age_Male + OOSR_Primary_Age_Female,
oosr_lsecondary = OOSR_Lower_Secondary_Age_Male + OOSR_Lower_Secondary_Age_Female,
oosr_usecondary = OOSR_Upper_Secondary_Age_Male + OOSR_Upper_Secondary_Age_Female) %>%
select(Countries.and.areas, oosr_pre_primary, oosr_primary,oosr_lsecondary,oosr_usecondary)
#Melakukan Reshaping Data untuk Visualisasi
melted_oosr <- reshape2::melt(oosr_data)
## Using Countries.and.areas as id variables
#Membuat Stacked Bar Chart
melted_oosr %>% ggplot(aes(x = Countries.and.areas, y = value, fill = variable ))+
geom_col(position = position_stack(reverse= TRUE)) +
guides(fill = guide_legend(reverse=TRUE))
Terlihat bahwa Myanmar merupakan negara dengan angka anak di luar sekolah tertinggi di Asia Tenggara yang paling banyak berasal dari tahapan pendidikan pre-primary atau pre-school . Namun hampir semua anak mendapatkan akses sekolah di tahap primary. Hal ini
Di sisi lain, Vietnam menjadi negara dengan angka anak di luar sekolah terendah di Asia Tenggara yaitu 0. Hal ini menarik untuk kita amati karena angka ini cukup ekstrim. Mari kita cek angka partisipasi kasar vietnam pada data.
#Angka Partispasi Kasar Vietnam
sea_df[sea_df$Countries.and.areas == "Vietnam", "Gross_Primary_Education_Enrollment"]
## [1] 110.6
sea_df[sea_df$Countries.and.areas == "Vietnam", "Gross_Tertiary_Education_Enrollment"]
## [1] 28.5
#Angka Parsipasi Kasar Myanmar
sea_df[sea_df$Countries.and.areas == "Myanmar", "Gross_Primary_Education_Enrollment"]
## [1] 112.3
sea_df[sea_df$Countries.and.areas == "Myanmar", "Gross_Tertiary_Education_Enrollment"]
## [1] 18.8
dan rata-rata di Asia Tenggara untuk Angka Partisipasi Kasar Pendidikan adalah
mean(sea_df$Gross_Primary_Education_Enrollment)
## [1] 105.55
mean(sea_df$Gross_Tertiary_Education_Enrollment)
## [1] 35.84
Angka partisipasi kasar pendidikan di vietnam berada dekat dengan rata-rata negara di Asia Tenggara dan juga Myanmar (untuk primary). Hal ini membuat kita skeptis terhadap angka anak di luar sekolah Vietnam (yaitu 0). Bisa saja ini terjadi karena kesalahan pada pengumpulan data atau penyebab lainnya.
#Agregasi Data berdasarkan jenis kelamin
oosr_jk <- sea_df %>%
mutate(oosr_male = OOSR_Pre0Primary_Age_Male + OOSR_Primary_Age_Male +
OOSR_Lower_Secondary_Age_Male + OOSR_Upper_Secondary_Age_Male,
oosr_female = OOSR_Pre0Primary_Age_Female + OOSR_Primary_Age_Female +
OOSR_Upper_Secondary_Age_Female + OOSR_Lower_Secondary_Age_Female) %>%
select(oosr_male, oosr_female) %>%
colSums()
#Visualisasi Data
barplot(oosr_jk, col = c("skyblue","pink"),
space = 0.05,
xlab="Jenis Kelamin",
ylab="OOSR",
main="Angka Di Luar Sekolah Berdasarkan Jenis Kelamin",
names=c("Laki-Laki","Perempuan"))
Dari visualisasi diatas dapat dilihat bahwa angka di luar sekolah bagi laki-laki lebih tinggi dibandingkan perempuan.
Sekarang mari melihat tingkat kelulusan dari setiap negara di Asia Tenggara.
tk_negara <- sea_df %>%
mutate(tk_primary = Completion_Rate_Primary_Male + Completion_Rate_Primary_Female,
tk_lsecondary = Completion_Rate_Lower_Secondary_Male + Completion_Rate_Lower_Secondary_Female,
tk_usecondary = Completion_Rate_Upper_Secondary_Male + Completion_Rate_Upper_Secondary_Female) %>%
select(Countries.and.areas, tk_primary,tk_lsecondary,tk_usecondary)
head(tk_negara,10)
## Countries.and.areas tk_primary tk_lsecondary tk_usecondary
## 1 Brunei 0 0 0
## 2 Cambodia 147 80 40
## 3 Indonesia 183 123 77
## 4 Laos 167 107 63
## 5 Malaysia 0 0 0
## 6 Myanmar 166 90 33
## 7 Philippines 184 163 157
## 8 Singapore 0 0 0
## 9 Thailand 197 173 131
## 10 Vietnam 193 168 111
Nilai tingkat kelulusan bagi Singapore, Brunei dan Malaysia adalah 0 hal ini mungkin saja terjadi karena memang data tidak tersedia atau penyebab lainnya (sama seperti kasus sebelumnya). Maka kita akan hapus kedua negara itu untuk lebih terfokus pada yang tersedia.
tk_filtered <- tk_negara[(tk_negara$Countries.and.areas!="Brunei")&
(tk_negara$Countries.and.areas!="Malaysia")&
(tk_negara$Countries.and.areas!="Singapore"), ]
head(tk_filtered,7)
## Countries.and.areas tk_primary tk_lsecondary tk_usecondary
## 2 Cambodia 147 80 40
## 3 Indonesia 183 123 77
## 4 Laos 167 107 63
## 6 Myanmar 166 90 33
## 7 Philippines 184 163 157
## 9 Thailand 197 173 131
## 10 Vietnam 193 168 111
Mari kita lihat data tersebut dalam bentuk visualisasi.
#reshaping
melted_tk <- reshape2::melt(tk_filtered)
## Using Countries.and.areas as id variables
melted_tk
## Countries.and.areas variable value
## 1 Cambodia tk_primary 147
## 2 Indonesia tk_primary 183
## 3 Laos tk_primary 167
## 4 Myanmar tk_primary 166
## 5 Philippines tk_primary 184
## 6 Thailand tk_primary 197
## 7 Vietnam tk_primary 193
## 8 Cambodia tk_lsecondary 80
## 9 Indonesia tk_lsecondary 123
## 10 Laos tk_lsecondary 107
## 11 Myanmar tk_lsecondary 90
## 12 Philippines tk_lsecondary 163
## 13 Thailand tk_lsecondary 173
## 14 Vietnam tk_lsecondary 168
## 15 Cambodia tk_usecondary 40
## 16 Indonesia tk_usecondary 77
## 17 Laos tk_usecondary 63
## 18 Myanmar tk_usecondary 33
## 19 Philippines tk_usecondary 157
## 20 Thailand tk_usecondary 131
## 21 Vietnam tk_usecondary 111
#Membuat Stacked Bar Chart
melted_tk %>% ggplot(aes(x = Countries.and.areas, y = value, color = variable, group= variable))+
geom_line()+
labs(title= "Tingkat Kelulusan dan Tingkat Pendidikan",
y = "Tingkat Kelulusan",
x = "Negara")
Terlihat bahwa semakin tinggi tingkat pendidikan maka tingkat kelulusan semakin rendah. Hal ini terjadi di semua negara di Asia Tenggara.
#Agregasi Data berdasarkan jenis kelamin
tk_jk <- sea_df %>%
mutate(tk_male = Completion_Rate_Primary_Male +
Completion_Rate_Lower_Secondary_Male + Completion_Rate_Upper_Secondary_Male,
tk_female =Completion_Rate_Primary_Female +
Completion_Rate_Upper_Secondary_Female + Completion_Rate_Lower_Secondary_Female) %>%
select(tk_male, tk_female) %>%
colSums()
#Visualisasi Data
barplot(tk_jk, col = c("skyblue","pink"),
space=0.05,
xlab="Jenis Kelamin",
ylab="Tingkat Kelulusan",
main="Tingkat Kelulusan Berdasarkan Jenis Kelamin",
names=c("Laki-Laki","Perempuan"))
Perempuan memiliki tingkat kelulusan yang tinggi di Asia Tenggara dibandingkan laki-laki.
Sangat menarik dataset ini menyediakan nilai matematika dan membaca untuk mengukur tingkat pendidikan. Tapi mari kita lihat datanya.
sea_df[,18:23]
## Grade_2_3_Proficiency_Reading Grade_2_3_Proficiency_Math
## 1 0 0
## 2 0 0
## 3 0 18
## 4 0 0
## 5 0 0
## 6 0 0
## 7 0 0
## 8 97 93
## 9 0 0
## 10 0 0
## Primary_End_Proficiency_Reading Primary_End_Proficiency_Math
## 1 0 0
## 2 50 0
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## 7 0 0
## 8 0 0
## 9 0 0
## 10 55 51
## Lower_Secondary_End_Proficiency_Reading Lower_Secondary_End_Proficiency_Math
## 1 48 52
## 2 8 10
## 3 30 28
## 4 0 0
## 5 54 59
## 6 0 0
## 7 19 19
## 8 89 94
## 9 40 47
## 10 86 81
Terdapat banyak data yang menunjukan angka 0. Hal ini terjadi di beberapa analisis sebelumnya. Namun angka yang cukup banyak tersedia ada di Lower Secondary. Sehingga kita dapat setidaknya mendapatkan gambaran terkait keadaan nilai matematika dan membaca.
#Mengambil Kolom yang diperlukan
math_reading_score <- sea_df %>%
filter(Lower_Secondary_End_Proficiency_Reading!=0,
Lower_Secondary_End_Proficiency_Math!=0) %>%
select(Countries.and.areas,Lower_Secondary_End_Proficiency_Reading,Lower_Secondary_End_Proficiency_Math)
head(math_reading_score,8)
## Countries.and.areas Lower_Secondary_End_Proficiency_Reading
## 1 Brunei 48
## 2 Cambodia 8
## 3 Indonesia 30
## 4 Malaysia 54
## 5 Philippines 19
## 6 Singapore 89
## 7 Thailand 40
## 8 Vietnam 86
## Lower_Secondary_End_Proficiency_Math
## 1 52
## 2 10
## 3 28
## 4 59
## 5 19
## 6 94
## 7 47
## 8 81
Mari kita visualisasikan data tersebut untuk melihat gambaran yang lebih baik.
plot(math_reading_score$Lower_Secondary_End_Proficiency_Reading
,math_reading_score$Lower_Secondary_End_Proficiency_Math,
main="Proficiency Matematika VS Proficiency Membaca"
,xlab="Membaca",
ylab="Matematika",
col="darkolivegreen",
pch=19)
Terlihat hubungan yang linear antara kedua proficiency matematika dan proficiency membaca. Mari kita lihat bagaimana model linear dari kedua peubah tersebut.
mr_score <- lm(Lower_Secondary_End_Proficiency_Math~
Lower_Secondary_End_Proficiency_Reading,
data = math_reading_score)
summary(mr_score)
##
## Call:
## lm(formula = Lower_Secondary_End_Proficiency_Math ~ Lower_Secondary_End_Proficiency_Reading,
## data = math_reading_score)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.7702 -2.6464 0.8902 3.0937 4.9605
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.27373 3.07714 0.739 0.488
## Lower_Secondary_End_Proficiency_Reading 0.99414 0.05682 17.496 2.24e-06
##
## (Intercept)
## Lower_Secondary_End_Proficiency_Reading ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.393 on 6 degrees of freedom
## Multiple R-squared: 0.9808, Adjusted R-squared: 0.9776
## F-statistic: 306.1 on 1 and 6 DF, p-value: 2.236e-06
#Koefisien Korelasi
cor(math_reading_score$Lower_Secondary_End_Proficiency_Math,
math_reading_score$Lower_Secondary_End_Proficiency_Reading)
## [1] 0.9903414
Koefisien korelasi mendekati angka 1 artinya terdapat hubungan linear searah yang kuat pada nilai membaca dan matematika. Jika proficiency membaca tinggi maka proficeincy matematika tinggi.
Koefisien determinasi menunjukan angka 0.9808 menunjukan sebanyak 98.08% proficiency matematika dijelaskan oleh proficiency membaca, sisanya oleh faktor lain.
Mari kita lihat data tingkat literasi dari negara Asia Tenggara
sea_df[,"Youth_15_24_Literacy_Rate_Male"]
## [1] 100 0 100 0 97 0 0 100 98 98
sea_df[,"Youth_15_24_Literacy_Rate_Female"]
## [1] 100 0 100 0 97 0 0 100 99 98
Tingkat literasi antara laki-laki dan perempuan hampir sama. Ini mungkin berarti jenis kelamin cenderung tidak memengaruhi tingkat literasi remaja.
Primary education erat kaitannya dengan pendidikan dari SD hingga SMA, sedangkan Tertiary education adalah pendidikan seperti kuliah dan sekolah vokasi.
Mari kita lihat bagaimana keduanya di Asia Tenggara.
primary_tertiary <- c("Gross_Primary_Education_Enrollment",
"Gross_Tertiary_Education_Enrollment")
boxplot(sea_df[,primary_tertiary],
col=c("skyblue","pink"),
main="Primary Vs Tertiary",
xlab="Tingkat Pendidikan",
ylab="Value",
names= c("Primary","Tertiary"))
Dapat dilihat bahwa pendidikan primary lebih tinggi dibandingkan pendidikan tertiary.
korelasi <- select(sea_df,
Gross_Tertiary_Education_Enrollment,
Birth_Rate,
Unemployment_Rate)
head(korelasi,10)
## Gross_Tertiary_Education_Enrollment Birth_Rate Unemployment_Rate
## 1 31.4 14.90 9.12
## 2 13.7 22.46 0.68
## 3 36.3 18.07 4.69
## 4 15.0 23.55 0.63
## 5 45.1 16.75 3.32
## 6 18.8 17.55 1.58
## 7 35.5 20.55 2.15
## 8 84.8 8.80 4.11
## 9 49.3 10.34 0.75
## 10 28.5 16.75 2.01
Mari kita lihat korelasi dari ke 3 peubah tersebut.
#Rename Nama Kolom
colnames(korelasi) <- c("Tertiery_Enroll","Birth_R","Unemploy_R")
#Melihat Korelasi
cor(korelasi)
## Tertiery_Enroll Birth_R Unemploy_R
## Tertiery_Enroll 1.0000000 -0.8372134 0.2703940
## Birth_R -0.8372134 1.0000000 -0.3317679
## Unemploy_R 0.2703940 -0.3317679 1.0000000
Dapat terlihat bahwa pendidikan tertiery akan semakin menurun jika angka kelahiran terus menaik. Hal ini didapat dari nilai korelasi -0.8372134 di matriks korelasi yang telah disajikan diatas.
Dataset ini memberikan banyak informasi terkait pendidikan di dunia. Tentunya sangat bermanfaat, namun masih banyak sekali data yang memiliki nilai 0 dan ini sepertinya disebabkan karena data memang tidak tersedia.
Untuk cakupan wilayah Asia Tenggara kita bisa mendapatkan beberapa insight terkait pendidikan di wilayah Asia Tenggara. Namun, karena memang ada beberapa data yang tidak tersedia, kita sulit melihat kondisi pendidikan secara general dengan baik.
Selain itu dataset ini tidak dilengkapi dengan satuan bagi setiap peubahnya sehingga akan sulit untuk membuat interpretasi untuk kedepannya. Informasi yang dapat disajikan terbatas di angkanya saja tanpa ada makna.