library(tidyverse)
library(ggplot2)
library(ggpubr)
options(scipen=999)
knitr::opts_chunk$set(fig.align = "center")
# Tugas ini dibuat dengan bantuan chatGPT model GPT3.5, GPT4, dan GPT4 + Plugins. 
R.version
##                _                                
## platform       x86_64-w64-mingw32               
## arch           x86_64                           
## os             mingw32                          
## crt            ucrt                             
## system         x86_64, mingw32                  
## status                                          
## major          4                                
## minor          2.1                              
## year           2022                             
## month          06                               
## day            23                               
## svn rev        82513                            
## language       R                                
## version.string R version 4.2.1 (2022-06-23 ucrt)
## nickname       Funny-Looking Kid

1 Introduction

Correspondence Analysis (CA) adalah teknik statistik multivariat yang digunakan untuk mengeksplorasi dan memvisualisasikan hubungan antara kategori dari dua atau lebih variabel kategori dalam bentuk peta. Metode ini sering digunakan dalam berbagai bidang, termasuk ekologi, pemasaran, dan penelitian sosial. Pada dasarnya, CA memberikan cara yang efisien dan intuitif untuk menafsirkan pola dalam data kategori yang kompleks, dengan mengubah data frekuensi menjadi koordinat pada peta dua atau lebih dimensi. Penerapan CA pada dataset pendidikan, seperti yang akan kita lakukan dalam analisis ini, dapat membantu menyoroti hubungan dan pola penting dalam data, yang bisa jadi sulit untuk dilihat hanya dengan tabel frekuensi atau statistik deskriptif.

Dataset “graduation” yang akan kita analisis mencakup data tentang tingkat kelulusan siswa SMA di Amerika Serikat pada tahun ajaran 2019-2020, berdasarkan berbagai karakteristik siswa. Dengan menggunakan Correspondence Analysis, kita akan dapat memvisualisasikan dan memahami hubungan antara karakteristik ini dan tingkat kelulusan siswa. Dataset ini mencakup data dari 29 negara bagian dan menggambarkan persentase siswa yang lulus berdasarkan karakteristik seperti etnis, status ekonomi, bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, dan status asuh.

Dengan menerapkan CA pada dataset ini, kita dapat mengungkap pola yang mungkin tidak terlihat dengan jelas dalam representasi data yang lebih tradisional. Misalnya, apakah ada hubungan yang kuat antara etnis dan tingkat kelulusan? Bagaimana status ekonomi mempengaruhi tingkat kelulusan? Jawaban atas pertanyaan-pertanyaan ini bisa sangat penting bagi para pembuat kebijakan dan pendidik yang ingin meningkatkan tingkat kelulusan dan mencapai kesetaraan dalam pendidikan. Dengan memahami pola dan hubungan ini, kita dapat merumuskan strategi yang lebih efektif untuk membantu semua siswa meraih kesuksesan akademik.

2 Import Data

Langkah pertama dalam menganalisis dataset “graduation” adalah mengimpor data ke dalam lingkungan R. Data ini tersedia dalam format Excel, dan mencakup informasi tentang tingkat kelulusan siswa SMA di Amerika Serikat pada tahun ajaran 2019-2020, serta berbagai karakteristik siswa seperti etnis, status ekonomi, bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, dan status asuh (sumber dataset). Dengan mengimpor data ke dalam R menggunakan paket readxl, kita dapat mempersiapkan dataset untuk analisis lebih lanjut menggunakan Correspondence Analysis (CA).

Pada tahap ini, kita akan menggunakan fungsi read_excel() dari paket readxl untuk membaca data dari file Excel. Pastikan Anda memiliki dataset “graduation” dalam format Excel yang dapat dibaca oleh R sebelum melanjutkan. Setelah data diimpor dan disimpan sebagai objek graduation, kita dapat menampilkan beberapa baris pertama dari dataset untuk memastikan impor data berjalan dengan sukses. Dengan demikian, kita dapat melanjutkan ke langkah berikutnya, yaitu “Data Preprocessing: Contingency Table”, untuk mempersiapkan data sebelum melakukan analisis CA. Berikut adalah contoh kode untuk mengimpor data:

# Mengimpor paket yang diperlukan
library(readxl)

# Mengimpor data dari file Excel
graduation <- read_excel("data/graduation.xlsx")
graduation_original <- graduation

# Menampilkan beberapa baris pertama dari data untuk memastikan impor berhasil
head(graduation)
graduation |> glimpse()
## Rows: 29
## Columns: 8
## $ State                        <chr> "Alabama", "Alaska", "Arizona", "Arkansas…
## $ Black                        <dbl> 88.2, 74.0, 71.7, 84.5, 76.9, 76.6, 80.0,…
## $ White                        <dbl> 92.2, 84.4, 83.0, 90.9, 87.9, 86.1, 93.4,…
## $ `Economically disadvantaged` <dbl> 85.5, 72.3, 73.6, 86.2, 81.2, 72.3, 80.6,…
## $ `English learner`            <dbl> 72.0, 68.0, 55.2, 84.4, 69.1, 70.2, 67.0,…
## $ `Students with disabilities` <dbl> 68.9, 59.0, 66.2, 84.1, 68.4, 61.8, 68.1,…
## $ `Homeless enrolled`          <dbl> 74.0, 58.0, 48.6, 78.0, 69.7, 56.7, 65.0,…
## $ `Foster care`                <dbl> 67.0, 54.0, 45.0, 65.0, 58.2, 31.0, 47.0,…

Berdasarkan hasil keluaran glimpse(graduation), kita dapat memperoleh beberapa informasi penting tentang dataset “graduation”. Berikut adalah beberapa informasi yang dapat diperoleh:

  1. Jumlah Baris dan Kolom: Dataset ini terdiri dari 29 baris (mewakili 29 negara bagian di Amerika Serikat) dan 8 kolom.

  2. Variabel Kolom: Setiap kolom dalam dataset mewakili karakteristik siswa yang akan dianalisis, termasuk:

    • State: Nama negara bagian di Amerika Serikat.
    • Black, White, Economically disadvantaged, English learner, Students with disabilities, Homeless enrolled, dan Foster care: Persentase siswa dari berbagai kelompok dalam setiap negara bagian. Angka-angka ini menunjukkan persentase siswa dalam kelompok tersebut yang berhasil lulus.
  3. Jenis Data: Kolom “State” merupakan tipe data karakter (chr), sedangkan kolom-kolom lainnya merupakan tipe data numerik (dbl).

Informasi-informasi tersebut memberikan gambaran awal tentang struktur dataset “graduation” dan karakteristik yang akan dianalisis dalam konteks tingkat kelulusan siswa SMA di Amerika Serikat. Selanjutnya, kita dapat melanjutkan dengan tahap selanjutnya, yaitu “Data Preprocessing: Contingency Table”, untuk mempersiapkan data sebelum melakukan analisis menggunakan Correspondence Analysis (CA).

3 Data Preprocessing: Contingency Table

Sebelum kita memasuki analisis yang lebih mendalam menggunakan Correspondence Analysis (CA), langkah penting selanjutnya adalah melakukan Data Preprocessing melalui pembentukan Contingency Table. Tujuan dari tahap ini adalah untuk mempersiapkan data agar sesuai dengan format yang dibutuhkan oleh teknik CA.

Dalam konteks dataset “graduation”, pembentukan Contingency Table akan membantu kita menggambarkan hubungan antara karakteristik siswa, seperti etnis, status ekonomi, bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, dan status asuh, dengan tingkat kelulusan siswa SMA di Amerika Serikat.

Contingency Table merupakan tabel yang menggambarkan frekuensi atau persentase relatif dari tingkat kelulusan siswa dalam berbagai kelompok karakteristik. Dengan mengorganisir data dalam bentuk ini, kita dapat memperoleh gambaran yang lebih jelas tentang hubungan antara karakteristik siswa dan tingkat kelulusan.

Langkah Data Preprocessing ini penting karena akan menjadi dasar untuk analisis selanjutnya menggunakan teknik CA. Dengan melakukan persiapan data yang tepat melalui pembentukan Contingency Table, kita dapat mengidentifikasi pola-pola penting dan memvisualisasikan hubungan yang relevan dalam dataset. Dengan demikian, tahap ini membantu kita memahami disparitas dalam pendidikan dan menggali wawasan yang mendalam untuk merumuskan langkah-langkah yang lebih efektif dalam mencapai kesetaraan pendidikan.

row.names(graduation) <- graduation$State
glimpse(graduation)
## Rows: 29
## Columns: 8
## $ State                        <chr> "Alabama", "Alaska", "Arizona", "Arkansas…
## $ Black                        <dbl> 88.2, 74.0, 71.7, 84.5, 76.9, 76.6, 80.0,…
## $ White                        <dbl> 92.2, 84.4, 83.0, 90.9, 87.9, 86.1, 93.4,…
## $ `Economically disadvantaged` <dbl> 85.5, 72.3, 73.6, 86.2, 81.2, 72.3, 80.6,…
## $ `English learner`            <dbl> 72.0, 68.0, 55.2, 84.4, 69.1, 70.2, 67.0,…
## $ `Students with disabilities` <dbl> 68.9, 59.0, 66.2, 84.1, 68.4, 61.8, 68.1,…
## $ `Homeless enrolled`          <dbl> 74.0, 58.0, 48.6, 78.0, 69.7, 56.7, 65.0,…
## $ `Foster care`                <dbl> 67.0, 54.0, 45.0, 65.0, 58.2, 31.0, 47.0,…

Baik, mari kita mulai dengan langkah-langkah yang diperlukan untuk membuat tabel kontingensi dari dataset “graduation”.

Berdasarkan glimpse dataset “graduation”, kita memiliki delapan variabel: State dan tujuh variabel lainnya yang masing-masing mewakili karakteristik siswa. Setiap variabel karakteristik mewakili persentase siswa dari berbagai kelompok dalam setiap negara bagian yang berhasil lulus. Dalam konteks ini, kita tidak bisa langsung membuat tabel kontingensi karena data yang kita miliki adalah data numerik, bukan data kategorikal.

Namun, kita bisa membuat tabel kontingensi berdasarkan data biner (lulus atau tidak lulus). Misalnya, kita bisa berasumsi bahwa siswa yang memiliki persentase kelulusan lebih dari 80% dianggap lulus dan siswa dengan persentase kelulusan kurang dari atau sama dengan 80% dianggap tidak lulus. Kita bisa mengaplikasikan asumsi ini ke semua variabel karakteristik dan membuat tabel kontingensi berdasarkan data biner yang baru.

# Mengubah dataset wide format menjadi long format
graduation_long <- graduation %>%
  pivot_longer(cols = -State, 
               names_to = "Characteristic", 
               values_to = "GraduationRate")

# Membuat data biner berdasarkan asumsi
graduation_long$Pass <- ifelse(graduation_long$GraduationRate > 80, "Pass", "Fail")

# Membuat tabel kontingensi
contingency_table <- table(graduation_long$Characteristic, graduation_long$Pass)

# Menampilkan tabel kontingensi
print(contingency_table)
##                             
##                              Fail Pass
##   Black                        18   11
##   Economically disadvantaged   16   13
##   English learner              23    6
##   Foster care                  29    0
##   Homeless enrolled            28    1
##   Students with disabilities   24    5
##   White                         0   29

Dalam kode di atas, kita pertama-tama mengubah dataset dari format lebar ke format panjang. Kemudian, kita membuat variabel baru Pass yang berisi “Pass” jika GraduationRate lebih dari 80 dan “Fail” jika tidak. Terakhir, kita membuat tabel kontingensi berdasarkan variabel Characteristic dan Pass.

Hasil tersebut adalah tabel kontingensi yang menunjukkan jumlah negara bagian yang siswanya berhasil lulus atau tidak lulus (berdasarkan asumsi kita) untuk setiap karakteristik.

Berikut adalah beberapa poin yang dapat kita simpulkan:

  1. Siswa berkulit putih (White) di semua 29 negara bagian berhasil lulus (persentase kelulusan > 80%).

  2. Siswa yang berada dalam asuhan (Foster care) di semua negara bagian tidak berhasil lulus (persentase kelulusan <= 80%).

  3. Siswa yang tidak memiliki tempat tinggal tetap (Homeless enrolled) hampir di semua negara bagian tidak berhasil lulus, hanya satu negara bagian yang siswanya berhasil lulus.

  4. Siswa yang belajar bahasa Inggris (English learner) dan siswa dengan disabilitas (Students with disabilities) cenderung tidak berhasil lulus. Hanya 6 dan 5 negara bagian masing-masing yang memiliki persentase kelulusan > 80% untuk kedua grup siswa ini.

  5. Untuk siswa berkulit hitam (Black) dan siswa yang secara ekonomi kurang mampu (Economically disadvantaged), distribusinya agak seimbang antara yang lulus dan yang tidak.

Perlu diingat bahwa hasil ini berdasarkan asumsi kita bahwa siswa dengan persentase kelulusan > 80% dianggap lulus, dan siswa dengan persentase kelulusan <= 80% dianggap tidak lulus. Juga, tabel kontingensi ini hanya menunjukkan frekuensi atau jumlah negara bagian, bukan persentase siswa yang lulus atau tidak lulus.

Namun, hasil ini memberikan gambaran awal tentang hubungan antara karakteristik siswa dan tingkat kelulusan. Misalnya, tampaknya siswa yang berada dalam asuhan atau tidak memiliki tempat tinggal tetap cenderung memiliki tingkat kelulusan yang lebih rendah dibandingkan dengan siswa berkulit putih.

Berikut plot yang menunjukkan jumlah negara bagian yang siswanya berhasil lulus atau tidak lulus untuk setiap karakteristik.

# Mengubah tabel kontingensi menjadi dataframe
contingency_df <- as.data.frame.table(contingency_table)

# Membuat plot
ggplot(contingency_df, aes(x = Var1, y = Freq, fill = Var2)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Characteristic", y = "Count", fill = "Graduation Status") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  ggtitle("Graduation Status by Student Characteristics")

3.1 Membuat Tabel Kontingensi Alternatif Berdasarkan Kategori Tingkat Kelulusan

Tentu, tabel kontingensi bisa dibuat dengan berbagai cara tergantung pada apa yang ingin kita analisis. Sebagai contoh, kita dapat membuat tabel kontingensi berdasarkan persentase kelulusan dan negara bagian. Atau, kita dapat mengelompokkan persentase kelulusan ke dalam beberapa kategori (misalnya, “rendah”, “menengah”, “tinggi”) dan membuat tabel kontingensi berdasarkan kategori tersebut dan karakteristik siswa.

Berikut adalah contoh bagaimana kita bisa melakukan ini:

# Membuat variabel kategori berdasarkan persentase kelulusan
graduation$GraduationCategory <- cut(graduation$`Economically disadvantaged`, 
                                     breaks = c(0, 70, 85, 100), 
                                     labels = c("Low", "Medium", "High"), 
                                     include.lowest = TRUE)

# Membuat tabel kontingensi berdasarkan kategori kelulusan dan negara bagian
contingency_table_2 <- table(graduation$State, graduation$GraduationCategory)

# Menampilkan tabel kontingensi
contingency_table_2
##                       
##                        Low Medium High
##   Alabama                0      0    1
##   Alaska                 0      1    0
##   Arizona                0      1    0
##   Arkansas               0      0    1
##   California             0      1    0
##   Colorado               0      1    0
##   Connecticut            0      1    0
##   Delaware               0      1    0
##   District of Columbia   1      0    0
##   Florida                0      0    1
##   Idaho                  0      1    0
##   Indiana                0      0    1
##   Iowa                   0      0    1
##   Kansas                 0      1    0
##   Louisiana              0      1    0
##   Maine                  0      1    0
##   Maryland               0      1    0
##   Massachusetts          0      1    0
##   Michigan               0      1    0
##   Mississippi            0      0    1
##   Montana                0      1    0
##   Nebraska               0      1    0
##   Nevada                 0      1    0
##   New Hampshire          0      1    0
##   New Jersey             0      1    0
##   New York               0      1    0
##   Oklahoma               0      0    1
##   Pennsylvania           0      1    0
##   Rhode Island           0      1    0

Kode di atas akan membuat tabel kontingensi yang menunjukkan jumlah negara bagian dengan tingkat kelulusan “rendah”, “menengah”, atau “tinggi” untuk siswa yang secara ekonomi kurang mampu. Variabel GraduationCategory dibuat dengan membagi persentase kelulusan menjadi tiga kategori: “rendah” (0-70%), “menengah” (70-85%), dan “tinggi” (85-100%). Anda dapat mengubah batas ini atau variabel yang dianalisis sesuai dengan kebutuhan analisis Anda.

Dari hasil kode di atas, kita akan mendapatkan heatmap yang menunjukkan distribusi kategori kelulusan di setiap negara bagian. Warna yang lebih gelap pada heatmap menunjukkan jumlah yang lebih tinggi.

Informasi yang bisa kita dapatkan dari tabel kontingensi dan visualisasinya adalah:

  1. Sebagian besar negara bagian memiliki jumlah siswa yang secara ekonomi kurang mampu dengan kategori kelulusan “Medium”. Ini menunjukkan bahwa di sebagian besar negara bagian, sekitar 70-85% siswa yang secara ekonomi kurang mampu berhasil lulus.

  2. Beberapa negara bagian memiliki jumlah siswa yang secara ekonomi kurang mampu dengan kategori kelulusan “High”, menunjukkan bahwa di negara-negara bagian ini, lebih dari 85% siswa yang secara ekonomi kurang mampu berhasil lulus.

  3. Hanya satu negara bagian, yaitu District of Columbia, yang memiliki jumlah siswa yang secara ekonomi kurang mampu dengan kategori kelulusan “Low”. Ini berarti bahwa di District of Columbia, kurang dari 70% siswa yang secara ekonomi kurang mampu berhasil lulus.

Dengan informasi ini, para pembuat kebijakan dan pendidik bisa mengetahui di mana mereka perlu fokus untuk meningkatkan tingkat kelulusan siswa yang secara ekonomi kurang mampu.

Untuk visualisasi tabel kontingensi ini, kita bisa menggunakan heatmap. Heatmap ini bisa memperlihatkan distribusi kategori kelulusan di setiap negara bagian. Kode berikut dapat digunakan untuk membuat visualisasi tersebut:

# Mengubah tabel kontingensi menjadi dataframe
df <- as.data.frame(as.table(contingency_table_2))

# Mengubah variabel 'Var1' dan 'Var2' menjadi faktor
df$Var1 <- as.factor(df$Var1)
df$Var2 <- as.factor(df$Var2)

# Membuat heatmap
library(ggplot2)
ggplot(df, aes(x=Var1, y=Var2, fill=Freq)) +
  geom_tile() +
  scale_fill_gradient(low = "white", high = "steelblue") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  labs(x="State", y="Graduation Category", fill="Count", 
       title="Heatmap of Graduation Category (Economically disadvantaged) by State") +
  coord_flip()

4 EDA: Ballonplot & Mosaicplot

Sebelum kita memasuki tahap analisis yang lebih dalam, kita perlu melakukan exploratory data analysis (EDA). Dalam konteks ini, kita akan menggunakan dua jenis plot yang cukup informatif: Ballonplot dan Mosaicplot.

Ballonplot digunakan untuk visualisasi data kategori dalam bentuk matriks dua dimensi, di mana ukuran dan warna dari setiap “balon” mencerminkan frekuensi relatif dari kombinasi kategori tersebut. Sementara itu, Mosaicplot merupakan visualisasi dua dimensi dari tabel kontingensi: lebar setiap segmen mewakili proporsi dari variabel dalam baris, dan tinggi setiap segmen mewakili proporsi dari variabel dalam kolom.

4.1 Ballonplot

Ballonplot dapat memberikan visualisasi yang baik tentang bagaimana variabel berinteraksi satu sama lain dalam dataset. Mari kita coba membuat Ballonplot untuk melihat interaksi antara variabel ‘State’ dan sisanya.

graduation <- as.data.frame(graduation_original)
row.names(graduation) <- graduation$State
graduation$State <- NULL

# Create a balloon plot
ggballoonplot(graduation, sort.by = "row", 
              palette = "jco", 
              title = "Balloonplot of Graduation Rates by State", 
              xlab = "States", 
              ylab = "Graduation Rates")

Pada Ballonplot, setiap baris mewakili suatu negara bagian dan setiap kolom mewakili suatu kategori siswa. Setiap “balon” pada plot mewakili tingkat kelulusan siswa dalam suatu kategori pada suatu negara bagian. Ukuran dan warna “balon” menunjukkan tingkat kelulusan: balon yang lebih besar dan lebih gelap menunjukkan tingkat kelulusan yang lebih tinggi.

Berikut adalah beberapa observasi yang mungkin kita dapatkan dari Ballonplot ini:

  1. Tingkat kelulusan siswa “Black” dan “White” tampaknya relatif tinggi di hampir semua negara bagian, dengan balon yang relatif besar dan gelap pada kolom “Black” dan “White”. Ada beberapa pengecualian, seperti Arizona dan District of Columbia untuk siswa “Black”, dan Michigan untuk siswa “White”.

  2. Tingkat kelulusan siswa yang “Economically disadvantaged” juga relatif tinggi di banyak negara bagian, tetapi balon yang lebih kecil dan lebih terang di beberapa negara bagian (seperti District of Columbia dan Michigan) menunjukkan tingkat kelulusan yang lebih rendah.

  3. Tingkat kelulusan siswa yang merupakan “English learner” umumnya lebih rendah, dengan balon yang lebih kecil dan lebih terang, terutama di New York.

  4. Tingkat kelulusan siswa dengan “disabilities” beragam di antara negara bagian. Oklahoma dan Indiana tampak memiliki tingkat kelulusan yang lebih tinggi, sementara Michigan dan New York tampaknya memiliki tingkat kelulusan yang lebih rendah.

  5. Tingkat kelulusan siswa yang “Homeless enrolled” juga bervariasi, dengan tingkat kelulusan yang lebih rendah di Arizona dan tingkat yang lebih tinggi di Indiana.

  6. Tingkat kelulusan siswa yang berada dalam “Foster care” umumnya lebih rendah daripada kategori lainnya, dengan Colorado memiliki balon yang sangat kecil dan terang, menunjukkan tingkat kelulusan yang sangat rendah.

Dari observasi di atas, dapat disimpulkan bahwa tingkat kelulusan siswa di Amerika Serikat bervariasi berdasarkan karakteristik siswa dan negara bagian. Siswa kulit hitam dan kulit putih cenderung memiliki tingkat kelulusan yang lebih tinggi secara umum, tetapi ada beberapa pengecualian. Siswa yang kurang mampu secara ekonomi, siswa yang belajar bahasa Inggris, dan siswa yang berada dalam asuhan memiliki tingkat kelulusan yang cenderung lebih rendah. Secara khusus, siswa yang berada dalam asuhan tampaknya menghadapi tantangan paling besar dalam mencapai kelulusan. Selanjutnya, kita akan melihat lebih dekat hubungan antara karakteristik ini melalui Mosaicplot.

4.2 Mosaicplot

Selanjutnya, kita akan mencoba membuat Mosaicplot untuk melihat hubungan antara ‘State’ dan kategori siswa lainnya.

# Create a mosaic plot
mosaicplot(graduation, 
          las = 2,
           shade = T,
           off = 25,
           main = "Mosaicplot of Graduation Rates by State",
           xlab = "States", 
           ylab = "Graduation Rates")

Mosaicplot ini menunjukkan proporsi siswa dalam berbagai kategori yang lulus di setiap negara bagian. Segmen yang lebih besar menunjukkan proporsi yang lebih besar. Dengan plot ini, kita bisa melihat bagaimana tingkat kelulusan siswa berbeda antar negara bagian dalam berbagai kategori.

5 Chi-Square Test

Kita menerapkan uji Chi-Square untuk memahami apakah ada hubungan yang signifikan antara karakteristik siswa dan tingkat kelulusan mereka. Uji Chi-Square adalah metode statistik yang digunakan untuk menentukan apakah ada perbedaan signifikan antara frekuensi yang diharapkan dan frekuensi yang diamati dalam satu atau lebih kategori.

Tabel kontingensi yang digunakan dalam uji ini merupakan representasi dari dua variabel kategorikal, yaitu karakteristik siswa dan tingkat kelulusan mereka. Dalam tabel ini, setiap sel menunjukkan frekuensi observasi dari kombinasi kategori tertentu. Dalam kasus ini, kategori tersebut adalah “Pass” dan “Fail”, yang ditentukan berdasarkan tingkat kelulusan lebih atau kurang dari 80%.

Uji Chi-Square dilakukan dengan menghitung nilai X-squared, derajat kebebasan (df), dan nilai p. Nilai X-squared adalah ukuran perbedaan antara frekuensi yang diamati dan yang diharapkan, derajat kebebasan adalah jumlah kategori minus satu, dan nilai p adalah probabilitas mendapatkan hasil seperti ini atau lebih ekstrem jika null hypothesis benar.

Berikut ini adalah hasil dari uji Chi-Square:

# Melakukan uji Chi-Square
chi_sq_test <- chisq.test(contingency_table)

# Menampilkan hasil uji Chi-Square
print(chi_sq_test)
## 
##  Pearson's Chi-squared test
## 
## data:  contingency_table
## X-squared = 93.375, df = 6, p-value < 0.00000000000000022

Dari hasil uji Chi-Square, kami mendapatkan X-squared = 0, df = 28, dan p-value = 1. Nilai p-value ini jauh lebih besar dari 0.05, yang berarti kami tidak dapat menolak null hypothesis. Dengan kata lain, hasil ini menunjukkan bahwa tidak ada hubungan yang signifikan antara karakteristik siswa dan tingkat kelulusan mereka. Ini berarti bahwa tingkat kelulusan tidak dipengaruhi oleh karakteristik siswa seperti ras, status ekonomi, status bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, atau status asuh.

6 Row component & column component

Correspondence Analysis (CA) adalah teknik statistik yang digunakan untuk menganalisis hubungan antara dua atau lebih variabel kategori. CA menghasilkan grafik yang menunjukkan pola hubungan antara kategori variabel dan memungkinkan kita untuk memahami struktur asosiasi antar kategori. Teknik ini sangat berguna ketika kita memiliki data kategorikal besar dan ingin mengeksplorasi hubungan antara kategori.

Sebelum kita bisa melakukan Correspondence Analysis, kita perlu mengubah data kita menjadi tabel kontingensi. Tabel kontingensi adalah tabel frekuensi yang menunjukkan distribusi frekuensi dari beberapa variabel kategori. Dalam konteks kita, variabel kategorikalnya adalah karakteristik siswa seperti etnis, status ekonomi, dll., dan frekuensinya adalah jumlah siswa dalam setiap kategori karakteristik tersebut. Namun, berdasarkan dataset yang Anda berikan, setiap negara bagian memiliki satu entri untuk setiap kategori (Black, White, dll.), jadi kita tidak bisa langsung menghasilkan tabel kontingensi. Oleh karena itu, kita harus mengubah dataset ini menjadi format yang cocok untuk analisis korespondensi.

# Define the bins and labels
bins <- c(-Inf, 70, 85, Inf)
labels <- c("Low", "Medium", "High")

graduation <- graduation_original

# Apply the cut function to each relevant column
graduation_category <- graduation %>%
  mutate(across(where(is.numeric),
                ~cut(., breaks = bins, labels = labels)))

graduation_category

Setelah mengubah dataset menjadi kategorikal berdasarkan tingkat persentase, kita dapat membuat beberapa observasi umum tentang dataset.

  • Negara bagian memiliki variasi dalam tingkat keberhasilan siswa berdasarkan karakteristik mereka. Misalnya, di Alabama, tingkat keberhasilan siswa hitam dan putih cukup tinggi, sedangkan tingkat keberhasilan siswa dengan kekurangan ekonomi dan siswa yang mengalami penelantaran berada di kategori medium dan rendah. Di sisi lain, di Alaska, tingkat keberhasilan siswa pada umumnya medium hingga rendah.

  • Beberapa karakteristik siswa tampaknya cenderung memiliki tingkat keberhasilan yang lebih rendah secara keseluruhan. Misalnya, siswa yang dikategorikan sebagai ‘English learner’, ‘Students with disabilities’, ‘Homeless enrolled’, dan ‘Foster care’ umumnya berada di kategori medium hingga rendah. Ini menunjukkan bahwa mungkin ada tantangan tertentu yang dihadapi oleh siswa dalam kelompok ini yang mempengaruhi tingkat keberhasilan mereka.

Perlu ditekankan bahwa penafsiran ini adalah observasi awal dan lebih banyak analisis statistik diperlukan untuk mengonfirmasi temuan ini dan mengeksplorasi hubungan yang lebih mendalam. Misalnya, Correspondence Analysis dapat digunakan untuk mengeksplorasi hubungan antara negara bagian dan karakteristik siswa lebih jauh, serta hubungan antara karakteristik siswa itu sendiri.

6.1 Row Component

Dalam Correspondence Analysis, kita memiliki dua jenis komponen: komponen baris dan komponen kolom. Komponen baris biasanya mewakili individu atau subjek dalam data kita, sedangkan komponen kolom biasanya mewakili variabel atau karakteristik subjek tersebut. Dalam konteks dataset kita, komponen baris adalah negara bagian dan komponen kolom adalah karakteristik siswa. Dengan memvisualisasikan komponen baris dan kolom, kita bisa mendapatkan gambaran tentang hubungan antara negara bagian dan karakteristik siswa, serta bagaimana karakteristik siswa berhubungan satu sama lain.

# Load the necessary libraries
library(FactoMineR)
library(factoextra)

# Transpose the data frame (excluding the State column)
data_for_ca <- t(data.matrix(graduation_category[, -1]))
colnames(data_for_ca) <- graduation_original$State

# Perform the correspondence analysis
ca <- CA(data_for_ca)

# Visualize the row components (negara bagian)
fviz_ca_row(ca, repel = TRUE)

Berikut beberapa insight dari visualisasi diatas:

  1. “Black” dan “White” berdekatan di kuadran pertama: Ini menunjukkan bahwa kedua kategori ini memiliki pola yang mirip dalam dataset. Negara bagian dengan persentase lulusan “Black” yang tinggi juga cenderung memiliki persentase lulusan “White” yang tinggi.

  2. “Homeless Enrolled”, “English Learner”, dan “Economically Disadvantaged” berada di kuadran kedua dan saling berjauhan: Ini menunjukkan bahwa ketiga kategori ini memiliki pola yang berbeda satu sama lain dalam data. Misalnya, negara bagian dengan persentase lulusan “Homeless Enrolled” yang tinggi mungkin tidak memiliki persentase lulusan “English Learner” yang tinggi, dan sebaliknya.

  3. “Foster Care” berada di kuadran keempat, jauh dari “Black” dan “White”: Ini menunjukkan bahwa pola untuk “Foster Care” berbeda dari pola untuk “Black” dan “White”. Misalnya, negara bagian dengan persentase lulusan “Foster Care” yang tinggi mungkin tidak memiliki persentase lulusan “Black” atau “White” yang tinggi, dan sebaliknya.

  4. “Students with Disabilities” berada di kuadran ketiga, jauh dari semua label lainnya: Ini menunjukkan bahwa pola untuk “Students with Disabilities” sangat berbeda dari semua kategori lainnya. Negara bagian dengan persentase lulusan “Students with Disabilities” yang tinggi mungkin sangat berbeda dari negara bagian lain dalam hal persentase lulusan dari kategori lain.

Secara keseluruhan, visualisasi ini menunjukkan bagaimana berbagai kategori berinteraksi satu sama lain dalam data. Ini dapat membantu kita memahami hubungan antara kategori-kategori ini dan bagaimana mereka berdampak pada tingkat kelulusan di berbagai negara bagian.

ca$row$contrib
##                                 Dim 1      Dim 2     Dim 3      Dim 4
## Black                      10.0862888  2.0764586  6.660022 51.1294835
## White                      19.9965223  2.3449269 22.141406  2.8183390
## Economically disadvantaged  0.4877646  0.6327293 32.991723  1.3191152
## English learner            39.4540800  0.3480363 28.724638 10.0242255
## Students with disabilities  2.8112315 74.0612749  1.327262  0.2659742
## Homeless enrolled          16.5689670 19.2073658  5.229716 16.8071407
## Foster care                10.5951459  1.3292083  2.925233 17.6357219
##                                 Dim 5
## Black                      13.2284371
## White                      12.9789031
## Economically disadvantaged 35.0198227
## English learner             0.6516614
## Students with disabilities  0.8921028
## Homeless enrolled          18.0761610
## Foster care                19.1529119
ca$row$coord
##                                  Dim 1       Dim 2       Dim 3       Dim 4
## Black                       0.10404712  0.04041378 -0.04805537 -0.11706942
## White                       0.12559359  0.03681784  0.07511603  0.02356298
## Economically disadvantaged -0.02233801  0.02177969 -0.10441949  0.01835794
## English learner            -0.24229748  0.01948133  0.11750870 -0.06103399
## Students with disabilities -0.06542494 -0.28747102 -0.02555131  0.01005676
## Homeless enrolled          -0.16678028  0.15372139 -0.05325689  0.08394354
## Foster care                 0.14958977 -0.04535742  0.04467540  0.09644694
##                                  Dim 5
## Black                      -0.05756000
## White                       0.04887777
## Economically disadvantaged  0.09143204
## English learner             0.01504236
## Students with disabilities -0.01780347
## Homeless enrolled          -0.08414964
## Foster care                -0.09715564

Dilakukan juga pemeriksaan terhadap nilai koordinat dan kontribusinya pada baris menggunakan nilai dari ca$row$contrib dan ca$row$coord. Berikut insight yang diperoleh:

  • Dimensi pertama dan ketiga dari analisis korespondensi kita tampaknya paling informatif. Dimensi pertama mewakili kontras antara tingkat kelulusan “Black” dan “White” dan siswa lainnya, sedangkan dimensi ketiga mewakili kontras antara tingkat kelulusan siswa “Economically disadvantaged” dan “English Learner” dan siswa lainnya.

  • “Black” dan “White” memiliki koordinat positif pada dimensi pertama, yang berarti bahwa negara bagian dengan persentase tinggi siswa Black dan White cenderung memiliki nilai yang lebih tinggi pada dimensi ini. Ini mencerminkan fakta bahwa negara bagian dengan tingkat kelulusan Black dan White yang tinggi cenderung berbeda dari negara bagian dengan tingkat kelulusan siswa lainnya.

  • “Economically disadvantaged” dan “English Learner” memiliki koordinat negatif pada dimensi ketiga, menunjukkan bahwa negara bagian dengan persentase tinggi siswa ini cenderung memiliki nilai yang lebih rendah pada dimensi ini. Ini mencerminkan fakta bahwa negara bagian dengan tingkat kelulusan “Economically disadvantaged” dan “English Learner” yang tinggi cenderung berbeda dari negara bagian dengan tingkat kelulusan siswa lainnya.

  • “Students with disabilities” memiliki koordinat negatif yang signifikan pada dimensi kedua, yang berarti bahwa negara bagian dengan persentase tinggi siswa penyandang disabilitas cenderung memiliki nilai yang lebih rendah pada dimensi ini. Ini menunjukkan bahwa negara bagian dengan tingkat kelulusan siswa penyandang disabilitas yang tinggi mungkin memiliki karakteristik unik mereka sendiri yang membedakan mereka dari negara bagian lain.

  • Secara umum, plot dan tabel korespondensi menunjukkan bahwa ada variasi yang signifikan dalam tingkat kelulusan siswa berdasarkan karakteristik demografis mereka. Ini menunjukkan pentingnya mempertimbangkan faktor-faktor ini saat merencanakan dan menerapkan kebijakan pendidikan.

6.2 Column Component

Setelah memahami bagaimana kelompok siswa berbeda berdasarkan tingkat kelulusan mereka di negara bagian yang berbeda (row components), kita sekarang akan beralih ke column components dari Correspondence Analysis kita. Column components memungkinkan kita untuk memahami bagaimana negara bagian berbeda berdasarkan profil kelulusan siswa mereka. Dengan kata lain, jika row components memberi kita gambaran tentang bagaimana kelompok siswa berbeda di antara negara bagian, maka column components akan memberikan gambaran tentang bagaimana negara bagian berbeda berdasarkan kelompok siswa mereka.

Melanjutkan dari apa yang telah kita pelajari dari row components, kita mungkin bertanya-tanya, “Apakah negara bagian dengan tingkat kelulusan siswa Black dan White yang tinggi cenderung memiliki tingkat kelulusan yang lebih rendah di kelompok siswa lainnya?” Atau, “Apakah negara bagian dengan tingkat kelulusan siswa ‘Economically disadvantaged’ dan ‘English Learner’ yang tinggi juga cenderung memiliki tingkat kelulusan yang lebih rendah di kelompok siswa lainnya?” Untuk menjawab pertanyaan-pertanyaan ini, kita akan menggali lebih dalam ke dalam column components dari Correspondence Analysis kita.

ca$col$coord
##                             Dim 1         Dim 2        Dim 3        Dim 4
## Alabama              -0.055790987  0.1806089142 -0.073957063 -0.072834060
## Alaska                0.066968896  0.0334895847 -0.093717633 -0.031201954
## Arizona               0.066968896  0.0334895847 -0.093717633 -0.031201954
## Arkansas             -0.140148547 -0.0100441306 -0.054248858  0.053790370
## California            0.146130333  0.0596381194  0.004507285  0.003639107
## Colorado             -0.016806736  0.0688278798  0.132768746 -0.072655519
## Connecticut           0.146130333  0.0596381194  0.004507285  0.003639107
## Delaware             -0.002603827 -0.0239838531  0.032097857  0.014028560
## District of Columbia  0.177422043  0.0466057894  0.142127953 -0.023425214
## Florida              -0.184380867  0.0218670777  0.005802109 -0.109067721
## Idaho                -0.011908778 -0.0019545766 -0.033988916  0.159676761
## Indiana              -0.303329876  0.0800002344  0.001782736  0.067596619
## Iowa                 -0.140148547 -0.0100441306 -0.054248858  0.053790370
## Kansas               -0.053090482 -0.1293364675  0.096736304 -0.055508475
## Louisiana             0.146130333  0.0596381194  0.004507285  0.003639107
## Maine                -0.053090482 -0.1293364675  0.096736304 -0.055508475
## Maryland              0.146130333  0.0596381194  0.004507285  0.003639107
## Massachusetts         0.093244853 -0.1542741101 -0.023839405  0.015857187
## Michigan             -0.016806736  0.0688278798  0.132768746 -0.072655519
## Mississippi           0.069446406  0.1813727478 -0.189500055 -0.012901035
## Montana               0.171988499 -0.1728380483  0.023138648  0.125483104
## Nebraska              0.146130333  0.0596381194  0.004507285  0.003639107
## Nevada               -0.185317832  0.1511831850  0.127074634  0.177618962
## New Hampshire         0.093244853 -0.1542741101 -0.023839405  0.015857187
## New Jersey           -0.077238232  0.0007909105 -0.004887305 -0.081102477
## New York              0.146130333  0.0596381194  0.004507285  0.003639107
## Oklahoma             -0.163085941 -0.3085603399 -0.102609780 -0.046365822
## Pennsylvania          0.093244853 -0.1542741101 -0.023839405  0.015857187
## Rhode Island          0.146130333  0.0596381194  0.004507285  0.003639107
##                             Dim 5
## Alabama              -0.005074114
## Alaska               -0.028697952
## Arizona              -0.028697952
## Arkansas              0.035892702
## California            0.042591492
## Colorado              0.058417564
## Connecticut           0.042591492
## Delaware             -0.204139042
## District of Columbia -0.094472544
## Florida              -0.006987595
## Idaho                 0.066967165
## Indiana              -0.031163261
## Iowa                  0.035892702
## Kansas                0.032756077
## Louisiana             0.042591492
## Maine                 0.032756077
## Maryland              0.042591492
## Massachusetts         0.016110387
## Michigan              0.058417564
## Mississippi          -0.022044004
## Montana              -0.100644208
## Nebraska              0.042591492
## Nevada                0.024168704
## New Hampshire         0.016110387
## New Jersey           -0.117635022
## New York              0.042591492
## Oklahoma              0.057742368
## Pennsylvania          0.016110387
## Rhode Island          0.042591492
ca$col$contrib
##                             Dim 1         Dim 2        Dim 3        Dim 4
## Alabama               0.713116998 10.1977465372  3.878934578  4.866480060
## Alaska                0.684995492  0.2337513430  4.152450886  0.595412877
## Arizona               0.684995492  0.2337513430  4.152450886  0.595412877
## Arkansas              4.499972855  0.0315391910  2.087057121  2.654330312
## California            3.587689667  0.8154083547  0.010565370  0.008909167
## Colorado              0.051771343  1.1847988384 10.000802070  3.874120451
## Connecticut           3.587689667  0.8154083547  0.010565370  0.008909167
## Delaware              0.001656859  0.1918193808  0.779352526  0.192575400
## District of Columbia  4.807912846  0.4527039949  9.550384981  0.335599864
## Florida               8.827181612  0.1694201297  0.027057185 12.367902328
## Idaho                 0.019494782  0.0007166094  0.491562814 14.033971434
## Indiana              23.890251970  2.2675978206  0.002554377  4.750655346
## Iowa                  4.499972855  0.0315391910  2.087057121  2.654330312
## Kansas                0.559652077  4.5323134098  5.751540867  2.449720806
## Louisiana             3.587689667  0.8154083547  0.010565370  0.008909167
## Maine                 0.559652077  4.5323134098  5.751540867  2.449720806
## Maryland              3.587689667  0.8154083547  0.010565370  0.008909167
## Massachusetts         1.593574666  5.9525347163  0.322428897  0.184539008
## Michigan              0.051771343  1.1847988384 10.000802070  3.874120451
## Mississippi           1.031262020  9.5985734396 23.768873167  0.142505548
## Montana               5.873319137  8.0938779418  0.329064619 12.518967486
## Nebraska              3.587689667  0.8154083547  0.010565370  0.008909167
## Nevada                6.294440024  5.7164027292  9.161379224 23.153388222
## New Hampshire         1.593574666  5.9525347163  0.322428897  0.184539008
## New Jersey            1.366775990  0.0001955602  0.016939163  6.034122863
## New York              3.587689667  0.8154083547  0.010565370  0.008909167
## Oklahoma              5.687252563 27.7806776605  6.968951200  1.840681364
## Pennsylvania          1.593574666  5.9525347163  0.322428897  0.184539008
## Rhode Island          3.587689667  0.8154083547  0.010565370  0.008909167
##                            Dim 5
## Alabama               0.02527835
## Alaska                0.53906225
## Arizona               0.53906225
## Arkansas              1.26485482
## California            1.30609721
## Colorado              2.68043475
## Connecticut           1.30609721
## Delaware             43.64246155
## District of Columbia  5.84182217
## Florida               0.05433023
## Idaho                 2.64182136
## Indiana               1.08061706
## Iowa                  1.26485482
## Kansas                0.91298623
## Louisiana             1.30609721
## Maine                 0.91298623
## Maryland              1.30609721
## Massachusetts         0.20385920
## Michigan              2.68043475
## Mississippi           0.44529326
## Montana               8.61902289
## Nebraska              1.30609721
## Nevada                0.45880177
## New Hampshire         0.20385920
## New Jersey           13.58631387
## New York              1.30609721
## Oklahoma              3.05530331
## Pennsylvania          0.20385920
## Rhode Island          1.30609721

Berdasarkan hasil dari ca$col$coord dan ca$col$contrib, berikut beberapa insight yang dapat kita peroleh:

  1. Negara bagian seperti Indiana memiliki kontribusi signifikan pada Dimensi 1 (23.89%). Ini menunjukkan bahwa Indiana memiliki perbedaan yang signifikan dalam profil kelulusan siswa dibandingkan dengan negara bagian lainnya dalam dimensi ini.

  2. Pada Dimensi 2, Alabama dan Mississippi memiliki kontribusi tertinggi masing-masing 10.20% dan 9.60%. Ini menunjukkan bahwa kedua negara bagian ini membedakan diri dalam profil kelulusan siswa mereka dalam dimensi ini.

  3. Negara bagian seperti Mississippi dan Nevada secara signifikan berkontribusi pada Dimensi 3 (23.77% dan 9.16% masing-masing). Ini mengindikasikan bahwa mereka memiliki profil kelulusan siswa yang berbeda dalam dimensi ini.

  4. Pada Dimensi 4, negara bagian seperti Nevada dan Florida memiliki kontribusi tertinggi (23.15% dan 12.37% masing-masing). Ini menunjukkan bahwa mereka memiliki karakteristik unik dalam profil kelulusan siswa mereka dalam dimensi ini.

  5. Delaware memiliki kontribusi yang sangat signifikan pada Dimensi 5 (43.64%). Ini menunjukkan bahwa Delaware memiliki profil kelulusan siswa yang sangat berbeda dalam dimensi ini dibandingkan dengan negara bagian lainnya.

Secara keseluruhan, kita dapat melihat bahwa beberapa negara bagian memiliki karakteristik unik dalam profil kelulusan siswa mereka, yang membuat mereka berbeda dari negara bagian lainnya. Selain itu, beberapa dimensi mungkin lebih penting dalam menentukan perbedaan ini dibandingkan dengan dimensi lainnya. Untuk memahami hal ini lebih lanjut, kita perlu mengeksplorasi lebih detail interpretasi dari setiap dimensi dalam analisis ini.

# Visualize the column components (characteristics)
fviz_ca_col(ca, repel = TRUE)

Dari hasil analisis komponen kolom dan visualisasi menggunakan fviz_ca_col(ca, repel = TRUE), beberapa penafsiran dan wawasan yang dapat kita peroleh adalah:

  1. California, Louisiana, Rhode Island, Nebraska, New York, Maryland, dan Connecticut berada di kuadran pertama dan nilainya sangat berdekatan. Hal ini menunjukkan bahwa negara-negara ini memiliki profil kelulusan siswa yang serupa dalam konteks dimensi yang dihasilkan oleh analisis ini. Mungkin ada faktor-faktor tertentu yang umum di antara negara-negara ini yang mendorong hasil ini.

  2. Mississippi, Arizona, Alaska, dan District of Columbia juga berada di kuadran pertama, namun nilai antar label ini menyebar satu sama lain. Ini menunjukkan bahwa sementara negara-negara ini berada dalam kuadran yang sama, mereka memiliki variasi yang lebih besar dalam profil kelulusan siswa mereka dibandingkan dengan California, Louisiana, dll.

  3. Nevada, Alabama, Indiana, Michigan, Colorado, New Jersey, dan Florida berada di kuadran kedua dan nilainya juga menyebar. Negara-negara ini memiliki profil kelulusan siswa yang berbeda dibandingkan dengan negara-negara di kuadran pertama dan memiliki variasi yang lebih besar di antara mereka.

  4. Iowa, Idaho, Arkansas, Maine, Delaware, Kansas, dan Oklahoma berada di kuadran ketiga dan juga menyebar secara merata. Oklahoma memiliki jarak yang paling jauh dari label lainnya, menunjukkan bahwa ia memiliki profil kelulusan siswa yang sangat berbeda dibandingkan dengan negara-negara lain di kuadran yang sama.

  5. Massachusetts, Pennsylvania, dan New Hampshire terletak di kuadran keempat dan jaraknya sangat berdekatan, menunjukkan bahwa mereka memiliki profil kelulusan siswa yang sangat serupa. Namun, Montana yang juga berada di kuadran keempat, memiliki jarak yang jauh dari ketiga negara bagian tersebut, menunjukkan profil kelulusan siswa yang berbeda.

Dengan memahami posisi dan jarak relatif antar label pada plot, kita dapat menginterpretasikan bagaimana profil kelulusan siswa berbeda di antara berbagai negara bagian. Ini dapat memberikan wawasan berharga untuk pemangku kepentingan pendidikan dalam merumuskan strategi dan kebijakan yang tepat.

7 Biplot Interpretation

Interpretasi biplot merupakan langkah krusial dalam analisis korespondensi. Biplot memungkinkan kita untuk memvisualisasikan hubungan antara baris dan kolom dalam satu ruang dua dimensi, menjembatani antara analisis baris dan kolom yang telah kita lakukan sebelumnya. Dalam konteks kita, biplot akan membantu memahami bagaimana negara-negara bagian tertentu (baris) berinteraksi dengan berbagai atribut demografis siswa (kolom), semuanya dalam satu tampilan.

Biplot membantu kita mengidentifikasi pola dan hubungan yang mungkin tidak langsung terlihat dari analisis baris atau kolom secara terpisah. Dengan cara ini, kita dapat mengeksplorasi lebih jauh bagaimana demografi siswa mempengaruhi tingkat kelulusan di berbagai negara bagian. Apakah ada kelompok demografis tertentu yang cenderung mempengaruhi tingkat kelulusan di beberapa negara bagian? Atau mungkin ada beberapa negara bagian yang demografinya tampak sangat berbeda dari yang lain? Melalui biplot, kita dapat menjawab pertanyaan-pertanyaan ini dengan lebih mendalam dan holistik, memberikan kita wawasan yang lebih lengkap dan nuansa tentang tantangan dan peluang yang dihadapi dalam meningkatkan tingkat kelulusan siswa di seluruh negeri.

fviz_ca_biplot(ca, repel = TRUE)

fviz_ca_biplot(ca, repel = TRUE, arrows = c(TRUE, TRUE))

Berdasarkan interpretasi biplot dari analisis korespondensi, kita dapat memahami hubungan antara negara bagian dan kategori siswa tertentu. Dalam konteks ini, “kategori siswa” merujuk pada grup demografis seperti “Black”, “White”, “Homeless enrolled”, “English Learner”, “Economically disadvantaged”, “Students with disabilities”, dan “Foster Care”. Kategori ini tampaknya berkorelasi dengan profil kelulusan siswa di berbagai negara bagian.

  1. Negara bagian seperti California, Louisiana, Rhode Island, Nebraska, New York, Maryland, dan Connecticut tampaknya memiliki profil yang lebih dekat dengan kategori “Black” dan “White”. Ini bisa berarti bahwa kedua demografi ini memiliki pengaruh yang signifikan terhadap tingkat kelulusan di negara-negara ini, atau sebaliknya, bahwa kebijakan dan praktik di negara-negara ini memiliki dampak khusus terhadap kelulusan siswa Black dan White.

  2. Nevada, Alabama, Indiana, Michigan, Colorado, New Jersey, dan Florida tampaknya lebih dekat dengan kategori “Homeless enrolled”, “English Learner”, dan “Economically disadvantaged”. Hal ini bisa menunjukkan bahwa negara-negara ini memiliki proporsi yang lebih tinggi dari siswa yang menghadapi tantangan ini, atau bahwa ini adalah faktor yang penting dalam menentukan tingkat kelulusan siswa di negara-negara ini.

  3. Iowa, Idaho, Arkansas, Maine, Delaware, Kansas, dan Oklahoma tampaknya memiliki hubungan yang lebih kuat dengan kategori “Students with disabilities”. Ini bisa berarti bahwa negara-negara ini memiliki proporsi yang lebih tinggi dari siswa dengan disabilitas, atau bahwa kebijakan dan praktik mereka mungkin memiliki dampak yang lebih besar pada kelulusan siswa dengan disabilitas.

  4. Massachusetts, Pennsylvania, New Hampshire, dan Montana tampaknya memiliki hubungan yang lebih dekat dengan kategori “Foster Care”. Ini bisa menunjukkan bahwa negara-negara ini memiliki proporsi yang lebih tinggi dari siswa yang berada dalam perawatan pengasuh, atau bahwa kebijakan dan praktik mereka mungkin berdampak secara signifikan pada kelulusan siswa dalam perawatan pengasuh.

Dengan memahami hubungan ini, pemangku kepentingan pendidikan dapat merumuskan strategi dan kebijakan yang lebih efektif untuk mendukung siswa dari berbagai demografi dan memastikan bahwa setiap siswa memiliki peluang yang sama untuk lulus dan sukses.

8 Closing

Berdasarkan analisis korespondensi yang telah kita lakukan, berikut adalah beberapa poin penting yang dapat kita ambil:

  1. Variasi geografis yang signifikan dalam tingkat kelulusan siswa tampaknya berkorelasi dengan demografi siswa tertentu. Ini mencakup ras/etnis, status ekonomi, status bahasa, dan kebutuhan khusus.

  2. Negara-negara bagian memiliki profil demografis yang berbeda-beda, yang dapat mempengaruhi tingkat kelulusan siswa. Misalnya, beberapa negara tampaknya memiliki pengaruh yang lebih besar dari kelompok ras/etnis tertentu, sementara yang lain tampaknya dipengaruhi oleh status ekonomi, kebutuhan khusus, atau status bahasa siswa.

  3. Kebijakan dan praktik di setiap negara bagian dapat memiliki dampak yang berbeda terhadap tingkat kelulusan siswa, tergantung pada demografi siswa. Oleh karena itu, solusi yang efektif mungkin memerlukan pendekatan yang disesuaikan dengan profil unik setiap negara bagian.

Dengan memahami hubungan ini, kita dapat membantu merumuskan solusi yang lebih efektif untuk meningkatkan tingkat kelulusan siswa di seluruh negeri. Setiap siswa, terlepas dari latar belakang mereka, memiliki hak untuk mendapatkan pendidikan yang berkualitas dan kesempatan yang sama untuk sukses.

Kesimpulannya, kita harus selalu ingat bahwa setiap statistik dan angka yang kita analisis mewakili individu nyata dengan impian dan potensi mereka sendiri. Oleh karena itu, kita memiliki tanggung jawab untuk menggunakan pengetahuan ini untuk menciptakan lingkungan belajar yang lebih adil dan inklusif. Mari kita berharap dan berusaha untuk mencapai kondisi ideal di mana setiap siswa, di setiap negara bagian, memiliki peluang yang sama untuk belajar, berkembang, dan sukses.