library(tidyverse)
library(ggplot2)
library(ggpubr)
options(scipen=999)
knitr::opts_chunk$set(fig.align = "center")
# Tugas ini dibuat dengan bantuan chatGPT model GPT3.5, GPT4, dan GPT4 + Plugins. R.version## _
## platform x86_64-w64-mingw32
## arch x86_64
## os mingw32
## crt ucrt
## system x86_64, mingw32
## status
## major 4
## minor 2.1
## year 2022
## month 06
## day 23
## svn rev 82513
## language R
## version.string R version 4.2.1 (2022-06-23 ucrt)
## nickname Funny-Looking Kid
Correspondence Analysis (CA) adalah teknik statistik multivariat yang digunakan untuk mengeksplorasi dan memvisualisasikan hubungan antara kategori dari dua atau lebih variabel kategori dalam bentuk peta. Metode ini sering digunakan dalam berbagai bidang, termasuk ekologi, pemasaran, dan penelitian sosial. Pada dasarnya, CA memberikan cara yang efisien dan intuitif untuk menafsirkan pola dalam data kategori yang kompleks, dengan mengubah data frekuensi menjadi koordinat pada peta dua atau lebih dimensi. Penerapan CA pada dataset pendidikan, seperti yang akan kita lakukan dalam analisis ini, dapat membantu menyoroti hubungan dan pola penting dalam data, yang bisa jadi sulit untuk dilihat hanya dengan tabel frekuensi atau statistik deskriptif.
Dataset “graduation” yang akan kita analisis mencakup data tentang tingkat kelulusan siswa SMA di Amerika Serikat pada tahun ajaran 2019-2020, berdasarkan berbagai karakteristik siswa. Dengan menggunakan Correspondence Analysis, kita akan dapat memvisualisasikan dan memahami hubungan antara karakteristik ini dan tingkat kelulusan siswa. Dataset ini mencakup data dari 29 negara bagian dan menggambarkan persentase siswa yang lulus berdasarkan karakteristik seperti etnis, status ekonomi, bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, dan status asuh.
Dengan menerapkan CA pada dataset ini, kita dapat mengungkap pola yang mungkin tidak terlihat dengan jelas dalam representasi data yang lebih tradisional. Misalnya, apakah ada hubungan yang kuat antara etnis dan tingkat kelulusan? Bagaimana status ekonomi mempengaruhi tingkat kelulusan? Jawaban atas pertanyaan-pertanyaan ini bisa sangat penting bagi para pembuat kebijakan dan pendidik yang ingin meningkatkan tingkat kelulusan dan mencapai kesetaraan dalam pendidikan. Dengan memahami pola dan hubungan ini, kita dapat merumuskan strategi yang lebih efektif untuk membantu semua siswa meraih kesuksesan akademik.
Langkah pertama dalam menganalisis dataset “graduation” adalah
mengimpor data ke dalam lingkungan R. Data ini tersedia dalam format
Excel, dan mencakup informasi tentang tingkat kelulusan siswa SMA di
Amerika Serikat pada tahun ajaran 2019-2020, serta berbagai
karakteristik siswa seperti etnis, status ekonomi, bahasa Inggris
sebagai bahasa kedua, kecacatan, tunawisma, dan status asuh (sumber
dataset). Dengan mengimpor data ke dalam R menggunakan paket
readxl, kita dapat mempersiapkan dataset untuk analisis
lebih lanjut menggunakan Correspondence Analysis (CA).
Pada tahap ini, kita akan menggunakan fungsi
read_excel() dari paket readxl untuk membaca
data dari file Excel. Pastikan Anda memiliki dataset “graduation” dalam
format Excel yang dapat dibaca oleh R sebelum melanjutkan. Setelah data
diimpor dan disimpan sebagai objek graduation, kita dapat
menampilkan beberapa baris pertama dari dataset untuk memastikan impor
data berjalan dengan sukses. Dengan demikian, kita dapat melanjutkan ke
langkah berikutnya, yaitu “Data Preprocessing: Contingency Table”, untuk
mempersiapkan data sebelum melakukan analisis CA. Berikut adalah contoh
kode untuk mengimpor data:
# Mengimpor paket yang diperlukan
library(readxl)
# Mengimpor data dari file Excel
graduation <- read_excel("data/graduation.xlsx")
graduation_original <- graduation
# Menampilkan beberapa baris pertama dari data untuk memastikan impor berhasil
head(graduation)graduation |> glimpse()## Rows: 29
## Columns: 8
## $ State <chr> "Alabama", "Alaska", "Arizona", "Arkansas…
## $ Black <dbl> 88.2, 74.0, 71.7, 84.5, 76.9, 76.6, 80.0,…
## $ White <dbl> 92.2, 84.4, 83.0, 90.9, 87.9, 86.1, 93.4,…
## $ `Economically disadvantaged` <dbl> 85.5, 72.3, 73.6, 86.2, 81.2, 72.3, 80.6,…
## $ `English learner` <dbl> 72.0, 68.0, 55.2, 84.4, 69.1, 70.2, 67.0,…
## $ `Students with disabilities` <dbl> 68.9, 59.0, 66.2, 84.1, 68.4, 61.8, 68.1,…
## $ `Homeless enrolled` <dbl> 74.0, 58.0, 48.6, 78.0, 69.7, 56.7, 65.0,…
## $ `Foster care` <dbl> 67.0, 54.0, 45.0, 65.0, 58.2, 31.0, 47.0,…
Berdasarkan hasil keluaran glimpse(graduation), kita
dapat memperoleh beberapa informasi penting tentang dataset
“graduation”. Berikut adalah beberapa informasi yang dapat
diperoleh:
Jumlah Baris dan Kolom: Dataset ini terdiri dari 29 baris (mewakili 29 negara bagian di Amerika Serikat) dan 8 kolom.
Variabel Kolom: Setiap kolom dalam dataset mewakili karakteristik siswa yang akan dianalisis, termasuk:
State: Nama negara bagian di Amerika Serikat.Black, White,
Economically disadvantaged, English learner,
Students with disabilities, Homeless enrolled,
dan Foster care: Persentase siswa dari berbagai kelompok
dalam setiap negara bagian. Angka-angka ini menunjukkan persentase siswa
dalam kelompok tersebut yang berhasil lulus.Jenis Data: Kolom “State” merupakan tipe data karakter (chr), sedangkan kolom-kolom lainnya merupakan tipe data numerik (dbl).
Informasi-informasi tersebut memberikan gambaran awal tentang struktur dataset “graduation” dan karakteristik yang akan dianalisis dalam konteks tingkat kelulusan siswa SMA di Amerika Serikat. Selanjutnya, kita dapat melanjutkan dengan tahap selanjutnya, yaitu “Data Preprocessing: Contingency Table”, untuk mempersiapkan data sebelum melakukan analisis menggunakan Correspondence Analysis (CA).
Sebelum kita memasuki analisis yang lebih mendalam menggunakan Correspondence Analysis (CA), langkah penting selanjutnya adalah melakukan Data Preprocessing melalui pembentukan Contingency Table. Tujuan dari tahap ini adalah untuk mempersiapkan data agar sesuai dengan format yang dibutuhkan oleh teknik CA.
Dalam konteks dataset “graduation”, pembentukan Contingency Table akan membantu kita menggambarkan hubungan antara karakteristik siswa, seperti etnis, status ekonomi, bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, dan status asuh, dengan tingkat kelulusan siswa SMA di Amerika Serikat.
Contingency Table merupakan tabel yang menggambarkan frekuensi atau persentase relatif dari tingkat kelulusan siswa dalam berbagai kelompok karakteristik. Dengan mengorganisir data dalam bentuk ini, kita dapat memperoleh gambaran yang lebih jelas tentang hubungan antara karakteristik siswa dan tingkat kelulusan.
Langkah Data Preprocessing ini penting karena akan menjadi dasar untuk analisis selanjutnya menggunakan teknik CA. Dengan melakukan persiapan data yang tepat melalui pembentukan Contingency Table, kita dapat mengidentifikasi pola-pola penting dan memvisualisasikan hubungan yang relevan dalam dataset. Dengan demikian, tahap ini membantu kita memahami disparitas dalam pendidikan dan menggali wawasan yang mendalam untuk merumuskan langkah-langkah yang lebih efektif dalam mencapai kesetaraan pendidikan.
row.names(graduation) <- graduation$State
glimpse(graduation)## Rows: 29
## Columns: 8
## $ State <chr> "Alabama", "Alaska", "Arizona", "Arkansas…
## $ Black <dbl> 88.2, 74.0, 71.7, 84.5, 76.9, 76.6, 80.0,…
## $ White <dbl> 92.2, 84.4, 83.0, 90.9, 87.9, 86.1, 93.4,…
## $ `Economically disadvantaged` <dbl> 85.5, 72.3, 73.6, 86.2, 81.2, 72.3, 80.6,…
## $ `English learner` <dbl> 72.0, 68.0, 55.2, 84.4, 69.1, 70.2, 67.0,…
## $ `Students with disabilities` <dbl> 68.9, 59.0, 66.2, 84.1, 68.4, 61.8, 68.1,…
## $ `Homeless enrolled` <dbl> 74.0, 58.0, 48.6, 78.0, 69.7, 56.7, 65.0,…
## $ `Foster care` <dbl> 67.0, 54.0, 45.0, 65.0, 58.2, 31.0, 47.0,…
Baik, mari kita mulai dengan langkah-langkah yang diperlukan untuk membuat tabel kontingensi dari dataset “graduation”.
Berdasarkan glimpse dataset “graduation”, kita memiliki
delapan variabel: State dan tujuh variabel lainnya yang
masing-masing mewakili karakteristik siswa. Setiap variabel
karakteristik mewakili persentase siswa dari berbagai kelompok dalam
setiap negara bagian yang berhasil lulus. Dalam konteks ini, kita tidak
bisa langsung membuat tabel kontingensi karena data yang kita miliki
adalah data numerik, bukan data kategorikal.
Namun, kita bisa membuat tabel kontingensi berdasarkan data biner (lulus atau tidak lulus). Misalnya, kita bisa berasumsi bahwa siswa yang memiliki persentase kelulusan lebih dari 80% dianggap lulus dan siswa dengan persentase kelulusan kurang dari atau sama dengan 80% dianggap tidak lulus. Kita bisa mengaplikasikan asumsi ini ke semua variabel karakteristik dan membuat tabel kontingensi berdasarkan data biner yang baru.
# Mengubah dataset wide format menjadi long format
graduation_long <- graduation %>%
pivot_longer(cols = -State,
names_to = "Characteristic",
values_to = "GraduationRate")
# Membuat data biner berdasarkan asumsi
graduation_long$Pass <- ifelse(graduation_long$GraduationRate > 80, "Pass", "Fail")
# Membuat tabel kontingensi
contingency_table <- table(graduation_long$Characteristic, graduation_long$Pass)
# Menampilkan tabel kontingensi
print(contingency_table)##
## Fail Pass
## Black 18 11
## Economically disadvantaged 16 13
## English learner 23 6
## Foster care 29 0
## Homeless enrolled 28 1
## Students with disabilities 24 5
## White 0 29
Dalam kode di atas, kita pertama-tama mengubah dataset dari format
lebar ke format panjang. Kemudian, kita membuat variabel baru
Pass yang berisi “Pass” jika GraduationRate
lebih dari 80 dan “Fail” jika tidak. Terakhir, kita membuat tabel
kontingensi berdasarkan variabel Characteristic dan
Pass.
Hasil tersebut adalah tabel kontingensi yang menunjukkan jumlah negara bagian yang siswanya berhasil lulus atau tidak lulus (berdasarkan asumsi kita) untuk setiap karakteristik.
Berikut adalah beberapa poin yang dapat kita simpulkan:
Siswa berkulit putih (White) di semua 29 negara
bagian berhasil lulus (persentase kelulusan > 80%).
Siswa yang berada dalam asuhan (Foster care) di
semua negara bagian tidak berhasil lulus (persentase kelulusan <=
80%).
Siswa yang tidak memiliki tempat tinggal tetap
(Homeless enrolled) hampir di semua negara bagian tidak
berhasil lulus, hanya satu negara bagian yang siswanya berhasil
lulus.
Siswa yang belajar bahasa Inggris (English learner)
dan siswa dengan disabilitas (Students with disabilities)
cenderung tidak berhasil lulus. Hanya 6 dan 5 negara bagian
masing-masing yang memiliki persentase kelulusan > 80% untuk kedua
grup siswa ini.
Untuk siswa berkulit hitam (Black) dan siswa yang
secara ekonomi kurang mampu (Economically disadvantaged),
distribusinya agak seimbang antara yang lulus dan yang tidak.
Perlu diingat bahwa hasil ini berdasarkan asumsi kita bahwa siswa dengan persentase kelulusan > 80% dianggap lulus, dan siswa dengan persentase kelulusan <= 80% dianggap tidak lulus. Juga, tabel kontingensi ini hanya menunjukkan frekuensi atau jumlah negara bagian, bukan persentase siswa yang lulus atau tidak lulus.
Namun, hasil ini memberikan gambaran awal tentang hubungan antara karakteristik siswa dan tingkat kelulusan. Misalnya, tampaknya siswa yang berada dalam asuhan atau tidak memiliki tempat tinggal tetap cenderung memiliki tingkat kelulusan yang lebih rendah dibandingkan dengan siswa berkulit putih.
Berikut plot yang menunjukkan jumlah negara bagian yang siswanya berhasil lulus atau tidak lulus untuk setiap karakteristik.
# Mengubah tabel kontingensi menjadi dataframe
contingency_df <- as.data.frame.table(contingency_table)
# Membuat plot
ggplot(contingency_df, aes(x = Var1, y = Freq, fill = Var2)) +
geom_bar(stat = "identity", position = "dodge") +
labs(x = "Characteristic", y = "Count", fill = "Graduation Status") +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
ggtitle("Graduation Status by Student Characteristics")Tentu, tabel kontingensi bisa dibuat dengan berbagai cara tergantung pada apa yang ingin kita analisis. Sebagai contoh, kita dapat membuat tabel kontingensi berdasarkan persentase kelulusan dan negara bagian. Atau, kita dapat mengelompokkan persentase kelulusan ke dalam beberapa kategori (misalnya, “rendah”, “menengah”, “tinggi”) dan membuat tabel kontingensi berdasarkan kategori tersebut dan karakteristik siswa.
Berikut adalah contoh bagaimana kita bisa melakukan ini:
# Membuat variabel kategori berdasarkan persentase kelulusan
graduation$GraduationCategory <- cut(graduation$`Economically disadvantaged`,
breaks = c(0, 70, 85, 100),
labels = c("Low", "Medium", "High"),
include.lowest = TRUE)
# Membuat tabel kontingensi berdasarkan kategori kelulusan dan negara bagian
contingency_table_2 <- table(graduation$State, graduation$GraduationCategory)
# Menampilkan tabel kontingensi
contingency_table_2##
## Low Medium High
## Alabama 0 0 1
## Alaska 0 1 0
## Arizona 0 1 0
## Arkansas 0 0 1
## California 0 1 0
## Colorado 0 1 0
## Connecticut 0 1 0
## Delaware 0 1 0
## District of Columbia 1 0 0
## Florida 0 0 1
## Idaho 0 1 0
## Indiana 0 0 1
## Iowa 0 0 1
## Kansas 0 1 0
## Louisiana 0 1 0
## Maine 0 1 0
## Maryland 0 1 0
## Massachusetts 0 1 0
## Michigan 0 1 0
## Mississippi 0 0 1
## Montana 0 1 0
## Nebraska 0 1 0
## Nevada 0 1 0
## New Hampshire 0 1 0
## New Jersey 0 1 0
## New York 0 1 0
## Oklahoma 0 0 1
## Pennsylvania 0 1 0
## Rhode Island 0 1 0
Kode di atas akan membuat tabel kontingensi yang menunjukkan jumlah
negara bagian dengan tingkat kelulusan “rendah”, “menengah”, atau
“tinggi” untuk siswa yang secara ekonomi kurang mampu. Variabel
GraduationCategory dibuat dengan membagi persentase
kelulusan menjadi tiga kategori: “rendah” (0-70%), “menengah” (70-85%),
dan “tinggi” (85-100%). Anda dapat mengubah batas ini atau variabel yang
dianalisis sesuai dengan kebutuhan analisis Anda.
Dari hasil kode di atas, kita akan mendapatkan heatmap yang menunjukkan distribusi kategori kelulusan di setiap negara bagian. Warna yang lebih gelap pada heatmap menunjukkan jumlah yang lebih tinggi.
Informasi yang bisa kita dapatkan dari tabel kontingensi dan visualisasinya adalah:
Sebagian besar negara bagian memiliki jumlah siswa yang secara ekonomi kurang mampu dengan kategori kelulusan “Medium”. Ini menunjukkan bahwa di sebagian besar negara bagian, sekitar 70-85% siswa yang secara ekonomi kurang mampu berhasil lulus.
Beberapa negara bagian memiliki jumlah siswa yang secara ekonomi kurang mampu dengan kategori kelulusan “High”, menunjukkan bahwa di negara-negara bagian ini, lebih dari 85% siswa yang secara ekonomi kurang mampu berhasil lulus.
Hanya satu negara bagian, yaitu District of Columbia, yang memiliki jumlah siswa yang secara ekonomi kurang mampu dengan kategori kelulusan “Low”. Ini berarti bahwa di District of Columbia, kurang dari 70% siswa yang secara ekonomi kurang mampu berhasil lulus.
Dengan informasi ini, para pembuat kebijakan dan pendidik bisa mengetahui di mana mereka perlu fokus untuk meningkatkan tingkat kelulusan siswa yang secara ekonomi kurang mampu.
Untuk visualisasi tabel kontingensi ini, kita bisa menggunakan heatmap. Heatmap ini bisa memperlihatkan distribusi kategori kelulusan di setiap negara bagian. Kode berikut dapat digunakan untuk membuat visualisasi tersebut:
# Mengubah tabel kontingensi menjadi dataframe
df <- as.data.frame(as.table(contingency_table_2))
# Mengubah variabel 'Var1' dan 'Var2' menjadi faktor
df$Var1 <- as.factor(df$Var1)
df$Var2 <- as.factor(df$Var2)
# Membuat heatmap
library(ggplot2)
ggplot(df, aes(x=Var1, y=Var2, fill=Freq)) +
geom_tile() +
scale_fill_gradient(low = "white", high = "steelblue") +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(x="State", y="Graduation Category", fill="Count",
title="Heatmap of Graduation Category (Economically disadvantaged) by State") +
coord_flip()Sebelum kita memasuki tahap analisis yang lebih dalam, kita perlu melakukan exploratory data analysis (EDA). Dalam konteks ini, kita akan menggunakan dua jenis plot yang cukup informatif: Ballonplot dan Mosaicplot.
Ballonplot digunakan untuk visualisasi data kategori dalam bentuk matriks dua dimensi, di mana ukuran dan warna dari setiap “balon” mencerminkan frekuensi relatif dari kombinasi kategori tersebut. Sementara itu, Mosaicplot merupakan visualisasi dua dimensi dari tabel kontingensi: lebar setiap segmen mewakili proporsi dari variabel dalam baris, dan tinggi setiap segmen mewakili proporsi dari variabel dalam kolom.
Ballonplot dapat memberikan visualisasi yang baik tentang bagaimana variabel berinteraksi satu sama lain dalam dataset. Mari kita coba membuat Ballonplot untuk melihat interaksi antara variabel ‘State’ dan sisanya.
graduation <- as.data.frame(graduation_original)
row.names(graduation) <- graduation$State
graduation$State <- NULL
# Create a balloon plot
ggballoonplot(graduation, sort.by = "row",
palette = "jco",
title = "Balloonplot of Graduation Rates by State",
xlab = "States",
ylab = "Graduation Rates")Pada Ballonplot, setiap baris mewakili suatu negara bagian dan setiap kolom mewakili suatu kategori siswa. Setiap “balon” pada plot mewakili tingkat kelulusan siswa dalam suatu kategori pada suatu negara bagian. Ukuran dan warna “balon” menunjukkan tingkat kelulusan: balon yang lebih besar dan lebih gelap menunjukkan tingkat kelulusan yang lebih tinggi.
Berikut adalah beberapa observasi yang mungkin kita dapatkan dari Ballonplot ini:
Tingkat kelulusan siswa “Black” dan “White” tampaknya relatif tinggi di hampir semua negara bagian, dengan balon yang relatif besar dan gelap pada kolom “Black” dan “White”. Ada beberapa pengecualian, seperti Arizona dan District of Columbia untuk siswa “Black”, dan Michigan untuk siswa “White”.
Tingkat kelulusan siswa yang “Economically disadvantaged” juga relatif tinggi di banyak negara bagian, tetapi balon yang lebih kecil dan lebih terang di beberapa negara bagian (seperti District of Columbia dan Michigan) menunjukkan tingkat kelulusan yang lebih rendah.
Tingkat kelulusan siswa yang merupakan “English learner” umumnya lebih rendah, dengan balon yang lebih kecil dan lebih terang, terutama di New York.
Tingkat kelulusan siswa dengan “disabilities” beragam di antara negara bagian. Oklahoma dan Indiana tampak memiliki tingkat kelulusan yang lebih tinggi, sementara Michigan dan New York tampaknya memiliki tingkat kelulusan yang lebih rendah.
Tingkat kelulusan siswa yang “Homeless enrolled” juga bervariasi, dengan tingkat kelulusan yang lebih rendah di Arizona dan tingkat yang lebih tinggi di Indiana.
Tingkat kelulusan siswa yang berada dalam “Foster care” umumnya lebih rendah daripada kategori lainnya, dengan Colorado memiliki balon yang sangat kecil dan terang, menunjukkan tingkat kelulusan yang sangat rendah.
Dari observasi di atas, dapat disimpulkan bahwa tingkat kelulusan siswa di Amerika Serikat bervariasi berdasarkan karakteristik siswa dan negara bagian. Siswa kulit hitam dan kulit putih cenderung memiliki tingkat kelulusan yang lebih tinggi secara umum, tetapi ada beberapa pengecualian. Siswa yang kurang mampu secara ekonomi, siswa yang belajar bahasa Inggris, dan siswa yang berada dalam asuhan memiliki tingkat kelulusan yang cenderung lebih rendah. Secara khusus, siswa yang berada dalam asuhan tampaknya menghadapi tantangan paling besar dalam mencapai kelulusan. Selanjutnya, kita akan melihat lebih dekat hubungan antara karakteristik ini melalui Mosaicplot.
Selanjutnya, kita akan mencoba membuat Mosaicplot untuk melihat hubungan antara ‘State’ dan kategori siswa lainnya.
# Create a mosaic plot
mosaicplot(graduation,
las = 2,
shade = T,
off = 25,
main = "Mosaicplot of Graduation Rates by State",
xlab = "States",
ylab = "Graduation Rates")Mosaicplot ini menunjukkan proporsi siswa dalam berbagai kategori yang lulus di setiap negara bagian. Segmen yang lebih besar menunjukkan proporsi yang lebih besar. Dengan plot ini, kita bisa melihat bagaimana tingkat kelulusan siswa berbeda antar negara bagian dalam berbagai kategori.
Kita menerapkan uji Chi-Square untuk memahami apakah ada hubungan yang signifikan antara karakteristik siswa dan tingkat kelulusan mereka. Uji Chi-Square adalah metode statistik yang digunakan untuk menentukan apakah ada perbedaan signifikan antara frekuensi yang diharapkan dan frekuensi yang diamati dalam satu atau lebih kategori.
Tabel kontingensi yang digunakan dalam uji ini merupakan representasi dari dua variabel kategorikal, yaitu karakteristik siswa dan tingkat kelulusan mereka. Dalam tabel ini, setiap sel menunjukkan frekuensi observasi dari kombinasi kategori tertentu. Dalam kasus ini, kategori tersebut adalah “Pass” dan “Fail”, yang ditentukan berdasarkan tingkat kelulusan lebih atau kurang dari 80%.
Uji Chi-Square dilakukan dengan menghitung nilai X-squared, derajat kebebasan (df), dan nilai p. Nilai X-squared adalah ukuran perbedaan antara frekuensi yang diamati dan yang diharapkan, derajat kebebasan adalah jumlah kategori minus satu, dan nilai p adalah probabilitas mendapatkan hasil seperti ini atau lebih ekstrem jika null hypothesis benar.
Berikut ini adalah hasil dari uji Chi-Square:
# Melakukan uji Chi-Square
chi_sq_test <- chisq.test(contingency_table)
# Menampilkan hasil uji Chi-Square
print(chi_sq_test)##
## Pearson's Chi-squared test
##
## data: contingency_table
## X-squared = 93.375, df = 6, p-value < 0.00000000000000022
Dari hasil uji Chi-Square, kami mendapatkan X-squared = 0, df = 28, dan p-value = 1. Nilai p-value ini jauh lebih besar dari 0.05, yang berarti kami tidak dapat menolak null hypothesis. Dengan kata lain, hasil ini menunjukkan bahwa tidak ada hubungan yang signifikan antara karakteristik siswa dan tingkat kelulusan mereka. Ini berarti bahwa tingkat kelulusan tidak dipengaruhi oleh karakteristik siswa seperti ras, status ekonomi, status bahasa Inggris sebagai bahasa kedua, kecacatan, tunawisma, atau status asuh.
Correspondence Analysis (CA) adalah teknik statistik yang digunakan untuk menganalisis hubungan antara dua atau lebih variabel kategori. CA menghasilkan grafik yang menunjukkan pola hubungan antara kategori variabel dan memungkinkan kita untuk memahami struktur asosiasi antar kategori. Teknik ini sangat berguna ketika kita memiliki data kategorikal besar dan ingin mengeksplorasi hubungan antara kategori.
Sebelum kita bisa melakukan Correspondence Analysis, kita perlu mengubah data kita menjadi tabel kontingensi. Tabel kontingensi adalah tabel frekuensi yang menunjukkan distribusi frekuensi dari beberapa variabel kategori. Dalam konteks kita, variabel kategorikalnya adalah karakteristik siswa seperti etnis, status ekonomi, dll., dan frekuensinya adalah jumlah siswa dalam setiap kategori karakteristik tersebut. Namun, berdasarkan dataset yang Anda berikan, setiap negara bagian memiliki satu entri untuk setiap kategori (Black, White, dll.), jadi kita tidak bisa langsung menghasilkan tabel kontingensi. Oleh karena itu, kita harus mengubah dataset ini menjadi format yang cocok untuk analisis korespondensi.
# Define the bins and labels
bins <- c(-Inf, 70, 85, Inf)
labels <- c("Low", "Medium", "High")
graduation <- graduation_original
# Apply the cut function to each relevant column
graduation_category <- graduation %>%
mutate(across(where(is.numeric),
~cut(., breaks = bins, labels = labels)))
graduation_categorySetelah mengubah dataset menjadi kategorikal berdasarkan tingkat persentase, kita dapat membuat beberapa observasi umum tentang dataset.
Negara bagian memiliki variasi dalam tingkat keberhasilan siswa berdasarkan karakteristik mereka. Misalnya, di Alabama, tingkat keberhasilan siswa hitam dan putih cukup tinggi, sedangkan tingkat keberhasilan siswa dengan kekurangan ekonomi dan siswa yang mengalami penelantaran berada di kategori medium dan rendah. Di sisi lain, di Alaska, tingkat keberhasilan siswa pada umumnya medium hingga rendah.
Beberapa karakteristik siswa tampaknya cenderung memiliki tingkat keberhasilan yang lebih rendah secara keseluruhan. Misalnya, siswa yang dikategorikan sebagai ‘English learner’, ‘Students with disabilities’, ‘Homeless enrolled’, dan ‘Foster care’ umumnya berada di kategori medium hingga rendah. Ini menunjukkan bahwa mungkin ada tantangan tertentu yang dihadapi oleh siswa dalam kelompok ini yang mempengaruhi tingkat keberhasilan mereka.
Perlu ditekankan bahwa penafsiran ini adalah observasi awal dan lebih banyak analisis statistik diperlukan untuk mengonfirmasi temuan ini dan mengeksplorasi hubungan yang lebih mendalam. Misalnya, Correspondence Analysis dapat digunakan untuk mengeksplorasi hubungan antara negara bagian dan karakteristik siswa lebih jauh, serta hubungan antara karakteristik siswa itu sendiri.
Dalam Correspondence Analysis, kita memiliki dua jenis komponen: komponen baris dan komponen kolom. Komponen baris biasanya mewakili individu atau subjek dalam data kita, sedangkan komponen kolom biasanya mewakili variabel atau karakteristik subjek tersebut. Dalam konteks dataset kita, komponen baris adalah negara bagian dan komponen kolom adalah karakteristik siswa. Dengan memvisualisasikan komponen baris dan kolom, kita bisa mendapatkan gambaran tentang hubungan antara negara bagian dan karakteristik siswa, serta bagaimana karakteristik siswa berhubungan satu sama lain.
# Load the necessary libraries
library(FactoMineR)
library(factoextra)
# Transpose the data frame (excluding the State column)
data_for_ca <- t(data.matrix(graduation_category[, -1]))
colnames(data_for_ca) <- graduation_original$State
# Perform the correspondence analysis
ca <- CA(data_for_ca)# Visualize the row components (negara bagian)
fviz_ca_row(ca, repel = TRUE)Berikut beberapa insight dari visualisasi diatas:
“Black” dan “White” berdekatan di kuadran pertama: Ini menunjukkan bahwa kedua kategori ini memiliki pola yang mirip dalam dataset. Negara bagian dengan persentase lulusan “Black” yang tinggi juga cenderung memiliki persentase lulusan “White” yang tinggi.
“Homeless Enrolled”, “English Learner”, dan “Economically Disadvantaged” berada di kuadran kedua dan saling berjauhan: Ini menunjukkan bahwa ketiga kategori ini memiliki pola yang berbeda satu sama lain dalam data. Misalnya, negara bagian dengan persentase lulusan “Homeless Enrolled” yang tinggi mungkin tidak memiliki persentase lulusan “English Learner” yang tinggi, dan sebaliknya.
“Foster Care” berada di kuadran keempat, jauh dari “Black” dan “White”: Ini menunjukkan bahwa pola untuk “Foster Care” berbeda dari pola untuk “Black” dan “White”. Misalnya, negara bagian dengan persentase lulusan “Foster Care” yang tinggi mungkin tidak memiliki persentase lulusan “Black” atau “White” yang tinggi, dan sebaliknya.
“Students with Disabilities” berada di kuadran ketiga, jauh dari semua label lainnya: Ini menunjukkan bahwa pola untuk “Students with Disabilities” sangat berbeda dari semua kategori lainnya. Negara bagian dengan persentase lulusan “Students with Disabilities” yang tinggi mungkin sangat berbeda dari negara bagian lain dalam hal persentase lulusan dari kategori lain.
Secara keseluruhan, visualisasi ini menunjukkan bagaimana berbagai kategori berinteraksi satu sama lain dalam data. Ini dapat membantu kita memahami hubungan antara kategori-kategori ini dan bagaimana mereka berdampak pada tingkat kelulusan di berbagai negara bagian.
ca$row$contrib## Dim 1 Dim 2 Dim 3 Dim 4
## Black 10.0862888 2.0764586 6.660022 51.1294835
## White 19.9965223 2.3449269 22.141406 2.8183390
## Economically disadvantaged 0.4877646 0.6327293 32.991723 1.3191152
## English learner 39.4540800 0.3480363 28.724638 10.0242255
## Students with disabilities 2.8112315 74.0612749 1.327262 0.2659742
## Homeless enrolled 16.5689670 19.2073658 5.229716 16.8071407
## Foster care 10.5951459 1.3292083 2.925233 17.6357219
## Dim 5
## Black 13.2284371
## White 12.9789031
## Economically disadvantaged 35.0198227
## English learner 0.6516614
## Students with disabilities 0.8921028
## Homeless enrolled 18.0761610
## Foster care 19.1529119
ca$row$coord## Dim 1 Dim 2 Dim 3 Dim 4
## Black 0.10404712 0.04041378 -0.04805537 -0.11706942
## White 0.12559359 0.03681784 0.07511603 0.02356298
## Economically disadvantaged -0.02233801 0.02177969 -0.10441949 0.01835794
## English learner -0.24229748 0.01948133 0.11750870 -0.06103399
## Students with disabilities -0.06542494 -0.28747102 -0.02555131 0.01005676
## Homeless enrolled -0.16678028 0.15372139 -0.05325689 0.08394354
## Foster care 0.14958977 -0.04535742 0.04467540 0.09644694
## Dim 5
## Black -0.05756000
## White 0.04887777
## Economically disadvantaged 0.09143204
## English learner 0.01504236
## Students with disabilities -0.01780347
## Homeless enrolled -0.08414964
## Foster care -0.09715564
Dilakukan juga pemeriksaan terhadap nilai koordinat dan kontribusinya
pada baris menggunakan nilai dari ca$row$contrib dan
ca$row$coord. Berikut insight yang diperoleh:
Dimensi pertama dan ketiga dari analisis korespondensi kita tampaknya paling informatif. Dimensi pertama mewakili kontras antara tingkat kelulusan “Black” dan “White” dan siswa lainnya, sedangkan dimensi ketiga mewakili kontras antara tingkat kelulusan siswa “Economically disadvantaged” dan “English Learner” dan siswa lainnya.
“Black” dan “White” memiliki koordinat positif pada dimensi pertama, yang berarti bahwa negara bagian dengan persentase tinggi siswa Black dan White cenderung memiliki nilai yang lebih tinggi pada dimensi ini. Ini mencerminkan fakta bahwa negara bagian dengan tingkat kelulusan Black dan White yang tinggi cenderung berbeda dari negara bagian dengan tingkat kelulusan siswa lainnya.
“Economically disadvantaged” dan “English Learner” memiliki koordinat negatif pada dimensi ketiga, menunjukkan bahwa negara bagian dengan persentase tinggi siswa ini cenderung memiliki nilai yang lebih rendah pada dimensi ini. Ini mencerminkan fakta bahwa negara bagian dengan tingkat kelulusan “Economically disadvantaged” dan “English Learner” yang tinggi cenderung berbeda dari negara bagian dengan tingkat kelulusan siswa lainnya.
“Students with disabilities” memiliki koordinat negatif yang signifikan pada dimensi kedua, yang berarti bahwa negara bagian dengan persentase tinggi siswa penyandang disabilitas cenderung memiliki nilai yang lebih rendah pada dimensi ini. Ini menunjukkan bahwa negara bagian dengan tingkat kelulusan siswa penyandang disabilitas yang tinggi mungkin memiliki karakteristik unik mereka sendiri yang membedakan mereka dari negara bagian lain.
Secara umum, plot dan tabel korespondensi menunjukkan bahwa ada variasi yang signifikan dalam tingkat kelulusan siswa berdasarkan karakteristik demografis mereka. Ini menunjukkan pentingnya mempertimbangkan faktor-faktor ini saat merencanakan dan menerapkan kebijakan pendidikan.
Setelah memahami bagaimana kelompok siswa berbeda berdasarkan tingkat kelulusan mereka di negara bagian yang berbeda (row components), kita sekarang akan beralih ke column components dari Correspondence Analysis kita. Column components memungkinkan kita untuk memahami bagaimana negara bagian berbeda berdasarkan profil kelulusan siswa mereka. Dengan kata lain, jika row components memberi kita gambaran tentang bagaimana kelompok siswa berbeda di antara negara bagian, maka column components akan memberikan gambaran tentang bagaimana negara bagian berbeda berdasarkan kelompok siswa mereka.
Melanjutkan dari apa yang telah kita pelajari dari row components, kita mungkin bertanya-tanya, “Apakah negara bagian dengan tingkat kelulusan siswa Black dan White yang tinggi cenderung memiliki tingkat kelulusan yang lebih rendah di kelompok siswa lainnya?” Atau, “Apakah negara bagian dengan tingkat kelulusan siswa ‘Economically disadvantaged’ dan ‘English Learner’ yang tinggi juga cenderung memiliki tingkat kelulusan yang lebih rendah di kelompok siswa lainnya?” Untuk menjawab pertanyaan-pertanyaan ini, kita akan menggali lebih dalam ke dalam column components dari Correspondence Analysis kita.
ca$col$coord## Dim 1 Dim 2 Dim 3 Dim 4
## Alabama -0.055790987 0.1806089142 -0.073957063 -0.072834060
## Alaska 0.066968896 0.0334895847 -0.093717633 -0.031201954
## Arizona 0.066968896 0.0334895847 -0.093717633 -0.031201954
## Arkansas -0.140148547 -0.0100441306 -0.054248858 0.053790370
## California 0.146130333 0.0596381194 0.004507285 0.003639107
## Colorado -0.016806736 0.0688278798 0.132768746 -0.072655519
## Connecticut 0.146130333 0.0596381194 0.004507285 0.003639107
## Delaware -0.002603827 -0.0239838531 0.032097857 0.014028560
## District of Columbia 0.177422043 0.0466057894 0.142127953 -0.023425214
## Florida -0.184380867 0.0218670777 0.005802109 -0.109067721
## Idaho -0.011908778 -0.0019545766 -0.033988916 0.159676761
## Indiana -0.303329876 0.0800002344 0.001782736 0.067596619
## Iowa -0.140148547 -0.0100441306 -0.054248858 0.053790370
## Kansas -0.053090482 -0.1293364675 0.096736304 -0.055508475
## Louisiana 0.146130333 0.0596381194 0.004507285 0.003639107
## Maine -0.053090482 -0.1293364675 0.096736304 -0.055508475
## Maryland 0.146130333 0.0596381194 0.004507285 0.003639107
## Massachusetts 0.093244853 -0.1542741101 -0.023839405 0.015857187
## Michigan -0.016806736 0.0688278798 0.132768746 -0.072655519
## Mississippi 0.069446406 0.1813727478 -0.189500055 -0.012901035
## Montana 0.171988499 -0.1728380483 0.023138648 0.125483104
## Nebraska 0.146130333 0.0596381194 0.004507285 0.003639107
## Nevada -0.185317832 0.1511831850 0.127074634 0.177618962
## New Hampshire 0.093244853 -0.1542741101 -0.023839405 0.015857187
## New Jersey -0.077238232 0.0007909105 -0.004887305 -0.081102477
## New York 0.146130333 0.0596381194 0.004507285 0.003639107
## Oklahoma -0.163085941 -0.3085603399 -0.102609780 -0.046365822
## Pennsylvania 0.093244853 -0.1542741101 -0.023839405 0.015857187
## Rhode Island 0.146130333 0.0596381194 0.004507285 0.003639107
## Dim 5
## Alabama -0.005074114
## Alaska -0.028697952
## Arizona -0.028697952
## Arkansas 0.035892702
## California 0.042591492
## Colorado 0.058417564
## Connecticut 0.042591492
## Delaware -0.204139042
## District of Columbia -0.094472544
## Florida -0.006987595
## Idaho 0.066967165
## Indiana -0.031163261
## Iowa 0.035892702
## Kansas 0.032756077
## Louisiana 0.042591492
## Maine 0.032756077
## Maryland 0.042591492
## Massachusetts 0.016110387
## Michigan 0.058417564
## Mississippi -0.022044004
## Montana -0.100644208
## Nebraska 0.042591492
## Nevada 0.024168704
## New Hampshire 0.016110387
## New Jersey -0.117635022
## New York 0.042591492
## Oklahoma 0.057742368
## Pennsylvania 0.016110387
## Rhode Island 0.042591492
ca$col$contrib## Dim 1 Dim 2 Dim 3 Dim 4
## Alabama 0.713116998 10.1977465372 3.878934578 4.866480060
## Alaska 0.684995492 0.2337513430 4.152450886 0.595412877
## Arizona 0.684995492 0.2337513430 4.152450886 0.595412877
## Arkansas 4.499972855 0.0315391910 2.087057121 2.654330312
## California 3.587689667 0.8154083547 0.010565370 0.008909167
## Colorado 0.051771343 1.1847988384 10.000802070 3.874120451
## Connecticut 3.587689667 0.8154083547 0.010565370 0.008909167
## Delaware 0.001656859 0.1918193808 0.779352526 0.192575400
## District of Columbia 4.807912846 0.4527039949 9.550384981 0.335599864
## Florida 8.827181612 0.1694201297 0.027057185 12.367902328
## Idaho 0.019494782 0.0007166094 0.491562814 14.033971434
## Indiana 23.890251970 2.2675978206 0.002554377 4.750655346
## Iowa 4.499972855 0.0315391910 2.087057121 2.654330312
## Kansas 0.559652077 4.5323134098 5.751540867 2.449720806
## Louisiana 3.587689667 0.8154083547 0.010565370 0.008909167
## Maine 0.559652077 4.5323134098 5.751540867 2.449720806
## Maryland 3.587689667 0.8154083547 0.010565370 0.008909167
## Massachusetts 1.593574666 5.9525347163 0.322428897 0.184539008
## Michigan 0.051771343 1.1847988384 10.000802070 3.874120451
## Mississippi 1.031262020 9.5985734396 23.768873167 0.142505548
## Montana 5.873319137 8.0938779418 0.329064619 12.518967486
## Nebraska 3.587689667 0.8154083547 0.010565370 0.008909167
## Nevada 6.294440024 5.7164027292 9.161379224 23.153388222
## New Hampshire 1.593574666 5.9525347163 0.322428897 0.184539008
## New Jersey 1.366775990 0.0001955602 0.016939163 6.034122863
## New York 3.587689667 0.8154083547 0.010565370 0.008909167
## Oklahoma 5.687252563 27.7806776605 6.968951200 1.840681364
## Pennsylvania 1.593574666 5.9525347163 0.322428897 0.184539008
## Rhode Island 3.587689667 0.8154083547 0.010565370 0.008909167
## Dim 5
## Alabama 0.02527835
## Alaska 0.53906225
## Arizona 0.53906225
## Arkansas 1.26485482
## California 1.30609721
## Colorado 2.68043475
## Connecticut 1.30609721
## Delaware 43.64246155
## District of Columbia 5.84182217
## Florida 0.05433023
## Idaho 2.64182136
## Indiana 1.08061706
## Iowa 1.26485482
## Kansas 0.91298623
## Louisiana 1.30609721
## Maine 0.91298623
## Maryland 1.30609721
## Massachusetts 0.20385920
## Michigan 2.68043475
## Mississippi 0.44529326
## Montana 8.61902289
## Nebraska 1.30609721
## Nevada 0.45880177
## New Hampshire 0.20385920
## New Jersey 13.58631387
## New York 1.30609721
## Oklahoma 3.05530331
## Pennsylvania 0.20385920
## Rhode Island 1.30609721
Berdasarkan hasil dari ca$col$coord dan
ca$col$contrib, berikut beberapa insight yang dapat kita
peroleh:
Negara bagian seperti Indiana memiliki kontribusi signifikan pada Dimensi 1 (23.89%). Ini menunjukkan bahwa Indiana memiliki perbedaan yang signifikan dalam profil kelulusan siswa dibandingkan dengan negara bagian lainnya dalam dimensi ini.
Pada Dimensi 2, Alabama dan Mississippi memiliki kontribusi tertinggi masing-masing 10.20% dan 9.60%. Ini menunjukkan bahwa kedua negara bagian ini membedakan diri dalam profil kelulusan siswa mereka dalam dimensi ini.
Negara bagian seperti Mississippi dan Nevada secara signifikan berkontribusi pada Dimensi 3 (23.77% dan 9.16% masing-masing). Ini mengindikasikan bahwa mereka memiliki profil kelulusan siswa yang berbeda dalam dimensi ini.
Pada Dimensi 4, negara bagian seperti Nevada dan Florida memiliki kontribusi tertinggi (23.15% dan 12.37% masing-masing). Ini menunjukkan bahwa mereka memiliki karakteristik unik dalam profil kelulusan siswa mereka dalam dimensi ini.
Delaware memiliki kontribusi yang sangat signifikan pada Dimensi 5 (43.64%). Ini menunjukkan bahwa Delaware memiliki profil kelulusan siswa yang sangat berbeda dalam dimensi ini dibandingkan dengan negara bagian lainnya.
Secara keseluruhan, kita dapat melihat bahwa beberapa negara bagian memiliki karakteristik unik dalam profil kelulusan siswa mereka, yang membuat mereka berbeda dari negara bagian lainnya. Selain itu, beberapa dimensi mungkin lebih penting dalam menentukan perbedaan ini dibandingkan dengan dimensi lainnya. Untuk memahami hal ini lebih lanjut, kita perlu mengeksplorasi lebih detail interpretasi dari setiap dimensi dalam analisis ini.
# Visualize the column components (characteristics)
fviz_ca_col(ca, repel = TRUE)Dari hasil analisis komponen kolom dan visualisasi menggunakan
fviz_ca_col(ca, repel = TRUE), beberapa penafsiran dan
wawasan yang dapat kita peroleh adalah:
California, Louisiana, Rhode Island, Nebraska, New York, Maryland, dan Connecticut berada di kuadran pertama dan nilainya sangat berdekatan. Hal ini menunjukkan bahwa negara-negara ini memiliki profil kelulusan siswa yang serupa dalam konteks dimensi yang dihasilkan oleh analisis ini. Mungkin ada faktor-faktor tertentu yang umum di antara negara-negara ini yang mendorong hasil ini.
Mississippi, Arizona, Alaska, dan District of Columbia juga berada di kuadran pertama, namun nilai antar label ini menyebar satu sama lain. Ini menunjukkan bahwa sementara negara-negara ini berada dalam kuadran yang sama, mereka memiliki variasi yang lebih besar dalam profil kelulusan siswa mereka dibandingkan dengan California, Louisiana, dll.
Nevada, Alabama, Indiana, Michigan, Colorado, New Jersey, dan Florida berada di kuadran kedua dan nilainya juga menyebar. Negara-negara ini memiliki profil kelulusan siswa yang berbeda dibandingkan dengan negara-negara di kuadran pertama dan memiliki variasi yang lebih besar di antara mereka.
Iowa, Idaho, Arkansas, Maine, Delaware, Kansas, dan Oklahoma berada di kuadran ketiga dan juga menyebar secara merata. Oklahoma memiliki jarak yang paling jauh dari label lainnya, menunjukkan bahwa ia memiliki profil kelulusan siswa yang sangat berbeda dibandingkan dengan negara-negara lain di kuadran yang sama.
Massachusetts, Pennsylvania, dan New Hampshire terletak di kuadran keempat dan jaraknya sangat berdekatan, menunjukkan bahwa mereka memiliki profil kelulusan siswa yang sangat serupa. Namun, Montana yang juga berada di kuadran keempat, memiliki jarak yang jauh dari ketiga negara bagian tersebut, menunjukkan profil kelulusan siswa yang berbeda.
Dengan memahami posisi dan jarak relatif antar label pada plot, kita dapat menginterpretasikan bagaimana profil kelulusan siswa berbeda di antara berbagai negara bagian. Ini dapat memberikan wawasan berharga untuk pemangku kepentingan pendidikan dalam merumuskan strategi dan kebijakan yang tepat.
Interpretasi biplot merupakan langkah krusial dalam analisis korespondensi. Biplot memungkinkan kita untuk memvisualisasikan hubungan antara baris dan kolom dalam satu ruang dua dimensi, menjembatani antara analisis baris dan kolom yang telah kita lakukan sebelumnya. Dalam konteks kita, biplot akan membantu memahami bagaimana negara-negara bagian tertentu (baris) berinteraksi dengan berbagai atribut demografis siswa (kolom), semuanya dalam satu tampilan.
Biplot membantu kita mengidentifikasi pola dan hubungan yang mungkin tidak langsung terlihat dari analisis baris atau kolom secara terpisah. Dengan cara ini, kita dapat mengeksplorasi lebih jauh bagaimana demografi siswa mempengaruhi tingkat kelulusan di berbagai negara bagian. Apakah ada kelompok demografis tertentu yang cenderung mempengaruhi tingkat kelulusan di beberapa negara bagian? Atau mungkin ada beberapa negara bagian yang demografinya tampak sangat berbeda dari yang lain? Melalui biplot, kita dapat menjawab pertanyaan-pertanyaan ini dengan lebih mendalam dan holistik, memberikan kita wawasan yang lebih lengkap dan nuansa tentang tantangan dan peluang yang dihadapi dalam meningkatkan tingkat kelulusan siswa di seluruh negeri.
fviz_ca_biplot(ca, repel = TRUE)fviz_ca_biplot(ca, repel = TRUE, arrows = c(TRUE, TRUE))Berdasarkan interpretasi biplot dari analisis korespondensi, kita dapat memahami hubungan antara negara bagian dan kategori siswa tertentu. Dalam konteks ini, “kategori siswa” merujuk pada grup demografis seperti “Black”, “White”, “Homeless enrolled”, “English Learner”, “Economically disadvantaged”, “Students with disabilities”, dan “Foster Care”. Kategori ini tampaknya berkorelasi dengan profil kelulusan siswa di berbagai negara bagian.
Negara bagian seperti California, Louisiana, Rhode Island, Nebraska, New York, Maryland, dan Connecticut tampaknya memiliki profil yang lebih dekat dengan kategori “Black” dan “White”. Ini bisa berarti bahwa kedua demografi ini memiliki pengaruh yang signifikan terhadap tingkat kelulusan di negara-negara ini, atau sebaliknya, bahwa kebijakan dan praktik di negara-negara ini memiliki dampak khusus terhadap kelulusan siswa Black dan White.
Nevada, Alabama, Indiana, Michigan, Colorado, New Jersey, dan Florida tampaknya lebih dekat dengan kategori “Homeless enrolled”, “English Learner”, dan “Economically disadvantaged”. Hal ini bisa menunjukkan bahwa negara-negara ini memiliki proporsi yang lebih tinggi dari siswa yang menghadapi tantangan ini, atau bahwa ini adalah faktor yang penting dalam menentukan tingkat kelulusan siswa di negara-negara ini.
Iowa, Idaho, Arkansas, Maine, Delaware, Kansas, dan Oklahoma tampaknya memiliki hubungan yang lebih kuat dengan kategori “Students with disabilities”. Ini bisa berarti bahwa negara-negara ini memiliki proporsi yang lebih tinggi dari siswa dengan disabilitas, atau bahwa kebijakan dan praktik mereka mungkin memiliki dampak yang lebih besar pada kelulusan siswa dengan disabilitas.
Massachusetts, Pennsylvania, New Hampshire, dan Montana tampaknya memiliki hubungan yang lebih dekat dengan kategori “Foster Care”. Ini bisa menunjukkan bahwa negara-negara ini memiliki proporsi yang lebih tinggi dari siswa yang berada dalam perawatan pengasuh, atau bahwa kebijakan dan praktik mereka mungkin berdampak secara signifikan pada kelulusan siswa dalam perawatan pengasuh.
Dengan memahami hubungan ini, pemangku kepentingan pendidikan dapat merumuskan strategi dan kebijakan yang lebih efektif untuk mendukung siswa dari berbagai demografi dan memastikan bahwa setiap siswa memiliki peluang yang sama untuk lulus dan sukses.
Berdasarkan analisis korespondensi yang telah kita lakukan, berikut adalah beberapa poin penting yang dapat kita ambil:
Variasi geografis yang signifikan dalam tingkat kelulusan siswa tampaknya berkorelasi dengan demografi siswa tertentu. Ini mencakup ras/etnis, status ekonomi, status bahasa, dan kebutuhan khusus.
Negara-negara bagian memiliki profil demografis yang berbeda-beda, yang dapat mempengaruhi tingkat kelulusan siswa. Misalnya, beberapa negara tampaknya memiliki pengaruh yang lebih besar dari kelompok ras/etnis tertentu, sementara yang lain tampaknya dipengaruhi oleh status ekonomi, kebutuhan khusus, atau status bahasa siswa.
Kebijakan dan praktik di setiap negara bagian dapat memiliki dampak yang berbeda terhadap tingkat kelulusan siswa, tergantung pada demografi siswa. Oleh karena itu, solusi yang efektif mungkin memerlukan pendekatan yang disesuaikan dengan profil unik setiap negara bagian.
Dengan memahami hubungan ini, kita dapat membantu merumuskan solusi yang lebih efektif untuk meningkatkan tingkat kelulusan siswa di seluruh negeri. Setiap siswa, terlepas dari latar belakang mereka, memiliki hak untuk mendapatkan pendidikan yang berkualitas dan kesempatan yang sama untuk sukses.
Kesimpulannya, kita harus selalu ingat bahwa setiap statistik dan angka yang kita analisis mewakili individu nyata dengan impian dan potensi mereka sendiri. Oleh karena itu, kita memiliki tanggung jawab untuk menggunakan pengetahuan ini untuk menciptakan lingkungan belajar yang lebih adil dan inklusif. Mari kita berharap dan berusaha untuk mencapai kondisi ideal di mana setiap siswa, di setiap negara bagian, memiliki peluang yang sama untuk belajar, berkembang, dan sukses.