Perkembangan teknologi kecerdasan buatan (Artificial Intelligence/AI), khususnya dalam bentuk Generative AI seperti ChatGPT, Copilot, dan berbagai alat serupa, telah membawa perubahan signifikan dalam dunia pendidikan tinggi. Mahasiswa kini tidak hanya mengandalkan metode pembelajaran tradisional, tetapi juga memanfaatkan AI untuk berbagai keperluan akademik seperti merangkum materi, menyusun draf tugas, melakukan pencarian kode, hingga membantu pemecahan masalah kompleks.
Penggunaan AI ini memberikan dampak yang bercabang. Di satu sisi, AI dapat meningkatkan efisiensi belajar dan membantu mahasiswa memahami materi dengan lebih cepat. Namun di sisi lain, terdapat kekhawatiran terkait ketergantungan berlebihan terhadap alat AI yang dapat memengaruhi kemampuan berpikir kritis, retensi keterampilan jangka panjang (Skill_Retention_Score), serta kesehatan mental mahasiswa akibat tekanan akademik yang memicu risiko kejenuhan belajar (Burnout_Risk_Level) (UNESCO, 2023). Studi literatur menunjukkan bahwa integrasi AI yang tidak terkontrol berpotensi menciptakan bias pada hasil belajar dan memicu kecemasan akademik (Anxiety_Level_Exams) (Holmes et al., 2022).
Dataset Impact of AI on Students memberikan gambaran komprehensif mengenai hubungan antara penggunaan AI, performa akademik, perilaku belajar, serta kesejahteraan mental mahasiswa. Dengan jumlah observasi yang besar (50.000 mahasiswa) dan berbagai variabel yang mencakup aspek akademik, perilaku, dan psikologis, dataset ini sangat relevan untuk dianalisis menggunakan pendekatan analisis multivariat. Oleh karena itu, diperlukan suatu analisis mendalam untuk memahami bagaimana pola penggunaan AI memengaruhi hasil akademik mahasiswa, khususnya terhadap nilai akhir semester (Post_Semester_GPA) serta aspek lain seperti Skill_Retention_Score dan Burnout_Risk_Level.
Dataset yang digunakan dalam penelitian ini adalah Impact of AI on Students, yang berisi informasi mengenai 50.000 mahasiswa dari berbagai latar belakang akademik. Dataset ini mencakup 16 variabel yang meliputi aspek akademik, perilaku penggunaan AI, kebiasaan belajar, serta kesejahteraan mental mahasiswa.
## [1] 50000 16
## 'data.frame': 50000 obs. of 16 variables:
## $ Student_ID : int 100001 100002 100003 100004 100005 100006 100007 100008 100009 100010 ...
## $ Major_Category : chr "Humanities" "Medical" "Business" "Business" ...
## $ Year_of_Study : chr "Senior" "Junior" "Freshman" "Senior" ...
## $ Pre_Semester_GPA : num 2.42 3.82 3.4 3.79 3.63 ...
## $ Weekly_GenAI_Hours : num 23.31 1.12 21.26 1.82 9.29 ...
## $ Primary_Use_Case : chr "Copywriting/Drafting" "Ideation" "Summarizing_Reading" "Copywriting/Drafting" ...
## $ Prompt_Engineering_Skill : chr "Beginner" "Advanced" "Beginner" "Intermediate" ...
## $ Tool_Diversity : int 1 5 2 4 4 1 5 3 2 2 ...
## $ Paid_Subscription : chr "True" "False" "False" "False" ...
## $ Traditional_Study_Hours : num 8.13 16.65 10.35 15.23 12.55 ...
## $ Perceived_AI_Dependency : int 5 3 5 2 4 4 8 2 1 3 ...
## $ Institutional_Policy : chr "Allowed_With_Citation" "Allowed_With_Citation" "Strict_Ban" "Allowed_With_Citation" ...
## $ Anxiety_Level_During_Exams: int 6 9 9 2 4 5 7 1 5 8 ...
## $ Post_Semester_GPA : num 2.39 3.7 3.5 4 3.8 ...
## $ Skill_Retention_Score : num 86.4 69.4 73.9 63.6 100 ...
## $ Burnout_Risk_Level : chr "High" "Low" "Medium" "Medium" ...
Berdasarkan hasil proses import data menggunakan fungsi read.csv(), diperoleh dataset yang terdiri dari 50.000 observasi dan 16 variabel dengan tipe data yang beragam, yaitu numerik dan karakter (character). Variabel numerik mencakup informasi kuantitatif seperti nilai GPA dan jam penggunaan AI, sedangkan variabel kategorikal mencakup informasi seperti jurusan dan tingkat studi.
Hasil fungsi str() menunjukkan bahwa struktur data telah terbaca dengan baik dan setiap variabel telah dikenali sesuai tipe datanya. Selain itu, fungsi head() menampilkan beberapa baris pertama data yang memberikan gambaran awal mengenai isi dataset dan menunjukkan bahwa data telah berhasil diimpor tanpa kesalahan format.
Namun demikian, keberadaan missing values belum dapat dipastikan hanya berdasarkan fungsi str() dan head(). Oleh karena itu, diperlukan pemeriksaan lebih lanjut menggunakan metode khusus, seperti colSums(is.na(data)), untuk memastikan kelengkapan data sebelum dilakukan analisis lanjutan.
Dengan demikian, proses import data dapat dikatakan berhasil dan dataset siap untuk tahap eksplorasi dan pemeriksaan kualitas data lebih lanjut.
data %>%
select(
Pre_Semester_GPA,
Post_Semester_GPA,
Weekly_GenAI_Hours,
Traditional_Study_Hours,
Skill_Retention_Score
) %>%
describe()##
## Arts Business Humanities Medical STEM
## 5933 12538 9994 6476 15059
##
## Freshman Graduate Junior Senior Sophomore
## 11031 7430 11045 10634 9860
##
## High Low Medium
## 12487 16369 21144
Berdasarkan hasil statistik deskriptif, terlihat bahwa nilai rata-rata Pre_Semester_GPA sebesar sekitar 3.15, sedangkan Post_Semester_GPA meningkat menjadi sekitar 3.35. Hal ini menunjukkan adanya kecenderungan peningkatan performa akademik mahasiswa setelah satu semester.
Variabel Weekly_GenAI_Hours memiliki rata-rata sebesar 8.43 jam per minggu dengan standar deviasi yang cukup besar (±8.27), yang menunjukkan adanya variasi penggunaan AI yang tinggi antar mahasiswa. Hal ini mengindikasikan bahwa terdapat perbedaan signifikan antara pengguna AI dengan intensitas rendah dan tinggi.
Di sisi lain, Traditional_Study_Hours memiliki rata-rata sekitar 11.21 jam, yang menunjukkan bahwa meskipun teknologi AI digunakan, mahasiswa tetap mempertahankan metode belajar konvensional dalam jumlah yang cukup signifikan.
Variabel psikologis seperti Perceived_AI_Dependency (rata-rata 3.51) dan Anxiety_Level_During_Exams (rata-rata 4.27) menunjukkan tingkat yang bervariasi di antara mahasiswa, mencerminkan adanya perbedaan dalam persepsi ketergantungan terhadap AI dan tingkat kecemasan saat ujian.
Selain itu, Skill_Retention_Score memiliki rata-rata sekitar 75.80, yang menunjukkan bahwa secara umum mahasiswa masih mampu mempertahankan pemahaman materi dengan cukup baik, meskipun menggunakan bantuan AI.
Secara keseluruhan, statistik deskriptif ini menunjukkan bahwa penggunaan AI memiliki variasi yang luas di kalangan mahasiswa, dengan indikasi adanya peningkatan performa akademik, tanpa menghilangkan peran pembelajaran tradisional dan kemampuan retensi keterampilan.
ggplot(data, aes(x = Post_Semester_GPA)) +
geom_histogram(
bins = 30,
fill = "steelblue",
color = "white"
) +
theme_minimal() +
labs(
title = "Distribusi Post Semester GPA Mahasiswa",
x = "Post Semester GPA",
y = "Frekuensi"
)Berdasarkan histogram Post_Semester_GPA, terlihat bahwa sebagian besar mahasiswa memiliki nilai pada rentang menengah hingga tinggi, terutama di sekitar nilai 3 hingga 4. Hal ini menunjukkan bahwa performa akademik mahasiswa secara umum berada pada kategori baik.
Distribusi data cenderung mendekati normal, namun sedikit condong ke kiri (negatively skewed), yang ditunjukkan oleh adanya ekor distribusi pada nilai GPA yang lebih rendah. Hal ini mengindikasikan bahwa hanya sebagian kecil mahasiswa yang memiliki nilai rendah, sementara mayoritas berada pada nilai yang relatif tinggi.
Dengan demikian, distribusi ini menunjukkan bahwa capaian akademik mahasiswa cukup baik secara keseluruhan, dengan variasi yang tidak terlalu ekstrem.
ggplot(data,
aes(
x = Weekly_GenAI_Hours,
y = Post_Semester_GPA
)) +
geom_point(
alpha = 0.1,
color = "darkcyan"
) +
theme_minimal()Scatter plot digunakan untuk melihat hubungan antara penggunaan AI dan performa akademik mahasiswa.
Berdasarkan scatterplot, terlihat bahwa hubungan antara Weekly_GenAI_Hours dan Post_Semester_GPA tidak menunjukkan pola linear yang kuat. Titik-titik data tersebar secara luas di sepanjang sumbu X, yang menandakan bahwa peningkatan penggunaan AI tidak secara konsisten diikuti oleh peningkatan maupun penurunan nilai GPA.
Meskipun terdapat kecenderungan pola yang sedikit positif pada beberapa rentang, sebaran data yang sangat variatif menunjukkan bahwa hubungan antara kedua variabel ini relatif lemah. Hal ini mengindikasikan bahwa penggunaan AI bukan merupakan faktor dominan yang secara langsung memengaruhi performa akademik mahasiswa.
Selain itu, pada tingkat penggunaan AI yang sama, nilai GPA mahasiswa tetap bervariasi cukup besar. Hal ini menunjukkan bahwa terdapat faktor lain yang kemungkinan lebih berpengaruh, seperti kemampuan akademik awal (Pre_Semester_GPA), waktu belajar tradisional, serta faktor psikologis seperti kecemasan dan tingkat ketergantungan terhadap AI.
Dengan demikian, penggunaan AI perlu dianalisis lebih lanjut dalam kombinasi dengan variabel lain untuk memahami pengaruhnya terhadap performa akademik secara lebih komprehensif.
ggplot(
data,
aes(
x = Burnout_Risk_Level,
y = Weekly_GenAI_Hours,
fill = Burnout_Risk_Level
)
) +
geom_boxplot() +
theme_minimal()Boxplot digunakan untuk membandingkan distribusi penggunaan AI pada masing-masing kategori risiko burnout.
Berdasarkan boxplot, terlihat bahwa mahasiswa dengan tingkat burnout yang lebih tinggi (High) cenderung memiliki median penggunaan AI yang sedikit lebih tinggi dibandingkan kategori Low dan Medium. Selain itu, kategori High juga menunjukkan rentang interkuartil (IQR) yang lebih lebar, yang menandakan variasi penggunaan AI yang lebih besar pada kelompok ini.
Hal ini mengindikasikan bahwa mahasiswa dengan tingkat burnout tinggi memiliki pola penggunaan AI yang lebih beragam, mulai dari penggunaan rendah hingga sangat intensif. Sementara itu, pada kategori Low dan Medium, distribusi penggunaan AI relatif lebih terkonsentrasi.
Meskipun demikian, terdapat tumpang tindih distribusi antar kategori burnout, yang menunjukkan bahwa hubungan antara tingkat burnout dan penggunaan AI tidak bersifat deterministik atau mutlak. Artinya, tidak semua mahasiswa dengan penggunaan AI tinggi mengalami burnout tinggi, dan sebaliknya.
Dengan demikian, meskipun terdapat indikasi adanya hubungan antara penggunaan AI dan tingkat burnout, faktor lain kemungkinan juga berperan, sehingga diperlukan analisis lebih lanjut untuk memahami hubungan ini secara lebih mendalam.
num_data <- data %>%
select(
Pre_Semester_GPA,
Post_Semester_GPA,
Weekly_GenAI_Hours,
Traditional_Study_Hours,
Perceived_AI_Dependency,
Anxiety_Level_During_Exams,
Skill_Retention_Score
)
cor_matrix <- cor(num_data)
corrplot(
cor_matrix,
method = "color",
type = "lower",
addCoef.col = "black",
tl.col = "black"
)Matriks korelasi digunakan untuk mengidentifikasi hubungan antarvariabel numerik sebelum dilakukan pemodelan.
Berdasarkan matriks korelasi, terlihat bahwa sebagian besar variabel memiliki hubungan yang lemah hingga sedang, yang ditunjukkan oleh nilai korelasi yang tidak terlalu tinggi (mendekati 0). Hal ini menunjukkan bahwa tidak terdapat hubungan linear yang kuat antar sebagian besar variabel dalam dataset.
Korelasi paling kuat terlihat antara Pre_Semester_GPA dan Post_Semester_GPA, yang menunjukkan adanya hubungan positif yang cukup tinggi. Hal ini mengindikasikan bahwa mahasiswa dengan performa akademik yang baik sebelum semester cenderung mempertahankan atau meningkatkan performanya setelah semester, sehingga mencerminkan konsistensi akademik.
Sementara itu, variabel Weekly_GenAI_Hours menunjukkan korelasi yang relatif lemah dengan Post_Semester_GPA maupun variabel lainnya. Hal ini menunjukkan bahwa penggunaan AI tidak memiliki pengaruh linear yang kuat secara langsung terhadap performa akademik.
Selain itu, variabel psikologis seperti Perceived_AI_Dependency dan Anxiety_Level_During_Exams menunjukkan adanya korelasi tertentu, meskipun tidak terlalu kuat, yang mengindikasikan kemungkinan adanya keterkaitan antara faktor psikologis dalam proses pembelajaran.
Secara keseluruhan, hasil ini menunjukkan bahwa performa akademik mahasiswa tidak dipengaruhi oleh satu faktor tunggal, melainkan merupakan hasil interaksi dari berbagai faktor, sehingga analisis lanjutan seperti regresi multivariat diperlukan untuk memahami hubungan tersebut secara lebih komprehensif.
Tahap pra-pemrosesan data (data preprocessing) merupakan langkah penting dalam analisis data untuk memastikan bahwa data yang digunakan dalam pemodelan telah bersih, konsisten, dan memenuhi asumsi-asumsi statistik yang diperlukan. Pada tahap ini dilakukan pemeriksaan kualitas data, deteksi dan penanganan pencilan (outliers), serta transformasi data jika diperlukan.
Selain itu, dilakukan juga pengujian asumsi yang relevan dengan metode analisis multivariat yang akan digunakan, seperti uji normalitas, multikolinearitas, dan linearitas.
## Student_ID Major_Category
## 0 0
## Year_of_Study Pre_Semester_GPA
## 0 0
## Weekly_GenAI_Hours Primary_Use_Case
## 0 0
## Prompt_Engineering_Skill Tool_Diversity
## 0 0
## Paid_Subscription Traditional_Study_Hours
## 0 0
## Perceived_AI_Dependency Institutional_Policy
## 0 0
## Anxiety_Level_During_Exams Post_Semester_GPA
## 0 0
## Skill_Retention_Score Burnout_Risk_Level
## 0 0
factor_cols <- c(
"Major_Category",
"Year_of_Study",
"Primary_Use_Case",
"Prompt_Engineering_Skill",
"Institutional_Policy",
"Burnout_Risk_Level"
)
data[factor_cols] <- lapply(
data[factor_cols],
as.factor
)Pemeriksaan dilakukan untuk memastikan tidak terdapat missing value. Seluruh variabel kategorik kemudian dikonversi ke tipe factor.
Hasil pemeriksaan menunjukkan bahwa tidak terdapat nilai yang hilang (missing values) pada seluruh variabel dalam dataset. Hal ini menunjukkan bahwa dataset sudah lengkap dan tidak memerlukan imputasi data.
Outliers dapat memengaruhi hasil analisis, terutama pada metode berbasis regresi. Oleh karena itu dilakukan deteksi menggunakan pendekatan IQR.
Q1 <- quantile(data$Weekly_GenAI_Hours, 0.25)
Q3 <- quantile(data$Weekly_GenAI_Hours, 0.75)
IQR_val <- Q3 - Q1
upper_bound <- Q3 + 1.5 * IQR_val
outliers <- data %>%
filter(Weekly_GenAI_Hours > upper_bound)
nrow(outliers)## [1] 2583
Pendekatan IQR digunakan untuk mendeteksi observasi ekstrem pada variabel penggunaan AI mingguan.
Berdasarkan perhitungan menggunakan metode Interquartile Range (IQR), diperoleh sebanyak 2.583 observasi yang tergolong sebagai outliers pada variabel Weekly_GenAI_Hours. Jumlah ini menunjukkan bahwa terdapat proporsi mahasiswa yang memiliki tingkat penggunaan AI di luar rentang normal distribusi data.
Jika dibandingkan dengan total data sebanyak 50.000 observasi, maka outliers tersebut mencakup sekitar 5% dari keseluruhan data, yang menunjukkan bahwa nilai ekstrem tidak mendominasi, tetapi tetap signifikan untuk dianalisis.
Outliers ini umumnya merepresentasikan mahasiswa dengan intensitas penggunaan AI yang sangat tinggi atau sangat rendah dibandingkan mayoritas. Dalam konteks penelitian ini, nilai-nilai tersebut tidak dianggap sebagai kesalahan data, melainkan sebagai bagian dari variasi perilaku nyata dalam penggunaan teknologi AI.
Selain itu, keberadaan outliers perlu diperhatikan karena dapat memengaruhi hasil analisis statistik, terutama pada metode yang sensitif terhadap nilai ekstrem seperti regresi. Namun, mengingat bahwa outliers ini memiliki makna substantif, maka data tetap dipertahankan agar tidak menghilangkan informasi penting yang dapat memberikan insight terhadap pola penggunaan AI yang ekstrem.
num_cols <- data %>%
select(
Weekly_GenAI_Hours,
Traditional_Study_Hours,
Perceived_AI_Dependency
)
scaled_data <- as.data.frame(scale(num_cols))
head(scaled_data)Standardisasi dilakukan untuk menyamakan skala variabel sebelum analisis multivariat.
Berdasarkan hasil standardisasi menggunakan fungsi scale(), seluruh variabel numerik telah ditransformasikan ke dalam bentuk Z-score, yaitu memiliki rata-rata (mean) sebesar 0 dan standar deviasi sebesar 1. Hal ini terlihat dari nilai pada output yang berada di sekitar nol, dengan variasi nilai positif dan negatif.
Nilai positif menunjukkan bahwa suatu observasi berada di atas rata-rata, sedangkan nilai negatif menunjukkan bahwa observasi berada di bawah rata-rata. Sebagai contoh, nilai Weekly_GenAI_Hours sebesar 1.79 menunjukkan bahwa penggunaan AI pada observasi tersebut berada jauh di atas rata-rata, sedangkan nilai -0.88 menunjukkan penggunaan di bawah rata-rata.
Standardisasi ini bertujuan untuk menghilangkan perbedaan skala antar variabel, sehingga variabel dengan rentang nilai besar (seperti jam penggunaan AI) tidak mendominasi variabel lain dalam analisis. Hal ini sangat penting terutama dalam metode analisis multivariat seperti regresi, clustering, dan analisis faktor.
Dengan demikian, proses standardisasi memastikan bahwa setiap variabel memiliki kontribusi yang seimbang dalam analisis lanjutan.
model_temp <- lm(
Post_Semester_GPA ~
Pre_Semester_GPA +
Weekly_GenAI_Hours +
Traditional_Study_Hours +
Perceived_AI_Dependency +
Anxiety_Level_During_Exams,
data = data
)
summary(model_temp)##
## Call:
## lm(formula = Post_Semester_GPA ~ Pre_Semester_GPA + Weekly_GenAI_Hours +
## Traditional_Study_Hours + Perceived_AI_Dependency + Anxiety_Level_During_Exams,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.08453 -0.10774 0.00142 0.11089 0.75512
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.1843931 0.0057637 31.992 < 2e-16 ***
## Pre_Semester_GPA 0.9600200 0.0016089 596.692 < 2e-16 ***
## Weekly_GenAI_Hours 0.0006135 0.0001262 4.860 1.18e-06 ***
## Traditional_Study_Hours 0.0137199 0.0001513 90.682 < 2e-16 ***
## Perceived_AI_Dependency -0.0009744 0.0005762 -1.691 0.0908 .
## Anxiety_Level_During_Exams -0.0025663 0.0003792 -6.768 1.32e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1723 on 49994 degrees of freedom
## Multiple R-squared: 0.8792, Adjusted R-squared: 0.8792
## F-statistic: 7.279e+04 on 5 and 49994 DF, p-value: < 2.2e-16
ggplot(
data.frame(
residuals = residuals(model_temp)
),
aes(x = residuals)
) +
geom_histogram(
bins = 50,
fill = "darkgray",
color = "white"
) +
theme_minimal()Histogram residual digunakan untuk mengevaluasi asumsi normalitas residual model.
Histogram residual menunjukkan bahwa sebaran residual membentuk pola yang menyerupai distribusi normal (berbentuk lonceng atau bell-shaped curve) dengan pusat distribusi berada di sekitar nilai 0. Frekuensi residual paling banyak terdapat di sekitar nol dan semakin berkurang secara bertahap ke arah nilai residual yang lebih kecil maupun lebih besar. Bentuk histogram terlihat relatif simetris antara sisi kiri dan kanan, meskipun terdapat sedikit penyimpangan pada bagian ekor distribusi. Tidak tampak adanya pencilan (outlier) yang ekstrem ataupun pola distribusi yang sangat menceng ke salah satu sisi. Kondisi ini mengindikasikan bahwa residual model cenderung berdistribusi normal, sehingga asumsi normalitas residual dapat dianggap telah terpenuhi. Dengan terpenuhinya asumsi normalitas, hasil estimasi parameter dan pengujian statistik yang dilakukan pada model dapat dianggap lebih valid dan dapat diinterpretasikan dengan tingkat kepercayaan yang lebih baik.
## Pre_Semester_GPA Weekly_GenAI_Hours
## 1.000029 1.836011
## Traditional_Study_Hours Perceived_AI_Dependency
## 1.025427 1.854199
## Anxiety_Level_During_Exams
## 1.113670
Nilai VIF digunakan untuk mendeteksi adanya multikolinearitas antarvariabel independen.
Berdasarkan hasil uji multikolinearitas menggunakan Variance Inflation Factor (VIF), seluruh variabel independen memiliki nilai VIF yang relatif kecil, yaitu berkisar antara 1,000 hingga 1,854. Nilai VIF untuk variabel Pre_Semester_GPA sebesar 1,000, Weekly_GenAI_Hours sebesar 1,836, Traditional_Study_Hours sebesar 1,025, Perceived_AI_Dependency sebesar 1,854, dan Anxiety_Level_During_Exams sebesar 1,114. Karena seluruh nilai VIF berada jauh di bawah batas umum yang digunakan, yaitu 10 (bahkan di bawah 5), maka dapat disimpulkan bahwa tidak terdapat masalah multikolinearitas antar variabel independen dalam model. Dengan demikian, setiap variabel bebas memberikan informasi yang relatif berbeda dan tidak memiliki hubungan linear yang kuat dengan variabel bebas lainnya, sehingga model regresi memenuhi asumsi tidak adanya multikolinearitas.
model_regresi <- lm(
Post_Semester_GPA ~
Pre_Semester_GPA +
Weekly_GenAI_Hours +
Traditional_Study_Hours +
Perceived_AI_Dependency +
Anxiety_Level_During_Exams,
data = data
)
summary(model_regresi)##
## Call:
## lm(formula = Post_Semester_GPA ~ Pre_Semester_GPA + Weekly_GenAI_Hours +
## Traditional_Study_Hours + Perceived_AI_Dependency + Anxiety_Level_During_Exams,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.08453 -0.10774 0.00142 0.11089 0.75512
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.1843931 0.0057637 31.992 < 2e-16 ***
## Pre_Semester_GPA 0.9600200 0.0016089 596.692 < 2e-16 ***
## Weekly_GenAI_Hours 0.0006135 0.0001262 4.860 1.18e-06 ***
## Traditional_Study_Hours 0.0137199 0.0001513 90.682 < 2e-16 ***
## Perceived_AI_Dependency -0.0009744 0.0005762 -1.691 0.0908 .
## Anxiety_Level_During_Exams -0.0025663 0.0003792 -6.768 1.32e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1723 on 49994 degrees of freedom
## Multiple R-squared: 0.8792, Adjusted R-squared: 0.8792
## F-statistic: 7.279e+04 on 5 and 49994 DF, p-value: < 2.2e-16
Berdasarkan hasil analisis regresi linear berganda, diperoleh model regresi sebagai berikut:
\[ \begin{aligned} \text{Post\_Semester\_GPA} =\;& 0.1844 \\ &+ 0.9600(\text{Pre\_Semester\_GPA}) \\ &+ 0.0006(\text{Weekly\_GenAI\_Hours}) \\ &+ 0.0137(\text{Traditional\_Study\_Hours}) \\ &- 0.0010(\text{Perceived\_AI\_Dependency}) \\ &- 0.0026(\text{Anxiety\_Level\_During\_Exams}) \end{aligned} \]
Berdasarkan persamaan regresi yang diperoleh, interpretasi masing-masing koefisien adalah sebagai berikut.
Konstanta (Intercept) sebesar 0,1844 menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka nilai Post_Semester_GPA yang diprediksi adalah sebesar 0,1844.
Pre_Semester_GPA memiliki koefisien sebesar 0,9600 dan signifikan (p-value < 0,001). Artinya, setiap kenaikan 1 satuan pada Pre_Semester_GPA akan meningkatkan Post_Semester_GPA sebesar 0,9600 satuan dengan asumsi variabel lain tetap. Variabel ini merupakan faktor yang paling dominan dalam memengaruhi prestasi akademik semester berikutnya.
Weekly_GenAI_Hours memiliki koefisien sebesar 0,0006 dan signifikan (p-value < 0,001). Hal ini menunjukkan bahwa semakin banyak waktu yang digunakan mahasiswa untuk memanfaatkan Generative AI setiap minggu, maka Post_Semester_GPA cenderung meningkat, meskipun pengaruhnya relatif kecil.
Traditional_Study_Hours memiliki koefisien sebesar 0,0137 dan signifikan (p-value < 0,001). Artinya, setiap penambahan 1 jam belajar konvensional akan meningkatkan Post_Semester_GPA sebesar 0,0137 satuan dengan asumsi variabel lain konstan.
Perceived_AI_Dependency memiliki koefisien sebesar -0,0010 dengan p-value = 0,0908. Koefisien yang bernilai negatif menunjukkan bahwa semakin tinggi tingkat ketergantungan mahasiswa terhadap AI, maka Post_Semester_GPA cenderung menurun. Namun, karena nilai p-value lebih besar dari 0,05, pengaruh variabel ini tidak signifikan pada taraf signifikansi 5%.
Anxiety_Level_During_Exams memiliki koefisien sebesar -0,0026 dan signifikan (p-value < 0,001). Hal ini menunjukkan bahwa semakin tinggi tingkat kecemasan mahasiswa saat menghadapi ujian, maka Post_Semester_GPA cenderung menurun.
Nilai Multiple R-squared yang diperoleh sebesar 0,8792. Hal ini menunjukkan bahwa sebesar 87,92% variasi pada variabel Post_Semester_GPA dapat dijelaskan oleh variabel Pre_Semester_GPA, Weekly_GenAI_Hours, Traditional_Study_Hours, Perceived_AI_Dependency, dan Anxiety_Level_During_Exams secara bersama-sama. Sementara itu, sisanya sebesar 12,08% dijelaskan oleh faktor-faktor lain di luar model yang tidak dimasukkan dalam penelitian.
Nilai Adjusted R-squared sebesar 0,8792 menunjukkan bahwa setelah memperhitungkan jumlah variabel independen dalam model, kemampuan model dalam menjelaskan variasi data tetap sangat tinggi.
Hipotesis yang digunakan adalah:
\[ H_0 : \beta_1 = \beta_2 = \beta_3 = \beta_4 = \beta_5 = 0 \]
\[ H_1 : \text{minimal terdapat satu } \beta_i \neq 0 \]
Berdasarkan hasil regresi diperoleh nilai F-statistic sebesar 72.790 dengan p-value < 0,001. Karena nilai p-value lebih kecil dari 0,05, maka \(H_0\) ditolak.
Dengan demikian, dapat disimpulkan bahwa variabel Pre_Semester_GPA, Weekly_GenAI_Hours, Traditional_Study_Hours, Perceived_AI_Dependency, dan Anxiety_Level_During_Exams secara simultan berpengaruh signifikan terhadap Post_Semester_GPA. Oleh karena itu, model regresi yang dibentuk layak digunakan untuk menjelaskan hubungan antara variabel-variabel tersebut.
Berdasarkan grafik Q-Q Plot residual, terlihat bahwa sebagian besar titik residual mengikuti garis diagonal pada bagian tengah distribusi. Namun, pada bagian ekor kiri dan ekor kanan terdapat penyimpangan yang cukup jelas dari garis diagonal, terutama pada ekor kiri yang membentuk pola melengkung ke bawah.
Penyimpangan tersebut menunjukkan bahwa distribusi residual tidak sepenuhnya mengikuti distribusi normal, sehingga asumsi normalitas residual secara visual kurang terpenuhi. Adanya beberapa titik yang jauh dari garis diagonal juga mengindikasikan kemungkinan terdapat outlier atau observasi ekstrem dalam data.
Meskipun demikian, jumlah observasi pada penelitian ini sangat besar (n = 50.000), sehingga berdasarkan Central Limit Theorem, pelanggaran normalitas residual umumnya tidak memberikan dampak yang signifikan terhadap ketepatan estimasi koefisien regresi maupun pengujian statistik. Oleh karena itu, model regresi masih dapat digunakan untuk analisis dan penarikan kesimpulan, namun hasil uji normalitas perlu dicatat sebagai salah satu keterbatasan model.
Analisis K-Means Clustering dilakukan untuk mengelompokkan mahasiswa berdasarkan pola belajar menggunakan tiga variabel, yaitu Weekly_GenAI_Hours, Traditional_Study_Hours, dan Perceived_AI_Dependency. Sebelum proses clustering dilakukan, seluruh variabel telah distandarisasi untuk menghindari pengaruh perbedaan skala pengukuran antar variabel.
set.seed(123)
kmeans_model <- kmeans(scaled_data, centers = 3, nstart = 25)
data$Cluster <- as.factor(kmeans_model$cluster)
data %>%
group_by(Cluster) %>%
summarise(
Jumlah_Mahasiswa = n(),
Rata_Jam_AI = mean(Weekly_GenAI_Hours),
Rata_Jam_Tradisional = mean(Traditional_Study_Hours),
Rata_Ketergantungan_AI = mean(Perceived_AI_Dependency)
)Berdasarkan hasil clustering dengan jumlah klaster sebanyak 3, diperoleh karakteristik sebagai berikut:
Cluster 1 terdiri dari 20.152 mahasiswa. Kelompok ini memiliki rata-rata penggunaan Generative AI sebesar 5,50 jam per minggu dan rata-rata waktu belajar tradisional sebesar 7,36 jam per minggu. Karakteristik tersebut menunjukkan bahwa mahasiswa dalam kelompok ini menggunakan AI dalam tingkat yang relatif rendah hingga sedang dan juga memiliki intensitas belajar tradisional yang cukup moderat. Kelompok ini dapat dikategorikan sebagai mahasiswa dengan pola belajar yang seimbang namun tidak terlalu intensif.
Cluster 2 terdiri dari 9.355 mahasiswa. Kelompok ini memiliki rata-rata penggunaan Generative AI tertinggi, yaitu 21,90 jam per minggu, dengan rata-rata waktu belajar tradisional sebesar 9,53 jam per minggu. Karakteristik ini menunjukkan bahwa mahasiswa dalam cluster ini sangat aktif memanfaatkan teknologi AI sebagai bagian dari proses belajar mereka. Oleh karena itu, cluster ini dapat disebut sebagai kelompok pengguna AI intensif.
Cluster 3 merupakan cluster terbesar dengan 20.493 mahasiswa. Kelompok ini memiliki rata-rata penggunaan AI sebesar 5,15 jam per minggu, tetapi memiliki rata-rata waktu belajar tradisional tertinggi, yaitu 15,77 jam per minggu. Hal ini menunjukkan bahwa mahasiswa dalam cluster ini lebih mengandalkan metode belajar konvensional dibandingkan penggunaan AI. Oleh karena itu, cluster ini dapat dikategorikan sebagai kelompok pembelajar tradisional intensif.
Temuan utama menunjukkan:
Kesimpulannya, AI berperan sebagai alat pendukung, bukan penentu utama keberhasilan akademik mahasiswa, sedangkan kompetensi awal dan alokasi waktu belajar mandiri tetap menjadi faktor kunci.
Berdasarkan hasil analisis regresi linear berganda dan segmentasi multivariat:
Tingkat Kebaikan Model: Model regresi memiliki \(R^2 = 87.92\%\), menunjukkan bahwa 87.92% variasi Post_Semester_GPA dapat dijelaskan oleh variabel independen. Determinan utama performa akademik akhir semester tetap ditentukan oleh kompetensi awal (Pre_Semester_GPA).
Pengaruh Variabel:
Segmentasi Mahasiswa: Mahasiswa dapat disegmentasikan ke dalam tiga kelompok perilaku belajar berdasarkan porsi belajar:
Holmes, W., Bialik, M., & Fadel, C. (2022). Artificial intelligence in education: Promises and implications for teaching and learning. Center for Curriculum Redesign.
UNESCO. (2023). Guidance for generative AI in education and research. UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000386693