BAB I PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi kecerdasan buatan (Artificial Intelligence/AI), khususnya dalam bentuk Generative AI seperti ChatGPT, Copilot, dan berbagai alat serupa, telah membawa perubahan signifikan dalam dunia pendidikan tinggi. Mahasiswa kini tidak hanya mengandalkan metode pembelajaran tradisional, tetapi juga memanfaatkan AI untuk berbagai keperluan akademik seperti merangkum materi, menyusun draf tugas, melakukan pencarian kode, hingga membantu pemecahan masalah kompleks.

Penggunaan AI ini memberikan dampak yang bercabang. Di satu sisi, AI dapat meningkatkan efisiensi belajar dan membantu mahasiswa memahami materi dengan lebih cepat. Namun di sisi lain, terdapat kekhawatiran terkait ketergantungan berlebihan terhadap alat AI yang dapat memengaruhi kemampuan berpikir kritis, retensi keterampilan jangka panjang (Skill_Retention_Score), serta kesehatan mental mahasiswa akibat tekanan akademik yang memicu risiko kejenuhan belajar (Burnout_Risk_Level) (UNESCO, 2023). Studi literatur menunjukkan bahwa integrasi AI yang tidak terkontrol berpotensi menciptakan bias pada hasil belajar dan memicu kecemasan akademik (Anxiety_Level_Exams) (Holmes et al., 2022).

Dataset Impact of AI on Students memberikan gambaran komprehensif mengenai hubungan antara penggunaan AI, performa akademik, perilaku belajar, serta kesejahteraan mental mahasiswa. Dengan jumlah observasi yang besar (50.000 mahasiswa) dan berbagai variabel yang mencakup aspek akademik, perilaku, dan psikologis, dataset ini sangat relevan untuk dianalisis menggunakan pendekatan analisis multivariat. Oleh karena itu, diperlukan suatu analisis mendalam untuk memahami bagaimana pola penggunaan AI memengaruhi hasil akademik mahasiswa, khususnya terhadap nilai akhir semester (Post_Semester_GPA) serta aspek lain seperti Skill_Retention_Score dan Burnout_Risk_Level.

1.2 Rumusan Masalah

Bagaimana pengaruh variabel Pre_Semester_GPA, Weekly_GenAI_Hours, Trad_Study_Hours, Perceived_AI_Dep, dan Anxiety_Level_Exams terhadap performa akademik mahasiswa (Post_Semester_GPA)?
Apakah terdapat hubungan atau korelasi antara durasi penggunaan AI (Weekly_GenAI_Hours) dengan tingkat retensi keterampilan mahasiswa (Skill_Retention_Score)?
Faktor-faktor apa saja yang paling dominan dalam memengaruhi performa akademik mahasiswa (Post_Semester_GPA) ketika dievaluasi secara bersamaan?
Bagaimana pola segmentasi mahasiswa berdasarkan kombinasi variabel perilaku belajar (Weekly_GenAI_Hours, Trad_Study_Hours, dan Perceived_AI_Dep) mereka?

1.3 Tujuan Penelitian

Mengidentifikasi dan mengukur pengaruh variabel penggunaan AI serta karakteristik belajar terhadap performa akademik mahasiswa (Post_Semester_GPA).
Menganalisis hubungan keeratan korelasi antara jam penggunaan AI (Weekly_GenAI_Hours) dengan tingkat retensi keterampilan pasca-semester (Skill_Retention_Score).
Menentukan determinan utama yang paling berkontribusi terhadap naik-turunnya nilai Post_Semester_GPA.
Menggali pola segmentasi perilaku mahasiswa melalui pendekatan pengelompokkan multivariat berdasarkan variabel Weekly_GenAI_Hours, Trad_Study_Hours, dan Perceived_AI_Dep.

1.4 Manfaat Penelitian

Bagi Akademisi: Memberikan wawasan empiris tentang dampak AI terhadap proses pembelajaran mahasiswa modern.
Bagi Institusi Pendidikan: Menjadi dasar ilmiah dalam merumuskan kebijakan atau regulasi resmi terkait pemanfaatan AI di lingkungan kampus.
Bagi Mahasiswa: Memberikan pemahaman empiris tentang pentingnya menjaga keseimbangan antara penggunaan AI dan studi mandiri konvensional.

1.5 Batasan Masalah

Dataset yang digunakan adalah Impact of AI on Students dengan 50.000 observasi tanpa penambahan data eksternal.
Analisis pemodelan regresi multivariat difokuskan pada variabel dependen Post_Semester_GPA.
Analisis deskriptif dan asosiatif tambahan menyertakan variabel Skill_Retention_Score dan Burnout_Risk_Level untuk melengkapi gambaran dampak psikologis.

BAB II EKSPLORASI DATA DAN STATISTIK DESKRIPTIF

2.1 Deskripsi Dataset

Dataset yang digunakan dalam penelitian ini adalah Impact of AI on Students, yang berisi informasi mengenai 50.000 mahasiswa dari berbagai latar belakang akademik. Dataset ini mencakup 16 variabel yang meliputi aspek akademik, perilaku penggunaan AI, kebiasaan belajar, serta kesejahteraan mental mahasiswa.

2.2 Import Data

data <- read.csv("ai_student_impact_dataset.csv")

dim(data)

## [1] 50000    16

str(data)

## 'data.frame':    50000 obs. of  16 variables:
##  $ Student_ID                : int  100001 100002 100003 100004 100005 100006 100007 100008 100009 100010 ...
##  $ Major_Category            : chr  "Humanities" "Medical" "Business" "Business" ...
##  $ Year_of_Study             : chr  "Senior" "Junior" "Freshman" "Senior" ...
##  $ Pre_Semester_GPA          : num  2.42 3.82 3.4 3.79 3.63 ...
##  $ Weekly_GenAI_Hours        : num  23.31 1.12 21.26 1.82 9.29 ...
##  $ Primary_Use_Case          : chr  "Copywriting/Drafting" "Ideation" "Summarizing_Reading" "Copywriting/Drafting" ...
##  $ Prompt_Engineering_Skill  : chr  "Beginner" "Advanced" "Beginner" "Intermediate" ...
##  $ Tool_Diversity            : int  1 5 2 4 4 1 5 3 2 2 ...
##  $ Paid_Subscription         : chr  "True" "False" "False" "False" ...
##  $ Traditional_Study_Hours   : num  8.13 16.65 10.35 15.23 12.55 ...
##  $ Perceived_AI_Dependency   : int  5 3 5 2 4 4 8 2 1 3 ...
##  $ Institutional_Policy      : chr  "Allowed_With_Citation" "Allowed_With_Citation" "Strict_Ban" "Allowed_With_Citation" ...
##  $ Anxiety_Level_During_Exams: int  6 9 9 2 4 5 7 1 5 8 ...
##  $ Post_Semester_GPA         : num  2.39 3.7 3.5 4 3.8 ...
##  $ Skill_Retention_Score     : num  86.4 69.4 73.9 63.6 100 ...
##  $ Burnout_Risk_Level        : chr  "High" "Low" "Medium" "Medium" ...

Interpretasi

Berdasarkan hasil proses import data menggunakan fungsi read.csv(), diperoleh dataset yang terdiri dari 50.000 observasi dan 16 variabel dengan tipe data yang beragam, yaitu numerik dan karakter (character). Variabel numerik mencakup informasi kuantitatif seperti nilai GPA dan jam penggunaan AI, sedangkan variabel kategorikal mencakup informasi seperti jurusan dan tingkat studi.

Hasil fungsi str() menunjukkan bahwa struktur data telah terbaca dengan baik dan setiap variabel telah dikenali sesuai tipe datanya. Selain itu, fungsi head() menampilkan beberapa baris pertama data yang memberikan gambaran awal mengenai isi dataset dan menunjukkan bahwa data telah berhasil diimpor tanpa kesalahan format.

Namun demikian, keberadaan missing values belum dapat dipastikan hanya berdasarkan fungsi str() dan head(). Oleh karena itu, diperlukan pemeriksaan lebih lanjut menggunakan metode khusus, seperti colSums(is.na(data)), untuk memastikan kelengkapan data sebelum dilakukan analisis lanjutan.

Dengan demikian, proses import data dapat dikatakan berhasil dan dataset siap untuk tahap eksplorasi dan pemeriksaan kualitas data lebih lanjut.

2.3 Statistik Deskriptif

data %>%
  select(
    Pre_Semester_GPA,
    Post_Semester_GPA,
    Weekly_GenAI_Hours,
    Traditional_Study_Hours,
    Skill_Retention_Score
  ) %>%
  describe()

table(data$Major_Category)

## 
##       Arts   Business Humanities    Medical       STEM 
##       5933      12538       9994       6476      15059

table(data$Year_of_Study)

## 
##  Freshman  Graduate    Junior    Senior Sophomore 
##     11031      7430     11045     10634      9860

table(data$Burnout_Risk_Level)

## 
##   High    Low Medium 
##  12487  16369  21144

Interpretasi

Berdasarkan hasil statistik deskriptif, terlihat bahwa nilai rata-rata Pre_Semester_GPA sebesar sekitar 3.15, sedangkan Post_Semester_GPA meningkat menjadi sekitar 3.35. Hal ini menunjukkan adanya kecenderungan peningkatan performa akademik mahasiswa setelah satu semester.

Variabel Weekly_GenAI_Hours memiliki rata-rata sebesar 8.43 jam per minggu dengan standar deviasi yang cukup besar (±8.27), yang menunjukkan adanya variasi penggunaan AI yang tinggi antar mahasiswa. Hal ini mengindikasikan bahwa terdapat perbedaan signifikan antara pengguna AI dengan intensitas rendah dan tinggi.

Di sisi lain, Traditional_Study_Hours memiliki rata-rata sekitar 11.21 jam, yang menunjukkan bahwa meskipun teknologi AI digunakan, mahasiswa tetap mempertahankan metode belajar konvensional dalam jumlah yang cukup signifikan.

Variabel psikologis seperti Perceived_AI_Dependency (rata-rata 3.51) dan Anxiety_Level_During_Exams (rata-rata 4.27) menunjukkan tingkat yang bervariasi di antara mahasiswa, mencerminkan adanya perbedaan dalam persepsi ketergantungan terhadap AI dan tingkat kecemasan saat ujian.

Selain itu, Skill_Retention_Score memiliki rata-rata sekitar 75.80, yang menunjukkan bahwa secara umum mahasiswa masih mampu mempertahankan pemahaman materi dengan cukup baik, meskipun menggunakan bantuan AI.

Secara keseluruhan, statistik deskriptif ini menunjukkan bahwa penggunaan AI memiliki variasi yang luas di kalangan mahasiswa, dengan indikasi adanya peningkatan performa akademik, tanpa menghilangkan peran pembelajaran tradisional dan kemampuan retensi keterampilan.

2.4 Visualisasi Data

2.4.1 Histogram Nilai IPK Akhir

ggplot(data, aes(x = Post_Semester_GPA)) +
  geom_histogram(
    bins = 30,
    fill = "steelblue",
    color = "white"
  ) +
  theme_minimal() +
  labs(
    title = "Distribusi Post Semester GPA Mahasiswa",
    x = "Post Semester GPA",
    y = "Frekuensi"
  )

Interpretasi

Berdasarkan histogram Post_Semester_GPA, terlihat bahwa sebagian besar mahasiswa memiliki nilai pada rentang menengah hingga tinggi, terutama di sekitar nilai 3 hingga 4. Hal ini menunjukkan bahwa performa akademik mahasiswa secara umum berada pada kategori baik.

Distribusi data cenderung mendekati normal, namun sedikit condong ke kiri (negatively skewed), yang ditunjukkan oleh adanya ekor distribusi pada nilai GPA yang lebih rendah. Hal ini mengindikasikan bahwa hanya sebagian kecil mahasiswa yang memiliki nilai rendah, sementara mayoritas berada pada nilai yang relatif tinggi.

Dengan demikian, distribusi ini menunjukkan bahwa capaian akademik mahasiswa cukup baik secara keseluruhan, dengan variasi yang tidak terlalu ekstrem.

2.4.2 Hubungan Penggunaan AI dengan IPK Akhir

ggplot(data,
       aes(
         x = Weekly_GenAI_Hours,
         y = Post_Semester_GPA
       )) +
  geom_point(
    alpha = 0.1,
    color = "darkcyan"
  ) +
  theme_minimal()

Interpretasi

Scatter plot digunakan untuk melihat hubungan antara penggunaan AI dan performa akademik mahasiswa.

Berdasarkan scatterplot, terlihat bahwa hubungan antara Weekly_GenAI_Hours dan Post_Semester_GPA tidak menunjukkan pola linear yang kuat. Titik-titik data tersebar secara luas di sepanjang sumbu X, yang menandakan bahwa peningkatan penggunaan AI tidak secara konsisten diikuti oleh peningkatan maupun penurunan nilai GPA.

Meskipun terdapat kecenderungan pola yang sedikit positif pada beberapa rentang, sebaran data yang sangat variatif menunjukkan bahwa hubungan antara kedua variabel ini relatif lemah. Hal ini mengindikasikan bahwa penggunaan AI bukan merupakan faktor dominan yang secara langsung memengaruhi performa akademik mahasiswa.

Selain itu, pada tingkat penggunaan AI yang sama, nilai GPA mahasiswa tetap bervariasi cukup besar. Hal ini menunjukkan bahwa terdapat faktor lain yang kemungkinan lebih berpengaruh, seperti kemampuan akademik awal (Pre_Semester_GPA), waktu belajar tradisional, serta faktor psikologis seperti kecemasan dan tingkat ketergantungan terhadap AI.

Dengan demikian, penggunaan AI perlu dianalisis lebih lanjut dalam kombinasi dengan variabel lain untuk memahami pengaruhnya terhadap performa akademik secara lebih komprehensif.

2.4.3 Distribusi Penggunaan AI Berdasarkan Tingkat Risiko Burnout

ggplot(
  data,
  aes(
    x = Burnout_Risk_Level,
    y = Weekly_GenAI_Hours,
    fill = Burnout_Risk_Level
  )
) +
  geom_boxplot() +
  theme_minimal()

Interpretasi

Boxplot digunakan untuk membandingkan distribusi penggunaan AI pada masing-masing kategori risiko burnout.

Berdasarkan boxplot, terlihat bahwa mahasiswa dengan tingkat burnout yang lebih tinggi (High) cenderung memiliki median penggunaan AI yang sedikit lebih tinggi dibandingkan kategori Low dan Medium. Selain itu, kategori High juga menunjukkan rentang interkuartil (IQR) yang lebih lebar, yang menandakan variasi penggunaan AI yang lebih besar pada kelompok ini.

Hal ini mengindikasikan bahwa mahasiswa dengan tingkat burnout tinggi memiliki pola penggunaan AI yang lebih beragam, mulai dari penggunaan rendah hingga sangat intensif. Sementara itu, pada kategori Low dan Medium, distribusi penggunaan AI relatif lebih terkonsentrasi.

Meskipun demikian, terdapat tumpang tindih distribusi antar kategori burnout, yang menunjukkan bahwa hubungan antara tingkat burnout dan penggunaan AI tidak bersifat deterministik atau mutlak. Artinya, tidak semua mahasiswa dengan penggunaan AI tinggi mengalami burnout tinggi, dan sebaliknya.

Dengan demikian, meskipun terdapat indikasi adanya hubungan antara penggunaan AI dan tingkat burnout, faktor lain kemungkinan juga berperan, sehingga diperlukan analisis lebih lanjut untuk memahami hubungan ini secara lebih mendalam.

2.4.4 Matriks Korelasi Variabel Numerik

num_data <- data %>%
  select(
    Pre_Semester_GPA,
    Post_Semester_GPA,
    Weekly_GenAI_Hours,
    Traditional_Study_Hours,
    Perceived_AI_Dependency,
    Anxiety_Level_During_Exams,
    Skill_Retention_Score
  )

cor_matrix <- cor(num_data)

corrplot(
  cor_matrix,
  method = "color",
  type = "lower",
  addCoef.col = "black",
  tl.col = "black"
)

Interpretasi

Matriks korelasi digunakan untuk mengidentifikasi hubungan antarvariabel numerik sebelum dilakukan pemodelan.

Berdasarkan matriks korelasi, terlihat bahwa sebagian besar variabel memiliki hubungan yang lemah hingga sedang, yang ditunjukkan oleh nilai korelasi yang tidak terlalu tinggi (mendekati 0). Hal ini menunjukkan bahwa tidak terdapat hubungan linear yang kuat antar sebagian besar variabel dalam dataset.

Korelasi paling kuat terlihat antara Pre_Semester_GPA dan Post_Semester_GPA, yang menunjukkan adanya hubungan positif yang cukup tinggi. Hal ini mengindikasikan bahwa mahasiswa dengan performa akademik yang baik sebelum semester cenderung mempertahankan atau meningkatkan performanya setelah semester, sehingga mencerminkan konsistensi akademik.

Sementara itu, variabel Weekly_GenAI_Hours menunjukkan korelasi yang relatif lemah dengan Post_Semester_GPA maupun variabel lainnya. Hal ini menunjukkan bahwa penggunaan AI tidak memiliki pengaruh linear yang kuat secara langsung terhadap performa akademik.

Selain itu, variabel psikologis seperti Perceived_AI_Dependency dan Anxiety_Level_During_Exams menunjukkan adanya korelasi tertentu, meskipun tidak terlalu kuat, yang mengindikasikan kemungkinan adanya keterkaitan antara faktor psikologis dalam proses pembelajaran.

Secara keseluruhan, hasil ini menunjukkan bahwa performa akademik mahasiswa tidak dipengaruhi oleh satu faktor tunggal, melainkan merupakan hasil interaksi dari berbagai faktor, sehingga analisis lanjutan seperti regresi multivariat diperlukan untuk memahami hubungan tersebut secara lebih komprehensif.

BAB III PRA-PEMROSESAN DATA DAN PENGUJIAN ASUMSI

Tahap pra-pemrosesan data (data preprocessing) merupakan langkah penting dalam analisis data untuk memastikan bahwa data yang digunakan dalam pemodelan telah bersih, konsisten, dan memenuhi asumsi-asumsi statistik yang diperlukan. Pada tahap ini dilakukan pemeriksaan kualitas data, deteksi dan penanganan pencilan (outliers), serta transformasi data jika diperlukan.

Selain itu, dilakukan juga pengujian asumsi yang relevan dengan metode analisis multivariat yang akan digunakan, seperti uji normalitas, multikolinearitas, dan linearitas.

3.1 Pemeriksaan Kualitas Data dan Konversi

colSums(is.na(data))

##                 Student_ID             Major_Category 
##                          0                          0 
##              Year_of_Study           Pre_Semester_GPA 
##                          0                          0 
##         Weekly_GenAI_Hours           Primary_Use_Case 
##                          0                          0 
##   Prompt_Engineering_Skill             Tool_Diversity 
##                          0                          0 
##          Paid_Subscription    Traditional_Study_Hours 
##                          0                          0 
##    Perceived_AI_Dependency       Institutional_Policy 
##                          0                          0 
## Anxiety_Level_During_Exams          Post_Semester_GPA 
##                          0                          0 
##      Skill_Retention_Score         Burnout_Risk_Level 
##                          0                          0

factor_cols <- c(
  "Major_Category",
  "Year_of_Study",
  "Primary_Use_Case",
  "Prompt_Engineering_Skill",
  "Institutional_Policy",
  "Burnout_Risk_Level"
)

data[factor_cols] <- lapply(
  data[factor_cols],
  as.factor
)

Interpretasi

Pemeriksaan dilakukan untuk memastikan tidak terdapat missing value. Seluruh variabel kategorik kemudian dikonversi ke tipe factor.

Hasil pemeriksaan menunjukkan bahwa tidak terdapat nilai yang hilang (missing values) pada seluruh variabel dalam dataset. Hal ini menunjukkan bahwa dataset sudah lengkap dan tidak memerlukan imputasi data.

3.2 Deteksi Outliers dengan Pendekatan IQR

Outliers dapat memengaruhi hasil analisis, terutama pada metode berbasis regresi. Oleh karena itu dilakukan deteksi menggunakan pendekatan IQR.

Q1 <- quantile(data$Weekly_GenAI_Hours, 0.25)
Q3 <- quantile(data$Weekly_GenAI_Hours, 0.75)

IQR_val <- Q3 - Q1

upper_bound <- Q3 + 1.5 * IQR_val

outliers <- data %>%
  filter(Weekly_GenAI_Hours > upper_bound)

nrow(outliers)

## [1] 2583

Interpretasi

Pendekatan IQR digunakan untuk mendeteksi observasi ekstrem pada variabel penggunaan AI mingguan.

Berdasarkan perhitungan menggunakan metode Interquartile Range (IQR), diperoleh sebanyak 2.583 observasi yang tergolong sebagai outliers pada variabel Weekly_GenAI_Hours. Jumlah ini menunjukkan bahwa terdapat proporsi mahasiswa yang memiliki tingkat penggunaan AI di luar rentang normal distribusi data.

Jika dibandingkan dengan total data sebanyak 50.000 observasi, maka outliers tersebut mencakup sekitar 5% dari keseluruhan data, yang menunjukkan bahwa nilai ekstrem tidak mendominasi, tetapi tetap signifikan untuk dianalisis.

Outliers ini umumnya merepresentasikan mahasiswa dengan intensitas penggunaan AI yang sangat tinggi atau sangat rendah dibandingkan mayoritas. Dalam konteks penelitian ini, nilai-nilai tersebut tidak dianggap sebagai kesalahan data, melainkan sebagai bagian dari variasi perilaku nyata dalam penggunaan teknologi AI.

Selain itu, keberadaan outliers perlu diperhatikan karena dapat memengaruhi hasil analisis statistik, terutama pada metode yang sensitif terhadap nilai ekstrem seperti regresi. Namun, mengingat bahwa outliers ini memiliki makna substantif, maka data tetap dipertahankan agar tidak menghilangkan informasi penting yang dapat memberikan insight terhadap pola penggunaan AI yang ekstrem.

3.3 Transformasi dan Standardisasi Data

num_cols <- data %>%
  select(
    Weekly_GenAI_Hours,
    Traditional_Study_Hours,
    Perceived_AI_Dependency
  )

scaled_data <- as.data.frame(scale(num_cols))

head(scaled_data)

Interpretasi

Standardisasi dilakukan untuk menyamakan skala variabel sebelum analisis multivariat.

Berdasarkan hasil standardisasi menggunakan fungsi scale(), seluruh variabel numerik telah ditransformasikan ke dalam bentuk Z-score, yaitu memiliki rata-rata (mean) sebesar 0 dan standar deviasi sebesar 1. Hal ini terlihat dari nilai pada output yang berada di sekitar nol, dengan variasi nilai positif dan negatif.

Nilai positif menunjukkan bahwa suatu observasi berada di atas rata-rata, sedangkan nilai negatif menunjukkan bahwa observasi berada di bawah rata-rata. Sebagai contoh, nilai Weekly_GenAI_Hours sebesar 1.79 menunjukkan bahwa penggunaan AI pada observasi tersebut berada jauh di atas rata-rata, sedangkan nilai -0.88 menunjukkan penggunaan di bawah rata-rata.

Standardisasi ini bertujuan untuk menghilangkan perbedaan skala antar variabel, sehingga variabel dengan rentang nilai besar (seperti jam penggunaan AI) tidak mendominasi variabel lain dalam analisis. Hal ini sangat penting terutama dalam metode analisis multivariat seperti regresi, clustering, dan analisis faktor.

Dengan demikian, proses standardisasi memastikan bahwa setiap variabel memiliki kontribusi yang seimbang dalam analisis lanjutan.

3.4 Pengujian Asumsi Regresi

model_temp <- lm(
  Post_Semester_GPA ~
    Pre_Semester_GPA +
    Weekly_GenAI_Hours +
    Traditional_Study_Hours +
    Perceived_AI_Dependency +
    Anxiety_Level_During_Exams,
  data = data
)

summary(model_temp)

## 
## Call:
## lm(formula = Post_Semester_GPA ~ Pre_Semester_GPA + Weekly_GenAI_Hours + 
##     Traditional_Study_Hours + Perceived_AI_Dependency + Anxiety_Level_During_Exams, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.08453 -0.10774  0.00142  0.11089  0.75512 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 0.1843931  0.0057637  31.992  < 2e-16 ***
## Pre_Semester_GPA            0.9600200  0.0016089 596.692  < 2e-16 ***
## Weekly_GenAI_Hours          0.0006135  0.0001262   4.860 1.18e-06 ***
## Traditional_Study_Hours     0.0137199  0.0001513  90.682  < 2e-16 ***
## Perceived_AI_Dependency    -0.0009744  0.0005762  -1.691   0.0908 .  
## Anxiety_Level_During_Exams -0.0025663  0.0003792  -6.768 1.32e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1723 on 49994 degrees of freedom
## Multiple R-squared:  0.8792, Adjusted R-squared:  0.8792 
## F-statistic: 7.279e+04 on 5 and 49994 DF,  p-value: < 2.2e-16

3.4.1 Uji Normalitas Residual

ggplot(
  data.frame(
    residuals = residuals(model_temp)
  ),
  aes(x = residuals)
) +
  geom_histogram(
    bins = 50,
    fill = "darkgray",
    color = "white"
  ) +
  theme_minimal()

Interpretasi

Histogram residual digunakan untuk mengevaluasi asumsi normalitas residual model.

Histogram residual menunjukkan bahwa sebaran residual membentuk pola yang menyerupai distribusi normal (berbentuk lonceng atau bell-shaped curve) dengan pusat distribusi berada di sekitar nilai 0. Frekuensi residual paling banyak terdapat di sekitar nol dan semakin berkurang secara bertahap ke arah nilai residual yang lebih kecil maupun lebih besar. Bentuk histogram terlihat relatif simetris antara sisi kiri dan kanan, meskipun terdapat sedikit penyimpangan pada bagian ekor distribusi. Tidak tampak adanya pencilan (outlier) yang ekstrem ataupun pola distribusi yang sangat menceng ke salah satu sisi. Kondisi ini mengindikasikan bahwa residual model cenderung berdistribusi normal, sehingga asumsi normalitas residual dapat dianggap telah terpenuhi. Dengan terpenuhinya asumsi normalitas, hasil estimasi parameter dan pengujian statistik yang dilakukan pada model dapat dianggap lebih valid dan dapat diinterpretasikan dengan tingkat kepercayaan yang lebih baik.

3.4.2 Uji Multikolinearitas (VIF)

vif(model_temp)

##           Pre_Semester_GPA         Weekly_GenAI_Hours 
##                   1.000029                   1.836011 
##    Traditional_Study_Hours    Perceived_AI_Dependency 
##                   1.025427                   1.854199 
## Anxiety_Level_During_Exams 
##                   1.113670

Interpretasi

Nilai VIF digunakan untuk mendeteksi adanya multikolinearitas antarvariabel independen.

Berdasarkan hasil uji multikolinearitas menggunakan Variance Inflation Factor (VIF), seluruh variabel independen memiliki nilai VIF yang relatif kecil, yaitu berkisar antara 1,000 hingga 1,854. Nilai VIF untuk variabel Pre_Semester_GPA sebesar 1,000, Weekly_GenAI_Hours sebesar 1,836, Traditional_Study_Hours sebesar 1,025, Perceived_AI_Dependency sebesar 1,854, dan Anxiety_Level_During_Exams sebesar 1,114. Karena seluruh nilai VIF berada jauh di bawah batas umum yang digunakan, yaitu 10 (bahkan di bawah 5), maka dapat disimpulkan bahwa tidak terdapat masalah multikolinearitas antar variabel independen dalam model. Dengan demikian, setiap variabel bebas memberikan informasi yang relatif berbeda dan tidak memiliki hubungan linear yang kuat dengan variabel bebas lainnya, sehingga model regresi memenuhi asumsi tidak adanya multikolinearitas.

BAB IV PEMODELAN, EVALUASI, DAN PEMBAHASAN

4.1 Hasil Output Regresi Linear Berganda

model_regresi <- lm(
  Post_Semester_GPA ~
    Pre_Semester_GPA +
    Weekly_GenAI_Hours +
    Traditional_Study_Hours +
    Perceived_AI_Dependency +
    Anxiety_Level_During_Exams,
  data = data
)

summary(model_regresi)

## 
## Call:
## lm(formula = Post_Semester_GPA ~ Pre_Semester_GPA + Weekly_GenAI_Hours + 
##     Traditional_Study_Hours + Perceived_AI_Dependency + Anxiety_Level_During_Exams, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.08453 -0.10774  0.00142  0.11089  0.75512 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 0.1843931  0.0057637  31.992  < 2e-16 ***
## Pre_Semester_GPA            0.9600200  0.0016089 596.692  < 2e-16 ***
## Weekly_GenAI_Hours          0.0006135  0.0001262   4.860 1.18e-06 ***
## Traditional_Study_Hours     0.0137199  0.0001513  90.682  < 2e-16 ***
## Perceived_AI_Dependency    -0.0009744  0.0005762  -1.691   0.0908 .  
## Anxiety_Level_During_Exams -0.0025663  0.0003792  -6.768 1.32e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1723 on 49994 degrees of freedom
## Multiple R-squared:  0.8792, Adjusted R-squared:  0.8792 
## F-statistic: 7.279e+04 on 5 and 49994 DF,  p-value: < 2.2e-16

4.1.1 Hasil Output Regresi Linear Berganda

Berdasarkan hasil analisis regresi linear berganda, diperoleh model regresi sebagai berikut:

\[ \begin{aligned} \text{Post\_Semester\_GPA} =\;& 0.1844 \\ &+ 0.9600(\text{Pre\_Semester\_GPA}) \\ &+ 0.0006(\text{Weekly\_GenAI\_Hours}) \\ &+ 0.0137(\text{Traditional\_Study\_Hours}) \\ &- 0.0010(\text{Perceived\_AI\_Dependency}) \\ &- 0.0026(\text{Anxiety\_Level\_During\_Exams}) \end{aligned} \]

Interpretasi Model Regresi

Berdasarkan persamaan regresi yang diperoleh, interpretasi masing-masing koefisien adalah sebagai berikut.

Konstanta (Intercept) sebesar 0,1844 menunjukkan bahwa apabila seluruh variabel independen bernilai nol, maka nilai Post_Semester_GPA yang diprediksi adalah sebesar 0,1844.
Pre_Semester_GPA memiliki koefisien sebesar 0,9600 dan signifikan (p-value < 0,001). Artinya, setiap kenaikan 1 satuan pada Pre_Semester_GPA akan meningkatkan Post_Semester_GPA sebesar 0,9600 satuan dengan asumsi variabel lain tetap. Variabel ini merupakan faktor yang paling dominan dalam memengaruhi prestasi akademik semester berikutnya.
Weekly_GenAI_Hours memiliki koefisien sebesar 0,0006 dan signifikan (p-value < 0,001). Hal ini menunjukkan bahwa semakin banyak waktu yang digunakan mahasiswa untuk memanfaatkan Generative AI setiap minggu, maka Post_Semester_GPA cenderung meningkat, meskipun pengaruhnya relatif kecil.
Traditional_Study_Hours memiliki koefisien sebesar 0,0137 dan signifikan (p-value < 0,001). Artinya, setiap penambahan 1 jam belajar konvensional akan meningkatkan Post_Semester_GPA sebesar 0,0137 satuan dengan asumsi variabel lain konstan.
Perceived_AI_Dependency memiliki koefisien sebesar -0,0010 dengan p-value = 0,0908. Koefisien yang bernilai negatif menunjukkan bahwa semakin tinggi tingkat ketergantungan mahasiswa terhadap AI, maka Post_Semester_GPA cenderung menurun. Namun, karena nilai p-value lebih besar dari 0,05, pengaruh variabel ini tidak signifikan pada taraf signifikansi 5%.
Anxiety_Level_During_Exams memiliki koefisien sebesar -0,0026 dan signifikan (p-value < 0,001). Hal ini menunjukkan bahwa semakin tinggi tingkat kecemasan mahasiswa saat menghadapi ujian, maka Post_Semester_GPA cenderung menurun.

Koefisien Determinasi (\(R^2\))

Nilai Multiple R-squared yang diperoleh sebesar 0,8792. Hal ini menunjukkan bahwa sebesar 87,92% variasi pada variabel Post_Semester_GPA dapat dijelaskan oleh variabel Pre_Semester_GPA, Weekly_GenAI_Hours, Traditional_Study_Hours, Perceived_AI_Dependency, dan Anxiety_Level_During_Exams secara bersama-sama. Sementara itu, sisanya sebesar 12,08% dijelaskan oleh faktor-faktor lain di luar model yang tidak dimasukkan dalam penelitian.

Nilai Adjusted R-squared sebesar 0,8792 menunjukkan bahwa setelah memperhitungkan jumlah variabel independen dalam model, kemampuan model dalam menjelaskan variasi data tetap sangat tinggi.

Uji Signifikansi Simultan (Uji F)

Hipotesis yang digunakan adalah:

\[ H_0 : \beta_1 = \beta_2 = \beta_3 = \beta_4 = \beta_5 = 0 \]

\[ H_1 : \text{minimal terdapat satu } \beta_i \neq 0 \]

Berdasarkan hasil regresi diperoleh nilai F-statistic sebesar 72.790 dengan p-value < 0,001. Karena nilai p-value lebih kecil dari 0,05, maka \(H_0\) ditolak.

Dengan demikian, dapat disimpulkan bahwa variabel Pre_Semester_GPA, Weekly_GenAI_Hours, Traditional_Study_Hours, Perceived_AI_Dependency, dan Anxiety_Level_During_Exams secara simultan berpengaruh signifikan terhadap Post_Semester_GPA. Oleh karena itu, model regresi yang dibentuk layak digunakan untuk menjelaskan hubungan antara variabel-variabel tersebut.

4.2 Evaluasi Kebaikan Model (Goodness of Fit)

plot(model_regresi, which = 2) # Normal Q-Q Plot

Interpretasi

Berdasarkan grafik Q-Q Plot residual, terlihat bahwa sebagian besar titik residual mengikuti garis diagonal pada bagian tengah distribusi. Namun, pada bagian ekor kiri dan ekor kanan terdapat penyimpangan yang cukup jelas dari garis diagonal, terutama pada ekor kiri yang membentuk pola melengkung ke bawah.

Penyimpangan tersebut menunjukkan bahwa distribusi residual tidak sepenuhnya mengikuti distribusi normal, sehingga asumsi normalitas residual secara visual kurang terpenuhi. Adanya beberapa titik yang jauh dari garis diagonal juga mengindikasikan kemungkinan terdapat outlier atau observasi ekstrem dalam data.

Meskipun demikian, jumlah observasi pada penelitian ini sangat besar (n = 50.000), sehingga berdasarkan Central Limit Theorem, pelanggaran normalitas residual umumnya tidak memberikan dampak yang signifikan terhadap ketepatan estimasi koefisien regresi maupun pengujian statistik. Oleh karena itu, model regresi masih dapat digunakan untuk analisis dan penarikan kesimpulan, namun hasil uji normalitas perlu dicatat sebagai salah satu keterbatasan model.

4.3 Analisis Multivariat Tambahan (K-Means Clustering)

Analisis K-Means Clustering dilakukan untuk mengelompokkan mahasiswa berdasarkan pola belajar menggunakan tiga variabel, yaitu Weekly_GenAI_Hours, Traditional_Study_Hours, dan Perceived_AI_Dependency. Sebelum proses clustering dilakukan, seluruh variabel telah distandarisasi untuk menghindari pengaruh perbedaan skala pengukuran antar variabel.

set.seed(123)
kmeans_model <- kmeans(scaled_data, centers = 3, nstart = 25)
data$Cluster <- as.factor(kmeans_model$cluster)

data %>% 
  group_by(Cluster) %>% 
  summarise(
    Jumlah_Mahasiswa = n(),
    Rata_Jam_AI = mean(Weekly_GenAI_Hours),
    Rata_Jam_Tradisional = mean(Traditional_Study_Hours),
    Rata_Ketergantungan_AI = mean(Perceived_AI_Dependency)
  )

Interpretasi Profil Klaster

Berdasarkan hasil clustering dengan jumlah klaster sebanyak 3, diperoleh karakteristik sebagai berikut:

Cluster 1: Pengguna AI dan Belajar Tradisional Sedang

Cluster 1 terdiri dari 20.152 mahasiswa. Kelompok ini memiliki rata-rata penggunaan Generative AI sebesar 5,50 jam per minggu dan rata-rata waktu belajar tradisional sebesar 7,36 jam per minggu. Karakteristik tersebut menunjukkan bahwa mahasiswa dalam kelompok ini menggunakan AI dalam tingkat yang relatif rendah hingga sedang dan juga memiliki intensitas belajar tradisional yang cukup moderat. Kelompok ini dapat dikategorikan sebagai mahasiswa dengan pola belajar yang seimbang namun tidak terlalu intensif.

Cluster 2: Pengguna AI Intensif

Cluster 2 terdiri dari 9.355 mahasiswa. Kelompok ini memiliki rata-rata penggunaan Generative AI tertinggi, yaitu 21,90 jam per minggu, dengan rata-rata waktu belajar tradisional sebesar 9,53 jam per minggu. Karakteristik ini menunjukkan bahwa mahasiswa dalam cluster ini sangat aktif memanfaatkan teknologi AI sebagai bagian dari proses belajar mereka. Oleh karena itu, cluster ini dapat disebut sebagai kelompok pengguna AI intensif.

Cluster 3: Pembelajar Tradisional Intensif

Cluster 3 merupakan cluster terbesar dengan 20.493 mahasiswa. Kelompok ini memiliki rata-rata penggunaan AI sebesar 5,15 jam per minggu, tetapi memiliki rata-rata waktu belajar tradisional tertinggi, yaitu 15,77 jam per minggu. Hal ini menunjukkan bahwa mahasiswa dalam cluster ini lebih mengandalkan metode belajar konvensional dibandingkan penggunaan AI. Oleh karena itu, cluster ini dapat dikategorikan sebagai kelompok pembelajar tradisional intensif.

4.4 Pembahasan Integratif

Temuan utama menunjukkan:

Pre_Semester_GPA tetap menjadi determinan utama performa akademik.
Traditional_Study_Hours berkontribusi signifikan terhadap kenaikan Post_Semester_GPA.
Penggunaan AI (Weekly_GenAI_Hours) memberikan efek positif, tetapi magnitudo sangat kecil.
Faktor psikologis seperti Anxiety_Level_During_Exams dan Perceived_AI_Dependency menurunkan nilai akademik secara konsisten.
Segmentasi K-Means menunjukkan perilaku belajar mahasiswa terbagi menjadi tiga kelompok utama (Traditional, Heavy AI Users, Balanced), yang dapat membantu institusi memahami pola penggunaan AI dan strategi pembelajaran.

Kesimpulannya, AI berperan sebagai alat pendukung, bukan penentu utama keberhasilan akademik mahasiswa, sedangkan kompetensi awal dan alokasi waktu belajar mandiri tetap menjadi faktor kunci.

BAB V KESIMPULAN DAN REKOMENDASI

5.1 Kesimpulan

Berdasarkan hasil analisis regresi linear berganda dan segmentasi multivariat:

Tingkat Kebaikan Model: Model regresi memiliki \(R^2 = 87.92\%\), menunjukkan bahwa 87.92% variasi Post_Semester_GPA dapat dijelaskan oleh variabel independen. Determinan utama performa akademik akhir semester tetap ditentukan oleh kompetensi awal (Pre_Semester_GPA).
Pengaruh Variabel:
- Weekly_GenAI_Hours berpengaruh positif signifikan terhadap Post_Semester_GPA, namun efek riilnya sangat kecil dibandingkan Traditional_Study_Hours.
- Traditional_Study_Hours memberikan kontribusi nyata dalam peningkatan nilai akhir.
- Anxiety_Level_During_Exams dan Perceived_AI_Dependency memberikan efek negatif signifikan terhadap nilai akhir mahasiswa.
Segmentasi Mahasiswa: Mahasiswa dapat disegmentasikan ke dalam tiga kelompok perilaku belajar berdasarkan porsi belajar:
- Traditional Learners: Fokus pada belajar konvensional dengan penggunaan AI rendah.
- Heavy AI Users / Dependent: Penggunaan AI tinggi dan ketergantungan AI tinggi.
- Balanced Learners: Mahasiswa adaptif yang mengkombinasikan penggunaan AI dan belajar tradisional secara seimbang.

5.2 Rekomendasi

Bagi Mahasiswa

Disarankan mengadopsi pola belajar Balanced Learners, yaitu mengintegrasikan Generative AI secukupnya sebagai alat bantu efisiensi, sambil tetap mempertahankan waktu belajar konvensional secara mendalam.

Bagi Institusi Pendidikan

Tidak melarang penggunaan AI secara total, tetapi merumuskan regulasi pemanfaatan AI yang bijak (Allowed With Citation).
Memperkuat layanan konseling akademik untuk membantu mahasiswa mengurangi tingkat kecemasan saat ujian (Anxiety_Level_During_Exams).

Bagi Penelitian Selanjutnya

Mengeksplorasi hubungan non-linear antara penggunaan AI dan performa akademik.
Menggunakan pemodelan Structural Equation Modeling (SEM) untuk menguji apakah ketergantungan AI (Perceived_AI_Dependency) memengaruhi nilai Post_Semester_GPA secara tidak langsung melalui variabel antara seperti Skill_Retention_Score.

DAFTAR PUSTAKA

Holmes, W., Bialik, M., & Fadel, C. (2022). Artificial intelligence in education: Promises and implications for teaching and learning. Center for Curriculum Redesign.

UNESCO. (2023). Guidance for generative AI in education and research. UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000386693

Analisis Dampak Penggunaan AI terhadap Performa Akademik Mahasiswa

Najwa Aulia Putri (2406351882)

2026-06-05

BAB I PENDAHULUAN

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Tujuan Penelitian

1.4 Manfaat Penelitian

1.5 Batasan Masalah

BAB II EKSPLORASI DATA DAN STATISTIK DESKRIPTIF

2.1 Deskripsi Dataset

2.2 Import Data

Interpretasi

2.3 Statistik Deskriptif

Interpretasi

2.4 Visualisasi Data

2.4.1 Histogram Nilai IPK Akhir

Interpretasi

2.4.2 Hubungan Penggunaan AI dengan IPK Akhir

Interpretasi

2.4.3 Distribusi Penggunaan AI Berdasarkan Tingkat Risiko Burnout

Interpretasi

2.4.4 Matriks Korelasi Variabel Numerik

Interpretasi

BAB III PRA-PEMROSESAN DATA DAN PENGUJIAN ASUMSI

3.1 Pemeriksaan Kualitas Data dan Konversi

Interpretasi

3.2 Deteksi Outliers dengan Pendekatan IQR

Interpretasi

3.3 Transformasi dan Standardisasi Data

Interpretasi

3.4 Pengujian Asumsi Regresi

3.4.1 Uji Normalitas Residual

Interpretasi

3.4.2 Uji Multikolinearitas (VIF)

Interpretasi

BAB IV PEMODELAN, EVALUASI, DAN PEMBAHASAN

4.1 Hasil Output Regresi Linear Berganda

4.1.1 Hasil Output Regresi Linear Berganda

Interpretasi Model Regresi

Koefisien Determinasi (\(R^2\))

Uji Signifikansi Simultan (Uji F)

4.2 Evaluasi Kebaikan Model (Goodness of Fit)

Interpretasi

4.3 Analisis Multivariat Tambahan (K-Means Clustering)

Interpretasi Profil Klaster

Cluster 1: Pengguna AI dan Belajar Tradisional Sedang

Cluster 2: Pengguna AI Intensif

Cluster 3: Pembelajar Tradisional Intensif

4.4 Pembahasan Integratif

BAB V KESIMPULAN DAN REKOMENDASI

5.1 Kesimpulan

5.2 Rekomendasi

Bagi Mahasiswa

Bagi Institusi Pendidikan

Bagi Penelitian Selanjutnya

DAFTAR PUSTAKA