1. Studi Kasus

3 Jurusan yang berbeda yaitu Matematika, Fisika dan biologi memiliki 30 mahasiswa dengan data rata-rata lama belajar masing-masing mahasiswa. kita akan menguji berapa rata-rata lama belajar antar jurusan dan membandingkan lama belajar mahasiswa Matematika vs Biologi.

2. Bangkitkan Data

dengan fungsi rnorm(n, mean, sd) kita dapat membangkitan data yang di bangkitkan oleh aplikasi r studinya.

n = banyak data. mean = rata-rata. sd = standard deviasi.

#Membangkit Data Jurusan Fisika
set.seed(123) 
Fisika <- rnorm(30, mean=2.8, sd=0.6)
Fisika_rounded <- round(Fisika)               
Fisika_rounded
##  [1] 2 3 4 3 3 4 3 2 2 3 4 3 3 3 2 4 3 2 3 3 2 3 2 2 2 2 3 3 2 4
#Membangkit Data Jurusan Matematika
Matematika <- rnorm(30, mean=3.2, sd=0.7)
Matematika_rounded <- round(Matematika)               
Matematika_rounded
##  [1] 3 3 4 4 4 4 4 3 3 3 3 3 2 5 4 2 3 3 4 3 3 3 3 4 3 4 2 4 3 3
#Membangkit Data Jurusan Biologi
Biologi <- rnorm(30, mean=2.9, sd=0.6)
Biologi_rounded <- round(Biologi)               
Biologi_rounded
##  [1] 3 3 3 2 2 3 3 3 3 4 3 2 4 2 2 4 3 2 3 3 3 3 3 3 3 3 4 3 3 4

fungsi round merupakan fungsi yang memiliki kegunaan untuk membulatkan angka. Misal, 3,9567 maka akan di bulatkan menjadi 4.

3. Menggabungkan Data

lama_belajar <- c(Matematika,Biologi,Fisika)
jurusan <- factor(rep(c("Matematika", "Biologi", "Fisika"), each=30))
data <- data.frame(jurusan, lama_belajar)
head(data)

4. Statistika Deskriptif

Statistika deskriptif merupakan cara untuk merangkum dan menampilkan data supaya lebih gampang dipahami, biasanya lewat tabel, grafik, atau perhitungan sederhana seperti rata-rata, median, variansi dan standard deviasi.

Berikut adalah pengolahan data menggunakan Mean, Median, Variansi dan Standard Deviasi.

#Matematika
mean_Matematika <- mean(Matematika)
cat("mean_Matematika:", mean_Matematika, "\n")
## mean_Matematika: 3.324837
median_Matematika <- median(Matematika)
cat("median_Matematika:", median_Matematika, "\n")
## median_Matematika: 3.233358
sd_Matematika <- sd(Matematika)
cat("sd_Matematika:", sd_Matematika, "\n")
## sd_Matematika: 0.5845895
var_Matematika <- var(Matematika)
cat("var_Matematika:", var_Matematika, "\n")
## var_Matematika: 0.3417449
#Fisika
mean_Fisika <- mean(Fisika)
cat("mean_Fisika:", mean_Fisika, "\n")
## mean_Fisika: 2.771738
median_Fisika <- median(Fisika)
cat("median_Fisika:", median_Fisika, "\n")
## median_Fisika: 2.75576
sd_Fisika <- sd(Fisika)
cat("sd_Fisika:", sd_Fisika, "\n")
## sd_Fisika: 0.5886184
var_Fisika <- var(Fisika)
cat("var_Fisika :", var_Fisika , "\n")
## var_Fisika : 0.3464716
#Biologi
mean_Biologi <- mean(Biologi)
cat("mean_Biologi:", mean_Biologi, "\n")
## mean_Biologi: 2.914652
median_Biologi<- median(Biologi)
cat("median_Biologi:", median_Biologi, "\n")
## median_Biologi: 2.917631
sd_Biologi <- sd(Biologi)
cat("sd_Biologi:", sd_Biologi, "\n")
## sd_Biologi: 0.5218763
var_Biologi <- var(Biologi)
cat("var_Biologi:", var_Biologi, "\n")
## var_Biologi: 0.2723548

Maksud dari fungsi cat adalah untuk menampilkan teks dan nilai ke layar, yang mana “sd_fisika:” merupakan teks dan sd_fisika merupakan nilainya.

mean(fisika) guna untuk menghitung rata-ratanya. median(fisika) guna untuk mencari mediannya. var(fisika) guna untuk menghitung variansinya. sd(fisika) guna untuk menghitung standard deviasinya.

Selain mengetahui rangkuman datanya, kita dapat memvisualisasikan datanya lewat grafik Seperti histogram.

hist(Matematika, col = "skyblue",
     main= "Histogram Lama Belajar Jurusan Matematika",
     xlab = "Lama Belajar")

hist(Fisika, col = "red",
     main= "Histogram Lama Belajar Jurusan Fisika",
     xlab = "Lama Belajar")

hist(Biologi, col = "green",
     main= "Histogram Lama Belajar Jurusan Biologi",
     xlab = "Lama Belajar")

5. Uji 2 populasi

uji 2 populasi Digunakan untuk membandingkan rata-rata dua kelompok data, yaitu membandingkan apakah rata-rata lama belajar Matematika lebih besar dari Biologi.

t.test(Matematika, Biologi, alternative="greater")
## 
##  Welch Two Sample t-test
## 
## data:  Matematika and Biologi
## t = 2.867, df = 57.269, p-value = 0.002895
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.1709803       Inf
## sample estimates:
## mean of x mean of y 
##  3.324837  2.914652

Hasil uji 2 populasi dengan satu arah menunjukkan nilai t = 2.867 dan p-value = 0.002895 lebih kecil dari 0.05. bisa kita simpulkan bahwa rata-rata skor Matematika terbukti lebih tinggi secara signifikan dibandingkan dengan rata-rata skor Biologi pada tingkat kepercayaan 95%.

H0 = tidak cukup bukti rata-rata nilai matematika lebih besar dari pada biologi.

H1 = cukup bukti bahwa rata-rata nilai matematika lebih besar dari pada biologi.

Karena disini p-value = 0.002895, yang mana lebih kecil dari alpha(0,05). Maka H0 di tolak. Jadi, cukup bukti bahwa rata-rata nilai matematika lebih besar dari pada biologi.

6. ANOVA

Kegunaan ANOVA adalah untuk menguji apakah rata-rata lama belajar berbeda signifikan antar jurusan.

anova_model <- aov(lama_belajar ~ jurusan)
summary(anova_model)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## jurusan      2  4.946  2.4730   7.723 0.000817 ***
## Residuals   87 27.857  0.3202                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

aov(lama_belajar ~ jurusan) maksud dari fungsi ini adalah untuk menguji rata-rata lama belajar berbeda signifikan atau tidak antar jurusan.

summary(anova_model) maksud dari fungsi ini untuk menampilkan hasil uji ANOVA dalam bentuk tabel.

Df = derajat kebebasan (antara jurusan = 2, residual = 87).

Sum Sq = jumlah kuadrat (variabilitas).

Mean Sq = rata-rata jumlah kuadrat.

F value = statistik uji ANOVA.

Pr(>F) = p-value (tingkat signifikansi).

Karena disini p-value < alpha(0,05) maka, H0 ditolak. Artinya terdapat perbedaan rata-rata lama belajar yang signifikan antar jurusan.

7. TukeyHSD

Fungsi TukeyHSD digunakan setelah uji ANOVA ternyata terdapat perbedaan yang signifikan. guna untuk melihat variabel mana yang memiliki perbedaan yang signifikan.

TukeyHSD(anova_model)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lama_belajar ~ jurusan)
## 
## $jurusan
##                          diff         lwr       upr     p adj
## Fisika-Biologi     -0.1429145 -0.49129366 0.2054647 0.5925598
## Matematika-Biologi  0.4101846  0.06180543 0.7585638 0.0167964
## Matematika-Fisika   0.5530991  0.20471992 0.9014783 0.0008147

Parameter (anova_model) adalah hasil model ANOVA yang telah kami buat tadi.

diff (Difference) = selisih rata-rata lama belajar antara Fisika dan Biologi.

lwr & upr (Lower & Upper) = batas bawah dan batas atas dari interval kepercayaan 95%.

p adj (Adjusted p-value) = p-value hasil uji Tukey dengan penyesuaian.

Perbandingan antara Fisika dan Biologi

-Untuk diff.

Nilainya -0.1429, artinya rata-rata lama belajar Fisika lebih rendah sekitar 0.14 dibanding Biologi.

-Untuk lwr& upr.

Dari -0.491 sampai 0.205. Karena interval ini mencakup nol, maka perbedaan tidak signifikan.

-Untuk p adj.

Nilainya 0.5926 (> 0.05), artinya tidak ada perbedaan signifikan antara rata-rata lama belajar mahasiswa Fisika dan Biologi.

Perbandingan antara Matematika dan Biologi

-Untuk diff.

Karena rata-rata lama belajar Matematika 0.4102 maka, rata-rata lama belajar Matematika lebih tinggi 0.41 jam dibanding Biologi.

-Untuk lwr & upr.

Bernilai 0.0618, 0.7586. Karena intervalnya tidak melewati 0, maka terdapat perbedaan signifikan lama belajar antara Matematika dan Biologi.

-Untuk p adj.

Bernilai 0.0168, yang mana p-value lebih kecil dari alpha (0,05) maka terdapat perbedaan signifikan.

Perbandingan antara Matematika dan Fisika

-Untuk diff.

Karena rata-rata lama belajar Matematika adalah 0.5531 maka, rata-rata lama belajar Matematika lebih tinggi 0.55 jam dibanding Fisika.

-Untuk lwr & upr.

Bernilai 0.2047, 0.9015 yang mana interval tidak melewati 0.Maka, terdapat perbedaan yang signifikan lama belajar antara Matematika dan Fisika.

-Untuk p adj.

Bernilai 0.0008 yang mana p-value lebih kecil dari alpha (0,05) maka, terdapat perbedaan yang signifikan lama belajar antara Matematika dan Fisika.

8. Boxplot

Boxplot digunakan untuk menampilkan penyebaran data berdasarkan lima ukuran utama statistik:

boxplot(lama_belajar ~ jurusan, data = data,
        main = "Boxplot Lama Belajar Per Jurusan",
        xlab = "Jurusan", 
        ylab = "Lama Belajar",
        col = c("skyblue", "lightgreen", "pink"))

main adalah judul dari Boxplotnya.

xlab adalah judul dari variabel x nya.

ylab adalah judul dari variabel y nya.

col adalah warna untuk masing-masing variabel.

9. Interpretasi

hasil perhitungan rata-rata, median, standar deviasi, dan variansi:

Mahasiswa Matematika punya rata-rata lama belajar paling tinggi (sekitar 3,32 jam).

Mahasiswa Biologi rata-ratanya menengah (sekitar 2,91 jam).

Mahasiswa Fisika paling rendah (sekitar 2,77 jam).

Uji Dua Populasi (t-test)

mahasiswa Matematika terbukti belajar lebih lama dibanding Biologi secara signifikan (p-value < 0,05).

Uji ANOVA

Hasil ANOVA menunjukkan ada perbedaan signifikan rata-rata lama belajar antar jurusan (p-value = 0,000817 < 0,05). Ini artinya, secara umum tidak semua jurusan punya rata-rata yang sama.

Uji Lanjut (TukeyHSD)

Antara Fisika dan Biologi, Tidak ada perbedaan signifikan.

Antara Matematika dan Biologi, ternyata Matematika lebih lama belajarnya (signifikan).

Antara Matematika dan Fisika, ternyata Matematika juga lebih lama belajarnya (sangat signifikan).