3 Jurusan yang berbeda yaitu Matematika, Fisika dan biologi memiliki 30 mahasiswa dengan data rata-rata lama belajar masing-masing mahasiswa. kita akan menguji berapa rata-rata lama belajar antar jurusan dan membandingkan lama belajar mahasiswa Matematika vs Biologi.
dengan fungsi rnorm(n, mean, sd) kita dapat membangkitan data yang di bangkitkan oleh aplikasi r studinya.
n = banyak data. mean = rata-rata. sd = standard deviasi.
#Membangkit Data Jurusan Fisika
set.seed(123)
Fisika <- rnorm(30, mean=2.8, sd=0.6)
Fisika_rounded <- round(Fisika)
Fisika_rounded
## [1] 2 3 4 3 3 4 3 2 2 3 4 3 3 3 2 4 3 2 3 3 2 3 2 2 2 2 3 3 2 4
#Membangkit Data Jurusan Matematika
Matematika <- rnorm(30, mean=3.2, sd=0.7)
Matematika_rounded <- round(Matematika)
Matematika_rounded
## [1] 3 3 4 4 4 4 4 3 3 3 3 3 2 5 4 2 3 3 4 3 3 3 3 4 3 4 2 4 3 3
#Membangkit Data Jurusan Biologi
Biologi <- rnorm(30, mean=2.9, sd=0.6)
Biologi_rounded <- round(Biologi)
Biologi_rounded
## [1] 3 3 3 2 2 3 3 3 3 4 3 2 4 2 2 4 3 2 3 3 3 3 3 3 3 3 4 3 3 4
fungsi round merupakan fungsi yang memiliki kegunaan untuk membulatkan angka. Misal, 3,9567 maka akan di bulatkan menjadi 4.
lama_belajar <- c(Matematika,Biologi,Fisika)
jurusan <- factor(rep(c("Matematika", "Biologi", "Fisika"), each=30))
data <- data.frame(jurusan, lama_belajar)
head(data)
Statistika deskriptif merupakan cara untuk merangkum dan menampilkan data supaya lebih gampang dipahami, biasanya lewat tabel, grafik, atau perhitungan sederhana seperti rata-rata, median, variansi dan standard deviasi.
Berikut adalah pengolahan data menggunakan Mean, Median, Variansi dan Standard Deviasi.
#Matematika
mean_Matematika <- mean(Matematika)
cat("mean_Matematika:", mean_Matematika, "\n")
## mean_Matematika: 3.324837
median_Matematika <- median(Matematika)
cat("median_Matematika:", median_Matematika, "\n")
## median_Matematika: 3.233358
sd_Matematika <- sd(Matematika)
cat("sd_Matematika:", sd_Matematika, "\n")
## sd_Matematika: 0.5845895
var_Matematika <- var(Matematika)
cat("var_Matematika:", var_Matematika, "\n")
## var_Matematika: 0.3417449
#Fisika
mean_Fisika <- mean(Fisika)
cat("mean_Fisika:", mean_Fisika, "\n")
## mean_Fisika: 2.771738
median_Fisika <- median(Fisika)
cat("median_Fisika:", median_Fisika, "\n")
## median_Fisika: 2.75576
sd_Fisika <- sd(Fisika)
cat("sd_Fisika:", sd_Fisika, "\n")
## sd_Fisika: 0.5886184
var_Fisika <- var(Fisika)
cat("var_Fisika :", var_Fisika , "\n")
## var_Fisika : 0.3464716
#Biologi
mean_Biologi <- mean(Biologi)
cat("mean_Biologi:", mean_Biologi, "\n")
## mean_Biologi: 2.914652
median_Biologi<- median(Biologi)
cat("median_Biologi:", median_Biologi, "\n")
## median_Biologi: 2.917631
sd_Biologi <- sd(Biologi)
cat("sd_Biologi:", sd_Biologi, "\n")
## sd_Biologi: 0.5218763
var_Biologi <- var(Biologi)
cat("var_Biologi:", var_Biologi, "\n")
## var_Biologi: 0.2723548
Maksud dari fungsi cat adalah untuk menampilkan teks dan nilai ke layar, yang mana “sd_fisika:” merupakan teks dan sd_fisika merupakan nilainya.
mean(fisika) guna untuk menghitung rata-ratanya. median(fisika) guna untuk mencari mediannya. var(fisika) guna untuk menghitung variansinya. sd(fisika) guna untuk menghitung standard deviasinya.
Selain mengetahui rangkuman datanya, kita dapat memvisualisasikan datanya lewat grafik Seperti histogram.
hist(Matematika, col = "skyblue",
main= "Histogram Lama Belajar Jurusan Matematika",
xlab = "Lama Belajar")
hist(Fisika, col = "red",
main= "Histogram Lama Belajar Jurusan Fisika",
xlab = "Lama Belajar")
hist(Biologi, col = "green",
main= "Histogram Lama Belajar Jurusan Biologi",
xlab = "Lama Belajar")
uji 2 populasi Digunakan untuk membandingkan rata-rata dua kelompok data, yaitu membandingkan apakah rata-rata lama belajar Matematika lebih besar dari Biologi.
t.test(Matematika, Biologi, alternative="greater")
##
## Welch Two Sample t-test
##
## data: Matematika and Biologi
## t = 2.867, df = 57.269, p-value = 0.002895
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.1709803 Inf
## sample estimates:
## mean of x mean of y
## 3.324837 2.914652
Hasil uji 2 populasi dengan satu arah menunjukkan nilai t = 2.867 dan p-value = 0.002895 lebih kecil dari 0.05. bisa kita simpulkan bahwa rata-rata skor Matematika terbukti lebih tinggi secara signifikan dibandingkan dengan rata-rata skor Biologi pada tingkat kepercayaan 95%.
H0 = tidak cukup bukti rata-rata nilai matematika lebih besar dari pada biologi.
H1 = cukup bukti bahwa rata-rata nilai matematika lebih besar dari pada biologi.
Karena disini p-value = 0.002895, yang mana lebih kecil dari alpha(0,05). Maka H0 di tolak. Jadi, cukup bukti bahwa rata-rata nilai matematika lebih besar dari pada biologi.
Kegunaan ANOVA adalah untuk menguji apakah rata-rata lama belajar berbeda signifikan antar jurusan.
anova_model <- aov(lama_belajar ~ jurusan)
summary(anova_model)
## Df Sum Sq Mean Sq F value Pr(>F)
## jurusan 2 4.946 2.4730 7.723 0.000817 ***
## Residuals 87 27.857 0.3202
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
aov(lama_belajar ~ jurusan) maksud dari fungsi ini adalah untuk menguji rata-rata lama belajar berbeda signifikan atau tidak antar jurusan.
summary(anova_model) maksud dari fungsi ini untuk menampilkan hasil uji ANOVA dalam bentuk tabel.
Df = derajat kebebasan (antara jurusan = 2, residual = 87).
Sum Sq = jumlah kuadrat (variabilitas).
Mean Sq = rata-rata jumlah kuadrat.
F value = statistik uji ANOVA.
Pr(>F) = p-value (tingkat signifikansi).
Karena disini p-value < alpha(0,05) maka, H0 ditolak. Artinya terdapat perbedaan rata-rata lama belajar yang signifikan antar jurusan.
Fungsi TukeyHSD digunakan setelah uji ANOVA ternyata terdapat perbedaan yang signifikan. guna untuk melihat variabel mana yang memiliki perbedaan yang signifikan.
TukeyHSD(anova_model)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lama_belajar ~ jurusan)
##
## $jurusan
## diff lwr upr p adj
## Fisika-Biologi -0.1429145 -0.49129366 0.2054647 0.5925598
## Matematika-Biologi 0.4101846 0.06180543 0.7585638 0.0167964
## Matematika-Fisika 0.5530991 0.20471992 0.9014783 0.0008147
Parameter (anova_model) adalah hasil model ANOVA yang telah kami buat tadi.
diff (Difference) = selisih rata-rata lama belajar antara Fisika dan Biologi.
lwr & upr (Lower & Upper) = batas bawah dan batas atas dari interval kepercayaan 95%.
p adj (Adjusted p-value) = p-value hasil uji Tukey dengan penyesuaian.
-Untuk diff.
Nilainya -0.1429, artinya rata-rata lama belajar Fisika lebih rendah sekitar 0.14 dibanding Biologi.
-Untuk lwr& upr.
Dari -0.491 sampai 0.205. Karena interval ini mencakup nol, maka perbedaan tidak signifikan.
-Untuk p adj.
Nilainya 0.5926 (> 0.05), artinya tidak ada perbedaan signifikan antara rata-rata lama belajar mahasiswa Fisika dan Biologi.
-Untuk diff.
Karena rata-rata lama belajar Matematika 0.4102 maka, rata-rata lama belajar Matematika lebih tinggi 0.41 jam dibanding Biologi.
-Untuk lwr & upr.
Bernilai 0.0618, 0.7586. Karena intervalnya tidak melewati 0, maka terdapat perbedaan signifikan lama belajar antara Matematika dan Biologi.
-Untuk p adj.
Bernilai 0.0168, yang mana p-value lebih kecil dari alpha (0,05) maka terdapat perbedaan signifikan.
-Untuk diff.
Karena rata-rata lama belajar Matematika adalah 0.5531 maka, rata-rata lama belajar Matematika lebih tinggi 0.55 jam dibanding Fisika.
-Untuk lwr & upr.
Bernilai 0.2047, 0.9015 yang mana interval tidak melewati 0.Maka, terdapat perbedaan yang signifikan lama belajar antara Matematika dan Fisika.
-Untuk p adj.
Bernilai 0.0008 yang mana p-value lebih kecil dari alpha (0,05) maka, terdapat perbedaan yang signifikan lama belajar antara Matematika dan Fisika.
Boxplot digunakan untuk menampilkan penyebaran data berdasarkan lima ukuran utama statistik:
boxplot(lama_belajar ~ jurusan, data = data,
main = "Boxplot Lama Belajar Per Jurusan",
xlab = "Jurusan",
ylab = "Lama Belajar",
col = c("skyblue", "lightgreen", "pink"))
main adalah judul dari Boxplotnya.
xlab adalah judul dari variabel x nya.
ylab adalah judul dari variabel y nya.
col adalah warna untuk masing-masing variabel.
Mahasiswa Matematika punya rata-rata lama belajar paling tinggi (sekitar 3,32 jam).
Mahasiswa Biologi rata-ratanya menengah (sekitar 2,91 jam).
Mahasiswa Fisika paling rendah (sekitar 2,77 jam).
mahasiswa Matematika terbukti belajar lebih lama dibanding Biologi secara signifikan (p-value < 0,05).
Hasil ANOVA menunjukkan ada perbedaan signifikan rata-rata lama belajar antar jurusan (p-value = 0,000817 < 0,05). Ini artinya, secara umum tidak semua jurusan punya rata-rata yang sama.
Antara Fisika dan Biologi, Tidak ada perbedaan signifikan.
Antara Matematika dan Biologi, ternyata Matematika lebih lama belajarnya (signifikan).
Antara Matematika dan Fisika, ternyata Matematika juga lebih lama belajarnya (sangat signifikan).