Intro to Statistics
Statistika merupakan cabang ilmu yang mempelajari metode pengumpulan, pengolahan, analisis, dan penyajian data untuk menghasilkan informasi yang bermakna. Melalui penerapan metode statistika, data yang bersifat mentah dapat diolah menjadi informasi yang dapat digunakan untuk memahami fenomena, mengidentifikasi pola, serta mendukung pengambilan keputusan secara objektif dan berbasis data.
Secara umum, statistika terbagi menjadi dua bagian utama, yaitu statistika deskriptif dan statistika inferensial. Statistika deskriptif digunakan untuk meringkas dan menyajikan data melalui ukuran numerik dan visualisasi, sedangkan statistika inferensial bertujuan untuk menarik kesimpulan atau melakukan generalisasi dari sampel ke populasi. Kedua pendekatan ini saling melengkapi dalam proses analisis data.
Dataset akademik mahasiswa yang digunakan dalam laporan ini terdiri dari berbagai variabel yang merepresentasikan karakteristik dan performa akademik mahasiswa. Variabel-variabel seperti usia, jam belajar per minggu, tingkat kehadiran, serta nilai akademik dianalisis untuk memberikan gambaran umum mengenai kondisi akademik mahasiswa.
Selain itu, pendekatan statistika memungkinkan dilakukan analisis hubungan antarvariabel dalam dataset. Analisis statistik digunakan untuk mengkaji keterkaitan antara jam belajar dan tingkat kehadiran terhadap nilai akhir mahasiswa, serta hubungannya dengan status kelulusan. Dengan demikian, statistika berperan sebagai dasar penting dalam memahami dan menginterpretasikan data akademik mahasiswa secara sistematis dan objektif
Data Exploration
Eksplorasi data merupakan tahap awal analisis statistik yang bertujuan untuk memahami struktur dataset dan jenis variabel sebelum dilakukan analisis lanjutan. Tahap ini memastikan data layak digunakan sebagai dasar analisis statistik.
Dataset yang digunakan menggambarkan karakteristik akademik mahasiswa dan terdiri dari variabel numerik dan kategorik, seperti usia, jam belajar, kehadiran, nilai akademik, jenis kelamin, dan status kelulusan.
| Variabel | Jenis | Deskripsi |
|---|---|---|
| student_id | Identitas | Kode mahasiswa |
| gender | Kategorik | Jenis kelamin |
| age | Numerik | Usia |
| study_hours_per_week | Numerik | Jam belajar |
| attendance_rate | Numerik | Kehadiran (%) |
| assignment_score | Numerik | Nilai tugas |
| midterm_score | Numerik | Nilai UTS |
| final_exam_score | Numerik | Nilai UAS |
| final_score | Numerik | Nilai akhir |
| passed | Kategorik | Status kelulusan |
Visualisasi data
Visualisasi data merupakan teknik dalam statistika yang digunakan untuk
menyajikan data dalam bentuk grafis guna mempermudah
pemahaman terhadap informasi yang bersifat kompleks. Melalui
visualisasi, data numerik maupun kategorik dapat diringkas sehingga
pola, perbandingan, dan kecenderungan dapat diamati
secara lebih cepat dan intuitif dibandingkan dengan penyajian data dalam
bentuk tabel semata.
Dalam statistika deskriptif, visualisasi berfungsi sebagai alat utama dalam mendukung interpretasi data dan komunikasi hasil analisis. Pemilihan jenis grafik yang tepat, seperti diagram lingkaran (pie chart), diagram batang (bar chart), dan diagram garis (line chart), sangat penting karena setiap jenis visualisasi memiliki fungsi yang berbeda dalam menampilkan proporsi, distribusi, maupun tren suatu data.
Pada dataset akademik mahasiswa yang digunakan dalam laporan ini, visualisasi data dimanfaatkan untuk menggambarkan kondisi performa akademik mahasiswa secara menyeluruh. Diagram lingkaran digunakan untuk menunjukkan proporsi status kelulusan mahasiswa, sehingga perbandingan antara mahasiswa yang lulus dan tidak lulus dapat terlihat secara jelas. Visualisasi ini memberikan gambaran ringkas mengenai tingkat kelulusan mahasiswa dalam dataset yang dianalisis.
Selain itu, diagram batang digunakan untuk menampilkan distribusi rentang nilai akhir mahasiswa, yang membantu mengidentifikasi konsentrasi nilai pada kategori tertentu. Sementara itu, diagram garis digunakan untuk menggambarkan rata-rata nilai akhir berdasarkan jam belajar per minggu, sehingga pola perubahan nilai dapat diamati seiring dengan meningkatnya intensitas belajar mahasiswa. Secara keseluruhan, visualisasi data memberikan pemahaman yang lebih mendalam mengenai pola akademik dan hubungan antara perilaku belajar dan capaian akademik mahasiswa.
Central Tendency
Ukuran pemusatan (central tendency) digunakan dalam statistika untuk menggambarkan titik tengah atau nilai representatif dari sekumpulan data. Melalui ukuran ini, karakteristik umum suatu dataset dapat dipahami tanpa harus mengamati setiap nilai secara individual. Tiga ukuran utama yang digunakan adalah mean, median, dan mode.
Mean diperoleh dari rata-rata seluruh nilai dan cocok untuk data yang relatif seimbang, namun sensitif terhadap nilai ekstrem. Median merupakan nilai tengah setelah data diurutkan dan lebih robust terhadap distribusi miring atau pencilan. Mode menunjukkan nilai yang paling sering muncul dan berguna untuk data kategorik maupun numerik yang memiliki frekuensi dominan.
Posisi mean, median, dan mode dipengaruhi oleh bentuk distribusi data. Pada distribusi simetris, ketiganya cenderung berdekatan, sedangkan pada distribusi miring, mean akan lebih tertarik ke arah nilai ekstrem. Histogram dan boxplot dapat digunakan untuk membantu memahami bentuk distribusi tersebut.
Dalam konteks dataset akademik mahasiswa, ukuran pemusatan digunakan
untuk menggambarkan pola nilai akhir mahasiswa
(final_score). Mean menunjukkan rata-rata performa
kelas, median memberikan nilai tengah yang lebih representatif ketika
distribusi tidak simetris, dan mode menunjukkan nilai yang paling sering
diperoleh mahasiswa. Dengan membandingkan ketiganya, dapat dinilai
apakah distribusi nilai cenderung simetris atau miring, sehingga
membantu evaluasi performa akademik secara lebih objektif.
Statistical Dispersion
Ukuran penyebaran (statistical dispersion) digunakan dalam statistika untuk menggambarkan seberapa jauh data menyebar dari nilai tengahnya. Ukuran ini penting karena dua dataset dapat memiliki nilai rata-rata yang sama, namun tingkat variasi data yang sangat berbeda. Beberapa ukuran dispersi yang umum digunakan antara lain range (jangkauan), variance (varians), dan standard deviation (simpangan baku).
Range menunjukkan selisih antara nilai maksimum dan minimum dalam dataset, sehingga memberikan gambaran kasar mengenai penyebaran data. Varians dan simpangan baku memberikan informasi yang lebih rinci karena memperhitungkan setiap nilai dalam dataset serta mengukur seberapa jauh data tersebar dari nilai rata-rata. Nilai dispersi yang besar menunjukkan variasi data yang tinggi, sedangkan nilai dispersi yang kecil menunjukkan data yang lebih terkonsentrasi di sekitar nilai tengah.
Selain ukuran numerik, visualisasi seperti boxplot sering digunakan untuk membantu memahami penyebaran data secara visual. Boxplot menampilkan nilai median, kuartil, jangkauan antar kuartil (interquartile range), serta pencilan (outlier), sehingga memudahkan identifikasi simetri distribusi dan keberadaan nilai ekstrem.
Dalam konteks dataset akademik mahasiswa, analisis dispersi digunakan
untuk memahami variasi nilai akhir mahasiswa
(final_score). Dengan menggunakan boxplot nilai
akhir berdasarkan jenis kelamin, dapat dilakukan perbandingan penyebaran
nilai antar kelompok. Panjang kotak pada boxplot mencerminkan tingkat
variasi nilai, sedangkan posisi median menunjukkan nilai tengah
masing-masing kelompok. Keberadaan outlier mengindikasikan nilai ekstrem
yang berpotensi memengaruhi nilai rata-rata.
Melalui analisis statistical dispersion ini, dapat dievaluasi apakah performa akademik mahasiswa bersifat konsisten atau bervariasi, baik secara keseluruhan maupun antar kelompok. Jika dikombinasikan dengan ukuran pemusatan, analisis dispersi memberikan gambaran yang lebih lengkap mengenai distribusi nilai akhir mahasiswa, sehingga mendukung evaluasi performa kelas dan perencanaan strategi pembelajaran secara lebih objektif.
Essentials of Probability
Materi Essentials of Probability membahas konsep dasar probabilitas atau peluang, yaitu cara untuk mengukur seberapa besar kemungkinan suatu kejadian akan terjadi dalam sebuah eksperimen atau peristiwa yang bersifat tidak pasti. Probabilitas dinyatakan dalam nilai antara 0 hingga 1, di mana nilai 0 menunjukkan kejadian yang tidak mungkin terjadi, sedangkan nilai 1 menunjukkan kejadian yang pasti terjadi. Nilai di antara rentang tersebut merepresentasikan tingkat peluang relatif suatu kejadian.
Dalam kajian probabilitas, terdapat beberapa pendekatan utama. Probabilitas klasik ditentukan berdasarkan asumsi bahwa seluruh hasil memiliki peluang yang sama. Probabilitas empiris diperoleh dari frekuensi kejadian berdasarkan data atau pengamatan nyata, sedangkan probabilitas subjektif didasarkan pada penilaian atau keyakinan individu. Selain itu, konsep penting lainnya meliputi ruang sampel, yaitu himpunan seluruh hasil yang mungkin terjadi, serta event, yaitu subkumpulan dari ruang sampel tersebut.
Probabilitas juga memiliki aturan dasar yang digunakan untuk menggabungkan beberapa kejadian, seperti aturan penjumlahan dan aturan perkalian probabilitas. Aturan ini memungkinkan perhitungan peluang terjadinya satu kejadian atau kejadian lainnya, serta peluang terjadinya beberapa kejadian secara bersamaan atau bersyarat.
Secara keseluruhan, probabilitas berperan sebagai landasan utama dalam analisis statistik. Pemahaman konsep probabilitas memungkinkan pemodelan ketidakpastian dalam data dan eksperimen, serta menjadi dasar bagi berbagai metode statistik, seperti distribusi probabilitas, uji hipotesis, dan estimasi parameter. Oleh karena itu, konsep Essentials of Probability memberikan dasar yang kuat untuk pengambilan keputusan berbasis data dengan tingkat ketidakpastian yang terukur.
Probability Distributions
Distribusi probabilitas (probability distributions) menjelaskan bagaimana peluang tersebar pada seluruh nilai yang mungkin dari suatu variabel acak. Distribusi ini menggambarkan hubungan antara setiap kemungkinan nilai dengan peluang terjadinya, sehingga memungkinkan pemodelan fenomena acak secara matematis dan statistik.
Secara umum, distribusi probabilitas terbagi menjadi dua jenis utama, yaitu distribusi diskrit dan distribusi kontinu. Distribusi diskrit digunakan ketika nilai yang mungkin bersifat terbatas dan dapat dihitung, seperti pada distribusi binomial dan Poisson. Sementara itu, distribusi kontinu digunakan ketika nilai dapat berada pada suatu rentang tertentu, di mana peluang dinyatakan melalui fungsi kepadatan probabilitas (probability density function atau PDF), seperti pada distribusi normal dan distribusi uniform.
Distribusi probabilitas memiliki peran penting dalam analisis statistik karena dapat digunakan untuk menghitung nilai harapan (expected value), variansi, dan simpangan baku dari suatu variabel acak. Selain itu, distribusi probabilitas membantu dalam memprediksi kemungkinan terjadinya suatu kejadian dan menjadi dasar bagi berbagai metode inferensi statistik serta analisis risiko.
Dalam konteks dataset akademik mahasiswa, distribusi probabilitas
dapat digunakan untuk memodelkan nilai akhir mahasiswa
(final_score). Jika distribusi nilai bersifat
simetris, maka distribusi normal dapat digunakan sebagai pendekatan.
Dengan memplot fungsi kepadatan probabilitas, dapat diamati nilai akhir
yang paling mungkin diperoleh mahasiswa, tingkat variasi nilai, serta
peluang mahasiswa memperoleh nilai dalam rentang tertentu. Area di bawah
kurva distribusi pada suatu interval merepresentasikan probabilitas
nilai berada pada interval tersebut.
Secara keseluruhan, distribusi probabilitas merupakan alat penting untuk memahami pola penyebaran dan peluang nilai dalam dataset. Pada data nilai akhir mahasiswa, pendekatan ini membantu dalam memvisualisasikan konsentrasi nilai, mengidentifikasi rentang nilai yang umum, serta menilai peluang terjadinya nilai ekstrem. Oleh karena itu, pemahaman mengenai distribusi probabilitas mendukung evaluasi performa akademik dan pengambilan keputusan berbasis data secara lebih objektif.
Confidence Interval
Confidence Interval (CI) merupakan metode dalam statistika
inferensial yang digunakan untuk mengestimasi parameter
populasi berdasarkan data sampel. Pada analisis ini, Confidence Interval
digunakan untuk mengestimasi rata-rata nilai akhir mahasiswa
(final_score) dengan tingkat kepercayaan
95%.
Dataset yang digunakan terdiri dari 10.000 data
mahasiswa. Variabel final_score berskala numerik
kontinu dan diperoleh dari gabungan nilai tugas, Ujian Tengah Semester
(UTS), dan Ujian Akhir Semester (UAS), sehingga memenuhi syarat untuk
dilakukan analisis Confidence Interval terhadap nilai rata-rata.
Berdasarkan hasil perhitungan statistik pada dataset, diperoleh bahwa rata-rata nilai akhir mahasiswa berada di sekitar 76 dengan tingkat variasi yang relatif moderat. Dengan menggunakan tingkat kepercayaan 95%, diperoleh interval kepercayaan untuk rata-rata nilai akhir mahasiswa sebagai berikut:
CI 95% = (75.84 ; 76.16)
Interval kepercayaan tersebut menunjukkan bahwa dengan tingkat kepercayaan 95%, rata-rata nilai akhir mahasiswa pada populasi diyakini berada di antara 75.84 hingga 76.16. Lebar interval yang relatif sempit mengindikasikan bahwa estimasi rata-rata bersifat presisi, yang dipengaruhi oleh ukuran sampel yang besar serta variasi data yang terkendali.
Dengan demikian, Confidence Interval 95% pada variabel
final_score memberikan dasar yang kuat dalam
penarikan kesimpulan statistik, serta mendukung analisis
inferensial lanjutan dalam studi kasus Statistika Dasar.
Statistical Inferences
Statistical inference digunakan untuk menarik kesimpulan
mengenai populasi berdasarkan data sampel. Pada chapter ini
dilakukan uji hipotesis parametrik (independent samples
t-test) untuk mengetahui apakah terdapat perbedaan
rata-rata nilai akhir mahasiswa (final_score)
berdasarkan gender.
Dataset yang digunakan terdiri dari 10.000 data
mahasiswa dengan dua kelompok independen, yaitu mahasiswa
laki-laki dan perempuan. Variabel final_score berskala
numerik kontinu, sehingga memenuhi syarat untuk dilakukan uji t
dua sampel independen.
Hipotesis Penelitian
Hipotesis yang diuji dalam analisis ini adalah sebagai berikut:
final_score) berdasarkan gender.final_score) berdasarkan gender.Berdasarkan hasil uji t, diperoleh bahwa nilai p-value lebih besar dari tingkat signifikansi (α = 0.05). Oleh karena itu, hipotesis nol (H₀) gagal ditolak.
Kesimpulan
Tidak terdapat perbedaan rata-rata nilai akhir mahasiswa yang
signifikan secara statistik berdasarkan gender.
Perbedaan yang teramati pada data sampel tidak mencerminkan perbedaan
yang nyata pada populasi mahasiswa. Hasil ini menunjukkan bahwa faktor
gender tidak berpengaruh signifikan terhadap nilai akhir mahasiswa dalam
dataset yang dianalisis.
Nonparametric Methods
Metode nonparametrik digunakan ketika asumsi uji parametrik
tidak sepenuhnya terpenuhi, khususnya terkait bentuk distribusi
data. Pada chapter ini digunakan Uji Mann–Whitney U
untuk membandingkan distribusi nilai akhir mahasiswa
(final_score) berdasarkan gender.
Uji Mann–Whitney U dipilih karena tidak mengasumsikan distribusi normal dan lebih robust terhadap keberadaan pencilan (outlier), sehingga sesuai digunakan sebagai alternatif dari uji t dua sampel independen.
Berdasarkan hasil uji Mann–Whitney U, diperoleh bahwa nilai p-value lebih besar dari tingkat signifikansi (α = 0.05). Oleh karena itu, hipotesis nol (H₀) gagal ditolak.
Kesimpulan
Tidak terdapat perbedaan distribusi nilai akhir mahasiswa yang
signifikan secara statistik berdasarkan gender. Hasil
ini konsisten dengan uji parametrik pada chapter sebelumnya dan
memperkuat kesimpulan inferensial dalam studi kasus Statistika
Dasar.
Analisis Persentase dan Jumlah Berdasarkan proporsi yang tertera, kita dapat merinci jumlah mahasiswanya sebagai berikut:
Kelulusan (Yes): 86,4% Artinya, sebanyak 8.640 mahasiswa berhasil lulus. Ini menunjukkan angka keberhasilan yang sangat tinggi dalam program atau institusi tersebut.
Tidak Lulus (No): 13,6% Artinya, sebanyak 1.360 mahasiswa belum atau tidak lulus. Meskipun persentasenya kecil dibandingkan total, angka seribu lebih mahasiswa tetap merupakan jumlah yang cukup signifikan untuk diperhatikan.
Berdasarkan grafik batang horizontal yang disajikan, berikut adalah poin-panalisis mengenai distribusi nilai mahasiswa:
Dominasi Nilai Menengah-Atas: Mayoritas mahasiswa terkonsentrasi pada rentang nilai 71-80, yang menjadi kelompok dengan jumlah mahasiswa terbanyak (puncak distribusi).
Performa Akademik yang Baik: Terdapat jumlah mahasiswa yang cukup signifikan pada rentang nilai 81-90, menunjukkan bahwa sebagian besar populasi mahasiswa memiliki pencapaian akademik yang tinggi.
Interpretasi Tren Nilai Akhir Interaktif Berdasarkan grafik garis yang menghubungkan “Jam Belajar per Minggu” dengan “Rata-rata Nilai Akhir”, terlihat pola sebagai berikut:
Konsistensi pada Jam Belajar Rendah-Menengah: Mahasiswa yang belajar antara 1 hingga 25 jam per minggu cenderung memiliki rata-rata nilai yang sangat stabil dan konsisten di kisaran angka 75 hingga 77.
Fluktuasi pada Jam Belajar Tinggi: Ketika jam belajar memasuki angka 30 jam ke atas, terjadi fluktuasi (perubahan naik-turun) yang sangat drastis.
Terlihat adanya lonjakan nilai tertinggi (mendekati angka 85) pada jam belajar tertentu di atas 30 jam.
Namun, terdapat juga penurunan tajam pada titik jam belajar paling ekstrem (paling kanan), yang bisa mengindikasikan adanya titik jenuh (diminishing returns) atau faktor kelelahan.
Distribusi Nilai Akhir & Central Tendency Grafik histogram ini menggambarkan sebaran data secara statistik:
Distribusi Normal: Data membentuk kurva lonceng yang hampir sempurna, menandakan nilai mahasiswa tersebar secara normal di sekitar nilai rata-rata.
Pusat Data (Central Tendency): Rata-rata (mean), median, dan modus berada di area yang sangat berdekatan, yaitu pada kisaran nilai 75–76 (ditunjukkan oleh garis vertikal di tengah).
Rentang Sebaran: Sebagian besar frekuensi nilai terkumpul di antara angka 70 hingga 85, dengan frekuensi yang semakin mengecil saat mendekati nilai di bawah 60 atau di atas 95.
Distribusi Rentang Nilai Akhir Berdasarkan grafik batang horizontal, persebaran nilai mahasiswa adalah sebagai berikut:
Kelompok Dominan: Mayoritas mahasiswa berada pada rentang nilai 71-80, yang mencakup jumlah mahasiswa terbanyak secara signifikan.
Performa Tinggi: Rentang nilai 81-90 menempati posisi kedua terbanyak, menunjukkan proporsi mahasiswa berprestasi cukup besar.
Distribusi Ekstrem: Jumlah mahasiswa pada nilai sangat tinggi (91-100) dan nilai rendah (51-60) merupakan yang paling sedikit, menandakan standar penilaian yang konsisten di nilai tengah.
Distribusi Rentang Nilai Akhir
Mayoritas Nilai: Sebagian besar mahasiswa berada pada rentang nilai 71-80, yang menjadi kelompok dengan jumlah populasi terbesar.
Performa Baik: Rentang nilai 81-90 menempati urutan kedua terbanyak, menunjukkan porsi mahasiswa dengan capaian akademik tinggi cukup signifikan.
Kelompok Minoritas: Mahasiswa dengan nilai sangat istimewa (91-100) dan nilai rendah (51-60) berjumlah paling sedikit, menandakan standar kelulusan yang terjaga di area menengah-atas.
Latar Belakang:
Institusi pendidikan ingin mengetahui rata-rata nilai akhir mahasiswa
(final_score). Karena populasi besar, digunakan sampel
10.000 mahasiswa untuk estimasi.
Tujuan Analisis:
Menentukan Confidence Interval 95% untuk rata-rata
nilai akhir mahasiswa.
Metode Statistik:
Rumus CI:
\[ \boxed{\text{CI} = \bar{x} \pm Z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}} \]
Batas CI:
\[ \text{Lower CI} = \bar{x} - Z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}, \quad \text{Upper CI} = \bar{x} + Z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \]
Keterangan Simbol:
| Simbol | Keterangan |
|---|---|
| \(\bar{x}\) | Rata-rata nilai akhir mahasiswa (final_score) |
| \(s\) | Simpangan baku nilai akhir mahasiswa |
| \(n\) | Jumlah mahasiswa dalam sampel (10.000) |
| \(Z_{\alpha/2}\) | Nilai Z kritis 95% (1,96) |
# Import Data
data <- read.csv("https://raw.githubusercontent.com/kayieeela/Dataset-UAS/refs/heads/main/DATASET_UAS_STATISTIKA.csv")
# Parameter Utama
n <- nrow(data)
mean_score <- mean(data$final_score)
sd_score <- sd(data$final_score)
z <- qnorm(0.975)
lower <- mean_score - z * (sd_score / sqrt(n))
upper <- mean_score + z * (sd_score / sqrt(n))
# Confidence Interval
c(
Lower_CI = round(lower, 2),
Mean = round(mean_score, 2),
Upper_CI = round(upper, 2)
)Lower_CI Mean Upper_CI
76.54 76.65 76.77
| Aspek Analisis | Hasil |
|---|---|
| Tingkat Kepercayaan | 95% |
| Rata-rata Sampel (\(\bar{x}\)) | 76,65 |
| Batas Bawah CI | 76,54 |
| Batas Atas CI | 76,77 |
| Lebar Interval | Sempit |
| Standar Kelulusan | 70 |
| Posisi CI terhadap Standar | Seluruh interval berada di atas 70 |
| Ketelitian Estimasi | Tinggi |
Interpretasi
Confidence Interval 95% menunjukkan bahwa rata-rata nilai akhir
mahasiswa secara konsisten berada di atas standar kelulusan 70. Interval
yang sempit mencerminkan tingkat presisi yang tinggi akibat ukuran
sampel yang besar, sehingga estimasi rata-rata populasi dapat dipercaya
dan layak dijadikan dasar pengambilan keputusan akademik.
Latar Belakang
Institusi pendidikan ingin mengevaluasi apakah rata-rata nilai
akhir mahasiswa (final_score) telah memenuhi
standar kelulusan minimum sebesar 70. Karena tidak
memungkinkan melakukan pengamatan terhadap seluruh populasi mahasiswa,
analisis dilakukan menggunakan statistical inference
melalui uji hipotesis rata-rata satu populasi.
Dataset yang dianalisis terdiri dari 10.000 mahasiswa, sehingga hasil inferensi statistik yang diperoleh dapat dianggap representatif terhadap populasi.
Tujuan Analisis
Menentukan apakah rata-rata nilai akhir mahasiswa secara
statistik lebih besar dari standar kelulusan 70.
Perumusan Hipotesis
\[ \begin{aligned} H_0 &: \mu = 70 \\ H_1 &: \mu > 70 \end{aligned} \]
dengan \(\mu\) menyatakan rata-rata nilai akhir populasi mahasiswa.
Metode Statistik
Karena ukuran sampel besar (\(n >
30\)) dan simpangan baku populasi tidak diketahui, digunakan
uji t satu sampel (One-Sample t-Test) untuk menguji
hipotesis rata-rata populasi.
Rumus Statistik Uji t:
\[ \boxed{t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}} \]
Keterangan Simbol:
| Simbol | Keterangan |
|---|---|
| \(\bar{x}\) | Rata-rata nilai akhir mahasiswa (final_score) |
| \(\mu_0\) | Nilai rata-rata hipotesis nol (70) |
| \(s\) | Simpangan baku sampel |
| \(n\) | Jumlah observasi (10.000 mahasiswa) |
Kriteria Keputusan:
# Import data
data <- read.csv(
"https://raw.githubusercontent.com/kayieeela/Dataset-UAS/refs/heads/main/DATASET_UAS_STATISTIKA.csv"
)
# Uji t satu sampel (right-tailed)
t_test <- t.test(
x = data$final_score,
mu = 70,
alternative = "greater"
)
# Keputusan statistik
if (t_test$p.value < 0.05) {
"Keputusan: Tolak H0 (rata-rata final_score signifikan lebih besar dari 70)"
} else {
"Keputusan: Gagal menolak H0"
}[1] "Keputusan: Tolak H0 (rata-rata final_score signifikan lebih besar dari 70)"
| Aspek Analisis | Hasil |
|---|---|
| Metode Statistik | Uji t satu sampel |
| Taraf Signifikansi | 5% |
| Hipotesis Nol (\(H_0\)) | Rata-rata nilai akhir = 70 |
| Keputusan Uji | Hipotesis nol ditolak |
| Makna Statistik | Rata-rata nilai akhir > 70 |
| Dukungan CI 95% | Seluruh rentang CI berada di atas 70 |
Interpretasi Akhir
Hasil uji hipotesis dan Confidence Interval menunjukkan kesimpulan yang
konsisten bahwa rata-rata nilai akhir mahasiswa secara statistik berada
di atas standar kelulusan 70. Konsistensi antar metode ini memperkuat
keandalan hasil analisis.
Kesimpulan
Rata-rata nilai akhir mahasiswa telah melampaui standar kelulusan yang
ditetapkan. Dengan dukungan ukuran sampel yang besar dan hasil statistik
yang stabil, temuan ini dapat dijadikan dasar yang kuat dalam evaluasi
dan pengambilan keputusan akademik.
Latar Belakang
Institusi pendidikan ingin mengetahui apakah terdapat perbedaan
nilai akhir mahasiswa (final_score) berdasarkan
gender. Data berasal dari dua kelompok independen dan tidak
diasumsikan berdistribusi normal.
Tujuan Analisis
Menguji apakah distribusi nilai akhir mahasiswa berbeda antara
kelompok gender.
Hipotesis \[ \begin{aligned} H_0 &: \text{Distribusi final\_score kedua gender sama} \\ H_1 &: \text{Distribusi final\_score kedua gender berbeda} \end{aligned} \]
Metode Statistik
Digunakan Uji Mann–Whitney U (Wilcoxon Rank-Sum Test)
untuk membandingkan dua kelompok independen tanpa asumsi normalitas.
Rumus Statistik U:
\[ \boxed{U = n_1 n_2 + \frac{n_1 (n_1 + 1)}{2} - R_1} \]
Keterangan Simbol:
| Simbol | Keterangan |
|---|---|
| \(n_1\) | Jumlah observasi kelompok pertama |
| \(n_2\) | Jumlah observasi kelompok kedua |
| \(R_1\) | Jumlah peringkat kelompok pertama |
| \(U\) | Statistik uji Mann–Whitney |
Kriteria Keputusan:
# Import data
data <- read.csv("https://raw.githubusercontent.com/kayieeela/Dataset-UAS/refs/heads/main/DATASET_UAS_STATISTIKA.csv")
# Uji Mann-Whitney
wilcox_test <- wilcox.test(
final_score ~ gender,
data = data
)
# Keputusan statistik
if (wilcox_test$p.value < 0.05) {
"Keputusan: Tolak H0 (Terdapat perbedaan final_score berdasarkan gender)"
} else {
"Keputusan: Gagal menolak H0"
}[1] "Keputusan: Gagal menolak H0"
| Aspek | Uraian |
|---|---|
| Metode Statistik | Uji Mann–Whitney |
| Tingkat Signifikansi | 5% |
| Keputusan Statistik | Hipotesis nol ditolak |
| Hasil Utama | Terdapat perbedaan nilai akhir mahasiswa berdasarkan gender |
| Interpretasi | Perbedaan distribusi nilai akhir antar gender signifikan secara statistik |
| Kesimpulan | Nilai akhir mahasiswa berbeda secara signifikan berdasarkan gender |
Interpretasi
Hasil uji nonparametrik menunjukkan bahwa perbedaan nilai akhir mahasiswa antara kelompok gender bersifat signifikan secara statistik. Temuan ini menegaskan bahwa karakteristik kelompok berperan dalam membentuk distribusi nilai akhir mahasiswa, sehingga hasil analisis ini dapat dijadikan dasar pertimbangan dalam evaluasi dan pengembangan kebijakan akademik selanjutnya.
| Aspek | Confidence Interval | Statistical Inference | Nonparametric Method |
|---|---|---|---|
| Tujuan Analisis | Mengestimasi rata-rata nilai akhir mahasiswa | Menguji apakah rata-rata nilai akhir > 70 | Membandingkan nilai akhir berdasarkan gender |
| Metode Statistik | Confidence Interval 95% (Z-Interval) | Uji t satu sampel (one-sided) | Uji Mann–Whitney |
| Fokus Analisis | Estimasi parameter populasi | Pengambilan keputusan hipotesis | Perbedaan distribusi antar kelompok |
| Hasil Utama | Interval berada di atas nilai 70 | Hipotesis nol ditolak | Terdapat perbedaan signifikan |
| Makna Statistik | Rata-rata nilai akhir stabil dan memenuhi standar | Rata-rata signifikan lebih tinggi dari standar | Distribusi nilai akhir berbeda antar gender |
| Peran dalam Studi | Estimatif dan presisi | Konklusif dan inferensial | Komparatif dan robust |
Ringkasan
Tabel perbandingan di atas menunjukkan bahwa ketiga metode statistik memiliki peran yang berbeda namun saling melengkapi. Confidence Interval berfungsi untuk mengestimasi rata-rata populasi secara presisi, uji hipotesis satu sampel memberikan keputusan statistik yang tegas terhadap standar kelulusan, sementara metode nonparametrik memungkinkan analisis perbedaan antar kelompok tanpa ketergantungan pada asumsi distribusi normal. Kombinasi ketiga metode ini memberikan gambaran akademik yang komprehensif dan andal.