UAS STATISTIKA
Januari 19, 2025
Bab 1 RANGKUMAN MATERI
1.1 Definisi dan Konsep Utama
Statistik → Statistik adalah cabang ilmu yang berkaitan dengan, analisis, intepretasi, presentasi data. Statistik menggunakan metode matematis dan algoritmik untuk mengelola data sehingga informasi yang diperoleh dapat digunakan untuk membuat keputusan yang lebih baik.
Statistik Deskriptif → metode untuk menggambarkan data tanpa membuat generalisasi atau kesimpulan tentang populasi. Tujuannya adalah untuk menyajikan data dalam bentuk yang lebih mudah dipahami.
Statistika Inferensial → bidang matematika yang menggunakan teknik statistik untuk membuat kesimpulan tentang populasi berdasarkan data sampel.
1.1.1 Jenis Data Statistika
Data statistik dibagi menjadi dua jenis utama: → Kualitatif dan Kuantitatif. Data kualitatif menggambarkan sifat atau karakteristik non-numerik, seperti warna mata atau tingkat kepuasan. Jenisnya mencakup nominal (tanpa urutan) dan ordinal (berurutan tetapi tanpa jarak yang jelas).
Sementara itu, data kuantitatif berupa angka yang dapat dihitung, seperti tinggi badan atau jumlah anak. Data ini terbagi menjadi diskret (nilai tertentu) dan kontinu (rentang nilai). Memahami perbedaan keduanya membantu dalam memilih metode analisis yang tepat.
Perbedaan Numerik dan Kategorik
Data Numerik :
- Dinyatakan dalam angka
- Dapat diurutkan.
- Dapat dilakukan operasi matematika
- Contoh : Umur, tinggi badan, berat badan, suhu, pendapatan.
Data Kategorik :
- Dinyatakan dalam kategori atau label: Tidak ada urutan khusus.
- Tidak dapat dilakukan operasi matematika: Tidak bisa dijumlahkan atau dikurangkan.
- Contoh : Jenis kelamin, warna favorit, merek mobil, status perkawinan.
1.2 Ukuran Pemusatan dan Penyebaran
Rata-rata (mean): Jumlah nilai data dibagi dengan jumlah data. Ini memberikan nilai rata-rata dari data. Mean kurang cocok digunakan dalam beberapa situasi, seperti:
- Ada outlier atau nilai ekstrem dalam data.
- Data sangat tidak seimbang atau miring.
- Data berupa kategori.
- Data menggunakan urutan, seperti skala ordinal.
Median: Nilai tengah dari data ketika data diurutkan. Median lebih sering dipakai jika ada outlier karena:
- Tidak terpengaruh oleh nilai-nilai ekstrem.
- Memberikan gambaran yang lebih jelas tentang tengahnya data.
Modus: Nilai yang paling sering muncul dalam data. Modus biasanya lebih berguna daripada mean atau median dalam kondisi berikut:
- Data berupa kategori.
- Data diskret dengan nilai tertentu yang sering muncul.
- Data memiliki lebih dari satu puncak, seperti pada distribusi bimodal atau multimodal.
standar Deviasi →
1.3 Visualisai Data
1.3.1 Histogram
Histogram → grafik berbentuk batang yang digunakan untuk merepresentasikan distribusi data numerik. Sumbu horizontal (x-axis) menunjukkan rentang nilai atau interval (bin), sedangkan sumbu vertikal (y-axis) menunjukkan frekuensi data dalam setiap interval tersebut.
Histogram sangat berguna untuk:
- Menilai distribusi data,
- Mengidentifikasi outlier atau pencilan,
- Membandingkan distribusi beberapa kelompok data.
Dibawah ini contoh pembuatan diagram histogram menggunakan dataset siswa.
1.3.2 Box Plot
Box plot (atau diagram kotak) adalah alat yang digunakan untuk menggambarkan penyebaran data berdasarkan lima nilai utama: minimum, kuartil pertama (Q1), median (Q2), kuartil ketiga (Q3), dan maksimum. Box plot memberikan gambaran visual tentang distribusi data, serta adanya outlier.
Box Plot sangat berguna untuk:
- Mengidentifikasi simetri distribusi data,
- Menilai penyebaran data,
- Menemukan outlier atau pencilan
Dibawah ini contoh pembuatan visualisasi box plot menggunakan dataset siswa.
1.4 Analisis Korelasi
Korelasi adalah cara untuk melihat apakah ada hubungan antara dua hal, seperti apakah satu hal berubah ketika hal lain berubah. Korelasi juga menunjukkan seberapa kuat hubungan itu dan apakah arahnya positif (kedua hal bergerak ke arah yang sama) atau negatif (satu naik, yang lain turun). Hubungan ini diukur dengan angka yang disebut koefisien korelasi, yang nilainya berkisar antara -1 sampai 1.
1.4.1 Korelasi Positif
Ketika nilai satu variabel meningkat, nilai variabel lainnya juga meningkat. Begitu pula, ketika nilai satu variabel menurun, nilai variabel lain juga menurun.
Koefisien Korelasi: Nilainya antara 0 dan 1. Contoh: Hubungan antara tinggi badan dan ukuran sepatu. Orang yang lebih tinggi cenderung memiliki ukuran sepatu yang lebih besar.
1.5 Uji Hipotesis
langkah-langkah utama yang perlu dilakukan:
- Menyusun Hipotesis
Hipotesis Nol (H₀): Pernyataan awal yang menyatakan tidak ada perubahan, pengaruh, atau hubungan tertentu (contoh: rata-rata pendapatan = Rp5 juta).
Hipotesis Alternatif (H₁): Pernyataan yang bertentangan dengan H₀, yang menunjukkan adanya perubahan, pengaruh, atau hubungan (contoh: rata-rata pendapatan ≠ Rp5 juta).
- Menentukan Tingkat Signifikansi (α)
- Nilai α adalah batas probabilitas untuk menolak H₀. Biasanya, digunakan 0,05 (5%), tetapi bisa juga 0,01 atau 0,10 tergantung pada konteks.
- Memilih Statistik Uji dan Menghitung Nilainya
- Statistik uji dipilih berdasarkan jenis data dan hipotesis. Untuk data dengan distribusi normal, digunakan (\(t\))-statistik:
\[ t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}} \]
di mana \(bar{x}\) adalah rata-rata sampel, \(mu\) adalah rata-rata populasi, \(s\) adalah simpangan baku, dan \(n\) adalah ukuran sampel.
- Menentukan Nilai Kritis atau Nilai-p
Nilai Kritis: Ditentukan dari tabel distribusi \(t\) sesuai derajat kebebasan \(df\).
Nilai-p: Probabilitas hasil data atau yang lebih ekstrem jika H₀ benar.
- Membandingkan dan Mengambil Keputusan
Jika \(t\)-statistik di luar rentang nilai kritis atau nilai-p < α, maka H₀ ditolak.
Jika tidak, maka H₀ gagal ditolak.
- Menarik Kesimpulan
- Contoh: “Pada tingkat signifikansi 5%, data menunjukkan bukti yang cukup untuk menyatakan rata-rata pendapatan berbeda dari Rp5 juta.”
Pentingnya Uji Hipotesis
- Mendukung Pengambilan Keputusan Data-Driven: Membantu menentukan apakah suatu hasil cukup kuat untuk menjadi dasar keputusan.
- Mengurangi Ketidakpastian: Menggunakan pendekatan statistik untuk menghasilkan kesimpulan yang objektif.
- Memverifikasi Asumsi dan Model: Berguna dalam menguji keabsahan asumsi yang mendasari model statistik atau algoritma machine learning.
- Penerapan Luas: Uji hipotesis digunakan dalam banyak bidang, seperti penelitian, ekonomi, pemasaran, hingga pengendalian kualitas.
1.6 Penggunaan Software Statistika
1.6.1 Excel
Software dari Microsoft yang paling sering dipakai buat mengolah data. Kamu bisa pakai Excel untuk hitung-hitungan sederhana, bikin tabel, atau buat grafik. Cocok banget buat kamu yang eneg ngoding kalau mau analisis data, karena di Excel untuk mengolah data kita tinggal klik klik aja nih. Berikut adalah keunggulan Excel untuk analisis data :
- Cocok buat pemula karena user-friendly banget.
- Punya banyak fitur bawaan untuk analisis data sederhana, seperti pivot table dan fungsi statistik.
- Bisa digunakan untuk membuat grafik dan visualisasi data dengan cepat.
- Kelebihannya: nggak perlu coding! Tinggal klik sana-sini.
1.6.2 R
Bahasa pemrograman yang dirancang khusus buat analisis data dan statistik. R ini jago banget kalau kamu mau ngolah data besar atau bikin analisis yang lebih rumit. Biasanya dipakai oleh orang-orang yang serius di bidang statistik atau data science.
Salah satu alasan kenapa R banyak dipakai untuk profesi Data Scientist karena Powerful banget untuk analisis statistik dan visualisasi data. Punya banyak library yang khusus buat statistik.
1.6.3 RStudio
Software pendukung untuk bahasa pemrograman R yang bikin hasil analisis kamu jadi lebih rapi dan aesthetic. Dengan RStudio, kamu bisa nulis kode, lihat hasil, dan bikin grafik dalam satu tempat yang tertata.
RStudio sendiri software yang selalu digunakan kalau kita bahas masalah analisis data nih, kenapa? Karena interface-nya bikin coding di R lebih nyaman, dengan fitur seperti script editor, console, dan plot viewer yang terorganisir. Pas banget buat kamu yang mau mendalami statistik lebih dalam. Hasil grafiknya juga cakep banget.
1.6.4 Python
Bahasa pemrograman serbaguna yang bisa dipakai buat banyak hal, termasuk analisis data dan machine learning. Python punya banyak library yang memudahkan analisis data, jadi fleksibel banget kalau kamu mau eksplor lebih jauh. Berikut adalah keunggulan Python untuk analisis data :
- Bahasa yang serbaguna selain buat analisis data, Python juga bisa buat machine learning, AI, bahkan web development. -Library seperti Pandas, NumPy, dan Matplotlib bikin analisis data jadi lebih efisien.
1.6.5 Google Colab
Platform berbasis cloud yang gratis dan simpel buat ngoding Python. Kamu nggak perlu instal software, tinggal buka browser dan langsung bisa kerja. Colab juga cocok buat kerja bareng karena file-nya bisa langsung dibagikan. Berikut adalah keunggulan Python untuk analisis data :
- Mirip kayak Python tapi berbasis cloud, jadi nggak perlu instal apa-apa di laptop.
- Gratis, bahkan bisa pakai GPU buat proses data yang berat.
- Enak banget buat kerja kolaborasi bareng tim, tinggal share link.
1.7 Interpretasi Statistik
Data yang diberikan:
- Mean (rata-rata) = 75
- Median = 72
- Standar deviasi (SD) = 10
Interpretasi:
Rata-rata lebih besar dari median
- Ketika mean lebih besar dari median, ini menunjukkan bahwa data kemungkinan memiliki distribusi yang condong ke kanan (skewed to the right).
- Artinya, ada beberapa nilai yang sangat besar (outlier) yang mendorong rata-rata menjadi lebih tinggi dibandingkan nilai tengah (median).
- Ketika mean lebih besar dari median, ini menunjukkan bahwa data kemungkinan memiliki distribusi yang condong ke kanan (skewed to the right).
**Standar deviasi (SD)* *
- Standar deviasi menunjukkan seberapa tersebar data dari rata-rata.
- Dengan SD = 10, ini berarti bahwa sebagian besar data berada dalam rentang 10 poin dari rata-rata (yaitu antara 65 dan 85).
- Jika SD relatif kecil dibandingkan dengan mean, ini menunjukkan data cenderung tidak terlalu tersebar.
- Standar deviasi menunjukkan seberapa tersebar data dari rata-rata.
Kesimpulan tentang distribusi data:
- Data tidak simetris dan condong ke kanan.
- Sebagian besar nilai dalam data berada dalam rentang yang relatif dekat dengan rata-rata (±10 dari 75), tetapi ada kemungkinan beberapa nilai yang lebih tinggi dari rata-rata.
1.8 Contoh Kasus
Seorang penjual buah ingin mengetahui apakah ada hubungan antara harga per kg buah apel (Rp) dan jumlah pembeli per hari (orang) di kiosnya. Berikut adalah data selama 5 hari:
Hari | Harga Apel (Rp) | Jumlah Pembeli (orang) |
---|---|---|
1 | 20.000 | 50 |
2 | 18.000 | 60 |
3 | 22.000 | 45 |
4 | 19.000 | 55 |
5 | 21.000 | 48 |
Penjual juga ingin mengetahui apakah rata-rata pembeli pada hari ketika harga 264 20.000 berbeda dengan hari ketika harga > 20.000.
1.8.1 Deskripsi Data
Hitung rata-rata harga apel \[ \text{Rata-rata harga apel} = \frac{20.000 + 18.000 + 22.000 + 19.000 + 21.000}{5} = 20.000 \text{ (Rp).} \]
Hitung rata-rata jumlah pembeli \[ \text{Rata-rata jumlah pembeli} = \frac{50 + 60 + 45 + 55 + 48}{5} = 51,6 \text{ (orang).} \]
Hitung simpangan baku jumlah pembeli
Gunakan rumus simpangan baku: \[ s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}} \]
Hitung \(\sum (x_i - \bar{x})^2\):
- \((50 - 51,6)^2 = 2,56\)
- \((60 - 51,6)^2 = 70,56\)
- \((45 - 51,6)^2 = 43,56\)
- \((55 - 51,6)^2 = 11,56\)
- \((48 - 51,6)^2 = 12,96\)
\[ \sum (x_i - \bar{x})^2 = 2,56 + 70,56 + 43,56 + 11,56 + 12,96 = 141,2. \]
Hitung simpangan baku: \[ s = \sqrt{\frac{141,2}{5-1}} = \sqrt{35,3} \approx 5,94. \]
1.8.2 Menghitung Korelasi
Gunakan rumus korelasi Pearson: \[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} \]
Rata-rata harga apel (\(\bar{x}\)) = 20.000.
Rata-rata jumlah pembeli (\(\bar{y}\)) = 51,6.Hitung \((x_i - \bar{x})\), \((y_i - \bar{y})\), dan \((x_i - \bar{x})(y_i - \bar{y})\):
Hari \(x_i - \bar{x}\) \(y_i - \bar{y}\) \((x_i - \bar{x})(y_i - \bar{y})\) 1 \(20.000 - 20.000 = 0\) \(50 - 51,6 = -1,6\) \((0)(-1,6) = 0\) 2 \(18.000 - 20.000 = -2.000\) \(60 - 51,6 = 8,4\) \((-2.000)(8,4) = -16.800\) 3 \(22.000 - 20.000 = 2.000\) \(45 - 51,6 = -6,6\) \((2.000)(-6,6) = -13.200\) 4 \(19.000 - 20.000 = -1.000\) \(55 - 51,6 = 3,4\) \((-1.000)(3,4) = -3.400\) 5 \(21.000 - 20.000 = 1.000\) \(48 - 51,6 = -3,6\) \((1.000)(-3,6) = -3.600\) \[ \sum (x_i - \bar{x})(y_i - \bar{y}) = 0 - 16.800 - 13.200 - 3.400 - 3.600 = -37.000. \]
Hitung \(\sum (x_i - \bar{x})^2\) dan \(\sum (y_i - \bar{y})^2\): \[ \sum (x_i - \bar{x})^2 = 0^2 + (-2.000)^2 + (2.000)^2 + (-1.000)^2 + (1.000)^2 = 10.000.000. \] \[ \sum (y_i - \bar{y})^2 = (-1,6)^2 + (8,4)^2 + (-6,6)^2 + (3,4)^2 + (-3,6)^2 = 141,2. \]
Hitung \(r\): \[ r = \frac{-37.000}{\sqrt{10.000.000 \cdot 141,2}} = \frac{-37.000}{\sqrt{1.412.000.000}} = \frac{-37.000}{37.580,8} \approx -0,98. \]
*Kesimpulan: Hubungan antara harga apel dan jumlah pembeli adalah **negatif sangat kuat* (\(r = -0,98\)), artinya semakin tinggi harga apel, semakin sedikit pembeli.
1.8.3 Uji Hipotesis (Uji-t)
a. Hipotesis:
- *H0: Tidak ada perbedaan rata-rata jumlah pembeli antara hari dengan harga apel **264 20.000* dan > 20.000.
- H1: Ada perbedaan rata-rata jumlah pembeli.
b. Data Kelompok:
- Harga 264 20.000: Hari 1, 2, 4 (jumlah pembeli: 50, 60, 55; rata-rata = \(\bar{x}_1 = 55\)).
- Harga > 20.000: Hari 3, 5 (jumlah pembeli: 45, 48; rata-rata = \(\bar{x}_2 = 46,5\)).
c. Hitung Uji-t:
Gunakan rumus: \[ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]
- Variansi kelompok 1 (\(s_1^2\)) dan kelompok 2 (\(s_2^2\)):
- Kelompok 1: \(s_1^2 = \frac{(50-55)^2 + (60-55)^2 + (55-55)^2}{3-1} = 25\).
- Kelompok 2: \(s_2^2 = \frac{(45-46,5)^2 + (48-46,5)^2}{2-1} = 6,25\).
- Substitusi: \[ t = \frac{55 - 46,5}{\sqrt{\frac{25}{3} + \frac{6,25}{2}}} = \frac{8,5}{\sqrt{8,33 + 3,13}} = \frac{8,5}{\sqrt{11,46}} \approx \frac{8,5}{3,39} \approx 2,51. \]
d. Keputusan:
- Derajat kebebasan: \(df = 3+2-2 = 3\).
- Nilai kritis \(t\) (\(\alpha = 0,05\)) adalah \(\pm 3,182\).
- Karena \(t = 2,51\) lebih kecil dari 3,182, gagal tolak H0.
*Kesimpulan: Tidak ada perbedaan signifikan jumlah pembeli antara harga apel **264 20.000* dan > 20.000.
1.9 Kesimpulan Anda
Statistika sangat penting dalam analisis data karena membantu kita mengumpulkan, mengorganisasi, menganalisis, dan menyajikan data dengan sistematis. Dengan menggunakan statistik, kita bisa mengenali pola, membuat prediksi, dan mengambil keputusan yang didasarkan pada data yang akurat.
Misalnya, dalam pekerjaan, statistik bisa digunakan untuk menginterpretasikan hasil penelitian, mengevaluasi kinerja tim, atau membuat perencanaan bisnis yang lebih baik. Bahkan dalam kehidupan sehari-hari, kita bisa memanfaatkan statistik untuk memahami tren, membandingkan pilihan, atau mengolah data dari berbagai sumber dengan lebih tepat. Dengan memahami dasar-dasar statistika, kita bisa membuat keputusan yang lebih cerdas dan berbasis data.