Final-test Komputasi Statistika
Summary, Hypothesis, ANOVA, MANOVA
| Kontak | \(\downarrow\) |
| naftaligunawan@gmail.com | |
| https://www.instagram.com/nbrigittag/ | |
| RPubs | https://rpubs.com/naftalibrigitta/ |
| Nama | Naftali Brigitta Gunawan |
| NIM | 20214920002 |
1. Buatkan Rangkuman Materi Kuliah Pert-1-15
Chapter 1
Probability Distributions adalah besarnya probabilitas atau kemungkinan angka muncul dari variabel acak.
Contoh : Coin-toss
Jenis-jenis Probability Distributions, antara lain :
Binomial Distribution (Distribusi Binomial) adalah distribusi yang dilakukan sebanyak n percobaan dengan hasil keberhasilan hanya 2 saja, yaitu success or fail.
Poisson Distribution (Distribusi Poisson) adalah distribusi yang melakukan banyak percobaan yang terjadi pada periode waktu atau selang waktu tertentu.
Continuous Uniform Distribution (Distribusi Seragam Kontinu) adalah distribusi yang di mana hasil probabilitas nya memiliki kemungkinan yang sama.
Exponential Distribution (Distribusi Eksponensial) adalah distribusi yang digunakan untuk menghitung waktu diantara dua kejadian yang sudah atau akan terjadi.
Normal Distribution (Distribusi Normal) adalah distribusi yang menunjukkan nilai yang simetris dan apakah ada penyebaran dari suatu variabel tersebut.
Chi-squared Distribution (Distribusi Chi kuadrat) adalah distribusi yang menguji perbedaan frekuensi observasi dengan frekuensi harapan.
Student t Distribution (Distribusi t) adalah distribusi yang digunakan untuk menguji sampel yang kecil (kurang dari 30).
F Distribution (Distribusi F) adalah distribusi yang membandingkan dua variabel random independen
Chapter 2
Confidence Intervals adalah parameter yang dipakai untuk menentukan akurasi mean atau sampel, biasanya tingkat kepercayaan yang digunakan 95%.
Langkah-langkah menyusun confidence intervals, yaitu :
Point Estimate of Population Mean atau Estimasi point dari rata-rata populasi
Population Mean (Known SD) atau Rata-rata populasi (SD diketahui)
Population Mean (Unknown SD) ata Rata-rata populasi (SD tidak diketahui)
Sampling Size of Population Mean (Known SD) atau Ukuran sampel dari rata-rata populasi
Point Estimate of Population Proportion atau Poin estimasi dari proporsi populasi
Interval Estimate of Population Proportion atau Estimasi selang dari proporsi populasi
Sampling Size of Population atau Ukuran sampel dari populasi
Chapter 3
Hypothesis Testing adalah pengujian hipotesis berdasarkan sampel yang di observasi, hasilnya antara di terima atau di tolak, dengan adanya tiga kondisi uji hipotesis, antara lain :
Left Tailed Test : \(H_0 : μ ≥ μ_0\) , \(H_1 : μ < μ_0\)
Right Tailed Test : \(H_0 : μ ≤ μ_0\) , \(H_1 : μ > μ_0\)
Two Tailed Test : \(H_0 : μ = μ_0\) , \(H_1 : μ ≠ μ_0\)
Tolak \(H_0\) jika \(t < 0.05\)
Terima \(H_0\) jika \(t > 0.05\)
Tolak \(H_1\) jika \(t > 0.05\)
Terima \(H_1\) jika \(t < 0.05\)
Ada jenis-jenis uji hipotesis, antara lain :
One-Tailed (Rata-rata Populasi dan SD)
Two-Tailed (Rata-rata Populasi dan SD)
One-Tailed (Rata-rata Populasi dan SD tidak diketahui)
Two-Tailed (Rata-rata Populasi dan SD tidak diketahui)
One-Tailed (Proporsi Populasi)
Two-Tailed (Proporsi Populasi)
Type II Error One-Tailed (Rata-rata Populasi dan SD)
Type II Error Two-Tailed (Rata-rata Populasi dan SD)
Type II Error One-Tailed (Rata-rata Populasi dan SD tidak diketahui)
Type II Error Two-Tailed (Rata-rata Populasi dan SD tidak diketahui)
Chapter 4
A/B Testing adalah suatu cara membandingkan atau eksperimen yang menguji dua varian dengan melihat insight yang diberikan oleh pembaca, kalau yang sering dilihat, akan semakin meningkat konversinya.
A/A Testing adalah suatu cara membandingkan atau eskperimen yang menguji dua varian yang sama persis, sedangkan A/A testing tidak akan ditemukan yang sering dilihat.
Chapter 5
Goodness of Fit adalah pengujian yang bertujuan untuk mengetahui seberapa besar distribusi data yang diamati dengan data yang di harapkan.
Ada 4 metode yang biasa digunakan, antara lain :
Chi-square : Untuk menguji frekuensi observasi dengan frekuensi ekspetasi.
Kolmogorov-Smirnov : Untuk membandingkan distribusi data dengan distribusi data yang sudah dikonfersi ke dalam bentuk Z-score atau disebut distribusi normal baku.
Anderson-Darling : Untuk menguji sampel data yang berasal dari suatu populasi dengan distribusi tertentu.
Shapiro-Wilk : Untuk mengidentifikasi apakah si peubah acak mengikuti distribusi normal.
Chapter 6
Non-parametric Methods adalah pengujian yang digunakan untuk menganalisis data ketika distribusi populasinya tidak diketahui
Ada 3 metode dalam uji statistik non parametrik, antara lain :
Wilcoxon Signed-Rank Test : Untuk menghitung seberapa signifikan perbedaan antara 2 kelompok data berpasangan berskala ordinal atau interval, tetapi datanya berdistribusi tidak normal.
Mann-Whitney-Wilcoxon Test : Untuk mengetahui ada atau tidaknya perbedaan dua sampel data yang bersifat independen dari populasi yang berbeda.
Kruskal-Wallis Test : Untuk alternatif dari uji one way ANOVA, jika kenormalan nya tidak terpenuhi.
Chapter 7
Simple Linear Regression adalah gambaran hubungan antara variabel respons tunggal yang menguji sebab dan akibat.
Chapter 8
Inference in Linear Regression adalah regresi linear yang memodelkan hubungan antara 2 variabel dengan menyesuaikan persamaan linear dengan data yang diamati.
Chapter 9
Multiple Linear Regression adalah metode untuk melihat hubungan variabel dependen dengan variabel independen yang lebih dari satu.
Chapter 10
Logistic Regression adalah metode untuk mengetahui hubungan antara beberapa variabel, biasanya bentuk garisnya tidak lurus seperti linear regression.
Chapter 11
ANOVA adalah untuk membandingkan rata-rata dari 2 kelompok atau lebih pada variabel X (kategorik) dan variabel Y (numerik).
Jenis-jenis ANOVA, antara lain :
One Way ANOVA : hanya ada 1 faktor yang memengaruhi (Contoh : Tinggi padi dengan 3 jenis pupuk).
Two Way ANOVA : ada 2 faktor yang memengaruhi (Contoh : Tinggi padi dengan mesin yang mengolah jenis pupuk).
Chapter 12
RM-ANOVA atau Repeated Measures ANOVA adalah untuk menguji pengukuran secara berulang, biasanya menguji lebih dari 3 atau lebih sampel yang saling berpasangan (Contoh : Perhitungan detak jantung sebelum melakukan olahraga, saat melakukan olahraga, dan setelah selesai olahraga).
Chapter 13
Mixed-ANOVA adalah untuk membandingkan rata-rata kelompok yang di klasifikasikan silang oleh 2 jenis variabel yang berbeda, termasuk :
Faktor antar subjek : kategori independen (Jenis kelamin).
Faktor dalam subjek : kategori berulang (Terapi pengobatan).
Chapter 14
ANCOVA atau Analysis of Covariance adalah perpaduan antara ANOVA dengan Regresi, untuk meningkatkan regresi sebuah percobaan dan mengevaluasi rata-rata dari variabel independen. Ada dua jenis ANCOVA, yaitu :
One Way
Two Way
Chapter 15
MANOVA atau Multivariate Analysis of Variance adalah untuk membandingkan rata-rata variabel Y, yaitu jenis data numerik yang berjumlah 2 atau lebih datanya dibandingkan dengan variabel X, yaitu jenis data kategorik.
2. Buatlah contoh penyelesaian Hipotesis Testing dengan menggunakan R!
Contoh Soal:
Kemenkes ingin menguji junk food namun menyehatkan yang baru saja di buat, dengan membandingkan rata-rata siklus menstruasi dari 5 perempuan dengan lama pemberian makanan selama 3 bulan. Berikut adalah rata-rata siklus menstruasi (hari) sebelum dan setelah diberikan makanan kepada 5 perempuan tersebut.
Sebelum diberi makanan: 32, 34, 29, 29, 28.
Setelah diberi makanan: 28, 31, 24, 25, 22.
Buktikan bahwa apakah ada perbedaan pada hasil perlakuan/pelatihan uji rata-rata dua sampel berpasangan tersebut!
Jawaban:
\(H_0\): \(μd = 0\) atau rata-rata siklus menstruasi sebelum dan setelah diberi makanan adalah sama.
\(H_1\): \(μd ≠ 0\) atau rata-rata siklus menstruasi sebelum dan setelah diberi makanan adalah tidak sama (ada perbedaan).
\(α\)/2 = 0.05/2 = 0.025
# Masukkan Data
sblm = c(32, 34, 29, 30, 28) # Data sebelum diberi makanan
stlh = c(28, 31, 24, 25, 27) # Data setelah diberi makanan
# Uji Normalitas
shapiro.test(sblm-stlh)##
## Shapiro-Wilk normality test
##
## data: sblm - stlh
## W = 0.88104, p-value = 0.314
# t-test 2 sampel
t.test(sblm, stlh, paired = TRUE)##
## Paired t-test
##
## data: sblm and stlh
## t = 4.8107, df = 4, p-value = 0.008581
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.522299 5.677701
## sample estimates:
## mean of the differences
## 3.6
Kesimpulan: Dari hasil output t.test dapat kita simpulkan bahwa:
p-value pada uji normalitas adalah sebesar
0.314(berdistribusi normal).\(H_0\) ditolak, \(H_1\) diterima karena nilai p-value < 0.05 (0.008581 < 0.05), atau jika di implementasikan berarti rata-rata siklus menstruasi sebelum dan setelah diberi makanan adalah tidak sama (ada perbedaan).
\(t-hitung\) sebesar
4.8107; \(db\) sebesar4.Confidence Interval atau Selang Kepercayaan berada di antara
1.522299sampai5.677701.Nilai rata-rata siklus menstruasi sebelum dan setelah diberi makanan adalah sebesar
3.6.
3. Buatlah contoh penyelesaian ANOVA dengan menggunakan R!
Persentase merokok pada penduduk umur \(≥\) 15 tahun menurut kelompok pengeluaran
Ada 5 jenis kelompok pengeluaran yang diwakili angka-angka :
1 : Kuintil 1 (20% rumah tangga dengan pengeluaran perkapita terrendah)
2 : Kuintil 2 (20% rumah tangga dengan pengeluaran perkapita hampir rendah)
3 : Kuintil 3 (20% rumah tangga dengan pengeluaran perkapita sedang)
4 : Kuintil 4 (20% rumah tangga dengan pengeluaran perkapita hampir tinggi)
5 : Kuintil 5 (20% rumah tangga dengan pengeluaran perkapita tertinggi)
Jawaban:
\(H_0\): \(μd = 0\) atau rata-rata penduduk dengan usia \(≥\) 15 tahun yang merokok di tiap kelompok kuintilnya di setiap tahunnya adalah sama
\(H_1\): \(μd ≠ 0\) atau rata-rata penduduk dengan usia \(≥\) 15 tahun yang merokok di tiap kelompok kuintilnya di setiap tahunnya adalah tidak sama (ada perbedaan di setiap kelompoknya).
\(α\) = 0.05
library(readxl)
anopa <- read_excel("cie.xlsx", sheet = "Sheet1")
anopa# Uji Normalitas
kel = c(1,2,3,4,5)
thn20 = c(27.09, 29.84, 30.30, 30.27, 26.08)
shapiro.test(kel-thn20)##
## Shapiro-Wilk normality test
##
## data: kel - thn20
## W = 0.79063, p-value = 0.06781
hasilanova <- aov(Tahun_2020 ~ Kelompok_Pengeluaran, data = anopa)
summary(hasilanova)## Df Sum Sq Mean Sq F value Pr(>F)
## Kelompok_Pengeluaran 1 0.253 0.253 0.049 0.839
## Residuals 3 15.527 5.176
Uji normalitas menunjukkan bahwa data berdistribusi normal, karena hasil \(P-value\) > 0.05, atau hasilnya adalah \(0.06781\). Hasil \(P-value\) > \(α\) atau \(0.839 > 0.05\), yang berarti \(H_0\) diterima atau \(H_1\) ditolak, atau dengan kata lain rata-rata penduduk dengan usia \(≥\) 15 tahun yang merokok di tiap kelompok kuintilnya di setiap tahunnya adalah sama.
3. Buatlah contoh penyelesaian MANOVA dengan menggunakan R!
library(readxl)
manopa <- read_excel("cie.xlsx", sheet = "Sheet6")
manopakel = c(1,2,3,4,5) # Data sebelum diberi makanan
thn21 = c(27.25, 29.98, 30.44, 30.55, 26.68) # Data setelah diberi makanan
thn22 = c(27.27, 29.29, 29.98, 29.58, 25.34)
shapiro.test(kel-thn21-thn22)##
## Shapiro-Wilk normality test
##
## data: kel - thn21 - thn22
## W = 0.80934, p-value = 0.09635
hasilmanova <- manova(cbind(Tahun_2021, Tahun_2022) ~ Kelompok_Pengeluaran, data = manopa)
(summary(hasilmanova))## Df Pillai approx F num Df den Df Pr(>F)
## Kelompok_Pengeluaran 1 0.85084 5.7043 2 2 0.1492
## Residuals 3
Uji normalitas menunjukkan bahwa data berdistribusi normal, karena hasil \(P-value\) > 0.05, atau hasilnya adalah \(0.09635\).Hasil \(P-value\) > \(α\) atau \(0.1492 > 0.05\), yang berarti \(H_0\) diterima atau \(H_1\) ditolak, atau dengan kata lain rata-rata penduduk dengan usia \(≥\) 15 tahun yang merokok di tiap kelompok kuintilnya di setiap tahunnya adalah sama.