Final Test
Komputasi Statistika
| Kontak | : \(\downarrow\) |
| mugemisausan05@gmail.com | |
| https://www.instagram.com/saram.05/ | |
| RPubs | https://rpubs.com/sausanramadhani/ |
Rangkuman Materi Kuliah Pert-1-15
Setelah mengikuti 15 kali pertemuan pada mata kuliah Komputasi Statistika, berikut ini rangkuman materi yang didapatkan :
Bab 1 - Probability Distribution
Distribusi probabilitas digunakan untuk menganalisis variabel acak (suatu gambaran hasil percobaan dalam bentuk numerik). Variabel acak terbagi menjadi dua yaitu variabel acak diskrit dan variabel acak kontinu.
Terdapat beberapa jenis distribusi yang umum digunakan, yaitu:
1. Binomial distribution
2. Poisson distribution
3. Continuous
uniform distribution
4. Eksponential distribution
5. Normal
distribution
6. Chi-squared distribution
7. Student t
distribution
8. F distribution
Bab 2 - Confidence Interval
Untuk membuktikan hipotesis, kita memerlukan confidence interval (interval kepercayaan). Interval kepercayaan digunakan untuk menunjukkan seberapa akurat kemungkinan statistik yang dihitung. Interval kepercayaan dapat dihitung untuk berbagai statistik, seperti rata-rata, median, atau kemiringan regresi linier.
Statistik umumnya hanya bisa menjamin 95% (banyak digunakan), tidak bisa 100%. Hanya saja, saat memerlukan ketelitian tinggi bisa menggunakan 99%. Contoh confidence interval di aktivitas bisnis : quality management, market research, risk management & contingency planning, budgeting & forecasting.
Berikut ini langkah-langkah untuk menghitung estimasi :
1. Point
estimate of population
2. Population mean (known std)
3.
Population mean (unknown std)
4. Sampling size of population mean
(known std)
5. Point estimate of population proportion
Bab 3 - Hypothesis Testing
Hypotesis testing (Uji hipotesis) digunakan untuk memvalidasi atau menguji hipotesis populasi berdasarkan sample. Selain itu juga menentukan hipotesis diterima atau ditolak yang mana jenis hipotesis statistik ada dua yaitu H0 dan Ha. H0 (hipotesis nol) artinya tidak ada perbedaan, sedangkan Ha atau H1 (hipotesis alternatif) artinya terdapat perbedaan minimal satu perbedaan.
Jenis Pengujian Hipotesis :
1. One-Tailed (Population Mean and
Standard Deviation), perhitungannya menggunakan uji-z dengan diketahui
standar deviasinya.
2. Two-Tailed (Population Mean and Standard
Deviation), perhitungannya menggunakan uji-z dengan diketahui standar
deviasinya.
3. One-Tailed (Population Mean and Unknown Standard
Deviation), jika sampel besar (n lebih dari sama dengan 30) maka
menggunakan uji-t atau uji-z, tetapi jika sampel kecil hanya menggunakan
uji-t.
4. Two-Tailed (Population Mean and Unknown Standard
Deviation), tanpa diketahui standar deviasinya bisa menggunakan uji-t
dengan (alpha/2).
5. One-Tailed (Population Proportion), menggunakan
uji-z sample proportion.
6. Two-Tailed (Population Proportion),
menggunakan uji-z sample proportion dengan (alpha/2).
7. Type II
Error One-Tail (Population Mean and Standard Deviation)
8. Type II
Error in Two-Tailed (Population Mean and Standard Deviation)
9.
Type II Error One-Tail (Population Mean and Unknown Standard Deviation)
10. Type II Error in Two-Tailed (Population Mean and Unknown
Standard Deviation)
Bab 4 - A/B Testing
A/B Testing adalah eksperimen yang menguji perubahan conversion rate antara beberapa variasi dalam website. A/B testing adalah cara untuk membandingkan dua versi dari suatu hal demi mengetahui mana yang bekerja lebih baik. Sedangkan, A/A Testing mengadu dua halaman yang sama persis sama satu sama lain. Alih-alih menemukan peningkatan konversi, tujuan A/A Testing untuk memeriksa bahwa tidak ada perbedaan antara versi kontrol dan versi variasi.
Bab 5 - Goodness of Fit
Goodness of Fit berguna untuk mengetahui apakah sebuah distribusi data dari sampel mengikuti sebuah distribusi teoritis tertentu ataukah tidak. Misalnya normal, seragam, atau poisson.
Bab 7 - Simple Linear Regression
Simple linear regression digunakan untuk mengukur besarnya pengaruh
variabel terikat/dependent dan 1 variabel bebas/independent. Syarat yang
harus dipenuhi yaitu :
1. Jumlah sampel yang digunakan harus sama
2. Jumlah variabel bebas (X) hanya 1 variabel
3. Nilai
residual harusberdistribusi normal
4. Terdapat hubungan linear
antar variabel X dan Y
Bab 9 - Multiple Linear Regression
Perbedaan Simple Linear Regression dengan Multiple Linear Regression : Pada Simple, satu variabel dependen Y diprediksi dari satu variabel independen X. Sedangkan pada multiple, satu variabel dependen Y diprediksi dari satu set variabel independent (X1,X2,…,Xk)
Ciri-ciri multiple linear regression :
1. satu variabel dependen
(terikat/Y)
2. Dua atau lebih variabel independen (variabel
presiktor/X)
3. Ukuran sampel : n lebih besar atau sama dengan 50
(setidaknya 10 kali lebih banyak kasus sebagai variabel bebas)
Bab 10 - Logistic Regression
Logistic regression digunakan untuk menganalisis hubungan dan pengaruh antara variabel bebas dan variabel terikat.
Perbedaan linear regression dengan logistic regression : linear regression mempunyai variabel terikat (Y) kontinu (skala pengukuran scale/rasio), sedangkan logistic regression mempunyai variabel terikat (Y) kategorik (skala pengukuran nominal/kategorik atau rasio).
Bab 11 - ANOVA
Anova (Analysis of Variance) berfungsi untuk membandingkan rata-rata populasi untuk mengetahui perbedaan signifikan dari dua atau lebih kelompok data.
Asumsi Anova :
1. Random sampling: sampel bersifat independen
dan bebas, artinya individu sampel diambil secara acak (random) dari
masing-masing populasi atau kelompok data.
2. Normality: Untuk
mendapat data dengan distribusi normal, bisa dilakukan tes normalitas
terlebih dahulu.
3. Homogenity of variance: setiap populasi
memiliki kesamaan variansi.
Anova terbagi menjadi dua, yaitu one way anova dan two way anova. One way anova berfungsi menganalisis data yang hanya memiliki satu variabel bebas atau karena satu faktor. Adapun Two way anova menganalisis data yang memiliki dua variabel bebas atau memiliki faktor kedua yang memengaruhi kondisi populasi.
Bab 15 - MANOVA
Manova (Multivariate Analysis of Variance) hampir sama dengan one way anova, bedanya adalah pada jumlah variabel dependen yang diuji di dalam model. Pada one way anova, hanya ada 1 variabel dependen. Sedangkan pada manova, lebih dari 1 variabel dependen.
Contoh penyelesaian Hipotesis Testing dengan menggunakan R
Contoh 1
Misalkan 75% sapi perah menghasilkan susu murni sesuai standar di kandang tahun lalu. 103 dari 144 sapi perah dalam sampel akan menghasilkan susu murni saat ini. Pada tingkat signifikansi 0.05, dapatkah kita menolak hipotesis nol bahwa proporsi sapi perah dalam populasi di atas 75% menghasilkan susu murni sesuai standar berikutnya?
H0 : proporsi sapi perah dalam populasi di atas atau sama dengan 75%
menghasilkan susu murni sesuai standar berikutnya
H1 : proporsi
sapi perah dalam populasi di bawah atau sama dengan 75% menghasilkan
susu murni sesuai standar berikutnya
p0 = .75
pbar = 103/144
n = 144
z = (pbar-p0)/sqrt(p0*(1-p0)/n);z## [1] -0.9622504
alpha = .05
z.alpha = qnorm(1-alpha)
-z.alpha## [1] -1.644854
Statistik uji -0.9622504 tidak kurang dari nilai kritis -1.644854. Oleh karena itu, pada tingkat signifikansi 0.05, H0 diterima bahwa proporsi sapi perah dalam populasi di atas 75% menghasilkan susu murni sesuai standar berikutnya.
Contoh 2
Seorang peneliti telah melaksanakan penyuluhan tentang pembuatan biourin pada bulan April 2020 di Kelompok Tani Maju, Desa Rorotan, Kecamatan Cilincing, Kota Administrasi Jakarta Utara. Ia ingin mengetahui apakah terjadi perbedaan tingkat pengetahuan peternak terhadap pembuatan biourin antara sebelum dan sesudah dilalkukan penyuluhan tersebut. Populasi penelitian keseluruhan dari subjek penelitian yaitu seluruh peternak di Kelompok Tani Maju.
Data nilai sebelum perlakuan (pretest) dan sesudah perlakuan (posttest):
pretest <- c(11,11,9,10,8,9,10,7,8,12,5,12,5,12,15,9,8,14,11,13,13,7,10,9,8)
posttest <- c(34,30,29,34,30,34,33,31,33,33,33,30,29,32,28,28,32,32,28,31,32,34,33,33,34)
biourin <-data.frame(pretest,posttest)
biourinH0 : Tidak Adanya perbedaan tingkat pengetahuan peternak terhadap
pembuatan biourin sebelum diaadakan penyuluhan dan sesudah diadakan
penyuluhan.
H1 : Adanya perbedaan tingkat pengetahuan peternak
terhadap pembuatan biourin sebelum diaadakan penyuluhan dan sesudah
diadakan penyuluhan.
Pertama, kita harus mengetahui apakah data ini berdistribusi normal atau tidak :
shapiro.test(pretest-posttest)##
## Shapiro-Wilk normality test
##
## data: pretest - posttest
## W = 0.96138, p-value = 0.4427
Berdasarkan Shapiro-wilk normality test, p-valuenya sebesar 0.4427. Maka, data ini berdistribusi normal. Kemudian kita lanjutkan dengan uji-t :
t.test(pretest, posttest, paired = TRUE)##
## Paired t-test
##
## data: pretest and posttest
## t = -30.442, df = 24, p-value < 2.2e-16
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## -23.23527 -20.28473
## sample estimates:
## mean difference
## -21.76
Paired t-test menunjukkan hasil uji-t sebesar -30.442. Dengan nilai signifikan alpha sebesar 0.05, confidence intervalnya antara -23.23527 dan -20.28473. Perbedaan rata-ratanya sebesar -21.76. Didapat pula p-value lebih kecil dari alpha maka H0 ditolak.
Dengan demikian, dapat disimpulkan bahwa hasil dari keduanya menunjukkan bahwa terjadi perbedaan tingkat pengetahuan peternak terhadap pembuatan biourin antara sebelum dan sesudah dilakukan penyuluhan tentang pembuatan biourin di Kelompoktani Tani Maju, Desa Rorotan, Kecamatan Cilincing, Kota Administrasi Jakarta Utara. Dengan demikian kegiatan penyuluhan pembuatan biourin di Kelompoktani Tani Maju dapat memberikan hasil yang positif bagi peternak.
Contoh penyelesaian ANOVA dengan menggunakan R
Contoh 1
Seorang petani ingin mengetahui apakah ada pengaruh jenis pupuk terhadap tinggi tanaman cabenya (dalam cm). Petani tersebut menggunakan 5 jenis pupuk yang berbeda (A,B,C,D dan E) dan melakukan pengamatan selama 2 minggu terhadap 20 tanaman cabe. Adapun 1 jenis pupuk akan dicobakan pada 4 tanaman cabe yang berbeda. Diperoleh data sebagai berikut :
getwd()## [1] "C:/Users/Lenovo/Documents/DOK. SAUSAN/Matana University/Semester 4/Komputasi Statistika"
an2 <- read.csv("One-Way-Anova-Exsight.csv")
an2H0 : tidak ada pengaruh antara jenis pupuk terhadap tinggi tanaman
H1 : terdapat pengaruh antara jenis pupuk terhadap tinggi
tanaman.
Membuat model dan menghitung nilai residual :
anova_pupuk <- aov(tinggi_tanaman ~ jenis_pupuk, data = an2)
pupuk.residuals <- residuals(object = anova_pupuk)Setelah mendapatkan nilai residual, dapat dilakukan uji normalitas :
library(nortest)
shapiro.test(pupuk.residuals)##
## Shapiro-Wilk normality test
##
## data: pupuk.residuals
## W = 0.92926, p-value = 0.1494
Berdasarkan hasil uji normalitas, p-value (0.1494) > 0.05. Maka data ini berdistribusi normal, sehingga bisa lanjut ke tahap berikutnya yaitu uji homogenitas.
library(car)
leveneTest(tinggi_tanaman ~ jenis_pupuk, data = an2, center=mean)Berdasarkan hasil uji homogenitas, didapatkan p-value (0.2358) > 0.05 yang artinya uji homogenitas data ini terpenuhi. Dikarenakan uji normalitas dan uji homogenitas terpenuhi, maka kita lanjut ke tahap one way anova :
anova_pupuk <- aov(tinggi_tanaman ~ jenis_pupuk, data = an2)
summary(anova_pupuk)## Df Sum Sq Mean Sq F value Pr(>F)
## jenis_pupuk 4 321.9 80.48 235.8 2.42e-13 ***
## Residuals 15 5.1 0.34
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness
Didapatkan bahwa p-value (2.42e-13) < taraf signifikan 5% (0.05), maka H0 ditolak. Dapat disimpulkan bahwa terdapat pengaruh antara jenis pupuk terhadap tinggi tanaman.
Contoh 2
Seorang peneliti telah mendapatkan data nilai stres di 3 grup berbeda
yaitu university students, A-Level students, General Population. Ia
ingin mengetahui apakah ada pengaruh antara group dengan
stress_score.
data <- read.csv("anova.csv")
dataH0 : tidak ada pengaruh antara group dengan
stress_score
H1 : terdapat pengaruh antara
group dengan stress_score
anova <- aov(Stress_score ~ Group, data = data)
anova.residuals <- residuals(object = anova)
library(nortest)
shapiro.test(anova.residuals)##
## Shapiro-Wilk normality test
##
## data: anova.residuals
## W = 0.98504, p-value = 0.4952
p-value (0.4952) > 0.05, maka data ini berdistribusi normal.
library(car)
leveneTest(Stress_score ~ Group, data = data, center=mean)p-value (0.4952) > 0.05, maka uji homogenitasnya terpenuhi.
anova <- aov(Stress_score ~ Group, data = data)
summary(anova)## Df Sum Sq Mean Sq F value Pr(>F)
## Group 2 3446 1722.9 63.93 <2e-16 ***
## Residuals 75 2021 26.9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
p-value (<2e-16) < 0.05, terlebih dengan terteranya tiga
bintang artinya H0 ditolak. Kesimpulannya, terdapat pengaruh antara
group dengan stress_score.
Contoh penyelesaian MANOVA dengan menggunakan R
Ibu tuminem menanam tiga jenis jahe di lahan miliknya, yaitu jahe putih, jahe merah, jahe emprit. Jahe tersebut digunakan untuk kesehatan dan rempah masakan. Ibu tuminem ingin melihat apakah ada perbedaan rata-rata (mean) berat ketiga jenis tersebut. Masing-masing jenis jahe diambil 5 sampel jahe untuk diukur beratnya (gram).
ambil <- seq(1:5)
putih <- c(154, 163, 141, 137, 151)
merah <- c(134, 118, 135, 127, 116)
emprit <- c(100, 122, 0.97, 106, 104)
jahe <-data.frame(ambil,putih,merah,emprit)
jaheH0 = tidak ada perbedaan rata-rata (mean) berat ketiga jenis jahe
H1 = ada perbedaan rata-rata (mean) berat ketiga jenis jahe
(minimal 1)
jahe2 <- manova(cbind(putih, merah, emprit) ~ ambil, data = jahe)
(summary(jahe2))## Df Pillai approx F num Df den Df Pr(>F)
## ambil 1 0.94614 5.855 3 1 0.2928
## Residuals 3
Didapatkan bahwa p-value (0.2928) > 0.05, maka H0 diterima. Kesimpulannya yaitu tidak ada perbedaan rata-rata (mean) berat ketiga jenis jahe pada setiap pengambilan.
Referensi
- Jurnal Penyuluhan Pertanian Vol.15, No. 1, Mei 2020.
- https://www.belajarstatistik.com/blog/2022/04/01/contoh-soal-anova-1-arah-dan-pembahasan/
- https://exsight.id/blog/2021/02/15/one-way-anova-atau-anova-1-arah-di-r-studio/
- https://statsguru.bham.ac.uk/downloads/between-group-anova/between-group-anova-data.csv