Final Test

Komputasi Statistika


Kontak : \(\downarrow\)
Email
Instagram https://www.instagram.com/saram.05/
RPubs https://rpubs.com/sausanramadhani/

Rangkuman Materi Kuliah Pert-1-15

Setelah mengikuti 15 kali pertemuan pada mata kuliah Komputasi Statistika, berikut ini rangkuman materi yang didapatkan :

Bab 1 - Probability Distribution

Distribusi probabilitas digunakan untuk menganalisis variabel acak (suatu gambaran hasil percobaan dalam bentuk numerik). Variabel acak terbagi menjadi dua yaitu variabel acak diskrit dan variabel acak kontinu.

Terdapat beberapa jenis distribusi yang umum digunakan, yaitu:
1. Binomial distribution
2. Poisson distribution
3. Continuous uniform distribution
4. Eksponential distribution
5. Normal distribution
6. Chi-squared distribution
7. Student t distribution
8. F distribution

Bab 2 - Confidence Interval

Untuk membuktikan hipotesis, kita memerlukan confidence interval (interval kepercayaan). Interval kepercayaan digunakan untuk menunjukkan seberapa akurat kemungkinan statistik yang dihitung. Interval kepercayaan dapat dihitung untuk berbagai statistik, seperti rata-rata, median, atau kemiringan regresi linier.

Statistik umumnya hanya bisa menjamin 95% (banyak digunakan), tidak bisa 100%. Hanya saja, saat memerlukan ketelitian tinggi bisa menggunakan 99%. Contoh confidence interval di aktivitas bisnis : quality management, market research, risk management & contingency planning, budgeting & forecasting.

Berikut ini langkah-langkah untuk menghitung estimasi :
1. Point estimate of population
2. Population mean (known std)
3. Population mean (unknown std)
4. Sampling size of population mean (known std)
5. Point estimate of population proportion 6. Interval estimate of population proportion 7. Sampling size of population proportion.

Bab 3 - Hypothesis Testing

Hypotesis testing (Uji hipotesis) digunakan untuk memvalidasi atau menguji hipotesis populasi berdasarkan sample. Selain itu juga menentukan hipotesis diterima atau ditolak yang mana jenis hipotesis statistik ada dua yaitu H0 dan Ha. H0 (hipotesis nol) artinya tidak ada perbedaan, sedangkan Ha atau H1 (hipotesis alternatif) artinya terdapat perbedaan minimal satu perbedaan.

Jenis Pengujian Hipotesis :
1. One-Tailed (Population Mean and Standard Deviation), perhitungannya menggunakan uji-z dengan diketahui standar deviasinya.
2. Two-Tailed (Population Mean and Standard Deviation), perhitungannya menggunakan uji-z dengan diketahui standar deviasinya.
3. One-Tailed (Population Mean and Unknown Standard Deviation), jika sampel besar (n lebih dari sama dengan 30) maka menggunakan uji-t atau uji-z, tetapi jika sampel kecil hanya menggunakan uji-t.
4. Two-Tailed (Population Mean and Unknown Standard Deviation), tanpa diketahui standar deviasinya bisa menggunakan uji-t dengan (alpha/2).
5. One-Tailed (Population Proportion), menggunakan uji-z sample proportion.
6. Two-Tailed (Population Proportion), menggunakan uji-z sample proportion dengan (alpha/2).
7. Type II Error One-Tail (Population Mean and Standard Deviation)
8. Type II Error in Two-Tailed (Population Mean and Standard Deviation)
9. Type II Error One-Tail (Population Mean and Unknown Standard Deviation)
10. Type II Error in Two-Tailed (Population Mean and Unknown Standard Deviation)

Bab 4 - A/B Testing

A/B Testing adalah eksperimen yang menguji perubahan conversion rate antara beberapa variasi dalam website. A/B testing adalah cara untuk membandingkan dua versi dari suatu hal demi mengetahui mana yang bekerja lebih baik. Sedangkan, A/A Testing mengadu dua halaman yang sama persis sama satu sama lain. Alih-alih menemukan peningkatan konversi, tujuan A/A Testing untuk memeriksa bahwa tidak ada perbedaan antara versi kontrol dan versi variasi.

Bab 5 - Goodness of Fit

Goodness of Fit berguna untuk mengetahui apakah sebuah distribusi data dari sampel mengikuti sebuah distribusi teoritis tertentu ataukah tidak. Misalnya normal, seragam, atau poisson.

Bab 7 - Simple Linear Regression

Simple linear regression digunakan untuk mengukur besarnya pengaruh variabel terikat/dependent dan 1 variabel bebas/independent. Syarat yang harus dipenuhi yaitu :
1. Jumlah sampel yang digunakan harus sama
2. Jumlah variabel bebas (X) hanya 1 variabel
3. Nilai residual harusberdistribusi normal
4. Terdapat hubungan linear antar variabel X dan Y

Bab 9 - Multiple Linear Regression

Perbedaan Simple Linear Regression dengan Multiple Linear Regression : Pada Simple, satu variabel dependen Y diprediksi dari satu variabel independen X. Sedangkan pada multiple, satu variabel dependen Y diprediksi dari satu set variabel independent (X1,X2,…,Xk)

Ciri-ciri multiple linear regression :
1. satu variabel dependen (terikat/Y)
2. Dua atau lebih variabel independen (variabel presiktor/X)
3. Ukuran sampel : n lebih besar atau sama dengan 50 (setidaknya 10 kali lebih banyak kasus sebagai variabel bebas)

Bab 10 - Logistic Regression

Logistic regression digunakan untuk menganalisis hubungan dan pengaruh antara variabel bebas dan variabel terikat.

Perbedaan linear regression dengan logistic regression : linear regression mempunyai variabel terikat (Y) kontinu (skala pengukuran scale/rasio), sedangkan logistic regression mempunyai variabel terikat (Y) kategorik (skala pengukuran nominal/kategorik atau rasio).

Bab 11 - ANOVA

Anova (Analysis of Variance) berfungsi untuk membandingkan rata-rata populasi untuk mengetahui perbedaan signifikan dari dua atau lebih kelompok data.

Asumsi Anova :
1. Random sampling: sampel bersifat independen dan bebas, artinya individu sampel diambil secara acak (random) dari masing-masing populasi atau kelompok data.
2. Normality: Untuk mendapat data dengan distribusi normal, bisa dilakukan tes normalitas terlebih dahulu.
3. Homogenity of variance: setiap populasi memiliki kesamaan variansi.

Anova terbagi menjadi dua, yaitu one way anova dan two way anova. One way anova berfungsi menganalisis data yang hanya memiliki satu variabel bebas atau karena satu faktor. Adapun Two way anova menganalisis data yang memiliki dua variabel bebas atau memiliki faktor kedua yang memengaruhi kondisi populasi.

Bab 15 - MANOVA

Manova (Multivariate Analysis of Variance) hampir sama dengan one way anova, bedanya adalah pada jumlah variabel dependen yang diuji di dalam model. Pada one way anova, hanya ada 1 variabel dependen. Sedangkan pada manova, lebih dari 1 variabel dependen.

Contoh penyelesaian Hipotesis Testing dengan menggunakan R

Contoh 1

Misalkan 75% sapi perah menghasilkan susu murni sesuai standar di kandang tahun lalu. 103 dari 144 sapi perah dalam sampel akan menghasilkan susu murni saat ini. Pada tingkat signifikansi 0.05, dapatkah kita menolak hipotesis nol bahwa proporsi sapi perah dalam populasi di atas 75% menghasilkan susu murni sesuai standar berikutnya?

H0 : proporsi sapi perah dalam populasi di atas atau sama dengan 75% menghasilkan susu murni sesuai standar berikutnya
H1 : proporsi sapi perah dalam populasi di bawah atau sama dengan 75% menghasilkan susu murni sesuai standar berikutnya

p0 = .75
pbar = 103/144
n = 144
z = (pbar-p0)/sqrt(p0*(1-p0)/n);z
## [1] -0.9622504
alpha = .05
z.alpha = qnorm(1-alpha)
-z.alpha
## [1] -1.644854

Statistik uji -0.9622504 tidak kurang dari nilai kritis -1.644854. Oleh karena itu, pada tingkat signifikansi 0.05, H0 diterima bahwa proporsi sapi perah dalam populasi di atas 75% menghasilkan susu murni sesuai standar berikutnya.

Contoh 2

Seorang peneliti telah melaksanakan penyuluhan tentang pembuatan biourin pada bulan April 2020 di Kelompok Tani Maju, Desa Rorotan, Kecamatan Cilincing, Kota Administrasi Jakarta Utara. Ia ingin mengetahui apakah terjadi perbedaan tingkat pengetahuan peternak terhadap pembuatan biourin antara sebelum dan sesudah dilalkukan penyuluhan tersebut. Populasi penelitian keseluruhan dari subjek penelitian yaitu seluruh peternak di Kelompok Tani Maju.

Data nilai sebelum perlakuan (pretest) dan sesudah perlakuan (posttest):

pretest <- c(11,11,9,10,8,9,10,7,8,12,5,12,5,12,15,9,8,14,11,13,13,7,10,9,8)
posttest <- c(34,30,29,34,30,34,33,31,33,33,33,30,29,32,28,28,32,32,28,31,32,34,33,33,34)
biourin <-data.frame(pretest,posttest)
biourin

H0 : Tidak Adanya perbedaan tingkat pengetahuan peternak terhadap pembuatan biourin sebelum diaadakan penyuluhan dan sesudah diadakan penyuluhan.
H1 : Adanya perbedaan tingkat pengetahuan peternak terhadap pembuatan biourin sebelum diaadakan penyuluhan dan sesudah diadakan penyuluhan.

Pertama, kita harus mengetahui apakah data ini berdistribusi normal atau tidak :

shapiro.test(pretest-posttest)
## 
##  Shapiro-Wilk normality test
## 
## data:  pretest - posttest
## W = 0.96138, p-value = 0.4427

Berdasarkan Shapiro-wilk normality test, p-valuenya sebesar 0.4427. Maka, data ini berdistribusi normal. Kemudian kita lanjutkan dengan uji-t :

t.test(pretest, posttest, paired = TRUE)
## 
##  Paired t-test
## 
## data:  pretest and posttest
## t = -30.442, df = 24, p-value < 2.2e-16
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  -23.23527 -20.28473
## sample estimates:
## mean difference 
##          -21.76

Paired t-test menunjukkan hasil uji-t sebesar -30.442. Dengan nilai signifikan alpha sebesar 0.05, confidence intervalnya antara -23.23527 dan -20.28473. Perbedaan rata-ratanya sebesar -21.76. Didapat pula p-value lebih kecil dari alpha maka H0 ditolak.

Dengan demikian, dapat disimpulkan bahwa hasil dari keduanya menunjukkan bahwa terjadi perbedaan tingkat pengetahuan peternak terhadap pembuatan biourin antara sebelum dan sesudah dilakukan penyuluhan tentang pembuatan biourin di Kelompoktani Tani Maju, Desa Rorotan, Kecamatan Cilincing, Kota Administrasi Jakarta Utara. Dengan demikian kegiatan penyuluhan pembuatan biourin di Kelompoktani Tani Maju dapat memberikan hasil yang positif bagi peternak.

Contoh penyelesaian ANOVA dengan menggunakan R

Contoh 1

Seorang petani ingin mengetahui apakah ada pengaruh jenis pupuk terhadap tinggi tanaman cabenya (dalam cm). Petani tersebut menggunakan 5 jenis pupuk yang berbeda (A,B,C,D dan E) dan melakukan pengamatan selama 2 minggu terhadap 20 tanaman cabe. Adapun 1 jenis pupuk akan dicobakan pada 4 tanaman cabe yang berbeda. Diperoleh data sebagai berikut :

getwd()
## [1] "C:/Users/Lenovo/Documents/DOK. SAUSAN/Matana University/Semester 4/Komputasi Statistika"
an2 <- read.csv("One-Way-Anova-Exsight.csv")
an2

H0 : tidak ada pengaruh antara jenis pupuk terhadap tinggi tanaman
H1 : terdapat pengaruh antara jenis pupuk terhadap tinggi tanaman.

Membuat model dan menghitung nilai residual :

anova_pupuk <- aov(tinggi_tanaman ~ jenis_pupuk, data = an2)
pupuk.residuals <- residuals(object = anova_pupuk)

Setelah mendapatkan nilai residual, dapat dilakukan uji normalitas :

library(nortest)
shapiro.test(pupuk.residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  pupuk.residuals
## W = 0.92926, p-value = 0.1494

Berdasarkan hasil uji normalitas, p-value (0.1494) > 0.05. Maka data ini berdistribusi normal, sehingga bisa lanjut ke tahap berikutnya yaitu uji homogenitas.

library(car)
leveneTest(tinggi_tanaman ~ jenis_pupuk, data = an2, center=mean)

Berdasarkan hasil uji homogenitas, didapatkan p-value (0.2358) > 0.05 yang artinya uji homogenitas data ini terpenuhi. Dikarenakan uji normalitas dan uji homogenitas terpenuhi, maka kita lanjut ke tahap one way anova :

anova_pupuk <- aov(tinggi_tanaman ~ jenis_pupuk, data = an2)
summary(anova_pupuk)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## jenis_pupuk  4  321.9   80.48   235.8 2.42e-13 ***
## Residuals   15    5.1    0.34                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness

Didapatkan bahwa p-value (2.42e-13) < taraf signifikan 5% (0.05), maka H0 ditolak. Dapat disimpulkan bahwa terdapat pengaruh antara jenis pupuk terhadap tinggi tanaman.

Contoh 2

Seorang peneliti telah mendapatkan data nilai stres di 3 grup berbeda yaitu university students, A-Level students, General Population. Ia ingin mengetahui apakah ada pengaruh antara group dengan stress_score.

data <- read.csv("anova.csv")
data

H0 : tidak ada pengaruh antara group dengan stress_score
H1 : terdapat pengaruh antara group dengan stress_score

anova <- aov(Stress_score ~ Group, data = data)
anova.residuals <- residuals(object = anova)

library(nortest)
shapiro.test(anova.residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  anova.residuals
## W = 0.98504, p-value = 0.4952

p-value (0.4952) > 0.05, maka data ini berdistribusi normal.

library(car)
leveneTest(Stress_score ~ Group, data = data, center=mean)

p-value (0.4952) > 0.05, maka uji homogenitasnya terpenuhi.

anova <- aov(Stress_score ~ Group, data = data)
summary(anova)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## Group        2   3446  1722.9   63.93 <2e-16 ***
## Residuals   75   2021    26.9                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

p-value (<2e-16) < 0.05, terlebih dengan terteranya tiga bintang artinya H0 ditolak. Kesimpulannya, terdapat pengaruh antara group dengan stress_score.

Contoh penyelesaian MANOVA dengan menggunakan R

Ibu tuminem menanam tiga jenis jahe di lahan miliknya, yaitu jahe putih, jahe merah, jahe emprit. Jahe tersebut digunakan untuk kesehatan dan rempah masakan. Ibu tuminem ingin melihat apakah ada perbedaan rata-rata (mean) berat ketiga jenis tersebut. Masing-masing jenis jahe diambil 5 sampel jahe untuk diukur beratnya (gram).

ambil <- seq(1:5)
putih <- c(154, 163, 141, 137, 151)
merah <- c(134, 118, 135, 127, 116)
emprit <- c(100, 122, 0.97, 106, 104)
jahe <-data.frame(ambil,putih,merah,emprit)
jahe

H0 = tidak ada perbedaan rata-rata (mean) berat ketiga jenis jahe
H1 = ada perbedaan rata-rata (mean) berat ketiga jenis jahe (minimal 1)

jahe2 <- manova(cbind(putih, merah, emprit) ~ ambil, data = jahe)
(summary(jahe2))
##           Df  Pillai approx F num Df den Df Pr(>F)
## ambil      1 0.94614    5.855      3      1 0.2928
## Residuals  3

Didapatkan bahwa p-value (0.2928) > 0.05, maka H0 diterima. Kesimpulannya yaitu tidak ada perbedaan rata-rata (mean) berat ketiga jenis jahe pada setiap pengambilan.