Lab 6 : Goodness of Fit
Email : valensiusjimy27@gmail.com
RPubs : https://rpubs.com/valensiusjimy/
Jurusan :
Statistika
Address : ARA Center, Matana University Tower
Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua,
Tangerang, Banten 15810.
Pendahuluan
Goodness of Fit test digunakan untuk menguji apakah data sampel
sesuai dengan distribusi dari populasi tertentu (yaitu populasi dengan
distribusi normal atau populasi dengan distribusi Weibull). Dengan kata
lain, ini memberi tahu Anda jika data sampel Anda mewakili data yang
Anda harapkan untuk ditemukan dalam populasi yang sebenarnya. Goodness
of fit test yang biasa digunakan dalam statistik adalah:
- The Chi-Square
- Kolmogorov-Smirnov
- Anderson-Darling
- Shapiro-Wilk
Pada kesempatan kali ini, kita akan fokus pada uji Chi Square karena merupakan yang paling umum dan sering digunakan dalam menguji apakah sebuah variabel memiliki hubungan atau tidak. Dan untuk kali ini, ada beberapa soal latihan yang akan dilakukan, yaitu :
Latihan 1
Cobalah lakukan pengujian Chi Square untuk menguji apakah terdapat
hubungan antara variabel Treatment(x) dengan
Improvment(y) yang terdapat pada dataset
treatment.csv !
# Panggil dataset treatment.csv
treatment_data <- read.csv("treatment.csv")
treatment_dataSetelah kita memanggil dataset tersebut, kita harus membuat tabel kontingensi.
cont_table <- table(treatment_data$treatment, treatment_data$improvement)
cont_table##
## improved not-improved
## not-treated 26 29
## treated 35 15
Membuat Hipotesis
Selanjutnya, kita membuat hipotesis sebelum melakukan pengujian.
- H0 : Treatment dan Improvment tidak memiliki hubungan
- H1 : Treatment dan Improvment memiliki hubungan
Taraf Signifikansi
Kita akan gunakan alpha = 5% atau 0.05
Kriteria Pengujian
Kita akan tolak H0 ketika p-value < taraf signifikansi dan sebaliknya.
Pengujian
chisq_test <- chisq.test(cont_table)
chisq_test##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: cont_table
## X-squared = 4.6626, df = 1, p-value = 0.03083
Berdasarkan hasil di atas, kita mendapat p-value sebesar 0.03083 yang artinya p-value < taraf signifikansi, sehingga kita menolak H0. Dengan demikian antara Treatment dan Improvment memiliki hubungan.
Latihan 2
Pada latihan kedua ini kita diminta kembali untuk mengulik dataset
mtcars yang mana terdapat variabel cyl dan
carb yang tujuannya adalah untuk kita buktikan kedua
variabel tersebut dependen atau tidak.
# Panggil data terlebih dahulu
emte_kars <- mtcars
emte_karsSelanjutnya kita buat tabel kontingensinya
ct <- table(emte_kars$cyl, emte_kars$carb)
ct##
## 1 2 3 4 6 8
## 4 5 6 0 0 0 0
## 6 2 0 0 4 1 0
## 8 0 4 3 6 0 1
Sebelum kita lanjut untuk melakukan pengujian, kita harus menentukan hipotesis dan kriteria pengujian agar tujuan dari pengujian test kali ini dapat menghasilkan tujuan dan hasil yang bermanfaat.
Membuat Hipotesis
Untuk kasus ini kita dapat membuat hipotesis seperti berikut ini.
- H0 : Tidak ada hubungan antara variabel cyl dan carb
- H1 : terdapat hubungan antara variabel cyl dan carb
Taraf Signifikansi dan Kriteria Pengujian
Untuk kasus ini kita menggunakan taraf signifikansi 0.05 dan kita akan menolak H0 ketika nilai p-value yang kita dapat < taraf signifikansi.
Pengujian
chisq_mtcars <- chisq.test(ct)
chisq_mtcars##
## Pearson's Chi-squared test
##
## data: ct
## X-squared = 24.389, df = 10, p-value = 0.006632
Berdasarkan hasil di atas, kita mendapat p-value sebesar 0.006632 yang artinya kita tolak H0 dan dengan demikian variabel cyl dan carb memiliki hubungan. Dan kita dapat katakan bahwa kedua variabel dependen
Latihan 3
256 visual artists were surveyed to find out their zodiac sign. The results were: Aries (29), Taurus (24), Gemini (22), Cancer (19), Leo (21), Virgo (18), Libra (19), Scorpio (20), Sagittarius (23), Capricorn (18), Aquarius (20), Pisces (23). Test the hypothesis that zodiac signs are evenly distributed across visual artists.
zodiac_signs <- c("Aries", "Taurus", "Gemini", "Cancer", "Leo", "Virgo",
"Libra", "Scorpio", "Sagittarius", "Capricorn", "Aquarius", "Pisces")
respondent_counts <- c(29, 24, 22, 19, 21, 18, 19, 20, 23, 18, 20, 23)
barplot(respondent_counts, names.arg = zodiac_signs,
xlab = "Zodiac Sign", ylab = "Number of Respondents",
col = rainbow(10),
main = "Distribution of Zodiac Signs among Visual Artists")Membuat Hipotesis
- H0 : Zodiak berdistribusi merata di antara visual artist
- H1 : Zodiak berdistribusi tidak merata di antara visual artist
Kriteria Pengujian
Kita menggunakan taraf signifikansi 0.05 dan kita menolak H0 ketika p-value kurang dari taraf signifikansi.
Pengujian
zodiac_signs <- c(29, 24, 22, 19, 21, 18, 19, 20, 23, 18, 20, 23)
n <- sum(zodiac_signs)
expected_counts <- rep(n/length(zodiac_signs), length(zodiac_signs)) / n
chisq_result <- chisq.test(zodiac_signs, p = expected_counts)
chisq_result##
## Chi-squared test for given probabilities
##
## data: zodiac_signs
## X-squared = 5.0938, df = 11, p-value = 0.9265
Berdasarkan hasil di atas kita mendapat hasil p-value sebesar 0.9265 yang artinya kita menerima H0 dan dengan demikian zodiak tersebut berdistribusi merata.