Minggu ke-5 ini akan membahas mengenai: Model Regresi Logit Binomial-I (Peubah Bebasnya Kontinu)
Review
Regresi logistik biner digunakan untuk memodelkan hubungan antara peubah respon yang terdiri dari dua kategori dengan satu atau lebih peubah penjelas. Peubah penjelasanya bisa berupa data kontinu atau kategorik.
Pendugaan parameter pada model regresi logistik biner menggunakan metode kemungkinan maksimum dan diselesaikan dengan iterasi Newton Raphson. Dalam pengujian parameter model dilakukan dengan likelihood ratio test atau uji G (uji simultan) dan statistik uji Wald (uji parsial).
Soal 1
Jawaban Soal 1
setwd("C:\\Users\\ACER\\Downloads\\")
Input Data
dataku <- read.csv("datacrab.csv",sep=";")
head(dataku)
## C S W Wt Sa
## 1 2 3 28.3 3.05 8
## 2 3 3 26.0 2.60 4
## 3 3 3 25.6 2.15 0
## 4 4 2 21.0 1.85 0
## 5 2 3 29.0 3.00 1
## 6 1 2 25.0 2.30 3
dim(dataku)
## [1] 173 5
Keterangan Data:
This data from a study of nesting horseshoe crabs.Each female horseshoe crab had a male crab resident in her nest. The study invertigated factors affecting whether the female crab had any other males, called satellites, residing nearby. Explanatory variables are the female crabs’s color, spine sondition, weight, and carapace width.
Data have 173 obs. of 5 variables:
C: Colour (1. Light medium, 2. Medium, 3. Dark medium, 4. Dark)
S: Spine Condition (1. both good, 2. One worn or broken, 3. Both worn or broken)
W: Carapace Width (cm)
Wt: Weight (kg)
Sa: Number of satellites
Source: Data courtesy of Jane Brockmann, Zoology Departmen, University of Floridak Study described in Ethology 102: 1-21 (1996).
Pendefinisian Peubah
str(dataku)
## 'data.frame': 173 obs. of 5 variables:
## $ C : int 2 3 3 4 2 1 4 2 2 2 ...
## $ S : int 3 3 3 2 3 2 3 3 1 3 ...
## $ W : num 28.3 26 25.6 21 29 25 26.2 24.9 25.7 27.5 ...
## $ Wt: num 3.05 2.6 2.15 1.85 3 2.3 1.3 2.1 2 3.15 ...
## $ Sa: int 8 4 0 0 1 3 0 0 8 6 ...
summary(dataku)
## C S W Wt
## Min. :1.000 Min. :1.000 Min. :21.0 Min. :1.200
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:24.9 1st Qu.:2.000
## Median :2.000 Median :3.000 Median :26.1 Median :2.350
## Mean :2.439 Mean :2.486 Mean :26.3 Mean :2.437
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:27.7 3rd Qu.:2.850
## Max. :4.000 Max. :3.000 Max. :33.5 Max. :5.200
## Sa
## Min. : 0.000
## 1st Qu.: 0.000
## Median : 2.000
## Mean : 2.919
## 3rd Qu.: 5.000
## Max. :15.000
dataku$c<- factor(dataku[,1]) #datanya adalah data kategorik, diubah as factor
dataku$s<- factor(dataku[,2]) #datanya adalah data kategorik, diubah as factor
dataku$w<- dataku[,3]
dataku$wt<- dataku[,4]
dataku$sa<- dataku[,5]
#pengkategorian peubah respon
# Y=1= number of satellites (sa)>0 Y=0=sa=0
dataku$y<- c(1:173)
for (i in 1:length(dataku$sa))
{
if(dataku$sa[i]>0)(dataku$y[i]=1)else(dataku$y[i]=0)
}
head(dataku)
## C S W Wt Sa c s w wt sa y
## 1 2 3 28.3 3.05 8 2 3 28.3 3.05 8 1
## 2 3 3 26.0 2.60 4 3 3 26.0 2.60 4 1
## 3 3 3 25.6 2.15 0 3 3 25.6 2.15 0 0
## 4 4 2 21.0 1.85 0 4 2 21.0 1.85 0 0
## 5 2 3 29.0 3.00 1 2 3 29.0 3.00 1 1
## 6 1 2 25.0 2.30 3 1 2 25.0 2.30 3 1
Model Regresi Logistik Dengan Peubah Bebas Width (W)
model <- glm(y~w, data=dataku, family=binomial("link"=logit))
summary(model)
##
## Call:
## glm(formula = y ~ w, family = binomial(link = logit), data = dataku)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.0281 -1.0458 0.5480 0.9066 1.6942
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -12.3508 2.6287 -4.698 2.62e-06 ***
## w 0.4972 0.1017 4.887 1.02e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 225.76 on 172 degrees of freedom
## Residual deviance: 194.45 on 171 degrees of freedom
## AIC: 198.45
##
## Number of Fisher Scoring iterations: 4
exp(model$coefficients)
## (Intercept) w
## 4.326214e-06 1.644162e+00
Membandingkan Output R Dengan Output SAS
Hasil dugaan parameter pada kedua output program baik R maupun SAS adalah sama. Namun demikian, pada output R tidak menampilkan hasil uji Wald.
Untuk mendapatkan hasil uji Wald dari hasil output program R kita dapat menghitungnya secara manual menggunakan informasi yang terdapat pada hasil output atau dengan cara menambahkan sintaks sebagai berikut:
Anova(model,type='II',test='Wald')
## Analysis of Deviance Table (Type II tests)
##
## Response: y
## Df Chisq Pr(>Chisq)
## w 1 23.887 1.021e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hasilnya sama dengan SAS.
Interpretasi Koefisien Regresi
exp(model$coefficients)
## (Intercept) w
## 4.326214e-06 1.644162e+00
Interpretasi dugaan parameter model:
- Interpretasi \(b_0\) : perbandingan peluang
tanpa memperhatikan lebar cangkang, peluang kepiting betina untuk menarik kepiting jantan adalah \(4.32 \times 10^{-6}\) dibandingkan peluang untuk tidak menarik kepiting jantan
- Interpretasi \(b_1\) (slope) : perbandingan odds
odds pada kepiting betina yang mampu menarik kepiting jantan akan meningkat sebesar \(1.64\) kali jika lebar cangkang naik sebesar satu satuan.
Model Regresi Logistik Dengan Peubah Bebas Width Dan Akar Width
dataku$w1<- sqrt(dataku$w)
model2 <- glm(y~w+w1, data=dataku, family=binomial("link"=logit))
summary(model2)
##
## Call:
## glm(formula = y ~ w + w1, family = binomial(link = logit), data = dataku)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.1128 -1.0417 0.5088 0.9451 1.5447
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 89.073 118.713 0.750 0.453
## w 4.435 4.630 0.958 0.338
## w1 -39.991 46.901 -0.853 0.394
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 225.76 on 172 degrees of freedom
## Residual deviance: 193.70 on 170 degrees of freedom
## AIC: 199.7
##
## Number of Fisher Scoring iterations: 5
\(P_{Value}\) untuk intercept, w, dan w1 atau akar $w > #, berarti **tidak tolak \(H_0\). Semuanya tidak nyata atau tidak signifikan pada taraf \(\alpha 0.05\).
Uji Wald
- Hipotesis (w)
\(H_0\) : \(\beta_1=0\)
\(H_1\) : \(\beta_1 \neq 0\)
- Hipotesis (akar w)
\(H_0\) : \(\beta_2=0\)
\(H_1\) : \(\beta_2 \neq 0\)
Anova(model2,type='II',test='Wald')
## Analysis of Deviance Table (Type II tests)
##
## Response: y
## Df Chisq Pr(>Chisq)
## w 1 0.9176 0.3381
## w1 1 0.7270 0.3938
\(p_{value}\) yang diperoleh dari output program R untuk kedua peubah baik width maupun akar width adalah lebih dari \(0.05\), sehingga 88tidak tolak \(H_0\), dengan kata lain peubah width dan akar width tidak berpengaruh nyata. Hasil dari output program R sama dengan hasil perhitungan manual.
Perbandingan Model 1 Dan Model 2
Nilai AIC untuk model 1 198.45, sedangkan AIC untuk model 2 199.7.
Dugaan parameter pada model 1 berpengaruh nyata, sedangkan parameter pada model 2 tidak berpengaruh nyata pada \(\alpha = 5\%\).
Jadi, model terbaik adalah model 1.
Soal 2
Jawaban Soal 2
Input Data
gss<-read.csv("Data gss 2006.csv", sep=";")
dim(gss)
## [1] 1834 5
head(gss)
## No educ sexeduc age sei
## 1 1 14 1 27 50.7
## 2 2 9 2 67 35.7
## 3 3 12 1 50 38.4
## 4 4 16 1 35 54.7
## 5 5 18 1 32 80.3
## 6 6 16 1 60 54.2
Cek Missing Data
apply(gss,2,function(x) sum(is.na(x)))
## No educ sexeduc age sei
## 0 0 0 0 0
Supaya perbandingan model valid maka perlu membuang observasi yang mengandung missing value.
Di sini tidak ada missing value.
Pendefinisian Peubah
Variabel respon (sexeduc) yang berkode 1 dan 2 akan di konvert menjadi 1 dan 0 untuk memudahkan proses selanjutnya. Nilai ini tidak perlu dibuat factor karena nanti tidak sesuai di hosmernya (yang dibutuhkan numerik).
gss$sexeduc<-ifelse(gss$sexeduc==1,1,0)
head(gss)
## No educ sexeduc age sei
## 1 1 14 1 27 50.7
## 2 2 9 0 67 35.7
## 3 3 12 1 50 38.4
## 4 4 16 1 35 54.7
## 5 5 18 1 32 80.3
## 6 6 16 1 60 54.2
Uji Rasio Likelihood
Lakukan uji rasio likelihood untuk membandingkan model dengan tiga prediktor terhadap model dengan hanya prediktor AGE dan EDUC. Laporkan dan interpretasi (secara substansive) hasil dari pengujian ini.
Model 3 Prediktor
\[log \left ( \frac{\pi }{1-\pi } \right )=\alpha+\beta_1 AGE+\beta_2 EDUC+\beta_3 SEI\]
model1<-glm(sexeduc~age+educ+sei, data=gss,
family=binomial("link"=logit))
summary(model1)
##
## Call:
## glm(formula = sexeduc ~ age + educ + sei, family = binomial(link = logit),
## data = gss)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.4638 0.3757 0.4300 0.4904 0.8376
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.248968 0.402101 5.593 2.23e-08 ***
## age -0.018709 0.004631 -4.040 5.34e-05 ***
## educ 0.042218 0.027922 1.512 0.131
## sei 0.005889 0.004961 1.187 0.235
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1208.1 on 1833 degrees of freedom
## Residual deviance: 1182.3 on 1830 degrees of freedom
## AIC: 1190.3
##
## Number of Fisher Scoring iterations: 5
Persamaan yang terbentuk adalah
\[log \left ( \frac{\widehat{\pi} }{1-\widehat{\pi} } \right )=2.249-0.0187 AGE+0.0422 EDUC+0.0059 SEI\]
Yang selanjutnya digunakan adalah Residual Deviance.
Model 2 Prediktor
\[log \left ( \frac{\pi }{1-\pi } \right )=\alpha+\beta_1 AGE+\beta_2 EDUC\]
model2<-glm(sexeduc~age+educ, data=gss,
family=binomial("link"=logit))
summary(model2)
##
## Call:
## glm(formula = sexeduc ~ age + educ, family = binomial(link = logit),
## data = gss)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.4250 0.3769 0.4319 0.4899 0.8609
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.255340 0.396930 5.682 1.33e-08 ***
## age -0.018170 0.004607 -3.944 8.00e-05 ***
## educ 0.061286 0.022508 2.723 0.00647 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1208.1 on 1833 degrees of freedom
## Residual deviance: 1183.8 on 1831 degrees of freedom
## AIC: 1189.8
##
## Number of Fisher Scoring iterations: 5
Persamaan yang terbentuk adalah
\[log \left ( \frac{\widehat{\pi} }{1-\widehat{\pi} } \right )=2.249-0.0187 AGE+0.0422 EDUC+0.0059 SEI\]
Uji Rasio Likelihood Model 3 Prediktor dan 2 Prediktor
Uji Rasio Likelihood Model 3 Prediktor dan 2 Prediktor
Hipotesis
\(H_0\) : \(\beta_3=0\) Indeks sosial ekonomi (SE) tidak berpengaruh terhadap mengenai pendidikan sex di sekolah (sex educ)
\(H_0\) : \(\beta_3 \neq 0\) Indeks sosial ekonomi (SE) berpengaruh terhadap mengenai pendidikan sex di sekolah (sex educ).
Taraf Nyata
\(\alpha=5\%\)
Statistik Uji: LRT
db Deviance model 2 pred = \(1834-3\) = \(1831\) (angka 3 diperoleh dari banyaknya parameter model 2 termasuk intercept).
db Deviance model 3 pred = \(1834 - 4\) = \(1830\) (angka 3 diperoleh dari banyaknya parameter model 3 termasuk intercept).
Daerah Penolakan
Tolak \(H_0\) jika \(G^{2}> \chi ^{2}_{0.05, db}\) = \(G^{2}> \chi ^{2}_{0.05, 1}\) = \(3.841\)
Keputusan
Karena \(1.423 < 3.842\), maka Tidak Tolak \(H_0\)
Kesimpulan
Dengan taraf nyata \(5\%\), indeks sosial ekonomi (SEI) seseorang tidak memberikan pengaruh terhadap pendapat mengenai pendidikan sex di sekolah (sexeduc). Dengan kata lain, untuk memprediksi pendavat seseorang mengenai vendidikan sex di sekolah cukup menggunakan umur dan tahun tertinggi pendidikan yang ditamatkan (model 2 prediktor: age educ), lebih baik dibandingkan model dengan 3 prediktor (age, educ, dan SEI).
model2$deviance-model1$deviance
## [1] 1.423566
(-2*logLik(model2))-(-2*logLik(model1))
## 'log Lik.' 1.423566 (df=3)
lrtest(model2,model1)
## Likelihood ratio test
##
## Model 1: sexeduc ~ age + educ
## Model 2: sexeduc ~ age + educ + sei
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 3 -591.88
## 2 4 -591.17 1 1.4236 0.2328
Uji Rasio Likelihood Model 2 Prediktor dan 1 Prediktor
Model 1 Prediktor
\[log \left ( \frac{\pi }{1-\pi } \right )=\alpha+\beta_1 AGE\]
#Model 1 predictor: Age
model3<-glm(sexeduc~age, data=gss,
family=binomial("link"=logit))
summary(model3)
##
## Call:
## glm(formula = sexeduc ~ age, family = binomial(link = logit),
## data = gss)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.3721 0.3859 0.4348 0.4982 0.6549
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.11517 0.24832 12.545 < 2e-16 ***
## age -0.01914 0.00461 -4.153 3.29e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1208.1 on 1833 degrees of freedom
## Residual deviance: 1190.9 on 1832 degrees of freedom
## AIC: 1194.9
##
## Number of Fisher Scoring iterations: 5
Persamaan yang terbentuk adalah
\[log \left ( \frac{\widehat{\pi} }{1-\widehat{\pi} } \right )=3.1152-0.0191 AGE\] Uji Rasio Likelihood Model 2 Prediktor dan 1 Prediktor
Hipotesis
\(H_0\) : \(\beta_2=0\) Tahun tertinggi pendidikan yang ditamatkan (EDUC) tidak berpengaruh terhadap mengenai pendidikan sex di sekolah (sex educ)
\(H_0\) : \(\beta_2 \neq 0\) Tahun tertinggi pendidikan yang ditamatkan (EDUC) berpengaruh terhadap mengenai pendidikan sex di sekolah (sex educ).
Taraf Nyata
\(\alpha=5\%\)
Statistik Uji: LRT
Daerah Penolakan
Tolak \(H_0\) jika \(G^{2}> \chi ^{2}_{0.05, db}\) = \(G^{2}> \chi ^{2}_{0.05, 1}\) = \(3.841\)
Keputusan
Karena \(7.179 < 3.842\), maka Tolak \(H_0\)
Kesimpulan
Dengan taraf nyata \(5\%\), tahun tertinggi pendidikan yang ditamatkan (EDUC) seseorang memberikan pengaruh terhadap pendapat mengenai pendidikan sex di sekolah (sexeduc). Dengan kata lain, untuk memprediksi pendapat seseorang mengenai pendidikan sex di sekolah selain menggunakan umur, harus menggunakan tahun tertinggi pendidikan yang ditamatkan (model 2 prediktor: age dan educ), lebih baik dibandingkan model dengan 1 prediktor (age).
model3$deviance-model2$deviance
## [1] 7.178502
(-2*logLik(model3))-(-2*logLik(model2))
## 'log Lik.' 7.178502 (df=2)
lrtest(model3,model2)
## Likelihood ratio test
##
## Model 1: sexeduc ~ age
## Model 2: sexeduc ~ age + educ
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 2 -595.47
## 2 3 -591.88 1 7.1785 0.007378 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Model yang paling sederhana untuk data gss
Berdasarkan hasil dari model 1 dan model 2, model yang paling sederhana untuk data gss adalah model dengan prediktor umur (AGE) dan tahun tertinggi pendidikan yang ditamatkan (EDUC). Hal ini karena indeks sosial ekonomi (SEI) tidak berpengaruh terhadap pendapat mengenai pendidikan sex di sekolah (poin a) sehingga SEI tidak perlu dimasukkan dalam model. Selain itu, tahun tertinggi pendidikan yang ditamatkan berpengaruh nyata terhadap pendapat mengenai pendidikan sex di sekolah (poin b), sehingga perlu ditambahkan dalam model. Jika dilihat dari nilai AIC model, maka model dengan prediktor AGE dan EDUC memiliki nilai AIC terkecil dibandingkan dua model lainnya. Semakin kecil nilai AIC suatu model maka semakin baik model tersebut.
model1$aic #3 peubah
## [1] 1190.335
model2$aic #2 peubah
## [1] 1189.758
model3$aic #1 peubah
## [1] 1194.937
Interpretasi model tersederhana
Interpretasikan secara lengkap nilai, tanda, dan uji signifikansi dari penduga parameter pada model yang paling sederhana.
Model yang paling parsimoni:
\[log \left ( \frac{\widehat{\pi} }{1-\widehat{\pi} } \right )=2.255-0.018 AGE + 0.061 EDUC\] \[ \frac{\widehat{\pi} }{1-\widehat{\pi} } = exp (2.255-0.018 AGE + 0.061 EDUC)\] dengan,
\[\widehat{\pi}=P(sexeduc=1)=P(Mendukung Pendidikan Sex di Sekolah)\]
#interpretasi model yang paling sederhana
variabel<-function(x){
koef<-x$coefficients
se<-summary(x)$coefficients[,2]
wald.stat<-(koef/se)^2
pval<-pchisq(wald.stat,1,lower.tail = F)
exp.koef<-exp(koef)
print(round(data.frame(koef,se,wald.stat,pval,exp.koef),4
))
}
variabel(model2)
## koef se wald.stat pval exp.koef
## (Intercept) 2.2553 0.3969 32.2847 0.0000 9.5385
## age -0.0182 0.0046 15.5584 0.0001 0.9820
## educ 0.0613 0.0225 7.4140 0.0065 1.0632
Intercept
\[ \frac{\widehat{\pi} }{1-\widehat{\pi} } = exp (2.255-0.018 AGE + 0.061 EDUC)\] \[ \frac{\widehat{\pi} }{1-\widehat{\pi} } = exp (2.255-0.018 (0) + 0.061 (0))=9.5385\]
Interpretasi
Tanpa memperhatikan umur (AGE) dan tahun tertinggi pendidikan yang ditamatkan, peluang responden untuk mendukung pendidikan sex di sekolah adalah \(9.534\) kali dibandingkan peluang menolak pendidikan sex di sekolah. Dengan kata lain, responden akan lebih cenderung untuk mendukung pendidikan sex di sekolah.
Uji Signifikansi
\(H_0\) : \(\alpha=0\)
\(H_0\) : \(\alpha \neq 0\)
Taraf Nyata
\(\alpha=5\%\)
Statistik Uji: LRT
Daerah Penolakan
Tolak \(H_0\) jika \(\chi^{2}_{hit} > \chi ^{2}_{0.05, db}\) = \(3.841\)
Keputusan
Karena \(32.2847 > 3.842\), maka Tolak \(H_0\)
Kesimpulan
Dengan taraf nyata \(5\%\), intercept memberikan pengaruh. Dengan kata lain, ada nilai odd mendukung pendidikan sex yang tidak dapat dijelaskan oleh umur dan tingkat vendidikan tertinggi yang ditamatkan.
Age
\[ exp (\beta_1) = exp (-0.0182)=0.9820\]
Interpretasi
Odd mendukung pendidikan sex di sekolah akan meningkat \(0.9820\) kali jika umur responden bertambah 1 tahun dan tahun tertinggi pendidikan yang ditamatkan tetap.
Tanda negatif pada penduga parameter age menunjukkan adanya hubungan yang berlawanan. Semakin tua umur responden maka akan cenderung untuk menolak pendidikan seks di sekolah (kecenderungan mendukung pendidikan sex di sekolah semakin menurun).
Uji Signifikansi
\(H_0\) : \(\beta_1=0\) umur responden tidak berpengaruh terhadap pendapat mengenai pendidikan sex di sekolah
\(H_0\) : \(\beta_1 \neq 0\) umur responden berpengaruh terhadap pendapat mengenai pendidikan sex di sekolah
Taraf Nyata
\(\alpha=5\%\)
Statistik Uji: LRT
Daerah Penolakan
Tolak \(H_0\) jika \(\chi^{2}_{hit}> \chi ^{2}_{0.05, db}\) = \(G^{2}> \chi ^{2}_{0.05, 1}\) = \(3.841\)
Keputusan
Karena \(15.5584 > 3.842\), maka Tolak \(H_0\)
Kesimpulan
Dengan taraf nyata \(5\%\), umur seseorang memberikan pengaruh terhadap pendapat mengenai pendidikan sex di sekolah.
EDUC
\[ exp (\beta_2) = exp (0.0613)=1.0632\]
Interpretasi
Odd mendukung pendidikan sex di sekolah akan meningkat \(1.0623\) kali jika tahun pendidikan tertinggi yang ditamatkan responden bertambah 1 tahun dan umur tetap.
Tanda positif pada penduga parameter EDUC menunjukkan adanya hubungan yang searah. Semakin tingi pendidikan tertinggi yang ditamatkan responden maka akan cenderung untuk mendukung pendidikan seks di sekolah (kecenderungan mendukung pendidikan sex di sekolah semakin meningkat).
Uji Signifikansi
\(H_0\) : \(\beta_1=0\) tahun tertinggi pendidikan yang ditamatkan responden tidak berpengaruh terhadap pendapat mengenai pendidikan sex di sekolah
\(H_0\) : \(\beta_1 \neq 0\) tahun tertinggi pendidikan yang ditamatkan responden berpengaruh terhadap pendapat mengenai pendidikan sex di sekolah
Taraf Nyata
\(\alpha=5\%\)
Statistik Uji: LRT
Daerah Penolakan
Tolak \(H_0\) jika \(\chi^{2}_{hit}> \chi ^{2}_{0.05, db}\) = \(G^{2}> \chi ^{2}_{0.05, 1}\) = \(3.841\)
Keputusan
Karena \(7.4140 > 3.842\), maka Tolak \(H_0\)
Kesimpulan
Dengan taraf nyata \(5\%\), tahun tertinggi pendidikan yang ditamatkan seseorang memberikan pengaruh terhadap pendapat mengenai pendidikan sex di sekolah.
Perbandingan model Parsimoni dengan model yang diberikan
Ketika sebuah model adalah yang paling parsimoni dibandingkan dengan beberapa model yang diberikan, model tersebut mungkin atau mungkin tidak mem-fitkan nilai pengamatan secara baik. Lakukan uji kecocokan (yang membandingkan nilai pengamatan dan nilai prediksi) untuk model paling parsimoni dan interpretasikan hasilnya.
\(H_0\) : Model cocok untuk menggambarkan data
\(H_0\) : Model tidak cocok untuk menggambarkan data
Taraf Nyata:
\(\alpha=5\%\)
hoslem.test(gss$sexeduc,model2$fitted.values)
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: gss$sexeduc, model2$fitted.values
## X-squared = 11.985, df = 8, p-value = 0.1519
Statistik uji:
Daerah Penolakan:
Tolak \(H_0\) jika \(G^{2}_{HL}> \chi ^{2}_{0.05, (g-2)}\) = \(G^{2}> \chi ^{2}_{0.05, 8}\) = \(15.507\)
Keputusan
Karena \(11.985 < 15.507\), maka Tidak Tolak \(H_0\)
Kesimpulan
Dengan taraf nyata \(5\%\), model dengan prediktor AGE dan EDUC sesuai untuk menggambarkan data.
Dugaan Peluang
Berdasarkan Model dengan prediktor hanya AGE dan EDUC, apa dugaan peluang bahwa seorang respondent akan mendukung pendidikan sex di sekolah jika responden tersebut berumur 40 tahun dan telah menyelesaikan 12 tahun pendidikan.
\[ \frac{\widehat{\pi} }{1-\widehat{\pi} } = exp (2.255-0.018 AGE + 0.061 EDUC)\] \[ \frac{\widehat{\pi} }{1-\widehat{\pi} } = exp (2.255-0.018 (40) + 0.061 (12))= 9.6210\] \[ \widehat{\pi}=\frac{9.6210 }{1+9.6210 } = 0.9058\]
#f. predict
new=data.frame(age=40, educ=12)
predict(model2,newdata=new,type="response")
## 1
## 0.9058473
Jika seseorang berumur 40 tahun dan telah menempuh 12 tahun pendidikan, maka peluang orang tersebut akan mendukung pendidikan sex di sekolah adalah \(0.9058\) atau dengan kata lain orang tersebut akan diprediksi untuk mendukung adanya pendidikan seks di sekolah (tergolong kategori 1 dengan cutting point = \(0.5\))
TERIMAKASIH