Membangkitkan Data

Skenario

Y : Keputusan menolak/menerima pelamar kerja pada jasa cuci sepatu X1 : Lama pengalaman kerja pada jasa cuci sepatu (bulan) X2 : pengetahuan luas tentang sepatu (0: tidak, 1: iya) X3 : pengalaman mencuci sepatu (0: tidak pernah, 1: pernah) X4 : rapot sma (skala 10)

Membangkitkan data X1

X1 : Lama pengalaman kerja pada jasa cuci sepatu (bulan) Membangkitkan variabel X1 dengan lama pekerjaan 0-24 bulan dengan nilai tengah 12 dan banyak pelamar adalah 50

set.seed(50)
n <- 50
u <- runif(n)

X1 <- round(50*(-log(1-u)/12))
X1
##  [1]  5  2  1  6  3  0  5  4  0  0  2  1  4  0  1  5  8  2  0  1  4  1  5  8  2
## [26]  4  4  1  2  2  2  2  2  4  1  4  1  5  2  3  2  8  1  0  0  5 13  3  5  7

Membangkitkan data X2

X2 : Status pekerjaan pengetahuan luas tentang sepatu (0=Tidak) dan (1=ya)

set.seed(80)
X2 <- round(runif(n))
X2
##  [1] 0 1 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0
## [39] 0 0 0 0 0 0 1 1 0 1 1 0

Membangkitkan data X3

X3 : pengalaman mencuci sepatu (0=tidak pernah) dan (1=pernah)

set.seed(60)
X3 <- round(runif(n))
X3
##  [1] 1 0 1 1 0 0 0 1 0 1 0 0 1 0 1 1 0 0 1 0 0 0 0 1 1 1 0 0 0 1 1 0 0 0 1 1 0 0
## [39] 1 0 0 0 0 1 1 1 1 1 1 0

Membangkitkan data X4

rapot sma (skala 10)

set.seed(90)
X4 <- round(rnorm(n,3,0.5),2)
X4
##  [1] 3.04 2.92 2.56 2.64 3.37 3.22 3.50 3.46 2.72 4.20 2.60 2.96 3.43 3.83 2.88
## [16] 2.97 2.83 3.44 3.49 2.62 2.71 2.93 3.66 2.35 2.81 3.06 2.80 3.41 2.69 3.49
## [31] 2.76 3.34 2.01 3.51 2.83 3.02 2.91 2.36 2.76 3.60 3.58 2.88 1.65 4.41 3.03
## [46] 3.03 2.95 3.01 3.08 3.23

Membangkitkan data Y

Menentukan koef

b0 <- -2
b1 <- 0.4
b2 <- 1.4
b3 <- 1.2
b4 <- 0.5
set.seed(20)
datapendukung <- b0+(b1*X1)+(b2*X2)+(b3*X3)+(b4*X4)
datapendukung
##  [1]  2.720  1.660  2.280  2.920  2.285 -0.390  3.150  3.930  0.760  2.700
## [11]  0.100 -0.120  3.915  1.315  1.040  2.685  2.615  0.520  2.345  1.110
## [21]  0.955 -0.135  1.830  3.575  1.405  2.330  2.400  0.105  1.545  1.745
## [31]  2.780  0.470 -0.195  1.355  1.015  2.310  1.255  1.180  1.380  1.000
## [41]  0.590  2.640 -0.775  1.405  2.115  4.115  5.875  3.305  4.140  2.415
p <- exp(datapendukung)/(1+exp(datapendukung))
p
##  [1] 0.9381965 0.8402380 0.9072070 0.9488263 0.9076271 0.4037173 0.9589087
##  [8] 0.9807348 0.6813537 0.9370266 0.5249792 0.4700359 0.9804493 0.7883486
## [15] 0.7388500 0.9361357 0.9318207 0.6271478 0.9125360 0.7521291 0.7221196
## [22] 0.4663012 0.8617617 0.9727480 0.8029761 0.9113313 0.9168273 0.5262259
## [29] 0.8241904 0.8513210 0.9415854 0.6153838 0.4514039 0.7949459 0.7339975
## [36] 0.9097019 0.7781642 0.7649478 0.7989910 0.7310586 0.6433651 0.9333920
## [43] 0.3153985 0.8029761 0.8923526 0.9839363 0.9971991 0.9645999 0.9843267
## [50] 0.9179640
set.seed(2)
y <- rbinom(n,1,p)
y
##  [1] 1 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0 1 1 0 1
## [39] 1 1 0 1 0 1 0 1 1 1 1 1
datagab <- data.frame(y,X1,X2,X3,X4)
datagab
##    y X1 X2 X3   X4
## 1  1  5  0  1 3.04
## 2  1  2  1  0 2.92
## 3  1  1  1  1 2.56
## 4  1  6  0  1 2.64
## 5  0  3  1  0 3.37
## 6  1  0  0  0 3.22
## 7  1  5  1  0 3.50
## 8  1  4  1  1 3.46
## 9  1  0  1  0 2.72
## 10 1  0  1  1 4.20
## 11 0  2  0  0 2.60
## 12 0  1  0  0 2.96
## 13 1  4  1  1 3.43
## 14 1  0  1  0 3.83
## 15 1  1  0  1 2.88
## 16 1  5  0  1 2.97
## 17 0  8  0  0 2.83
## 18 1  2  0  0 3.44
## 19 1  0  1  1 3.49
## 20 1  1  1  0 2.62
## 21 1  4  0  0 2.71
## 22 0  1  0  0 2.93
## 23 1  5  0  0 3.66
## 24 1  8  0  1 2.35
## 25 1  2  0  1 2.81
## 26 1  4  0  1 3.06
## 27 1  4  1  0 2.80
## 28 1  1  0  0 3.41
## 29 0  2  1  0 2.69
## 30 1  2  0  1 3.49
## 31 1  2  1  1 2.76
## 32 1  2  0  0 3.34
## 33 1  2  0  0 2.01
## 34 0  4  0  0 3.51
## 35 1  1  0  1 2.83
## 36 1  4  0  1 3.02
## 37 0  1  1  0 2.91
## 38 1  5  0  0 2.36
## 39 1  2  0  1 2.76
## 40 1  3  0  0 3.60
## 41 0  2  0  0 3.58
## 42 1  8  0  0 2.88
## 43 0  1  0  0 1.65
## 44 1  0  0  1 4.41
## 45 0  0  1  1 3.03
## 46 1  5  1  1 3.03
## 47 1 13  0  1 2.95
## 48 1  3  1  1 3.01
## 49 1  5  1  1 3.08
## 50 1  7  0  0 3.23

Analisis Regresi Logistik

modelreglog <- glm(y ~ X1 + X2 + X3 + X4, family = binomial(link="logit"),data=datagab)
summary(modelreglog)
## 
## Call:
## glm(formula = y ~ X1 + X2 + X3 + X4, family = binomial(link = "logit"), 
##     data = datagab)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -1.85776    2.37670  -0.782    0.434  
## X1           0.18279    0.18575   0.984    0.325  
## X2           0.02868    0.81986   0.035    0.972  
## X3           2.47111    1.11004   2.226    0.026 *
## X4           0.63115    0.76487   0.825    0.409  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 52.691  on 49  degrees of freedom
## Residual deviance: 41.980  on 45  degrees of freedom
## AIC: 51.98
## 
## Number of Fisher Scoring iterations: 5

output yang Anda berikan adalah hasil dari model regresi logistik yang dipasang menggunakan fungsi glm di R pada dataset bernama “datagab”. Berikut rincian outputnya:

Model:

Ini adalah model regresi logistik dengan famili binomial dan fungsi link logit. Jenis model ini cocok untuk memprediksi hasil biner (sukses/gagal) berdasarkan beberapa variabel prediktor. Koefisien:

Tabel “Koefisien” menunjukkan efek estimasi dari tiap variabel prediktor (X1, X2, X3, dan X4) pada log odds dari variabel hasil (y). Estimate (Estimasi): Estimasi koefisien menunjukkan besar dan arah hubungan antara prediktor dan hasil. Koefisien positif menunjukkan hubungan positif, sedangkan koefisien negatif menunjukkan hubungan negatif. Std. Error (Std. Error): Error standar memberikan estimasi variabilitas di sekitar estimasi koefisien. z value (nilai z): Statistik-z dihitung dengan membagi estimasi koefisien dengan error standarnya. Ini digunakan untuk menilai signifikansi statistik dari hubungan antara prediktor dan hasil. Pr(>|z|) (Pr(>|z|)): Nilai-p mewakili probabilitas mengamati statistik-z yang sama ekstrem atau lebih ekstrem dari yang dihitung, dengan asumsi tidak ada hubungan nyata antara prediktor dan hasil. Nilai-p yang lebih rendah menunjukkan bukti yang lebih kuat terhadap hipotesis nol (tidak ada hubungan). Kode signifikansi:

Kode signifikansi menunjukkan koefisien mana yang signifikan secara statistik pada tingkat alpha yang berbeda. Dalam hal ini, ’*’ menunjukkan signifikansi pada tingkat 0,05, artinya kita dapat menolak hipotesis nol tidak adanya hubungan untuk X3. Statistik lainnya:

Deviansi nol: Ini mewakili deviansi model dengan hanya istilah intersep, yang menunjukkan kebaikan-of-fit awal tanpa prediktor apapun. Deviansi residual: Ini mencerminkan deviansi model yang dipasang setelah memperhitungkan variabel prediktor. Deviansi residual yang lebih rendah menunjukkan kecocokan yang lebih baik. AIC: Akaike Information Criterion (AIC) adalah ukuran kebaikan-of-fit yang dipenalti oleh jumlah parameter dalam model. Nilai AIC yang lebih rendah menunjukkan model yang lebih baik. Jumlah iterasi Fisher Scoring: Ini menunjukkan jumlah iterasi yang diperlukan untuk algoritma pemasangan model agar konvergen. Interpretasi:

Berdasarkan output, hanya X3 yang memiliki efek signifikan secara statistik pada variabel hasil (y) pada tingkat signifikansi 5%. Koefisien positif untuk X3 menunjukkan bahwa ketika X3 meningkat, log odds dari variabel hasil juga meningkat. Namun, koefisien untuk X1, X2, dan X4 tidak signifikan secara statistik, menunjukkan bahwa tidak ada cukup bukti untuk menyimpulkan hubungan antara variabel-variabel ini dan hasil pada tingkat signifikansi yang dipilih.

Penting untuk mempertimbangkan keterbatasan analisis ini, seperti potensi variabel confounding atau pelanggaran terhadap asumsi model, untuk interpretasi yang lebih kuat.