Membangkitkan Data

Skenario

Y : Keputusan menolak/menerima calon anggota baru POLRI X1 : Lama Pengalaman daftar sebelumnya (kali) X2 : Status pendidikan saat ini (0: Tidak Lulus 1: Lulus) X3 : Tingkat pendidikan (0: Lulus Sekolah Menengah Atas , 1: Lulusan Sekolah Menengah kejuruan) X4 : Nilai (skala 80)

ri ## Membangkita Data X1 X1 : Lama Pengalaman daftar sebelumnya (kali) Membangkitkan Variabel X1 dengan lama daftar 0-24 bulan dengan nilai tengah 7 dan banyak pelamar adalah 100

set.seed(20)
n <- 100
u <- runif(n)

x1 <- round (60*(-(log(1-u)/12)))
x1
##   [1] 10  7  2  4 16 20  0  0  2  2  6  7  0  7  1  3  2  1  2  9  3  0  3  0  2
##  [26]  0 12 24  0  6  2  3  9  1  4  3  3 12  5  1  5  0  3  3  7  3  5  7  3  5
##  [51]  0  3  2 15  1  4  0  3  2  0  3  1 14  0 14  0 10  4  1  4  0  3  1  4 11
##  [76]  2  4  3  5  2  1 11  0 14  6  3  2  4  1  0  4  2  8 18  8 10  9  7  2  0

Membangkitkan Data X2

X2 : Status pendidikan Keterangan yang digunakan (0=Tidak Lulus) dan (1=Lulus)

set.seed(22)
x2 <- round(runif(n))
x2
##   [1] 0 0 1 1 1 1 1 1 0 0 1 1 0 1 0 0 0 0 1 0 0 0 1 1 1 1 0 1 0 0 0 0 1 0 1 0 1
##  [38] 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 1 1 0 0 0 1 0 0 1 1 1 0 1 0 1 0 1 1 0
##  [75] 1 0 0 0 0 0 0 0 1 0 1 1 1 0 1 0 1 0 0 0 1 1 0 0 1 1

Membangkitkan data x3

X3 : Tingkat Pendidikan Keterangan yang digunakan (0: Lulus Sekolah Menengah, 1: Lulusan Sekolah Menengah Kejuruan)

set.seed(20)
x3 <- round(runif(n))
x3
##   [1] 1 1 0 1 1 1 0 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 1 0 0 1 0 1 0 0
##  [38] 1 1 0 1 0 0 0 1 0 1 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 1 0 1 0 1 1 0 1 0 0 0 1
##  [75] 1 0 1 0 1 0 0 1 0 1 1 0 0 1 0 0 1 0 1 1 1 1 1 1 0 0

Membangkitkan data X4

X4 adalah data nilai pelamar dengan skala 80

set.seed(12)
x4 <- round(rnorm(n,3,0.5),2)
x4
##   [1] 2.26 3.79 2.52 2.54 2.00 2.86 2.84 2.69 2.95 3.21 2.61 2.35 2.61 3.01 2.92
##  [16] 2.65 3.59 3.17 3.25 2.85 3.11 4.00 3.51 2.85 2.49 2.87 2.90 3.07 3.07 3.18
##  [31] 3.34 4.04 2.73 2.46 2.81 2.76 3.14 2.76 3.40 2.50 3.05 2.42 3.29 2.20 2.85
##  [46] 3.22 2.51 3.09 3.37 2.75 2.98 2.94 3.23 4.01 2.47 3.37 3.27 2.34 2.87 3.16
##  [61] 3.20 3.50 3.43 3.10 3.42 3.42 3.98 1.93 3.49 3.57 2.74 3.13 2.79 2.91 2.95
##  [76] 2.68 2.36 2.81 3.26 2.91 3.00 2.36 2.90 3.58 2.99 3.45 2.91 3.56 2.73 2.52
##  [91] 3.19 2.51 3.45 3.06 3.52 2.83 3.23 2.65 2.88 2.50

##Membangkitkan data Y

Menentukan koef

b0 <- -8
b1 <- 1.2
b2 <- 2
b3 <- 1.5
b4 <- 0.3
set.seed(18)
datapendukung <- b0+(b1*x1)+(b2*x2)+(b3*x3)+(b4*x4)
datapendukung
##   [1]  6.178  3.037 -2.844  1.062 15.300 20.358 -5.148 -5.193 -4.715 -4.637
##  [11]  3.483  4.605 -7.217  4.803 -5.924 -3.605 -4.523 -5.849 -2.625  5.155
##  [21] -3.467 -6.800 -1.347 -5.145 -2.853 -5.139  8.770 25.221 -7.079  1.654
##  [31] -4.598 -3.188  7.119 -6.062  1.143 -3.572 -1.458  8.728  0.520 -4.050
##  [41]  0.415 -7.274 -3.413 -3.740  2.755 -3.434  0.253  2.827 -3.389  0.325
##  [51] -5.106 -1.518 -2.631 12.703 -6.059  1.311 -5.019 -3.698 -4.739 -7.052
##  [61] -1.440 -5.750 11.329 -5.070 13.326 -4.974  6.694  0.879 -5.753  1.371
##  [71] -7.178 -1.461 -3.963 -0.827  9.585 -4.796 -0.992 -3.557  0.478 -4.727
##  [81] -5.900  7.408 -5.130 11.374  3.597 -1.365 -2.727 -0.632 -3.981 -7.244
##  [91]  1.257 -4.847  4.135 16.018  6.156  8.349  5.269  2.695 -2.736 -5.250
p <- exp(datapendukung)/(1+exp(datapendukung))
p
##   [1] 0.9979297221 0.9542179495 0.0549922948 0.7430725623 0.9999997734
##   [6] 0.9999999986 0.0057774423 0.0055246248 0.0088802998 0.0095937820
##  [11] 0.9702001780 0.9900973414 0.0007334628 0.9918616809 0.0026673471
##  [16] 0.0264678516 0.0107398098 0.0028744940 0.0675466911 0.9942626273
##  [21] 0.0302659072 0.0011125360 0.2063612679 0.0057947001 0.0545264504
##  [26] 0.0058293695 0.9998447005 1.0000000000 0.0008419059 0.8394309293
##  [31] 0.0099715267 0.0396198097 0.9991910790 0.0023243217 0.7582300167
##  [36] 0.0273315915 0.1887734106 0.9998380401 0.6271477663 0.0171240333
##  [41] 0.6022861769 0.0006928527 0.0318916436 0.0232029381 0.9401951107
##  [46] 0.0312496126 0.5629147649 0.9441175339 0.0326410161 0.5805423048
##  [51] 0.0060237699 0.1797562184 0.0671697655 0.9999969580 0.0023312888
##  [56] 0.7876804440 0.0065677145 0.0241741561 0.0086715359 0.0008649271
##  [61] 0.1915453486 0.0031726828 0.9999879809 0.0062431977 0.9999983685
##  [66] 0.0068679362 0.9987632120 0.7066149537 0.0031632091 0.7975416706
##  [71] 0.0007626107 0.1883144255 0.0186515197 0.3042797778 0.9999312524
##  [76] 0.0081950187 0.2705172212 0.0277332000 0.6172754928 0.0087753025
##  [81] 0.0027319608 0.9993939852 0.0058817607 0.9999885097 0.9733252272
##  [86] 0.2034288729 0.0613988225 0.3470571823 0.0183248929 0.0007139382
##  [91] 0.7785092422 0.0077907260 0.9842493867 0.9999998895 0.9978837687
##  [96] 0.9997634229 0.9948776171 0.9367309599 0.0608822043 0.0052201257
set.seed(2)
y <- rbinom(n,1,p)
y
##   [1] 1 1 0 1 1 1 0 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0 1 0 1 0 1
##  [38] 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0
##  [75] 1 0 0 0 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 0 0
datagab <- data.frame(y,x1,x2,x3,x4)
datagab
##     y x1 x2 x3   x4
## 1   1 10  0  1 2.26
## 2   1  7  0  1 3.79
## 3   0  2  1  0 2.52
## 4   1  4  1  1 2.54
## 5   1 16  1  1 2.00
## 6   1 20  1  1 2.86
## 7   0  0  1  0 2.84
## 8   0  0  1  0 2.69
## 9   0  2  0  0 2.95
## 10  0  2  0  0 3.21
## 11  1  6  1  1 2.61
## 12  1  7  1  1 2.35
## 13  0  0  0  0 2.61
## 14  1  7  1  1 3.01
## 15  0  1  0  0 2.92
## 16  0  3  0  0 2.65
## 17  0  2  0  0 3.59
## 18  0  1  0  0 3.17
## 19  0  2  1  0 3.25
## 20  1  9  0  1 2.85
## 21  0  3  0  0 3.11
## 22  0  0  0  0 4.00
## 23  1  3  1  0 3.51
## 24  0  0  1  0 2.85
## 25  0  2  1  0 2.49
## 26  0  0  1  0 2.87
## 27  1 12  0  1 2.90
## 28  1 24  1  1 3.07
## 29  0  0  0  0 3.07
## 30  1  6  0  1 3.18
## 31  0  2  0  0 3.34
## 32  0  3  0  0 4.04
## 33  1  9  1  1 2.73
## 34  0  1  0  0 2.46
## 35  1  4  1  1 2.81
## 36  0  3  0  0 2.76
## 37  1  3  1  0 3.14
## 38  1 12  0  1 2.76
## 39  0  5  0  1 3.40
## 40  0  1  1  0 2.50
## 41  0  5  0  1 3.05
## 42  0  0  0  0 2.42
## 43  0  3  0  0 3.29
## 44  0  3  0  0 2.20
## 45  0  7  0  1 2.85
## 46  0  3  0  0 3.22
## 47  0  5  0  1 2.51
## 48  1  7  0  1 3.09
## 49  0  3  0  0 3.37
## 50  0  5  0  1 2.75
## 51  0  0  1  0 2.98
## 52  0  3  1  0 2.94
## 53  0  2  1  0 3.23
## 54  1 15  0  1 4.01
## 55  0  1  0  0 2.47
## 56  0  4  1  1 3.37
## 57  0  0  1  0 3.27
## 58  1  3  0  0 2.34
## 59  0  2  0  0 2.87
## 60  0  0  0  0 3.16
## 61  0  3  1  0 3.20
## 62  0  1  0  0 3.50
## 63  1 14  0  1 3.43
## 64  0  0  1  0 3.10
## 65  1 14  1  1 3.42
## 66  0  0  1  0 3.42
## 67  1 10  0  1 3.98
## 68  1  4  1  1 1.93
## 69  0  1  0  0 3.49
## 70  1  4  1  1 3.57
## 71  0  0  0  0 2.74
## 72  0  3  1  0 3.13
## 73  0  1  1  0 2.79
## 74  0  4  0  1 2.91
## 75  1 11  1  1 2.95
## 76  0  2  0  0 2.68
## 77  0  4  0  1 2.36
## 78  0  3  0  0 2.81
## 79  1  5  0  1 3.26
## 80  0  2  0  0 2.91
## 81  0  1  0  0 3.00
## 82  1 11  0  1 2.36
## 83  0  0  1  0 2.90
## 84  1 14  0  1 3.58
## 85  1  6  1  1 2.99
## 86  1  3  1  0 3.45
## 87  1  2  1  0 2.91
## 88  0  4  0  1 3.56
## 89  0  1  1  0 2.73
## 90  0  0  0  0 2.52
## 91  0  4  1  1 3.19
## 92  0  2  0  0 2.51
## 93  1  8  0  1 3.45
## 94  1 18  0  1 3.06
## 95  1  8  1  1 3.52
## 96  1 10  1  1 2.83
## 97  1  9  0  1 3.23
## 98  1  7  0  1 2.65
## 99  0  2  1  0 2.88
## 100 0  0  1  0 2.50

Analisis Regresi Logistik

modelreglog <- glm(y~x1+x2+x3+x4, family = binomial(link = "logit"), data=datagab)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(modelreglog)
## 
## Call:
## glm(formula = y ~ x1 + x2 + x3 + x4, family = binomial(link = "logit"), 
##     data = datagab)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -6.7203     3.2409  -2.074  0.03812 * 
## x1            1.6712     0.5262   3.176  0.00149 **
## x2            3.2327     1.0677   3.028  0.00246 **
## x3           -1.4716     1.3564  -1.085  0.27795   
## x4           -0.4534     1.0225  -0.443  0.65745   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 132.813  on 99  degrees of freedom
## Residual deviance:  40.648  on 95  degrees of freedom
## AIC: 50.648
## 
## Number of Fisher Scoring iterations: 8

KESIMPULAN Output tersebut merupakan hasil dari pemodelan regresi logistik yang diterapkan pada data datagab. Berikut adalah penjelasan dari setiap bagian:

  1. Panggilan: Ini menunjukkan panggilan fungsi yang digunakan untuk menyesuaikan model, yang menentukan formula untuk model (y ~ x1 + x2 + x3 + x4), keluarga (binomial dengan fungsi tautan logit), dan kumpulan data (datagab).

  2. Koefisien: Tabel ini menunjukkan estimasi koefisien untuk setiap variabel prediktor (x1, x2, x3, x4), beserta dengan kesalahan standar mereka, nilai z, dan nilai p yang terkait. Koefisien mewakili perkiraan efek dari setiap prediktor pada log odds dari variabel respons biner y. Tingkat signifikansi ditandai oleh jumlah bintang: *** untuk p < 0,001, ** untuk p < 0,01, * untuk p < 0,05, . untuk p < 0,1, dan tidak ada untuk p ≥ 0,1.

  3. Kode signifikansi: Seperti yang disebutkan di atas, kode ini menunjukkan tingkat signifikansi dari koefisien.

  4. Parameter dispersi: Ini menunjukkan parameter dispersi yang diasumsikan untuk keluarga binomial dalam model.

  5. Deviance: Deviance adalah ukuran kurangnya kecocokan model terhadap data. Deviance nol mewakili deviance ketika hanya intercept yang dimasukkan dalam model, sedangkan deviance residu mewakili deviance setelah memasukkan model yang ditentukan. Nilai deviance yang lebih rendah menunjukkan kecocokan yang lebih baik.

  6. Derajat kebebasan: Ini mewakili derajat kebebasan yang terkait dengan deviance nol dan residu.

  7. AIC (Kriteria Informasi Akaike): AIC adalah ukuran kualitas relatif dari model statistik untuk kumpulan data tertentu. Nilai AIC yang lebih rendah menunjukkan model yang lebih cocok.

  8. Jumlah iterasi Fisher Scoring: Ini menunjukkan jumlah iterasi yang dilakukan oleh algoritma untuk menyesuaikan model. Lebih banyak iterasi mungkin diperlukan untuk model yang kompleks atau ketika konvergensi lambat.