Dalam statistika inferensial, ekonometrika, dan machine learning, model Probit dan Logit merupakan bagian dari Generalized Linear Models (GLM) yang dirancang khusus untuk memodelkan variabel dependen biner (dikotomis), yaitu variabel yang hanya memiliki dua kemungkinan hasil diskrit (biasanya dikodekan sebagai 0 atau 1, seperti success/failure atau yes/no).
Kedua model ini berfungsi untuk memetakan kombinasi linear dari variabel independen (X) ke dalam rentang probabilitas antara 0 dan 1 melalui sebuah fungsi penghubung (link function).
Definisi: Model ini menggunakan fungsi penghubung logit, yang didefinisikan sebagai logaritma natural dari rasio peluang (log-odds).
Asumsi Distribusi: Model ini mengasumsikan bahwa error term (suku galat) pada variabel laten mengikuti distribusi logistik.
Rumus Probabilitas: P(Y=1∣X)= 1/+e −(β0+β1X)
Kelebihan: Sangat populer karena kemudahan komputasi dan interpretasi parameternya yang dapat langsung diterjemahkan menjadi Rasio Peluang (Odds Ratio), yang sangat intuitif dalam bidang epidemiologi dan ilmu sosial
Definisi: Model ini menggunakan fungsi penghubung probit, yang merupakan invers dari Fungsi Distribusi Kumulatif (CDF) dari distribusi normal baku (Φ−1)
Asumsi Distribusi: Model ini mengasumsikan bahwa error term pada variabel laten mengikuti distribusi normal standar.Rumus Probabilitas:P(Y=1∣X)=Φ(β0+β1X)
Kelebihan: Secara teoretis sangat kuat dalam pemodelan variabel laten (latent variable models), di mana keputusan biner diasumsikan sebagai hasil dari ambang batas (threshold) suatu variabel kontinu yang tidak teramati. Model ini sangat lazim digunakan dalam ekonometrika (misalnya model pemilihan diskrit) dan toksikologi.
Perbandingan Singkat: Secara empiris, hasil estimasi probabilitas dari model Logit dan Probit seringkali sangat mirip (hanya berbeda pada skala koefisien, di mana koefisien Probit biasanya sekitar 0,625 kali koefisien Logit). Pemilihan di antara keduanya sering kali didasarkan pada tradisi disiplin ilmu, kemudahan interpretasi (odds ratio pada Logit), atau asumsi teoretis mengenai distribusi suku galat (normal pada Probit vs. logistik pada Logit).
Model logit merupakan model regresi yang menggunakan fungsi distribusi logistik (logistic distribution) untuk menghitung probabilitas suatu kejadian.
Model ini digunakan ketika variabel dependen bersifat dikotomis, seperti:
Contoh penerapan:
Keunggulan model logit adalah interpretasi probabilitas yang lebih mudah dan hasil estimasi selalu berada pada rentang 0 sampai 1.
Model probit merupakan model probabilitas yang menggunakan fungsi distribusi normal kumulatif (cumulative normal distribution function).
Secara konsep, model probit memiliki tujuan yang sama dengan model logit, yaitu memprediksi kemungkinan terjadinya suatu peristiwa berdasarkan variabel independen.
Model probit sering digunakan dalam penelitian ekonomi mikro, kesehatan, dan kebijakan publik karena diasumsikan memiliki distribusi error normal.
Persamaan model logit dapat dituliskan sebagai berikut:
\[P(Y=1) = \frac{1}{1+e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n)}}\]
Keterangan: - \(P(Y=1)\) = probabilitas kejadian terjadi - \(\beta_0\) = konstanta - \(\beta_1, \beta_2, \ldots, \beta_n\) = koefisien regresi - \(X_1, X_2, \ldots, X_n\) = variabel independen - \(e\) = bilangan eksponensial (≈ 2,718)
Interpretasi model logit menunjukkan bahwa perubahan variabel independen akan memengaruhi peluang terjadinya suatu kejadian.
Persamaan model probit dituliskan sebagai berikut:
\[P(Y=1) = \Phi(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n)\]
Keterangan: - \(\Phi\) = Fungsi distribusi normal kumulatif - \(\beta_0\) = Konstanta - \(\beta_i\) = Parameter estimasi - \(X_i\) = Variabel independen
Perbedaan utama antara logit dan probit terletak pada fungsi distribusi yang digunakan.
| Aspek | Logit | Probit |
|---|---|---|
| Distribusi | Logistik | Normal |
| Fungsi Probabilitas | Logistic CDF | Normal CDF |
| Interpretasi | Relatif mudah | Lebih kompleks |
| Penggunaan Umum | Ekonomi & bisnis | Kesehatan & ekonomi mikro |
Walaupun berbeda secara matematis, hasil estimasi logit dan probit sering kali relatif mirip.
Model logit dan probit banyak digunakan dalam berbagai bidang, di antaranya:
a. Bidang Ekonomi
b. Bidang Bisnis
c. Bidang Pendidikan
d. Bidang Kesehatan
- Kasus 1 Mikro: - KASUS 2 Makro: (minta tolong cariin)
1. Kode Regresi Logit
Misalkan kita ingin menganalisis keputusan ibu rumah tangga untuk bekerja (1 = bekerja, 0 = tidak bekerja) berdasarkan umur, pendidikan, jumlah anak, dan pendapatan suami.
Input Data
data_ibu <- data.frame(
ID = 1:20,
Y = c(1,0,1,0,1,0,1,0,1,0,
1,0,0,1,1,0,1,0,1,0),
Umur = c(27,35,30,42,25,38,29,45,31,34,
28,40,30,36,26,41,32,37,33,29),
Pendidikan = c(12,9,14,8,13,10,15,7,16,11,
13,9,15,10,14,10,12,11,13,12),
Jumlah_Anak = c(1,3,1,4,0,2,1,3,0,2,
1,3,1,2,0,3,1,2,2,0),
Pend_Suami = c(55,90,50,120,40,95,60,130,45,100,
55,115,70,105,35,110,65,85,75,95)
)
data_ibu$Y <- factor(
data_ibu$Y,
levels = c(0,1),
labels = c("Tidak Bekerja","Bekerja")
)
Statistika Deskriptif
library(psych)
describe(
data_ibu[,c(
"Umur",
"Pendidikan",
"Jumlah_Anak",
"Pend_Suami"
)]
)
## vars n mean sd median trimmed mad min max range skew
## Umur 1 20 33.40 5.71 32.5 33.12 5.93 25 45 20 0.38
## Pendidikan 2 20 11.70 2.47 12.0 11.75 2.97 7 16 9 -0.09
## Jumlah_Anak 3 20 1.60 1.19 1.5 1.56 0.74 0 4 4 0.22
## Pend_Suami 4 20 79.75 28.63 80.0 79.38 37.06 35 130 95 0.07
## kurtosis se
## Umur -1.07 1.28
## Pendidikan -1.06 0.55
## Jumlah_Anak -1.10 0.27
## Pend_Suami -1.38 6.40
Logit
model_logit <- glm(
Y ~ Umur +
Pendidikan +
Jumlah_Anak +
Pend_Suami,
family = binomial(link="logit"),
data = data_ibu
)
summary(model_logit)
##
## Call:
## glm(formula = Y ~ Umur + Pendidikan + Jumlah_Anak + Pend_Suami,
## family = binomial(link = "logit"), data = data_ibu)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 17.13560 17.31591 0.990 0.322
## Umur -0.05973 0.39185 -0.152 0.879
## Pendidikan -0.41732 0.68111 -0.613 0.540
## Jumlah_Anak -0.21734 1.41842 -0.153 0.878
## Pend_Suami -0.12316 0.07533 -1.635 0.102
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 27.726 on 19 degrees of freedom
## Residual deviance: 12.340 on 15 degrees of freedom
## AIC: 22.34
##
## Number of Fisher Scoring iterations: 6
Odds Ratio
exp(coef(model_logit))
## (Intercept) Umur Pendidikan Jumlah_Anak Pend_Suami
## 2.766296e+07 9.420195e-01 6.588128e-01 8.046567e-01 8.841200e-01
Prediksi Probabilitas
predict(
model_logit,
type="response"
)
## 1 2 3 4 5 6 7
## 0.97135872 0.38997772 0.95794611 0.01261207 0.99498736 0.19117668 0.82297405
## 8 9 10 11 12 13 14
## 0.00584349 0.95540998 0.09651219 0.95464425 0.02135017 0.56101301 0.07212151
## 15 16 17 18 19 20
## 0.99563400 0.02445057 0.88012090 0.36161896 0.51688509 0.21336318
Marginal Effects
library(margins)
marg_eff <- margins(model_logit)
summary(marg_eff)
## factor AME SE z p lower upper
## Jumlah_Anak -0.0209 0.1364 -0.1528 0.8785 -0.2883 0.2466
## Pend_Suami -0.0118 0.0054 -2.1951 0.0282 -0.0224 -0.0013
## Pendidikan -0.0400 0.0649 -0.6171 0.5372 -0.1672 0.0871
## Umur -0.0057 0.0375 -0.1527 0.8787 -0.0793 0.0678
2. Kode Regresi Probit
Estimasi Model Probit
# Estimasi model Probit
model_probit <- glm(
Y ~ Umur +
Pendidikan +
Jumlah_Anak +
Pend_Suami,
family = binomial(link = "probit"),
data = data_ibu
)
summary(model_probit)
##
## Call:
## glm(formula = Y ~ Umur + Pendidikan + Jumlah_Anak + Pend_Suami,
## family = binomial(link = "probit"), data = data_ibu)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 9.62952 9.26501 1.039 0.2986
## Umur -0.03249 0.21363 -0.152 0.8791
## Pendidikan -0.23601 0.38203 -0.618 0.5367
## Jumlah_Anak -0.13717 0.79663 -0.172 0.8633
## Pend_Suami -0.06840 0.03917 -1.746 0.0808 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 27.726 on 19 degrees of freedom
## Residual deviance: 12.377 on 15 degrees of freedom
## AIC: 22.377
##
## Number of Fisher Scoring iterations: 8
Prediksi Probabilitas
predict(
model_probit,
type = "response"
)
## 1 2 3 4 5 6
## 0.978367403 0.421128259 0.963565512 0.008667299 0.998707671 0.230467636
## 7 8 9 10 11 12
## 0.817568827 0.002653339 0.961494647 0.117936628 0.960168290 0.019160221
## 13 14 15 16 17 18
## 0.575214101 0.087498559 0.998988195 0.022862912 0.879946382 0.398649193
## 19 20
## 0.533895945 0.260236870
Pseudo R² Probit
pseudo_r2_probit <- 1 - (
model_probit$deviance /
model_probit$null.deviance
)
pseudo_r2_probit
## [1] 0.5536048
Akurasi Klasifikasi
pred_prob_probit <- predict(
model_probit,
type = "response"
)
pred_class_probit <- ifelse(
pred_prob_probit > 0.5,
"Bekerja",
"Tidak Bekerja"
)
accuracy_probit <- mean(
pred_class_probit ==
as.character(data_ibu$Y)
) * 100
accuracy_probit
## [1] 90
Marginal Effects Probit
library(margins)
marg_eff_probit <- margins(
model_probit
)
summary(marg_eff_probit)
## factor AME SE z p lower upper
## Jumlah_Anak -0.0237 0.1378 -0.1720 0.8634 -0.2939 0.2465
## Pend_Suami -0.0118 0.0051 -2.3112 0.0208 -0.0219 -0.0018
## Pendidikan -0.0408 0.0652 -0.6259 0.5314 -0.1686 0.0870
## Umur -0.0056 0.0369 -0.1522 0.8790 -0.0779 0.0667
a. Koefisien (Coefficient)
Menunjukkan arah pengaruh variabel.
b. Nilai Signifikansi (P-value)
Kriteria:
c. Predicted Probability
Menunjukkan peluang kejadian dalam rentang 0–1.
Model regresi logit dan probit merupakan metode ekonometrika yang digunakan untuk menganalisis variabel dependen berbentuk biner atau dikotomis. Model logit menggunakan distribusi logistik, sedangkan model probit menggunakan distribusi normal kumulatif.
Kedua model memiliki tujuan utama untuk mengestimasi probabilitas terjadinya suatu peristiwa berdasarkan faktor-faktor tertentu. Dalam praktiknya, model ini banyak diterapkan pada bidang ekonomi, bisnis, pendidikan, dan kesehatan.
Penggunaan software R Studio mempermudah proses
estimasi model melalui fungsi glm(), sehingga analisis
probabilitas dapat dilakukan secara lebih efisien dan sistematis.