BAB I PEMBAHASAN

APA ITU LOGIT DAN PROBIT?

Dalam statistika inferensial, ekonometrika, dan machine learning, model Probit dan Logit merupakan bagian dari Generalized Linear Models (GLM) yang dirancang khusus untuk memodelkan variabel dependen biner (dikotomis), yaitu variabel yang hanya memiliki dua kemungkinan hasil diskrit (biasanya dikodekan sebagai 0 atau 1, seperti success/failure atau yes/no).

Kedua model ini berfungsi untuk memetakan kombinasi linear dari variabel independen (X) ke dalam rentang probabilitas antara 0 dan 1 melalui sebuah fungsi penghubung (link function).

Model Logit (Regresi Logistik)

Definisi: Model ini menggunakan fungsi penghubung logit, yang didefinisikan sebagai logaritma natural dari rasio peluang (log-odds).
Asumsi Distribusi: Model ini mengasumsikan bahwa error term (suku galat) pada variabel laten mengikuti distribusi logistik.
Rumus Probabilitas: P(Y=1∣X)= 1/+e −(β0+β1X)
Kelebihan: Sangat populer karena kemudahan komputasi dan interpretasi parameternya yang dapat langsung diterjemahkan menjadi Rasio Peluang (Odds Ratio), yang sangat intuitif dalam bidang epidemiologi dan ilmu sosial

Model Probit

Definisi: Model ini menggunakan fungsi penghubung probit, yang merupakan invers dari Fungsi Distribusi Kumulatif (CDF) dari distribusi normal baku (Φ−1)
Asumsi Distribusi: Model ini mengasumsikan bahwa error term pada variabel laten mengikuti distribusi normal standar.Rumus Probabilitas:P(Y=1∣X)=Φ(β0+β1X)
Kelebihan: Secara teoretis sangat kuat dalam pemodelan variabel laten (latent variable models), di mana keputusan biner diasumsikan sebagai hasil dari ambang batas (threshold) suatu variabel kontinu yang tidak teramati. Model ini sangat lazim digunakan dalam ekonometrika (misalnya model pemilihan diskrit) dan toksikologi.

Perbandingan Singkat: Secara empiris, hasil estimasi probabilitas dari model Logit dan Probit seringkali sangat mirip (hanya berbeda pada skala koefisien, di mana koefisien Probit biasanya sekitar 0,625 kali koefisien Logit). Pemilihan di antara keduanya sering kali didasarkan pada tradisi disiplin ilmu, kemudahan interpretasi (odds ratio pada Logit), atau asumsi teoretis mengenai distribusi suku galat (normal pada Probit vs. logistik pada Logit).

TUJUAN

Memprediksi Peluang “Ya/Tidak”: Menghitung seberapa besar probabilitas suatu peristiwa terjadi (misal: Lulus/Gagal, Beli/Tidak) berdasarkan faktor-faktor tertentu.
Menjaga Hasil Tetap Masuk Akal: Memastikan nilai probabilitas yang diprediksi selalu berada di antara 0% hingga 100% (tidak mungkin bernilai minus atau lebih dari 100%).
Menganalisis Pengaruh Faktor: Mengetahui variabel atau faktor mana yang paling kuat mempengaruhi terjadinya keputusan atau peristiwa tersebut. Intinya: Keduanya adalah alat statistik untuk memprediksi peluang kejadian yang hanya punya dua pilihan dan mencari tahu faktor penyebabnya dengan hasil perhitungan yang logis dan valid.

BAB II PEMBAHASAN

Model Regresi Logit

Model logit merupakan model regresi yang menggunakan fungsi distribusi logistik (logistic distribution) untuk menghitung probabilitas suatu kejadian.

Model ini digunakan ketika variabel dependen bersifat dikotomis, seperti:

1 = terjadi kejadian
0 = tidak terjadi kejadian

Contoh penerapan:

Konsumen membeli produk (1) atau tidak membeli (0)
Mahasiswa lulus tepat waktu (1) atau tidak (0)

Keunggulan model logit adalah interpretasi probabilitas yang lebih mudah dan hasil estimasi selalu berada pada rentang 0 sampai 1.

Model Regresi Probit

Model probit merupakan model probabilitas yang menggunakan fungsi distribusi normal kumulatif (cumulative normal distribution function).

Secara konsep, model probit memiliki tujuan yang sama dengan model logit, yaitu memprediksi kemungkinan terjadinya suatu peristiwa berdasarkan variabel independen.

Model probit sering digunakan dalam penelitian ekonomi mikro, kesehatan, dan kebijakan publik karena diasumsikan memiliki distribusi error normal.

Model Regresi Logit

Persamaan model logit dapat dituliskan sebagai berikut:

\[P(Y=1) = \frac{1}{1+e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n)}}\]

Keterangan: - \(P(Y=1)\) = probabilitas kejadian terjadi - \(\beta_0\) = konstanta - \(\beta_1, \beta_2, \ldots, \beta_n\) = koefisien regresi - \(X_1, X_2, \ldots, X_n\) = variabel independen - \(e\) = bilangan eksponensial (≈ 2,718)

Interpretasi model logit menunjukkan bahwa perubahan variabel independen akan memengaruhi peluang terjadinya suatu kejadian.

Model Regresi Probit

Persamaan model probit dituliskan sebagai berikut:

\[P(Y=1) = \Phi(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n)\]

Keterangan: - \(\Phi\) = Fungsi distribusi normal kumulatif - \(\beta_0\) = Konstanta - \(\beta_i\) = Parameter estimasi - \(X_i\) = Variabel independen

Perbedaan utama antara logit dan probit terletak pada fungsi distribusi yang digunakan.

Perbedaan Model Logit dan Probit

Aspek	Logit	Probit
Distribusi	Logistik	Normal
Fungsi Probabilitas	Logistic CDF	Normal CDF
Interpretasi	Relatif mudah	Lebih kompleks
Penggunaan Umum	Ekonomi & bisnis	Kesehatan & ekonomi mikro

Walaupun berbeda secara matematis, hasil estimasi logit dan probit sering kali relatif mirip.

Aplikasi Model Logit dan Probit

Model logit dan probit banyak digunakan dalam berbagai bidang, di antaranya:

a. Bidang Ekonomi

Analisis kemiskinan rumah tangga
Keputusan tenaga kerja
Peluang memperoleh kredit

b. Bidang Bisnis

Keputusan pembelian konsumen
Loyalitas pelanggan

c. Bidang Pendidikan

Prediksi kelulusan mahasiswa
Faktor yang memengaruhi prestasi akademik

d. Bidang Kesehatan

Risiko penyakit
Efektivitas pengobatan

Studi Kasus

- Kasus 1 Mikro: - KASUS 2 Makro: (minta tolong cariin)

Implementasi Model dalam R

1. Kode Regresi Logit

Misalkan kita ingin menganalisis keputusan ibu rumah tangga untuk bekerja (1 = bekerja, 0 = tidak bekerja) berdasarkan umur, pendidikan, jumlah anak, dan pendapatan suami.

Input Data

data_ibu <- data.frame(
  ID = 1:20,
  Y = c(1,0,1,0,1,0,1,0,1,0,
        1,0,0,1,1,0,1,0,1,0),
  Umur = c(27,35,30,42,25,38,29,45,31,34,
           28,40,30,36,26,41,32,37,33,29),
  Pendidikan = c(12,9,14,8,13,10,15,7,16,11,
                 13,9,15,10,14,10,12,11,13,12),
  Jumlah_Anak = c(1,3,1,4,0,2,1,3,0,2,
                  1,3,1,2,0,3,1,2,2,0),
  Pend_Suami = c(55,90,50,120,40,95,60,130,45,100,
                 55,115,70,105,35,110,65,85,75,95)
)

data_ibu$Y <- factor(
  data_ibu$Y,
  levels = c(0,1),
  labels = c("Tidak Bekerja","Bekerja")
)

Statistika Deskriptif

library(psych)

describe(
  data_ibu[,c(
    "Umur",
    "Pendidikan",
    "Jumlah_Anak",
    "Pend_Suami"
  )]
)

##             vars  n  mean    sd median trimmed   mad min max range  skew
## Umur           1 20 33.40  5.71   32.5   33.12  5.93  25  45    20  0.38
## Pendidikan     2 20 11.70  2.47   12.0   11.75  2.97   7  16     9 -0.09
## Jumlah_Anak    3 20  1.60  1.19    1.5    1.56  0.74   0   4     4  0.22
## Pend_Suami     4 20 79.75 28.63   80.0   79.38 37.06  35 130    95  0.07
##             kurtosis   se
## Umur           -1.07 1.28
## Pendidikan     -1.06 0.55
## Jumlah_Anak    -1.10 0.27
## Pend_Suami     -1.38 6.40

Logit

model_logit <- glm(
  Y ~ Umur +
      Pendidikan +
      Jumlah_Anak +
      Pend_Suami,
  family = binomial(link="logit"),
  data = data_ibu
)

summary(model_logit)

## 
## Call:
## glm(formula = Y ~ Umur + Pendidikan + Jumlah_Anak + Pend_Suami, 
##     family = binomial(link = "logit"), data = data_ibu)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)
## (Intercept) 17.13560   17.31591   0.990    0.322
## Umur        -0.05973    0.39185  -0.152    0.879
## Pendidikan  -0.41732    0.68111  -0.613    0.540
## Jumlah_Anak -0.21734    1.41842  -0.153    0.878
## Pend_Suami  -0.12316    0.07533  -1.635    0.102
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 27.726  on 19  degrees of freedom
## Residual deviance: 12.340  on 15  degrees of freedom
## AIC: 22.34
## 
## Number of Fisher Scoring iterations: 6

Odds Ratio

exp(coef(model_logit))

##  (Intercept)         Umur   Pendidikan  Jumlah_Anak   Pend_Suami 
## 2.766296e+07 9.420195e-01 6.588128e-01 8.046567e-01 8.841200e-01

Prediksi Probabilitas

predict(
  model_logit,
  type="response"
)

##          1          2          3          4          5          6          7 
## 0.97135872 0.38997772 0.95794611 0.01261207 0.99498736 0.19117668 0.82297405 
##          8          9         10         11         12         13         14 
## 0.00584349 0.95540998 0.09651219 0.95464425 0.02135017 0.56101301 0.07212151 
##         15         16         17         18         19         20 
## 0.99563400 0.02445057 0.88012090 0.36161896 0.51688509 0.21336318

Marginal Effects

library(margins)

marg_eff <- margins(model_logit)

summary(marg_eff)

##       factor     AME     SE       z      p   lower   upper
##  Jumlah_Anak -0.0209 0.1364 -0.1528 0.8785 -0.2883  0.2466
##   Pend_Suami -0.0118 0.0054 -2.1951 0.0282 -0.0224 -0.0013
##   Pendidikan -0.0400 0.0649 -0.6171 0.5372 -0.1672  0.0871
##         Umur -0.0057 0.0375 -0.1527 0.8787 -0.0793  0.0678

2. Kode Regresi Probit

Estimasi Model Probit

# Estimasi model Probit
model_probit <- glm(
  Y ~ Umur +
      Pendidikan +
      Jumlah_Anak +
      Pend_Suami,
  family = binomial(link = "probit"),
  data = data_ibu
)

summary(model_probit)

## 
## Call:
## glm(formula = Y ~ Umur + Pendidikan + Jumlah_Anak + Pend_Suami, 
##     family = binomial(link = "probit"), data = data_ibu)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  9.62952    9.26501   1.039   0.2986  
## Umur        -0.03249    0.21363  -0.152   0.8791  
## Pendidikan  -0.23601    0.38203  -0.618   0.5367  
## Jumlah_Anak -0.13717    0.79663  -0.172   0.8633  
## Pend_Suami  -0.06840    0.03917  -1.746   0.0808 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 27.726  on 19  degrees of freedom
## Residual deviance: 12.377  on 15  degrees of freedom
## AIC: 22.377
## 
## Number of Fisher Scoring iterations: 8

Prediksi Probabilitas

predict(
  model_probit,
  type = "response"
)

##           1           2           3           4           5           6 
## 0.978367403 0.421128259 0.963565512 0.008667299 0.998707671 0.230467636 
##           7           8           9          10          11          12 
## 0.817568827 0.002653339 0.961494647 0.117936628 0.960168290 0.019160221 
##          13          14          15          16          17          18 
## 0.575214101 0.087498559 0.998988195 0.022862912 0.879946382 0.398649193 
##          19          20 
## 0.533895945 0.260236870

Pseudo R² Probit

pseudo_r2_probit <- 1 - (
  model_probit$deviance /
  model_probit$null.deviance
)

pseudo_r2_probit

## [1] 0.5536048

Akurasi Klasifikasi

pred_prob_probit <- predict(
  model_probit,
  type = "response"
)

pred_class_probit <- ifelse(
  pred_prob_probit > 0.5,
  "Bekerja",
  "Tidak Bekerja"
)

accuracy_probit <- mean(
  pred_class_probit ==
  as.character(data_ibu$Y)
) * 100

accuracy_probit

## [1] 90

Marginal Effects Probit

library(margins)

marg_eff_probit <- margins(
  model_probit
)

summary(marg_eff_probit)

##       factor     AME     SE       z      p   lower   upper
##  Jumlah_Anak -0.0237 0.1378 -0.1720 0.8634 -0.2939  0.2465
##   Pend_Suami -0.0118 0.0051 -2.3112 0.0208 -0.0219 -0.0018
##   Pendidikan -0.0408 0.0652 -0.6259 0.5314 -0.1686  0.0870
##         Umur -0.0056 0.0369 -0.1522 0.8790 -0.0779  0.0667

Interpretasi Output

a. Koefisien (Coefficient)

Menunjukkan arah pengaruh variabel.

Koefisien positif → meningkatkan probabilitas kejadian.
Koefisien negatif → menurunkan probabilitas kejadian.

b. Nilai Signifikansi (P-value)

Kriteria:

p-value < 0,05 → signifikan
p-value > 0,05 → tidak signifikan

c. Predicted Probability

Menunjukkan peluang kejadian dalam rentang 0–1.

BAB III PENUTUP

Kesimpulan

Model regresi logit dan probit merupakan metode ekonometrika yang digunakan untuk menganalisis variabel dependen berbentuk biner atau dikotomis. Model logit menggunakan distribusi logistik, sedangkan model probit menggunakan distribusi normal kumulatif.

Kedua model memiliki tujuan utama untuk mengestimasi probabilitas terjadinya suatu peristiwa berdasarkan faktor-faktor tertentu. Dalam praktiknya, model ini banyak diterapkan pada bidang ekonomi, bisnis, pendidikan, dan kesehatan.

Penggunaan software R Studio mempermudah proses estimasi model melalui fungsi glm(), sehingga analisis probabilitas dapat dilakukan secara lebih efisien dan sistematis.