- Python
- R
- Excel
- SPSS
- MATLAB
- Minitab
Un modelo de regresión logística es una técnica estadística utilizada para predecir la probabilidad de ocurrencia de un evento binario (dos posibles resultados, como éxito/fallo o sí/no) basado en una o más variables independientes. Utiliza una función logística para modelar la relación entre las variables independientes y la probabilidad de que ocurra el evento de interés, proporcionando salidas que varían entre 0 y 1.
La regresión logística utiliza la función logística (o sigmoidea) para asegurar que las predicciones estén en el rango de 0 a 1. La fórmula general para el modelo de regresión logística es:
\[P(Y=1) = \frac{1}{1-e^{-(\beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + ... + \beta_{k} x_{k})}} \]
La base de datos con la que se trabajará esta alojada en la web, se deben importar los datos de la siguiente manera:
library(readr)
url <- "https://raw.githubusercontent.com/Statology/Python-Guides/main/default.csv"
datos <- read_csv(url)
head(datos,3)## # A tibble: 3 × 4
## default student balance income
## <dbl> <dbl> <dbl> <dbl>
## 1 0 0 730. 44362.
## 2 0 1 817. 12106.
## 3 0 0 1074. 31767.
La base de datos cuenta con 4 variables y con 10,000 filas
Luego se deben exportar esos datos para poder, finalmente, trabajarlos en SPSS
Lo primero que se debe de hacer es importar los datos en SPSS de la siguiente forma:
Abrir SPSS > Archivo > Importar Datos > Datos CSV
Al seleccionar la base de datos que se había descargado anteriormente, aparecerá la siguiente ventana, donde se debe seleccionar que los datos están separados por punto y coma y que tiene símbolo decimal de tipo periodo:
Después de darle aceptar a la ventana anterior, los datos aparecerán en SPSS y se puede comenzar a trabajar con ellos:
Lo primero es categorizar la variable default y la variable student. Para la variable default se usara “0” como “el cliente no ha incumplido” y “1” como “el cliente si ha incumplido”, mientras que para la variable student se usara “0” para “No es estudiante” y “1” como “si es estudiante”, en SPSS se realiza de la siguiente forma:
Se selecciona la pestaña Vista de variables
Al seleccionar “Vista de variables” aparecen las variables de la siguiente forma:
Luego se procede ha modificar las categorías en la columna “Valores”
Al seleccionar los 3 puntos y aparecerá la siguiente ventana:
Se agregan las categorías para la variable default:
Se agregan las categorías para la variable student:
Las variables aparecerán con sus categorías:
Analizar > Regresión > Logística Binaria
Una vez seleccionado la opción de “Logística Binaria” aparecerá la siguiente ventana donde se deben seleccionar las variables según corresponda. En este caso la variable que se utilizará para predecir es la variable “default” en función de las demás variables:
Además se debe indicar que la variable “student” es categórica:
Y se selecciona “Continuar”
También se seleccionara las opciones de guardar probabilidades y grupo de pertenencias:
También se van seleccionar las opciones de bondad de ajuste y correlaciones
En la ventana principal aparece la opción de método que es donde se seleccionara el método con el cual se trabajará el modelo.
El método condicional añade o elimina variables del modelo de regresión logística en pasos sucesivos, basado en un criterio de significancia específico. Este método puede ser usado en procedimientos hacia adelante (añadir variables) o hacia atrás (eliminar variables).
Un valor p significativo (p < 0.05) indica que el modelo, con las variables incluidas, mejora significativamente en comparación con el modelo nulo (sin variables predictoras).
Cox & Snell \(R^2\) y Nagelkerke \(R^2\): Proporcionan una medida de la varianza explicada por el modelo (similar al \(R^2\) en la regresión lineal, pero adaptado para regresión logística).
Para el estadístico de Hosmer-Lemeshow, obtener un valor p no significativo (p > 0.05) indica un buen ajuste del modelo a los datos observados.
Muestra la capacidad del modelo para clasificar correctamente los casos después de añadir las variables predictoras.
Presenta los coeficientes de las variables en el modelo, sus errores estándar, el estadístico Wald, los valores p y los odds ratios.
Muestra las correlaciones entre las variables predictoras y ayuda a identificar posibles problemas de multicolinealidad.
\[ \beta_{0} = -11.464 \\ \beta_{1} = 0.715 \\ \beta_{2} = 0.006 \]