Modelo De Regresión Logística Utilizando SPSS

Jenniffer Alemán

Modelo De Regresión Logística

Un modelo de regresión logística es una técnica estadística utilizada para predecir la probabilidad de ocurrencia de un evento binario (dos posibles resultados, como éxito/fallo o sí/no) basado en una o más variables independientes. Utiliza una función logística para modelar la relación entre las variables independientes y la probabilidad de que ocurra el evento de interés, proporcionando salidas que varían entre 0 y 1.

Fórmula de la regresión logística

La regresión logística utiliza la función logística (o sigmoidea) para asegurar que las predicciones estén en el rango de 0 a 1. La fórmula general para el modelo de regresión logística es:

\[P(Y=1) = \frac{1}{1-e^{-(\beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + ... + \beta_{k} x_{k})}} \]

Donde:

  • \(P(Y=1)\) es la probabilidad de que ocurra el evento de interés (por ejemplo, default = 1).
  • \(\beta_{0}\) es el intercepto del modelo.
  • \(\beta_{1} , \beta_{2}, .... , \beta_{k}\) son los coeficientes de regresión para cada variable independiente.
  • \(x_{1}, x_{2}, ... , x_{k}\) son los valores de las variables independientes.

Software Para Realizar Modelos De Regresión Logística

  • Python
  • R
  • Excel
  • SPSS
  • MATLAB
  • Minitab

Modelo De Regresión Logística En SPSS

  • Base de datos
  • Importar datos
  • Categorizar los datos según corresponda
  • Seleccionar el modelo
  • Seleccionar el método
  • Analizar datos
  • Realizar predicciones
  • Analizar predicciones con los datos originales

Base de datos

La base de datos con la que se trabajará esta alojada en la web, se deben importar los datos de la siguiente manera:

library(readr)
url <- "https://raw.githubusercontent.com/Statology/Python-Guides/main/default.csv"
datos <- read_csv(url)
head(datos,3)
## # A tibble: 3 × 4
##   default student balance income
##     <dbl>   <dbl>   <dbl>  <dbl>
## 1       0       0    730. 44362.
## 2       0       1    817. 12106.
## 3       0       0   1074. 31767.

Variables de la base de datos

La base de datos cuenta con 4 variables y con 10,000 filas

  • default: Representa si una persona incumple o no.
  • student: Representa si una persona es estudiante o no.
  • balance: Saldo que tiene
  • income: Ingresos que tiene

Luego se deben exportar esos datos para poder, finalmente, trabajarlos en SPSS

write_csv2(datos, file = "default.csv")

Importación de datos en SPSS

Lo primero que se debe de hacer es importar los datos en SPSS de la siguiente forma:

Abrir SPSS > Archivo > Importar Datos > Datos CSV

Al seleccionar la base de datos que se había descargado anteriormente, aparecerá la siguiente ventana, donde se debe seleccionar que los datos están separados por punto y coma y que tiene símbolo decimal de tipo periodo:

Después de darle aceptar a la ventana anterior, los datos aparecerán en SPSS y se puede comenzar a trabajar con ellos:

Modificación de las variables

Lo primero es categorizar la variable default y la variable student. Para la variable default se usara “0” como “el cliente no ha incumplido” y “1” como “el cliente si ha incumplido”, mientras que para la variable student se usara “0” para “No es estudiante” y “1” como “si es estudiante”, en SPSS se realiza de la siguiente forma:

Se selecciona la pestaña Vista de variables

Al seleccionar “Vista de variables” aparecen las variables de la siguiente forma:

Luego se procede ha modificar las categorías en la columna “Valores”

Al seleccionar los 3 puntos y aparecerá la siguiente ventana:

Se agregan las categorías para la variable default:

Se agregan las categorías para la variable student:

Las variables aparecerán con sus categorías:

Aplicación del modelo

Analizar > Regresión > Logística Binaria

Regresión Logística

Una vez seleccionado la opción de “Logística Binaria” aparecerá la siguiente ventana donde se deben seleccionar las variables según corresponda. En este caso la variable que se utilizará para predecir es la variable “default” en función de las demás variables:

Además se debe indicar que la variable “student” es categórica:

Y se selecciona “Continuar”

También se seleccionara las opciones de guardar probabilidades y grupo de pertenencias:

También se van seleccionar las opciones de bondad de ajuste y correlaciones

En la ventana principal aparece la opción de método que es donde se seleccionara el método con el cual se trabajará el modelo.

Método Condicional

El método condicional añade o elimina variables del modelo de regresión logística en pasos sucesivos, basado en un criterio de significancia específico. Este método puede ser usado en procedimientos hacia adelante (añadir variables) o hacia atrás (eliminar variables).

Pasos del Método Condicional

  • Inicio: Comienza con un modelo vacío (sin variables).
  • Añadir Variables: En cada paso, se evalúa cada variable candidata para ser añadida al modelo.
  • Criterio de Inclusión: Una variable se añade al modelo si su inclusión mejora significativamente el ajuste del modelo según un criterio condicional (generalmente basado en la significancia estadística, como el valor p).
  • Repetición: Este proceso se repite hasta que ninguna variable adicional mejore significativamente el modelo.

Seleccionar El Método Y Aceptar

Resultados

Bloque 1: Método = Avanzar por pasos (Condicional)

Pruebas ómnibus de coeficientes de modelo

Un valor p significativo (p < 0.05) indica que el modelo, con las variables incluidas, mejora significativamente en comparación con el modelo nulo (sin variables predictoras).

Resumen del modelo

Cox & Snell \(R^2\) y Nagelkerke \(R^2\): Proporcionan una medida de la varianza explicada por el modelo (similar al \(R^2\) en la regresión lineal, pero adaptado para regresión logística).

Prueba de Hosmer y Lemeshow

Para el estadístico de Hosmer-Lemeshow, obtener un valor p no significativo (p > 0.05) indica un buen ajuste del modelo a los datos observados.

Tabla de clasificación

Muestra la capacidad del modelo para clasificar correctamente los casos después de añadir las variables predictoras.

Variables en la ecuación

Presenta los coeficientes de las variables en el modelo, sus errores estándar, el estadístico Wald, los valores p y los odds ratios.

Matriz de correlaciones

Muestra las correlaciones entre las variables predictoras y ayuda a identificar posibles problemas de multicolinealidad.

Modelo si el término se ha eliminado

Las variables no están en la ecuación

Coeficientes de la ecuación de regresión

\[ \beta_{0} = -11.464 \\ \beta_{1} = 0.715 \\ \beta_{2} = 0.006 \]