La regresión logística es una técnica estadística utilizada para modelar la relación entre una variable dependiente binaria y una o más variables independientes.
2024-07-22
\(\LARGE\textbf{- Regresión Logistíca}\)
La regresión logística es una técnica estadística utilizada para modelar la relación entre una variable dependiente binaria y una o más variables independientes.
Este tipo de modelo estadístico se utiliza a menudo para la clasificación y el análisis predictivo. Dado que el resultado es una probabilidad, la variable dependiente está acotada entre 0 y 1.
En la regresión logística, se aplica una transformación logit sobre las probabilidades, es decir, la probabilidad de éxito dividida por la probabilidad de fracaso.
Esta función logística se representa mediante las siguientes fórmulas:
\(\text{Logit}(\pi) = \ln\left(\frac{\pi}{1 - \pi}\right)\)
\(\ln\left(\frac{\pi}{1 - \pi}\right) = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k\)
Primero vamos a descargar la base de datos utilizando Python en R Studio
\(\small\textbf {PASOS PARA REALIZAR UN MODELO}\) \(\small\textbf {DE REGRESION LOGISTICA EN SPSS}\)
SPSS es un software estadístico ampliamente utilizado que permite a los usuarios realizar análisis de datos de manera eficiente.
\(\large\textbf{Importar Datos}\)
Una vez que el programa está abierto:
Luego de eso, tendremos nuestra base para usarla en SPSS.
\(\large\textbf{Verificar Datos}\)
Ya teniendo cargados nuestros datos, procedemos a observar los datos, en este caso la base contiene 4 variables, default, student, balance y income.
Ahora necesitamos que las variables default y student esten en formato binario, para ello, le damos en transformar y seleccionamos las dos variables con 0 y 1 que tenemos.
\(\large\textbf{Formas de Recodificar}\)
Seleccionamos recodificar en las mismas variables si queremos sobreescribir los datos, si queremos conservar los datos antiguos entonces seleccionamos recodificar en distintas variables.
Seleccionamos las variables que necesitamos, en nuestro caso default y student, luego seleccionamos Valores antiguos y nuevos, estando ahi, ponemos los valores antiguos y los nuevos, en este caso 0 y 1, en ambos valores.
\(\large\textbf{Etiquetas}\)
Acá vamos a añadir las etiquetas.
Esto nos ayudará a conocer mejor nuestros datos.
Ahora que hemos finalizado la preparación de nuestra base de datos, esta, está lista para proceder con el análisis de regresión logística.
\(\large\textbf{Aplicando Regresión Logistica}\)
En esta ocasión vamos ha aplicar Regresión Logística Binaria siempre utilizando SPSS.
Siguiendo los siguientes pasos:
Al hacer clic en Guardar podemos elegir los tipos de predicciones y residuos que se desean realizar para el análisis posterior.
Al hacer clic en Opciones accedemos a opciones adicionales del modelo, y a los estadisticos que se desean realizar para el ánalisis posterior.
Finalmente realizamos el modelo de Regresión Logística, al dar clic en Aceptar.
Una vez configuradas todas las opciones, al hacer clic en Aceptar ejecutamos la regresión logística. SPSS generará una serie de tablas con los resultados del análisis en la ventana de resultados.
\(\large\textbf{Análisis de Resultados}\)
\(\small\textbf{Estadísticos Descriptivos}\)
Los estadísticos descriptivos proporcionan un resumen básico de la variable “default”. Y la tabla de frecuencias muestra la distribución de los casos entre las dos categorías de la variable “default”.
La mayoría no han incumplido con sus pagos, con un 96.7% de los casos clasificados como “No incumple”. Y solo un 3.3% de casos incumplidos, esto sugiere que el incumplimiento de pago es un evento poco comun en este conjunto de datos.
\(\large\textbf{Regresión logística}\)
\(\small\textbf{Resumen de Procesamiento de Casos}\)
Podemos observar que todos los datos disponibles fueron utilizados, y no se presentaron casos perdidos ni excluidos. Además la codificación de las variables binarias.
\(\large\textbf{Bloque 0: Bloque de inicio}\)
Clasificación del modelo antes de incluir las variables predictoras en el análisis.
El modelo de regresión logística solo incluye la constante, resultando en una clasificación correcta del 96.7% de los casos como "No incumple", pero sin identificar correctamente los casos de incumplimiento. La constante es significativa con un valor P menor a 0.001 y lo que sugiere una baja probabilidad de incumplimiento.
\(\large\textbf{Bloque 1: Método = Entrar}\)
Las pruebas ómnibus de coeficientes, evalúan si el modelo con variables predictoras mejora significativamente en comparación con un modelo sin variables
El p-valor de 0.000 indica que el modelo con las variables predictoras es significativamente mejor que el modelo sin variables, mostrando que las variables incluidas contribuyen de manera significativa a la predicción del incumplimiento.
Esto significa que al incluir las variables predictoras (como “Student”, “Income”, y “Balance”), el modelo ha mejorado notablemente en su capacidad para predecir el incumplimiento.
Podemos observar que el logaritmo de la verosimilitud es -1571.545, lo cual refleja el ajuste general del modelo a los datos. El R cuadrado de Cox y Snell es 0.126, lo que indica que el modelo explica una proporción relativamente pequeña de la variabilidad en la variable dependiente.
Por otro lado, el R cuadrado de Nagelkerke es 0.498, lo que indica que el modelo explica aproximadamente el 50% de la variabilidad en el incumplimiento de pago, señalando un ajuste relativamente bueno.
\(\large\textbf{Prueba de Bondad y ajuste}\)
Con un P-valor de 0.885 la prueba indica que no hay evidencia suficiente para rechazar la hipótesis nula dado que el modelo se ajusta bien a los datos. Esto sugiere que el modelo tiene un buen ajuste general, donde las diferencias entre las frecuencias observadas y esperadas no son significativas.
Comparamos las predicciones del modelo con los valores observados para evaluar su capacidad predictiva.
El modelo predice con una precisión del 99.6% los casos en los que no hubo incumplimiento, pero solo predice correctamente el 31.5% de los casos en los que sí hubo incumplimiento.
En general, el modelo tiene un porcentaje de aciertos del 97.3%, lo que indica un buen rendimiento global, aunque presenta una menor precisión en la predicción de los incumplimientos.
En la ecuación del modelo, la variable “Student” tiene un coeficiente de -0.647 y es significativa con un (p< 0.01), lo que sugiere que ser estudiante reduce la probabilidad de incumplimiento de pago en un 47.6%. La variable “Balance”, con un coeficiente de 0.006, tambien es significativa, indica que un aumento en el balance incrementa ligeramente la probabilidad de incumplimiento. La constante, que es negativa y significativa, refleja una baja probabilidad de incumplimiento cuando las demás variables son cero.
La matriz de correlaciones muestra las relaciones entre las variables en el modelo.
La matriz de correlaciones muestra que la constante tiene correlaciones negativas con la variable Student (-0.457), Income (-0.661) y Balance (-0.720). Student está positivamente correlacionado con Income (0.781) pero tiene una correlación negativa con Balance (-0.178). Income y Balance tienen una correlación muy baja (-0.014), lo que indica una relación débil entre ellos.
La ecuación general del modelo de regresión logística es:
\(\text{Logit}(p) = \ln \left( \frac{p}{1 - p} \right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n\)
Coeficientes de la ecuación de regresión
\(\beta_0 = -10.869 \text{ ("Costante")}\)
\(\beta_1 = -0.647 \text{ ("Student")}\)
\(\beta_2 = 0.006 \text{ ("Balance")}\)