La temática del estudio es analizar la relación entre la edad de las personas y su saldo bancario.
La base de datos contiene información sobre características de individuos como:
edad (age)
tipo de trabajo (job)
nivel educativo (education)
saldo bancario (balance)
Se busca analizar si la edad de una persona influye en su saldo bancario. Para ello se utilizará un modelo de regresión lineal simple, que permitirá estudiar la relación entre estas dos variables.
Diagrama de pescado
Después de revisar la base de datos se identificaron variables que podrían influir en el saldo bancario:
Edad (age)
Nivel educativo (education)
Tipo de trabajo (job)
Salario (csalary)
Saldo bancario (balance)
Estas variables están relacionadas con las características socioeconómicas de las personas y podrían explicar diferencias en el nivel de recursos financieros.
Sin embargo, para este estudio se analizará específicamente la relación entre la edad y el saldo bancario, con el objetivo de evaluar si el aumento en la edad está asociado con cambios en el saldo que poseen las personas en sus cuentas bancarias.
Las personas de mayor edad pueden presentar una mayor estabilidad económica debido a una mayor experiencia laboral y acumulación de ingresos a lo largo del tiempo.
Es posible que exista una relación positiva entre la edad y el saldo bancario, ya que con el paso de los años las personas pueden aumentar su capacidad de ahorro o acumulación de dinero.
Por esta razón, se propone analizar esta relación mediante un modelo de regresión lineal simple.
Para analizar la relación entre la edad de las personas y su saldo bancario se propone utilizar un modelo de regresión lineal simple.
Este tipo de modelo permite estudiar cómo una variable independiente influye sobre una variable dependiente, asumiendo que la relación entre ambas es aproximadamente lineal.
Variable dependiente
balance → representa el saldo bancario de los individuos.
Variable independiente
age → representa la edad de las personas.
Modelo matemático:
\[ balance = \beta_0 + \beta_1 (age) + \varepsilon \]
donde:Antes de estimar el modelo de regresión lineal simple es necesario realizar una exploración preliminar de los datos. Este proceso permite conocer la estructura de la base de datos, identificar las variables disponibles y analizar el comportamiento general de las variables de interés.
Primero se importa la base de datos en RStudio utilizando el paquete haven, el cual permite leer archivos en formato .sav provenientes de SPSS.
La función read_sav() permite cargar la base de datos en el entorno de trabajo de R, mientras que zap_labels() elimina las etiquetas de SPSS para trabajar más fácilmente con las variables.
Una vez cargada la base de datos se revisan los nombres de las variables para identificar la información disponible.
## [1] "job" "education" "loan" "csalary" "age" "balance"
## [7] "ic" "ecivil"
Posteriormente se realiza un análisis descriptivo de las variables de interés, en este caso edad (age) y saldo bancario (balance).
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.00 33.00 39.00 41.17 49.00 87.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3313 69 444 1423 1480 71188
library(ggplot2)
ggplot(data, aes(x = education, fill = education)) +
geom_bar() +
scale_fill_brewer(palette = "Set2") +
labs(
title = "Distribución del nivel educativo",
x = "Nivel educativo",
y = "Frecuencia"
) +
theme_minimal() +
theme(legend.position = "none")## [1] 41.1701
## [1] 1422.658
A partir del análisis descriptivo se observó que la edad de los individuos presentó un valor mínimo de 19 años y un máximo de 87 años, con una media de 41.17 años y una mediana de 39 años, lo que indicó que la mayoría de las personas se concentró alrededor de edades cercanas a los 40 años.
En cuanto al saldo bancario, se registró un valor mínimo de -3313 y un máximo de 71188, lo que evidenció una alta variabilidad en los saldos. La media fue de 1422.66, mientras que la mediana fue 444, lo que sugirió la presencia de algunos valores altos que incrementaron el promedio.
Además, el diagrama de barras del nivel educativo mostró que la mayor frecuencia de individuos correspondió al nivel secundario, seguido del nivel terciario, mientras que los niveles primario y desconocido presentaron menor frecuencia.
Con el objetivo de analizar visualmente la posible relación entre la edad (age) y el saldo bancario (balance), se utiliza un gráfico de dispersión. Este tipo de gráfico permite observar cómo se distribuyen los datos y detectar posibles patrones o tendencias entre ambas variables.
library(ggplot2)
ggplot(data, aes(x = age, y = balance)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title = "Relación entre edad y saldo bancario",
x = "Edad",
y = "Saldo bancario")En el gráfico de dispersión se observó la relación entre la edad (age) y el saldo bancario (balance). Cada punto representó a un individuo dentro de la base de datos.
Se observó que la mayoría de los valores del saldo bancario se concentraron en niveles relativamente bajos, mientras que algunos individuos presentaron saldos muy altos, lo que generó valores atípicos en la parte superior del gráfico.
La línea azul representó la recta de regresión lineal, la cual mostró una ligera tendencia positiva. Esto indicó que, a medida que la edad aumentó, el saldo bancario tendió a incrementarse ligeramente.
Sin embargo, la dispersión de los puntos alrededor de la recta fue bastante amplia, lo que sugirió que la edad por sí sola no explicó completamente las variaciones en el saldo bancario. Esto indicó que otros factores, como el tipo de trabajo, el nivel educativo o los ingresos, podrían influir en el saldo bancario de las personas
Una vez realizada la exploración de los datos y la visualización de la relación entre las variables, se procedió a estimar el modelo de regresión lineal simple utilizando el software R.
Para ello se utilizó la función lm() (linear model), la cual permite ajustar modelos de regresión lineal entre una variable dependiente y una variable independiente.
En este caso, el saldo bancario (balance) se consideró como la variable dependiente, mientras que la edad (age) se utilizó como variable independiente.
##
## Call:
## lm(formula = balance ~ age, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5113 -1298 -913 77 69316
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 440.651 179.303 2.458 0.014 *
## age 23.852 4.218 5.655 1.66e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2999 on 4519 degrees of freedom
## Multiple R-squared: 0.007026, Adjusted R-squared: 0.006806
## F-statistic: 31.97 on 1 and 4519 DF, p-value: 1.658e-08
# Crear nuevo dato para predicción
nuevo <- data.frame(age = 40)
# Predicción con intervalos
pred <- predict(modelo, newdata = nuevo, interval = "prediction")
pred## fit lwr upr
## 1 1394.748 -4486.159 7275.656
ggplot(data, aes(x = age, y = balance)) +
geom_point(color = "steelblue", alpha = 0.6, size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "darkred") +
geom_point(aes(x = 40, y = pred),
color = "black", size = 4) +
labs(
title = "Predicción del saldo bancario según la edad",
subtitle = "Modelo de regresión lineal simple",
x = "Edad",
y = "Saldo bancario"
) +
theme_minimal()La gráfica muestra la relación entre la edad y el saldo bancario mediante un modelo de regresión lineal simple. La pendiente positiva de la recta indica que, en promedio, el saldo bancario tiende a aumentar a medida que aumenta la edad. Esto permite utilizar el modelo para realizar predicciones del saldo bancario esperado para diferentes edades en el futuro. Sin embargo, la amplia dispersión de los datos alrededor de la recta sugiere que la edad no explica completamente la variabilidad del saldo, por lo que las predicciones deben interpretarse como tendencias promedio y no como valores exactos.
A partir de la estimación del modelo de regresión lineal simple se obtuvo la siguiente ecuación:
\[ balance_i = 440.651 + 23.852\,age_i + \varepsilon_i \]
El intercepto 440.651 representó el saldo bancario estimado cuando la edad es igual a cero. Por su parte, el coeficiente de la variable edad (23.852) indicó que, en promedio, por cada año adicional de edad el saldo bancario aumentó aproximadamente 23.85 unidades.
El coeficiente de determinación obtenido fue R² = 0.007, lo que indicó que aproximadamente 0.7% de la variabilidad del saldo bancario fue explicada por la edad. Esto sugirió que la edad por sí sola explicó una pequeña parte del comportamiento del saldo bancario.
El valor p = 1.66e-08 fue menor que 0.05, lo que indicó que la relación entre la edad y el saldo bancario fue estadísticamente significativa. Esto permitió concluir que la edad tuvo un efecto significativo sobre el saldo bancario.
A partir del modelo de regresión lineal simple se realizó una predicción del saldo bancario para una persona de 40 años. El resultado indicó que el saldo bancario estimado fue aproximadamente 1394.75 unidades. Sin embargo, debido a la variabilidad de los datos, el saldo real podría variar dentro de un rango amplio. Esto sugiere que la edad permite observar una tendencia general, pero no predice con total precisión el saldo bancario de una persona.
A partir del análisis de regresión lineal simple se concluyó que existe una relación significativa entre la edad y el saldo bancario. Sin embargo, el bajo valor de R² indicó que la edad explicó solo una pequeña parte de la variabilidad del saldo bancario, lo que sugiere que otros factores también influyen en el comportamiento de esta variable.
A partir de los resultados obtenidos se recomendó considerar la inclusión de otras variables explicativas que puedan influir en el saldo bancario, como el nivel educativo, el tipo de trabajo o el salario, con el fin de mejorar la capacidad explicativa del modelo.
Asimismo, se sugirió aplicar modelos de regresión múltiple en futuros análisis, ya que el bajo valor del coeficiente de determinación indicó que la edad por sí sola no explicó gran parte de la variabilidad del saldo bancario.
La temática del estudio es analizar los factores que influyen en el saldo bancario de las personas.
La base de datos contiene información sobre características de individuos como:
Se busca analizar si variables como la edad, el nivel educativo, el tipo de trabajo y el salario influyen en el saldo bancario de una persona, para ello se utilizará un modelo de regresión lineal múltiple, que permitirá estudiar la relación entre varias variables explicativas y el saldo bancario.
Diagrama de pescado
Estas variables están relacionadas con las características socioeconómicas de las personas y podrían explicar diferencias en el nivel de recursos financieros.
A diferencia del modelo anterior, en este análisis se considerará la influencia conjunta de varias variables explicativas sobre el saldo bancario.
Las personas con mayor edad pueden presentar mayor estabilidad económica debido a una mayor experiencia laboral y acumulación de ingresos a lo largo del tiempo.
El nivel educativo y el tipo de trabajo pueden influir en el nivel de ingresos de los individuos, lo que a su vez puede afectar su saldo bancario.
Personas con mayores ingresos o salarios pueden presentar mayores niveles de ahorro o acumulación de dinero, por esta razón, se propone analizar esta relación mediante un modelo de regresión lineal múltiple.
Para analizar la relación entre las variables se propone utilizar un modelo de regresión lineal múltiple, este tipo de modelo permite estudiar cómo varias variables independientes influyen sobre una variable dependiente.
balance → representa el saldo bancario de los individuos.
age → representa la edad de las personas.
education → representa el nivel educativo.
job → representa el tipo de trabajo.
csalary → representa el salario o ingreso de los individuos.
\[ balance = \beta_0 + \beta_1(age) + \beta_2(education) + \beta_3(job) + \beta_4(csalary) + \varepsilon \]
Antes de estimar el modelo de regresión múltiple es necesario realizar una exploración preliminar de los datos para comprender la estructura de la base de datos y el comportamiento de las variables.
## [1] "job" "education" "loan" "csalary" "age" "balance"
## [7] "ic" "ecivil"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.00 33.00 39.00 41.17 49.00 87.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3313 69 444 1423 1480 71188
La variable edad (age) presenta valores entre 19 y 87 años, con una media de 41.17 años y una mediana de 39, lo que indica que la mayoría de los individuos se encuentra en edad adulta.
En cuanto al saldo bancario (balance), los valores van desde -3313 hasta 71188, con una media de 1423 y una mediana de 444, lo que muestra que la mayoría de los saldos son moderados, aunque existen algunos valores muy altos que aumentan el promedio.
library(ggplot2)
ggplot(data, aes(x = education, fill = education)) +
geom_bar() +
scale_fill_brewer(palette = "Set2") +
labs(
title = "Distribución del nivel educativo",
x = "Nivel educativo",
y = "Frecuencia"
) +
theme_minimal() +
theme(legend.position = "none")La gráfica muestra que la mayoría de las personas tiene nivel educativo secundario (secondary), con aproximadamente 2600 individuos. En menor proporción se encuentran los niveles tertiario (tertiary) con alrededor de 800–900 personas y primario (primary) con cerca de 600–700. La categoría unknown presenta la menor frecuencia, con aproximadamente 150–200 registros. Esto indica que la población analizada se concentra principalmente en el nivel educativo secundario.
Para observar la relación entre algunas variables se utiliza un gráfico de dispersión.
ggplot(data, aes(x = age, y = balance)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title = "Relación entre edad y saldo bancario",
x = "Edad",
y = "Saldo bancario")La gráfica muestra la relación entre la edad y el saldo bancario. Se observa una ligera tendencia positiva, lo que indica que el saldo bancario tiende a aumentar ligeramente a medida que aumenta la edad. Sin embargo, existe mucha dispersión en los datos, lo que sugiere que la edad por sí sola no explica completamente el saldo bancario y que otros factores también influyen en este comportamiento.
Una vez realizada la exploración de los datos se procedió a estimar el modelo de regresión lineal múltiple.
data$csalary <- as.numeric(data$csalary)
modelo_multiple <- lm(balance ~ age + education + job + csalary, data = data)
summary(modelo_multiple)##
## Call:
## lm(formula = balance ~ age + education + job + csalary, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5212 -1296 -824 104 68857
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 121.006 456.294 0.265 0.790873
## age 18.959 4.992 3.798 0.000148 ***
## educationsecondary -41.574 145.150 -0.286 0.774568
## educationtertiary 407.193 176.810 2.303 0.021325 *
## educationunknown 279.932 255.035 1.098 0.272428
## jobblue-collar 68.743 270.438 0.254 0.799361
## jobentrepreneur 183.922 274.725 0.669 0.503227
## jobhousemaid 888.108 410.692 2.162 0.030635 *
## jobmanagement 163.448 197.558 0.827 0.408086
## jobretired 787.666 307.302 2.563 0.010404 *
## jobself-employed 5.184 267.866 0.019 0.984559
## jobservices 121.011 286.331 0.423 0.672589
## jobstudent 697.058 441.511 1.579 0.114452
## jobtechnician 132.598 203.523 0.652 0.514748
## jobunemployed 13.695 392.839 0.035 0.972192
## jobunknown 71.015 529.097 0.134 0.893236
## csalary 95.078 101.510 0.937 0.348997
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2986 on 4503 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.01921, Adjusted R-squared: 0.01573
## F-statistic: 5.513 on 16 and 4503 DF, p-value: 7.225e-12
Este modelo permitió analizar cómo varias variables explicativas influyen simultáneamente en el saldo bancario.
Una vez estimado el modelo, es posible realizar predicciones del saldo bancario para un individuo con determinadas características.
En este caso se realizará una predicción para una persona con las siguientes características:
Edad = 40 años Nivel educativo = secondary Tipo de trabajo = management Salario = 3000
nuevo <- data.frame(
age = 40,
education = "secondary",
job = "management",
csalary = 3000
)
pred <- predict(modelo_multiple, newdata = nuevo)
pred## 1
## 286234.2
Para representar gráficamente el modelo se utilizará un gráfico de dispersión entre la edad y el saldo bancario, junto con la línea de regresión estimada. Además, se marcará el punto correspondiente a la predicción realizada.
library(ggplot2)
ggplot(data, aes(x = age, y = balance)) +
geom_point(color = "steelblue", alpha = 0.6, size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "darkred") +
geom_point(aes(x = 40, y = pred),
color = "black", size = 4) +
labs(
title = "Predicción del saldo bancario según variables socioeconómicas",
subtitle = "Modelo de regresión lineal múltiple",
x = "Edad",
y = "Saldo bancario"
) +
theme_minimal()La gráfica muestra que el modelo de regresión lineal múltiple se utiliza para predecir el saldo bancario futuro de una persona considerando variables socioeconómicas como edad, nivel educativo, tipo de trabajo y salario. La línea de tendencia indica que, en promedio, el saldo bancario podría aumentar ligeramente con la edad, aunque la gran dispersión de los datos sugiere que la predicción es aproximada y depende también de otros factores.
A partir de la estimación del modelo de regresión lineal múltiple se obtuvo la siguiente ecuación general:
\[ balance_i = 121.006 + 18.959\,age_i - 41.574\,education_{secondary} + 407.193\,education_{tertiary} + 279.932\,education_{unknown} + 95.078\,csalary_i + \varepsilon_i \]
El intercepto (121.006) representó el saldo bancario estimado cuando todas las variables explicativas toman el valor de cero.
El coeficiente de la edad (18.959) indicó que, manteniendo constantes las demás variables, por cada año adicional de edad el saldo bancario aumentó en promedio aproximadamente 18.96 unidades.
En cuanto al nivel educativo, el coeficiente de education tertiary (407.193) indicó que las personas con educación terciaria presentaron, en promedio, un saldo bancario mayor en comparación con la categoría de referencia.
Por otra parte, el coeficiente de csalary (95.078) indicó que un aumento en el salario estuvo asociado con un incremento promedio en el saldo bancario, aunque este efecto no resultó estadísticamente significativo en el modelo.
El coeficiente de determinación obtenido fue:
R²=0.019
Esto indicó que aproximadamente 1.9% de la variabilidad del saldo bancario fue explicada por las variables edad, nivel educativo, tipo de trabajo y salario incluidas en el modelo.
Este resultado sugiere que existen otros factores adicionales que también influyen en el comportamiento del saldo bancario.
El modelo presentó un valor p global de 7.225e-12, el cual es menor que 0.05.
Esto indica que el conjunto de variables explicativas incluidas en el modelo tiene un efecto estadísticamente significativo sobre el saldo bancario, por lo que el modelo es estadísticamente válido para analizar la relación entre las variables.
Utilizando el modelo estimado se realizó una predicción del saldo bancario para una persona con las siguientes características:
Edad: 40 años
Nivel educativo: secondary
Tipo de trabajo: management
Salario: 3000
El valor predicho por el modelo fue:
balance=286234.2
Esto representa el saldo bancario estimado para un individuo con dichas características según el modelo de regresión múltiple.
A partir del análisis de regresión lineal múltiple se concluyó que algunas variables socioeconómicas, como la edad, el nivel educativo y ciertos tipos de trabajo, presentan influencia sobre el saldo bancario de los individuos.
Sin embargo, el bajo valor del coeficiente de determinación sugiere que la mayor parte de la variabilidad del saldo bancario no es explicada por las variables consideradas en este modelo, lo que indica que existen otros factores relevantes que deberían incluirse en futuros análisis.
Se recomienda incluir en futuros estudios otras variables que puedan explicar mejor el comportamiento del saldo bancario, como el nivel de ingresos reales, la experiencia laboral, el nivel de ahorro, el acceso a servicios financieros o factores económicos adicionales.
Asimismo, el uso de modelos estadísticos más completos podría mejorar la capacidad explicativa y predictiva del análisis.
La temática del estudio es analizar los factores que influyen en la probabilidad de que una persona acepte un producto financiero ofrecido por el banco.
La base de datos contiene información sobre características de individuos como:
edad (age), tipo de trabajo (job), nivel educativo (education), saldo bancario (balance), respuesta a la campaña (y)
Se busca analizar si características como la edad, el tipo de trabajo, el nivel educativo y el saldo bancario influyen en la probabilidad de que una persona acepte un producto financiero ofrecido por el banco.
Para ello se utilizará un modelo de regresión logística, que permite analizar la relación entre varias variables explicativas y una variable dependiente de tipo binaria.
Diagrama de pescado
Las personas con mayor estabilidad económica podrían tener mayor probabilidad de aceptar productos financieros ofrecidos por el banco.
El nivel educativo y el tipo de trabajo pueden influir en la capacidad financiera y en la decisión de adquirir productos bancarios.
Por esta razón, se propone analizar esta relación mediante un modelo de regresión logística.
Para analizar la probabilidad de aceptación del producto financiero se propone utilizar un modelo de regresión logística.
Este modelo permite analizar cómo varias variables explicativas influyen en la probabilidad de ocurrencia de un evento, en este caso aceptar el producto financiero.
y → representa si la persona aceptó (1) o no aceptó (0) el producto financiero.
age → edad de las personas
education → nivel educativo
job → tipo de trabajo
balance → saldo bancario
\[ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1(age) + \beta_2(education) + \beta_3(job) + \beta_4(balance) \]
Antes de estimar el modelo logístico se realiza una exploración preliminar de los datos para comprender la estructura de la base de datos.
## [1] "job" "education" "loan" "csalary" "age" "balance"
## [7] "ic" "ecivil"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.00 33.00 39.00 41.17 49.00 87.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3313 69 444 1423 1480 71188
library(ggplot2)
# convertir la variable loan a factor
data$loan <- as.factor(data$loan)
ggplot(data = data, aes(x = loan, fill = loan)) +
geom_bar() +
labs(
title = "Distribución de aceptación del producto financiero",
x = "Respuesta",
y = "Frecuencia"
) +
theme_minimal() +
theme(legend.position = "none")
## 5. Manipular el modelo para desarrollar la solución Una vez realizada
la exploración de los datos se procedió a estimar el modelo de regresión
logística utilizando la función glm() con familia binomial.
modelo_logistico <- glm(loan ~ age + education + job + balance,
data = data,
family = binomial)
summary(modelo_logistico)##
## Call:
## glm(formula = loan ~ age + education + job + balance, family = binomial,
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.564e+00 2.725e-01 -5.738 9.56e-09 ***
## age -1.808e-04 4.722e-03 -0.038 0.96946
## educationsecondary 3.097e-01 1.374e-01 2.254 0.02420 *
## educationtertiary 1.321e-02 1.726e-01 0.077 0.93902
## educationunknown -1.287e+00 4.058e-01 -3.170 0.00152 **
## jobblue-collar -9.888e-02 1.530e-01 -0.646 0.51821
## jobentrepreneur 5.106e-01 2.221e-01 2.300 0.02148 *
## jobhousemaid -3.572e-01 3.272e-01 -1.092 0.27501
## jobmanagement -2.670e-01 1.777e-01 -1.502 0.13305
## jobretired -1.767e-01 2.485e-01 -0.711 0.47696
## jobself-employed -5.828e-02 2.372e-01 -0.246 0.80587
## jobservices -1.219e-01 1.745e-01 -0.698 0.48497
## jobstudent -2.782e+00 1.014e+00 -2.743 0.00609 **
## jobtechnician -2.097e-01 1.553e-01 -1.350 0.17690
## jobunemployed -6.751e-01 3.171e-01 -2.129 0.03326 *
## jobunknown -1.664e+00 1.027e+00 -1.620 0.10525
## balance -1.055e-04 2.335e-05 -4.519 6.20e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3866.4 on 4520 degrees of freedom
## Residual deviance: 3749.8 on 4504 degrees of freedom
## AIC: 3783.8
##
## Number of Fisher Scoring iterations: 6
Este modelo permite analizar cómo diferentes variables influyen en la probabilidad de aceptar el producto financiero.
Predicción utilizando el modelo
Se realiza una predicción para una persona con las siguientes características:
Edad = 40 años Nivel educativo = secondary Tipo de trabajo = management Saldo bancario = 1500
nuevo <- data.frame(
age = 40,
education = "secondary",
job = "management",
balance = 1500
)
pred <- predict(modelo_logistico, newdata = nuevo, type = "response")
pred## 1
## 0.156248
Interpretación del modelo
A partir del modelo de regresión logística estimado, se analizó la relación entre variables socioeconómicas y la probabilidad de aceptar un préstamo bancario. Los resultados mostraron que el nivel educativo secondary presentó un efecto positivo significativo (β = 0.3097; p = 0.024), mientras que la categoría education unknown presentó un efecto negativo significativo (β = -1.287; p = 0.0015).
En cuanto al tipo de trabajo, la categoría entrepreneur mostró una relación positiva significativa (β = 0.5106; p = 0.021), mientras que las categorías student (β = -2.782; p = 0.006) y unemployed (β = -0.675; p = 0.033) presentaron efectos negativos significativos.
Además, la variable balance presentó un efecto negativo significativo (β = -0.0001055; p < 0.001), mientras que la variable edad (age) no mostró un efecto estadísticamente significativo en el modelo (p = 0.969).
El modelo presentó una Null deviance de 3866.4 y una Residual deviance de 3749.8, lo que indica que el modelo con variables explicativas mejora el ajuste en comparación con un modelo sin predictores.
Esto sugiere que las variables incluidas contribuyen a explicar parte del comportamiento de la variable dependiente.
Utilizando el modelo estimado se realizó una predicción para una persona con las siguientes características:
Edad: 40 años
Nivel educativo: secondary
Tipo de trabajo: management
Saldo bancario: 1500
El modelo estimó una probabilidad de:
𝑝=0.156248
Esto significa que la probabilidad estimada de que una persona con estas características acepte o solicite un préstamo es aproximadamente del 15.6%.
A partir del análisis de regresión logística se concluyó que algunas variables socioeconómicas, como el nivel educativo, el tipo de trabajo y el saldo bancario, influyen en la probabilidad de aceptar un préstamo bancario.
Sin embargo, otras variables como la edad no presentaron evidencia estadística suficiente para explicar el comportamiento de la variable dependiente dentro del modelo analizado.
Se recomienda considerar otras variables adicionales que puedan influir en la decisión de solicitar o aceptar un préstamo, como el nivel de ingresos, la estabilidad laboral, el historial crediticio o el estado civil.
Asimismo, el uso de modelos logísticos con mayor número de variables explicativas podría mejorar la capacidad predictiva y permitir una mejor comprensión del comportamiento financiero de los clientes.