Regresión Lineal Simple

1. Descripción clara del problema

La temática del estudio es analizar la relación entre la edad de las personas y su saldo bancario.

La base de datos contiene información sobre características de individuos como:

edad (age)

tipo de trabajo (job)

nivel educativo (education)

saldo bancario (balance)

Problema identificado

Se busca analizar si la edad de una persona influye en su saldo bancario. Para ello se utilizará un modelo de regresión lineal simple, que permitirá estudiar la relación entre estas dos variables.

2. Identificación de factores importantes

Diagrama de pescado

Diagrama de pescado

Después de revisar la base de datos se identificaron variables que podrían influir en el saldo bancario:

Factores potenciales:

Edad (age)

Nivel educativo (education)

Tipo de trabajo (job)

Salario (csalary)

Saldo bancario (balance)

Estas variables están relacionadas con las características socioeconómicas de las personas y podrían explicar diferencias en el nivel de recursos financieros.

Sin embargo, para este estudio se analizará específicamente la relación entre la edad y el saldo bancario, con el objetivo de evaluar si el aumento en la edad está asociado con cambios en el saldo que poseen las personas en sus cuentas bancarias.

Patrones observados:

Primer patrón

Las personas de mayor edad pueden presentar una mayor estabilidad económica debido a una mayor experiencia laboral y acumulación de ingresos a lo largo del tiempo.

Segundo patrón

Es posible que exista una relación positiva entre la edad y el saldo bancario, ya que con el paso de los años las personas pueden aumentar su capacidad de ahorro o acumulación de dinero.

Por esta razón, se propone analizar esta relación mediante un modelo de regresión lineal simple.

3. Propuesta del modelo

Para analizar la relación entre la edad de las personas y su saldo bancario se propone utilizar un modelo de regresión lineal simple.

Este tipo de modelo permite estudiar cómo una variable independiente influye sobre una variable dependiente, asumiendo que la relación entre ambas es aproximadamente lineal.

Variable dependiente

balance → representa el saldo bancario de los individuos.

Variable independiente

age → representa la edad de las personas.

Modelo matemático:

\[ balance = \beta_0 + \beta_1 (age) + \varepsilon \]

donde:

4.Conducir experimentos y recolectar datos

Exploración de los datos en RStudio

Antes de estimar el modelo de regresión lineal simple es necesario realizar una exploración preliminar de los datos. Este proceso permite conocer la estructura de la base de datos, identificar las variables disponibles y analizar el comportamiento general de las variables de interés.

Importación de la base de datos

Primero se importa la base de datos en RStudio utilizando el paquete haven, el cual permite leer archivos en formato .sav provenientes de SPSS.

library(haven)
library(dplyr)
data <- read_sav("data1.sav")
data <- zap_labels(data)

La función read_sav() permite cargar la base de datos en el entorno de trabajo de R, mientras que zap_labels() elimina las etiquetas de SPSS para trabajar más fácilmente con las variables.

Revisión de las variables disponibles

Una vez cargada la base de datos se revisan los nombres de las variables para identificar la información disponible.

names(data)
## [1] "job"       "education" "loan"      "csalary"   "age"       "balance"  
## [7] "ic"        "ecivil"

Análisis descriptivo de las variables

Posteriormente se realiza un análisis descriptivo de las variables de interés, en este caso edad (age) y saldo bancario (balance).

summary(data$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   33.00   39.00   41.17   49.00   87.00
summary(data$balance)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -3313      69     444    1423    1480   71188
library(ggplot2)

ggplot(data, aes(x = education, fill = education)) +
  geom_bar() +
  scale_fill_brewer(palette = "Set2") +
  labs(
    title = "Distribución del nivel educativo",
    x = "Nivel educativo",
    y = "Frecuencia"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

mean(data$age, na.rm = TRUE)
## [1] 41.1701
mean(data$balance, na.rm = TRUE)
## [1] 1422.658

Interpretación

A partir del análisis descriptivo se observó que la edad de los individuos presentó un valor mínimo de 19 años y un máximo de 87 años, con una media de 41.17 años y una mediana de 39 años, lo que indicó que la mayoría de las personas se concentró alrededor de edades cercanas a los 40 años.

En cuanto al saldo bancario, se registró un valor mínimo de -3313 y un máximo de 71188, lo que evidenció una alta variabilidad en los saldos. La media fue de 1422.66, mientras que la mediana fue 444, lo que sugirió la presencia de algunos valores altos que incrementaron el promedio.

Además, el diagrama de barras del nivel educativo mostró que la mayor frecuencia de individuos correspondió al nivel secundario, seguido del nivel terciario, mientras que los niveles primario y desconocido presentaron menor frecuencia.

Visualización de la relación entre variables

Con el objetivo de analizar visualmente la posible relación entre la edad (age) y el saldo bancario (balance), se utiliza un gráfico de dispersión. Este tipo de gráfico permite observar cómo se distribuyen los datos y detectar posibles patrones o tendencias entre ambas variables.

library(ggplot2)

ggplot(data, aes(x = age, y = balance)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title = "Relación entre edad y saldo bancario",
x = "Edad",
y = "Saldo bancario")

Interpretación

En el gráfico de dispersión se observó la relación entre la edad (age) y el saldo bancario (balance). Cada punto representó a un individuo dentro de la base de datos.

Se observó que la mayoría de los valores del saldo bancario se concentraron en niveles relativamente bajos, mientras que algunos individuos presentaron saldos muy altos, lo que generó valores atípicos en la parte superior del gráfico.

La línea azul representó la recta de regresión lineal, la cual mostró una ligera tendencia positiva. Esto indicó que, a medida que la edad aumentó, el saldo bancario tendió a incrementarse ligeramente.

Sin embargo, la dispersión de los puntos alrededor de la recta fue bastante amplia, lo que sugirió que la edad por sí sola no explicó completamente las variaciones en el saldo bancario. Esto indicó que otros factores, como el tipo de trabajo, el nivel educativo o los ingresos, podrían influir en el saldo bancario de las personas

5. Manipular el modelo para desarrollar la solución

Una vez realizada la exploración de los datos y la visualización de la relación entre las variables, se procedió a estimar el modelo de regresión lineal simple utilizando el software R.

Para ello se utilizó la función lm() (linear model), la cual permite ajustar modelos de regresión lineal entre una variable dependiente y una variable independiente.

En este caso, el saldo bancario (balance) se consideró como la variable dependiente, mientras que la edad (age) se utilizó como variable independiente.

modelo <- lm(balance ~ age, data = data)

summary(modelo)
## 
## Call:
## lm(formula = balance ~ age, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -5113  -1298   -913     77  69316 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  440.651    179.303   2.458    0.014 *  
## age           23.852      4.218   5.655 1.66e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2999 on 4519 degrees of freedom
## Multiple R-squared:  0.007026,   Adjusted R-squared:  0.006806 
## F-statistic: 31.97 on 1 and 4519 DF,  p-value: 1.658e-08
# Crear nuevo dato para predicción
nuevo <- data.frame(age = 40)

# Predicción con intervalos
pred <- predict(modelo, newdata = nuevo, interval = "prediction")

pred
##        fit       lwr      upr
## 1 1394.748 -4486.159 7275.656
ggplot(data, aes(x = age, y = balance)) +
  geom_point(color = "steelblue", alpha = 0.6, size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "darkred") +
  geom_point(aes(x = 40, y = pred), 
             color = "black", size = 4) +
  labs(
    title = "Predicción del saldo bancario según la edad",
    subtitle = "Modelo de regresión lineal simple",
    x = "Edad",
    y = "Saldo bancario"
  ) +
  theme_minimal()

Interpretación

La gráfica muestra la relación entre la edad y el saldo bancario mediante un modelo de regresión lineal simple. La pendiente positiva de la recta indica que, en promedio, el saldo bancario tiende a aumentar a medida que aumenta la edad. Esto permite utilizar el modelo para realizar predicciones del saldo bancario esperado para diferentes edades en el futuro. Sin embargo, la amplia dispersión de los datos alrededor de la recta sugiere que la edad no explica completamente la variabilidad del saldo, por lo que las predicciones deben interpretarse como tendencias promedio y no como valores exactos.

6. Confirmar la solución y emitir recomendaciones

Interpretación del modelo

A partir de la estimación del modelo de regresión lineal simple se obtuvo la siguiente ecuación:

\[ balance_i = 440.651 + 23.852\,age_i + \varepsilon_i \]

El intercepto 440.651 representó el saldo bancario estimado cuando la edad es igual a cero. Por su parte, el coeficiente de la variable edad (23.852) indicó que, en promedio, por cada año adicional de edad el saldo bancario aumentó aproximadamente 23.85 unidades.

Interpretación del coeficiente de determinación (R²)

El coeficiente de determinación obtenido fue R² = 0.007, lo que indicó que aproximadamente 0.7% de la variabilidad del saldo bancario fue explicada por la edad. Esto sugirió que la edad por sí sola explicó una pequeña parte del comportamiento del saldo bancario.

Interpretación del valor p

El valor p = 1.66e-08 fue menor que 0.05, lo que indicó que la relación entre la edad y el saldo bancario fue estadísticamente significativa. Esto permitió concluir que la edad tuvo un efecto significativo sobre el saldo bancario.

Predicción del modelo

A partir del modelo de regresión lineal simple se realizó una predicción del saldo bancario para una persona de 40 años. El resultado indicó que el saldo bancario estimado fue aproximadamente 1394.75 unidades. Sin embargo, debido a la variabilidad de los datos, el saldo real podría variar dentro de un rango amplio. Esto sugiere que la edad permite observar una tendencia general, pero no predice con total precisión el saldo bancario de una persona.

Conclusión

A partir del análisis de regresión lineal simple se concluyó que existe una relación significativa entre la edad y el saldo bancario. Sin embargo, el bajo valor de R² indicó que la edad explicó solo una pequeña parte de la variabilidad del saldo bancario, lo que sugiere que otros factores también influyen en el comportamiento de esta variable.

Recomendación

A partir de los resultados obtenidos se recomendó considerar la inclusión de otras variables explicativas que puedan influir en el saldo bancario, como el nivel educativo, el tipo de trabajo o el salario, con el fin de mejorar la capacidad explicativa del modelo.

Asimismo, se sugirió aplicar modelos de regresión múltiple en futuros análisis, ya que el bajo valor del coeficiente de determinación indicó que la edad por sí sola no explicó gran parte de la variabilidad del saldo bancario.

Regresión Lineal Múltiple

1. Descripción clara del problema

La temática del estudio es analizar los factores que influyen en el saldo bancario de las personas.

La base de datos contiene información sobre características de individuos como:

Problema identificado

Se busca analizar si variables como la edad, el nivel educativo, el tipo de trabajo y el salario influyen en el saldo bancario de una persona, para ello se utilizará un modelo de regresión lineal múltiple, que permitirá estudiar la relación entre varias variables explicativas y el saldo bancario.

2. Identificación de factores importantes

Diagrama de pescado

Diagrama de pescado

Estas variables están relacionadas con las características socioeconómicas de las personas y podrían explicar diferencias en el nivel de recursos financieros.

A diferencia del modelo anterior, en este análisis se considerará la influencia conjunta de varias variables explicativas sobre el saldo bancario.

Patrones observados

Primer patrón

Las personas con mayor edad pueden presentar mayor estabilidad económica debido a una mayor experiencia laboral y acumulación de ingresos a lo largo del tiempo.

Segundo patrón

El nivel educativo y el tipo de trabajo pueden influir en el nivel de ingresos de los individuos, lo que a su vez puede afectar su saldo bancario.

Tercer patrón

Personas con mayores ingresos o salarios pueden presentar mayores niveles de ahorro o acumulación de dinero, por esta razón, se propone analizar esta relación mediante un modelo de regresión lineal múltiple.

3. Propuesta del modelo

Para analizar la relación entre las variables se propone utilizar un modelo de regresión lineal múltiple, este tipo de modelo permite estudiar cómo varias variables independientes influyen sobre una variable dependiente.

Variable dependiente

balance → representa el saldo bancario de los individuos.

Variables independientes

age → representa la edad de las personas.

education → representa el nivel educativo.

job → representa el tipo de trabajo.

csalary → representa el salario o ingreso de los individuos.

Modelo matemático

\[ balance = \beta_0 + \beta_1(age) + \beta_2(education) + \beta_3(job) + \beta_4(csalary) + \varepsilon \]

donde:

4. Conducir experimentos y recolectar datos

Exploración de los datos en RStudio

Antes de estimar el modelo de regresión múltiple es necesario realizar una exploración preliminar de los datos para comprender la estructura de la base de datos y el comportamiento de las variables.

library(haven)
library(dplyr)

data <- read_sav("data1.sav")
data <- zap_labels(data)

Variables disponibles

names(data)
## [1] "job"       "education" "loan"      "csalary"   "age"       "balance"  
## [7] "ic"        "ecivil"

Análisis descriptivo de las variables

summary(data$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   33.00   39.00   41.17   49.00   87.00
summary(data$balance)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -3313      69     444    1423    1480   71188

Interpretación del análisis descriptivo

La variable edad (age) presenta valores entre 19 y 87 años, con una media de 41.17 años y una mediana de 39, lo que indica que la mayoría de los individuos se encuentra en edad adulta.

En cuanto al saldo bancario (balance), los valores van desde -3313 hasta 71188, con una media de 1423 y una mediana de 444, lo que muestra que la mayoría de los saldos son moderados, aunque existen algunos valores muy altos que aumentan el promedio.

Análisis descriptivo gráfico

library(ggplot2)

ggplot(data, aes(x = education, fill = education)) +
  geom_bar() +
  scale_fill_brewer(palette = "Set2") +
  labs(
    title = "Distribución del nivel educativo",
    x = "Nivel educativo",
    y = "Frecuencia"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

Interpretación corta de la gráfica

La gráfica muestra que la mayoría de las personas tiene nivel educativo secundario (secondary), con aproximadamente 2600 individuos. En menor proporción se encuentran los niveles tertiario (tertiary) con alrededor de 800–900 personas y primario (primary) con cerca de 600–700. La categoría unknown presenta la menor frecuencia, con aproximadamente 150–200 registros. Esto indica que la población analizada se concentra principalmente en el nivel educativo secundario.

Visualización de la relación entre variables

Para observar la relación entre algunas variables se utiliza un gráfico de dispersión.

ggplot(data, aes(x = age, y = balance)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title = "Relación entre edad y saldo bancario",
x = "Edad",
y = "Saldo bancario")

Interpretación

La gráfica muestra la relación entre la edad y el saldo bancario. Se observa una ligera tendencia positiva, lo que indica que el saldo bancario tiende a aumentar ligeramente a medida que aumenta la edad. Sin embargo, existe mucha dispersión en los datos, lo que sugiere que la edad por sí sola no explica completamente el saldo bancario y que otros factores también influyen en este comportamiento.

5. Manipular el modelo para desarrollar la solución

Una vez realizada la exploración de los datos se procedió a estimar el modelo de regresión lineal múltiple.

data$csalary <- as.numeric(data$csalary)
modelo_multiple <- lm(balance ~ age + education + job + csalary, data = data)

summary(modelo_multiple)
## 
## Call:
## lm(formula = balance ~ age + education + job + csalary, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -5212  -1296   -824    104  68857 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         121.006    456.294   0.265 0.790873    
## age                  18.959      4.992   3.798 0.000148 ***
## educationsecondary  -41.574    145.150  -0.286 0.774568    
## educationtertiary   407.193    176.810   2.303 0.021325 *  
## educationunknown    279.932    255.035   1.098 0.272428    
## jobblue-collar       68.743    270.438   0.254 0.799361    
## jobentrepreneur     183.922    274.725   0.669 0.503227    
## jobhousemaid        888.108    410.692   2.162 0.030635 *  
## jobmanagement       163.448    197.558   0.827 0.408086    
## jobretired          787.666    307.302   2.563 0.010404 *  
## jobself-employed      5.184    267.866   0.019 0.984559    
## jobservices         121.011    286.331   0.423 0.672589    
## jobstudent          697.058    441.511   1.579 0.114452    
## jobtechnician       132.598    203.523   0.652 0.514748    
## jobunemployed        13.695    392.839   0.035 0.972192    
## jobunknown           71.015    529.097   0.134 0.893236    
## csalary              95.078    101.510   0.937 0.348997    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2986 on 4503 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.01921,    Adjusted R-squared:  0.01573 
## F-statistic: 5.513 on 16 and 4503 DF,  p-value: 7.225e-12

Este modelo permitió analizar cómo varias variables explicativas influyen simultáneamente en el saldo bancario.

Predicción utilizando el modelo

Una vez estimado el modelo, es posible realizar predicciones del saldo bancario para un individuo con determinadas características.

En este caso se realizará una predicción para una persona con las siguientes características:

Edad = 40 años Nivel educativo = secondary Tipo de trabajo = management Salario = 3000

nuevo <- data.frame(
age = 40,
education = "secondary",
job = "management",
csalary = 3000
)

pred <- predict(modelo_multiple, newdata = nuevo)

pred
##        1 
## 286234.2

Visualización de la predicción

Para representar gráficamente el modelo se utilizará un gráfico de dispersión entre la edad y el saldo bancario, junto con la línea de regresión estimada. Además, se marcará el punto correspondiente a la predicción realizada.

library(ggplot2)

ggplot(data, aes(x = age, y = balance)) +
  geom_point(color = "steelblue", alpha = 0.6, size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "darkred") +
  geom_point(aes(x = 40, y = pred), 
             color = "black", size = 4) +
  labs(
    title = "Predicción del saldo bancario según variables socioeconómicas",
    subtitle = "Modelo de regresión lineal múltiple",
    x = "Edad",
    y = "Saldo bancario"
  ) +
  theme_minimal()

Interpretación

La gráfica muestra que el modelo de regresión lineal múltiple se utiliza para predecir el saldo bancario futuro de una persona considerando variables socioeconómicas como edad, nivel educativo, tipo de trabajo y salario. La línea de tendencia indica que, en promedio, el saldo bancario podría aumentar ligeramente con la edad, aunque la gran dispersión de los datos sugiere que la predicción es aproximada y depende también de otros factores.

6. Confirmar la solución y emitir recomendaciones

Interpretación del modelo

A partir de la estimación del modelo de regresión lineal múltiple se obtuvo la siguiente ecuación general:

\[ balance_i = 121.006 + 18.959\,age_i - 41.574\,education_{secondary} + 407.193\,education_{tertiary} + 279.932\,education_{unknown} + 95.078\,csalary_i + \varepsilon_i \]

El intercepto (121.006) representó el saldo bancario estimado cuando todas las variables explicativas toman el valor de cero.

El coeficiente de la edad (18.959) indicó que, manteniendo constantes las demás variables, por cada año adicional de edad el saldo bancario aumentó en promedio aproximadamente 18.96 unidades.

En cuanto al nivel educativo, el coeficiente de education tertiary (407.193) indicó que las personas con educación terciaria presentaron, en promedio, un saldo bancario mayor en comparación con la categoría de referencia.

Por otra parte, el coeficiente de csalary (95.078) indicó que un aumento en el salario estuvo asociado con un incremento promedio en el saldo bancario, aunque este efecto no resultó estadísticamente significativo en el modelo.

Interpretación del coeficiente de determinación (R²)

El coeficiente de determinación obtenido fue:

R²=0.019

Esto indicó que aproximadamente 1.9% de la variabilidad del saldo bancario fue explicada por las variables edad, nivel educativo, tipo de trabajo y salario incluidas en el modelo.

Este resultado sugiere que existen otros factores adicionales que también influyen en el comportamiento del saldo bancario.

Interpretación del valor p del modelo

El modelo presentó un valor p global de 7.225e-12, el cual es menor que 0.05.

Esto indica que el conjunto de variables explicativas incluidas en el modelo tiene un efecto estadísticamente significativo sobre el saldo bancario, por lo que el modelo es estadísticamente válido para analizar la relación entre las variables.

Predicción del modelo

Utilizando el modelo estimado se realizó una predicción del saldo bancario para una persona con las siguientes características:

Edad: 40 años

Nivel educativo: secondary

Tipo de trabajo: management

Salario: 3000

El valor predicho por el modelo fue:

balance=286234.2

Esto representa el saldo bancario estimado para un individuo con dichas características según el modelo de regresión múltiple.

Conclusión

A partir del análisis de regresión lineal múltiple se concluyó que algunas variables socioeconómicas, como la edad, el nivel educativo y ciertos tipos de trabajo, presentan influencia sobre el saldo bancario de los individuos.

Sin embargo, el bajo valor del coeficiente de determinación sugiere que la mayor parte de la variabilidad del saldo bancario no es explicada por las variables consideradas en este modelo, lo que indica que existen otros factores relevantes que deberían incluirse en futuros análisis.

Recomendación

Se recomienda incluir en futuros estudios otras variables que puedan explicar mejor el comportamiento del saldo bancario, como el nivel de ingresos reales, la experiencia laboral, el nivel de ahorro, el acceso a servicios financieros o factores económicos adicionales.

Asimismo, el uso de modelos estadísticos más completos podría mejorar la capacidad explicativa y predictiva del análisis.

Regresión Logística

1. Descripción clara del problema

La temática del estudio es analizar los factores que influyen en la probabilidad de que una persona acepte un producto financiero ofrecido por el banco.

La base de datos contiene información sobre características de individuos como:

edad (age), tipo de trabajo (job), nivel educativo (education), saldo bancario (balance), respuesta a la campaña (y)

Problema identificado

Se busca analizar si características como la edad, el tipo de trabajo, el nivel educativo y el saldo bancario influyen en la probabilidad de que una persona acepte un producto financiero ofrecido por el banco.

Para ello se utilizará un modelo de regresión logística, que permite analizar la relación entre varias variables explicativas y una variable dependiente de tipo binaria.

2. Identificación de factores importantes

Diagrama de pescado

Diagrama de pescado

Patrones observados

Primer patrón

Las personas con mayor estabilidad económica podrían tener mayor probabilidad de aceptar productos financieros ofrecidos por el banco.

Segundo patrón

El nivel educativo y el tipo de trabajo pueden influir en la capacidad financiera y en la decisión de adquirir productos bancarios.

Por esta razón, se propone analizar esta relación mediante un modelo de regresión logística.

3. Propuesta del modelo

Para analizar la probabilidad de aceptación del producto financiero se propone utilizar un modelo de regresión logística.

Este modelo permite analizar cómo varias variables explicativas influyen en la probabilidad de ocurrencia de un evento, en este caso aceptar el producto financiero.

Variable dependiente

y → representa si la persona aceptó (1) o no aceptó (0) el producto financiero.

Variables independientes

age → edad de las personas

education → nivel educativo

job → tipo de trabajo

balance → saldo bancario

Modelo matemático

\[ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1(age) + \beta_2(education) + \beta_3(job) + \beta_4(balance) \]

4. Conducir experimentos y recolectar datos

Exploración de los datos en RStudio

Antes de estimar el modelo logístico se realiza una exploración preliminar de los datos para comprender la estructura de la base de datos.

Importación de la base de datos

library(haven)
library(dplyr)

data <- read_sav("data1.sav")
data <- zap_labels(data)

Revisión de las variables

names(data)
## [1] "job"       "education" "loan"      "csalary"   "age"       "balance"  
## [7] "ic"        "ecivil"

Análisis descriptivo

summary(data$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   33.00   39.00   41.17   49.00   87.00
summary(data$balance)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -3313      69     444    1423    1480   71188

Distribución de la variable respuesta

library(ggplot2)

# convertir la variable loan a factor
data$loan <- as.factor(data$loan)

ggplot(data = data, aes(x = loan, fill = loan)) +
  geom_bar() +
  labs(
    title = "Distribución de aceptación del producto financiero",
    x = "Respuesta",
    y = "Frecuencia"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

## 5. Manipular el modelo para desarrollar la solución Una vez realizada la exploración de los datos se procedió a estimar el modelo de regresión logística utilizando la función glm() con familia binomial.

modelo_logistico <- glm(loan ~ age + education + job + balance,
                        data = data,
                        family = binomial)

summary(modelo_logistico)
## 
## Call:
## glm(formula = loan ~ age + education + job + balance, family = binomial, 
##     data = data)
## 
## Coefficients:
##                      Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        -1.564e+00  2.725e-01  -5.738 9.56e-09 ***
## age                -1.808e-04  4.722e-03  -0.038  0.96946    
## educationsecondary  3.097e-01  1.374e-01   2.254  0.02420 *  
## educationtertiary   1.321e-02  1.726e-01   0.077  0.93902    
## educationunknown   -1.287e+00  4.058e-01  -3.170  0.00152 ** 
## jobblue-collar     -9.888e-02  1.530e-01  -0.646  0.51821    
## jobentrepreneur     5.106e-01  2.221e-01   2.300  0.02148 *  
## jobhousemaid       -3.572e-01  3.272e-01  -1.092  0.27501    
## jobmanagement      -2.670e-01  1.777e-01  -1.502  0.13305    
## jobretired         -1.767e-01  2.485e-01  -0.711  0.47696    
## jobself-employed   -5.828e-02  2.372e-01  -0.246  0.80587    
## jobservices        -1.219e-01  1.745e-01  -0.698  0.48497    
## jobstudent         -2.782e+00  1.014e+00  -2.743  0.00609 ** 
## jobtechnician      -2.097e-01  1.553e-01  -1.350  0.17690    
## jobunemployed      -6.751e-01  3.171e-01  -2.129  0.03326 *  
## jobunknown         -1.664e+00  1.027e+00  -1.620  0.10525    
## balance            -1.055e-04  2.335e-05  -4.519 6.20e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3866.4  on 4520  degrees of freedom
## Residual deviance: 3749.8  on 4504  degrees of freedom
## AIC: 3783.8
## 
## Number of Fisher Scoring iterations: 6

Este modelo permite analizar cómo diferentes variables influyen en la probabilidad de aceptar el producto financiero.

Predicción utilizando el modelo

Se realiza una predicción para una persona con las siguientes características:

Edad = 40 años Nivel educativo = secondary Tipo de trabajo = management Saldo bancario = 1500

nuevo <- data.frame(
age = 40,
education = "secondary",
job = "management",
balance = 1500
)

pred <- predict(modelo_logistico, newdata = nuevo, type = "response")

pred
##        1 
## 0.156248

6. Confirmar la solución y emitir recomendaciones

Interpretación del modelo

A partir del modelo de regresión logística estimado, se analizó la relación entre variables socioeconómicas y la probabilidad de aceptar un préstamo bancario. Los resultados mostraron que el nivel educativo secondary presentó un efecto positivo significativo (β = 0.3097; p = 0.024), mientras que la categoría education unknown presentó un efecto negativo significativo (β = -1.287; p = 0.0015).

En cuanto al tipo de trabajo, la categoría entrepreneur mostró una relación positiva significativa (β = 0.5106; p = 0.021), mientras que las categorías student (β = -2.782; p = 0.006) y unemployed (β = -0.675; p = 0.033) presentaron efectos negativos significativos.

Además, la variable balance presentó un efecto negativo significativo (β = -0.0001055; p < 0.001), mientras que la variable edad (age) no mostró un efecto estadísticamente significativo en el modelo (p = 0.969).

Interpretación de la devianza del modelo

El modelo presentó una Null deviance de 3866.4 y una Residual deviance de 3749.8, lo que indica que el modelo con variables explicativas mejora el ajuste en comparación con un modelo sin predictores.

Esto sugiere que las variables incluidas contribuyen a explicar parte del comportamiento de la variable dependiente.

Predicción del modelo

Utilizando el modelo estimado se realizó una predicción para una persona con las siguientes características:

Edad: 40 años

Nivel educativo: secondary

Tipo de trabajo: management

Saldo bancario: 1500

El modelo estimó una probabilidad de:

𝑝=0.156248

Esto significa que la probabilidad estimada de que una persona con estas características acepte o solicite un préstamo es aproximadamente del 15.6%.

Conclusión

A partir del análisis de regresión logística se concluyó que algunas variables socioeconómicas, como el nivel educativo, el tipo de trabajo y el saldo bancario, influyen en la probabilidad de aceptar un préstamo bancario.

Sin embargo, otras variables como la edad no presentaron evidencia estadística suficiente para explicar el comportamiento de la variable dependiente dentro del modelo analizado.

Recomendación

Se recomienda considerar otras variables adicionales que puedan influir en la decisión de solicitar o aceptar un préstamo, como el nivel de ingresos, la estabilidad laboral, el historial crediticio o el estado civil.

Asimismo, el uso de modelos logísticos con mayor número de variables explicativas podría mejorar la capacidad predictiva y permitir una mejor comprensión del comportamiento financiero de los clientes.