Regresión Lineal Múltiple

1. Descripción clara del problema

La temática del estudio es analizar los factores que influyen en el saldo bancario de las personas.

La base de datos contiene información sobre características de individuos como:

Problema identificado

Se busca analizar si variables como la edad, el nivel educativo, el tipo de trabajo y el salario influyen en el saldo bancario de una persona, para ello se utilizará un modelo de regresión lineal múltiple, que permitirá estudiar la relación entre varias variables explicativas y el saldo bancario.

2. Identificación de factores importantes

Estas variables están relacionadas con las características socioeconómicas de las personas y podrían explicar diferencias en el nivel de recursos financieros.

A diferencia del modelo anterior, en este análisis se considerará la influencia conjunta de varias variables explicativas sobre el saldo bancario.

Patrones observados

Primer patrón

Las personas con mayor edad pueden presentar mayor estabilidad económica debido a una mayor experiencia laboral y acumulación de ingresos a lo largo del tiempo.

Segundo patrón

El nivel educativo y el tipo de trabajo pueden influir en el nivel de ingresos de los individuos, lo que a su vez puede afectar su saldo bancario.

Tercer patrón

Personas con mayores ingresos o salarios pueden presentar mayores niveles de ahorro o acumulación de dinero, por esta razón, se propone analizar esta relación mediante un modelo de regresión lineal múltiple.

3. Propuesta del modelo

Para analizar la relación entre las variables se propone utilizar un modelo de regresión lineal múltiple, este tipo de modelo permite estudiar cómo varias variables independientes influyen sobre una variable dependiente.

Variable dependiente

balance → representa el saldo bancario de los individuos.

Variables independientes

age → representa la edad de las personas.

education → representa el nivel educativo.

job → representa el tipo de trabajo.

csalary → representa el salario o ingreso de los individuos.

Modelo matemático

\[ balance = \beta_0 + \beta_1(age) + \beta_2(education) + \beta_3(job) + \beta_4(csalary) + \varepsilon \]

donde:

4. Conducir experimentos y recolectar datos

Exploración de los datos en RStudio

Antes de estimar el modelo de regresión múltiple es necesario realizar una exploración preliminar de los datos para comprender la estructura de la base de datos y el comportamiento de las variables.

library(haven)
library(dplyr)

data <- read_sav("data1.sav")
data <- zap_labels(data)

Variables disponibles

names(data)
## [1] "job"       "education" "loan"      "csalary"   "age"       "balance"  
## [7] "ic"        "ecivil"

Análisis descriptivo de las variables

summary(data$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   33.00   39.00   41.17   49.00   87.00
summary(data$balance)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -3313      69     444    1423    1480   71188

Interpretación del análisis descriptivo

La variable edad (age) presenta valores entre 19 y 87 años, con una media de 41.17 años y una mediana de 39, lo que indica que la mayoría de los individuos se encuentra en edad adulta.

En cuanto al saldo bancario (balance), los valores van desde -3313 hasta 71188, con una media de 1423 y una mediana de 444, lo que muestra que la mayoría de los saldos son moderados, aunque existen algunos valores muy altos que aumentan el promedio.

Análisis descriptivo gráfico

library(ggplot2)

ggplot(data, aes(x = education, fill = education)) +
  geom_bar() +
  scale_fill_brewer(palette = "Set2") +
  labs(
    title = "Distribución del nivel educativo",
    x = "Nivel educativo",
    y = "Frecuencia"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

Interpretación corta de la gráfica

La gráfica muestra que la mayoría de las personas tiene nivel educativo secundario (secondary), con aproximadamente 2600 individuos. En menor proporción se encuentran los niveles tertiario (tertiary) con alrededor de 800–900 personas y primario (primary) con cerca de 600–700. La categoría unknown presenta la menor frecuencia, con aproximadamente 150–200 registros. Esto indica que la población analizada se concentra principalmente en el nivel educativo secundario.

Visualización de la relación entre variables

Para observar la relación entre algunas variables se utiliza un gráfico de dispersión.

ggplot(data, aes(x = age, y = balance)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title = "Relación entre edad y saldo bancario",
x = "Edad",
y = "Saldo bancario")

Interpretación

La gráfica muestra la relación entre la edad y el saldo bancario. Se observa una ligera tendencia positiva, lo que indica que el saldo bancario tiende a aumentar ligeramente a medida que aumenta la edad. Sin embargo, existe mucha dispersión en los datos, lo que sugiere que la edad por sí sola no explica completamente el saldo bancario y que otros factores también influyen en este comportamiento.

5. Manipular el modelo para desarrollar la solución

Una vez realizada la exploración de los datos se procedió a estimar el modelo de regresión lineal múltiple.

data$csalary <- as.numeric(data$csalary)
modelo_multiple <- lm(balance ~ age + education + job + csalary, data = data)

summary(modelo_multiple)
## 
## Call:
## lm(formula = balance ~ age + education + job + csalary, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -5212  -1296   -824    104  68857 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         121.006    456.294   0.265 0.790873    
## age                  18.959      4.992   3.798 0.000148 ***
## educationsecondary  -41.574    145.150  -0.286 0.774568    
## educationtertiary   407.193    176.810   2.303 0.021325 *  
## educationunknown    279.932    255.035   1.098 0.272428    
## jobblue-collar       68.743    270.438   0.254 0.799361    
## jobentrepreneur     183.922    274.725   0.669 0.503227    
## jobhousemaid        888.108    410.692   2.162 0.030635 *  
## jobmanagement       163.448    197.558   0.827 0.408086    
## jobretired          787.666    307.302   2.563 0.010404 *  
## jobself-employed      5.184    267.866   0.019 0.984559    
## jobservices         121.011    286.331   0.423 0.672589    
## jobstudent          697.058    441.511   1.579 0.114452    
## jobtechnician       132.598    203.523   0.652 0.514748    
## jobunemployed        13.695    392.839   0.035 0.972192    
## jobunknown           71.015    529.097   0.134 0.893236    
## csalary              95.078    101.510   0.937 0.348997    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2986 on 4503 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.01921,    Adjusted R-squared:  0.01573 
## F-statistic: 5.513 on 16 and 4503 DF,  p-value: 7.225e-12

Este modelo permitió analizar cómo varias variables explicativas influyen simultáneamente en el saldo bancario.

Predicción utilizando el modelo

Una vez estimado el modelo, es posible realizar predicciones del saldo bancario para un individuo con determinadas características.

En este caso se realizará una predicción para una persona con las siguientes características:

Edad = 40 años Nivel educativo = secondary Tipo de trabajo = management Salario = 3000

nuevo <- data.frame(
age = 40,
education = "secondary",
job = "management",
csalary = 3000
)

pred <- predict(modelo_multiple, newdata = nuevo)

pred
##        1 
## 286234.2

Visualización de la predicción

Para representar gráficamente el modelo se utilizará un gráfico de dispersión entre la edad y el saldo bancario, junto con la línea de regresión estimada. Además, se marcará el punto correspondiente a la predicción realizada.

library(ggplot2)

ggplot(data, aes(x = age, y = balance)) +
  geom_point(color = "steelblue", alpha = 0.6, size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "darkred") +
  geom_point(aes(x = 40, y = pred), 
             color = "black", size = 4) +
  labs(
    title = "Predicción del saldo bancario según variables socioeconómicas",
    subtitle = "Modelo de regresión lineal múltiple",
    x = "Edad",
    y = "Saldo bancario"
  ) +
  theme_minimal()

Interpretación

La gráfica muestra que el modelo de regresión lineal múltiple se utiliza para predecir el saldo bancario futuro de una persona considerando variables socioeconómicas como edad, nivel educativo, tipo de trabajo y salario. La línea de tendencia indica que, en promedio, el saldo bancario podría aumentar ligeramente con la edad, aunque la gran dispersión de los datos sugiere que la predicción es aproximada y depende también de otros factores.

6. Confirmar la solución y emitir recomendaciones

Interpretación del modelo

A partir de la estimación del modelo de regresión lineal múltiple se obtuvo la siguiente ecuación general:

\[ balance_i = 121.006 + 18.959\,age_i - 41.574\,education_{secondary} + 407.193\,education_{tertiary} + 279.932\,education_{unknown} + 95.078\,csalary_i + \varepsilon_i \]

El intercepto (121.006) representó el saldo bancario estimado cuando todas las variables explicativas toman el valor de cero.

El coeficiente de la edad (18.959) indicó que, manteniendo constantes las demás variables, por cada año adicional de edad el saldo bancario aumentó en promedio aproximadamente 18.96 unidades.

En cuanto al nivel educativo, el coeficiente de education tertiary (407.193) indicó que las personas con educación terciaria presentaron, en promedio, un saldo bancario mayor en comparación con la categoría de referencia.

Por otra parte, el coeficiente de csalary (95.078) indicó que un aumento en el salario estuvo asociado con un incremento promedio en el saldo bancario, aunque este efecto no resultó estadísticamente significativo en el modelo.

Interpretación del coeficiente de determinación (R²)

El coeficiente de determinación obtenido fue:

R²=0.019

Esto indicó que aproximadamente 1.9% de la variabilidad del saldo bancario fue explicada por las variables edad, nivel educativo, tipo de trabajo y salario incluidas en el modelo.

Este resultado sugiere que existen otros factores adicionales que también influyen en el comportamiento del saldo bancario.

Interpretación del valor p del modelo

El modelo presentó un valor p global de 7.225e-12, el cual es menor que 0.05.

Esto indica que el conjunto de variables explicativas incluidas en el modelo tiene un efecto estadísticamente significativo sobre el saldo bancario, por lo que el modelo es estadísticamente válido para analizar la relación entre las variables.

Predicción del modelo

Utilizando el modelo estimado se realizó una predicción del saldo bancario para una persona con las siguientes características:

Edad: 40 años

Nivel educativo: secondary

Tipo de trabajo: management

Salario: 3000

El valor predicho por el modelo fue:

balance=286234.2

Esto representa el saldo bancario estimado para un individuo con dichas características según el modelo de regresión múltiple.

Conclusión

A partir del análisis de regresión lineal múltiple se concluyó que algunas variables socioeconómicas, como la edad, el nivel educativo y ciertos tipos de trabajo, presentan influencia sobre el saldo bancario de los individuos.

Sin embargo, el bajo valor del coeficiente de determinación sugiere que la mayor parte de la variabilidad del saldo bancario no es explicada por las variables consideradas en este modelo, lo que indica que existen otros factores relevantes que deberían incluirse en futuros análisis.

Recomendación

Se recomienda incluir en futuros estudios otras variables que puedan explicar mejor el comportamiento del saldo bancario, como el nivel de ingresos reales, la experiencia laboral, el nivel de ahorro, el acceso a servicios financieros o factores económicos adicionales.

Asimismo, el uso de modelos estadísticos más completos podría mejorar la capacidad explicativa y predictiva del análisis.