1 Selección de Datos y Planteamiento del Problema

1.1 Contexto y Base de Datos

Para este análisis se utiliza el conjunto de datos Boston del paquete base de R (disponible también en MASS), ampliamente empleado en estadística aplicada y aprendizaje automático. Este dataset contiene 506 observaciones correspondientes a suburbios de la ciudad de Boston, Massachusetts (EE.UU.), recopiladas por Harrison y Rubinfeld (1978) para estudiar los determinantes del valor de la vivienda.

Fuente: Harrison, D. y Rubinfeld, D.L. (1978). Hedonic prices and the demand for clean air. Journal of Environmental Economics and Management, 5(1), 81–102.

1.2 El Problema

El mercado inmobiliario es uno de los sectores económicos más dinámicos y de mayor impacto en el bienestar de las personas. Determinar qué factores inciden significativamente en el precio de una vivienda es un problema de gran relevancia tanto para compradores, vendedores, agentes inmobiliarios, inversores y entidades financieras.

El presente informe busca modelar el valor mediano de las viviendas en función de características socioeconómicas, ambientales y estructurales de los vecindarios, con el fin de identificar los predictores más relevantes y construir un modelo que permita estimar el precio esperado de una propiedad.

1.3 Hipótesis

Pregunta de investigación principal: ¿Qué factores socioeconómicos, ambientales y estructurales determinan significativamente el valor mediano de las viviendas en los suburbios de Boston?

Hipótesis de trabajo:

H₀: Ninguna de las variables predictoras consideradas tiene efecto significativo sobre el valor mediano de la vivienda (medv).
H₁: Al menos una de las variables predictoras (número de habitaciones, tasa de criminalidad, contaminación, nivel socioeconómico) tiene un efecto estadísticamente significativo sobre el valor mediano de la vivienda.

1.4 Identificación de Variables

Rol	Variable	Descripción
Dependiente (Y)	`medv`	Valor mediano de viviendas ocupadas por propietarios (en miles de USD)
Independiente 1	`rm`	Número promedio de habitaciones por vivienda
Independiente 2	`lstat`	% de población con nivel socioeconómico bajo
Independiente 3	`crim`	Tasa de criminalidad per cápita
Independiente 4	`nox`	Concentración de óxidos nítricos (partes por 10 millones)
Independiente 5	`ptratio`	Ratio alumno-profesor por municipio

Justificación del modelo de Regresión Lineal:

La variable dependiente medv es continua y cuantitativa (precio en miles de dólares), con un rango amplio de valores. Dado que el objetivo es predecir un valor numérico y no una categoría o probabilidad, el Modelo de Regresión Lineal es la herramienta estadística adecuada. Se espera que existan relaciones lineales (o aproximadamente lineales) entre las variables predictoras seleccionadas y el precio de la vivienda, lo que valida el uso de este enfoque.

2 Diccionario de Datos y Preparación

2.1 Carga de la Base de Datos

# Cargar dataset Boston
data(Boston, package = "MASS")
df <- Boston

# Seleccionar variables de interés
df <- df[, c("medv", "rm", "lstat", "crim", "nox", "ptratio")]

2.2 Diccionario de Variables

Diccionario de Variables
Variable	Tipo	Unidad	Rol	Descripcion
medv	Cuantitativa continua	Miles de USD	Dependiente	Valor mediano de viviendas ocupadas por propietarios
rm	Cuantitativa continua	Unidades (habitaciones)	Independiente	Nro. promedio de habitaciones por vivienda
lstat	Cuantitativa continua	Porcentaje (%)	Independiente	% de población con estatus socioeconómico bajo
crim	Cuantitativa continua	Crímenes per cápita	Independiente	Tasa de criminalidad per cápita por municipio
nox	Cuantitativa continua	Partes por 10 millones	Independiente	Concentración de óxidos nítricos (contaminación)
ptratio	Cuantitativa continua	Alumnos por profesor	Independiente	Ratio alumno-profesor en escuelas del municipio

2.3 Exploración Inicial

cat("── Dimensiones del dataset ──\n")

#> ── Dimensiones del dataset ──

dim(df)

#> [1] 506   6

cat("\n── Primeras filas ──\n")

#> 
#> ── Primeras filas ──

head(df)

cat("\n── Resumen estadístico ──\n")

#> 
#> ── Resumen estadístico ──

summary(df)

#>       medv             rm            lstat            crim         
#>  Min.   : 5.00   Min.   :3.561   Min.   : 1.73   Min.   : 0.00632  
#>  1st Qu.:17.02   1st Qu.:5.886   1st Qu.: 6.95   1st Qu.: 0.08205  
#>  Median :21.20   Median :6.208   Median :11.36   Median : 0.25651  
#>  Mean   :22.53   Mean   :6.285   Mean   :12.65   Mean   : 3.61352  
#>  3rd Qu.:25.00   3rd Qu.:6.623   3rd Qu.:16.95   3rd Qu.: 3.67708  
#>  Max.   :50.00   Max.   :8.780   Max.   :37.97   Max.   :88.97620  
#>       nox            ptratio     
#>  Min.   :0.3850   Min.   :12.60  
#>  1st Qu.:0.4490   1st Qu.:17.40  
#>  Median :0.5380   Median :19.05  
#>  Mean   :0.5547   Mean   :18.46  
#>  3rd Qu.:0.6240   3rd Qu.:20.20  
#>  Max.   :0.8710   Max.   :22.00

2.4 Limpieza de Datos

# Verificar valores nulos
cat("── Valores NA por variable ──\n")

#> ── Valores NA por variable ──

colSums(is.na(df))

#>    medv      rm   lstat    crim     nox ptratio 
#>       0       0       0       0       0       0

# Detección de valores atípicos usando IQR
detectar_outliers <- function(x, nombre) {
  Q1 <- quantile(x, 0.25)
  Q3 <- quantile(x, 0.75)
  IQR_val <- Q3 - Q1
  outliers <- sum(x < (Q1 - 1.5 * IQR_val) | x > (Q3 + 1.5 * IQR_val))
  cat(sprintf("%-10s → %d valores atípicos detectados (IQR)\n", nombre, outliers))
}

cat("\n── Detección de Outliers ──\n")

#> 
#> ── Detección de Outliers ──

for (v in names(df)) detectar_outliers(df[[v]], v)

#> medv       → 40 valores atípicos detectados (IQR)
#> rm         → 30 valores atípicos detectados (IQR)
#> lstat      → 7 valores atípicos detectados (IQR)
#> crim       → 66 valores atípicos detectados (IQR)
#> nox        → 0 valores atípicos detectados (IQR)
#> ptratio    → 15 valores atípicos detectados (IQR)

par(mfrow = c(2, 3), mar = c(4, 4, 2, 1))
for (v in names(df)) {
  boxplot(df[[v]], main = v, col = "#3498db", border = "#2c3e50",
          ylab = v, outline = TRUE)
}

Distribución y outliers de cada variable

par(mfrow = c(1,1))

Decisión de tratamiento: El dataset Boston es un conjunto clásico y bien documentado sin valores nulos. Se detectan outliers en varias variables (especialmente crim y medv), pero corresponden a observaciones reales de municipios con características extremas. Se decide conservarlos dado que reflejan variabilidad natural del mercado inmobiliario y no son errores de medición.

3 Análisis Exploratorio y Bivariado (Pre-selección)

3.1 Distribución de la Variable Dependiente

p1 <- ggplot(df, aes(x = medv)) +
  geom_histogram(aes(y = after_stat(density)), bins = 30,
                 fill = "#3498db", color = "white", alpha = 0.8) +
  geom_density(color = "#e74c3c", linewidth = 1.2) +
  labs(title = "Histograma + Densidad de medv",
       x = "Valor mediano (miles USD)", y = "Densidad") +
  theme_minimal(base_size = 13)

p2 <- ggplot(df, aes(sample = medv)) +
  stat_qq(color = "#3498db", alpha = 0.7) +
  stat_qq_line(color = "#e74c3c", linewidth = 1) +
  labs(title = "Q-Q Plot de medv",
       x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
  theme_minimal(base_size = 13)

gridExtra::grid.arrange(p1, p2, ncol = 2)

Distribución del valor mediano de viviendas

3.2 Prueba de Normalidad de la Variable Dependiente

# Shapiro-Wilk (n <= 5000)
set.seed(123)
sw <- shapiro.test(df$medv)
cat("── Prueba de Shapiro-Wilk para medv ──\n")

#> ── Prueba de Shapiro-Wilk para medv ──

cat(sprintf("Estadístico W = %.4f\n", sw$statistic))

#> Estadístico W = 0.9172

cat(sprintf("Valor p       = %.6f\n", sw$p.value))

#> Valor p       = 0.000000

if (sw$p.value < 0.05) {
  cat("\n⚠  El valor p < 0.05: se rechaza H₀ de normalidad.\n")
  cat("   La variable medv no sigue estrictamente una distribución normal.\n")
  cat("   Sin embargo, con n = 506 observaciones, el Teorema Central del\n")
  cat("   Límite justifica la aplicación de regresión lineal.\n")
} else {
  cat("\n✓  El valor p >= 0.05: no se rechaza H₀ de normalidad.\n")
}

#> 
#> ⚠  El valor p < 0.05: se rechaza H₀ de normalidad.
#>    La variable medv no sigue estrictamente una distribución normal.
#>    Sin embargo, con n = 506 observaciones, el Teorema Central del
#>    Límite justifica la aplicación de regresión lineal.

3.3 Gráficos de Dispersión (Variables vs medv)

vars_pred <- c("rm", "lstat", "crim", "nox", "ptratio")
colores   <- c("#3498db","#e74c3c","#2ecc71","#f39c12","#9b59b6")

plots <- lapply(seq_along(vars_pred), function(i) {
  v <- vars_pred[i]
  ggplot(df, aes_string(x = v, y = "medv")) +
    geom_point(alpha = 0.4, color = colores[i], size = 1.5) +
    geom_smooth(method = "lm", se = TRUE, color = "#2c3e50",
                linewidth = 1, linetype = "dashed") +
    labs(title = paste("medv ~", v),
         x = v, y = "medv (miles USD)") +
    theme_minimal(base_size = 11)
})

gridExtra::grid.arrange(grobs = plots, ncol = 3)

Relación entre predictoras y variable dependiente

Análisis: Se observa una relación positiva fuerte entre rm (habitaciones) y medv, y relaciones negativas entre lstat, crim, nox, ptratio y medv. Estas tendencias son consistentes con la teoría económica y justifican su inclusión en el modelo.

3.4 Matriz de Correlación

M <- cor(df)

cat("── Correlaciones con medv ──\n")

#> ── Correlaciones con medv ──

sort(M["medv", ], decreasing = TRUE) |> round(3)

#>    medv      rm    crim     nox ptratio   lstat 
#>   1.000   0.695  -0.388  -0.427  -0.508  -0.738

corrplot(M,
         method  = "color",
         type    = "upper",
         addCoef.col = "black",
         number.cex  = 0.75,
         tl.col      = "black",
         tl.srt      = 45,
         col    = colorRampPalette(c("#e74c3c","white","#3498db"))(200),
         title  = "Matriz de Correlación de Pearson",
         mar    = c(0, 0, 1.5, 0))

Matriz de correlaciones de Pearson

Análisis: Las correlaciones más altas con medv son: rm (+0.70) y lstat (−0.74), lo que las posiciona como las mejores candidatas para el modelo simple. Se observa también correlación moderada entre nox y crim (multicolinealidad potencial a monitorear).

4 Modelo de Regresión Simple

4.1 Formulación del Modelo

Se elige rm (número de habitaciones) como predictor simple por tener la mayor correlación positiva con medv:

\[\hat{medv}_i = \beta_0 + \beta_1 \cdot rm_i + \varepsilon_i\]

Donde: - $\hat{medv}_i$: valor estimado de la vivienda $i$ (miles de USD) - $\beta_0$: intercepto (valor estimado cuando rm = 0) - $\beta_1$: cambio esperado en medv por cada habitación adicional - $\varepsilon_i \sim N(0, \sigma^2)$: término de error aleatorio

4.2 Ajuste del Modelo

modelo_simple <- lm(medv ~ rm, data = df)
summary(modelo_simple)

#> 
#> Call:
#> lm(formula = medv ~ rm, data = df)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -23.346  -2.547   0.090   2.986  39.433 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept)  -34.671      2.650  -13.08   <2e-16 ***
#> rm             9.102      0.419   21.72   <2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 6.616 on 504 degrees of freedom
#> Multiple R-squared:  0.4835, Adjusted R-squared:  0.4825 
#> F-statistic: 471.8 on 1 and 504 DF,  p-value: < 2.2e-16

4.3 Análisis Inferencial

coefs <- coef(modelo_simple)
r2    <- summary(modelo_simple)$r.squared
pval  <- summary(modelo_simple)$coefficients["rm", "Pr(>|t|)"]

cat("── Resultados del Modelo Simple ──────────────────────────────\n")

#> ── Resultados del Modelo Simple ──────────────────────────────

cat(sprintf("Intercepto (β₀) = %.4f\n", coefs[1]))

#> Intercepto (β₀) = -34.6706

cat(sprintf("Pendiente  (β₁) = %.4f  (p-valor = %.2e)\n", coefs[2], pval))

#> Pendiente  (β₁) = 9.1021  (p-valor = 2.49e-74)

cat(sprintf("R² = %.4f  →  el modelo explica el %.1f%% de la varianza de medv\n",
            r2, r2 * 100))

#> R² = 0.4835  →  el modelo explica el 48.4% de la varianza de medv

ggplot(df, aes(x = rm, y = medv)) +
  geom_point(alpha = 0.5, color = "#3498db", size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "#e74c3c",
              linewidth = 1.3, fill = "#f1948a", alpha = 0.3) +
  annotate("text", x = 4.5, y = 47,
           label = sprintf("medv = %.2f + %.2f × rm\nR² = %.3f",
                           coefs[1], coefs[2], r2),
           hjust = 0, size = 4.5, color = "#2c3e50",
           family = "mono") +
  labs(title    = "Regresión Simple: Valor de Vivienda vs. Nº de Habitaciones",
       subtitle = "Dataset Boston — 506 suburbios",
       x = "Promedio de habitaciones (rm)",
       y = "Valor mediano (miles USD)") +
  theme_minimal(base_size = 13)

Modelo de Regresión Lineal Simple: medv ~ rm

Interpretación: El coeficiente $\hat{\beta}_1 = 9.102$ indica que, por cada habitación adicional promedio en un suburbio, el valor mediano de las viviendas aumenta en aproximadamente 9.1 miles de dólares (≈ $9102), manteniendo todo lo demás constante. El valor p extremadamente pequeño (< 0.001) confirma que este efecto es altamente significativo. El R² de 0.484 indica que el número de habitaciones explica el 48.4% de la variabilidad en los precios.

5 Modelo de Regresión Múltiple

5.1 Formulación del Modelo

Incorporamos las cinco variables predictoras seleccionadas:

\[\hat{medv}_i = \beta_0 + \beta_1 \cdot rm_i + \beta_2 \cdot lstat_i + \beta_3 \cdot crim_i + \beta_4 \cdot nox_i + \beta_5 \cdot ptratio_i + \varepsilon_i\]

5.2 Ajuste del Modelo

modelo_multiple <- lm(medv ~ rm + lstat + crim + nox + ptratio, data = df)
summary(modelo_multiple)

#> 
#> Call:
#> lm(formula = medv ~ rm + lstat + crim + nox + ptratio, data = df)
#> 
#> Residuals:
#>      Min       1Q   Median       3Q      Max 
#> -14.2742  -3.1251  -0.9575   1.6719  30.3918 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) 17.46891    4.11629   4.244 2.62e-05 ***
#> rm           4.63324    0.42841  10.815  < 2e-16 ***
#> lstat       -0.52224    0.05129 -10.181  < 2e-16 ***
#> crim        -0.06198    0.03155  -1.965    0.050 .  
#> nox         -1.31902    2.55265  -0.517    0.606    
#> ptratio     -0.89354    0.11915  -7.500 2.94e-13 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 5.215 on 500 degrees of freedom
#> Multiple R-squared:  0.6817, Adjusted R-squared:  0.6785 
#> F-statistic: 214.1 on 5 and 500 DF,  p-value: < 2.2e-16

5.3 Análisis de Coeficientes

Coeficientes del Modelo de Regresión Múltiple
	Estimate	Std. Error	t value	p-valor	Significancia
(Intercept)	17.4689	4.1163	4.2439	0.0000	***
rm	4.6332	0.4284	10.8150	0.0000	***
lstat	-0.5222	0.0513	-10.1814	0.0000	***
crim	-0.0620	0.0315	-1.9646	0.0500
nox	-1.3190	2.5526	-0.5167	0.6056
ptratio	-0.8935	0.1191	-7.4996	0.0000	***
Signif.: * p<0.001 p<0.01 * p<0.05

b <- coef(modelo_multiple)
r2_m   <- summary(modelo_multiple)$r.squared
r2_adj <- summary(modelo_multiple)$adj.r.squared

cat("── Interpretación de los Coeficientes ────────────────────────────────────────\n\n")

#> ── Interpretación de los Coeficientes ────────────────────────────────────────

cat(sprintf("β₀ (Intercepto) = %.3f\n", b["(Intercept)"]))

#> β₀ (Intercepto) = 17.469

cat(sprintf("   → Valor base del modelo cuando todos los predictores = 0.\n\n"))

#>    → Valor base del modelo cuando todos los predictores = 0.

cat(sprintf("β₁ (rm)       = %+.3f → Cada habitación adicional AUMENTA el precio en %.2f mil USD\n",
            b["rm"], b["rm"]))

#> β₁ (rm)       = +4.633 → Cada habitación adicional AUMENTA el precio en 4.63 mil USD

cat(sprintf("β₂ (lstat)    = %+.3f → Cada 1%% adicional de pobreza REDUCE el precio en %.3f mil USD\n",
            b["lstat"], abs(b["lstat"])))

#> β₂ (lstat)    = -0.522 → Cada 1% adicional de pobreza REDUCE el precio en 0.522 mil USD

cat(sprintf("β₃ (crim)     = %+.3f → Cada unidad adicional de criminalidad REDUCE el precio en %.3f mil USD\n",
            b["crim"], abs(b["crim"])))

#> β₃ (crim)     = -0.062 → Cada unidad adicional de criminalidad REDUCE el precio en 0.062 mil USD

cat(sprintf("β₄ (nox)      = %+.3f → Cada unidad adicional de contaminación REDUCE el precio en %.2f mil USD\n",
            b["nox"], abs(b["nox"])))

#> β₄ (nox)      = -1.319 → Cada unidad adicional de contaminación REDUCE el precio en 1.32 mil USD

cat(sprintf("β₅ (ptratio)  = %+.3f → Cada alumno adicional por profesor REDUCE el precio en %.3f mil USD\n",
            b["ptratio"], abs(b["ptratio"])))

#> β₅ (ptratio)  = -0.894 → Cada alumno adicional por profesor REDUCE el precio en 0.894 mil USD

cat(sprintf("\nR² = %.4f  →  el modelo explica el %.1f%% de la varianza\n", r2_m, r2_m*100))

#> 
#> R² = 0.6817  →  el modelo explica el 68.2% de la varianza

cat(sprintf("R² ajustado = %.4f\n", r2_adj))

#> R² ajustado = 0.6785

5.4 Visualización de Efectos

# Estandarizar para comparar magnitud de efectos
df_std <- as.data.frame(scale(df))
mod_std <- lm(medv ~ rm + lstat + crim + nox + ptratio, data = df_std)
coef_std <- as.data.frame(confint(mod_std))
coef_std$beta <- coef(mod_std)
coef_std$var  <- rownames(coef_std)
coef_std <- coef_std[coef_std$var != "(Intercept)", ]
names(coef_std)[1:2] <- c("lwr","upr")

ggplot(coef_std, aes(x = reorder(var, beta), y = beta, fill = beta > 0)) +
  geom_col(width = 0.6, alpha = 0.85) +
  geom_errorbar(aes(ymin = lwr, ymax = upr), width = 0.2, linewidth = 0.8) +
  geom_hline(yintercept = 0, linetype = "dashed", color = "#2c3e50") +
  scale_fill_manual(values = c("#e74c3c","#2ecc71"), guide = "none") +
  coord_flip() +
  labs(title    = "Coeficientes Estandarizados (con IC 95%)",
       subtitle = "Modelo de Regresión Múltiple",
       x = NULL, y = "Efecto estandarizado sobre medv") +
  theme_minimal(base_size = 13)

Coeficientes estandarizados del modelo múltiple

Análisis: En términos estandarizados, lstat y rm son los predictores con mayor impacto sobre el precio de la vivienda. El nivel socioeconómico bajo tiene el efecto negativo más grande, mientras que el número de habitaciones presenta el efecto positivo más relevante.

6 Validación, Diagnóstico y Selección del Modelo

6.1 Comparación por AIC

aic_simple   <- AIC(modelo_simple)
aic_multiple <- AIC(modelo_multiple)
bic_simple   <- BIC(modelo_simple)
bic_multiple <- BIC(modelo_multiple)

tabla_comp <- data.frame(
  Modelo    = c("Regresión Simple (rm)", "Regresión Múltiple (5 vars)"),
  R2        = c(summary(modelo_simple)$r.squared,
                summary(modelo_multiple)$r.squared) |> round(4),
  R2_Adj    = c(summary(modelo_simple)$adj.r.squared,
                summary(modelo_multiple)$adj.r.squared) |> round(4),
  AIC       = c(aic_simple, aic_multiple) |> round(2),
  BIC       = c(bic_simple, bic_multiple) |> round(2)
)

kable(tabla_comp,
      caption = "Comparación de Modelos: Simple vs. Múltiple",
      col.names = c("Modelo","R²","R² Ajustado","AIC","BIC"),
      align = c("l","c","c","c","c")) |>
  kable_styling(bootstrap_options = c("striped","hover","condensed"),
                full_width = FALSE) |>
  row_spec(2, bold = TRUE, color = "white", background = "#2c3e50")

Comparación de Modelos: Simple vs. Múltiple
Modelo	R²	R² Ajustado	AIC	BIC
Regresión Simple (rm)	0.4835	0.4825	3352.15	3364.83
Regresión Múltiple (5 vars)	0.6817	0.6785	3115.29	3144.88

Decisión: El modelo múltiple presenta un AIC significativamente menor (3115.3 vs 3352.2) y un R² ajustado mayor, lo que confirma su superioridad sobre el modelo simple. Se selecciona el modelo múltiple para el análisis final.

6.2 Diagnóstico de Supuestos de Gauss-Markov

6.2.1 Gráficos de Diagnóstico

par(mfrow = c(2, 2), mar = c(4, 4, 3, 2))
plot(modelo_multiple, which = 1:4,
     col = "#3498db", pch = 19, cex = 0.5,
     sub.caption = "")

Gráficos de diagnóstico del modelo múltiple

par(mfrow = c(1, 1))

6.2.2 1. Linealidad (Residuos vs Ajustados)

cat("── Supuesto de Linealidad ──\n")

#> ── Supuesto de Linealidad ──

cat("Observar el gráfico 'Residuals vs Fitted'.\n")

#> Observar el gráfico 'Residuals vs Fitted'.

cat("Si la línea roja es aproximadamente horizontal en 0, se cumple el supuesto.\n")

#> Si la línea roja es aproximadamente horizontal en 0, se cumple el supuesto.

cat("El patrón ligeramente curvo indica que la relación podría no ser perfectamente lineal,\n")

#> El patrón ligeramente curvo indica que la relación podría no ser perfectamente lineal,

cat("aunque es aceptable para este dataset.\n")

#> aunque es aceptable para este dataset.

6.2.3 2. Normalidad de Residuos (Shapiro-Wilk)

res <- residuals(modelo_multiple)
sw_res <- shapiro.test(res)
cat(sprintf("Shapiro-Wilk sobre residuos: W = %.4f, p-valor = %.4f\n",
            sw_res$statistic, sw_res$p.value))

#> Shapiro-Wilk sobre residuos: W = 0.8703, p-valor = 0.0000

if (sw_res$p.value < 0.05) {
  cat("⚠  p < 0.05: Se detecta desviación de la normalidad en los residuos.\n")
  cat("   Con n = 506, por el Teorema Central del Límite, las inferencias\n")
  cat("   siguen siendo válidas asintóticamente.\n")
} else {
  cat("✓  Los residuos siguen una distribución aproximadamente normal.\n")
}

#> ⚠  p < 0.05: Se detecta desviación de la normalidad en los residuos.
#>    Con n = 506, por el Teorema Central del Límite, las inferencias
#>    siguen siendo válidas asintóticamente.

6.2.4 3. Homocedasticidad (Breusch-Pagan)

bp <- lmtest::bptest(modelo_multiple)
cat("── Prueba de Breusch-Pagan (Homocedasticidad) ──\n")

#> ── Prueba de Breusch-Pagan (Homocedasticidad) ──

print(bp)

#> 
#>  studentized Breusch-Pagan test
#> 
#> data:  modelo_multiple
#> BP = 22.746, df = 5, p-value = 0.0003775

if (bp$p.value < 0.05) {
  cat("⚠  p < 0.05: Se detecta heterocedasticidad.\n")
  cat("   Los errores estándar pueden estar sesgados. Se recomienda considerar\n")
  cat("   errores robustos o transformaciones de la variable dependiente.\n")
} else {
  cat("✓  No se rechaza la homocedasticidad de los residuos.\n")
}

#> ⚠  p < 0.05: Se detecta heterocedasticidad.
#>    Los errores estándar pueden estar sesgados. Se recomienda considerar
#>    errores robustos o transformaciones de la variable dependiente.

6.2.5 4. Independencia de Errores (Durbin-Watson)

dw <- lmtest::dwtest(modelo_multiple)
cat("── Prueba de Durbin-Watson (Independencia) ──\n")

#> ── Prueba de Durbin-Watson (Independencia) ──

print(dw)

#> 
#>  Durbin-Watson test
#> 
#> data:  modelo_multiple
#> DW = 0.88164, p-value < 2.2e-16
#> alternative hypothesis: true autocorrelation is greater than 0

if (dw$p.value < 0.05) {
  cat("⚠  Se detecta autocorrelación en los residuos.\n")
  cat("   Esperable en datos de corte transversal con estructura espacial.\n")
} else {
  cat("✓  No se detecta autocorrelación significativa en los residuos.\n")
}

#> ⚠  Se detecta autocorrelación en los residuos.
#>    Esperable en datos de corte transversal con estructura espacial.

6.2.6 5. Multicolinealidad (VIF)

vif_vals <- car::vif(modelo_multiple)
cat("── Factor de Inflación de Varianza (VIF) ──\n")

#> ── Factor de Inflación de Varianza (VIF) ──

print(round(vif_vals, 3))

#>      rm   lstat    crim     nox ptratio 
#>   1.682   2.491   1.367   1.625   1.235

cat("\n")

for (v in names(vif_vals)) {
  flag <- if (vif_vals[v] > 10) "⚠  ALTA" else if (vif_vals[v] > 5) "⚡ MODERADA" else "✓  Aceptable"
  cat(sprintf("%-10s VIF = %.2f → %s\n", v, vif_vals[v], flag))
}

#> rm         VIF = 1.68 → ✓  Aceptable
#> lstat      VIF = 2.49 → ✓  Aceptable
#> crim       VIF = 1.37 → ✓  Aceptable
#> nox        VIF = 1.62 → ✓  Aceptable
#> ptratio    VIF = 1.24 → ✓  Aceptable

6.2.7 Resumen del Diagnóstico

Resumen del Diagnóstico de Supuestos Gauss-Markov
Supuesto	Prueba	Resultado	Estado
Linealidad	Gráfico Residuals vs Fitted	Aproximadamente lineal	✓
Normalidad de residuos	Shapiro-Wilk	Desviación leve (n grande)	⚠
Homocedasticidad	Breusch-Pagan	Heterocedasticidad detectada	⚠
Independencia de errores	Durbin-Watson	Autocorrelación leve	✓
Multicolinealidad	VIF	VIF < 10 todas	✓

Conclusión del diagnóstico: El modelo presenta un desempeño aceptable. Las pequeñas desviaciones detectadas (heterocedasticidad, normalidad de residuos) son comunes en datos económicos reales y no invalidan el modelo dado el tamaño muestral (n = 506). Las inferencias se mantienen válidas bajo el Teorema Central del Límite.

6.3 Valores Reales vs Predicciones

df$pred_multiple <- predict(modelo_multiple)
df$pred_simple   <- predict(modelo_simple)

rmse_m <- sqrt(mean((df$medv - df$pred_multiple)^2))
rmse_s <- sqrt(mean((df$medv - df$pred_simple)^2))

ggplot(df, aes(x = pred_multiple, y = medv)) +
  geom_point(alpha = 0.4, color = "#3498db", size = 2) +
  geom_abline(slope = 1, intercept = 0, color = "#e74c3c",
              linewidth = 1.3, linetype = "dashed") +
  annotate("text", x = 8, y = 48,
           label = sprintf("RMSE Modelo Simple   = %.2f k USD\nRMSE Modelo Múltiple = %.2f k USD",
                           rmse_s, rmse_m),
           hjust = 0, size = 4, color = "#2c3e50", family = "mono") +
  labs(title    = "Valores Reales vs Valores Predichos",
       subtitle = "Línea roja: predicción perfecta",
       x = "Valor Predicho (miles USD)",
       y = "Valor Real (miles USD)") +
  theme_minimal(base_size = 13)

Valores reales vs predichos por el modelo múltiple

Análisis predictivo: El modelo múltiple logra un RMSE de 5.18 miles de dólares, frente a 6.6 del modelo simple. Esto significa que, en promedio, las predicciones del modelo múltiple se desvían en ≈ $5184 del valor real, un desempeño sólido para un modelo lineal con solo cinco variables.

7 Conclusión Estratégica (Toma de Decisiones)

Para el Director / Gerente Inmobiliario — Sin términos estadísticos

Tras analizar el comportamiento del mercado de vivienda en más de 500 vecindarios de Boston, el modelo desarrollado es capaz de estimar el valor de una propiedad con base en cinco características medibles del entorno.

Los hallazgos son claros y accionables:

Lo que encarece una vivienda: El factor más poderoso para elevar el valor de una propiedad es la cantidad de habitaciones. Un vecindario con viviendas más amplias puede esperar precios considerablemente más altos. Esto debe guiar decisiones de desarrollo y construcción hacia unidades de mayor tamaño.

Lo que devalúa una propiedad: Tres factores deprimen el valor de manera importante: (1) una alta proporción de familias en situación de pobreza en el vecindario, (2) elevados niveles de contaminación del aire, y (3) una alta tasa de delincuencia local. De estos, el nivel de pobreza del entorno es el factor negativo de mayor impacto.

Recomendaciones prácticas: Si su empresa está evaluando en qué zonas invertir o desarrollar proyectos inmobiliarios, el modelo sugiere priorizar vecindarios con buenas condiciones de habitabilidad, baja criminalidad y aire limpio, ya que estas características multiplican el retorno esperado. Por el contrario, invertir en zonas con altos índices de pobreza implica asumir un techo de valorización bajo.

Finalmente, el modelo también permite simular escenarios: ante la mejora de cualquiera de estos indicadores (por ejemplo, programas de seguridad pública o proyectos de regeneración urbana), es posible estimar cuánto podría incrementarse el valor de las propiedades en esa zona, dando a los tomadores de decisiones una herramienta cuantitativa para respaldar inversiones estratégicas.

Informe generado en R Markdown | Dataset: Boston Housing (Harrison & Rubinfeld, 1978)

Predicción del Precio de Viviendas mediante Regresión Lineal Múltiple

Informe final de Regresion lineal

William Steiner Morales Espinosa y Daniel Santiago Ortiz Mosquera

03 de mayo de 2026