Regresión Lineal Multiple - Housing in Boston

Este proyecto analiza qué factores influyen en el valor promedio de las viviendas en Boston (MEDV). Se usan RM (habitaciones), LSTAT (porcentaje de población con bajos recursos) y RAD (accesibilidad a autopistas) para determinar cuáles variables tienen mayor impacto en el precio de la vivienda.
Variable	Definición	Tipo	Rol
RM	Promedio de habitaciones por vivienda	Cuantitativa	Variable independiente
LSTAT	Porcentaje de población con bajo nivel socioeconómico	Cuantitativa	Variable independiente
MEDV	Valor medio de la vivienda (en miles de dólares)	Cuantitativa	Variable dependiente (Y)
RAD	Índice de accesibilidad a carreteras radiales	Cuantitativa	Variable independiente

Datos

##        RM             RAD            LSTAT             MEDV      
##  Min.   :4.903   Min.   :1.000   Min.   : 5.080   Min.   :11.80  
##  1st Qu.:5.875   1st Qu.:4.000   1st Qu.: 8.075   1st Qu.:18.70  
##  Median :6.086   Median :4.000   Median :10.880   Median :21.10  
##  Mean   :6.102   Mean   :4.448   Mean   :12.087   Mean   :21.02  
##  3rd Qu.:6.380   3rd Qu.:5.000   3rd Qu.:14.745   3rd Qu.:23.65  
##  Max.   :7.079   Max.   :8.000   Max.   :29.930   Max.   :29.90

Cuando se revisan los datos, se ve que las casas tienen entre 4 y 7 habitaciones (RM), y la mayoría ronda las 6 habitaciones. La variable RAD, que habla de la cercanía a las carreteras, va desde 1 hasta 8, y LSTAT, que mide el porcentaje de personas con bajos recursos, va desde 5.08% hasta casi 30%. El valor de las casas (MEDV) está entre 11 y 29mil dólares, y la mayoría están cerca de 21 mil. En general, estos números muestran que los datos son variados y permiten ver diferencias claras entre las zonas analizadas.

Linealidad

Al ver las gráficas de linealidad, se nota que entre RM y MEDV sí se forma una línea clara hacia arriba: más habitaciones, casas más caras. En la gráfica de LSTAT y MEDV, se ve que cuando el porcentaje de gente con bajos recursos sube, los precios bajan, pero la relación no es completamente recta. Y en la de RAD y MEDV, los puntos están más regados y no muestran una línea clara. En resumen, solo RM tiene una relación completamente recta con los precios.

Normalidad (Y)

El histograma de MEDV muestra que la mayoría de precios de las casas está entre 17 y 25 mil dólares, pero también se ve que muchas casas están pegadas al valor máximo de 30 mil, lo que hace que la gráfica no sea totalmente pareja. Se nota que no es una distribución perfecta, pero es suficiente para trabajarla.

Modelo \[ MEDV= \beta_o +\beta_1 (RM)+ \beta_2 (LSTAT)+ \beta_3 (RAD) \]

##        RM             RAD            LSTAT             MEDV      
##  Min.   :4.903   Min.   :1.000   Min.   : 5.080   Min.   :11.80  
##  1st Qu.:5.875   1st Qu.:4.000   1st Qu.: 8.075   1st Qu.:18.70  
##  Median :6.086   Median :4.000   Median :10.880   Median :21.10  
##  Mean   :6.102   Mean   :4.448   Mean   :12.087   Mean   :21.02  
##  3rd Qu.:6.380   3rd Qu.:5.000   3rd Qu.:14.745   3rd Qu.:23.65  
##  Max.   :7.079   Max.   :8.000   Max.   :29.930   Max.   :29.90  
##         LSTAT_c.V1       
##  Min.   :-7.00652329749  
##  1st Qu.:-4.01152329749  
##  Median :-1.20652329749  
##  Mean   : 0.00000000000  
##  3rd Qu.: 2.65847670251  
##  Max.   :17.84347670250

El modelo que se construyó confirma lo que ya se veía en los datos: las casas más caras son las que tienen más habitaciones (RM), y las más baratas están en zonas donde hay más personas con bajos recursos (LSTAT). También se nota que la cercanía a las autopistas (RAD) influye un poco en el precio, aunque no tanto como las otras dos variables. En general, el modelo logra mostrar claramente qué cosas hacen que el precio de una casa suba o baje según la información que nos dieron los datos.

Homocedasticidad

Línea de Tendencia (Solo RM vs MEDV)

En la gráfica entre RM y MEDV se ve una línea recta que sube, y los puntos están bastante cerca de ella. Eso quiere decir que las casas con más habitaciones casi siempre valen más. También se ve claramente que cuando RM pasa de 5 a casi 7 habitaciones, el precio de las casas sube bastante, llegando incluso a valores cercanos a 25 mil dólares.

ANOVA del Modelo

## Analysis of Variance Table
## 
## Response: MEDV
##             Df  Sum Sq Mean Sq  F value    Pr(>F)    
## RM           1 1561.05 1561.05 233.8629 < 2.2e-16 ***
## LSTAT        1  434.46  434.46  65.0872 2.259e-14 ***
## I(LSTAT^2)   1   69.52   69.52  10.4148  0.001402 ** 
## sqrt(RAD)    1   64.06   64.06   9.5967  0.002152 ** 
## Residuals  274 1828.96    6.68                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En la tabla del ANOVA se ve que todas las variables son importantes. RM tiene un valor muy alto (F = 233.86), lo que confirma que es la variable que más influye. LSTAT también es fuerte (F = 65.08) y su valor cuadrático aparece como importante, mostrando que su efecto no es totalmente recto, igual que en la gráfica. RAD también aparece como influyente. En conjunto, el ANOVA muestra que todas las variables ayudan al modelo, aunque no explican todo.

Normalidad de residuos

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuos_multiple
## D = 0.055571, p-value = 0.03684

La prueba de normalidad dio un p-value de 0.03684, lo que indica que los residuos no siguen una forma normal perfecta. Esto simplemente significa que los valores se distribuyen de una manera un poco irregular. El valor D = 0.055571 muestra que sí hay una diferencia notable con lo que sería una distribución completamente normal. En pocas palabras: los residuos no son totalmente normales y tienen una forma más dispersa de lo esperado, pero igual se mantienen dentro de un rango razonable.

Prueba de homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_multiple
## BP = 15.416, df = 4, p-value = 0.003912

El resultado de la prueba Breusch-Pagan dio un p-value de 0.003912, y con eso se entiende que la homocedasticidad no se mantiene. Como no se mantiene, lo que ocurre es que los errores pasan a ser heterocedásticos, que es cuando la variación de los errores cambia en lugar de quedarse igual. El valor BP = 15.416 confirma que los errores no tienen un mismo comportamiento en todo el modelo. En palabras simples: los errores empiezan parejos, pero después cambian y terminan siendo heterocedásticos.

Histograma de los residuos

En el histograma se ve que la mayoría de los residuos están cerca del cero, pero la forma no queda totalmente pareja. Esto muestra que los errores del modelo se agrupan bien en el centro, aunque no siguen una forma exacta.

CONCLUSIONES:

Este proyecto tuvo como objetivo analizar qué factores influyen en el valor promedio de las viviendas en Boston (MEDV), usando variables como el número de habitaciones por vivienda (RM), el porcentaje de personas con bajo nivel socioeconómico (LSTAT) y la accesibilidad a carreteras radiales (RAD). La idea principal era identificar cuáles de estas características explican mejor por qué algunas casas son más costosas que otras y cómo cada variable afecta el precio final.

Después de revisar los datos, se observó que las viviendas tienen entre 4.9 y 7 habitaciones, los valores de las casas van desde 11.800 hasta casi 30 mil de dólares, y el porcentaje de población con bajos recursos varía bastante entre las zonas. Esto mostró desde el principio que sí había suficiente variación para crear un modelo que permitiera entender el comportamiento del precio de las viviendas.

Las gráficas de linealidad ayudaron a visualizar la relación entre cada variable y el precio. En el caso de RM, la relación fue clara: más habitaciones, mayor es el precio de la vivienda. Para LSTAT la relación fue negativa, es decir, a mayor porcentaje de personas con bajos recursos, el valor de la casa disminuye. En el caso de RAD, la relación fue más dispersa, pero también aportó información al modelo cuando se aplicó una transformación.

El modelo final permitió ver que RM y LSTAT son las variables más influyentes. RM tiene un impacto positivo en el precio y LSTAT un impacto negativo, lo cual coincide con lo que se vio tanto en las gráficas como en los datos iniciales. RAD, aunque no tan fuerte como las otras dos, también aporta al modelo.

Al evaluar los supuestos del modelo, se encontró que los residuos no cumplen perfectamente la normalidad según la prueba realizada, y que la homocedasticidad tampoco se mantiene, pasando a tener un comportamiento heterocedástico. Aun así, el modelo sigue siendo útil para entender las tendencias principales entre las variables, ya que los residuos se concentran mayormente cerca del cero y los resultados permiten interpretar adecuadamente las relaciones entre las variables y los precios.

En general, el proyecto logró cumplir su objetivo: identificar de manera clara qué factores afectan el precio de las viviendas en Boston. Se concluye que el número de habitaciones y el nivel socioeconómico de la zona son los factores que más influyen en el valor de una casa. Las zonas con mejores características internas (como tener más habitaciones) tienden a tener viviendas más costosas, mientras que las zonas con un mayor porcentaje de población con bajos recursos tienden a registrar precios más bajos. Aunque el modelo no cumple todos los supuestos al 100%, sí permite entender las tendencias principales y aporta una visión clara sobre cómo cambian los precios de las viviendas dependiendo de estas características.

Regresión Lineal Multiple - Housing in Boston

###KEINER FONTALVO, DEIMER TORRES, YENDRY RIVERA, CAMILO ALVAREZ.

2025-11-20