Analisis exploratorio de la base Boston

Variables descriptivas:

##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154
##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

Histograma

Observaciones

  • La variable lstat presenta una distribución sesgada hacia valores bajos, con una cola larga hacia la derecha.
  • La variable medv se concentra en valores intermedios, con un límite superior marcado en 50.
  • La variable rm muestra una distribución más simétrica, centrada alrededor de 6 habitaciones.

Conclusiones

  • Los histogramas sugieren que un mayor número de habitaciones (rm) se asocia con un mayor valor medio de vivienda (medv).
  • Un mayor porcentaje de población con bajo estatus socioeconómico (lstat) se relaciona con menores valores de vivienda.
  • Las distribuciones no son perfectamente normales, lo que implica considerar sesgos y límites al aplicar modelos estadísticos.

Histogramas Univariantes

Boxplot

Boxplot univariante

Relación medv

## Warning: Unknown palette: "set2"

Observaciones

  • crim vs medv: se observa una relación negativa; a mayor tasa de criminalidad, menor valor medio de las viviendas.
  • lstat vs medv: también hay una relación negativa; un mayor porcentaje de población con bajo estatus socioeconómico se asocia con menores valores de vivienda.
  • rm vs medv: la relación es positiva; un mayor número de habitaciones promedio se vincula con un mayor valor medio de las viviendas.
  • tax vs medv: la relación tiende a ser negativa; impuestos más altos se asocian con valores de vivienda más bajos.

Conclusiones

  • Los gráficos confirman que factores sociales (como lstat y crim) y estructurales (rm) influyen directamente en el valor de las viviendas en Boston.
  • La variable rm es un fuerte predictor positivo de medv, mientras que crim, lstat y tax actúan como factores que reducen el valor.
  • Estas relaciones sugieren desigualdades urbanas: barrios con más criminalidad o mayor carga impositiva tienden a tener viviendas menos valoradas.
  • Los patrones visuales respaldan la necesidad de aplicar modelos de regresión para cuantificar estas asociaciones y evaluar su significancia estadística.

Graficas bivariantes

Matriz de correlación

Observaciones

  • La correlación entre medv y rm es positiva y relativamente fuerte (0.695***), lo que indica que un mayor número de habitaciones promedio se asocia con un mayor valor medio de las viviendas.
  • La correlación entre medv y lstat es negativa y aún más fuerte (-0.738***), mostrando que un mayor porcentaje de población con bajo estatus socioeconómico se relaciona con menores valores de vivienda.
  • La correlación entre rm y lstat es negativa (-0.614***), lo que sugiere que barrios con más habitaciones tienden a tener menor proporción de población en desventaja socioeconómica.

Conclusiones

  • Los resultados confirman que tanto factores estructurales (rm) como socioeconómicos (lstat) influyen significativamente en el valor de las viviendas (medv).
  • La fuerza y significancia de las correlaciones sugieren que estas variables son buenos candidatos para incluir en un modelo de regresión predictivo del valor de las viviendas.
  • El análisis refleja desigualdades urbanas: barrios con más habitaciones y menor proporción de población vulnerable tienden a tener viviendas más caras.
  • La matriz de correlación respalda las observaciones previas de los histogramas y gráficos de dispersión, consolidando la evidencia de relaciones lineales claras entre estas variables.