Analisis exploratorio de la base Boston

Variables descriptivas:

##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154
##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

Precio de las viviendas (\(medv\)): El promedio anda por los \(22.5\), pero con una desviación de \(9.2\). Eso nos dice que los precios están súper regados; hay mucha diferencia entre una zona barata y una cara, no es un mercado parejo.Tamaño de las casas (\(rm\)): En promedio, las casas tienen \(6.28\) habitaciones. Aquí la variación es moderada, o sea, la mayoría de las viviendas en Boston se mantienen cerca de ese tamaño estándar.Crimen (\(crim\)) e Impuestos (\(tax\)): Estos dos son un relajo. Tienen una dispersión altísima y están llenos de outliers (valores atípicos). Hay zonas donde el crimen o los impuestos se disparan comparado con el resto, lo que nos ensucia un poco el promedio.

Histograma

Observaciones

Distribución de lstat: Se ve un sesgo a la derecha súper marcado. La mayoría de las zonas tienen un porcentaje bajo de población con bajo estatus, pero hay una “cola” larga de barrios donde ese número se dispara.

Distribución de medv: La mayoría de las casas andan en el rango medio de precio. Lo que sí brinca a la vista es ese tope en 50 parece que los datos están truncados ahí (como si todas las mansiones de lujo las hubieran redondeado a ese valor).

Distribución de rm: Esta es la más “normalita” o simétrica. Casi todo el mundo en Boston vive en casas de unas 6 habitaciones de promedio; no hay tantos extremos como en las otras variables.

Conclusiones

Puntos clave de las gráficas Relación rm vs medv: Los histogramas nos gritan que si una zona tiene más cuartos promedio, el valor de las casas sube sí o sí. Es la variable que más “empuja” el precio hacia arriba.

Relación lstat vs medv: Aquí es al revés. Se ve clarísimo que donde hay más gente de bajo estatus, los precios de las viviendas se desploman. Es una relación negativa que no perdona.

Sobre la normalidad: Ninguna de las variables es una “campana de Gauss” perfecta. Todas tienen sus mañas (sesgos o datos truncados), así que no podemos llegar y aplicar cualquier fórmula sin antes ajustar esos límites y desviaciones.

  • Los histogramas sugieren que un mayor número de habitaciones (rm) se asocia con un mayor valor medio de vivienda (medv).
  • Un mayor porcentaje de población con bajo estatus socioeconómico (lstat) se relaciona con menores valores de vivienda.
  • Las distribuciones no son perfectamente normales, lo que implica considerar sesgos y límites al aplicar modelos estadísticos.

Histogramas Univariantes

Boxplot

Boxplot univariante

Relación medv

## Warning: Unknown palette: "set2"

Observaciones

  • crim vs medv: Se nota clarito que donde la delincuencia sube, el precio de las casas se va al piso. Es una relación negativa de manual.
  • lstat vs medv: Aquí también hay una pendiente hacia abajo. Entre más alto es el porcentaje de clase baja en la zona, más baratas son las viviendas
  • rm vs medv: Esta es la buena. A más cuartos tenga la casa, más cara se vende. Hay una relación positiva muy marcada.
  • tax vs medv: Aunque hay más ruido, se ve que los impuestos altos no ayudan; generalmente, donde el predial es muy caro, el valor de la propiedad tiende a ser menor.

Conclusiones

  • Los gráficos confirman que factores sociales (como lstat y crim) y estructurales (rm) influyen directamente en el valor de las viviendas en Boston.
  • La variable rm es un fuerte predictor positivo de medv, mientras que crim, lstat y tax actúan como factores que reducen el valor.
  • Estas relaciones sugieren desigualdades urbanas: barrios con más criminalidad o mayor carga impositiva tienden a tener viviendas menos valoradas.
  • Los patrones visuales respaldan la necesidad de aplicar modelos de regresión para cuantificar estas asociaciones y evaluar su significancia estadística. Los datos confirman que el valor de las casas en Boston depende tanto de qué tan grande es la casa (rm) como de qué tan pesado está el barrio (lstat y crim).

Esto nos muestra una realidad de la ciudad: hay una brecha enorme entre barrios. No es solo la casa, es dónde está metida.

Visualmente ya lo tenemos, pero el siguiente paso lógico es aventarnos una regresión para ver exactamente cuánto afecta cada variable y si de verdad son significativas o solo coincidencia.

Graficas bivariantes

Matriz de correlación

Observaciones

  • La correlación entre medv y rm es positiva y relativamente fuerte (0.695***), lo que indica que un mayor número de habitaciones promedio se asocia con un mayor valor medio de las viviendas.
  • La correlación entre medv y lstat es negativa y aún más fuerte (-0.738***), mostrando que un mayor porcentaje de población con bajo estatus socioeconómico se relaciona con menores valores de vivienda.
  • La correlación entre rm y lstat es negativa (-0.614***), lo que sugiere que barrios con más habitaciones tienden a tener menor proporción de población en desventaja socioeconómica.

Conclusiones

  • Los resultados confirman que tanto factores estructurales (rm) como socioeconómicos (lstat) influyen significativamente en el valor de las viviendas (medv).
  • La fuerza y significancia de las correlaciones sugieren que estas variables son buenos candidatos para incluir en un modelo de regresión predictivo del valor de las viviendas.
  • El análisis refleja desigualdades urbanas: barrios con más habitaciones y menor proporción de población vulnerable tienden a tener viviendas más caras.
  • La matriz de correlación respalda las observaciones previas de los histogramas y gráficos de dispersión, consolidando la evidencia de relaciones lineales claras entre estas variables.