Analisis exploratorio de la base Boston

Variables descriptivas:

##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154
##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

Histograma

Observaciones

La variable lstat exhibe una marcada asimetría positiva (sesgo a la derecha), acumulando la gran mayoría de sus observaciones en los niveles más bajos y proyectando una larga cola hacia los valores altos.

Los datos de medv se agrupan principalmente en los rangos medios, destacando un claro tope artificial o censura en la marca de los 50.

La variable rm presenta un comportamiento mucho más equilibrado y cercano a la simetría, cuyo punto central se establece alrededor de las 6 habitaciones.

Inferencias de los Histogramas Las gráficas de frecuencias insinúan una relación directa: a mayor cantidad de cuartos (rm), la valuación de las propiedades (medv) tiende a subir.

Por el contrario, el incremento en la proporción de habitantes de bajos recursos (lstat) presiona a la baja el valor promedio de las casas.

La falta de normalidad perfecta en estas distribuciones advierte que, al construir modelos de regresión, será indispensable aplicar tratamientos adecuados para manejar los sesgos y los límites absolutos en los datos.

Histogramas Univariantes

Boxplot

Boxplot univariante

Relación medv

## Warning: Unknown palette: "set2"

#observaciones crim vs medv: Existe una tendencia inversa evidente; a medida que aumentan los índices delictivos, el precio promedio de las casas disminuye.

lstat vs medv: De forma similar, se nota una caída en los precios; las zonas con una mayor proporción de habitantes de bajos recursos económicos presentan propiedades más baratas.

rm vs medv: Hay una correspondencia directa; las viviendas que cuentan con más cuartos en promedio tienden a tener un mayor valor en el mercado.

tax vs medv: Se aprecia una asociación a la baja; las propiedades sujetas a cargas impositivas más altas suelen tener tasaciones menores.

####Síntesis Final Las representaciones visuales dejan claro que el precio de las viviendas en Boston está fuertemente condicionado tanto por su entorno social (vulnerabilidad económica y delincuencia) como por sus características físicas (cantidad de habitaciones).

El número de cuartos (rm) actúa como el principal impulsor para elevar el valor de una propiedad, en claro contraste con el crimen (crim), el nivel socioeconómico bajo (lstat) y los impuestos (tax), que tienden a depreciarla.

Estas dinámicas evidencian una marcada brecha urbana, señalando que las áreas con mayores problemas de seguridad o cargas fiscales más pesadas concentran las casas de menor costo.

Con base en estos patrones gráficos, resulta pertinente implementar modelos de regresión para medir numéricamente estas dependencias y comprobar su validez estadística.

Graficas bivariantes

Matriz de correlación

###Hallazgos de Correlación medv y rm: Presentan una asociación positiva y considerable (0.695***), lo que confirma que las propiedades con un mayor promedio de cuartos alcanzan cotizaciones más altas en el mercado.

medv y lstat: Muestran una dependencia inversa bastante pronunciada (-0.738***), indicando que una mayor presencia de habitantes con un estatus socioeconómico bajo deprime marcadamente el valor inmobiliario.

rm y lstat: Revelan una relación negativa (-0.614***), lo que implica que las zonas con viviendas más amplias (con más habitaciones) suelen concentrar una menor proporción de población de bajos recursos.

####Conclusiones de la Matriz Se comprueba cuantitativamente que el precio de las casas (medv) está fuertemente determinado por variables tanto de diseño estructural (como rm) como de perfil demográfico (como lstat).

Dado el alto nivel de significancia y la magnitud de estos coeficientes, ambas métricas resultan óptimas como variables independientes para la futura construcción de modelos de regresión orientados a predecir precios.

Los datos evidencian claras disparidades socio-espaciales: las áreas habitacionales con menor vulnerabilidad social y casas de mayor tamaño concentran la plusvalía.

Esta matriz valida numéricamente las tendencias que ya se habían visualizado en los diagramas de dispersión y los histogramas, ratificando la existencia de vínculos lineales robustos entre estos indicadores.