Analisis exploratorio de la base Boston
Variables descriptivas:
## medv rm lstat crim tax
## 22.532806 6.284634 12.653063 3.613524 408.237154
## medv rm lstat crim tax
## 9.1971041 0.7026171 7.1410615 8.6015451 168.5371161
- El valor medio de las casas (medv) es aproximadamente 22.5, con una
desviación estándar cercana a 9.2, lo que indica una dispersión
considerable.
- El número promedio de habitaciones (rm) es 6.28, con variabilidad
moderada.
- La tasa de crimen (crim) y el impuesto a la propiedad (tax) muestran
valores muy dispersos y presencia de outliers.
Histograma

Observaciones
- La variable lstat presenta una distribución sesgada
hacia valores bajos, con una cola larga hacia la derecha.
- La variable medv se concentra en valores
intermedios, con un límite superior marcado en 50.
- La variable rm muestra una distribución más
simétrica, centrada alrededor de 6 habitaciones.
Conclusiones
- Los histogramas sugieren que un mayor número de habitaciones
(rm) se asocia con un mayor valor medio de vivienda
(medv).
- Un mayor porcentaje de población con bajo estatus socioeconómico
(lstat) se relaciona con menores valores de
vivienda.
- Las distribuciones no son perfectamente normales, lo que implica
considerar sesgos y límites al aplicar modelos estadísticos.
Boxplot

Boxplot univariante


Relación medv
## Warning: Unknown palette: "set2"

Observaciones
- crim vs medv: se observa una relación negativa; a
mayor tasa de criminalidad, menor valor medio de las viviendas.
- lstat vs medv: también hay una relación negativa;
un mayor porcentaje de población con bajo estatus socioeconómico se
asocia con menores valores de vivienda.
- rm vs medv: la relación es positiva; un mayor
número de habitaciones promedio se vincula con un mayor valor medio de
las viviendas.
- tax vs medv: la relación tiende a ser negativa;
impuestos más altos se asocian con valores de vivienda más bajos.
Conclusiones
- Los gráficos confirman que factores sociales (como
lstat y crim) y estructurales
(rm) influyen directamente en el valor de las viviendas en
Boston.
- La variable
rm es un fuerte predictor positivo de
medv, mientras que crim, lstat y
tax actúan como factores que reducen el valor.
- Estas relaciones sugieren desigualdades urbanas: barrios con más
criminalidad o mayor carga impositiva tienden a tener viviendas menos
valoradas.
- Los patrones visuales respaldan la necesidad de aplicar modelos de
regresión para cuantificar estas asociaciones y evaluar su significancia
estadística.
Matriz de correlación

Observaciones
- La correlación entre medv y rm es
positiva y relativamente fuerte (0.695***), lo que indica que un mayor
número de habitaciones promedio se asocia con un mayor valor medio de
las viviendas.
- La correlación entre medv y lstat
es negativa y aún más fuerte (-0.738***), mostrando que un mayor
porcentaje de población con bajo estatus socioeconómico se relaciona con
menores valores de vivienda.
- La correlación entre rm y lstat es
negativa (-0.614***), lo que sugiere que barrios con más habitaciones
tienden a tener menor proporción de población en desventaja
socioeconómica.
Conclusiones
- Los resultados confirman que tanto factores estructurales
(rm) como socioeconómicos (lstat)
influyen significativamente en el valor de las viviendas
(medv).
- La fuerza y significancia de las correlaciones sugieren que estas
variables son buenos candidatos para incluir en un modelo de regresión
predictivo del valor de las viviendas.
- El análisis refleja desigualdades urbanas: barrios con más
habitaciones y menor proporción de población vulnerable tienden a tener
viviendas más caras.
- La matriz de correlación respalda las observaciones previas de los
histogramas y gráficos de dispersión, consolidando la evidencia de
relaciones lineales claras entre estas variables.