Paquetes empleados para trabajar con la base:
Se observa el volumen de los datos, el dataset cuenta con 506 observaciones, se dispone de 14 variables y que son del tipo numerico y no se detecta ninguna de tipo categorico, lo que hace el analisis mas sencillo.
| Name | Boston |
| Number of rows | 506 |
| Number of columns | 14 |
| _______________________ | |
| Column type frequency: | |
| numeric | 14 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| crim | 0 | 1 | 3.61 | 8.60 | 0.01 | 0.08 | 0.26 | 3.68 | 88.98 | ▇▁▁▁▁ |
| zn | 0 | 1 | 11.36 | 23.32 | 0.00 | 0.00 | 0.00 | 12.50 | 100.00 | ▇▁▁▁▁ |
| indus | 0 | 1 | 11.14 | 6.86 | 0.46 | 5.19 | 9.69 | 18.10 | 27.74 | ▇▆▁▇▁ |
| chas | 0 | 1 | 0.07 | 0.25 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▁ |
| nox | 0 | 1 | 0.55 | 0.12 | 0.38 | 0.45 | 0.54 | 0.62 | 0.87 | ▇▇▆▅▁ |
| rm | 0 | 1 | 6.28 | 0.70 | 3.56 | 5.89 | 6.21 | 6.62 | 8.78 | ▁▂▇▂▁ |
| age | 0 | 1 | 68.57 | 28.15 | 2.90 | 45.02 | 77.50 | 94.07 | 100.00 | ▂▂▂▃▇ |
| dis | 0 | 1 | 3.80 | 2.11 | 1.13 | 2.10 | 3.21 | 5.19 | 12.13 | ▇▅▂▁▁ |
| rad | 0 | 1 | 9.55 | 8.71 | 1.00 | 4.00 | 5.00 | 24.00 | 24.00 | ▇▂▁▁▃ |
| tax | 0 | 1 | 408.24 | 168.54 | 187.00 | 279.00 | 330.00 | 666.00 | 711.00 | ▇▇▃▁▇ |
| ptratio | 0 | 1 | 18.46 | 2.16 | 12.60 | 17.40 | 19.05 | 20.20 | 22.00 | ▁▃▅▅▇ |
| black | 0 | 1 | 356.67 | 91.29 | 0.32 | 375.38 | 391.44 | 396.22 | 396.90 | ▁▁▁▁▇ |
| lstat | 0 | 1 | 12.65 | 7.14 | 1.73 | 6.95 | 11.36 | 16.96 | 37.97 | ▇▇▅▂▁ |
| medv | 0 | 1 | 22.53 | 9.20 | 5.00 | 17.02 | 21.20 | 25.00 | 50.00 | ▂▇▅▁▁ |
Se comprueba lo observado en el analisis anterior, comprobando que las variables son de tipo numerico y entero
## [1] 506 14
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : num 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
El valor medio promedio de las casas es de aproximadamente $22.53 mil USD, tambien se observa que las casas en promedio tienen cerca de 6.28 habitaciones, y el promedio de poblacion de bajo estatus es del 12.65%
En cuanto a la desviacion estandar, en cuanto a la criminalidad notese que la ds de 8.6 es mucho mayor que la media de 3,61. Lo que indica una alta variabilidad y un sesgo, es decir, hay zonas muy seguras y otras con picos de criminalidad alta, por otro lado los impuestos tienen ds de 168.53, lo que suguiere una diferencia fiscal significativa entre los distintos distritos de Boston
## medv rm lstat crim tax
## 1 24.0 6.575 4.98 0.00632 296
## 2 21.6 6.421 9.14 0.02731 242
## 3 34.7 7.185 4.03 0.02729 242
## 4 33.4 6.998 2.94 0.03237 222
## 5 36.2 7.147 5.33 0.06905 222
## 6 28.7 6.430 5.21 0.02985 222
## 7 22.9 6.012 12.43 0.08829 311
## 8 27.1 6.172 19.15 0.14455 311
## 9 16.5 5.631 29.93 0.21124 311
## 10 18.9 6.004 17.10 0.17004 311
## [1] 22.53281
## medv rm lstat crim tax
## 22.532806 6.284634 12.653063 3.613524 408.237154
## medv rm lstat crim tax
## 9.1971041 0.7026171 7.1410615 8.6015451 168.5371161
lstat: presenta un sesgo positivo hacia la derecha. la mayoria de los sectores se concentran en niveles bajos y medios de pobreza (5% y 15%), pero la cola larga indica la presencia de condiciones precarias en algunas zonas.
medv: muestra una distribucion medio acampanada, con una concentracion entre los 20 y 25 mil USD. Pero tambien se observa un pico inusual en el valor de 50.
rm: Es la variable que más se aproxima a una distribución normal. La mayoría de las viviendas cuentan con un promedio de 6 habitaciones.
El uso de boxplots aqui nos ayuda para visualizar la dispersion y la presencia de outliers de manera efectiva.
medv: Se observa una mediana cercana a los 21-22 mil dólares, lo cual coincide con la media calculada previamente de 22.53. Es notable la presencia de una cantidad considerable de outliers en la parte superior, destacando valores que alcanzan el tope de 50.
lstat: La mediana se sitúa ligeramente por encima de 10, alineándose con el promedio de 12.65 obtenido en los descriptivos. El boxplot confirma el sesgo positivo observado en el histograma, mostrando varios valores atípicos que superan el 30%. Esto indica que existen sectores específicos con una concentración de pobreza alta.
## Warning: Orientation is not uniquely specified when both the x and y aesthetics are
## continuous. Picking default orientation 'x'.
Realizamos un grafico de dispersion para las variables observadas, y asi poder analizar si existe alguna relacion lineal.
En esta parte exploramos como interactuan las variables independientes con nuestra variable objetivo (medv).
Relación Inversa con lstat: Es la relación más marcada y clara. Se observa una tendencia decreciente de forma no lineal, a medida que aumenta el porcentaje de población de estatus bajo, el valor de la vivienda disminuye drásticamente. Esto sugiere que el entorno socioeconómico es un predictor crítico para el precio.
Relación Directa con rm: Se observa una correlación positiva fuerte. A mayor número de habitaciones, el valor mediano de la propiedad tiende a subir.
Relación con crim: La mayoría de las viviendas con valores altos se concentran en zonas seguras. Se observa que en cuanto la tasa de criminalidad empieza a subir, los precios de las viviendas disminuyen y se mantienen en niveles bajos, sin superar los 20-30 mil dólares.
Relación con tax: Se observa una distribucion donde los precios más altos suelen estar en zonas con impuestos bajos o moderados. Existe un grupo específico de propiedades en zonas de altos impuestos (cerca de 600-700) donde los precios varían mucho, pero tienden a ser más bajos en comparación con las zonas de baja carga fiscal.
lstat: Existe una correlación negativa fuerte de -0.738. El gráfico de dispersión confirma una caída no lineal, a medida que sube el porcentaje de estatus bajo, el precio de la vivienda cae de forma drástica.
rm: Existe una correlación positiva de 0.695. Es un predictor lineal claro, a más habitaciones, mayor es el valor mediano de la propiedad.