Analisis exploratorio de datos, de la base de datos Boston.

Paquetes empleados para trabajar con la base:

  1. tidyverse
  2. GGally
  3. Skimr
  4. Pacman
  5. MASS

Cargamos la base de datos y realizamos una exploracion inicial del dataset:

Obtenemos un resumen general y detallado del dataset:

Se observa el volumen de los datos, el dataset cuenta con 506 observaciones, se dispone de 14 variables y que son del tipo numerico y no se detecta ninguna de tipo categorico, lo que hace el analisis mas sencillo.

Data summary
Name Boston
Number of rows 506
Number of columns 14
_______________________
Column type frequency:
numeric 14
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
crim 0 1 3.61 8.60 0.01 0.08 0.26 3.68 88.98 ▇▁▁▁▁
zn 0 1 11.36 23.32 0.00 0.00 0.00 12.50 100.00 ▇▁▁▁▁
indus 0 1 11.14 6.86 0.46 5.19 9.69 18.10 27.74 ▇▆▁▇▁
chas 0 1 0.07 0.25 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▁
nox 0 1 0.55 0.12 0.38 0.45 0.54 0.62 0.87 ▇▇▆▅▁
rm 0 1 6.28 0.70 3.56 5.89 6.21 6.62 8.78 ▁▂▇▂▁
age 0 1 68.57 28.15 2.90 45.02 77.50 94.07 100.00 ▂▂▂▃▇
dis 0 1 3.80 2.11 1.13 2.10 3.21 5.19 12.13 ▇▅▂▁▁
rad 0 1 9.55 8.71 1.00 4.00 5.00 24.00 24.00 ▇▂▁▁▃
tax 0 1 408.24 168.54 187.00 279.00 330.00 666.00 711.00 ▇▇▃▁▇
ptratio 0 1 18.46 2.16 12.60 17.40 19.05 20.20 22.00 ▁▃▅▅▇
black 0 1 356.67 91.29 0.32 375.38 391.44 396.22 396.90 ▁▁▁▁▇
lstat 0 1 12.65 7.14 1.73 6.95 11.36 16.96 37.97 ▇▇▅▂▁
medv 0 1 22.53 9.20 5.00 17.02 21.20 25.00 50.00 ▂▇▅▁▁

Podemos observar las dimensiones y estructuras para asegurar la integridad de la informacion:

Se comprueba lo observado en el analisis anterior, comprobando que las variables son de tipo numerico y entero

## [1] 506  14
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

Analisis descriptivo.

Para este analisis seleccionamos las variables de mayor interes estadistico: medv (valor medio de viviendas ocupadas por sus propietarios), rm (habitaciones por vivienda), lstat(poblacion con estatus bajo), crim (criminalidad) y tax (impuestos).

A continuacion calulamos la media y la desviacion estandar para entender la escala de nuestras variables clave.

El valor medio promedio de las casas es de aproximadamente $22.53 mil USD, tambien se observa que las casas en promedio tienen cerca de 6.28 habitaciones, y el promedio de poblacion de bajo estatus es del 12.65%

En cuanto a la desviacion estandar, en cuanto a la criminalidad notese que la ds de 8.6 es mucho mayor que la media de 3,61. Lo que indica una alta variabilidad y un sesgo, es decir, hay zonas muy seguras y otras con picos de criminalidad alta, por otro lado los impuestos tienen ds de 168.53, lo que suguiere una diferencia fiscal significativa entre los distintos distritos de Boston

##    medv    rm lstat    crim tax
## 1  24.0 6.575  4.98 0.00632 296
## 2  21.6 6.421  9.14 0.02731 242
## 3  34.7 7.185  4.03 0.02729 242
## 4  33.4 6.998  2.94 0.03237 222
## 5  36.2 7.147  5.33 0.06905 222
## 6  28.7 6.430  5.21 0.02985 222
## 7  22.9 6.012 12.43 0.08829 311
## 8  27.1 6.172 19.15 0.14455 311
## 9  16.5 5.631 29.93 0.21124 311
## 10 18.9 6.004 17.10 0.17004 311
## [1] 22.53281
##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154
##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

Distribucion de variables clave (Histogramas).

Aqui analizamos la forma de la distribucion de medv, rm y lstat, para identificar posibles sesgos o valores atipicos.

lstat: presenta un sesgo positivo hacia la derecha. la mayoria de los sectores se concentran en niveles bajos y medios de pobreza (5% y 15%), pero la cola larga indica la presencia de condiciones precarias en algunas zonas.

medv: muestra una distribucion medio acampanada, con una concentracion entre los 20 y 25 mil USD. Pero tambien se observa un pico inusual en el valor de 50.

rm: Es la variable que más se aproxima a una distribución normal. La mayoría de las viviendas cuentan con un promedio de 6 habitaciones.

Deteccion de valores atipicos (Boxplot).

El uso de boxplots aqui nos ayuda para visualizar la dispersion y la presencia de outliers de manera efectiva.

medv: Se observa una mediana cercana a los 21-22 mil dólares, lo cual coincide con la media calculada previamente de 22.53. Es notable la presencia de una cantidad considerable de outliers en la parte superior, destacando valores que alcanzan el tope de 50.

lstat: La mediana se sitúa ligeramente por encima de 10, alineándose con el promedio de 12.65 obtenido en los descriptivos. El boxplot confirma el sesgo positivo observado en el histograma, mostrando varios valores atípicos que superan el 30%. Esto indica que existen sectores específicos con una concentración de pobreza alta.

## Warning: Orientation is not uniquely specified when both the x and y aesthetics are
## continuous. Picking default orientation 'x'.

Analisis de tendencia.

Realizamos un grafico de dispersion para las variables observadas, y asi poder analizar si existe alguna relacion lineal.

Analisis Bivariante y Correlacion.

En esta parte exploramos como interactuan las variables independientes con nuestra variable objetivo (medv).

Relaciones con el valor medio de la vivienda:

Relación Inversa con lstat: Es la relación más marcada y clara. Se observa una tendencia decreciente de forma no lineal, a medida que aumenta el porcentaje de población de estatus bajo, el valor de la vivienda disminuye drásticamente. Esto sugiere que el entorno socioeconómico es un predictor crítico para el precio.

Relación Directa con rm: Se observa una correlación positiva fuerte. A mayor número de habitaciones, el valor mediano de la propiedad tiende a subir.

Relación con crim: La mayoría de las viviendas con valores altos se concentran en zonas seguras. Se observa que en cuanto la tasa de criminalidad empieza a subir, los precios de las viviendas disminuyen y se mantienen en niveles bajos, sin superar los 20-30 mil dólares.

Relación con tax: Se observa una distribucion donde los precios más altos suelen estar en zonas con impuestos bajos o moderados. Existe un grupo específico de propiedades en zonas de altos impuestos (cerca de 600-700) donde los precios varían mucho, pero tienden a ser más bajos en comparación con las zonas de baja carga fiscal.

Matriz de correlacion Visual.

Finalmente, utilizamos una matriz de correlacion para cuantificar la fuerza de estas relaciones.

lstat: Existe una correlación negativa fuerte de -0.738. El gráfico de dispersión confirma una caída no lineal, a medida que sube el porcentaje de estatus bajo, el precio de la vivienda cae de forma drástica.

rm: Existe una correlación positiva de 0.695. Es un predictor lineal claro, a más habitaciones, mayor es el valor mediano de la propiedad.

CONCLUSION:

El valor de la vivienda en Boston está determinado primordialmente por la combinación de espacio físico (rm) y contexto socioeconómico (lstat). Para un modelo predictivo futuro, estas dos variables serían los predictores más potentes debido a sus altos coeficientes de correlación y tendencias claras en los gráficos de dispersión.