El presente informe desarrolla un análisis exploratorio de datos (EDA) sobre el conjunto de datos Boston. El objetivo principal es comprender la estructura estadística de las variables, identificar patrones de distribución, detectar posibles valores atípicos y explorar relaciones entre variables asociadas al mercado inmobiliario.
A continuación se indican los paquetes a emplear para trabajar con la base de datos.
Utilizamos la librería \(\textit{pacman}\) para cargar de forma
masiva los paquetes necesarios: MASS (que contiene el
dataset), tidyverse (para manipulación y
visualización), GGally (para matrices de correlación) y
skimr (para resúmenes estadísticos detallados). La
opción scipen = 999 se utiliza para evitar que los
resultados numéricos se presenten en notación científica, facilitando su
interpretación.
## Warning: package 'pacman' was built under R version 4.4.3
Los resultados que obtenemos del análisis general empleando la
función skim() se pueden observar a continuación:
skim(Boston)
| Name | Boston |
| Number of rows | 506 |
| Number of columns | 14 |
| _______________________ | |
| Column type frequency: | |
| numeric | 14 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| crim | 0 | 1 | 3.61 | 8.60 | 0.01 | 0.08 | 0.26 | 3.68 | 88.98 | ▇▁▁▁▁ |
| zn | 0 | 1 | 11.36 | 23.32 | 0.00 | 0.00 | 0.00 | 12.50 | 100.00 | ▇▁▁▁▁ |
| indus | 0 | 1 | 11.14 | 6.86 | 0.46 | 5.19 | 9.69 | 18.10 | 27.74 | ▇▆▁▇▁ |
| chas | 0 | 1 | 0.07 | 0.25 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▁ |
| nox | 0 | 1 | 0.55 | 0.12 | 0.38 | 0.45 | 0.54 | 0.62 | 0.87 | ▇▇▆▅▁ |
| rm | 0 | 1 | 6.28 | 0.70 | 3.56 | 5.89 | 6.21 | 6.62 | 8.78 | ▁▂▇▂▁ |
| age | 0 | 1 | 68.57 | 28.15 | 2.90 | 45.02 | 77.50 | 94.07 | 100.00 | ▂▂▂▃▇ |
| dis | 0 | 1 | 3.80 | 2.11 | 1.13 | 2.10 | 3.21 | 5.19 | 12.13 | ▇▅▂▁▁ |
| rad | 0 | 1 | 9.55 | 8.71 | 1.00 | 4.00 | 5.00 | 24.00 | 24.00 | ▇▂▁▁▃ |
| tax | 0 | 1 | 408.24 | 168.54 | 187.00 | 279.00 | 330.00 | 666.00 | 711.00 | ▇▇▃▁▇ |
| ptratio | 0 | 1 | 18.46 | 2.16 | 12.60 | 17.40 | 19.05 | 20.20 | 22.00 | ▁▃▅▅▇ |
| black | 0 | 1 | 356.67 | 91.29 | 0.32 | 375.38 | 391.44 | 396.22 | 396.90 | ▁▁▁▁▇ |
| lstat | 0 | 1 | 12.65 | 7.14 | 1.73 | 6.95 | 11.36 | 16.96 | 37.97 | ▇▇▅▂▁ |
| medv | 0 | 1 | 22.53 | 9.20 | 5.00 | 17.02 | 21.20 | 25.00 | 50.00 | ▂▇▅▁▁ |
Este resumen permite observar caracteristicas relevantes del dataset, tales como:
Es importante destacar que las variables medv, rm y lstat presentan especial relevancia en el análisis del mercado inmobiliario:
El comportamiento estadístico de estas variables sugiere distribuciones de probabilidad diferentes, lo cual tiene implicaciones importantes para la modelización posterior del precio de las viviendas.
Los primeros cinco registros se pueden observar a continuación:
head(Boston,5)
## crim zn indus chas nox rm age dis rad tax ptratio black lstat
## 1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98
## 2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14
## 3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03
## 4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94
## 5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33
## medv
## 1 24.0
## 2 21.6
## 3 34.7
## 4 33.4
## 5 36.2
Los descriptivos del conjunto de datos son los siguientes, permitiendo observar las dimensiones del espacio muestral y la naturaleza de las variables incluidas:
## [1] 506 14
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : num 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
## crim zn indus chas
## Min. : 0.00632 Min. : 0.00 Min. : 0.46 Min. :0.00000
## 1st Qu.: 0.08205 1st Qu.: 0.00 1st Qu.: 5.19 1st Qu.:0.00000
## Median : 0.25651 Median : 0.00 Median : 9.69 Median :0.00000
## Mean : 3.61352 Mean : 11.36 Mean :11.14 Mean :0.06917
## 3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.:18.10 3rd Qu.:0.00000
## Max. :88.97620 Max. :100.00 Max. :27.74 Max. :1.00000
## nox rm age dis
## Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1.130
## 1st Qu.:0.4490 1st Qu.:5.886 1st Qu.: 45.02 1st Qu.: 2.100
## Median :0.5380 Median :6.208 Median : 77.50 Median : 3.207
## Mean :0.5547 Mean :6.285 Mean : 68.57 Mean : 3.795
## 3rd Qu.:0.6240 3rd Qu.:6.623 3rd Qu.: 94.08 3rd Qu.: 5.188
## Max. :0.8710 Max. :8.780 Max. :100.00 Max. :12.127
## rad tax ptratio black
## Min. : 1.000 Min. :187.0 Min. :12.60 Min. : 0.32
## 1st Qu.: 4.000 1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38
## Median : 5.000 Median :330.0 Median :19.05 Median :391.44
## Mean : 9.549 Mean :408.2 Mean :18.46 Mean :356.67
## 3rd Qu.:24.000 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23
## Max. :24.000 Max. :711.0 Max. :22.00 Max. :396.90
## lstat medv
## Min. : 1.73 Min. : 5.00
## 1st Qu.: 6.95 1st Qu.:17.02
## Median :11.36 Median :21.20
## Mean :12.65 Mean :22.53
## 3rd Qu.:16.95 3rd Qu.:25.00
## Max. :37.97 Max. :50.00
El dataset contiene 506 observaciones y 14 variables, las cuales incluyen indicadores demográficos, económicos, ambientales y urbanos. Este tipo de datasets es común en estudios econométricos del mercado inmobiliario.
Calculamos la media y la desviación estándar para cuantificar la dispersión en torno al valor esperado.
#Media y desviacion estandar
mean(Boston_g1$medv)
## [1] 22.53281
sapply(Boston[variables_g1], mean)
## medv rm lstat crim tax
## 22.532806 6.284634 12.653063 3.613524 408.237154
sapply(Boston[variables_g1], sd)
## medv rm lstat crim tax
## 9.1971041 0.7026171 7.1410615 8.6015451 168.5371161
Observamos que la variable crim posee una desviación estándar considerablemente alta en comparación con su media. Esto indica una alta dispersión relativa, lo cual sugiere una distribución con asimetría positiva y cola derecha pesada.
Desde una perspectiva económica, esto es consistente con el fenómeno de criminalidad urbana: la mayoría de los distritos presentan niveles relativamente bajos de criminalidad, mientras que unos pocos distritos registran valores extremadamente altos.
El análisis conjunto permite identificar la escala de los datos y posibles problemas de soporte en las variables.
La variable rm muestra una distribución aproximadamente cuasi-normal, lo cual resulta favorable para métodos estadísticos que suponen normalidad.
Por otro lado, lstat presenta una clara asimetría positiva, indicando que existen algunos distritos con niveles particularmente altos de población de bajo estatus socioeconómico.
Finalmente, medv presenta acumulación de observaciones en el límite superior, reforzando la evidencia de truncamiento de la variable.
Se presenta un gráfico de cajas con informacion de las variables
\(\textit{medv:median value of owner-occupied
homes in 1000s.}\)\(\textit{lstat:lower
status of the population (percent). }\)
Los diagramas de caja permiten comparar las medianas y los rangos intercuartílicos entre variables.
Se observa que lstat presenta mayor dispersión relativa, mientras que medv muestra presencia de valores atípicos superiores.
La presencia recurrente de valores atípicos en medv sugiere que la varianza aumenta para valores altos del precio de las viviendas.
Este comportamiento es consistente con la presencia de heterocedasticidad, un fenómeno común en datos económicos donde la variabilidad crece conforme aumenta el nivel de ingreso o precio.
Buscamos patrones de asociación entre variables. Una nube de puntos dispersa sugiere independencia, mientras que una tendencia definida indica una relación funcional.
Los gráficos muestran relaciones relevantes:
Estas relaciones coinciden con la intuición económica: zonas con más habitaciones promedio suelen tener viviendas más valiosas, mientras que mayores niveles de pobreza o criminalidad tienden a reducir el valor inmobiliario.
Para variables con severidad extrema como crim o
tax, la escala logarítmica permite mejorar la visualización
de las relaciones.
La relación entre lstat y medv es monótona decreciente. Al aplicar una transformación logarítmica, la relación se aproxima a una forma más lineal, lo cual sugiere que la relación funcional subyacente podría describirse mediante modelos no lineales.
La matriz de correlación visual permite identificar simultáneamente relaciones lineales entre múltiples variables.
Estructura de correlación: Existe una relación negativa fuerte entre lstat y medv, lo que indica que el nivel socioeconómico es un determinante importante del valor de las viviendas.
Distribución de variables: Muchas variables presentan asimetría positiva, característica común en datos socioeconómicos.
Heterocedasticidad: Se observa evidencia preliminar de heterocedasticidad en medv, donde la variabilidad del precio aumenta para valores altos.
En conjunto, el dataset Boston presenta características típicas de datos económicos: presencia de valores extremos, distribuciones no simétricas y relaciones potencialmente no lineales entre variables.