Análisis Exploratorio de Datos de la Base Boston

El presente informe desarrolla un análisis exploratorio de datos (EDA) sobre el conjunto de datos Boston. El objetivo principal es comprender la estructura estadística de las variables, identificar patrones de distribución, detectar posibles valores atípicos y explorar relaciones entre variables asociadas al mercado inmobiliario.

A continuación se indican los paquetes a emplear para trabajar con la base de datos.

Utilizamos la librería \(\textit{pacman}\) para cargar de forma masiva los paquetes necesarios: MASS (que contiene el dataset), tidyverse (para manipulación y visualización), GGally (para matrices de correlación) y skimr (para resúmenes estadísticos detallados). La opción scipen = 999 se utiliza para evitar que los resultados numéricos se presenten en notación científica, facilitando su interpretación.

## Warning: package 'pacman' was built under R version 4.4.3

Resumen general del conjunto de datos

Los resultados que obtenemos del análisis general empleando la función skim() se pueden observar a continuación:

skim(Boston)
Data summary
Name Boston
Number of rows 506
Number of columns 14
_______________________
Column type frequency:
numeric 14
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
crim 0 1 3.61 8.60 0.01 0.08 0.26 3.68 88.98 ▇▁▁▁▁
zn 0 1 11.36 23.32 0.00 0.00 0.00 12.50 100.00 ▇▁▁▁▁
indus 0 1 11.14 6.86 0.46 5.19 9.69 18.10 27.74 ▇▆▁▇▁
chas 0 1 0.07 0.25 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▁
nox 0 1 0.55 0.12 0.38 0.45 0.54 0.62 0.87 ▇▇▆▅▁
rm 0 1 6.28 0.70 3.56 5.89 6.21 6.62 8.78 ▁▂▇▂▁
age 0 1 68.57 28.15 2.90 45.02 77.50 94.07 100.00 ▂▂▂▃▇
dis 0 1 3.80 2.11 1.13 2.10 3.21 5.19 12.13 ▇▅▂▁▁
rad 0 1 9.55 8.71 1.00 4.00 5.00 24.00 24.00 ▇▂▁▁▃
tax 0 1 408.24 168.54 187.00 279.00 330.00 666.00 711.00 ▇▇▃▁▇
ptratio 0 1 18.46 2.16 12.60 17.40 19.05 20.20 22.00 ▁▃▅▅▇
black 0 1 356.67 91.29 0.32 375.38 391.44 396.22 396.90 ▁▁▁▁▇
lstat 0 1 12.65 7.14 1.73 6.95 11.36 16.96 37.97 ▇▇▅▂▁
medv 0 1 22.53 9.20 5.00 17.02 21.20 25.00 50.00 ▂▇▅▁▁

Este resumen permite observar caracteristicas relevantes del dataset, tales como:

  • Número de observaciones
  • Tipo de variables
  • Valores faltantes
  • Medidas descriptivas básicas
  • Comportamiento general de las distribuciones

Es importante destacar que las variables medv, rm y lstat presentan especial relevancia en el análisis del mercado inmobiliario:

  • medv representa el valor mediano de las viviendas ocupadas por propietarios.
  • rm corresponde al número promedio de habitaciones por vivienda.
  • lstat indica el porcentaje de población de bajo estatus socioeconómico.

El comportamiento estadístico de estas variables sugiere distribuciones de probabilidad diferentes, lo cual tiene implicaciones importantes para la modelización posterior del precio de las viviendas.

Observación de los primeros registros

Los primeros cinco registros se pueden observar a continuación:

head(Boston,5)
##      crim zn indus chas   nox    rm  age    dis rad tax ptratio  black lstat
## 1 0.00632 18  2.31    0 0.538 6.575 65.2 4.0900   1 296    15.3 396.90  4.98
## 2 0.02731  0  7.07    0 0.469 6.421 78.9 4.9671   2 242    17.8 396.90  9.14
## 3 0.02729  0  7.07    0 0.469 7.185 61.1 4.9671   2 242    17.8 392.83  4.03
## 4 0.03237  0  2.18    0 0.458 6.998 45.8 6.0622   3 222    18.7 394.63  2.94
## 5 0.06905  0  2.18    0 0.458 7.147 54.2 6.0622   3 222    18.7 396.90  5.33
##   medv
## 1 24.0
## 2 21.6
## 3 34.7
## 4 33.4
## 5 36.2

Descripción estructural del dataset

Los descriptivos del conjunto de datos son los siguientes, permitiendo observar las dimensiones del espacio muestral y la naturaleza de las variables incluidas:

## [1] 506  14
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
##       crim                zn             indus            chas        
##  Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
##  1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
##  Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
##  Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
##  3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
##  Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
##       nox               rm             age              dis        
##  Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
##       rad              tax           ptratio          black       
##  Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
##      lstat            medv      
##  Min.   : 1.73   Min.   : 5.00  
##  1st Qu.: 6.95   1st Qu.:17.02  
##  Median :11.36   Median :21.20  
##  Mean   :12.65   Mean   :22.53  
##  3rd Qu.:16.95   3rd Qu.:25.00  
##  Max.   :37.97   Max.   :50.00

El dataset contiene 506 observaciones y 14 variables, las cuales incluyen indicadores demográficos, económicos, ambientales y urbanos. Este tipo de datasets es común en estudios econométricos del mercado inmobiliario.


Resúmenes Estadísticos (Medidas Descriptivas)

Calculamos la media y la desviación estándar para cuantificar la dispersión en torno al valor esperado.

#Media y desviacion estandar
mean(Boston_g1$medv)
## [1] 22.53281
sapply(Boston[variables_g1], mean)
##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154
sapply(Boston[variables_g1], sd)
##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

Observamos que la variable crim posee una desviación estándar considerablemente alta en comparación con su media. Esto indica una alta dispersión relativa, lo cual sugiere una distribución con asimetría positiva y cola derecha pesada.

Desde una perspectiva económica, esto es consistente con el fenómeno de criminalidad urbana: la mayoría de los distritos presentan niveles relativamente bajos de criminalidad, mientras que unos pocos distritos registran valores extremadamente altos.


Análisis de Distribución: Histogramas

El análisis conjunto permite identificar la escala de los datos y posibles problemas de soporte en las variables.

Histogramas Univariados

La variable rm muestra una distribución aproximadamente cuasi-normal, lo cual resulta favorable para métodos estadísticos que suponen normalidad.

Por otro lado, lstat presenta una clara asimetría positiva, indicando que existen algunos distritos con niveles particularmente altos de población de bajo estatus socioeconómico.

Finalmente, medv presenta acumulación de observaciones en el límite superior, reforzando la evidencia de truncamiento de la variable.


Análisis de Outliers: Boxplots

Boxplots de manera conjunta

Se presenta un gráfico de cajas con informacion de las variables \(\textit{medv:median value of owner-occupied homes in 1000s.}\)\(\textit{lstat:lower status of the population (percent). }\)

Los diagramas de caja permiten comparar las medianas y los rangos intercuartílicos entre variables.

Se observa que lstat presenta mayor dispersión relativa, mientras que medv muestra presencia de valores atípicos superiores.

Boxplots univariados

La presencia recurrente de valores atípicos en medv sugiere que la varianza aumenta para valores altos del precio de las viviendas.

Este comportamiento es consistente con la presencia de heterocedasticidad, un fenómeno común en datos económicos donde la variabilidad crece conforme aumenta el nivel de ingreso o precio.


Análisis de Dependencia: Scatter Plots

Buscamos patrones de asociación entre variables. Una nube de puntos dispersa sugiere independencia, mientras que una tendencia definida indica una relación funcional.

Los gráficos muestran relaciones relevantes:

Estas relaciones coinciden con la intuición económica: zonas con más habitaciones promedio suelen tener viviendas más valiosas, mientras que mayores niveles de pobreza o criminalidad tienden a reducir el valor inmobiliario.


Análisis con Transformación Logarítmica

Para variables con severidad extrema como crim o tax, la escala logarítmica permite mejorar la visualización de las relaciones.

La relación entre lstat y medv es monótona decreciente. Al aplicar una transformación logarítmica, la relación se aproxima a una forma más lineal, lo cual sugiere que la relación funcional subyacente podría describirse mediante modelos no lineales.


Matriz de Correlación Visual

La matriz de correlación visual permite identificar simultáneamente relaciones lineales entre múltiples variables.


Observaciones y Conclusiones

Estructura de correlación: Existe una relación negativa fuerte entre lstat y medv, lo que indica que el nivel socioeconómico es un determinante importante del valor de las viviendas.

Distribución de variables: Muchas variables presentan asimetría positiva, característica común en datos socioeconómicos.

Heterocedasticidad: Se observa evidencia preliminar de heterocedasticidad en medv, donde la variabilidad del precio aumenta para valores altos.

En conjunto, el dataset Boston presenta características típicas de datos económicos: presencia de valores extremos, distribuciones no simétricas y relaciones potencialmente no lineales entre variables.