Análisis de datos exploratorios

A continuación se indicaran los paguetes a emplear:

library(pacman)
p_load(MASS, tidyverse, GGally, skimr)
options(scipen=999)

Cargar y exportar la base de datos

Usando la base de datos Boston

Usando la función \(\text{Skim}\), nos da el siguiente resumen:

Data summary
Name Boston
Number of rows 506
Number of columns 14
_______________________
Column type frequency:
numeric 14
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
crim 0 1 3.61 8.60 0.01 0.08 0.26 3.68 88.98 ▇▁▁▁▁
zn 0 1 11.36 23.32 0.00 0.00 0.00 12.50 100.00 ▇▁▁▁▁
indus 0 1 11.14 6.86 0.46 5.19 9.69 18.10 27.74 ▇▆▁▇▁
chas 0 1 0.07 0.25 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▁
nox 0 1 0.55 0.12 0.38 0.45 0.54 0.62 0.87 ▇▇▆▅▁
rm 0 1 6.28 0.70 3.56 5.89 6.21 6.62 8.78 ▁▂▇▂▁
age 0 1 68.57 28.15 2.90 45.02 77.50 94.07 100.00 ▂▂▂▃▇
dis 0 1 3.80 2.11 1.13 2.10 3.21 5.19 12.13 ▇▅▂▁▁
rad 0 1 9.55 8.71 1.00 4.00 5.00 24.00 24.00 ▇▂▁▁▃
tax 0 1 408.24 168.54 187.00 279.00 330.00 666.00 711.00 ▇▇▃▁▇
ptratio 0 1 18.46 2.16 12.60 17.40 19.05 20.20 22.00 ▁▃▅▅▇
black 0 1 356.67 91.29 0.32 375.38 391.44 396.22 396.90 ▁▁▁▁▇
lstat 0 1 12.65 7.14 1.73 6.95 11.36 16.96 37.97 ▇▇▅▂▁
medv 0 1 22.53 9.20 5.00 17.02 21.20 25.00 50.00 ▂▇▅▁▁

Los primero 5 registros se pueden visualizar usando la función \(\text{head()}\), y da el siguiente resultado:

##      crim zn indus chas   nox    rm  age    dis rad tax ptratio  black lstat
## 1 0.00632 18  2.31    0 0.538 6.575 65.2 4.0900   1 296    15.3 396.90  4.98
## 2 0.02731  0  7.07    0 0.469 6.421 78.9 4.9671   2 242    17.8 396.90  9.14
## 3 0.02729  0  7.07    0 0.469 7.185 61.1 4.9671   2 242    17.8 392.83  4.03
## 4 0.03237  0  2.18    0 0.458 6.998 45.8 6.0622   3 222    18.7 394.63  2.94
## 5 0.06905  0  2.18    0 0.458 7.147 54.2 6.0622   3 222    18.7 396.90  5.33
## 6 0.02985  0  2.18    0 0.458 6.430 58.7 6.0622   3 222    18.7 394.12  5.21
##   medv
## 1 24.0
## 2 21.6
## 3 34.7
## 4 33.4
## 5 36.2
## 6 28.7

Dimensiones de la base de datos Boston.

## [1] 506  14

Descripción de las variables y tipo de variable.

## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

Resumen de la base por variable: min, max, media, moda, cuantiles.

##       crim                zn             indus            chas        
##  Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
##  1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
##  Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
##  Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
##  3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
##  Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
##       nox               rm             age              dis        
##  Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
##       rad              tax           ptratio          black       
##  Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
##      lstat            medv      
##  Min.   : 1.73   Min.   : 5.00  
##  1st Qu.: 6.95   1st Qu.:17.02  
##  Median :11.36   Median :21.20  
##  Mean   :12.65   Mean   :22.53  
##  3rd Qu.:16.95   3rd Qu.:25.00  
##  Max.   :37.97   Max.   :50.00

Medidas descriptivas

Para calcular las medidas descriptivas se seleccionaron las variables \(\text{medv, rm, lstat, crim}\) y \(\text{tax}\) como las variables continuas clave.

Las medias son:

##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154

Las desviaciones estándar son:

##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

Histogramas

Se presenta un histograma con las variables \(\textit{medv: median value of owner-occupied homes in 1000s}\), \(\textit{lstat:lower status of the population (percent)}\) y \(\textit{rm:average number of rooms per dwelling.}\):

Histogramas individuales.

- lstat: La mayoría de los valores están entre 5 y 20. La mayoría de zonas tienen niveles moderados de lstat, pero existen algunos barrios con niveles muy altos.

- medv: Tiene una distribución aproximadamente normal,la mayor concentración está entre 15 y 25 (miles de dólares). En esta base de datos el valor máximo es 50, por lo que muchas viviendas de mayor valor aparecen agrupadas ahí.

- rm: Distribución casi normal y simétrica.La mayoría de las viviendas tienen entre 5.5 y 6.5 habitaciones promedio.

Boxplot

Se presenta un gráfico de cajas con las variables \(\textit{medv: median value of owner-occupied homes in 1000s}\) y \(\textit{lstat:lower status of the population (percent)}\):

Los boxplots de individuales son:

lstat: Mediana alrededor de 11–12. Hay varios outliers altos, lo que indica barrios con porcentajes particularmente elevados de población de bajo estatus.

medv: Mediana cerca de 21–22. Se observan muchos outliers altos cerca de 50, lo cual otra vez se explica por el límite superior de la base de datos.

Relación con medv

A continuació se muestra un gráfico de puntos en el que podemos observar cómo es que se comportan los valores de las variables \(\textit{rm}\), \(\textit{lstat}\), \(\textit{crim}\) y \(\textit{tax}\), en relación con la variable \(\textit{medv}\):

- medv vs crim: no hay una relación clara. Sin embargo, en varios casos, a mayor criminalidad, menor valor de la vivienda.

- medv vs lstat: se observa una relación negativa clara. Cuando aumenta lstat, el valor de las casas disminuye significativamente.

- medv vs rm: hay una relación positiva fuerte. A mayor número de habitaciones promedio, mayor valor de la vivienda.

- medv vs tax: no se observa una relación clara.

Correlación

Matriz de correlación de las variables \(\textit{medv}\), \(\textit{lstat}\) y \(\textit{rm}\):

medv y rm (0.695): más habitaciones = mayor valor de vivienda.

medv y lstat (-0.738): mayor proporción de población de bajo estatus = menor valor de vivienda

rm y lstat (-0.614):zonas con más habitaciones suelen tener menor porcentaje de población de bajo estatus.

Conclusión

Los gráficos muestran que el valor medio de las viviendas (medv) está fuertemente influenciado por factores como: el número promedio de habitaciones (rm) quemuestra una relación positiva importante con el valor de las viviendas, mientras que el porcentaje de población de bajo estatus socioeconómico (lstat) presenta una relación negativa fuerte, siendo uno de los predictores más influyentes. Por otro lado, variables como la criminalidad (crim) muestran una relación negativa más débil, y el impuesto a la propiedad (tax) no parece tener una relación clara con el valor de las casas.