Reporte de datos de la base Boston

1. Carga y exploracion de la base de datos

Para el análisis de los datos de la base de Boston es importante destacar el porceso de codificación para poder llegar a una interpretacion y por ende a una conclusión.

Primero se hace el cargado de las librerias a ocupar las cuales se van a presentar a continuacion y el respectivo codigo.

No. de paqueteria Nombre
1 Pacman
2 GGally
3 MASS
4 tidyverse
5 skimr
6 ggplo2
library(pacman)
library(GGally)
require(pacman)
require(GGally)
p_load(MASS,tidyverse,skimr)

Una vez cargada las paqueterias a ocupar, el siguiente paso es descargar la base de datos que se encuentra en la paqueteria MASS con la siguiente función:

data("Boston")

Cuando se esta haciendo un analisis sobre una nueva base de datos o una desconocida es necesario conocer las variables y sus carcteristicas; del mismo modo, es importante mencionar que necestamos saber las dimenciones de nuestra base de datos, a continuación la sintaxis necesaria.

head(Boston) # Muestra los nombres de las variables y los primeros registros.
##      crim zn indus chas   nox    rm  age    dis rad tax ptratio  black lstat
## 1 0.00632 18  2.31    0 0.538 6.575 65.2 4.0900   1 296    15.3 396.90  4.98
## 2 0.02731  0  7.07    0 0.469 6.421 78.9 4.9671   2 242    17.8 396.90  9.14
## 3 0.02729  0  7.07    0 0.469 7.185 61.1 4.9671   2 242    17.8 392.83  4.03
## 4 0.03237  0  2.18    0 0.458 6.998 45.8 6.0622   3 222    18.7 394.63  2.94
## 5 0.06905  0  2.18    0 0.458 7.147 54.2 6.0622   3 222    18.7 396.90  5.33
## 6 0.02985  0  2.18    0 0.458 6.430 58.7 6.0622   3 222    18.7 394.12  5.21
##   medv
## 1 24.0
## 2 21.6
## 3 34.7
## 4 33.4
## 5 36.2
## 6 28.7
dim(Boston) # Muestras las columnas y filas de la base de datos.
## [1] 506  14
str(Boston) #Muestra las variables y el tipo
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
summary(Boston) #Muestra un analisis estadsitico del min, max, mediana, media.
##       crim                zn             indus            chas        
##  Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
##  1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
##  Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
##  Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
##  3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
##  Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
##       nox               rm             age              dis        
##  Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
##       rad              tax           ptratio          black       
##  Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
##      lstat            medv      
##  Min.   : 1.73   Min.   : 5.00  
##  1st Qu.: 6.95   1st Qu.:17.02  
##  Median :11.36   Median :21.20  
##  Mean   :12.65   Mean   :22.53  
##  3rd Qu.:16.95   3rd Qu.:25.00  
##  Max.   :37.97   Max.   :50.00

Como se puede observar la base de datos tiene 506 registros la cual consta de 14 variables, que en su mayoria son del tipo numericas.

2. Medidas descriptivas

Cuando se trabaja con medidas descriptivas es importante de que trata la variable, para este análisis se usaran la variable \(medv\), \(rm\), \(lstat\), \(crim\) y \(tax\) las cuales se describirán en la siguiente tabla:

Variable Descripcion
medv El valor medio de las viviendas ocupadas por sus propietarios es de miles de dólares.
rm Número medio de habitaciones por vivienda.
lstat menor estatus de población (porcentaje).
crim Tasa de criminalidad per cápita por pueblo.
tax Tasa del impuesto sobre la propiedad de valor completo por cada 10.000 dólares.

Por lo tanto vamos a hacer la seleccion de las columnas \((\)variables\()\) parapoder trabajar libremente con ellas, el nombre de la nuevabase tendra como nombre \(Boston\)_\(g1\).

variables_g1 <- c("medv","rm","lstat","crim","tax")
Boston_g1 <- Boston %>% 
  select(all_of(variables_g1))

Para hacer el cálculo de la media y la varianza se pueden hacer de manera individual, sin embargo para mas comodidad se usara la función \(sapply\)

# Media
sapply(Boston[variables_g1], mean)
##       medv         rm      lstat       crim        tax 
##  22.532806   6.284634  12.653063   3.613524 408.237154
#Desviación estandar
sapply(Boston[variables_g1], sd)
##        medv          rm       lstat        crim         tax 
##   9.1971041   0.7026171   7.1410615   8.6015451 168.5371161

con esto se puede interpretar lo siguiente:

  1. \(medv\): el valor promedio total de las viviendas ocupadas es de $22,532.806 UM y tiene una desviación de 9,197.104 UM
  2. \(rm\): en promedio cada vivienda tiene 6 habitaciones, si bien el numero es decimal, pero no existen habitaciones incompletas, por eso se tomo el número entero mas cercano a la media y tiene una desviación estadnar de 0.7 habitaciones, tomando el valor entero mas cercano es de una habitacion por vivienda
  3. \(lstat\):en promedio el 12.6530 % pertenece a un estatus bajo con respecto a la sociedad en generaly tiene una desviación de 7.14106%
  4. \(crim\):en promedio la tasa de criminalidad percapita es de 3.61% y tiene una desviación de 8.60%
  5. \(tax\): el promedio de la tasa de impuesto es de 408.2371 y tiene una desviación de 168.5371

Conclusión

Se puede observar una tasa baja de criminalidad; sin embargo, se observa una gran variacion, esto quiere decir que existen puntos de la ciudad que tienen tasas de crimalidad mas altas que otras; se puede confirmar con el valor medio de las viviendas por zona que tambien tiene una variacion bastante alta.

3.Análisis gráfico

Para poder hacer un analisis mas detallado veremos la relación entre las variables para eso trabajaremos con las siguientes releaciones para hacer un analisis completo.

Análisis individual

Variable medv

Con la siguiente gráfica se puede observar que el número de viviendas tienen un valor medio mas alto entre los valores de 15,000 y 25,000 por otro lado despues de 25,000 el numero de viviendas que tienen un valor mayor a 25,000 va disminuyendo gradualmente.

Se puede concluir que el valor medio de la vivienda de gran parte de a población se encuentra por debajo de los 25,000 UM

Variable lstat

Se puede observar que los porcentajes de población con estatus bajo que tiene mas registross estan entre el 5% y 10%, por otro lado los que tienen menos observaciones cuando el porcenyaje es menor a el 3% o cuando es mayor a 35%.

Se concluye que tiene valores muy separados, esto quiere decir que hay datos muy extremos donde hay registros muy grandes o muy pequeños, esto al momento de calcular la media genera una discrepancia, se recomienda hacer una mediana o una moda para hacer un analisis mas robusto y certero.

Variable rm se puede observar que usualmente las viviendas tienen 6 habitaciones, mientrs que hay pocas viviendas que tienen 1 o 9 habitaciones.

Analis de caja a las variables \(medv\) y \(lstat\)

Al momento de realizar un análisis las graficas de caja muestran la distribucipón y el comportamiento de los datos de una variable, a continuación se mostrarán las siguientes graficas y se hará su respectivo analisis.

se puede observar que en ambas cajas de las variables muestran outliers en la parte superior, por otro lado la caja de la variable \(lstat\) muestra una media ligeramente hacia abajo lo que quiere decir que los datos estan sesgados, por lo tanto con esto se confirma la conslusión anterior con esta grafica.

Relación de la variable \(medv\)

Para concluir se observara la relación de la variable \(medv\) con las demas variables y se hara un respectiva interpretación.

\(medv\) vs \(crim\)

Se puede observar en la grafica que no existe como tal una relacion muy estrecha, sin embargo, se puede destacar que en las zonas donde el valor medio de una vivienda es menor a 30,000 UM muestra un aumento en la tasa de criminalidad, sin embargo no es proporcional; por otro lado donde las tasa de criminalidad es muy baja es en las zonas donde las viviendas tienen un valor medio superior a las 30,000 UM.

\(medv\) vs \(lstat\)

Se puede ver una relacion negativa entre el valor medio de una vivienda con la tasa de la población con bajo estatus. Se puede interpretar que ha medida que el valor medio de la vivienda, disminuye la tasa de la población con bajo estatus; es decir, en zonas donde el valor medio de la vivienda es mayor a 40,000 UM la tasa de poblacion que poseé un estatus bajo es menor al 10%.

\(medv\) vs \(rm\)

La relación entre estas dos variables es positiva y es altamente estrecha, sin embargo se pueden observar valores atipicos (outliers), en este caso se recomienda revisar si los datos fueron registrados de manera correcta. Por otro lado con esta grafica podmeos interpretar que a medida que auemnta el valor de la vivienda tambien aumenta el numero de habitaciones por vivienda; sin embargo, podemos ver que hay viviendas cuyo valor es de los mas altos en lso registros y tienen menos habitaciones a lo esperado y por otro lado hay viviendad que tiene un valor mas bajo y tienen mas habitaciones a lo usual; a esto se le considera como outliers.

\(medv\) vs \(tax\)

No existe una relación entre las variables no se puede determinar si es positiva o negativa, pero se puede hacer un análisis descriptivo, donde se puede deducir que el cobro de impuesto no se basa al valor de la vivienda, puede ser con respecto a otros factores, pero si es importante destacar que las viviendas que tienen un valor menor a 10,000 UM tienen un impuesto muy alto en conparacion a las viviendas cuyo valor valor el mayor a la media.

conclusion

Se observa que el valor de la vivienda va a variar de acuerdo a muchos factores como en este caso de la zona en que se encuentra, la tasa de criminalidad, el tipo de poblacion que vivie en la misma zona, que esto se puede traducir a cierto estilo de vida y estatus economico, poe otro lado, se observa que el impuesto no es una variable que este estrechamente relacionada con el valor de la vivienda, si no que depende de otros factores que no se observaron en las gráfica.