Para el análisis de los datos de la base de Boston es importante destacar el porceso de codificación para poder llegar a una interpretacion y por ende a una conclusión.
Primero se hace el cargado de las librerias a ocupar las cuales se van a presentar a continuacion y el respectivo codigo.
| No. de paqueteria | Nombre |
|---|---|
| 1 | Pacman |
| 2 | GGally |
| 3 | MASS |
| 4 | tidyverse |
| 5 | skimr |
| 6 | ggplo2 |
library(pacman)
library(GGally)
require(pacman)
require(GGally)
p_load(MASS,tidyverse,skimr)
Una vez cargada las paqueterias a ocupar, el siguiente paso es descargar la base de datos que se encuentra en la paqueteria MASS con la siguiente función:
data("Boston")
Cuando se esta haciendo un analisis sobre una nueva base de datos o una desconocida es necesario conocer las variables y sus carcteristicas; del mismo modo, es importante mencionar que necestamos saber las dimenciones de nuestra base de datos, a continuación la sintaxis necesaria.
head(Boston) # Muestra los nombres de las variables y los primeros registros.
## crim zn indus chas nox rm age dis rad tax ptratio black lstat
## 1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98
## 2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14
## 3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03
## 4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94
## 5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33
## 6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21
## medv
## 1 24.0
## 2 21.6
## 3 34.7
## 4 33.4
## 5 36.2
## 6 28.7
dim(Boston) # Muestras las columnas y filas de la base de datos.
## [1] 506 14
str(Boston) #Muestra las variables y el tipo
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : num 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
summary(Boston) #Muestra un analisis estadsitico del min, max, mediana, media.
## crim zn indus chas
## Min. : 0.00632 Min. : 0.00 Min. : 0.46 Min. :0.00000
## 1st Qu.: 0.08205 1st Qu.: 0.00 1st Qu.: 5.19 1st Qu.:0.00000
## Median : 0.25651 Median : 0.00 Median : 9.69 Median :0.00000
## Mean : 3.61352 Mean : 11.36 Mean :11.14 Mean :0.06917
## 3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.:18.10 3rd Qu.:0.00000
## Max. :88.97620 Max. :100.00 Max. :27.74 Max. :1.00000
## nox rm age dis
## Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1.130
## 1st Qu.:0.4490 1st Qu.:5.886 1st Qu.: 45.02 1st Qu.: 2.100
## Median :0.5380 Median :6.208 Median : 77.50 Median : 3.207
## Mean :0.5547 Mean :6.285 Mean : 68.57 Mean : 3.795
## 3rd Qu.:0.6240 3rd Qu.:6.623 3rd Qu.: 94.08 3rd Qu.: 5.188
## Max. :0.8710 Max. :8.780 Max. :100.00 Max. :12.127
## rad tax ptratio black
## Min. : 1.000 Min. :187.0 Min. :12.60 Min. : 0.32
## 1st Qu.: 4.000 1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38
## Median : 5.000 Median :330.0 Median :19.05 Median :391.44
## Mean : 9.549 Mean :408.2 Mean :18.46 Mean :356.67
## 3rd Qu.:24.000 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23
## Max. :24.000 Max. :711.0 Max. :22.00 Max. :396.90
## lstat medv
## Min. : 1.73 Min. : 5.00
## 1st Qu.: 6.95 1st Qu.:17.02
## Median :11.36 Median :21.20
## Mean :12.65 Mean :22.53
## 3rd Qu.:16.95 3rd Qu.:25.00
## Max. :37.97 Max. :50.00
Como se puede observar la base de datos tiene 506 registros la cual consta de 14 variables, que en su mayoria son del tipo numericas.
Cuando se trabaja con medidas descriptivas es importante de que trata la variable, para este análisis se usaran la variable \(medv\), \(rm\), \(lstat\), \(crim\) y \(tax\) las cuales se describirán en la siguiente tabla:
| Variable | Descripcion |
|---|---|
| medv | El valor medio de las viviendas ocupadas por sus propietarios es de miles de dólares. |
| rm | Número medio de habitaciones por vivienda. |
| lstat | menor estatus de población (porcentaje). |
| crim | Tasa de criminalidad per cápita por pueblo. |
| tax | Tasa del impuesto sobre la propiedad de valor completo por cada 10.000 dólares. |
Por lo tanto vamos a hacer la seleccion de las columnas \((\)variables\()\) parapoder trabajar libremente con ellas, el nombre de la nuevabase tendra como nombre \(Boston\)_\(g1\).
variables_g1 <- c("medv","rm","lstat","crim","tax")
Boston_g1 <- Boston %>%
select(all_of(variables_g1))
Para hacer el cálculo de la media y la varianza se pueden hacer de manera individual, sin embargo para mas comodidad se usara la función \(sapply\)
# Media
sapply(Boston[variables_g1], mean)
## medv rm lstat crim tax
## 22.532806 6.284634 12.653063 3.613524 408.237154
#Desviación estandar
sapply(Boston[variables_g1], sd)
## medv rm lstat crim tax
## 9.1971041 0.7026171 7.1410615 8.6015451 168.5371161
con esto se puede interpretar lo siguiente:
Conclusión
Se puede observar una tasa baja de criminalidad; sin embargo, se observa una gran variacion, esto quiere decir que existen puntos de la ciudad que tienen tasas de crimalidad mas altas que otras; se puede confirmar con el valor medio de las viviendas por zona que tambien tiene una variacion bastante alta.
Para poder hacer un analisis mas detallado veremos la relación entre las variables para eso trabajaremos con las siguientes releaciones para hacer un analisis completo.
Variable medv
Con la siguiente gráfica se puede observar que el número de viviendas tienen un valor medio mas alto entre los valores de 15,000 y 25,000 por otro lado despues de 25,000 el numero de viviendas que tienen un valor mayor a 25,000 va disminuyendo gradualmente.
Se puede concluir que el valor medio de la vivienda de gran parte de a población se encuentra por debajo de los 25,000 UM
Variable lstat
Se puede observar que los porcentajes de población con estatus bajo que tiene mas registross estan entre el 5% y 10%, por otro lado los que tienen menos observaciones cuando el porcenyaje es menor a el 3% o cuando es mayor a 35%.
Se concluye que tiene valores muy separados, esto quiere decir que hay datos muy extremos donde hay registros muy grandes o muy pequeños, esto al momento de calcular la media genera una discrepancia, se recomienda hacer una mediana o una moda para hacer un analisis mas robusto y certero.
Variable rm se puede observar que usualmente las viviendas tienen 6 habitaciones, mientrs que hay pocas viviendas que tienen 1 o 9 habitaciones.
Analis de caja a las variables \(medv\) y \(lstat\)
Al momento de realizar un análisis las graficas de caja muestran la distribucipón y el comportamiento de los datos de una variable, a continuación se mostrarán las siguientes graficas y se hará su respectivo analisis.
se puede observar que en ambas cajas de las variables muestran outliers en la parte superior, por otro lado la caja de la variable \(lstat\) muestra una media ligeramente hacia abajo lo que quiere decir que los datos estan sesgados, por lo tanto con esto se confirma la conslusión anterior con esta grafica.
Para concluir se observara la relación de la variable \(medv\) con las demas variables y se hara un respectiva interpretación.
\(medv\) vs \(crim\)
Se puede observar en la grafica que no existe como tal una relacion muy estrecha, sin embargo, se puede destacar que en las zonas donde el valor medio de una vivienda es menor a 30,000 UM muestra un aumento en la tasa de criminalidad, sin embargo no es proporcional; por otro lado donde las tasa de criminalidad es muy baja es en las zonas donde las viviendas tienen un valor medio superior a las 30,000 UM.
\(medv\) vs \(lstat\)
Se puede ver una relacion negativa entre el valor medio de una vivienda con la tasa de la población con bajo estatus. Se puede interpretar que ha medida que el valor medio de la vivienda, disminuye la tasa de la población con bajo estatus; es decir, en zonas donde el valor medio de la vivienda es mayor a 40,000 UM la tasa de poblacion que poseé un estatus bajo es menor al 10%.
\(medv\) vs \(rm\)
La relación entre estas dos variables es positiva y es altamente estrecha, sin embargo se pueden observar valores atipicos (outliers), en este caso se recomienda revisar si los datos fueron registrados de manera correcta. Por otro lado con esta grafica podmeos interpretar que a medida que auemnta el valor de la vivienda tambien aumenta el numero de habitaciones por vivienda; sin embargo, podemos ver que hay viviendas cuyo valor es de los mas altos en lso registros y tienen menos habitaciones a lo esperado y por otro lado hay viviendad que tiene un valor mas bajo y tienen mas habitaciones a lo usual; a esto se le considera como outliers.
\(medv\) vs \(tax\)
No existe una relación entre las variables no se puede determinar si es positiva o negativa, pero se puede hacer un análisis descriptivo, donde se puede deducir que el cobro de impuesto no se basa al valor de la vivienda, puede ser con respecto a otros factores, pero si es importante destacar que las viviendas que tienen un valor menor a 10,000 UM tienen un impuesto muy alto en conparacion a las viviendas cuyo valor valor el mayor a la media.
conclusion
Se observa que el valor de la vivienda va a variar de acuerdo a muchos factores como en este caso de la zona en que se encuentra, la tasa de criminalidad, el tipo de poblacion que vivie en la misma zona, que esto se puede traducir a cierto estilo de vida y estatus economico, poe otro lado, se observa que el impuesto no es una variable que este estrechamente relacionada con el valor de la vivienda, si no que depende de otros factores que no se observaron en las gráfica.