A partir de la base de datos BOSTON, sobre la cual se pretendía realizar el precio mediano de la vivienda de esta cuidad de Estados Unidos, se identificará la correlación y el comportamiento que tiene la variable “rm” la cual describe el número medio de habitantes por vivienda, y la variable dependiente y sobre la cual se centra el trabajo “medv” que describe el precio mediano de la vivienda.
Para ello, se hará uso del software libre RStudio, con el cual se pretende:
library(MASS)
data("Boston")
datos <- Boston
names(datos)
## [1] "crim" "zn" "indus" "chas" "nox" "rm" "age"
## [8] "dis" "rad" "tax" "ptratio" "black" "lstat" "medv"
str(datos)
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : num 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.1.3
ggplot(datos, aes(x=rm, y=medv)) +
geom_point()+
theme_bw()
En primera instancia podemos distinguir como hay una relacion positiva entre el precio mediano del valor de la vivienda (variable dependiente) y el numero medio de habitantes por vivienda (variable explicativa), debido al patron que crean.
Sin embargo, no es recomendable conjeturar únicamente con pruebas informales o gráficas, por lo cual es necesario hacer pruebas rigurosas de la correlación entre estas variables. Considerando además que existen datos que se encuentran muy alejados de la regresión lineal.
library(car)
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
qqPlot(datos$medv, pch=20)
## [1] 162 163
Vemos como para la variable precio de la vivienda (medv) en su grafico de normalidad presenta unas colas que se salen de la linea de normalidad por tanto decimos que no cuenta con normalidad en los residuos
library(car)
qqPlot(datos$rm, pch=20)
## [1] 366 365
Vemos como para la variable numero mediano de habitaciones por vivienda tambien se presentan colas que se devian de la linea de normalidad, aunque no tan pronunciadas, igualmente diremos que no presentan normalidad. Procedemos a realizar el test de autocorrelacion. Asi mismo, realizamos la prueba formal de Anderson-Darling para comprobar formalmente si hay o no normalidad.
library(nortest)
ad.test(datos$rm)
##
## Anderson-Darling normality test
##
## data: datos$rm
## A = 6.1177, p-value = 4.723e-15
ad.test(datos$medv)
##
## Anderson-Darling normality test
##
## data: datos$medv
## A = 11.822, p-value < 2.2e-16
Vemos como para ambas pruebas el p-valor es muy inferior a 0.05, por tanto, rechazamos para ambas variables la hipotesis nula que plantea la existencia de normalidad en los resuiduales y aceptamos la nula que plantea la no normalidad, por eso usamos la prueba de spearman.
cor.test(x= datos$rm, y= datos$medv, alternative = "greater", method = "spearman" )
## Warning in cor.test.default(x = datos$rm, y = datos$medv, alternative =
## "greater", : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: datos$rm and datos$medv
## S = 7911922, p-value < 2.2e-16
## alternative hypothesis: true rho is greater than 0
## sample estimates:
## rho
## 0.6335764
Para verificar formalmente si existe una correlación positiva entre estas variables, tal como se observó en el gráfico de manera informal, efectuamos el test de correlación de “spearman”, especificando que la hipótesis alterna sea que el coeficiente de correlación rho es mayor a cero. Después de efectuar el test, obtuvimos un p-valor de 2,2e-16, que al ser menor a un alfa de 0,05, quiere decir que hay suficiente evidencia estadística para rechazar la hipótesis nula y aceptar la hipótesis alterna, que dice que el coeficiente de correlación es mayor a cero. Por tanto, verificamos formalmente que la correlación es positiva.
Finalmente, después de validar una serie de supuestos para determinar si existía una correlación positiva entre estas variables, al identificar formalmente que esta correlación es positiva, sería válido desarrollar un modelo simple o univariado para explicar el precio mediano del valor de las viviendas de Boston, sin embargo, no estaría de más considerar otras variables que puedan explicar la variable dependiente.