ACTIVIDAD EN CLASE

A partir de la base de datos BOSTON, sobre la cual se pretendía realizar el precio mediano de la vivienda de esta cuidad de Estados Unidos, se identificará la correlación y el comportamiento que tiene la variable “rm” la cual describe el número medio de habitantes por vivienda, y la variable dependiente y sobre la cual se centra el trabajo “medv” que describe el precio mediano de la vivienda.

Para ello, se hará uso del software libre RStudio, con el cual se pretende:

  1. Analizar y describir gráficamente la dispresión de la varible “rm” con respecto a “medv”.
  2. Realizar pruebas formales para determinar la correlación entre estas variables, considerando un alfa de 0,05.
  3. A partir de lo anterior, concluir si es válido desarrollar un modelo de regresión lineal simple, es decir, considerando únicamente esta variable “rm” para explicar la variable “medv”

Primeramente llamamos la base de datos

library(MASS)
data("Boston")

datos <- Boston
names(datos)
##  [1] "crim"    "zn"      "indus"   "chas"    "nox"     "rm"      "age"    
##  [8] "dis"     "rad"     "tax"     "ptratio" "black"   "lstat"   "medv"
str(datos)
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

Grafico de dispersion

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.1.3
ggplot(datos, aes(x=rm, y=medv)) +
  geom_point()+
  theme_bw()

En primera instancia podemos distinguir como hay una relacion positiva entre el precio mediano del valor de la vivienda (variable dependiente) y el numero medio de habitantes por vivienda (variable explicativa), debido al patron que crean.

Sin embargo, no es recomendable conjeturar únicamente con pruebas informales o gráficas, por lo cual es necesario hacer pruebas rigurosas de la correlación entre estas variables. Considerando además que existen datos que se encuentran muy alejados de la regresión lineal.

Prueba de normalidad

library(car)
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
qqPlot(datos$medv, pch=20)

## [1] 162 163

Vemos como para la variable precio de la vivienda (medv) en su grafico de normalidad presenta unas colas que se salen de la linea de normalidad por tanto decimos que no cuenta con normalidad en los residuos

library(car)
qqPlot(datos$rm, pch=20)

## [1] 366 365

Vemos como para la variable numero mediano de habitaciones por vivienda tambien se presentan colas que se devian de la linea de normalidad, aunque no tan pronunciadas, igualmente diremos que no presentan normalidad. Procedemos a realizar el test de autocorrelacion. Asi mismo, realizamos la prueba formal de Anderson-Darling para comprobar formalmente si hay o no normalidad.

library(nortest)
ad.test(datos$rm)
## 
##  Anderson-Darling normality test
## 
## data:  datos$rm
## A = 6.1177, p-value = 4.723e-15
ad.test(datos$medv)
## 
##  Anderson-Darling normality test
## 
## data:  datos$medv
## A = 11.822, p-value < 2.2e-16

Vemos como para ambas pruebas el p-valor es muy inferior a 0.05, por tanto, rechazamos para ambas variables la hipotesis nula que plantea la existencia de normalidad en los resuiduales y aceptamos la nula que plantea la no normalidad, por eso usamos la prueba de spearman.

cor.test(x= datos$rm, y= datos$medv, alternative = "greater", method = "spearman" )
## Warning in cor.test.default(x = datos$rm, y = datos$medv, alternative =
## "greater", : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  datos$rm and datos$medv
## S = 7911922, p-value < 2.2e-16
## alternative hypothesis: true rho is greater than 0
## sample estimates:
##       rho 
## 0.6335764

Para verificar formalmente si existe una correlación positiva entre estas variables, tal como se observó en el gráfico de manera informal, efectuamos el test de correlación de “spearman”, especificando que la hipótesis alterna sea que el coeficiente de correlación rho es mayor a cero. Después de efectuar el test, obtuvimos un p-valor de 2,2e-16, que al ser menor a un alfa de 0,05, quiere decir que hay suficiente evidencia estadística para rechazar la hipótesis nula y aceptar la hipótesis alterna, que dice que el coeficiente de correlación es mayor a cero. Por tanto, verificamos formalmente que la correlación es positiva.

Regresion Lineal

Finalmente, después de validar una serie de supuestos para determinar si existía una correlación positiva entre estas variables, al identificar formalmente que esta correlación es positiva, sería válido desarrollar un modelo simple o univariado para explicar el precio mediano del valor de las viviendas de Boston, sin embargo, no estaría de más considerar otras variables que puedan explicar la variable dependiente.