Universidad del Valle: Escuela de Economía

Curso: Programación y Análisis con R

Profesor: Ivan Mauricio Bermudez Vera

Análisis de la relación entre las variables medv y rm

Base de datos Boston

Para esta actividad abordamos el análisis estadístico de la base de datos, a partir de la cual, encontramos lo siguiente:

El primer paso que fue ordenar la base de datos y elegir las variables, con ello se escribió el código correspondiente para hacer los calculos requeridos y con lo obtenido hacer las interpretaciones:

# 1. Cargar los datos: BOSTON ----

library(MASS)
data("Boston")
View(Boston)

datos <- Boston
names(datos)
##  [1] "crim"    "zn"      "indus"   "chas"    "nox"     "rm"      "age"    
##  [8] "dis"     "rad"     "tax"     "ptratio" "black"   "lstat"   "medv"
str(datos)
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

Histograma medv

x11()
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.1.3
ggplot(data=datos, mapping= aes(x=medv)) +
  geom_histogram(aes(y= ..density..), color= "black", fill="gray") + 
  geom_density(fill="black", alpha=0.2)+      
  stat_function(fun= dnorm, args= list(mean= mean(datos$medv), sd= sd(datos$medv)))+ #lieamiento normal#
  theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

#Grafico de cuantiles#
library(car)
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
qqPlot(datos$medv, pch=20)

## [1] 162 163
library(nortest)
ad.test(datos$medv)
## 
##  Anderson-Darling normality test
## 
## data:  datos$medv
## A = 11.822, p-value < 2.2e-16

Histograma rm

x11()
ggplot(data=datos, mapping= aes(x=rm)) +
  geom_histogram(aes(y= ..density..), color= "black", fill="gray") + 
  geom_density(fill="black", alpha=0.2)+      
  stat_function(fun= dnorm, args= list(mean= mean(datos$rm), sd= sd(datos$rm)))+ #lieamiento normal#
  theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

#Grafico de cuantiles
library(car)
qqPlot(datos$rm, pch=20)

## [1] 366 365
ad.test(datos$rm)
## 
##  Anderson-Darling normality test
## 
## data:  datos$rm
## A = 6.1177, p-value = 4.723e-15
# 2. Relación entre medv vs rm: porcentaje de habitantes de estrato bajo ----

ggplot(datos, aes(x= rm, y=medv)) +
  geom_point()+
  theme_bw()

Se puede decir que de acuerdo a los datos encontrados en ambas variables# no siguen una distribucion normal

3. Test de correlación entre medv y rm

Dado que ninguna de las variables sigue una distribucion normal se utiliza el test de spearman para probar la significancia de la correlacion

cor.test(x= datos$rm, y= datos$medv, alternative = "less", method = "spearman" )
## Warning in cor.test.default(x = datos$rm, y = datos$medv, alternative =
## "less", : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  datos$rm and datos$medv
## S = 7911922, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
##       rho 
## 0.6335764

Conclusiones

Al respecto podemos concluir que segun la evidencia visual y las pruebas formales se puede concluir que las variables medv (valor promedio de una vivienda) y rm(numero medio de habitaciones por vivienda) no siguen una distribucion normal”

Test de hipotesis sobre el coeficiente de correlacion h0:p=0 y ha:p>0 (prueba de dos colas) Con un p-valor=1 > 0.05, no hay suficiente evidencia estadistica para rechazar la hipotesis nula. por lo tanto no se pueda afirmar que la correlacion visualizada no es significativa no se obtendria resultados consistentes con diferentes muestras, por lo tanto no seria valido pensar en una regresion lineal