Universidad del Valle: Escuela de Economía
Curso: Programación y Análisis con R
Profesor: Ivan Mauricio Bermudez Vera
Base de datos Boston
Para esta actividad abordamos el análisis estadístico de la base de datos, a partir de la cual, encontramos lo siguiente:
El primer paso que fue ordenar la base de datos y elegir las variables, con ello se escribió el código correspondiente para hacer los calculos requeridos y con lo obtenido hacer las interpretaciones:
# 1. Cargar los datos: BOSTON ----
library(MASS)
data("Boston")
View(Boston)
datos <- Boston
names(datos)
## [1] "crim" "zn" "indus" "chas" "nox" "rm" "age"
## [8] "dis" "rad" "tax" "ptratio" "black" "lstat" "medv"
str(datos)
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : num 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
x11()
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.1.3
ggplot(data=datos, mapping= aes(x=medv)) +
geom_histogram(aes(y= ..density..), color= "black", fill="gray") +
geom_density(fill="black", alpha=0.2)+
stat_function(fun= dnorm, args= list(mean= mean(datos$medv), sd= sd(datos$medv)))+ #lieamiento normal#
theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
#Grafico de cuantiles#
library(car)
## Warning: package 'car' was built under R version 4.1.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.1.3
qqPlot(datos$medv, pch=20)
## [1] 162 163
library(nortest)
ad.test(datos$medv)
##
## Anderson-Darling normality test
##
## data: datos$medv
## A = 11.822, p-value < 2.2e-16
x11()
ggplot(data=datos, mapping= aes(x=rm)) +
geom_histogram(aes(y= ..density..), color= "black", fill="gray") +
geom_density(fill="black", alpha=0.2)+
stat_function(fun= dnorm, args= list(mean= mean(datos$rm), sd= sd(datos$rm)))+ #lieamiento normal#
theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
#Grafico de cuantiles
library(car)
qqPlot(datos$rm, pch=20)
## [1] 366 365
ad.test(datos$rm)
##
## Anderson-Darling normality test
##
## data: datos$rm
## A = 6.1177, p-value = 4.723e-15
# 2. Relación entre medv vs rm: porcentaje de habitantes de estrato bajo ----
ggplot(datos, aes(x= rm, y=medv)) +
geom_point()+
theme_bw()
Se puede decir que de acuerdo a los datos encontrados en ambas variables# no siguen una distribucion normal
Dado que ninguna de las variables sigue una distribucion normal se utiliza el test de spearman para probar la significancia de la correlacion
cor.test(x= datos$rm, y= datos$medv, alternative = "less", method = "spearman" )
## Warning in cor.test.default(x = datos$rm, y = datos$medv, alternative =
## "less", : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: datos$rm and datos$medv
## S = 7911922, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
## rho
## 0.6335764
Conclusiones
Al respecto podemos concluir que segun la evidencia visual y las pruebas formales se puede concluir que las variables medv (valor promedio de una vivienda) y rm(numero medio de habitaciones por vivienda) no siguen una distribucion normal”
Test de hipotesis sobre el coeficiente de correlacion h0:p=0 y ha:p>0 (prueba de dos colas) Con un p-valor=1 > 0.05, no hay suficiente evidencia estadistica para rechazar la hipotesis nula. por lo tanto no se pueda afirmar que la correlacion visualizada no es significativa no se obtendria resultados consistentes con diferentes muestras, por lo tanto no seria valido pensar en una regresion lineal