Teniendo en cuenta la base de datos BOSTON, se requiere analizar la relación entre las variables medv y rm, para la cual se le pide lo siguiente:
library(MASS)
data("Boston")
datos <- Boston
names(datos)
## [1] "crim" "zn" "indus" "chas" "nox" "rm" "age"
## [8] "dis" "rad" "tax" "ptratio" "black" "lstat" "medv"
str(datos)
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : int 0 0 0 0 0 0 0 0 0 0 ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : num 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
library(ggplot2)
x11()
ggplot(data = Boston, aes(x = rm, y = medv)) +
geom_point() +
labs(x = "Número promedio de habitaciones (rm)",
y = "Valor medio de la vivienda (medv)",
title = "Relación entre rm y medv")
Respecto al grafico se puede decir que a medida de que la variable x (numero promedio de habitantes) aumenta, la variable Y (valor medio de la vivienda) tambien esta aumentando; por lo tanto se puede observar que tiene una relacion directa
#Coeficiente de correlación de pearson
correlation <- cor(Boston$rm, Boston$medv)
correlation_pvalue <- cor.test(Boston$rm, Boston$medv)$p.value
if (correlation_pvalue < 0.05) {
conclusion <- "La correlación es significativa al nivel de significancia α=0.05."
} else {
conclusion <- "La correlación no es significativa al nivel de significancia α=0.05."
}
cat("Coeficiente de correlación:", correlation, "\n")
## Coeficiente de correlación: 0.6953599
cat("Valor p:", correlation_pvalue, "\n")
## Valor p: 2.487229e-74
cat("Conclusión:", conclusion)
## Conclusión: La correlación es significativa al nivel de significancia α=0.05.
mod1 <- lm(datos$medv ~ datos$rm)
summary(mod1)
##
## Call:
## lm(formula = datos$medv ~ datos$rm)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.346 -2.547 0.090 2.986 39.433
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -34.671 2.650 -13.08 <2e-16 ***
## datos$rm 9.102 0.419 21.72 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.616 on 504 degrees of freedom
## Multiple R-squared: 0.4835, Adjusted R-squared: 0.4825
## F-statistic: 471.8 on 1 and 504 DF, p-value: < 2.2e-16
si es valido en pensar en construir el modelo de regresion lineal dado que la correlación entre “medv” y “rm” es significativa por lo cual puede ayudar a predecir el valor medio de la vivienda (“medv”) en función del número promedio de habitaciones (“rm”).