Teniendo en cuenta la base de datos BOSTON, se requiere analizar la relación entre las variables medv y rm, para la cual se le pide lo siguiente:

1. Presente el grafico de dispersión. ¿Que puede decir al respecto

library(MASS)
data("Boston")

datos <- Boston
names(datos)
##  [1] "crim"    "zn"      "indus"   "chas"    "nox"     "rm"      "age"    
##  [8] "dis"     "rad"     "tax"     "ptratio" "black"   "lstat"   "medv"
str(datos)
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
library(ggplot2)
x11()
ggplot(data = Boston, aes(x = rm, y = medv)) +
  geom_point() +
  labs(x = "Número promedio de habitaciones (rm)",
       y = "Valor medio de la vivienda (medv)",
       title = "Relación entre rm y medv")

Respecto al grafico se puede decir que a medida de que la variable x (numero promedio de habitantes) aumenta, la variable Y (valor medio de la vivienda) tambien esta aumentando; por lo tanto se puede observar que tiene una relacion directa

2. Pruebe la significancia de la correlación encontrada a un α=0.05. ¿Qué puede concluir al respecto?

#Coeficiente de correlación de pearson
correlation <- cor(Boston$rm, Boston$medv)
correlation_pvalue <- cor.test(Boston$rm, Boston$medv)$p.value

if (correlation_pvalue < 0.05) {
  conclusion <- "La correlación es significativa al nivel de significancia α=0.05."
} else {
  conclusion <- "La correlación no es significativa al nivel de significancia α=0.05."
}

cat("Coeficiente de correlación:", correlation, "\n")
## Coeficiente de correlación: 0.6953599
cat("Valor p:", correlation_pvalue, "\n")
## Valor p: 2.487229e-74
cat("Conclusión:", conclusion)
## Conclusión: La correlación es significativa al nivel de significancia α=0.05.

3.Es válido pensar en construir un modelo de regresión lineal simple entre estas dos variables.

mod1 <- lm(datos$medv ~ datos$rm)
summary(mod1)
## 
## Call:
## lm(formula = datos$medv ~ datos$rm)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.346  -2.547   0.090   2.986  39.433 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -34.671      2.650  -13.08   <2e-16 ***
## datos$rm       9.102      0.419   21.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.616 on 504 degrees of freedom
## Multiple R-squared:  0.4835, Adjusted R-squared:  0.4825 
## F-statistic: 471.8 on 1 and 504 DF,  p-value: < 2.2e-16

si es valido en pensar en construir el modelo de regresion lineal dado que la correlación entre “medv” y “rm” es significativa por lo cual puede ayudar a predecir el valor medio de la vivienda (“medv”) en función del número promedio de habitaciones (“rm”).