Link pauta RMD : https://drive.google.com/file/d/1yldiJ4P8jlSl1Vym8azvsjzcvpyFEQwA/view?usp=sharing

1-Lectura del archivo

datos <- read_xlsx("D:\\Descargas\\.xlsx\\casas.xlsx")
names(datos) 
## [1] "OverallCond" "LotArea"     "YrSold"      "SalePrice"   "Loteo_1"    
## [6] "loteo_2"     "loteo_3"

Respuestas

Sección A

Reporte del modelo: Significancia de la variable LotArea: Los valores de la prueba de significancia ‘t’ para LotArea son menores al nivel de significancia de 0.05, lo que indica que esta variable es significativa individualmente. Sin embargo, el R-cuadrado es de solo un 6.9%, lo que significa que el modelo explica solo esa proporción de la variabilidad de los datos, siendo por lo tanto un modelo relativamente ineficiente.

Normalidad de los residuos: El supuesto de normalidad de los residuos, es decir, que estén distribuidos de manera normal con media 0 y varianza constante, no se cumple. Heurísticamente, se observa una desviación de la curva normal y la prueba de hipótesis Jarque-Bera confirma esta falta de ajuste con un valor muy pequeño.

Homocedasticidad: El gráfico de los residuos muestra una dispersión inconsistente, concentrada en una parte y muy lejana en otras, lo que indica una falta de varianza constante. La prueba de hipótesis de Breusch-Pagan confirma la presencia de heterocedasticidad con un valor p muy pequeño.

Autocorrelación:el valor p fue de 0.71 hay evidencia suficiente para rechazar la hipótesis nula de no autocorrelación de los residuos. En ambos modelos, la falta de autocorrelación significativa sugiere que los residuos son independientes.

Sección B

Reporte del modelo: En este modelo se utilizan todas las variables, y tenemos que hay tres variables con una significancia individual: OverallQual, LotArea y Loteo3. Las variables Loteo2, Loteo1 y YrSold no son significativas según su valor de la prueba t. No obstante, en su conjunto, según la prueba F de Fisher, tienen un valor muy pequeño, lo cual implica que, en su conjunto, las variables son significativas para explicar el comportamiento de, en este caso, el SalePrice o precio de venta. Sus medidas de ajuste del AIC son 36,909.72, el bayesiano es 36,992.01 y el RMSE es 7,302.34.

Normalidad: Al igual que en el modelo anterior, no se cumple el supuesto de normalidad. Las circunstancias heurísticas y el valor p son similares, confirmando la falta de normalidad.

Heterocedasticidad: Aunque se observa un patrón diferente heurísticamente, se llega a la misma conclusión: no hay homocedasticidad. El valor p en la prueba de autocorrelación es de 0.71.

Autocorrelación: el valor p fue de 0.72 hay evidencia suficiente para rechazar la hipótesis nula de no autocorrelación de los residuos. En ambos modelos, la falta de autocorrelación significativa sugiere que los residuos son independientes.

Dato imporatante antes de concluir :

Para evaluar la multicolinealidad en modelos de regresión, se sugiere un umbral de correlación de 0.7 o 0.8 entre variables explicativas, ya que correlaciones más altas pueden indicar que las variables están muy relacionadas. Esto puede llevar a problemas en las estimaciones de los coeficientes y dificultar la interpretación de los resultados. Además, el Factor de Inflación de la Varianza (VIF) se utiliza para detectar multicolinealidad. Un VIF alto indica que una variable está altamente correlacionada con otras variables en el modelo. Si el VIF está entre 5 y 10, se considera preocupante y puede requerir revisión, mientras que un VIF mayor a 10 sugiere considerar eliminar o transformar la variable.

Multicolinealidad:

En el caso particular de este modelo con todas las variables, no tenemos correlaciones que superen el umbral mencionado, ni tampoco hay un Factor de Inflación de la Varianza (VIF) que alcance niveles preocupantes. Todos los VIF se encuentran en el rango de 1 coma y algo, lo que está lejos del umbral de ser considerado problemático según el VIF.

Sección c

Modelo Final: El modelo final quedó con las variables Loteo3, Loteo2, LotArea y OverallQual. Tiene un R-cuadrado ajustado del 12.13%, y todas las variables son significativas según la prueba t. La prueba F también indica significancia en conjunto. Los valores del AIC, BIC y RMSE son 36,907.19, 36,938.91 y 7,339, respectivamente.

Supuestos del Modelo: El supuesto de normalidad no se cumple, la homocedasticidad no está presente, y en cuanto a la autocorrelación, el valor p es de 0.72, lo que no permite rechazar la hipótesis de no autocorrelación. No se detectó multicolinealidad, lo que indica que no hay información redundante en el modelo.

Conclusión General: Tanto la regresión hacia adelante como la regresión hacia atrás llevaron al mismo modelo, reforzando la robustez del modelo final seleccionado. Esto sugiere que las variables incluidas son las más adecuadas para predecir el precio de venta de una casa, proporcionando un equilibrio entre ajuste y simplicidad, de acuerdo con el principio de la parsimonia. Los valores del AIC y BIC de los modelos anteriores respaldan esta elección, ya que el modelo seleccionado ofrece un buen equilibrio entre el ajuste del modelo y la complejidad. Siguiendo el principio de la parsimonia, que favorece modelos más sencillos con igual capacidad predictiva, este modelo resulta ser la mejor opción para predecir el precio de venta de una casa.

Desarrollo A

2-Implentación del modelo

2.1Reporte :

## 
## Call:
## lm(formula = SalePrice ~ LotArea, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -275668  -48169  -17725   31248  553356 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.588e+05  2.915e+03   54.49   <2e-16 ***
## LotArea     2.100e+00  2.011e-01   10.45   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 76650 on 1458 degrees of freedom
## Multiple R-squared:  0.06961,    Adjusted R-squared:  0.06898 
## F-statistic: 109.1 on 1 and 1458 DF,  p-value: < 2.2e-16

3.1-Normalidad de los residuos

3.1.2-Histograma residuos con curva normal ajustada :

hist(residuos, probability = TRUE)   
curve(dnorm(x, mean=0, sd=sd(residuos)), col="darkred", lwd=2, add=TRUE) 


Conclusión grafica :

Prueba de hipótesis Jarque-bera :
H0 : Lo residuos se distribuyen normal con media 0
Ha : Lo residuos se distribuyen normal con media 0

jarque.bera.test(residuos)   
## 
##  Jarque Bera Test
## 
## data:  residuos
## X-squared = 3374, df = 2, p-value < 2.2e-16


Conclusión PH :

3.2.1-Grafico comportamiento de los errores :

Conclusión grafica :

3.2.2-Prueba de hipótesis burch-pagan :

HO : los errores poseen homocedaticidad
Ha : Los errores tienen heterocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 65.18, df = 1, p-value = 6.835e-16

Prueba de hipótesis Durblin whathson :

Ho : No hay autocorrelación serial en los residuos de la regresión
Ha : hay autocorrelación serial en los residuos de la regresión

##  lag Autocorrelation D-W Statistic p-value
##    1    0.0007190863      1.998322    0.93
##  Alternative hypothesis: rho != 0

Desarrollo B

full_model <- lm(SalePrice ~ ., data=datos) 
summary(full_model)
## 
## Call:
## lm(formula = SalePrice ~ ., data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -245437  -44359  -15399   26783  533439 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.094e+06  2.953e+06   0.709  0.47844    
## OverallCond -5.303e+03  1.757e+03  -3.018  0.00259 ** 
## LotArea      1.773e+00  2.104e-01   8.425  < 2e-16 ***
## YrSold      -9.360e+02  1.471e+03  -0.636  0.52469    
## Loteo_1      1.285e+04  1.237e+04   1.038  0.29922    
## loteo_2     -4.662e+04  2.463e+04  -1.893  0.05859 .  
## loteo_3     -3.572e+04  4.230e+03  -8.446  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 74480 on 1453 degrees of freedom
## Multiple R-squared:  0.1246, Adjusted R-squared:  0.121 
## F-statistic: 34.48 on 6 and 1453 DF,  p-value: < 2.2e-16

3.1-Normalidad de los residuos

3.1.2-Histograma residuos con curva normal ajustada :

hist(residuos, probability = TRUE)   
curve(dnorm(x, mean=0, sd=sd(residuos)), col="darkred", lwd=2, add=TRUE) 


Conclusión grafica :

Prueba de hipótesis Jarque-bera :
H0 : Lo residuos se distribuyen normal con media 0
Ha : Lo residuos se distribuyen normal con media 0

jarque.bera.test(residuos)   
## 
##  Jarque Bera Test
## 
## data:  residuos
## X-squared = 3374, df = 2, p-value < 2.2e-16


Conclusión PH :

3.2.1-Grafico comportamiento de los errores :

Conclusión grafica :

3.2.2-Prueba de hipótesis burch-pagan :

HO : los errores poseen homocedaticidad
Ha : Los errores tienen heterocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  full_model
## BP = 62.878, df = 6, p-value = 1.169e-11

Prueba de hipótesis Durblin whathson :

Ho : No hay autocorrelación serial en los residuos de la regresión
Ha : hay autocorrelación serial en los residuos de la regresión

##  lag Autocorrelation D-W Statistic p-value
##    1     0.008355661       1.98304   0.734
##  Alternative hypothesis: rho != 0

Desarrollo C

Para hacer un modelo hacia adelante hace falta partir de un modelo vacio para poder ir agragarndo las variables que me minimicen el BIC y para un modelo hacia ataras sse necesita un modelo lleno como el de la sección b paar ir sacando haste menir BIC.

null_model <- lm(SalePrice ~ 1, data=datos)
# hacia adelante()
forward_model <- step(null_model, 
                     scope=list(lower=null_model, upper=full_model),
                     direction="forward",trace = 0)

# hacia atras
backward_model <- step(full_model, 
                      direction="backward", trace = 0)

# Print results
cat("\nForward Selection Results:\n")
## 
## Forward Selection Results:
summary(forward_model)
## 
## Call:
## lm(formula = SalePrice ~ loteo_3 + LotArea + OverallCond + loteo_2, 
##     data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -253361  -44075  -15858   26626  532781 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.152e+05  1.059e+04  20.323  < 2e-16 ***
## loteo_3     -3.664e+04  4.150e+03  -8.830  < 2e-16 ***
## LotArea      1.817e+00  2.061e-01   8.818  < 2e-16 ***
## OverallCond -5.354e+03  1.755e+03  -3.050  0.00233 ** 
## loteo_2     -4.859e+04  2.453e+04  -1.981  0.04776 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 74470 on 1455 degrees of freedom
## Multiple R-squared:  0.1237, Adjusted R-squared:  0.1213 
## F-statistic: 51.36 on 4 and 1455 DF,  p-value: < 2.2e-16
cat("\nBackward Selection Results:\n")
## 
## Backward Selection Results:
summary(backward_model)
## 
## Call:
## lm(formula = SalePrice ~ OverallCond + LotArea + loteo_2 + loteo_3, 
##     data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -253361  -44075  -15858   26626  532781 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.152e+05  1.059e+04  20.323  < 2e-16 ***
## OverallCond -5.354e+03  1.755e+03  -3.050  0.00233 ** 
## LotArea      1.817e+00  2.061e-01   8.818  < 2e-16 ***
## loteo_2     -4.859e+04  2.453e+04  -1.981  0.04776 *  
## loteo_3     -3.664e+04  4.150e+03  -8.830  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 74470 on 1455 degrees of freedom
## Multiple R-squared:  0.1237, Adjusted R-squared:  0.1213 
## F-statistic: 51.36 on 4 and 1455 DF,  p-value: < 2.2e-16