library(readxl)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

1. Construir un modelo de regresión lineal con 2 variables cuantitativas predictoras X1 y X2: Y ~ X1 + X2 (MODELO ORIGINAL)

V. dependiente:

V. predictoras cuantitativas:

resumen <- read_excel('Resumen-Censo-EEUU-1977.xlsx')
datos <- data.frame(Y = resumen$c2, X1 = resumen$c4, X2 = resumen$c5)

lm(Y ~ ., data = datos) -> modelo1
modelo1 |> summary()
## 
## Call:
## lm(formula = Y ~ ., data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8107 -0.7552 -0.0488  0.8261  3.4771 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 71.2845193  1.4494040  49.182  < 2e-16 ***
## X1           0.0002243  0.0002846   0.788 0.434610    
## X2          -1.1972067  0.2868833  -4.173 0.000129 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.101 on 47 degrees of freedom
## Multiple R-squared:  0.3548, Adjusted R-squared:  0.3274 
## F-statistic: 12.92 on 2 and 47 DF,  p-value: 3.368e-05

2. Categorizar (cuanti → cuali) en 3 o 4 niveles una de las variables cuantitativas (o X1 o X2). Esto implicar crear una nueva variable categorizada, que la llamaremos R.

Categorizando la variable ingreso en 4 niveles

Tabla de categorizacion
Categorías R1 R2
C1 [3000-4000> 0 0
C2 [4000-5000> 1 0
C3 [5000-A mas> 0 1
categorias <- cut(datos$X1, breaks = c(3000, 4000, 5000, Inf),labels = c("I1", "I2", "I3"))

datos2 <- data.frame("Y"=datos$Y,"R"=categorias,"X2"=datos$X2)

3. Construir un modelo de regresión, con la variable categorizada, es decir Y ~ X1+R o Y ~ R+X2 (MODELO CON VARIABLE CATEGORIZADA O DISCRETIZADA)

lm(Y ~ ., data = datos2) -> modelo2
modelo2 |> summary()
## 
## Call:
## lm(formula = Y ~ ., data = datos2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2848 -0.7724  0.0235  0.8105  3.1548 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  71.5305     0.6035 118.535  < 2e-16 ***
## RI2           0.8237     0.4267   1.930  0.05974 .  
## RI3           0.2866     0.5316   0.539  0.59235    
## X2           -1.0047     0.3023  -3.324  0.00175 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.07 on 46 degrees of freedom
## Multiple R-squared:  0.4038, Adjusted R-squared:  0.365 
## F-statistic: 10.39 on 3 and 46 DF,  p-value: 2.452e-05

4. Presentar el cuadro ANVA de cada uno de los dos modelos, y describir, comentar los cambios.

anova1 <- anova(lm(Y ~ cbind(X1,X2), data = datos))
anova1
## Analysis of Variance Table
## 
## Response: Y
##               Df Sum Sq Mean Sq F value    Pr(>F)    
## cbind(X1, X2)  2 31.331 15.6656  12.925 3.368e-05 ***
## Residuals     47 56.968  1.2121                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova2 <- anova(modelo2)
anova2
## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## R          2 23.015 11.5074  10.056 0.0002383 ***
## X2         1 12.644 12.6438  11.049 0.0017478 ** 
## Residuals 46 52.640  1.1444                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
valorp <- 1-pf(10.3865,3,46); valorp
## [1] 2.452873e-05

Modelo 1

FV GL SC CM Fcalc Pvalor
Regresion 2 31.331 15.6656 12.925 3.368e-05
Error 47 56.968 1.2121
Total 49 56.968

Modelo 2

FV GL SC CM Fcalc Pvalor
Regresion 3 35.659 11.8863 10.3865 2.452e-05
Error 46 52.640 1.1444
Total 49 88.299

Diferencias:

Semejanzas