# O arquivo DadosPNADC2404.csv apresenta uma amostra de pessoas com idade entre 24 e 54 anos entrevistadas na Pesquisa Nacional de Amostra de Domicílios Contínua (PNADC) no quarto trimestre de 2024. As variáveis de interesse são:

# (Y) renda: rendimento mensal do trabalho principal (em R$)
# (x1) escolaridade: anos de escolaridade (0 a 16 anos de estudo)
# (x2) idade: anos de idade da pessoa entrevistada
# (x3) jornada: horas trabalhas na semana no trabalho principal

#Carregando a Base de Dados

PNADC <- read.csv("/Users/joao/Documents/Teoria Econômica/2S 2025/Econometria/Exercícios/Aula 1 - RLM/Dados_PNADC2404.csv")
summary(PNADC)
##      renda         escolaridade       idade          jornada     
##  Min.   :    10   Min.   : 0.00   Min.   :24.00   Min.   :  1.0  
##  1st Qu.:  1412   1st Qu.: 8.00   1st Qu.:31.00   1st Qu.: 40.0  
##  Median :  2000   Median :12.00   Median :39.00   Median : 40.0  
##  Mean   :  3072   Mean   :10.73   Mean   :39.04   Mean   : 39.2  
##  3rd Qu.:  3034   3rd Qu.:13.00   3rd Qu.:46.00   3rd Qu.: 44.0  
##  Max.   :300000   Max.   :16.00   Max.   :54.00   Max.   :120.0  
##  NA's   :57670                                    NA's   :55100  
##      setor           mulher       totalmenores14   
##  Min.   :1.00    Min.   :0.0000   Min.   : 0.0000  
##  1st Qu.:2.00    1st Qu.:0.0000   1st Qu.: 0.0000  
##  Median :3.00    Median :1.0000   Median : 0.0000  
##  Mean   :2.56    Mean   :0.5233   Mean   : 0.7546  
##  3rd Qu.:3.00    3rd Qu.:1.0000   3rd Qu.: 1.0000  
##  Max.   :3.00    Max.   :1.0000   Max.   :10.0000  
##  NA's   :55100
# Modelo 1: RLS, Renda (Y) como variável dependente de anos de escolaridade (x1)
#Y = a + b1.x1 + e

RLM_1 <- lm(renda ~ escolaridade, data = PNADC)
summary(RLM_1)
## 
## Call:
## lm(formula = renda ~ escolaridade, data = PNADC)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -4513  -1769   -769    467 297364 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -525.146     31.702  -16.57   <2e-16 ***
## escolaridade  316.163      2.629  120.27   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4005 on 145086 degrees of freedom
##   (57670 observations deleted due to missingness)
## Multiple R-squared:  0.09067,    Adjusted R-squared:  0.09066 
## F-statistic: 1.447e+04 on 1 and 145086 DF,  p-value: < 2.2e-16
anova(RLM_1)
## Analysis of Variance Table
## 
## Response: renda
##                  Df     Sum Sq    Mean Sq F value    Pr(>F)    
## escolaridade      1 2.3206e+11 2.3206e+11   14466 < 2.2e-16 ***
## Residuals    145086 2.3274e+12 1.6042e+07                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Gráfico de dispersão
plot(PNADC$escolaridade, PNADC$renda,
     xlab = "Anos de Escolaridade",
     ylab = "Renda (R$)",
     main = "Dispersão e Reta de Regressão",
     pch = 19, col = "black", ylim = c(0, 150000))

# Adicionar a reta de regressão ao gráfico
abline(RLM_1, col = "red", lwd = 2)

# Modelo 2: RLM, Renda (Y) como variável dependente de anos de escolaridade (x1) e idade dos estrevistados (x2)
# Y = a + b1.x1 + b2x2 + e

RLM_2 <- lm(renda ~ escolaridade + idade, data = PNADC)
summary(RLM_2)
## 
## Call:
## lm(formula = renda ~ escolaridade + idade, data = PNADC)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -5690  -1702   -731    540 296628 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -3635.593     62.630  -58.05   <2e-16 ***
## escolaridade   347.574      2.656  130.84   <2e-16 ***
## idade           70.645      1.231   57.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3961 on 145085 degrees of freedom
##   (57670 observations deleted due to missingness)
## Multiple R-squared:  0.1108, Adjusted R-squared:  0.1108 
## F-statistic:  9042 on 2 and 145085 DF,  p-value: < 2.2e-16
anova(RLM_2)
## Analysis of Variance Table
## 
## Response: renda
##                  Df     Sum Sq    Mean Sq F value    Pr(>F)    
## escolaridade      1 2.3206e+11 2.3206e+11 14793.9 < 2.2e-16 ***
## idade             1 5.1624e+10 5.1624e+10  3291.1 < 2.2e-16 ***
## Residuals    145085 2.2758e+12 1.5686e+07                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Modelo 3: RLM, Renda (Y) como variável dependente de anos de escolaridade (x1), idade dos entrevistados (x2) e jornada de trabalho (x3)
# Y = a + b1.x1 + b2.x2 + b3.x3 + e

RLM_3 <- lm(renda ~ escolaridade + idade + jornada, data = PNADC)
summary(RLM_3)
## 
## Call:
## lm(formula = renda ~ escolaridade + idade + jornada, data = PNADC)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -7577  -1663   -708    530 295473 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -5751.320     71.417  -80.53   <2e-16 ***
## escolaridade   340.972      2.627  129.79   <2e-16 ***
## idade           71.148      1.217   58.47   <2e-16 ***
## jornada         55.191      0.930   59.35   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3913 on 145084 degrees of freedom
##   (57670 observations deleted due to missingness)
## Multiple R-squared:  0.1319, Adjusted R-squared:  0.1319 
## F-statistic:  7349 on 3 and 145084 DF,  p-value: < 2.2e-16
anova(RLM_3)
## Analysis of Variance Table
## 
## Response: renda
##                  Df     Sum Sq    Mean Sq F value    Pr(>F)    
## escolaridade      1 2.3206e+11 2.3206e+11 15152.9 < 2.2e-16 ***
## idade             1 5.1624e+10 5.1624e+10  3370.9 < 2.2e-16 ***
## jornada           1 5.3940e+10 5.3940e+10  3522.2 < 2.2e-16 ***
## Residuals    145084 2.2219e+12 1.5314e+07                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1