library(rio)
setwd("/Users/paulachata/Downloads")
data=import("dataPeru.xlsx")
data$perc_contrib_sunat <- (data$contribuyentesSunat / data$pobTotal) * 100
data$perc_pea_ocupada <- (data$peaOcupada / data$pobTotal) * 100

#pregunta1

modelo= lm(buenEstado ~ perc_contrib_sunat + perc_pea_ocupada, data = data)


summary(modelo)
## 
## Call:
## lm(formula = buenEstado ~ perc_contrib_sunat + perc_pea_ocupada, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.0928  -4.3610   0.2575   4.4003  11.0196 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)
## (Intercept)        -22.6095    15.9617  -1.416    0.171
## perc_contrib_sunat   0.1003     0.3121   0.321    0.751
## perc_pea_ocupada     1.0218     0.6424   1.590    0.126
## 
## Residual standard error: 6.299 on 22 degrees of freedom
## Multiple R-squared:  0.4669, Adjusted R-squared:  0.4184 
## F-statistic: 9.633 on 2 and 22 DF,  p-value: 0.000989

##como elegir ###ambos valores de p son mayores a 0,05, asi que ninugno es estadísticamente significativo ###no tienen el mismo efecto tampoco ###no se puede decir que uno tiene más efecto que el otro, porque no son significativos

#pregunta2

modelo_pea= lm(peaOcupada ~ contribuyentesSunat + buenEstado, data = data)

summary(modelo_pea)
## 
## Call:
## lm(formula = peaOcupada ~ contribuyentesSunat + buenEstado, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -91867 -58573 -11166  46174 155851 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.155e+05  3.787e+04   3.049  0.00588 ** 
## contribuyentesSunat  9.206e-01  1.741e-02  52.872  < 2e-16 ***
## buenEstado          -1.412e+03  1.983e+03  -0.712  0.48395    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 74540 on 22 degrees of freedom
## Multiple R-squared:  0.9932, Adjusted R-squared:  0.9926 
## F-statistic:  1603 on 2 and 22 DF,  p-value: < 2.2e-16

##como elegir ###ambos no son significativos porque uno es mayor a 0,05 ###la segunda tampoco porque uno si lo es ###escolares es la que no tiene efecto ###la D es la correcta porque la E habla de la variable dependiente