library(rio)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(MASS)
## 
## Attaching package: 'MASS'
## 
## The following object is masked from 'package:dplyr':
## 
##     select
library(knitr)
library(modelsummary)
## `modelsummary` 2.0.0 now uses `tinytable` as its default table-drawing
##   backend. Learn more at: https://vincentarelbundock.github.io/tinytable/
## 
## Revert to `kableExtra` for one session:
## 
##   options(modelsummary_factory_default = 'kableExtra')
##   options(modelsummary_factory_latex = 'kableExtra')
##   options(modelsummary_factory_html = 'kableExtra')
## 
## Silence this message forever:
## 
##   config_modelsummary(startup_message = FALSE)
dataPeru = import("dataPeru.xlsx")
str(dataPeru)
## 'data.frame':    25 obs. of  8 variables:
##  $ DEPARTAMENTO       : chr  "AMAZONAS" "ÁNCASH" "APURÍMAC" "AREQUIPA" ...
##  $ UBIGEO             : chr  "010000" "020000" "030000" "040000" ...
##  $ buenEstado         : num  18.6 13.9 8.7 27.4 17 18 33.8 11.9 10.1 15.6 ...
##  $ contribuyentesSunat: num  75035 302906 103981 585628 151191 ...
##  $ peaOcupada         : num  130019 387976 140341 645001 235857 ...
##  $ pobUrbana          : num  205976 806065 243354 1383694 444473 ...
##  $ PobRural           : num  211389 333050 180905 76739 206467 ...
##  $ pobTotal           : num  417365 1139115 424259 1460433 650940 ...
names(dataPeru)
## [1] "DEPARTAMENTO"        "UBIGEO"              "buenEstado"         
## [4] "contribuyentesSunat" "peaOcupada"          "pobUrbana"          
## [7] "PobRural"            "pobTotal"

VARIABLES DE LA DATA:

“DEPARTAMENTO” : Departamento del Peru “UBIGEO”: Ubigeo del departamento “buenEstado”: Porcentaje de locales escolares en buen estado “contribuyentesSunat”: Cantidad de contribuyentes a la SUNAT (PEA) “peaOcupada”: Cantidad de PEA ocupada “pobUrbana”: poblacion urbana (PEA) “PobRural”: poblacion rural (PEA) “pobTotal” Poblacion total (PEA)

PREGUNTA 1: Al querer probar la hipotesis que el buen estado de los locales escolares depende del porcentaje de la poblacion que contribuye a la SUNAT; y del porcentaje de la PEA que está laborando; se llega a comprobar que (con una significancia del 0.05): REGRESIÓN LINEAL MÚLTIPLE

Convirtiendo en porcentaje la variable “constribuyentesSunat”

total_contribuyentes <- sum(dataPeru$contribuyentesSunat)

dataPeru$contribuyentesSunat_porcentaje <- (dataPeru$contribuyentesSunat / total_contribuyentes) * 100

Hacemos lo mismo con cantidad de PEA ocupada:

total_peaOcupada = sum(dataPeru$peaOcupada)
dataPeru$peaOcupada.por = (dataPeru$peaOcupada/total_peaOcupada) * 100

Ahora hacer la regresión:

modelo1=lm(buenEstado~ contribuyentesSunat_porcentaje + peaOcupada.por, data = dataPeru)
reg1 = lm(modelo1, data = dataPeru)
summary(reg1)
## 
## Call:
## lm(formula = modelo1, data = dataPeru)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.589  -3.966  -1.347   1.907  21.518 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      18.646      2.694   6.922 5.98e-07 ***
## contribuyentesSunat_porcentaje    1.955      2.255   0.867    0.395    
## peaOcupada.por                   -1.963      2.758  -0.712    0.484    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.925 on 22 degrees of freedom
## Multiple R-squared:  0.1561, Adjusted R-squared:  0.07939 
## F-statistic: 2.035 on 2 and 22 DF,  p-value: 0.1546

RESPUESTA: El porcentaje de la poblacion que contribuye a la SUNAT ni el porcentaje de la PEA que está laborando tienen efecto

PREGUNTA 2: Al querer probar la hipotesis que la cantidad de PEA ocupada dependen de la cantidad de contribuyentes a la SUNAT ; y del porcentaje de locales escolares en buen estado; se llega a comprobar que (con una significancia del 0.05): REGRESIÓN POISSON - BINOMIAL NEGATIVA

modelo2=formula(peaOcupada ~ contribuyentesSunat + buenEstado + offset(log(pobTotal)))

rbn=glm.nb(modelo2,data=dataPeru)

model2=list('Binomial Negativa'=rbn)
modelsummary(model2, title = "Resumen de Regresion Binomial Negativa",
             stars = TRUE,
             output = "kableExtra")
Resumen de Regresion Binomial Negativa
Binomial Negativa
(Intercept) -1.164***
(0.045)
contribuyentesSunat 0.000
(0.000)
buenEstado 0.009***
(0.002)
Num.Obs. 25
AIC 587.1
BIC 592.0
Log.Lik. -289.566
F 9.985
RMSE 31601.43
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

COEFICIENTES EXPONENCIADOS:

coeficientes <- coef(rbn)
razones_tasas <- exp(coeficientes)
print(razones_tasas)
##         (Intercept) contribuyentesSunat          buenEstado 
##           0.3122959           1.0000000           1.0090855
modelsummary(rbn, 
             exponentiate = TRUE,
             output = "gt")
(1)
(Intercept) 0.312
(0.014)
contribuyentesSunat 1.000
(0.000)
buenEstado 1.009
(0.002)
Num.Obs. 25
AIC 587.1
BIC 592.0
Log.Lik. -289.566
F 9.985
RMSE 31601.43

RESPUESTA: Ninguno de los predictores es significativo