Expansión de la CASEN sobre el CENSO compendio 2017

De ingresos sobre una categoría de respuesta correlacionadas con \(\tau\)

VE-CC-AJ

DataIntelligence

date: 20-07-2021

1 Introducción

Expandiremos los ingresos promedios comunales (obtenidos de la multiplicación del ingreso promedio y los habitantes) obtenidos de la CASEN sobre la categoría de respuesta: “¿Trabajó por un pago o especie?” de la pregunta P17 del CENSO de personas que recordemos, fue la que mejor correlacionó (0.8717 de \(\tau\)) con los ingresos expandidos, ambos a nivel comunal.

Ensayaremos diferentes modelos dentro del análisis de regresión cuya variable independiente será: “frecuencia de población que posee la variable Censal respecto a la zona” y la dependiente: “ingreso expandido por zona”

Lo anterior para elegir el que posea el mayor coeficiente de determinación a nivel regional y así construir una tabla de valores predichos.

2 Región 01

2.1 Análisis de regresión

región 01

2.2 Coeficiente de determinación

0.98

2.3 Ecuación de regresión

\[ \hat Y = e^{13.13441+1.06604 \cdot ln{X}} \]


3 Región 02

3.1 Análisis de regresión

región 02

3.2 Coeficiente de determinación

0.963

3.3 Ecuación de regresión

\[ \hat Y = e^{13.11756+1.08183 \cdot ln{X}} \]

4 Región 03

4.1 Análisis de regresión

región 03

4.2 Coeficiente de determinación

0.974

4.3 Ecuación de regresión

\[ \hat Y = e^{13.33031+1.04410 \cdot ln{X}} \]

5 Región 04

5.1 Análisis de regresión

región 04

5.2 Coeficiente de determinación

0.98

5.2.1 Ecuación de regresión

\[ \hat Y = {-478.798 }^2 + 2 *( -478.798) 855.474 \sqrt{X}+ 855.4741^2 X \]

6 Región 05

6.1 Análisis de regresión

región 05

6.2 Coeficiente de determinación

0.984

6.2.1 Ecuación de regresión

\[ \hat Y = e^{(13.344140+1.029538 \cdot lnX)}\]

7 Región 06

7.1 Análisis de regresión

región 06

7.2 Coeficiente de determinación

0.991

7.2.1 Ecuación de regresión

\[ \hat Y = e^{13.270613+1.031145 \cdot ln{X}} \]

8 Región 07

8.1 Análisis de regresión

región 07

8.2 Coeficiente de determinación

0.991

8.2.1 Ecuación de regresión

8.3 \[ \hat Y = e^{13.194444+1.033460 \cdot ln{X}} \]


9 Región 08

9.1 Análisis de regresión

región 08

9.2 Coeficiente de determinación

0.8127

9.2.1 Ecuación de regresión

\[ \hat Y = e^{13.244337+1.039956 \cdot ln{X}} \]



10 Región 09

10.1 Análisis de regresión

región 09

10.2 Coeficiente de determinación

0.989

10.2.1 Ecuación de regresión

\[ \hat Y = e^{13.32733+1.01354 \cdot ln{X}} \]



11 Región 10

11.1 Análisis de regresión

región 10

11.2 Coeficiente de determinación

0.989

11.2.1 Ecuación de regresión

\[ \hat Y = e^{13.121051+1.039975 \cdot ln{X}} \]



12 Región 11

12.1 Análisis de regresión

región 11

12.2 Coeficiente de determinación

0.991

12.2.1 Ecuación de regresión

\[ \hat Y = e^{13.09285+1.04935 \cdot ln{X}} \]



13 Región 12

13.1 Análisis de regresión

región 12

13.2 Coeficiente de determinación

0.991

13.2.1 Ecuación de regresión

\[ \hat Y = e^{13.35730+1.03457\cdot ln{X}} \]



14 Región 13

14.1 Análisis de regresión

región 13

14.2 Coeficiente de determinación

0.991

14.2.1 Ecuación de regresión

\[ \hat Y = e^{13.312262+1.028448\cdot ln{X}} \]



15 Región 14

15.1 Análisis de regresión

región 14

15.2 Coeficiente de determinación

0.986

15.2.1 Ecuación de regresión

\[ \hat Y = e^{13.41438+1.00595\cdot ln{X}} \]



16 Región 15

16.1 Análisis de regresión

región 15

16.2 Coeficiente de determinación

0.943

16.2.1 Ecuación de regresión

\[ \hat Y = e^{13.02772+1.07196\cdot ln{X}} \]



17 Región 16

17.1 Análisis de regresión

región 16

17.2 Coeficiente de determinación

0.943

17.2.1 Ecuación de regresión

\[ \hat Y = e^{13.539744+0.984671\cdot ln{X}} \]



18 Union total de las tablas urbanas

archivos_unidos <- dir("urbano/")
receptaculo <- data.frame()
archivos_df <- as.data.frame(archivos_unidos)
nrow(archivos_df)
## [1] 16
archivos_df[1]
##        archivos_unidos
## 1  region_01_P17_u.rds
## 2  region_02_P17_u.rds
## 3  region_03_P17_u.rds
## 4  region_04_P17_u.rds
## 5  region_05_P17_u.rds
## 6  region_06_P17_u.rds
## 7  region_07_P17_u.rds
## 8  region_08_P17_u.rds
## 9  region_09_P17_u.rds
## 10 region_10_P17_u.rds
## 11 region_11_P17_u.rds
## 12 region_12_P17_u.rds
## 13 region_13_P17_u.rds
## 14 region_14_P17_u.rds
## 15 region_15_P17_u.rds
## 16 region_16_P17_u.rds
for (n in 1:nrow(archivos_df)) {
  nombres <- paste("urbano/", archivos_df[n,], sep = "")
  cargado <- readRDS(nombres)
  identificar <- archivos_df[n,1]
  identificar <- str_replace(archivos_df[n,1], "_P17_u.rds","")
  cargado$identificador <- identificar
  receptaculo <- rbind(receptaculo,cargado)
  #print(cargado)
}
write_xlsx(receptaculo,"censo_casen_urb_2017.xlsx")
write_csv2(receptaculo,"censo_casen_urb_2017.csv")

19 Gráfica de la recta de regresión versus los valores verdaderos para la región 01:

receptaculo_1 <- filter(receptaculo, receptaculo$identificador == "region_01")
# receptaculo_1 <- receptaculo
est_ing <-  receptaculo_1$est_ing
frecuencia <- receptaculo_1$Freq.x
multipob <- receptaculo_1$multipob
data <- data.frame(est_ing, multipob, frecuencia)
head(data,5)
##      est_ing   multipob frecuencia
## 1 1017347406  935811182       1255
## 2  480550857  554123442        621
## 3  375729072  376803940        493
## 4   21037406   20286553         33
## 5  990580234 1087584653       1224
#saveRDS(data,"data_urbana.rds")
library(plotly)
fig <- plot_ly(x=data$frecuencia, y=data$est_ing) 
fig <- fig %>% add_trace(y=data$multipob, name = 'realidad', mode = 'markers')
fig <- fig %>% add_trace(y=data$est_ing, name = 'simulación', mode = 'markers')
fig