Expansión de la CASEN sobre el CENSO (Región 03 Rural)

ESCOLARIDAD 12

VE-CC-AJ

DataIntelligence
Fecha: 05-08-2021

1 Resumen

Los ingresos estimados para escolaridad a nivel rural nos entregan valores exageradamente altos, por lo que para mejorar la estimación excluiremos datos de frecuencias de respuesta, zonas con muy pocas personas encuestadas distorsionan el cálculo del ingreso medio pues ese p poblacional está en el denominador de la fórmula. La pregunta clave es: Qué porcentaje de datos se pueden excluir sin perder la representatividad estadística?.

2 Generación de ingresos expandidos a nivel Rural para la región 1:


2.1 Variable CENSO

Necesitamos calcular las frecuencias a nivel censal de las respuestas correspondientes a la categoría: “ESCOLARIDAD” categoria 12 del Censo de personas. Recordemos que ésta fué la más alta correlación en relación a los ingresos expandidos multiplicada por la cantidad de zonas cubiertas(ver punto 2 Correlaciones aquí).

2.1.1 Lectura y filtrado de la tabla censal de personas

Leemos la tabla Censo 2017 de personas que ya tiene integrada la clave zonal:

tabla_con_clave <-
readRDS("censo_personas_con_clave_17")
r3_100 <- tabla_con_clave[c(1:100),]
kbl(r3_100) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
REGION PROVINCIA COMUNA DC AREA ZC_LOC ID_ZONA_LOC NVIV NHOGAR PERSONAN P07 P08 P09 P10 P10COMUNA P10PAIS P11 P11COMUNA P11PAIS P12 P12COMUNA P12PAIS P12A_LLEGADA P12A_TRAMO P13 P14 P15 P15A P16 P16A P16A_OTRO P17 P18 P19 P20 P21M P21A P10PAIS_GRUPO P11PAIS_GRUPO P12PAIS_GRUPO ESCOLARIDAD P16A_GRUPO REGION_15R PROVINCIA_15R COMUNA_15R P10COMUNA_15R P11COMUNA_15R P12COMUNA_15R clave
15 152 15202 1 2 6 13225 1 1 1 1 1 73 1 98 998 3 15101 998 1 98 998 9998 98 2 4 6 2 1 2 98 7 98 98 98 98 9998 998 998 998 4 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 3 1 1 1 1 78 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 3 1 2 2 2 78 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 1 1 3 1965 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 3 1 3 5 2 52 1 98 998 2 98 998 1 98 998 9998 98 1 2 5 2 1 2 98 7 98 2 1 4 1995 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 3 1 4 11 1 44 1 98 998 2 98 998 1 98 998 9998 98 1 3 5 2 1 2 98 1 Z 98 98 98 9998 998 998 998 3 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 1 1 1 39 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 8 98 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 2 2 2 35 1 98 998 2 98 998 1 98 998 9998 98 2 6 5 2 1 2 98 1 Z 2 2 11 2004 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 3 5 1 13 1 98 998 2 98 998 1 98 998 9998 98 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 7 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 4 5 1 12 1 98 998 2 98 998 1 98 998 9998 98 1 6 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 10 1 1 1 2 65 1 98 998 2 98 998 1 98 998 9998 98 2 4 5 2 1 2 98 6 98 3 3 9 1992 998 998 998 4 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 13 1 1 1 1 50 1 98 998 2 98 998 1 98 998 9998 98 2 5 5 2 1 2 98 1 Z 98 98 98 9998 998 998 998 5 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 13 1 2 4 2 43 1 98 998 2 98 998 1 98 998 9998 98 2 6 5 2 1 2 98 6 98 2 2 3 2002 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 13 1 3 5 1 15 3 15201 998 2 98 998 1 98 998 9998 98 1 1 7 2 1 2 98 8 98 98 98 98 9998 998 998 998 9 2 15 152 15202 15201 98 98 15202012006
15 152 15202 1 2 6 13225 16 1 1 1 1 75 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 16 1 2 16 2 58 4 98 68 6 98 998 5 98 998 9999 1 3 98 98 98 1 2 98 7 98 4 4 99 9999 68 68 68 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 16 1 3 2 2 70 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 5 4 99 9999 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 1 1 2 43 2 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 I 3 3 9 2008 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 2 4 1 55 2 98 998 2 98 998 1 98 998 9998 98 2 6 5 2 1 2 98 6 98 98 98 98 9998 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 3 5 2 13 2 98 998 2 98 998 2 15101 998 9998 98 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 7 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 17 1 4 5 1 8 2 98 998 2 98 998 2 15101 998 9998 98 1 2 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 2 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 17 1 5 15 2 29 2 98 998 4 98 998 3 98 998 2015 1 2 6 5 2 1 2 98 6 98 5 5 11 2014 998 604 604 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 6 15 1 4 2 98 998 1 98 998 5 98 998 2015 1 1 0 1 2 1 2 98 98 98 98 98 98 9998 998 998 68 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 7 15 2 2 2 98 998 1 98 998 3 98 998 2015 1 1 0 1 2 1 2 98 98 98 98 98 98 9998 998 998 604 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 8 15 1 16 2 98 998 6 98 998 1 98 998 9998 98 2 4 5 2 1 2 98 6 98 98 98 98 9998 998 68 998 4 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 18 1 1 1 2 74 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 2 2 12 1976 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 19 1 1 1 1 68 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 20 1 1 1 1 74 1 98 998 3 15101 998 1 98 998 9998 98 2 2 5 2 1 2 98 1 Z 98 98 98 9998 998 998 998 2 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 20 1 2 2 2 65 1 98 998 3 997 998 3 98 998 9999 2 2 2 5 2 1 2 98 6 98 2 2 9 1982 998 998 604 2 2 15 152 15202 98 997 98 15202012006
15 152 15202 1 2 6 13225 25 1 1 1 2 76 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 6 98 8 6 3 1981 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 25 1 2 5 2 36 1 98 998 2 98 998 1 98 998 9998 98 2 4 8 1 1 2 98 1 A 0 98 98 9998 998 998 998 12 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 1 1 2 31 1 98 998 2 98 998 5 98 998 2007 2 2 5 5 2 1 2 98 1 A 2 2 4 2008 998 998 68 5 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 2 4 1 35 1 98 998 2 98 998 5 98 998 2007 2 2 6 5 2 1 2 98 1 F 98 98 98 9998 998 998 68 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 3 5 1 11 1 98 998 2 98 998 5 98 998 2007 2 1 5 5 2 1 2 98 98 98 98 98 98 9998 998 998 68 5 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 4 5 1 8 1 98 998 2 98 998 1 98 998 9998 98 1 2 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 5 15 2 74 1 98 998 2 98 998 1 98 998 9998 98 2 3 5 2 1 2 98 6 98 6 6 99 9999 998 998 998 3 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 1 1 1 41 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 Z 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 2 2 2 47 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 A 2 1 4 1996 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 3 14 1 88 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 4 14 1 65 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 7 98 98 98 98 9998 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 1 1 2 59 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 8 8 2 1998 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 2 2 1 56 1 98 998 99 99 999 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 98 98 98 9998 998 999 998 2 2 15 152 15202 98 99 98 15202012006
15 152 15202 1 2 6 13225 36 1 3 5 2 36 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 6 98 2 2 7 2010 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 4 12 2 13 1 98 998 2 98 998 1 98 998 9998 98 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 7 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 5 12 2 6 1 98 998 2 98 998 1 98 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 6 5 1 24 1 98 998 3 15101 998 1 98 998 9998 98 2 4 7 1 1 2 98 1 Z 98 98 98 9998 998 998 998 12 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 36 1 7 11 2 24 1 98 998 3 15101 998 1 98 998 9998 98 2 4 7 1 1 2 98 1 N 2 2 11 2015 998 998 998 12 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 36 1 8 12 1 6 1 98 998 2 98 998 2 15101 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 36 1 9 12 2 1 1 98 998 1 98 998 2 15101 998 9998 98 3 98 98 98 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 38 1 1 1 1 19 1 98 998 3 15101 998 2 15101 998 9998 98 1 1 8 2 1 2 98 1 A 98 98 98 9998 998 998 998 9 2 15 152 15202 98 15101 15101 15202012006
15 152 15202 1 2 6 13225 39 1 1 1 1 21 1 98 998 2 98 998 1 98 998 9998 98 2 1 7 2 1 2 98 1 F 98 98 98 9998 998 998 998 9 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 39 1 2 4 2 22 1 98 998 2 98 998 1 98 998 9998 98 2 1 8 2 1 2 98 6 98 0 98 98 9998 998 998 998 9 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 1 1 2 26 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 6 98 2 2 10 2013 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 2 2 1 24 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 Z 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 3 13 2 71 1 98 998 2 98 998 1 98 998 9998 98 2 1 5 2 1 2 98 6 98 3 3 12 1974 998 998 998 1 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 4 5 2 6 1 98 998 2 98 998 1 98 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 5 5 2 3 1 98 998 1 98 998 1 98 998 9998 98 1 0 1 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 8 13910 5 1 1 1 1 44 1 98 998 2 98 998 3 98 998 2005 2 2 4 7 1 1 2 98 6 98 98 98 98 9998 998 998 604 12 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 5 1 2 2 2 42 1 98 998 2 98 998 1 98 998 9998 98 2 3 5 2 1 2 98 1 P 3 3 12 2006 998 998 998 3 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 5 1 3 5 2 10 1 98 998 2 98 998 1 98 998 9998 98 1 4 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 4 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 7 1 1 1 2 70 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 7 7 6 1994 998 998 998 2 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 7 1 2 5 1 44 1 98 998 2 98 998 1 98 998 9998 98 2 5 5 2 1 2 98 7 98 98 98 98 9998 998 998 998 5 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 8 1 1 1 1 58 1 98 998 2 98 998 3 98 998 2004 2 2 4 5 2 1 2 98 6 98 98 98 98 9998 998 998 604 4 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 8 1 2 2 2 59 1 98 998 2 98 998 3 98 998 2004 2 2 2 5 2 1 2 98 6 98 3 3 7 1999 998 998 604 2 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 19 1 1 1 1 58 99 99 999 99 99 999 99 99 999 9999 99 99 99 99 99 99 99 99 99 99 98 98 98 9998 999 999 999 99 99 15 152 15202 99 99 99 15202012008
15 152 15202 1 2 8 13910 21 1 1 1 1 53 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 H 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 21 1 2 2 2 46 1 98 998 2 98 998 1 98 998 9998 98 2 3 5 2 1 2 98 6 98 3 3 2 1990 998 998 998 3 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 22 1 1 1 2 73 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 6 98 6 5 3 1979 998 998 998 0 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 30 1 1 1 1 57 1 98 998 2 98 998 2 997 998 9998 98 2 3 5 2 1 2 98 6 98 98 98 98 9998 998 998 998 3 2 15 152 15202 98 98 997 15202012008
15 152 15202 1 2 12 8394 3 1 1 2 2 64 1 98 998 2 98 998 3 98 998 1974 4 3 98 98 98 1 2 98 1 A 12 10 99 9999 998 998 604 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 3 1 2 1 1 74 2 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 99 99 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 3 1 3 5 2 38 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 2 A 0 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 3 1 4 14 1 38 99 99 999 99 99 999 99 99 999 9999 99 99 99 99 99 99 99 99 8 98 98 98 98 9998 999 999 999 99 99 15 152 15202 99 99 99 15202012012
15 152 15202 1 2 12 8394 9 1 1 1 2 79 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 8 98 2 2 99 9999 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 19 1 1 1 1 46 99 99 999 99 99 999 99 99 999 9999 99 99 99 99 99 99 99 99 99 99 98 98 98 9998 999 999 999 99 99 15 152 15202 99 99 99 15202012012
15 152 15202 1 2 12 8394 20 1 1 1 2 58 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 A 3 3 7 1982 998 998 998 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 21 1 1 1 2 45 1 98 998 6 98 998 2 997 998 9998 98 2 4 5 2 1 2 98 1 A 6 6 2 2007 998 68 998 4 2 15 152 15202 98 98 997 15202012012
15 152 15202 1 2 12 8394 21 1 2 5 2 10 1 98 998 6 98 998 2 3201 998 9998 98 1 4 5 2 1 2 98 98 98 98 98 98 9998 998 68 998 4 2 15 152 15202 98 98 3201 15202012012
15 152 15202 1 2 12 8394 24 1 1 1 1 67 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 8 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 24 1 2 2 2 53 1 98 998 2 98 998 3 98 998 9999 99 3 98 98 98 1 2 98 8 98 0 98 98 9998 998 998 604 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 27 1 1 1 1 48 1 98 998 2 98 998 1 98 998 9998 98 2 4 7 1 1 2 98 8 98 98 98 98 9998 998 998 998 12 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 31 1 1 1 1 49 1 98 998 4 98 998 3 98 998 2001 2 2 8 5 1 1 2 98 1 A 98 98 98 9998 998 604 604 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 1 1 1 46 1 98 998 2 98 998 3 98 998 1992 3 2 8 5 1 1 2 98 2 A 98 98 98 9998 998 998 604 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 2 2 2 24 1 98 998 6 98 998 5 98 998 2013 1 2 7 5 2 1 2 98 6 98 2 2 6 2016 998 68 68 7 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 3 6 2 2 1 98 998 1 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 4 5 1 0 1 98 998 1 98 998 2 15101 998 9998 98 99 99 99 99 1 2 98 98 98 98 98 98 9998 998 998 998 99 2 15 152 15202 98 98 15101 15202012012
15 152 15202 1 2 12 8394 42 1 5 5 2 13 1 98 998 2 98 998 3 98 998 9999 99 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 604 7 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 6 5 1 6 1 98 998 2 98 998 2 15101 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 15101 15202012012
15 152 15202 1 2 15 4094 2 1 1 1 1 41 1 98 998 2 98 998 1 98 998 9998 98 2 4 12 1 1 2 98 1 O 98 98 98 9998 998 998 998 16 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 8 1 1 17 1 70 2 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 8 1 2 17 1 47 2 98 998 3 15101 998 2 8101 998 9998 98 2 4 8 1 1 2 98 1 Z 98 98 98 9998 998 998 998 12 2 15 152 15202 98 15101 8101 15202012015
15 152 15202 1 2 15 4094 8 1 3 17 1 19 2 98 998 3 15101 998 2 15101 998 9998 98 1 99 7 99 1 2 98 1 I 98 98 98 9998 998 998 998 99 2 15 152 15202 98 15101 15101 15202012015
15 152 15202 1 2 15 4094 8 1 4 17 1 43 2 98 998 3 4302 998 2 8101 998 9998 98 99 4 8 1 1 2 98 1 N 98 98 98 9998 998 998 998 12 2 15 152 15202 98 4302 8101 15202012015
15 152 15202 1 2 15 4094 8 1 5 17 2 35 2 98 998 6 98 998 5 98 998 2016 1 2 8 5 1 1 2 98 1 I 2 2 3 2007 998 68 68 8 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 8 1 6 17 1 36 3 13123 998 3 13123 998 2 12101 998 9998 98 2 5 12 1 2 98 98 1 J 98 98 98 9998 998 998 998 17 98 15 152 15202 13123 13123 12101 15202012015
15 152 15202 1 2 15 4094 8 1 7 17 2 25 2 98 998 3 15101 998 2 15101 998 9998 98 2 5 12 1 1 2 98 1 Q 1 1 12 2011 998 998 998 17 2 15 152 15202 98 15101 15101 15202012015
15 152 15202 1 2 15 4094 9 1 1 1 1 72 1 98 998 2 98 998 1 98 998 9998 98 2 1 5 2 1 2 98 1 G 98 98 98 9998 998 998 998 1 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 12 1 1 1 1 21 1 98 998 3 15101 998 2 15101 998 9998 98 2 4 8 1 1 2 98 1 N 98 98 98 9998 998 998 998 12 2 15 152 15202 98 15101 15101 15202012015
15 152 15202 1 2 15 4094 15 1 1 1 1 61 1 98 998 2 98 998 1 98 998 9998 98 2 3 7 2 1 2 98 4 98 98 98 98 9998 998 998 998 11 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 15 1 2 5 2 31 1 98 998 3 15101 998 1 98 998 9998 98 2 4 12 1 1 2 98 1 P 1 1 10 2007 998 998 998 16 2 15 152 15202 98 15101 98 15202012015
15 152 15202 1 2 15 4094 16 1 1 1 1 34 1 98 998 3 15101 998 1 98 998 9998 98 2 5 12 1 1 2 98 1 O 98 98 98 9998 998 998 998 17 2 15 152 15202 98 15101 98 15202012015


2.1.2 Cálculo de frecuencias

Obtenemos las frecuencias a la pregunta ESCOLARIDAD filtradas por region = 1 y zona urbana = 1 y respuesta 12.

tabla_con_clave_f <- tabla_con_clave[,-c(2,4,6:40,42:48),drop=FALSE]
claves_con_1 <- filter(tabla_con_clave_f, tabla_con_clave_f$ESCOLARIDAD == 12)
claves_con_1 <- filter(claves_con_1, claves_con_1$AREA == 2)
claves_con_1 <- filter(claves_con_1, claves_con_1$REGION ==3)
claves_con_1 <- as.data.frame(claves_con_1)
codigos <- claves_con_1$COMUNA
rango <- seq(1:nrow(claves_con_1))
cadena <- paste("0",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(4),6)
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
comuna_corr <- cbind(claves_con_1,cadena) 
unicos <- unique(comuna_corr)
unicos <- unicos[!duplicated(unicos$clave), ]

e <- xtabs(~clave+ESCOLARIDAD, data=claves_con_1)
e <- as.data.frame(e)
###  1. Unir los codigos comunales correctos a las frecuencias 
tabla_1 = merge( x = e, y = unicos, by = "clave", all.x = TRUE)
colnames(tabla_1)[8] <- "código"
tabla_2 <- tabla_1[, -c(2,5,6,7)]
names(tabla_2)[4] <- "código"  

  datatable(tabla_2,class = 'cell-border stripe',
          options = list(
            pageLength = 5,
            autoWidth = TRUE
))
  1. Unir los ingresos expandidos rurales
ingresos_expandidos_rurales <- readRDS("ingresos_expandidos_casen_2017_totales_r.rds")
  datatable(ingresos_expandidos_rurales,class = 'cell-border stripe',
          options = list(
            pageLength = 5,
            autoWidth = TRUE
))
tabla_3 = merge( x = tabla_2 , y = ingresos_expandidos_rurales, by = "código", all.x = TRUE)
colnames(tabla_3)[2] <- "zona"
colnames(tabla_3)[6] <- "area"
  datatable(tabla_3,class = 'cell-border stripe',
          options = list(
            pageLength = 5,
            autoWidth = TRUE
))
### hay que integrar las proporciones poblacionales zonales:

tabla_de_prop_pob <- readRDS("tabla_de_prop_pob.rds")
names(tabla_de_prop_pob)[1] <- "zona" 
tabla_de_prop_pob$zona <- as.character(tabla_de_prop_pob$zona) 
tabla_4 = merge( x = tabla_3, y = tabla_de_prop_pob, by = "zona", all.x = TRUE)
tabla_5 <- tabla_4[, -c( 11,13)]
names(tabla_5)[2] <- "código"  
names(tabla_5)[3] <- "frecuencia_de_resp"  
names(tabla_5)[4] <- "region"  
names(tabla_5)[5] <- "region_nombre" 
  datatable(tabla_5,class = 'cell-border stripe',
          options = list(
            pageLength = 5,
            autoWidth = TRUE
))
  1. construir multipob
tabla_5$multipob <- tabla_5$Ingresos_expandidos*tabla_5$p 
tabla_5 <- na.omit(tabla_5)
tabla_sin_out <- tabla_5
  datatable(tabla_5,class = 'cell-border stripe',
          options = list(
            pageLength = 5,
            autoWidth = TRUE
))

3 Análisis de regresión con la presencia de outliers en la frecuencia de respuesta

Aplicaremos un análisis de regresión donde:

\[ Y(dependiente) = ingreso \ expandido \ por \ zona \ (multi\_pob)\]

\[ X(independiente) = frecuencia \ de \ población \ que \ posee \ la \ variable \ Censal \ respecto \ a \ la \ zona \ (Freq.x) \]

3.1 Diagrama de dispersión loess

scatter.smooth(x=tabla_5$frecuencia_de_resp, y=tabla_5$multipob, main="multi_pob ~ Freq",
     xlab = "Freq",
     ylab = "multi_pob",
           col = 2, is.na = T) 

3.2 Modelos lineales

Aplicaremos un análisis de regresión lineal del ingreso expandido por zona sobre las frecuencias de respuestas zonales para 9 modelos.

3.3 Gráfica de la recta de regresión lineal con variables sin modificar

ggplot(tabla_5, aes(x = frecuencia_de_resp, y = multipob)) + 
  geom_point() +
  stat_smooth(method = "lm", col = "red")

3.3.1 Vamos a aplicar 9 modelos alternativos para encontrar el que posea el mayor coeficiente de determinacion

### 8.0 Modelo simple

linearMod <- lm( multipob~(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "simple"
sintaxis <- "linearMod <- lm( multipob~(frecuencia_de_resp) , data=tabla_5)"

modelos0 <- cbind(modelo,dato,sintaxis) 


### 8.1 Modelo cuadrático

linearMod <- lm( multipob~(frecuencia_de_resp^2) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cuadrático"
sintaxis <- "linearMod <- lm( multi_pob~(Freq.x^2) , data=h_y_m_comuna_corr_01)"

modelos1 <- cbind(modelo,dato,sintaxis) 
 
 
### 8.2 Modelo cúbico
 
linearMod <- lm( multipob~(frecuencia_de_resp^3) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cúbico"
sintaxis <- "linearMod <- lm( multi_pob~(Freq.x^3) , data=h_y_m_comuna_corr_01)"

modelos2 <- cbind(modelo,dato,sintaxis)
 
### 8.3 Modelo logarítmico
 
linearMod <- lm( multipob~log(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "logarítmico"
sintaxis <- "linearMod <- lm( multi_pob~log(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos3 <- cbind(modelo,dato,sintaxis)
 
### 8.5 Modelo con raíz cuadrada 
 
linearMod <- lm( multipob~sqrt(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz cuadrada"
sintaxis <- "linearMod <- lm( multi_pob~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos5 <- cbind(modelo,dato,sintaxis)
 
### 8.6 Modelo raíz-raíz
 
linearMod <- lm( sqrt(multipob)~sqrt(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-raíz"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos6 <- cbind(modelo,dato,sintaxis)
 
### 8.7 Modelo log-raíz
 
linearMod <- lm( log(multipob)~sqrt(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-raíz"
sintaxis <- "linearMod <- lm( log(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos7 <- cbind(modelo,dato,sintaxis)
 
### 8.8 Modelo raíz-log
 
linearMod <- lm( sqrt(multipob)~log(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-log"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos8 <- cbind(modelo,dato,sintaxis)
 
### 8.9 Modelo log-log
 
linearMod <- lm( log(multipob)~log(frecuencia_de_resp) , data=tabla_5)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-log"
sintaxis <- "linearMod <- lm( log(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos9 <- cbind(modelo,dato,sintaxis)
 
modelos_bind <- rbind(modelos0, modelos1, modelos2,modelos3,modelos5,modelos6,modelos7,modelos8,modelos9)
modelos_bind <- as.data.frame(modelos_bind)

# modelos_bind <<- modelos_bind[order(modelos_bind$dato, decreasing = T ),]
modelos_bind <- cbind(row.names(modelos_bind),modelos_bind)
names(modelos_bind)[1] <- "n"
modelos_bind$dato <- as.numeric(modelos_bind$dato)
modelos_bind <- modelos_bind[order(modelos_bind$dato, decreasing = T ),]

kbl(modelos_bind) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
n modelo dato sintaxis
6 6 raíz-raíz 0.9127844 linearMod <- lm( sqrt(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)
1 1 simple 0.8710680 linearMod <- lm( multipob~(frecuencia_de_resp) , data=tabla_5)
2 2 cuadrático 0.8710680 linearMod <- lm( multi_pob~(Freq.x^2) , data=h_y_m_comuna_corr_01)
3 3 cúbico 0.8710680 linearMod <- lm( multi_pob~(Freq.x^3) , data=h_y_m_comuna_corr_01)
9 9 log-log 0.8591674 linearMod <- lm( log(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)
5 5 raíz cuadrada 0.8203441 linearMod <- lm( multi_pob~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)
7 7 log-raíz 0.8126363 linearMod <- lm( log(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)
8 8 raíz-log 0.7899663 linearMod <- lm( sqrt(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)
4 4 logarítmico 0.6046789 linearMod <- lm( multi_pob~log(Freq.x) , data=h_y_m_comuna_corr_01)


4 Elección del modelo.

for(i in modelos_bind$n) {

  numero <- modelos_bind[i,1]
  numero <- as.numeric(numero)
  metodo <- numero
switch (metodo,
        case = linearMod <- lm( multipob~(frecuencia_de_resp) , data=tabla_5),
        case = linearMod <- lm( multipob~(frecuencia_de_resp^2) , data=tabla_5),
        case = linearMod <- lm( multipob~(frecuencia_de_resp^3) , data=tabla_5),
        case = linearMod <- lm( multipob~log(frecuencia_de_resp) , data=tabla_5),
        case = linearMod <- lm( multipob~sqrt(frecuencia_de_resp) , data=tabla_5),
        case = linearMod <- lm( sqrt(multipob)~sqrt(frecuencia_de_resp) , data=tabla_5),
        case = linearMod <- lm( log(multipob)~sqrt(frecuencia_de_resp) , data=tabla_5),
        case = linearMod <- lm( sqrt(multipob)~log(frecuencia_de_resp) , data=tabla_5),
        case = linearMod <- lm( log(multipob)~log(frecuencia_de_resp) , data=tabla_5)
)
 rq <<- summary(linearMod)
  valor1 <- rq$coefficients[8] < 0.001
  valor2 <- rq$coefficients[7] < 0.001

  if(valor2 == TRUE & valor1 == TRUE) {
    print("------")
    print(modelos_bind[i,2])
    print(rq)
    break

  }
}
## [1] "------"
## [1] "raíz-raíz"
## 
## Call:
## lm(formula = sqrt(multipob) ~ sqrt(frecuencia_de_resp), data = tabla_5)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3022.3  -594.2   -86.7   398.0  4109.8 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                504.89     139.70   3.614 0.000407 ***
## sqrt(frecuencia_de_resp)   958.42      23.71  40.419  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1004 on 155 degrees of freedom
## Multiple R-squared:  0.9133, Adjusted R-squared:  0.9128 
## F-statistic:  1634 on 1 and 155 DF,  p-value: < 2.2e-16
aa <- rq$coefficients[1]
bb <- rq$coefficients[2]

4.1 construccion de la tabla con ingresos estimados(con outliers)

\[ \hat Y = {\beta_0}^2 + 2 \beta_0 \beta_1 \sqrt{X}+ \beta_1^2 X \]

tabla_5$est_ing <- aa^2 + 2*aa*bb*sqrt(tabla_5$frecuencia_de_resp)+bb^2*tabla_5$frecuencia_de_resp### raíz raíz


tabla_5$ing_medio_zona <- tabla_5$est_ing /(tabla_5$personas  * tabla_5$p)
# tabla_5
  datatable(tabla_5,class = 'cell-border stripe',
          options = list(
            pageLength = 4,
            autoWidth = FALSE
))

Calculemos los promedios de el campo promedio_i e ing_medio_zona para compararlos

library("dplyr")
summarise(tabla_5, my_mean = mean(promedio_i))
##    my_mean
## 1 264158.9
library("dplyr")
summarise(tabla_5, my_mean = mean(ing_medio_zona))
##   my_mean
## 1  302273

De la grafica se observa perfectamente la presencia de outliers que debemos excluir, pues pueden infuir en la determiacion de un r-cuadrado alto con la existencia de valores que se alejan de la realidad. vamos a aplicar la exclucion del 1.5% del rango intercuartilico tanto para valores en rangos superiores como inferiores en el campo frecuencia de respuesta(el campo p no nos sirve, pues es representativo de la poblecion zonal respecto a la comunal)

4.2 Construccion de la tabla sin outliers

Con el criterio del 1.5 iqr vamos a excluir los valores frecuencia de respuesta

Q <- quantile(tabla_sin_out$p, probs=c(.25, .75), na.rm = T)
iqr <- IQR(tabla_sin_out$p, na.rm = T)
casen_2017_sin_o <- subset(tabla_sin_out, tabla_sin_out$p > (Q[1] - 1.5*iqr) & tabla_sin_out$p < (Q[2] + 1.5*iqr))
casen_2017_sin_o <- data.frame(lapply(casen_2017_sin_o, as.character), stringsAsFactors=FALSE)
casen_2017_sin_o$p <- as.numeric(casen_2017_sin_o$p)
casen_2017_sin_o$multipob <- as.numeric(casen_2017_sin_o$multipob)
  datatable(casen_2017_sin_o,class = 'cell-border stripe',
          options = list(
            pageLength = 5,
            autoWidth = TRUE
))
scatter.smooth(x=casen_2017_sin_o$frecuencia_de_resp, y=casen_2017_sin_o$multipob, main="multi_pob ~ Freq",
     xlab = "Freq",
     ylab = "multi_pob",
           col = 2, is.na = T) 

4.3 Modelos lineales

Aplicaremos un análisis de regresión lineal del ingreso expandido por zona sobre las frecuencias de respuestas zonales para 9 modelos.

4.4 Gráfica de la recta de regresión lineal sacando los outliers

casen_2017_sin_o$frecuencia_de_resp <- as.numeric(casen_2017_sin_o$frecuencia_de_resp)
ggplot(casen_2017_sin_o, aes(x = frecuencia_de_resp, y = multipob)) + 
  geom_point() +
  stat_smooth(method = "lm", col = "red")

### 8.0 Modelo simple

linearMod <- lm( multipob~(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "simple"
sintaxis <- "linearMod <- lm( multipob~(frecuencia_de_resp) , data=casen_2017_sin_o)"

modelos0 <- cbind(modelo,dato,sintaxis) 


### 8.1 Modelo cuadrático

linearMod <- lm( multipob~(frecuencia_de_resp^2) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cuadrático"
sintaxis <- "linearMod <- lm( multi_pob~(Freq.x^2) , data=casen_2017_sin_o)"

modelos1 <- cbind(modelo,dato,sintaxis)

 
### 8.2 Modelo cúbico
 
linearMod <- lm( multipob~(frecuencia_de_resp^3) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cúbico"
sintaxis <- "linearMod <- lm( multi_pob~(Freq.x^3) , data=casen_2017_sin_o)"

modelos2 <- cbind(modelo,dato,sintaxis)
 
### 8.3 Modelo logarítmico
 
linearMod <- lm( multipob~log(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "logarítmico"
sintaxis <- "linearMod <- lm( multi_pob~log(Freq.x) , data=casen_2017_sin_o)"

modelos3 <- cbind(modelo,dato,sintaxis)
 
### 8.5 Modelo con raíz cuadrada 
 
linearMod <- lm( multipob~sqrt(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz cuadrada"
sintaxis <- "linearMod <- lm( multi_pob~sqrt(Freq.x) , data=casen_2017_sin_o)"

modelos5 <- cbind(modelo,dato,sintaxis)
 
### 8.6 Modelo raíz-raíz
 
linearMod <- lm( sqrt(multipob)~sqrt(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-raíz"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~sqrt(Freq.x) , data=casen_2017_sin_o)"

modelos6 <- cbind(modelo,dato,sintaxis)
 
### 8.7 Modelo log-raíz
 
linearMod <- lm( log(multipob)~sqrt(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-raíz"
sintaxis <- "linearMod <- lm( log(multi_pob)~sqrt(Freq.x) , data=casen_2017_sin_o)"

modelos7 <- cbind(modelo,dato,sintaxis)
 
### 8.8 Modelo raíz-log
 
linearMod <- lm( sqrt(multipob)~log(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-log"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~log(Freq.x) , data=casen_2017_sin_o)"

modelos8 <- cbind(modelo,dato,sintaxis)
 
### 8.9 Modelo log-log
 
linearMod <- lm( log(multipob)~log(frecuencia_de_resp) , data=casen_2017_sin_o)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-log"
sintaxis <- "linearMod <- lm( log(multi_pob)~log(Freq.x) , data=casen_2017_sin_o)"

modelos9 <- cbind(modelo,dato,sintaxis)
 
modelos_bind <- rbind(modelos0, modelos1, modelos2,modelos3,modelos5,modelos6,modelos7,modelos8,modelos9)
modelos_bind <- as.data.frame(modelos_bind)

# modelos_bind <<- modelos_bind[order(modelos_bind$dato, decreasing = T ),]
modelos_bind <- cbind(row.names(modelos_bind),modelos_bind)
names(modelos_bind)[1] <- "n"
modelos_bind$dato <- as.numeric(modelos_bind$dato)
modelos_bind <- modelos_bind[order(modelos_bind$dato, decreasing = T ),]

kbl(modelos_bind) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
n modelo dato sintaxis
6 6 raíz-raíz 0.8938775 linearMod <- lm( sqrt(multi_pob)~sqrt(Freq.x) , data=casen_2017_sin_o)
1 1 simple 0.8780109 linearMod <- lm( multipob~(frecuencia_de_resp) , data=casen_2017_sin_o)
2 2 cuadrático 0.8780109 linearMod <- lm( multi_pob~(Freq.x^2) , data=casen_2017_sin_o)
3 3 cúbico 0.8780109 linearMod <- lm( multi_pob~(Freq.x^3) , data=casen_2017_sin_o)
9 9 log-log 0.8144994 linearMod <- lm( log(multi_pob)~log(Freq.x) , data=casen_2017_sin_o)
5 5 raíz cuadrada 0.7994845 linearMod <- lm( multi_pob~sqrt(Freq.x) , data=casen_2017_sin_o)
7 7 log-raíz 0.7836959 linearMod <- lm( log(multi_pob)~sqrt(Freq.x) , data=casen_2017_sin_o)
8 8 raíz-log 0.7444688 linearMod <- lm( sqrt(multi_pob)~log(Freq.x) , data=casen_2017_sin_o)
4 4 logarítmico 0.5473818 linearMod <- lm( multi_pob~log(Freq.x) , data=casen_2017_sin_o)


5 Elección del modelo.

for(i in modelos_bind$n) {

  numero <- modelos_bind[i,1]
  numero <- as.numeric(numero)
  metodo <- numero
switch (metodo,
        case = linearMod <- lm( multipob~(frecuencia_de_resp) , data=casen_2017_sin_o),
        case = linearMod <- lm( multipob~(frecuencia_de_resp^2) , data=casen_2017_sin_o),
        case = linearMod <- lm( multipob~(frecuencia_de_resp^3) , data=casen_2017_sin_o),
        case = linearMod <- lm( multipob~log(frecuencia_de_resp) , data=casen_2017_sin_o),
        case = linearMod <- lm( multipob~sqrt(frecuencia_de_resp) , data=casen_2017_sin_o),
        case = linearMod <- lm( sqrt(multipob)~sqrt(frecuencia_de_resp) , data=casen_2017_sin_o),
        case = linearMod <- lm( log(multipob)~sqrt(frecuencia_de_resp) , data=casen_2017_sin_o),
        case = linearMod <- lm( sqrt(multipob)~log(frecuencia_de_resp) , data=casen_2017_sin_o),
        case = linearMod <- lm( log(multipob)~log(frecuencia_de_resp) , data=casen_2017_sin_o)
)
 rq <<- summary(linearMod)
  valor1 <- rq$coefficients[8] < 0.001
  valor2 <- rq$coefficients[7] < 0.001

  if(valor2 == TRUE & valor1 == TRUE) {
    print("------")
    print(modelos_bind[i,2])
    print(rq)
    break

  }
}
## [1] "------"
## [1] "log-log"
## 
## Call:
## lm(formula = log(multipob) ~ log(frecuencia_de_resp), data = casen_2017_sin_o)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.07758 -0.30637  0.02251  0.26342  2.58517 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             14.41086    0.09348  154.16   <2e-16 ***
## log(frecuencia_de_resp)  0.84662    0.03449   24.55   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5085 on 136 degrees of freedom
## Multiple R-squared:  0.8159, Adjusted R-squared:  0.8145 
## F-statistic: 602.5 on 1 and 136 DF,  p-value: < 2.2e-16
aa <- rq$coefficients[1]
bb <- rq$coefficients[2]

5.1 Casos perdidos con la exclusión de outliers en la frecuencia de respuesta

nrow(tabla_5) 
## [1] 157
nrow(casen_2017_sin_o)
## [1] 138
valores_ex <- nrow(tabla_5) - nrow(casen_2017_sin_o)
valores_ex
## [1] 19

En la regresión lineal que lanzamos sin datos a excluir, nos encontramos con un ajuste muy alto, estando frente al clásico ejemplo de como un solo outlier puede distorsionar un modelo de regresión. Excluyendo el 15% de datos obtemos una regresión con coeficiente de determinación menos preciso(0.7813) pero más ajustado a la realidad y con coefecientes de regreción estadisticamente significativos.

aa
## [1] 14.41086
bb
## [1] 0.8466179

\[ \hat Y = \beta_0 + \beta_1 \sqrt {X} \]

# casen_2017_sin_o$est_ing <- aa+bb*sqrt(casen_2017_sin_o$frecuencia_de_resp)###--- raiz cuadrada
casen_2017_sin_o$est_ing <- exp(aa+bb*log(casen_2017_sin_o$frecuencia_de_resp))###--- log log

casen_2017_sin_o$p <- as.numeric(casen_2017_sin_o$p)
casen_2017_sin_o$personas <- as.numeric(casen_2017_sin_o$personas)
casen_2017_sin_o$ing_medio_zona <- casen_2017_sin_o$est_ing /(casen_2017_sin_o$personas  * casen_2017_sin_o$p)
# casen_2017_sin_o
datatable(casen_2017_sin_o,class = 'cell-border stripe',
        options = list(
          pageLength = 5,
          autoWidth = TRUE
))

5.1.1 Comparación de promedio sin exclusión de outliers

library("dplyr")
promedio_i1 <- (summarise(tabla_5, my_mean = mean(promedio_i)))
as.numeric(promedio_i1)
## [1] 264158.9
ing_medio_zona1 <- summarise(tabla_5, my_mean = mean(ing_medio_zona))
as.numeric(ing_medio_zona1)
## [1] 302273

5.1.2 Comparación de promedio con exclusión de outliers

library("dplyr")
casen_2017_sin_o$promedio_i <- as.numeric(casen_2017_sin_o$promedio_i)
promedio_i2 <- summarise(casen_2017_sin_o, my_mean = mean(promedio_i))
as.numeric(promedio_i2)
## [1] 267319.7
ing_medio_zona2 <- summarise(casen_2017_sin_o, my_mean = mean(ing_medio_zona))
as.numeric(ing_medio_zona2)
## [1] 297992.1