Replica de Articulo Econométrico

1. Introduccion

Este documento realiza una réplica del artículo titulado “Factores que influyen en la probabilidad de permanecer en la informalidad en Colombia (2008-2012): un análisis de las medidas de la política gubernamental” escrito por Jurany Ramírez, Camilo Avila e Ingrid Arias, el cual fue publicado en la Editorial Neogranadina de la Universidad Militar Nueva Granada. En este artículo, Ramírez, Avila y Arias tienen como objetivo central examinar de qué manera las políticas gubernamentales dirigidas a la población de bajos recursos impactan en las decisiones de los individuos respecto a su participación en el mercado laboral formal o informal en Colombia. Para alcanzar dicho propósito, emplearon el Modelo Probit como herramienta para analizar la probabilidad de permanecer en la informalidad en relación con la exposición de un individuo a programas específicos de políticas gubernamentales, como la afiliación al sistema de salud subsidiado. Además, se incorporaron algunas variables que describen las características de la población, tales como género, edad, nivel educativo, asistencia a instituciones educativas y el promedio de horas trabajadas por semana. La investigación se divide en cuatro secciones: Marco de Contexto, Metodología, Resultados y Conclusiones Finales. La sección de Marco de Contexto incluye una revisión de la literatura sobre la informalidad en Colombia y presenta dos teorías para su explicación: la teoría institucional y la teoría estructural. La sección de Metodología detalla la metodología empleada en el análisis de los datos, incluyendo el modelo Probit y las variables utilizadas. En la sección de Resultados, se exponen los resultados del análisis estadístico y se discuten los descubrimientos obtenidos. Por último, en la sección de Conclusiones Finales, se presentan las conclusiones y se analizan las implicaciones de los resultados para las políticas gubernamentales en Colombia. El propósito de esta replica es comparar los resultados obtenidos en la investigación original con los datos recopilados en la Gran Encuesta Integrada de Hogares 2021 de diciembre, con el fin de demostrar la consistencia o divergencia de los resultados obtenidos entre los años 2008 y 2012. Para esto se hará un recuento de las cuatro secciones del articulo original. Al final del documento estara el link para acceder a la base de datos y el codigo de r

2. Informalidad en Colombia

Ramírez, Avila y Arias presentan una revisión de la literatura sobre la informalidad en Colombia y exponen dos teorías para explicarla: la teoría institucionalista y la estructuralista. Se menciona que la informalidad laboral es un fenómeno complejo que se ha convertido en un problema social y económico en Colombia y que ha sido objeto de estudio por parte de diversos autores. Además, se destaca que la informalidad laboral en Colombia se ha mantenido en niveles altos durante las últimas décadas, a pesar de los esfuerzos del gobierno para reducirla. La teoría institucionalista se enfoca en explicar el origen de la informalidad y sostiene que esta es una elección de los individuos, por lo tanto, su enfoque está en la oferta laboral. Esta teoría promueve la liberalización de los mercados y una reducción en la intervención estatal, que, según esta teoría, distorsiona la economía y genera la informalidad. Por otro lado, la teoría estructuralista sostiene que la informalidad es un resultado de la estructura económica y social del país y que se debe a la falta de oportunidades laborales formales y a la exclusión social. Esta teoría propone políticas públicas que buscan mejorar las condiciones de vida de la población y reducir la desigualdad social.

3. Datos trabajados

Los datos del documento de Ramírez, Ávila y Arias provienen de la Gran Encuesta Integrada de Hogares (GEIH) del Departamento Nacional de Estadísticas (DANE). Los autores realizaron su análisis basándose en la información de las personas empleadas en las 13 principales ciudades y sus áreas metropolitanas. Estas ciudades son: Medellín, Barranquilla, Bogotá, Cartagena, Manizales, Montería, Villavicencio, Pasto, Cúcuta, Pereira, Bucaramanga, Ibagué y Cali, para los años 2008, 2009, 2010 y 2011. En total, contaron con información de 653,021 individuos y siete variables, que al ser transformadas en variables dicotómicas suman un total de nueve variables.

Ramírez, Ávila y Arias calcularon las estadísticas de informalidad basándose en los siguientes criterios, donde se consideran informales:

Los empleados particulares y los obreros que trabajan en establecimientos, negocios o empresas que empleen hasta cinco personas en todas sus agencias y sucursales, incluyendo al patrón y/o socio.
Los trabajadores familiares sin remuneración.
Los trabajadores sin remuneración en empresas o negocios de otros hogares.
Los empleados domésticos.
Los jornaleros o peones.
Los trabajadores por cuenta propia que trabajan en establecimientos de hasta cinco personas, excepto los profesionales independientes.
Los patrones o empleadores en empresas con cinco trabajadores o menos.
Se excluyen los obreros o empleados del gobierno.

Para la creacion de la réplica, se utilizaron los datos de la GEIH de diciembre de 2021, la GEIH divide la encuesta en tres categorias, Area, Cabecera y Resto, se usaron las tres categorias. De igual manera, se emplearon las mismas nueve variables utilizadas por los autores (Cuadro 1), así como los mismos criterios para determinar a las personas consideradas como informales.

Variables	Descripción
INFORMAL	Variable dicotómica que toma el valor de 1 para informales y 0 para formales.
FEMENINO	Variable dicotómica que toma valor de 1 para mujeres y 0 para hombres
REGIMEN_SALUD	Variable asociada al régimen de salud que toma el valor de 1 para el régimen subsidiado de salud y 0 para cualquier otro caso
HORAS_TRABAJO	Horas promedio trabajadas a la semana
EDAD	Edad en años
EDAD_CUADRADO	Edad en años al cuadrado
Nivel-escolar	Variable categórica para el nivel educativo del individuo que puede ser: ninguno, básico, medio, superior. PRIMARIA: 1 si el individuo está en el nivel de primaria o 0 en otro caso. SECUNDARIA: 1 si el individuo esta en el nivel secundaria o 0 en otro caso. SUPERIOR: 1 si el individuo alcanzo el nivel superior o universitaria y 0 en otro caso.

4. Modelo Probit

Ramirez, Avila y Arias mencionan la importancia del modelo probit para su investigación, permite conocer la probabilidad de respuesta, donde la variable dependiente toma su probabilidad de ocurrencia al ser restringida por las variables independientes introducidas al modelo, logrando que su respuesta sea dada en valores entre 0 y 1 los cuales describen estas probabilidades.

5. Resultados

En base a los resultados obtenidos del modelo se puede afirmar que el modelo si es significativo, por lo tanto, el modelo funciona de manera correcta y describe la interrelación entre las variables.

Se puede observar que todas las variables tienen un alto nivel de significancia. Sin embargo, la educación primaria no pasa la prueba, por lo tanto, esta variable no es significativa para el análisis y es indiferente a la probabilidad de trabajar de manera informal. Lo mismo ocurre con la variable “ESTUDIA”. En el caso de los individuos de género femenino, es más probable que estén trabajando de manera informal. Si el individuo tiene un régimen de salud subsidiado, también es más probable que trabaje de manera informal. Además, si las horas de trabajo promedio a la semana de un individuo aumentan en una hora, la probabilidad de que trabaje de manera informal aumenta. Por otro lado, si la edad del individuo aumenta en un año, la probabilidad de trabajar de manera informal disminuye. Del mismo modo, si el individuo ha completado sus estudios hasta el nivel de secundaria, la probabilidad de trabajar de manera informal disminuye. Finalmente, si el individuo ha completado sus estudios hasta el nivel universitario o profesional, es menos probable que trabaje de manera informal.

6. Conclusion

Para concluir, se ha observado que la mayoría de los resultados se mantienen consistentes cuando se comparan los datos obtenidos del modelo probit de mi autoria en comparacion con la investigacion realizada por Ramirez, Avila y Arias. Sin embargo, se ha identificado una variación significativa en relación a la variable “ESTUDIA”, que ha pasado a ser considerada insignificante en el modelo(posiblemente a un error en la creacion del modelo ya que no se especifica en la metodologia como tomaron esa variable, sin embargo aparece en los resultados de su modelo). Las variables como el genero, si la persona se encuentra en un regimen subisdiado de salud, las horas de trabajo, la edad y el nivel de educacion son factores relevantes que influyen en la probabilidad en que una persona labure de manera informal, La educacion secundaria y educacion superior son factores que influyen drasticamente en la probabilidad de que una persona haga parte de la informalidad.

DATOS

#P6430(tipo de trabajo)
#Empleadores P1800 P180S1

#cargar base datos

library(readr)
C_OC <- read_delim("Cabecera - Ocupados.CSV", 
                   delim = ";", escape_double = FALSE, trim_ws = TRUE)


library(readr)
A_OC <- read_delim("Área - Ocupados.CSV", 
                   delim = ";", escape_double = FALSE, trim_ws = TRUE)


library(readr)
R_OC <- read_delim("Resto - Ocupados.CSV", 
                   delim = ";", escape_double = FALSE, trim_ws = TRUE)


library(readr)
A_CG <- read_delim("Área - Características generales (Personas).CSV", 
                   delim = ";", escape_double = FALSE, trim_ws = TRUE)


library(readr)
C_CG <- read_delim("Cabecera - Características generales (Personas).CSV", 
                   delim = ";", escape_double = FALSE, trim_ws = TRUE)


library(readr)
R_CG <- read_delim("Resto - Caracteristicas generales (Personas).CSV", 
                   delim = ";", escape_double = FALSE, trim_ws = TRUE)


## cambiar valores sexo (P6020), cambiar regimen salud (P6090), no cambiar edad (P6040), cambiar nivel escolar (P6220)

#seleccion variables

A_CG1 = select(A_CG, DIRECTORIO, SECUENCIA_P, ORDEN, P6020, P6090, P6040, P6210, P6170)

C_CG1 = select(C_CG, DIRECTORIO, SECUENCIA_P, ORDEN, P6020, P6090, P6040, P6210, P6170)

R_CG1 = select(R_CG, DIRECTORIO, SECUENCIA_P, ORDEN, P6020, P6090, P6040, P6210, P6170)


A_OC1 = select(A_OC, DIRECTORIO, SECUENCIA_P, ORDEN, P6430, P1800, P1800S1, P6800)

C_OC1 = select(C_OC, DIRECTORIO, SECUENCIA_P, ORDEN, P6430, P1800, P1800S1, P6800)

R_OC1 = select(R_OC, DIRECTORIO, SECUENCIA_P, ORDEN, P6430, P1800, P1800S1, P6800)

#nombres columnas

colnames(A_CG1) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","SEXO", "REMIGEN_SALUD", "EDAD", "NIVEL_ESCOLAR", "ESTUDIA")
colnames(C_CG1) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","SEXO", "REMIGEN_SALUD", "EDAD", "NIVEL_ESCOLAR", "ESTUDIA")
colnames(R_CG1) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","SEXO", "REGIMEN_SALUD", "EDAD", "NIVEL_ESCOLAR", "ESTUDIA")

colnames(A_OC1) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR", "TIPO_TRABAJO", "EMPLEADOR", "CANTIDAD_EMPLEADOS", "HORAS_TRABAJO")
colnames(C_OC1) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR", "TIPO_TRABAJO", "EMPLEADOR", "CANTIDAD_EMPLEADOS", "HORAS_TRABAJO")
colnames(R_OC1) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR", "TIPO_TRABAJO", "EMPLEADOR", "CANTIDAD_EMPLEADOS", "HORAS_TRABAJO")

#Sexo A_CG, C_CG, R_CG

A_CG1$SEXO <- ifelse(A_CG1$SEXO == 2,1,0)
C_CG1$SEXO <- ifelse(C_CG1$SEXO == 2,1,0)
R_CG1$SEXO <- ifelse(R_CG1$SEXO == 2,1,0)

#Regimen salud A_CG, C_CG, R_CG

A_CG1$REGIMEN_SALUD <- ifelse(A_CG1$REMIGEN_SALUD == 1,1,0)
C_CG1$REGIMEN_SALUD <- ifelse(C_CG1$REMIGEN_SALUD == 1,1,0)
R_CG1$REGIMEN_SALUD <- ifelse(R_CG1$REGIMEN_SALUD == 1,1,0)

#Nivel escolar A_CG, C_CG, R_CG

A_CG1$PRIMARIA = ifelse(A_CG1$NIVEL_ESCOLAR == 3, 1, 0)
A_CG1$SECUNDARIA = ifelse(A_CG1$NIVEL_ESCOLAR == 5, 1, 0)
A_CG1$SUPERIOR = ifelse(A_CG1$NIVEL_ESCOLAR == 6, 1, 0)

C_CG1$PRIMARIA = ifelse(C_CG1$NIVEL_ESCOLAR == 3, 1, 0)
C_CG1$SECUNDARIA = ifelse(C_CG1$NIVEL_ESCOLAR == 5, 1, 0)
C_CG1$SUPERIOR = ifelse(C_CG1$NIVEL_ESCOLAR == 6, 1, 0)

R_CG1$PRIMARIA = ifelse(R_CG1$NIVEL_ESCOLAR == 3, 1, 0)
R_CG1$SECUNDARIA = ifelse(R_CG1$NIVEL_ESCOLAR == 5, 1, 0)
R_CG1$SUPERIOR = ifelse(R_CG1$NIVEL_ESCOLAR == 6, 1, 0)

#ESTUDIA

A_CG1$ESTUDIA = ifelse(A_CG1$ESTUDIA == 1, 1, 0)
C_CG1$ESTUDIA = ifelse(C_CG1$ESTUDIA == 1, 1, 0)
R_CG1$ESTUDIA = ifelse(R_CG1$ESTUDIA == 1, 1, 0)

A_CG2=subset(A_CG1, CABEZA_HOGAR == 1, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, SEXO, REGIMEN_SALUD, EDAD, PRIMARIA, SECUNDARIA, SUPERIOR, ESTUDIA))
C_CG2=subset(C_CG1, CABEZA_HOGAR == 1, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, SEXO, REGIMEN_SALUD, EDAD, PRIMARIA, SECUNDARIA, SUPERIOR, ESTUDIA))
R_CG2=subset(R_CG1, CABEZA_HOGAR == 1, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, SEXO, REGIMEN_SALUD, EDAD, PRIMARIA, SECUNDARIA, SUPERIOR, ESTUDIA))

CG_TOTAL=rbind(A_CG2, C_CG2, R_CG2)



#CAMBIAR OC tipo trabajo (P6430), empleadores (P1800) y cantidad (P1800S1)


A_OC1$FNOPAGO = ifelse(A_OC1$TIPO_TRABAJO== 6, 1, 0)
A_OC1$OTROSNOPAGO = ifelse(A_OC1$TIPO_TRABAJO == 7, 1, 0)
A_OC1$DOMESTICONO = ifelse(A_OC1$TIPO_TRABAJO == 3, 1, 0)
A_OC1$PEON = ifelse(A_OC1$TIPO_TRABAJO == 8, 1, 0)
A_OC1$PROPIA = ifelse(A_OC1$TIPO_TRABAJO == 4, 1, 0)
A_OC1$PATRON = ifelse(A_OC1$TIPO_TRABAJO == 5, 1, 0)
A_OC1$OBREROGOB = ifelse(A_OC1$TIPO_TRABAJO == 2, 1, 0)
A_OC1$OBREROPAR = ifelse(A_OC1$TIPO_TRABAJO == 1, 1, 0)
A_OC1$TIENEEMPLE= ifelse(A_OC1$EMPLEADOR == 1, 1, 0)

CONDICION1=subset(A_OC1, TIENEEMPLE==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, TIENEEMPLE, HORAS_TRABAJO, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION2=subset(A_OC1, PROPIA ==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, TIENEEMPLE, PROPIA,HORAS_TRABAJO, PATRON, CANTIDAD_EMPLEADOS))
CONDICION3=subset(A_OC1, PATRON==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, TIENEEMPLE, PROPIA,HORAS_TRABAJO, PATRON, CANTIDAD_EMPLEADOS))
CONDICION4=subset(A_OC1, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, TIENEEMPLE, PROPIA,HORAS_TRABAJO, PATRON, CANTIDAD_EMPLEADOS))

TIENEMPLEEMERGE=merge(CONDICION1, CONDICION4)
TIENEMPLEECINCO=subset(TIENEMPLEEMERGE, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO,  TIENEEMPLE,CANTIDAD_EMPLEADOS))

PROPIAMERGE=merge(CONDICION2, CONDICION4)
PROPIACINCO=subset(PROPIAMERGE, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, PROPIA, CANTIDAD_EMPLEADOS))

PATRONMERGE=merge(CONDICION3, CONDICION4)
PATRONCINCO=subset(PATRONMERGE, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, PATRON, CANTIDAD_EMPLEADOS))

A_OC2=bind_rows(TIENEMPLEECINCO, PROPIACINCO, PATRONCINCO, A_OC1)
A_OC2$COMBINACION=paste(A_OC2$TIENEEMPLE, A_OC2$PROPIA, A_OC2$PATRON, sep = "-")
A_OC2=A_OC2[, c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","HORAS_TRABAJO", "COMBINACION", "FNOPAGO", "OTROSNOPAGO", "DOMESTICONO","PEON","OBREROPAR")]
A_OC2$COMBINACION=paste(A_OC2$TIENEEMPLE, A_OC2$PROPIA, A_OC2$PATRON, A_OC2$FNOPAGO, A_OC2$OTROSNOPAGO, A_OC2$DOMESTICONO, A_OC2$PEON, A_OC2$OBREROPAR, sep = "-")
A_OC2=A_OC2[, c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","HORAS_TRABAJO", "COMBINACION")]

####

C_OC1$FNOPAGO = ifelse(C_OC1$TIPO_TRABAJO== 6, 1, 0)
C_OC1$OTROSNOPAGO = ifelse(C_OC1$TIPO_TRABAJO == 7, 1, 0)
C_OC1$DOMESTICONO = ifelse(C_OC1$TIPO_TRABAJO == 3, 1, 0)
C_OC1$PEON = ifelse(C_OC1$TIPO_TRABAJO == 8, 1, 0)
C_OC1$PROPIA = ifelse(C_OC1$TIPO_TRABAJO == 4, 1, 0)
C_OC1$PATRON = ifelse(C_OC1$TIPO_TRABAJO == 5, 1, 0)
C_OC1$OBREROGOB = ifelse(C_OC1$TIPO_TRABAJO == 2, 1, 0)
C_OC1$OBREROPAR = ifelse(C_OC1$TIPO_TRABAJO == 1, 1, 0)
C_OC1$TIENEEMPLE= ifelse(C_OC1$EMPLEADOR == 1, 1, 0)

CONDICION1C=subset(C_OC1, TIENEEMPLE==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION2C=subset(C_OC1, PROPIA ==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION3C=subset(C_OC1, PATRON==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION4C=subset(C_OC1, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))

TIENEMPLEEMERGEC=merge(CONDICION1C, CONDICION4C)
TIENEMPLEECINCOC=subset(TIENEMPLEEMERGEC, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, HORAS_TRABAJO, TIENEEMPLE,CANTIDAD_EMPLEADOS))

PROPIAMERGEC=merge(CONDICION2C, CONDICION4C)
PROPIACINCOC=subset(PROPIAMERGEC, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, PROPIA, CANTIDAD_EMPLEADOS))

PATRONMERGEC=merge(CONDICION3C, CONDICION4C)
PATRONCINCOC=subset(PATRONMERGEC, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, PATRON, CANTIDAD_EMPLEADOS))

C_OC2=bind_rows(TIENEMPLEECINCOC, PROPIACINCOC, PATRONCINCOC, C_OC1)
C_OC2$COMBINACION=paste(C_OC2$TIENEEMPLE, C_OC2$PROPIA, C_OC2$PATRON, sep = "-")
C_OC2=C_OC2[, c("IDENTIFICACION", "FAMILIA","CABEZA_HOGAR","HORAS_TRABAJO", "COMBINACION", "FNOPAGO", "OTROSNOPAGO", "DOMESTICONO","PEON","OBREROPAR")]
C_OC2$COMBINACION=paste(C_OC2$TIENEEMPLE, C_OC2$PROPIA, C_OC2$PATRON, C_OC2$FNOPAGO, C_OC2$OTROSNOPAGO, C_OC2$DOMESTICONO, C_OC2$PEON, C_OC2$OBREROPAR, sep = "-")
C_OC2=C_OC2[, c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","HORAS_TRABAJO", "COMBINACION")]

##########

R_OC1$FNOPAGO = ifelse(R_OC1$TIPO_TRABAJO== 6, 1, 0)
R_OC1$OTROSNOPAGO = ifelse(R_OC1$TIPO_TRABAJO == 7, 1, 0)
R_OC1$DOMESTICONO = ifelse(R_OC1$TIPO_TRABAJO == 3, 1, 0)
R_OC1$PEON = ifelse(R_OC1$TIPO_TRABAJO == 8, 1, 0)
R_OC1$PROPIA = ifelse(R_OC1$TIPO_TRABAJO == 4, 1, 0)
R_OC1$PATRON = ifelse(R_OC1$TIPO_TRABAJO == 5, 1, 0)
R_OC1$OBREROGOB = ifelse(R_OC1$TIPO_TRABAJO == 2, 1, 0)
R_OC1$OBREROPAR = ifelse(R_OC1$TIPO_TRABAJO == 1, 1, 0)
R_OC1$TIENEEMPLE= ifelse(R_OC1$EMPLEADOR == 1, 1, 0)

CONDICION1R=subset(R_OC1, TIENEEMPLE==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION2R=subset(R_OC1, PROPIA ==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION3R=subset(R_OC1, PATRON==1 , select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))
CONDICION4R=subset(R_OC1, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE, PROPIA, PATRON, CANTIDAD_EMPLEADOS))

TIENEMPLEEMERGER=merge(CONDICION1R, CONDICION4R)
TIENEMPLEECINCOR=subset(TIENEMPLEEMERGER, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR,HORAS_TRABAJO, TIENEEMPLE,CANTIDAD_EMPLEADOS))

PROPIAMERGER=merge(CONDICION2R, CONDICION4R)
PROPIACINCOR=subset(PROPIAMERGER, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, PROPIA,HORAS_TRABAJO, CANTIDAD_EMPLEADOS))

PATRONMERGER=merge(CONDICION3R, CONDICION4R)
PATRONCINCOR=subset(PATRONMERGER, CANTIDAD_EMPLEADOS <=5, select = c(IDENTIFICACION, FAMILIA, CABEZA_HOGAR, PATRON,HORAS_TRABAJO, CANTIDAD_EMPLEADOS))

R_OC2=bind_rows(TIENEMPLEECINCOR, PROPIACINCOR, PATRONCINCOR, R_OC1)
R_OC2$COMBINACION=paste(R_OC2$TIENEEMPLE, R_OC2$PROPIA, R_OC2$PATRON, sep = "-")
R_OC2=R_OC2[, c("IDENTIFICACION", "FAMILIA","CABEZA_HOGAR","HORAS_TRABAJO", "COMBINACION", "FNOPAGO", "OTROSNOPAGO", "DOMESTICONO","PEON","OBREROPAR")]
R_OC2$COMBINACION=paste(R_OC2$TIENEEMPLE, R_OC2$PROPIA, R_OC2$PATRON, R_OC2$FNOPAGO, R_OC2$OTROSNOPAGO, R_OC2$DOMESTICONO, R_OC2$PEON, R_OC2$OBREROPAR, sep = "-")
R_OC2=R_OC2[, c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR","HORAS_TRABAJO", "COMBINACION")]

OCUPADOS_TOTAL=rbind(A_OC2,C_OC2,R_OC2)
OCUPADOS_TOTAL=OCUPADOS_TOTAL[-1, ]

DATAFRAME1=full_join(CG_TOTAL, OCUPADOS_TOTAL, by = "IDENTIFICACION")
duplicados=duplicated(DATAFRAME1[, c("IDENTIFICACION")])
DATAFRAME1 = DATAFRAME1[!duplicados, ]

DATAFRAMEFINAL=select(DATAFRAME1, IDENTIFICACION, FAMILIA.x, CABEZA_HOGAR.x, SEXO, REGIMEN_SALUD, EDAD, PRIMARIA, SECUNDARIA,SUPERIOR,ESTUDIA, HORAS_TRABAJO, COMBINACION)

transformar_combinacion = function(combinacion) 
{valores = strsplit(combinacion, "-")
valores = as.integer(unlist(valores))
if (1 %in% valores) {return(1)} else {return(0)}}

DATAFRAMEFINAL$NUEVA_COMBINACION = sapply(DATAFRAMEFINAL$COMBINACION, transformar_combinacion)

DATAFRAMEFINAL$EDAD_CUADRADO = DATAFRAMEFINAL$EDAD^ 2

colnames(DATAFRAMEFINAL) = c("IDENTIFICACION", "FAMILIA", "CABEZA_HOGAR", "FEMENINO", "REGIMEN_SALUD", "EDAD", "PRIMARIA", "SECUNDARIA", "SUPERIOR","ESTUDIA",  "HORAS_TRABAJO", "COMBINACION","INFORMAL","EDAD_CUADRADO")

REGRESION=glm(INFORMAL ~ FEMENINO + REGIMEN_SALUD + HORAS_TRABAJO + EDAD + EDAD_CUADRADO + ESTUDIA + PRIMARIA +SECUNDARIA + SUPERIOR, data = DATAFRAMEFINAL,family = binomial(link = "probit"))
summary(REGRESION)