Examen final

Base de datos:

library(haven)
## Warning: package 'haven' was built under R version 4.4.3
GEIH <- read_dta("C:/Users/USUARIO/Downloads/GEIH_2024_diciembre.dta")

Pregunta de investigacion:

¿Existe una relacion entre la edad, el sexo, el departamento y el fenomeno de la migracion con la cantidad de horas de trabajo por semana como indicador de posible explotacion laboral en la sociedad Colombiana?

Justificacion:

La explotacion laboral es una de las mayores problematicas que sigue vigente en colombia a dia de hoy, donde cientos de personas son sometidas a realizar jornadas que superan las horas establecidas segun la ley 2101 del 2021 mientras no reciben ninguna remuneracion justa por este esfuerzo adicional. Este no es un fenomeno aislado, sino que factores sociales, culturales y economicos pueden agravarlo, afectando especialmente a las poblaciones vulnerables y marginadas como los migrantes o los departamentos con mayor nivel de pobreza. Quienes en muchos casos al tener limitaciones en su defensa ante esta problematica, tienen que guardar silencio y seguir adelante mientras sus derechos son abusados sin remordimiento alguno.

Por esto mismo, es relevante analizar si existen diferencias sistemicas en las horas de trabajo semanales segun variables como edad, sexo, departamento y condicion migratoria, usando como base los resultados obtenidos por la GEIH. Esto con el fin de identidicar posibles patrones relacionados con la explotacion laboral o la sobrecarga de trabajo.

Variables

Variables independientes categoricas: Sexo, Departamento, Migrantes.

Se utilizaron 3 variables categoricas independientes donde se encuentra sexo, como aquella variable que nos permite conocer si existe una relacion entre las horas de trabajo semanales y el sexo biologico con el que nace una persona, introduciendo un posible factor social y politico, en el que toma lugar la desigualdad entre hombres y mujeres. Del mismo modo, se quieren evaluar factores geograficos y socioeconomicos mediante departamentos, esto debido a la poca seguridad que se dan en ciertos lugares sobre el bienestar de los derechos de sus ciudadanos, lo que facibilita la explotacion y no viabiliza una defensa ante esta. Por ultimo, esta el fenomeno de la migracion, que es uno de los elementos sociopoliticos mas complicados en los ultimos tiempo, ya que en muchos casos, se marginan y son vistos como personas sin derechos las cuales pueden ser explotados sin consecuencia alguna, por lo que es uno de los elementos mas presentes en lo que respecta a la sobrecarga de trabajo y es fundamental generar conciencia de la manera en que estos son afectados por esta problematica.

Variables continua independiente: Edad

A su vez, se utilizo una variable independiente: La edad, la cual nos permite analizar la variacion en las dinamicas laborales, asi como factores sociales que facibilitan la explotacion laboral desde una etapa donde las poblaciones afectadas pueden ser jovenes o no tener las capacidades fisicas para aguantar la carga de trabajo a la que son sometidos.

Variable continua dependiente: Horas de trabajo por semana.

Para la variable dependiente continua se eligio a las horas de trabajo por semana, ya que nos permite identificar la cantidad de personas que tienen que soportar jornadas de trabajo que superen las horas permitidas por las leyes de Colombia, mientras que nos permite extrapolar aquellos factores que permiten que se de esta violacion a los derechos de las personas.

#Converti la variable en que pais naciste en la variable migrante_ internacional, esto el analisis de la condicion migratoria.

GEIH$P3373S3 <- as.numeric(as.character(GEIH$P3373S3))
## Warning: NAs introducidos por coerción
GEIH$migrante_internacional <- ifelse(
is.na(GEIH$P3373S3), 0,
ifelse(GEIH$P3373S3 == 170, 0, 1)
)

table(GEIH$migrante_internacional)
## 
##     0     1 
## 61977  2650
GEIH$migrante_internacional <- factor(
GEIH$migrante_internacional,
levels = c(0, 1),
labels = c("No migrante", "Migrante internacional")
)
table(GEIH$migrante_internacional)
## 
##            No migrante Migrante internacional 
##                  61977                   2650
#Uni las variables de cuantas horas trabajas semanalmente, con horas que trabajaste la semana pasada en los casos en donde no estaba la primera en horas de trabajo.

GEIH$horas_trabajo <- ifelse(
!is.na(GEIH$P6800),
GEIH$P6800,
GEIH$P6850
)

summary(GEIH$horas_trabajo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     1.0    40.0    47.0    44.2    48.0   130.0   36473
#Permite que la variable independiente continua estuviera por numero

GEIH$edad <- as.numeric(GEIH$P6040)

# Converti las variables categoricas en factores

GEIH$sexo <- factor(
  GEIH$P3271,
  levels = c(1, 2),
  labels = c("Hombre", "Mujer")
)
GEIH$departamento <- factor(
  GEIH$DPTO,
  levels = c(
    5, 8, 11, 13, 15, 17, 18, 19, 20, 23,
    25, 27, 41, 44, 47, 50, 52, 54, 63, 66,
    68, 70, 73, 76
  ),
  labels = c(
    "Antioquia",
    "Atlantico",
    "Bogota_DC",
    "Bolivar",
    "Boyaca",
    "Caldas",
    "Caqueta",
    "Cauca",
    "Cesar",
    "Cordoba",
    "Cundinamarca",
    "Choco",
    "Huila",
    "La_Guajira",
    "Magdalena",
    "Meta",
    "Narino",
    "Norte_Santander",
    "Quindio",
    "Risaralda",
    "Santander",
    "Sucre",
    "Tolima",
    "Valle_cauca"
)
)
GEIH_dep <- subset(
  GEIH,
    !is.na(horas_trabajo) &
    horas_trabajo > 0 & horas_trabajo <= 100 &   
    !is.na(edad) &
    !is.na(sexo) &
    !is.na(departamento) &
    !is.na(migrante_internacional)
)


nrow(GEIH_dep)
## [1] 23315
# Verificación básica
summary(GEIH_dep$horas_trabajo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   40.00   46.00   43.99   48.00  100.00
table(GEIH_dep$sexo)
## 
## Hombre  Mujer 
##  13136  10179
table(GEIH_dep$migrante_internacional)
## 
##            No migrante Migrante internacional 
##                  22364                    951

Se llevo a cabo una depuracion de la base de datos en las que se eliminaron los datos que contenian Na y no aportaban a los objetivos de la investigacion. A su vez, se eliminaron los datos que dieran que dieran 0 en lo que respecta a las horas de trabajo semanales, ya que esta respuesta podria afectar los datos obtenidos y no corresponde a lo planteado por la pregunta de investigacion, mientras que se eliminaron los datos que fueran mayores a 100 debido a los posibles sesgos que pueden generar en los resultados. Todo esto con el fin de garantizar coherencia, claridad y cuidado en el analisis estadistico llevado a cabo en la investigacion.

# Creae base final únicamente con las variables necesarias
GEIH_final <- GEIH_dep[, c(
  "horas_trabajo",
  "edad",
  "sexo",
  "departamento",
  "migrante_internacional"
)]

# Codigo para ver el número de filas y columnas
dim(GEIH_final)
## [1] 23315     5
# Vista rápida
head(GEIH_final)
## # A tibble: 6 × 5
##   horas_trabajo  edad sexo   departamento migrante_internacional
##           <dbl> <dbl> <fct>  <fct>        <fct>                 
## 1            20    50 Hombre Boyaca       No migrante           
## 2            20    32 Mujer  Boyaca       No migrante           
## 3            46    63 Hombre Boyaca       No migrante           
## 4            47    31 Hombre Boyaca       No migrante           
## 5            46    33 Hombre Boyaca       No migrante           
## 6            40    42 Mujer  Boyaca       No migrante

Analisis de estadistica descriptiva

Variable dependiente: Horas de trabajo semanales

#Resumen estadistico segun las medidas de tendencia central y dispersion de la variable dependiente

library(e1071)
## Warning: package 'e1071' was built under R version 4.4.3
mean(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 43.99198
median(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 46
sd(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 13.06686
min(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 1
max(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 100
max(GEIH_final$horas_trabajo, na.rm = TRUE) - min(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 99
skewness(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] -0.2346266
kurtosis(GEIH_final$horas_trabajo, na.rm = TRUE)
## [1] 1.846742

Histograma

#Histograma
library(ggplot2)
## 
## Adjuntando el paquete: 'ggplot2'
## The following object is masked from 'package:e1071':
## 
##     element
ggplot(GEIH_final, aes(x = horas_trabajo)) +
  geom_histogram(binwidth = 5, color = "black", fill = "lightblue") +
  labs(title = "Distribución de horas trabajadas",
       x = "Horas trabajadas",
       y = "Frecuencia")

Interpretacion:

La variable horas de trabajo semanales en la población analizada mantiene un promedio de 43.99 horas de trabajo por semana, mientras que la mediana es algo mayor, alcanzando las 46 horas de trabajo. Esta diferencia entre las medidas de tendencia central indica que la distribución no es perfectamente simétrica, al estar la mediana por encima de la media. La desviación estándar de los datos es de aproximadamente 13.07 horas, lo que refleja una considerable dispersión en las jornadas laborales. A su vez, esto reafirma la idea de que en Colombia se ha normalizado la explotación laboral, con jornadas más largas de lo establecido por la ley 2120 por dos horas y muestra que existe una clara desigualdad entre los que trabajan mucho más de lo permitido por la ley al llegar hasta las 57 horas y aquellos que trabajan bastante por debajo con 31 horas. A esto es importante añadir que el valor mínimo obtenido fue de 1 hora, mientras que el valor máximo de 100 horas, por lo que tendría un rango muy amplio de 99 horas. Lo que refuerza la idea de la desigualdad laboral donde unas personas difícilmente pueden trabajar 1 hora por semana mientras que otras trabajan muy por encima de lo permitido.

En lo que respecta a la distribución, la asimetría es de -0.23, lo que indica una ligera asimetría negativa en donde la cola más larga se extiende hacia las horas más bajas mientras que la mayor concentración de observaciones se da alrededor de los valores superiores a la media. La curtosis, con un valor alrededor de 1.85, dato menor a 3, lo que sugiere una distribución achatada y con colas menos pesadas que las de una distribución normal. En lo que respecta al histograma, se observa una concentración importante de datos alrededor de las 40-50 horas de trabajo semanales, pero con presencia de observaciones en casi todo el rango entre 1 y 100. A su vez podemos encontrar que si bien existe una mayor concentración de datos en los valores superiores a la media, es en los inferiores donde se presentan más valores extremos. Esto refuerza aún más la idea de que la sobrecarga laboral existe y está muy presente, con jornadas laborales que sobrepasan por ciertas horas lo establecido por la ley como promedio y punto de concentración de los datos, que a su vez, nos exponen lo común que es y normalizado que lo tiene la sociedad Colombiana.

Relacion entre las variables horas de trabajo semanales y sexo

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
#Resumen estadistico de las medidas de tendencia central y dispersion de las variables horas de trabajo semanles y sexo

GEIH_final %>%
  group_by(sexo) %>%
  summarise(
    media      = mean(horas_trabajo, na.rm = TRUE),
    mediana    = median(horas_trabajo, na.rm = TRUE),
    desviacion = sd(horas_trabajo, na.rm = TRUE),
    minimo     = min(horas_trabajo, na.rm = TRUE),
    maximo     = max(horas_trabajo, na.rm = TRUE),
    rango      = max(horas_trabajo, na.rm = TRUE) - min(horas_trabajo, na.rm = TRUE),
    n   =n()
)
## # A tibble: 2 × 8
##   sexo   media mediana desviacion minimo maximo rango     n
##   <fct>  <dbl>   <dbl>      <dbl>  <dbl>  <dbl> <dbl> <int>
## 1 Hombre  46.4      48       11.7      1    100    99 13136
## 2 Mujer   40.9      45       14.1      1    100    99 10179
#Grafico de boxplot

ggplot(GEIH_final, aes(x = sexo, y = horas_trabajo)) +
  geom_boxplot(fill = "lightgreen") +
  labs(title = "Horas trabajadas según sexo",
       x = "Sexo",
       y = "Horas trabajadas")

Interpretacion:

Los resultados obtenidos por las medidas de tendencia central y de dispersion nos muestran que existe una diferencia importante entre las horas de trabajo semanales que presentan los hombres y las mujeres. En primer lugar, el promedio de horas de trabajo semanales de los hombres es de 46 horas, mientras que el de las mujeres de 40 horas. Lo que muestra que la sobreexplotacion laboral puede tener un factor de roles de genero importante en donde los hombres tienen que enfrentar una carga laboral que sobrepasa lo permitido, mientras que las mujeres tienen un promedio que se adecua por lo establecido por las leyes Colombianas. Esto puede deberse a factores sociales y al rol otorgado al hombre por la sociedad Colombiana, donde es comun normalizar cosas asi, mientras que protestar ante estos tratos es visto como debilidad. La mediana se encuentra por encima de la media en ambos casos, con 48 horas de trabajo por semana en hombres y 45 por mujeres, lo que sigue reforzando esta idea con el añadido de mostrar que es un fenomeno comun que se presenta en ambos sexos. La dispersion es de 11.68 en hombres y de 14.07 en mujeres, lo que nos indica que las horas de trabajo semanales en mujeres es mas volatil que en los hombres, con casos notoriamente menores a las 42 horas y otros mayores, aspecto que pone en duda la flexibilidad sobre la cual las mujeres pueden obtener trabajos estables o formales en la sociedad Colombiana.

Lo mencionado anteriormente se puede observar mediante el boxplot, donde existe una ligera diferencia entre los hombres y mujeres, con una mediana mayor en caso de los hombres, mientras que en las mujeres se presenta una notoria dispersion, asimismo, se muestra una diferencia en la amplitud de los rangos intercuartiles. A su vez, el grafico añade la presencia de valores atipicos, los cuales son numerosos y podemos observarlos cerca tanto del valor minimo como del maximo, reforzando la idea planteada en el punto anterior de una inestabilidad laboral donde unos se ven sometidos a una gran sobrecarga de trabajo, mientras que otros presentan dificultades al momento de encontrar un trabajo estable que cumpla con las horas impuestas por la ley 2101.

Relacion entre la variable horas de trabajo semanales con la variable migracion:

#Genere un resumen estadistico de las medidas de tendencia central y dispersion de las horas de trabajo semanales segun la condicion migrante

GEIH_final %>%
  group_by(migrante_internacional) %>%
  summarise(
    media      = mean(horas_trabajo, na.rm = TRUE),
    mediana    = median(horas_trabajo, na.rm = TRUE),
    desviacion = sd(horas_trabajo, na.rm = TRUE),
    minimo     = min(horas_trabajo, na.rm = TRUE),
    maximo     = max(horas_trabajo, na.rm = TRUE),
    rango      = max(horas_trabajo, na.rm = TRUE) - min(horas_trabajo, na.rm = TRUE),
    asimetria  = skewness(horas_trabajo, na.rm = TRUE),
    curtosis   = kurtosis(horas_trabajo, na.rm = TRUE),
    n   = n()
)
## # A tibble: 2 × 10
##   migrante_internacional media mediana desviacion minimo maximo rango asimetria
##   <fct>                  <dbl>   <dbl>      <dbl>  <dbl>  <dbl> <dbl>     <dbl>
## 1 No migrante             43.8      46       13.0      1    100    99    -0.238
## 2 Migrante internacional  47.5      48       13.3      2     98    96    -0.236
## # ℹ 2 more variables: curtosis <dbl>, n <int>
#Genere boxplot que me permitiera analizar las horas de trabajo semanales segun condicion migratoria

ggplot(GEIH_final, aes(x = migrante_internacional, y = horas_trabajo)) +
  geom_boxplot(fill = "lightpink") +
  labs(title = "Horas trabajadas según condición migratoria",
       x = "Condición migratoria",
       y = "Horas trabajadas")

Interpretacion:

La comparacion entre horas de trabajo semanales entre personas migrantes y no migrantes muestra que existen diferencias marcadas en la distribucion, tanto en los promedios como en la dispersion, que nos hablan de una problematica social en donde se vulneran e ignoran los derechos de los migrantes unicamente. En primer lugar, se observa que los no migrantes obtuvieron una media de 43.84 horas. Mientras que los migrantes obtuvieron un promedio de 47.49 horas, una diferencia clara entre ambos, la mediana es de 48 en los migrantes, casi logrando la simetria, mientras que en los no migrantes es de 46 horas. A esto es importante sumarle una desviacion de 13.03 horas para no migrantes y de 13.23 para migrantes. Estos datos visibilizan la sobrecarga de trabajo que enfrentan los migrantes, quienes se ven sometidos a jornadas largas y en muchos casos extremas de trabajo. Esto sumado a la poca importancia y proteccion que brinda la fiscalia de Colombia al momento de protegerlos, permite que el fenomeno de la explotacion laboral actue con fuerza en ellos.

Sumado a lo anterior, en grafico de boxplot nos muestra la diferencia entre la dispersion en ambos casos y sobre la amplitud del rango intercuartil, que en el caso de los migrantes es claramente mas amplio que el de los no migrantes. A la vez, nos permite observar los valores atipicos y extremos, que estan relativamente cercanos al valor maximo, pero principalmente concentrados cerca del valor minimo. Lo que añade un factor de desestabilidad laboral y permite comprender la razon de la concentracion por encima del limite legal permitido, ya que se ven sometidos a una encrucijada entre no tener un trabajo formal que permita obtener los bienes esenciales o un trabajo en donde tengan que enfrentarse a la explotacion laboral.

Relacion entre variable horas de trabajo semanales con la variable departamento:

#Genere una tabla del resumen estadistico de departamentos con horas de trabajo semanales, enfocandome en las medidas de tendencia central

GEIH_final %>%
  group_by(departamento) %>%
  summarise(
    media      = mean(horas_trabajo, na.rm = TRUE),
    mediana    = median(horas_trabajo, na.rm = TRUE),
    desviacion = sd(horas_trabajo, na.rm = TRUE),
    minimo     = min(horas_trabajo, na.rm = TRUE),
    maximo     = max(horas_trabajo, na.rm = TRUE),
    rango      = max(horas_trabajo, na.rm = TRUE) - min(horas_trabajo, na.rm = TRUE),
    asimetria  = skewness(horas_trabajo, na.rm = TRUE),
    curtosis   = kurtosis(horas_trabajo, na.rm = TRUE),
    n   = n()
)
## # A tibble: 22 × 10
##    departamento media mediana desviacion minimo maximo rango asimetria curtosis
##    <fct>        <dbl>   <dbl>      <dbl>  <dbl>  <dbl> <dbl>     <dbl>    <dbl>
##  1 Bogota_DC     45.1      46       13.4      2    100    98    0.0422    2.25 
##  2 Bolivar       43.6      48       11.3      2     98    96   -0.441     3.23 
##  3 Boyaca        41.6      46       12.5      3    100    97   -0.340     1.97 
##  4 Caldas        45.0      46       12.6      1     90    89   -0.250     2.05 
##  5 Caqueta       46.8      48       15.0      8     98    90    0.410     1.33 
##  6 Cauca         41.2      40       13.9      2    100    98   -0.0579    0.948
##  7 Cesar         45.6      48       11.0      2     96    94   -0.268     3.55 
##  8 Cordoba       41.4      46       13.7      2     90    88   -0.301     0.676
##  9 Cundinamarca  44.9      46       12.9      2    100    98   -0.171     2.53 
## 10 Choco         42.6      40       10.4      8     66    58   -0.688     1.13 
## # ℹ 12 more rows
## # ℹ 1 more variable: n <int>
# Genere un grafico de barras que me permitiera observar las medias de horas trabajadas por semana de cada uno de los departamentos

library(dplyr)
library(ggplot2)

GEIH_final %>%
  group_by(departamento) %>%
  summarise(
    media = mean(horas_trabajo, na.rm = TRUE)
  ) %>%
  ggplot(aes(x = reorder(departamento, media), y = media)) +
  geom_col(fill = "skyblue") +
  coord_flip() +
  labs(
    title = "Promedio de horas trabajadas por departamento",
    x = "Departamento",
    y = "Horas promedio"
)

Interpretacion:

Los resultados obtenidos por departamento muestran que las horas trabajadas varian de forma significativa entre regiones, demostrando que el fenomeno del trabajo no es homogeneo en Colombia, sino que depende de las diferentes estructuras sociales y culturales del pais. Departamentos como Sucre con una media de 40.23 horas, Cauca con 41.17 horas, Boyaca con 41.58 horas y Cordoba con 41.43 estan por debajo del promedio nacional y de lo establecido por la ley 2101. Mientras que por otro lado, el promedio de Caqueta con 46.62 horas, Meta con 46.23, Tolima con 45.16, Norte de santander con 45.62 horas y Santander con 45.41 superan el limite de horas por semana permitido por trabajo, lo que implica una carga laboral diferente y mas intensa en estos departamentos. A la vez, la dispercion varia, con desviaciones superiores a las 14 horas en los departamentos con un promedio mas bajo en las horas trabajadas por semana, lo que indica una informalidad en el cuidado de las jornadas laborales donde los trabajos varian entre no brindar las horas necesarias o trabajos con una alta sobrecarga laboral.

El grafico evidencia lo mencionado anteriormente al mostrar las medias de las horas de trabajo semanales y la forma en que estas varian dependiendo el departamento en el que se encuentre. Evidenciando a su vez que la mayoria de departamentos tienen una media superior a 40 horas y mas de la mitad tienen una media superior al limite establecido por la ley. Mostrando que aunque existan diferencias, la explotacion laboral es un fenomeno recurrente que afecta a toda Colombia de una u otra forma.

Relacion entre la variable horas de trabajo semanales con la variable edad:

#Utilice el codigo para la correlacion

cor(GEIH_final$edad, GEIH_final$horas_trabajo, use = "complete.obs")
## [1] -0.06662879
#Genere un diagrama de dispersion con tendencia lineal ajustada para observar la correlacion

ggplot(GEIH_final, aes(x = edad, y = horas_trabajo)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", color = "red") +
  labs(title = "Relación entre edad y horas trabajadas",
       x = "Edad",
       y = "Horas trabajadas")
## `geom_smooth()` using formula = 'y ~ x'

Interpretacion:

De los resultados tanto del grafico como de la correlacion podemos encontrar que existe una relacion negativa debil entre la edad y las horas de trabajo semanales. Esto debido a que los resultados de la correlacion fueron de -0.0666. Esto puede indicar que a medida que la edad aumenta, las horas de trabajo tienden a disminuir ligeramente. Sin embargo por lo obtenido en la correlacion, ese cambio es extremadamente pequeño y no es lo suficientemente fuerte como para señalar que es significativo. El patron observado en el grafico refuerza esta idea, gracias a que la nube de puntos esta ampliamente dispersa, sin una pendiente marcada. Evidenciando que las horas trabajadas son diferentes entre personas de todas las edades, por lo que los resultados no desempeñan una diferencia que nos permita explicar la presencia de explotacion laboral en relacion a la edad. Esto tambien habla de que este fenomeno no esta asociado con un grupo eterio especifico o una edad especifica, sino que es una problematica atemporal que esta presente en las diferentes periodos de la vida humana.

Prueba de hipotesis

Hipotesis 1:

Esta hipotesis buscara responder al apartado de la migracion en la pregunta de investigacion, enfocandose especificamente en las horas de trabajo semanales mayores que 42 horas, con el fin de mostrarlo desde una perspectiva en donde se vea un choque directo con la norma y los derechos de un trabajador.

Para esto se utilizaria la prueba chi-cuadrado de independencia por su versatilidad al momento de encontrar asociaciones entre dos variables con una condicion.

H0: La proporcion de personas que trabajan más de 42 horas es la misma entre migrantes y no migrantes.

H1: La proporcion de personas que trabajan mas de 42 horas no es la misma entre migrantes y no migrantes

# Filtre ambas variables para que se tomaran en cuenta unicamente los resultados mayores a 42

GEIH_final$sobre_42 <- ifelse(GEIH_final$horas_trabajo > 42, 1, 0)

# Genere una tabla sobre la cual realizar el chi-cuadrado de independecia

tabla_sobre42 <- table(GEIH_final$migrante_internacional, GEIH_final$sobre_42)
tabla_sobre42
##                         
##                              0     1
##   No migrante             8637 13727
##   Migrante internacional   256   695
# Prueba chi-cuadrado de independencia
chisq.test(tabla_sobre42)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla_sobre42
## X-squared = 52.44, df = 1, p-value = 4.435e-13
# Utilice codigo para generar el test de cramersV

library(lsr)
## Warning: package 'lsr' was built under R version 4.4.3
cramersV(tabla_sobre42)
## [1] 0.04742579

Interpretacion:

Con los resultados obtenidos de la prueba chi-cuadrado de independencia podemos encontrar que existe una diferencia en la proporcion de personas que trabajan mas de 42 horas entre migrantes y no migrantes. Esto gracias a que (X^2(1) = 52.44, p < 0.001). En donde se obtiene un p value mucho menor a 0.001 y se rechaza la hipotesis nula. A su vez, comprobamos que existe una desigualdad en la carga laboral a la que los migrantes son sometidos que demuestra la marginacion a la que son sometidos y la vulneracion que sufren. A la vez demostrando significancia en los resultados. Asimismo se realizo el test de Cramér’s V= 0.047 que indica una intencidad debil en la asociacion que se presenta, esto a pesar de ser significativa.

Hipotesis 2:

Esta hipotesis buscara complementar los resultados obtenidos anteriormente en la correlacion entre la edad y las horas de trabajo, con la diferencia de que se enfocara en las horas de trabajo que sean mayores a las 42 horas, con el fin de acercar la hipotesis a la preguntad de investigacion.

H0: No existe asociacion entre la edad y las horas de trabajo semanales superiores a 42.

H1: Existe asociacion entre la edad y las horas de trabajo semanales superiores a 42.

# Filtre ambas variables para que se tomaran en cuenta unicamente los resultados mayores a 42

edad  <- subset(GEIH_final$edad,  GEIH_final$horas_trabajo > 42)
horas <- subset(GEIH_final$horas_trabajo, GEIH_final$horas_trabajo > 42)

#Utilice la prueba de correlacion de Pearson

cor.test(edad,horas)
## 
##  Pearson's product-moment correlation
## 
## data:  edad and horas
## t = 8.0192, df = 14420, p-value = 1.146e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.05036546 0.08286222
## sample estimates:
##        cor 
## 0.06663151

Interpretacion:

Teniendo en cuenta los resultados obtenidos de la prueba de correlacion de Pearson, se puede observar que existe una asociacion estadisticamente significativa entre la edad y la cantidad de horas trabajadas semanalmente por encima de 42. Esto se evidencia al (T = 8.02, p<0.001), lo que indica un p-value muy por debajo del umbral de significacion. Lo que nos permite rechazar la hipotesis nula. Sin embargo, es importante señalar que aunque la prueba comprueba la existencia de asociacion, el coeficiente de correlacion obtenido de 0.0666 muestra que la intensidad de la asociacion es debil, lo que significa que aunque la edad tiene un efecto en la sobrecarga de trabajo y la explotacion laboral, este efecto es limitado y no puede ser explicado unicamente por la edad, sino tambien por otras condiciones o dimensiones presentes en la estructura del mercado y factores socioculturales.

Modelo de regresion

Para realizar la regresion lineal, se eligieron a edad, sexo, condicion migratoria y departamento como las variables independintes, mientras que se escogio a horas de trabajo semanales como la dependiente.

Al momento de elegir un modelo de regresion lineal, se eligio la regresion lineal multiple debido a un interes por evaluar los coeficientes de cada una de las variables independientes con la variable dependiente, por lo que se prefirio la versatilidad que ofrece este modelo al momento de hacerlo.

#Utilice el codigo del modelo de regresion lineal multiple

modelo <- lm(
  horas_trabajo ~ edad + sexo + migrante_internacional + departamento,
  data = GEIH_final
)
#Genere resumen estadistico de los resultados
summary(modelo)
## 
## Call:
## lm(formula = horas_trabajo ~ edad + sexo + migrante_internacional + 
##     departamento, data = GEIH_final)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -46.589  -5.276   0.876   5.934  62.126 
## 
## Coefficients:
##                                               Estimate Std. Error t value
## (Intercept)                                  50.252387   0.471071 106.677
## edad                                         -0.061013   0.005802 -10.516
## sexoMujer                                    -5.440461   0.167298 -32.520
## migrante_internacionalMigrante internacional  2.729148   0.425433   6.415
## departamentoBolivar                          -2.052141   0.530488  -3.868
## departamentoBoyaca                           -3.404974   0.570795  -5.965
## departamentoCaldas                           -0.325957   0.528135  -0.617
## departamentoCaqueta                           1.292593   0.584674   2.211
## departamentoCauca                            -4.070712   0.549383  -7.410
## departamentoCesar                            -0.051713   0.586372  -0.088
## departamentoCordoba                          -3.781669   0.564385  -6.701
## departamentoCundinamarca                     -0.515856   0.635638  -0.812
## departamentoChoco                            -2.557584   0.696114  -3.674
## departamentoHuila                            -2.168799   0.554883  -3.909
## departamentoLa_Guajira                       -0.766896   0.582969  -1.316
## departamentoMagdalena                        -0.687621   0.541852  -1.269
## departamentoMeta                              0.738576   0.530368   1.393
## departamentoNarino                           -3.573271   0.517831  -6.900
## departamentoNorte_Santander                  -0.262807   0.552161  -0.476
## departamentoQuindio                          -1.755925   0.546054  -3.216
## departamentoRisaralda                        -0.929648   0.522026  -1.781
## departamentoSantander                        -0.118291   0.520189  -0.227
## departamentoSucre                            -5.157314   0.544322  -9.475
## departamentoTolima                           -0.346152   0.587107  -0.590
## departamentoValle_cauca                      -0.604010   0.510009  -1.184
##                                              Pr(>|t|)    
## (Intercept)                                   < 2e-16 ***
## edad                                          < 2e-16 ***
## sexoMujer                                     < 2e-16 ***
## migrante_internacionalMigrante internacional 1.44e-10 ***
## departamentoBolivar                          0.000110 ***
## departamentoBoyaca                           2.48e-09 ***
## departamentoCaldas                           0.537119    
## departamentoCaqueta                          0.027060 *  
## departamentoCauca                            1.31e-13 ***
## departamentoCesar                            0.929725    
## departamentoCordoba                          2.12e-11 ***
## departamentoCundinamarca                     0.417055    
## departamentoChoco                            0.000239 ***
## departamentoHuila                            9.31e-05 ***
## departamentoLa_Guajira                       0.188354    
## departamentoMagdalena                        0.204447    
## departamentoMeta                             0.163762    
## departamentoNarino                           5.32e-12 ***
## departamentoNorte_Santander                  0.634106    
## departamentoQuindio                          0.001303 ** 
## departamentoRisaralda                        0.074951 .  
## departamentoSantander                        0.820114    
## departamentoSucre                             < 2e-16 ***
## departamentoTolima                           0.555472    
## departamentoValle_cauca                      0.236301    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.63 on 23290 degrees of freedom
## Multiple R-squared:  0.06693,    Adjusted R-squared:  0.06597 
## F-statistic: 69.61 on 24 and 23290 DF,  p-value: < 2.2e-16

Interpretacion:

Gracias a los resultados obtenidos del modelo de regresion lineal multiple es posible identificar que existen asociaciones estadisticamente significativas entre las horas de trabajo semanles y diversas caracteristicas sociodemograficas, donde estan incluidas la edad, el sexo, la condicion migratoria y el departamento. En general, el modelo resulta estadisticamente significativo, con (F = 69.61, p < 0.001), lo que tiene una amplia relacion con la pregunta de investigacion al reforzar que las variables independientes incluidas constributen de manera conjunta, a explicar un apartado de las variaciones reales en las horas trabajadas, mientras se tiene en cuenta que estas relaciones dificilmente se pueden deber al azar.

En lo que respecta a los coeficientes de las variables, encontramos que la edad presenta un coeficiente negativo (β = -0.061, p < 0.001), lo que indica que cada año adicional de la edad se asocia con una ligera disminucion en las horas trabajadas. Sin embargo, el efecto es pequeño y no debe extrapolarse demasiado. A pesar de eso, el ser significativo sugiere que las cargas de trabajo mas intensas, estan asociadas con una edad mas joven y unas capacidades fisicas mayores.

En lo que respecta al sexo, el coeficiente para las mujeres fue de un (β = -5.44, p < 0.001), lo que evidencia que, al mantener constantes las demas variables, las mujeres trabajan en promedio 5.4 horas menos por semanas que los hombres. Revelando una desigualdad importante de genero en la carga laboral que posiblemente este asociada con las dificultades al encontrar acceso a empleos con jornadas estables, la segregacion ocupacional aun presente con las mujeres, roles de genero presentes en los hombres donde quejarse implica vulnerabilidad y una falta de proteccion a los derechos de los ciudadanos. Este efecto es estadisticamente significativo.

En lo que respecta a la migracion, se encontro que el coeficiente de los migrantes internacionales es positivo (β = +2.73, p < 0.001). Esto significa que en promedio, una persona migrante trabaja aproximadamente 2.7 horas mas por semana que una persona no migrante, esto se afirma al controlar por sexo, edad y departamento. Este hallazgo refuerza lo encontrado en la hipotesis y la estadistica descriptiva, al mostrar que existe una diferencia en donde los migrantes se ven desprotegidos ante una sobrecarga labora injusta y agresiva. Esto muestra el papel en donde han sido puestos en la estructura social Colombiana y la deshumanizacion presente para estos.

Por otro lado, en lo que respecta a departamentos, los resultados muestran una diferencia significativas entre algunas locaciones. Departamentos como Sucre, Cauca, Cordoba, Boyacá y Nariño presentan coeficientes negativos altamente significativos, indicando que sus habitantes trabajan entre 3 y 5 horas menos en comparacion con los otros grupos de referencia. Lo que refuerza el papel de la informalidad laboral en las horas de trabajo semanales y la volatibilidad a la que son sometidos. En contraste, Caqueta y Meta presentan coeficientes positivos de menor magnitud, lo que confirma que la carga laboral no se distribuye de forma homogenia en el país, sino que dependen de componente socioculturales, politicos y economicos. A pesar de esto, gracias a la estadistica descriptiva podemos encontrar que la explotacion laboral sigue siendo un fenomeno recurrente en todo el pais.

Se encontraron considerables efectos significativos en el modelo utilizado, a pesar de esto, varios son pequeños lo que puede señalar que si bien existen desigualdades reales, la explicacion de las horas trabajadas tambien depende de aspectos no incluidos en el modelo. A su vez, el R^2 del modelo es 0.067, lo que indica que el conjunto de variables explica un 6.7% de la variacion de las horas trabajadas. A pesar de que este numero es bajo, este resultado es esperable al tratarse de un fenomeno amplio y que va mas alla de las variables estudiadas. A pesar de esto, el modelo es estadisticamente significativo de manera global y permite identificar uno de los aspectos relacionados con la explotacion laboral.

Supuestos de modelo

Normalidad de los residuos

residuos <- residuals(modelo)

#genere histograma con los residuos

hist(residuos,
     main = "Histograma de residuos",
     xlab = "Residuos",
     col = "lightblue",
     border = "white")

# Genere Q-Q con los residuos

qqnorm(residuos, main = "Q-Q Plot de residuos")
qqline(residuos, col = "red")

Interpretacion:

El grafico Q-Q muestra que los residuos siguen la linea teorica unicamente en la parte central de la distribucion, pero se desvian considerablemente en las colas. Lo que indica que los residuos no siguen una distribucion normal perfecta, mostrando colas mas pesadas. La presencia de estos datos pueden llegar a afectar la exactitud de los p- values.

A esto, es fundamental añadirle el histograma, que muestra una concentracion alrededor de 0 por parte de los residuos. Ademas, en esta parte es posible observar cierta aproximacion simetrica. Sin embargo, la presencia de colas largas, especialmente hacia la derecha, evidencia algunos valores extremos que se alejan de una distribucion normal perfecta. Lo que se complementa con lo mencionado anteriormente por el grafico Q-Q. Aun asi, un aspecto clave que podemos observar gracias al histograma es que la mayor parte de los residuos sigue una forma de distribucion cercana a la normal esperada. Por lo que los datos no necesariamente comprometen la inferencia de los p-value.

Homoscedasticidad

library(lmtest)
## Warning: package 'lmtest' was built under R version 4.4.3
## Cargando paquete requerido: zoo
## Warning: package 'zoo' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
#Utilice la prueba Breusch- Pagan

bptest(modelo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 488.05, df = 24, p-value < 2.2e-16

Interpretacion

La prueba Breusch-Pagan (BP= 488.05, df = 24, p < 0.001) muestra evidencia estadisticamente significativa de heterocedasticidad en el modelo, lo que implica que la varianza de los residuos no es constante a largo de los valores obtenidos. Es decir, los errores son mas dispersos en algunos rangos que en otros, incumpliendo el supuesto de homocedasticidad propio de la regresion lineal. A pesar de esto, este resultado no invalida los coeficientes estimidos por completo, sino que sugiere que los errores estandares podrian estar subestimados o sobreestimados, afectando asi la precision de los p-values obtenidos y de la inferencia estadistica. Esto es un comportamiento comun en modelos aplicados a fenomenos sociales donde muchos elementos afectan simultaneamente a las observaciones y mas aun donde las variables esten limitadas a comparacion de la complejidad del fenomeno.

Independencia de los residuos

library(lmtest)

# Urilice la prueba de Durbin-Watson
dwtest(modelo)
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.8571, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Interpretacion

Para la evaluar la independencia de los errores, se recurrio a la prueba de Durbin-Watson, test estandar para detectar autocorrelacion en los residuos de un modelo de regresion. La hioitesis nula del test establece que no existe autocorrelacion entre los residuos, en otras palabras, los errores se distribuyen de manera aleatoria y no presentan un patron de dependencia entre observaciones consecutivas. Teniendo esto en cuenta, la prueba arrojo un estadistico Dw = 1.8571 con p-value <0.001, lo cual permite rechazar la hipotesis nula y denotar que existe una correlacion positiva en los residuos, lo que implica que los errores no son del todo independientes entre si, a pesar de esto, el valor estadistico esta cercano a 2, lo que sugiere que la autocorrelacion no es muy fuerte. A su vez, la significancia estadistica implica la existencia patrones secuenciales no evaluados que pueden llegar a sesgar ciertos datos. Aspecto comun en datos en donde existe una agrupamientos territoriales t sectoriales donde se comparten dinamicas laborales similares.

Multicolinealidad

#Utilice el modelo vif para analizar la inflacion de un coeficiente de regresion

library(car)
## Warning: package 'car' was built under R version 4.4.3
## Cargando paquete requerido: carData
## Warning: package 'carData' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
vif(modelo)
##                            GVIF Df GVIF^(1/(2*Df))
## edad                   1.017781  1        1.008852
## sexo                   1.006488  1        1.003239
## migrante_internacional 1.035264  1        1.017479
## departamento           1.031730 21        1.000744

Interpretacion

Los resultados obtenidos por la multicolinealidad señalan que el Vif de todas las variables es cercano a 1.0. lo que significa que no hay una colinealidad relevante, por lo que las variables aportan informacion independiente entre si y no redundante. Esto a su vez indica que en lo que respecta a la colinealidad los coeficientes son estables y confiables. Ayudando a complementar la validez interna del modelo. A su vez, se descarta correlaciones artificiales entre variables, lo que es importante considerando que departamentos es una variable con un numero elevado de categorias.

Diagnostico grafico general

#Genere graficos Q-Q, Residuals vs Fitted, Scale location y leverage en un mismo apartado 
par(mfrow = c(2, 2))
plot(modelo)

par(mfrow = c(1,1))

Interpretacion:

El grafico residuals vs fitted muestra una nube de puntos sin un patron curvo evidente, lo que sugiere que el supuesto de linealidad se cumple de forma razonable. A pesar de eso, se puede observar que la dispersion vertical de los residuos no es completamente constante a lo largo de los valores ajustados, lo que coincide con los resultados del test de Breusch-Pagan y confirma la presencia de heteroplasticidad, en donde algunos los residuos son mas amplios que en otros en algunos rangos.

En el grafico de Scale-Location se muestra que la variabilidad de los residuos cambia segun los valores ajustados, de modo que, la nube de puntos no mantiene una banda uniforme, sino que presenta vatiaciones en la dispersion, con ciertos rangos en donde los residuos estan mas concentrados y otros donde estan mas dispersos. Esto sirve para reforzar la evidencia a favor sobre la heterocedasticidad. Esto a su vez, sirve para notar que la regresion, no captura por completo la complejidad del fenomeno laboral

En el grafico residuals vs leverage se encontro que la mayoria de puntos presentan baja influencia, pero se identifican algunos valores alejados y cercanos a la linea de Cook distance, lo que indica la presenciad e observaciones influyentes. Estas observaciones a su vez, muestran que ciertos individuos o grupos tienen mayor peso sobre la estimacion de los coeficientes.

Conclusiones

Gracias a lo recopilado por medio de estadistica descriptiva, hipotesis, regresion lineal y los distintos gradicos realizados, podemos responder la pregunta de investigacion y concluir que si existen una relacion entre la edad, el sexo, la condicion migratoria y el departamentos con las horas de trabajo semanales como indicador de posible explotacion laboral. A pesar de esto, es importante tener en cuenta que estos no son los unicos factores que impactan a este fenomeno, sino que otros factores importantes como educacion, clase socioeconomica, ocupacion son importantes a la hora de explicar la explotacion laboral en Colombia. Dicho esto, eso no significa que los fenomenos antes evaluados no tengan ninguna importancia, todo lo contrario, muestran como existen ciertas condiciones que pueden llegar a promover, a permitir la explotacion laboral o un empleo volatil, aspectos como los roles de genero presentes en los hombres, la informalidad laboral, los estandares muy altos y un presion por desempeñar estuvieron presentes durante toda la investigacion, y en muchos casos, se noto una influencia sobre la explotacion laboral. A su vez, se observo como en menor medida, la concentracion de la carga de trabajo se da principalmente en jovenes, mientras se reduce ligeramente a medida que pasan los años. Lo que complementa la idea de que la carga de trabajo y la sobreexplotacion laboral se da usando principalmente la capacidades fisicales y mentales de aquellos a quienes abusan. Esto a su vez se comprobo al usar la prueba de hipotesis y en menor medida la regresion lineal.

En lo que respecta a la condicion migratoria, se encontro una asociacion estadisticamente significativa en donde las personas que migraron al pais presentan mas casos donde sobrepasan las 42 horas de trabajo semanales que aquellos que no son migrantes, a su vez, la regresion lineal y los datos obtenidos por las medidas de tendencia central reafirman esta idea. Esto permite sostener la idea de que en Colombia, los derechos humanos, civiles y de trabajo de los migrantes son constantemente vulnerados, a la que vez que estos se ven marginados en una dualidad donde aceptan trabajos que superan el limite de horas semanales establecidos por la ley o directamente estan en trabajos informales donde no tienen la posibilidad de sostener sus necesidades basicas. Esto muestra como la explotacion laboral tambien actua como fenomeno discriminatorio y de segregacion en donde se aprovechan de las poblaciones vulnerables para asi obtener un servicio con un coste menor. Esto se reafirma con los departamentos, en donde se puede encontrar una informalidad laboral en la que si bien es cierto que ciertos departamentos en pobres condiciones economicas mantiene una media inferior a lo establecido por la ley, la presencia de una alta desviacion estandar que supera considerablemente la de aquellos paises con medias de 44 horas nos permite saber que estos departamentos no estan exceptos de explotacion laboral, de hecho, sufren una problematica similar a la de los migrantres y las mujeres, donde a ese hecho se suma un factor de inestabilidad laboral.

Esto nos reafirma la idea de que la explotacion laboral es un fenomeno presente en Colombia, sobre el cual aspectos socioculturales, economicos, geograficos tienen un alto impacto, al permitir o facilitar que se de esta problematica y minimizar las posibilidades de defensa de las diversas poblaciones victimas de este. En lo que respecta a limitaciones, las mas destacables son respecto a lo limitado y enfocado que estuvo la investigacion, dejando de lado aspectos economicos o variables con un impacto similar como podrian ser la ganancia mensual y semanal de cada trabajo. A su vez, los resultados obtenidos en la comprobacion de la regresion lineal poden en duda ciertos aspectos sobre los cuales se basaron los coeficientes, lo que a pesar de ser normal en el estudio de fenomenos sociales y grandes datos, es un hecho complicado a la hora de comprobar y analizar los datos.