PARTE 1

El desarrollo de este parcial se hara en marco de un estudio que es de alguna manera longitudinal porque se quiere investigar si hubo cambios considerables de 2013 a 2015 respecto a las características más relevantes del modulo. En esta parte, se tendra en cuenta el módulo de JOVENES OCUPADOS. De la base de datos se tendra en cuenta dos variables que para el desarrollo de este trabajo seran de suma importancia, las variables EP689 y EP6500, estas significan las siguientes preguntas: EP689: ¿Existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo? (1 = Sí, 2 = No). EP6500: Antes de descuentos ¿cuánto ganó el mes pasado en este empleo? (Incluya propinas y comisiones, y excluya viáticos y pagos en especie). Valor mensual en pesos ($).

Análisis exploratorio de datos

NOTA: Sea π1 y π2 la proporción poblacional de jóvenes para los cuales sí existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo en 2013 y 2015, respectivamente. Sea σ21 y σ22 la varianza y μ1 y μ2 la media poblacional de los ingresos de los jóvenes en 2013 y 2015, respectivamente.

Punto 1 = De acuerdo con el diseño estadístico de la encuesta (ver Metodologia ETET 2015.pdf, por ejemplo)1, ¿cuál es el universo, la población objetivo, la fuente de datos, y la cobertura y desagregación geográfca?

Según el DANE, el universo y la población objetivo son la población civil no institucional, específicamente hace referencia a los jóvenes entendiendo este grupo como las personas con edades entre los 14 y 29 años que residen en las 13 ciudades principales de Colombia. (P.18-19)

La fuente de datos establece que la encuesta se hará por: (p.19)

Muestreo probabilístico: este consiste en escoger una muestra de la población que al ser encuestada represente significativamente a la población objetivo. (QuestionPro,s.f)

Muestreo multietápico: este tipo de muestreo divide la población objetivo en etapas para que el proceso sea más práctico en la recolección de datos. (QuestionPro,s.f)

Muestreo estratificado: este muestreo consiste en dividir la población para luego organizarla por edad y sexo. (QuestionPro,s.f)

Muestreo de conglomerados desiguales: este muestreo escoge aleatoriamente la muestra según la dispersión geográfica estipulada. (QuestionPro,s.f)

Muestreo autoponderado: es aquel en el cual “cada miembro de la población objetivo se selecciona con la misma probabilidad general”.(Unicef,2005)

Cobertura y desagregación geográfica

Como se menciona en el universo y en la población objetivo, esta encuesta se realizó en las 13 principales ciudades de Colombia, es por esto que la cobertura y la desagregación geográfica será en: Bogotá, Medellín, Cali, Barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería y Cartagena. (p.19)

Punto 2 = Importar las bases de datos y remover todas las variables exceptuando aquellas correspondientes a las preguntas EP689 y EP6500. Luego, remover todos los registros que tengan algún dato faltante. En seguida, remover todos aquellos individuos que en la pregunta EP6500 tengan registrados los valores 0, 98, o 99, o valores superiores a $10,000,000. Después de este filtro, la cantidad de registros completos teniendo en cuenta únicamente las preguntas EP689 y EP6500 es 2,288 en 2013 y 2,228 en 2015.

library(dplyr)
library(knitr)
library(readr)
JO13 <- read_csv("JO13.csv")
data1 = JO13 %>% select(EP689,EP6500)
dataJO13 = na.omit(data1)
data13 = filter(dataJO13, EP6500<10000000, EP6500!=0, EP6500!=98, EP6500!=99)
data13
## # A tibble: 2,288 × 2
##    EP689  EP6500
##    <dbl>   <dbl>
##  1     2  589500
##  2     1  800000
##  3     1  240000
##  4     1  600000
##  5     1  586700
##  6     2  250000
##  7     1 2000000
##  8     2  280000
##  9     2  500000
## 10     2  650000
## # … with 2,278 more rows
  • Esta muestra es la materialización de la limpieza solicitada en el punto uno para el año del 2013. Ademas, la cantidad de datos es de 2.288, por lo que cumple con este aspecto.
JO15 <- read_csv("JO15.csv")
data2 = JO15 %>% select(EP689,EP6500)
dataJO15 = na.omit(data2)
data15 = filter(dataJO15, EP6500<10000000, EP6500!=0, EP6500!=98, EP6500!=99)
data15
## # A tibble: 2,228 × 2
##    EP689  EP6500
##    <dbl>   <dbl>
##  1     2  350000
##  2     2  400000
##  3     1 1200000
##  4     1  800000
##  5     1  650000
##  6     1  590000
##  7     1  650000
##  8     1 1500000
##  9     1  700000
## 10     2  644350
## # … with 2,218 more rows
  • Por otra parte, esta muestra es la materialización de la limpieza solicitada en el punto uno para el año del 2015. Ademas, la cantidad de datos es de 2,228, por lo que cumple con este aspecto.

Punto 3 = Clasificar las variables según su naturaleza y su escala de medición.

  • EP689: ¿Existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo? (1 = Sí, 2 = No).

Esta variable es cualitativa y es de escala nominal porque el joven se dispone a responder si o no.

  • EP6500: Antes de descuentos ¿cuánto ganó el mes pasado en este empleo? (Incluya propinas y comisiones, y excluya viáticos y pagos en especie). Valor mensual en pesos ($).

Esta variable es cuantitativa y continua porque el ingreso va a variar según propinas, comisiones,etc.

Punto 4 = Describir numérica y gráficamente (Diagrama de barras y Box-Plot) las variables en ambos años. ¿Parece haber cambios de un año a otro en alguna de las variables? Comentar los resultados obtenidos.

x1 = table(data13$EP689)
barplot(prop.table(x1),col=c("aquamarine","cadetblue"),
        legend.text=c("1 = SI","2 = NO"),xlim=c(0,3.3), main = "PREGUNTA 2013", border = "black")

x3 = table(data15$EP689)
barplot(prop.table(x3),col=c("aquamarine4","cadetblue4"),
        legend.text=c("1 = SI","2 = NO"),xlim=c(0,3.3), main = "PREGUNTA 2015", border = "black")

  • Por la parte de estas dos tablas se considera que hubo una disminución de datos pero el sesgo hacia la respuesta SI sigue existiendo, es decir, aunque hayan cambiado la cantidad de datos, el sesgo hacia la respuesta SI, sigue estando. Lo anterior, quiere decir que si existe un nivel mínimo de ingreso mensual por debajo del cual la población no aceptaría un trabajo.
x2=data13$EP6500
x4=data15$EP6500
boxplot(x4, x2, horizontal = T, main = "Salario completo antes de descuentos, años 2013 y 2015", col= c("aquamarine","aquamarine4"), border = "black", outpch = 25, outbg = "aquamarine3", whiskcol = "red", whisklty = 3, lty = 1)

  • Por otra parte, podemos observar en este Boxplot varios datos atípicos representados por varios triángulos después del límite superior. También se refleja una comparación entre el año 2013 y 2015 donde podemos concluir que en el año 2015 los sueldos fueron mayores que en el 2013 puesto que hubo un desplazamiento positivo en la gráfica. Asimismo, se demuestra una asimetría positiva en los dos datos porque siempre la mediana está más cerca al primer cuartil, esto quiere decir que cada vez el porcentaje de las personas encuestadas están teniendo mejores ingresos, la asimetría se observa mejor en el año 2015.

Inferencia estadistica

Punto 5 = Usando un nivel de significancia del 5%, ¿existen diferencias significativas entre π1 y π2?. Responder esta pregunta usando tanto intervalos de confianza (reportar el error estándar, el margen de error, el coeficiente de variación y el intervalo) como pruebas de hipótesis (mostrar explícitamente todos los pasos de la prueba incluyendo la región de rechazo y el valor p). Adicionalmente comprobar con la función dispuesta por R para tal procedimiento.

table(data13$EP689)
## 
##    1    2 
## 1571  717
π1 = 1571
table(data15$EP689)
## 
##    1    2 
## 1555  673
π2 = 1555
#H0 : π1 =  π2  
#H1 : π1 != π2
prop.test(x=c(π1,π2), n=c(2228,2288), alternative="two.sided",
          conf.level=0.95, correct=F) 
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(π1, π2) out of c(2228, 2288)
## X-squared = 3.4407, df = 1, p-value = 0.06361
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.00142464  0.05239230
## sample estimates:
##    prop 1    prop 2 
## 0.7051167 0.6796329
  • El anterior test determina y hace que no se rechace la hipotesis nula (H0 : π1 = π2 ), debido a que el “p-value” = 0.06361 es mayor que el nivel de significancia, es decir, que es mayor al 5%. Lo que quiere decir y como respuesta a la pregunta, es que hay suficiente información estadistica, asumiendo que la “significancia” es un limite que si se sobrepasa se empieza a considerar suficiente la diferencia, para considerar que si hay una diferencia significativa entre las dos proporciones poblacionales y sus resultados. Debido a que como se muestra en el test p-value es 0.06361 y el nivel de sginificancia del 0,05, lo que es mayor y resulta significante.

Punto 6 = ¿Existen diferencias significativas entre σ21−σ22? Proceder unicamente utilizando la prueba dispuesta por R para tal procedimiento. Interpretar los resultados.

#H0 : σ1 =  σ2  
#H1 : σ1 != πσ2
var.test(data13$EP6500,data15$EP6500, alternative = "two.sided",
         null.value = 1, conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  data13$EP6500 and data15$EP6500
## F = 0.93317, num df = 2287, denom df = 2227, p-value = 0.1004
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.8592182 1.0134356
## sample estimates:
## ratio of variances 
##          0.9331679
  • El anterior test determina y hace que no se rechace la hipotesis nula (H0 : o1 = o2 ), debido a que el “p-value” = 0.1004 es decir que es mayor al nivel de significancia del 5%. Lo que quiere decir y como respuesta a la pregunta, es que hay suficiente información estadistica, asumiendo que la “significancia” es un limite que si se sobrepasa se empieza a considerar suficiente la diferencia, para considerar que si hay una diferencia significativa entre las dos proporciones poblacionales y sus resultados. Debido a que como se muestra en el test p-value es 0.1004 y el nivel de sginificancia del 0,05, lo que es menor y resulta significante.

Punto 7 = ¿Existen diferencias significativas entre μ1−μ2? Proceder unicamente utilizando la prueba dispuesta por R para tal procedimiento. Tener en cuenta los resultados del punto anterior para determinar la prueba a utilizar. Interpretar los resultados.

#H0 : μ1 = μ2  
#H1 : μ1 != μ2
t.test(x = data13$EP6500,data15$EP6500,alternative = "two.sided", 
       mu = 0, paired = F, var.equal = T, conf.level = 0.95)
## 
##  Two Sample t-test
## 
## data:  data13$EP6500 and data15$EP6500
## t = -3.5601, df = 4514, p-value = 0.0003745
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -98030.18 -28405.18
## sample estimates:
## mean of x mean of y 
##  783149.1  846366.8
  • El anterior test determina y hace que se rechace la hipotesis nula (H0 : μ1 = μ2), debido a que el “p-value” = 0.0003745 es decir que es menor al nivel de significancia del 5%. Lo que quiere decir y como respuesta a la pregunta, es que hay suficiente información estadistica, asumiendo que la “significancia” es un limite que si se sobrepasa se empieza a considerar suficiente la diferencia, para considerar que no hay una diferencia significativa entre las dos proporciones poblacionales y sus resultados. Debido a que como se muestra en el test p-value es 0.0003745 y el nivel de sginificancia del 0,05, lo que es menor y resulta no significante.

Punto 8 = Para la prueba del numeral 7; graficar la potencia de la prueba para valores de μ1−μ2 en un rango apropiado. Comentar los resultados obtenidos acerca de la potencia y el error tipo II de la prueba.

f = function((mean(data13$EP6500)))

PARTE 2

Ahora se considerara el módulo de PERSPECTIVAS LABORALES Y FUERZA DE TRABAJO. Se quiere en esta parte: a) identificar si en 2015 el optimismo sobre las expectativas laborales futuras es independiente del sector donde los jóvenes quieren conseguir trabajo b) probar si existió un cambio significativo del 2013 al 2015 en términos del sector donde los jóvenes quieren conseguir trabajo.

Por lo anterior, se tienen en cuenta las preguntas EP732 y EP741 que significan las siguientes preguntas:

EP732: En términos generales, ¿se siente optimista sobre sus expectativas laborales futuras? (1 = Sí, 2 = No).

EP741: ¿Con quién le gustaría trabajar principalmente? (1 = Solo (negocio propio/granja), 2 = Trabajar para el gobierno/sector público, 3 = Trabajar para una empresa privada, 4 = Trabajar sin remuneración en un negocio familiar/granja, 5 = Otra).

Punto 1 = Importar las bases de datos y remover todas las variables exceptuando aquellas correspondientes a las preguntas EP732 y EP741. Remover todos los registros que tengan algún dato faltante. La cantidad de registros completos teniendo en cuenta únicamente las preguntas EP732 y EP741 es 6,416 en 2013 y 6,524 en 2015.

PLFT13 <- read_csv("PLFT13.csv")
data13.2 = PLFT13 %>% select(., EP732,EP741)
dataPLFT13 = na.omit(data13.2)
dataPLFT13
## # A tibble: 6,416 × 2
##    EP732 EP741
##    <dbl> <dbl>
##  1     1     1
##  2     1     3
##  3     1     3
##  4     1     2
##  5     1     1
##  6     1     3
##  7     1     3
##  8     1     3
##  9     1     3
## 10     1     3
## # … with 6,406 more rows
  • Esta muestra es la materialización de la limpieza solicitada en el punto uno de la segunda parte para el año del 2013. Ademas, la cantidad de datos es de 6,416, por lo que cumple con este aspecto.
PLFT15 <- read_csv("PLFT15.csv")
data15.2 = PLFT15 %>% select(EP732,EP741)
dataPLFT15 = na.omit(data15.2)
dataPLFT15
## # A tibble: 6,524 × 2
##    EP732 EP741
##    <dbl> <dbl>
##  1     1     1
##  2     1     2
##  3     1     2
##  4     1     1
##  5     1     1
##  6     1     1
##  7     1     1
##  8     1     3
##  9     1     3
## 10     1     2
## # … with 6,514 more rows
  • Esta muestra es la materialización de la limpieza solicitada en el punto uno de la segunda parte para el año del 2015. Ademas, la cantidad de datos es de 6,524, por lo que cumple con este aspecto.

Punto 2 = Clasificar las variables según su naturaleza y su escala de medición.

Las variables son

  • EP732: En términos generales, ¿se siente optimista sobre sus expectativas laborales futuras? (1 = Sí, 2 = No).

Esta variable es cualitativa y de escala nominal porque los encuestados deben responder sí o no.

  • EP741: ¿Con quién le gustaría trabajar principalmente? (1 = Solo (negocio propio/granja), 2 = Trabajar para el gobierno/sector público, 3 = Trabajar para una empresa privada, 4 = Trabajar sin remuneración en un negocio familiar/granja, 5 = Otra).

Esta variable es cualitativa y tiene una escala nominal porque las opciones no representan un orden que les de mayor o menor significancia.

Punto 3 = Describir numérica y gráficamente las variables en 2015. ¿Parece haber una relación entre las variables? Comentar los resultados obtenidos.

x1.2 = table(dataPLFT15$EP732)
barplot(prop.table(x1.2),col=c("aquamarine","cadetblue"),
        legend.text=c("1 = SI","2 = NO"),xlim=c(0,3.3), border = "black")

x2.2 =  dataPLFT15$EP741
barplot(prop.table(x2.2),col=c("aquamarine","aquamarine3", "cadetblue", "cadetblue3", "cyan4"), legend.text=c("1 = 1 = Solo (negocio propio/granja)","2 = Trabajar para el gobierno/sector público", "3 = Trabajar para una empresa privada", "4 = Trabajar sin remuneración en un negocio familiar/granja", "5 =  Otra"),xlim=c(0,3.3), main = "¿Con quién le gustaría trabajar principalmente?", border = "black")

  • Teniendo en cuenta los dos gráficas, observamos que los jóvenes tienen expectativas para su futuro profesional y desean desarrollarlo principalmente como trabajadores en un puesto público o privado con remuneración. Pocos de ellos prefieren emprender solos y teniendo en cuenta las variables de la parte 1, la mayoría dijo que si tenían establecido un nivel mínimo de ingreso por su trabajo, por lo cual, la opción 4 que propone trabajo sin remuneración no fue significativa.

Punto 4 = Usando un nivel de significancia del 3%, presentar intervalos de confianza para la proporción de personas que se sienten optimistas sobre sus expectativas laborales futuras y para la proporción de personas que les gustaría trabajar principalmente en un negocio propio.

attach(dataPLFT13)
table(dataPLFT13$EP732)
## 
##    1    2 
## 5892  524
attach(dataPLFT15)
table(dataPLFT15$EP732)
## 
##    1    2 
## 5921  603
prop.test(x = c(5892, 5921) , n = c(6416,6524), alternative ="two.sided", conf.level = 0.97)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(5892, 5921) out of c(6416, 6524)
## X-squared = 4.5735, df = 1, p-value = 0.03247
## alternative hypothesis: two.sided
## 97 percent confidence interval:
##  -0.0001492526  0.0216635233
## sample estimates:
##    prop 1    prop 2 
## 0.9183292 0.9075720
  • El resultado del test nos aroja que el p-value es 0.03247, mayor que el nivel de significancia. Ademas, sus intervalos de confianza son 0.9183292 y 0.9075720
table(dataPLFT13$EP741)
## 
##    1    2    3    4    5 
## 2125 1834 2369    5   83
table(dataPLFT15$EP741)
## 
##    1    2    3    4    5 
## 2447 1874 2148    7   48
prop.test(x = c(2125, 2447) , n = c(6416,6524), alternative ="two.sided", conf.level = 0.97)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(2125, 2447) out of c(6416, 6524)
## X-squared = 27.06, df = 1, p-value = 1.973e-07
## alternative hypothesis: two.sided
## 97 percent confidence interval:
##  -0.06224280 -0.02550399
## sample estimates:
##    prop 1    prop 2 
## 0.3312032 0.3750766
  • Los intervalos de confianza son 0.3312032 y 0.3750766. Ademas, su P-value es significtivamente mayor al nivel de significancia.

Conclusiones

Teniendo en cuenta los resultados obtenidos anteriormente y con miras a dar recomendaciones al Ministerio de Trabajo en cuestión del desarrollo de una Política Pública, se le hace la recomendiación planteado y dos partes:

  1. Se cree necesario tener en cuenta las preferencias de los trabajadores y las trabajadores, aprovenchando, en otras, que se evidencia un optimismo en una cantidad elevada para producir. Con lo anterior subir los salarios para que todos las personas tenga la iniciativa de trabajar sin problematica, sin bajar el optimismo y expectativas.

  2. Crear nuevos empleos en el sector público, acompañado de iniciativas gubernamentales a empresas privadas para que contraten más empleados. Lo anterior, con el objetivo de crear nuevo y más empleo según las preferencias de la población.

Lo mencionado, se considera de alguna manera unas acciones basicas para el desarrollo de la Política Pública, debido a que son las preferencia y necesidades de la población, es decir, al ser una Política Pública, el rastreo de la problematica por parte de la entidad deberia ser dirigido hacia la construcción de lo tartado en los puntos anteriores.

Referencias

1.QuestionPro. (s.f). ¿Qué es el muestreo polietápico o muestreo multietapas?. https://www.questionpro.com/blog/es/muestreo-polietapico-o-multietapas/

2.QuestionPro. (s.f). ¿Cómo realizar un muestreo probabilístico? https://www.questionpro.com/blog/es/como-realizar-un-muestreo-probabilistico/

  1. Unicef. Capítulo 4, Diseño y Selección de la Muestra. En Unicef “Manual para la Encuesta de Indicadores Múltiples por Conglomerados 2005”.