\[Solucion \ parcial \ pracitco\ 2\]

\(Análisis\ explorator \ io \ de \ los\ datos\)

  1. De acuerdo con el diseño estadístico de la encuesta (ver Metodologia ETET 2015.pdf, por ejemplo)1, ¿cuál es el universo, la población objetivo, la fuente de datos, y la cobertura y desagregación geográfca?

$RTA$ \(\ Universo:\) Con base al DANE está conformado por la población civil no institucional entre 14 y 29 años de edad,residente en las 13 ciudades principales del país.( Metodologia ETET 2015.pdf, Pag 18)

\(Poblacion \ Objetivo:\) Con base al DANE Corresponde a la población civil no institucional entre 14 y 29 años de edad,residente en las 13 ciudades principales del país.( Metodologia ETET 2015.pdf, Pag 19)

  1. Importar las bases de datos y remover todas las variables exceptuando aquellas correspondientes a las preguntas EP689 y EP6500. Luego, remover todos los registros que tengan algún dato faltante. En seguida, remover todos aquellos individuos que en la pregunta EP6500 tengan registrados los valores 0, 98, o 99, o valores superiores a $10,000,000. Después de este filtro, la cantidad de registros completos teniendo en cuenta únicamente las preguntas EP689 y EP6500 es 2,288 en 2013 y 2,228 en 2015.
tabla1 = JO132 %>% select(EP689,EP6500)
JO13 = na.omit(tabla1)
tabla13 = filter(JO13, EP6500<10000000, EP6500!=0, EP6500!=98, EP6500!=99)
tabla13
tabla2 = JO152 %>% select(EP689,EP6500)
JO15 = na.omit(tabla2)
tabla15 = filter(JO15, EP6500<10000000, EP6500!=0, EP6500!=98, EP6500!=99)
tabla15
  1. Clasificar las variables según su naturaleza y su escala de medición.

*¿Existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo?

Esta variable es cualitativa ya que nos representa una caracteristica y nominal porque se responde con un sí o no.

*Antes de descuentos ¿cuánto ganó el mes pasado en este empleo? (Incluya propinas y comisiones, y excluya viáticos y pagos en especie).

Es cuantitativa ya que se puede contar la variable y continua ya que va a variar dependiendo las ganancias obtenidas por propinas, comisiones y excluya viáticos y pagos en especie.

  1. Describir numérica y gráficamente (Diagrama de barras y Box-Plot) las variables en ambos años. ¿Parece haber cambios de un año a otro en alguna de las variables? Comentar los resultados obtenidos.
tabla3 = table(tabla13$EP689)
barplot(prop.table(tabla3),col=c("blue","red"),
        legend.text=c("1 = SI","2 = NO"),xlim=c(0,3.3), main = "PREGUNTA 2013", border = "black")

tabla4 = table(tabla15$EP689)
barplot(prop.table(tabla4),col=c("blue","red"),
        legend.text=c("1 = SI","2 = NO"),xlim=c(0,3.3), main = "PREGUNTA 2015", border = "black")

Para el análisis gráfico debemos tener en cuenta inicialmente que tuvimos una disminución en la muestra, a pesar de esto, se sigue evidenciando que exigen un nivel mínimo de ingreso mensual.

x=tabla13$EP6500
x1=tabla15$EP6500
boxplot(x1, x, horizontal = T, main = "Salario completo antes de descuentos, años 2013 y 2015", col= c("blue","orange"), border = "green", outpch = 25, outbg = "blue", whiskcol = "red", whisklty = 3, lty = 1)

Por otro lado, podemos observar en este Boxplot varios datos atípicos que son mostrados por varios triángulos después del límite superior. También al visualizar una comparación entre el año 2013 y 2015, se evidencia que los ingresos del 2015 fueron mayores con respecto al 2013 al observar un desplazamiento de los datos, lo anterior, teniendo en cuenta la reducción de la muestra.

\(inferencia \ estadistica\)

Sea π1 y π2 la proporción poblacional de jóvenes para los cuales sí existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo en 2013 y 2015.

  1. Usando un nivel de significancia del 5%, ¿existen diferencias significativas entre π1 y π2?.

\(H0: π1 = π2\\ H1: π1 \neq π2\)

Responder esta pregunta usando tanto intervalos de confianza (reportar el error estándar, el margen de error, el coeficiente de variación y el intervalo) como pruebas de hipótesis (mostrar explícitamente todos los pasos de la prueba incluyendo la región de rechazo y el valor p). Adicionalmente comprobar con la función dispuesta por R para tal procedimiento.

table(tabla13$EP689)
## 
##    1    2 
## 1571  717
pi1 = 1571
table(tabla15$EP689)
## 
##    1    2 
## 1555  673
pi2 = 1555
prop.test(x=c(pi1,pi2), n=c(2288,2228), alternative="two.sided",
          conf.level=0.95, correct=F) 
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(pi1, pi2) out of c(2288, 2228)
## X-squared = 0.67765, df = 1, p-value = 0.4104
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.03823079  0.01561180
## sample estimates:
##    prop 1    prop 2 
## 0.6866259 0.6979354

Con 95% de confianza tenemos un intervalo de (-0.03823, 0.01561), al tener un alpha = 0.05 y ser inferior que nuestro p-valor = 0.4104, existe suficiente evidencia estadística en la muestra para no rechazar la hipótesis nula y concluir que la proporción poblacional de jóvenes para los cuales sí existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo en 2013 y 2015 es igual.

  1. Para la prueba del numeral 5; graficar la potencia de la prueba para valores de π1 − π2 entre -1 y 1.Comentar los resultados obtenidos acerca de la potencia y el error tipo II de la prueba.
P1=1571/2288; P2=1555/2228; Dif_prop=(P1-P2); alpha=0.05

r=qnorm(1-alpha/2); n1=2288; n2=2228

z <- qnorm(p = 1- alpha)

q1=1-P1; q2=1-P2; m0=z*sqrt((P1*q1/n1)+(P2*q2/n2))

pc=(n1*P1+n2*P2)/(n1+n2)

n=Dif_prop/sqrt((pc*(1-pc))*((1/n1)+1/n2))

P_VALUE=2*pnorm(n)

power.test <- function(H0, Dif_prop, alpha) { 
z <- qnorm(p = 1- alpha)
A <-H0 + me; B <- H0 - me

yA <- (A-Dif_prop) / sqrt((pc*(1-pc))*((1/n1)+1/n2))
yB <- (B-Dif_prop) / sqrt((pc*(1-pc))*((1/n1)+1/n2))
BETA <- pnorm( q = yA, mean = 0, sd = 1, lower.tail = TRUE)
 pnorm( q = yB, mean = 0, sd = 1, lower.tail = TRUE)
return(1 - BETA)
}

f <- function(Dif_prop) power.test <- function(H0, Dif_prop, alpha)

curve(expr = f, from = -1, to = 1, col = "red", main = "Potencia de la prueba", xlab = "Diferencia de proporciones", ylab = "Potencia", lvd = 2)
  1. ¿Existen diferencias significativas entre 1σ2 y 2σ2? Proceder únicamente utilizando la prueba dispuesta por R para tal procedimiento. Interpretar los resultados.

\(HO:\ 1σ2 = 2σ2 \\H1:\ 1σ2 \neq 2σ2\)

var.test(tabla13$EP6500,tabla15$EP6500, alternative = "two.sided",
         null.value = 1, conf.level = 0.95) 
## 
##  F test to compare two variances
## 
## data:  tabla13$EP6500 and tabla15$EP6500
## F = 0.93317, num df = 2287, denom df = 2227, p-value = 0.1004
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.8592182 1.0134356
## sample estimates:
## ratio of variances 
##          0.9331679

Existe suficiente evidencia estadística en la muestra para no rechazar la hipotesis nula y establecer que las varianzas poblacionales de jóvenes (para los cuales sí existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo en 2013 y 2015) son iguales.

  1. ¿Existen diferencias significativas entre µ1 y µ2? Proceder unicamente utilizando la prueba dispuesta por R para tal procedimiento. Tener en cuenta los resultados del punto anterior para determinar la prueba a utilizar. Interpretar los resultados.

\(HO:\ µ1 = µ2 \\H1:\ µ1 \neq µ2\)

t.test(x = tabla13$EP6500,tabla15$EP6500,alternative = "two.sided", 
       mu = 0, paired = F, var.equal = T, conf.level = 0.95)
## 
##  Two Sample t-test
## 
## data:  tabla13$EP6500 and tabla15$EP6500
## t = -3.5601, df = 4514, p-value = 0.0003745
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -98030.18 -28405.18
## sample estimates:
## mean of x mean of y 
##  783149.1  846366.8

Existe suficiente evidencia estadística en la muestra para rechazar la hipótesis nula, concluir que el promedio las medias poblacionales de jóvenes (para los cuales sí existe un nivel mínimo de ingreso mensual por debajo del cual no aceptaría un trabajo en 2013 y 2015) no son iguales.

  1. Graficar un histograma (y sobre este la curva normal correspondiente) y un gráfico cuantil-cuantilnormal (con las bandas de confianza) para los ingresos de los jóvenes en el 2013. Probar el sistema de hipótesis correspondiente usando la prueba de Shapiro-Wilk y la prueba de Kolmogorov-Smirnov. ¿Los ingresos de los jóvenes en 2013 parecen provenir de una distribución normal?
hist(x = tabla13$EP6500, freq = TRUE, nclass = nclass.Sturges(tabla13$EP6500), border = "blue", col = "yellow", 
     xlab = "Cantidad de ingresos por joven", ylab = "Frecuencia", main = "Histograma de los ingresos de jovenes en el 2013")

\[Parte \ 2\]

\(Analis\ exploratorio\)

  1. Importar las bases de datos y remover todas las variables exceptuando aquellas correspondientes a las preguntas EP732 y EP741. Remover todos los registros que tengan algún dato faltante. La cantidad de registros completos teniendo en cuenta únicamente las preguntas EP732 y EP741 es 6,416 en 2013 y 6,524 en 2015.
tabla132 = PLFT13 %>% select(., EP732,EP741)
datos13 = na.omit(tabla132)
datos13
## # A tibble: 6,416 × 2
##    EP732 EP741
##    <dbl> <dbl>
##  1     1     1
##  2     1     3
##  3     1     3
##  4     1     2
##  5     1     1
##  6     1     3
##  7     1     3
##  8     1     3
##  9     1     3
## 10     1     3
## # ℹ 6,406 more rows
tabla152 = PLFT15 %>% select(EP732,EP741)
datos15 = na.omit(tabla152)
datos15
## # A tibble: 6,524 × 2
##    EP732 EP741
##    <dbl> <dbl>
##  1     1     1
##  2     1     2
##  3     1     2
##  4     1     1
##  5     1     1
##  6     1     1
##  7     1     1
##  8     1     3
##  9     1     3
## 10     1     2
## # ℹ 6,514 more rows
  1. Clasificar las variables según su naturaleza y su escala de medición.

Pregunta EP732: En términos generales, ¿se siente optimista sobre sus expectativas laborales futuras? (1 = Sí, 2 = No).

Esta variable es cualitativa ya que nos representa una característica y nominal porque se responder con un sí o no.

EP741: ¿Con quién le gustaría trabajar principalmente? (1 = Solo (negocio propio/granja), 2 = Trabajar para el gobierno/sector público, 3 = Trabajar para una empresa privada, 4 = Trabajar sin remuneración en un negocio familiar/granja, 5 = Otra).

Esta variable es cualitativa y es nominal ya que cuando la persona responde, no le da una mayor o menor significancia.

  1. Describir numérica y gráficamente las variables en 2015. ¿Parece haber una relación entre las variables? Comentar los resultados obtenidos.
datos152 = table(datos15$EP732)

barplot(prop.table(datos152),col=c("blue","red"),
        legend.text=c("1 = SI","2 = NO"),xlim=c(0,3.3), main = "PREGUNTA EP732 2015", border = "black")

datos153 = table(datos15$EP741)


barplot(prop.table(datos153),col=c("blue","red", "pink", "yellow", "green"), legend.text=c("1 = Solo (negocio propio/granja)","2 = Trabajar para el gobierno/sector público", "3 = Trabajar para una empresa privada", "4 = Trabajar sin remuneración en un negocio familiar/granja", "5 =  Otra"),xlim=c(0,5), main = "¿Con quién le gustaría trabajar principalmente?", border = "black")

Con ambos graficos se podría evidenciar que existe una correlación entre ambas, al visualizar que la población tiene altas expectativas a futuro (Grafico 1) se visualizan obteniendo un excelente trabajo (Grafico 2).

  1. Usando un nivel de significancia del 3%, presentar intervalos de confianza para la proporción de personas que se sienten optimistas sobre sus expectativas laborales futuras y para la proporción de personas que les gustaría trabajar principalmente en un negocio propio.
table(datos13$EP732)
## 
##    1    2 
## 5892  524
table(datos15$EP732)
## 
##    1    2 
## 5921  603
prop.test(x = c(5892, 5921) , n = c(6416,6524), alternative ="two.sided", conf.level = 0.97)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(5892, 5921) out of c(6416, 6524)
## X-squared = 4.5735, df = 1, p-value = 0.03247
## alternative hypothesis: two.sided
## 97 percent confidence interval:
##  -0.0001492526  0.0216635233
## sample estimates:
##    prop 1    prop 2 
## 0.9183292 0.9075720

Con 97% de confianza obtenemos un intervalo \((-0.0001492526,0.0216635233)\)

table(datos13$EP741)
## 
##    1    2    3    4    5 
## 2125 1834 2369    5   83
table(datos15$EP741)
## 
##    1    2    3    4    5 
## 2447 1874 2148    7   48
prop.test(x = c(2125, 2447) , n = c(6416,6524), alternative ="two.sided", conf.level = 0.97)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(2125, 2447) out of c(6416, 6524)
## X-squared = 27.06, df = 1, p-value = 1.973e-07
## alternative hypothesis: two.sided
## 97 percent confidence interval:
##  -0.06224280 -0.02550399
## sample estimates:
##    prop 1    prop 2 
## 0.3312032 0.3750766

Con 97% de confianza obtenemos un intervalo \((-0.06224280,-0.02550399)\)

  1. Probar si las variables correspondientes a las preguntas EP732 y EP741 son dependientes en 2015.Responder esta pregunta usando pruebas de hip

H0: el enfoque es independiente de la pregunta EP732 frente EP741 .

H1: el enfoque no es independiente de la pregunta EP732 frente EP741

attach(datos15)
chisq.test(x = datos15$EP732,y = datos15$EP741)
## Warning in chisq.test(x = datos15$EP732, y = datos15$EP741): Chi-squared
## approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  datos15$EP732 and datos15$EP741
## X-squared = 202.39, df = 4, p-value < 2.2e-16

Como si se rechazo la hipótesis nula, entonces se concluye que hay suficiente evidencia estadística en la muestra para establecer que las variables correspondientes a las preguntas EP732 y EP741 no son independientes.

\[Conclusiones\]

Teniendo en cuenta los resultados obtenidos anteriormente y con fin a dar recomendaciones al Ministerio de Trabajo en cuestión del desarrollo de una Política Pública, se efectúa la sugerencia planteada en 3 segmentos principales:

  1. El Ministerio de Trabajo debe aumentar los salarios como fin evitar la pérdida de fuerza laboral, esto con base a que la población de jóvenes exige un mínimo de ingresos para poder solventar sus necesidades básicas.

  2. Teniendo en cuenta los resultados de la pregunta EP741, los cuales indican que un porcentaje significativo de la población se planifica trabajando como independiente, es decir, con negocio propio y/o granja, se propone como política otorgar apoyos económicos y educativos (cursos virtuales con certificación), con el propósito de apoyar la fuerza laboral que se dedicará a la microempresa.

  3. Por otra parte con respecto a los resultados de la pregunta EP741, se presenta que otro porcentaje relevante de la población de jóvenes, desea trabajar en el sector público y privado, por ende, se deberían incentivar tanto a las empresas como al Gobierno a generar mayores ofertas de trabajo.