La coyuntura ha sacado a la luz, distintos problemas estructurales a nivel social, económico y político en Colombia. La pandemia del COVID - 19, permitió evidenciar los altos indices de pobraza, falta de educación y desempleo. En ese sentido, la presente materia de métodos cuantitativos ha brindado una serie de herramientas para hacer análisis que pueden ser útiles a la hora de entender la coyuntura. A raíz de la presente crisis económica, social y política las protestas se han dado en diferentes ciudades de lpaís; sin embargo, en este caso se va a llevar a cabo el análisis del la ciudad de Cali y Bogotá, esto desde 3 ejes de estudio, como la escolaridad, los ingresos laborales y la proporción de jóvenes que estudian.

library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.0.5
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.1.1     v dplyr   1.0.6
## v tidyr   1.1.3     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1
## Warning: package 'ggplot2' was built under R version 4.0.4
## Warning: package 'tibble' was built under R version 4.0.5
## Warning: package 'tidyr' was built under R version 4.0.5
## Warning: package 'dplyr' was built under R version 4.0.5
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
geih_feb_21 <- read_delim("geih_feb_21.csv", delim = ";")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   DIRECTORIO = col_double(),
##   SECUENCIA_P = col_double(),
##   ORDEN = col_double(),
##   P6020 = col_double(),
##   P6040 = col_double(),
##   P3147S2 = col_double(),
##   P3246 = col_double(),
##   P6170 = col_double(),
##   ESC = col_double(),
##   fex_c_2011 = col_number(),
##   FT = col_double(),
##   OCI = col_double(),
##   INGLABO = col_double(),
##   DSI = col_double(),
##   INI = col_double(),
##   AREA = col_character(),
##   DPTO = col_character()
## )
head(geih_feb_21)
glimpse(geih_feb_21)
## Rows: 28,962
## Columns: 17
## $ DIRECTORIO  <dbl> 5367062, 5367063, 5367063, 5367063, 5367063, 5367064, 5367~
## $ SECUENCIA_P <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1~
## $ ORDEN       <dbl> 1, 1, 2, 3, 4, 1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 1, 1, 2, 3~
## $ P6020       <dbl> 2, 2, 1, 2, 1, 2, 2, 2, 1, 1, 1, 2, 2, 1, 2, 1, 2, 2, 1, 1~
## $ P6040       <dbl> 50, 52, 33, 29, 6, 52, 17, 20, 4, 5, 24, 17, 13, 30, 30, 0~
## $ P3147S2     <dbl> NA, NA, 1, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
## $ P3246       <dbl> 2, 2, NA, NA, NA, 1, NA, NA, NA, NA, NA, NA, NA, 2, NA, NA~
## $ P6170       <dbl> 2, 2, 2, 2, 1, 2, 1, 1, 1, 1, 2, 2, 1, 2, 2, NA, 2, 2, 1, ~
## $ ESC         <dbl> 2, 8, 11, 11, 0, 0, 7, 7, 0, 0, 11, 11, 7, 14, 16, NA, 11,~
## $ fex_c_2011  <dbl> 1.062935e+16, 1.157189e+16, 1.157189e+16, 1.157189e+16, 1.~
## $ FT          <dbl> 1, 1, 1, 1, NA, 1, 1, 1, NA, NA, 1, 1, 1, 1, 1, NA, 1, 1, ~
## $ OCI         <dbl> NA, NA, NA, NA, NA, 1, NA, NA, NA, NA, 1, NA, NA, 1, 1, NA~
## $ INGLABO     <dbl> NA, NA, NA, NA, NA, 140000, NA, NA, NA, NA, 1250000, NA, N~
## $ DSI         <dbl> NA, NA, 1, 1, NA, NA, NA, 1, NA, NA, NA, NA, NA, NA, NA, N~
## $ INI         <dbl> 1, 1, NA, NA, NA, NA, 1, NA, NA, NA, NA, 1, 1, NA, NA, NA,~
## $ AREA        <chr> "05", "05", "05", "05", "05", "05", "05", "05", "05", "05"~
## $ DPTO        <chr> "05", "05", "05", "05", "05", "05", "05", "05", "05", "05"~
geih_jovenes <- geih_feb_21 %>% filter (between(P6040, 14, 28))
geih_jovenes_cali <- geih_jovenes %>% filter(AREA == "76")
  1. calcule la media, la desviación estándar y el tamaño de la muestra para la variable ESC, que contiene los años de escolaridad de las personas encuestadas. Usando esta información, estime un intervalo de confianza sobre la media poblacional de la variable ESC con un nivel de confianza de 95%. Interprete adecuadamente el intervalo, asegúrandose de mencionar cuál es la población en este caso, y señalando el límite inferior y superior del intervalo.
mean(geih_jovenes$ESC)
## [1] 11.04725
sd(geih_jovenes$ESC)
## [1] 2.892741
length(geih_jovenes$ESC)
## [1] 7111

Intervalo de confianza al 95%

x_barra <- 11.04725
s <- 2.892741
n <- 7111
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 0.06724597
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 10.9800 11.1145

R/: para un nivel de confianza del 95%, la media poblacional de la variable ESC que hace referencia a los años de escolaridad de las personas, se encuentra entre 10.9800 y 11.1145

  1. Calcule la media, la desviación estándar y el tamaño de la muestra para la variable INGLABO, que contiene los ingresos laborales de aquellas personas encuestadas que reportan tener un trabajo. Usando esta información, estime un intervalo de confianza sobre la media poblacional de la variable INGLABO con un nivel de confianza de 95%. Interprete adecuadamente el intervalo, asegúrandose de mencionar cuál es la población en este caso, y señalando el límite inferior y superior del intervalo.
mean(geih_jovenes$INGLABO, na.rm = TRUE)
## [1] 946990
sd(geih_jovenes$INGLABO, na.rm = TRUE)
## [1] 731024.6
length(geih_jovenes$INGLABO)
## [1] 7111
x_barra <- 946990
s <- 731024.6
n <- 7111
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 16993.73
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 929996.3 963983.7

R/: para un nivel de confianza del 95%, la media poblacional de personas encuestadas que reportan tener trabajo se encuentra entre 929996.3 y 963983.7

  1. Calcule la proporción de personas que asisten a la escuela. Estas personas estan identificadas en la variable P6170 que tiene dos categorías: 1, si la persona si asiste la escuela y 2 si la persona no asiste a la escuela. Puede usar la función table para estos efectos. Usando esta información, estime un intervalo de confianza sobre la proporción poblacional de personas que asisten a la escuela con un nivel de confianza de 95%. Interprete adecuadamente el intervalo, asegúrandose de mencionar cuál es la población en este caso, y señalando el límite inferior y superior del intervalo
table(geih_jovenes$P6170)
## 
##    1    2 
## 2837 4274
Estudia <- 2837
n <- 4274

p_barra <- Estudia/n 
p_barra
## [1] 0.663781
ee <- sqrt(p_barra*(1-p_barra)/n)
ee
## [1] 0.007226138

se puede ver que la proporción de personas que estudian es de 66,37%

Intervalo de confianza al 95%

alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)

ME <- z*ee
ME
## [1] 0.01416297
lb <- p_barra - ME
la <- p_barra + ME
intervalo  <- c(lb,la)
intervalo
## [1] 0.649618 0.677944

R/: para un nivel de confianza del 95% la prorción poblacional de personas que estudian, se escuentra entre 0.649618 0.677944

  1. Usando la base geih_jovenes_cali, estime e interprete los mismos intervalos estimados en la pregunta anterior, pero ahora solamente para la ciudad de Cali
  1. calcule la media, la desviación estándar y el tamaño de la muestra para la variable ESC, que contiene los años de escolaridad de las personas encuestadas. Usando esta información, estime un intervalo de confianza sobre la media poblacional de la variable ESC con un nivel de confianza de 95%. Interprete adecuadamente el intervalo, asegúrandose de mencionar cuál es la población en este caso, y señalando el límite inferior y superior del intervalo.
mean(geih_jovenes_cali$ESC)
## [1] 10.87755
sd(geih_jovenes_cali$ESC)
## [1] 2.596079
length(geih_jovenes_cali$ESC)
## [1] 539

Intervalo de confianza al 95%

x_barra <- 10.87755
s <- 2.596079
n <- 539
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 0.2196594
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 10.65789 11.09721

R/: para un nivel de confianza del 95%, la media poblacional de la variable de escolaridad (ESC) de jóvenes en Cali se encuentra entre los intervalos de 10.65789 y 11.09721.

  1. Calcule la media, la desviación estándar y el tamaño de la muestra para la variable INGLABO, que contiene los ingresos laborales de aquellas personas encuestadas que reportan tener un trabajo. Usando esta información, estime un intervalo de confianza sobre la media poblacional de la variable INGLABO con un nivel de confianza de 95%. Interprete adecuadamente el intervalo, asegúrandose de mencionar cuál es la población en este caso, y señalando el límite inferior y superior del intervalo.
mean(geih_jovenes_cali$INGLABO, na.rm = TRUE)
## [1] 1003932
sd(geih_jovenes_cali$INGLABO, na.rm = TRUE)
## [1] 919533.4
length(geih_jovenes_cali$INGLABO)
## [1] 539

Intervalo de confianza al 95%

x_barra <- 1003932
s <- 919533.4
n <- 539
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 77803.54
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1]  926128.5 1081735.5

R/: para un nivel de confianza al 95%, la media poblacional, en este caso la variable de ingreso laboral de las personas encuestadas que reportan tener un trabajo en Cali se encuentra entre 926128.5 y 1081735.5

  1. Calcule la proporción de personas que asisten a la escuela. Estas personas estan identificadas en la variable P6170 que tiene dos categorías: 1, si la persona si asiste la escuela y 2 si la persona no asiste a la escuela. Puede usar la función table para estos efectos. Usando esta información, estime un intervalo de confianza sobre la proporción poblacional de personas que asisten a la escuela con un nivel de confianza de 95%. Interprete adecuadamente el intervalo, asegúrandose de mencionar cuál es la población en este caso, y señalando el límite inferior y superior del intervalo.
mean(geih_jovenes_cali$P6170)
## [1] 1.660482
sd(geih_jovenes_cali$P6170)
## [1] 0.4739855
length(geih_jovenes_cali$P6170)
## [1] 539

Proporción de personas que asisten a la escuela en la ciudad de Cali

table(geih_jovenes_cali$P6170)
## 
##   1   2 
## 183 356
Estudia <- 183
n <- 356

p_barra <- Estudia/n 
p_barra
## [1] 0.5140449
ee <- sqrt(p_barra*(1-p_barra)/n)
ee
## [1] 0.02648949

se puede ver que las personas que estudian es de una proporción del 51,4% en la ciudad de Cali.

Intervalo de confianza al 95%

alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)

ME <- z*ee
ME
## [1] 0.05191845
lb <- p_barra - ME
la <- p_barra + ME
intervalo  <- c(lb,la)
intervalo
## [1] 0.4621265 0.5659634

R/: para un nivel de confianza del 95% la proporcion poblacional de personas identificadas como asistentes a la escuela en la ciudad de Cali, se encuentra entre 0.4621265 y 0.5659634

  1. Partiendo de la base geih_jovenes, cree otra base que solamente contenga a las personas de Bogotá (identificada con el número 11 en la variable AREA). Usando esta base de datos:
geih_jovenes_bogota <- geih_jovenes %>% filter(AREA == "11")
  1. Calcule la media, la desviación estándar y el tamaño de la muestra para las variables ESC e INGLABO usando esta base de datos. Usando esta información y la información estimada en las preguntas 5.a y 5.b para la ciudad de Cali, realice una prueba de hipótesis sobre la diferencia en la media de cada una de esas variables entre ambas ciudades. La hipótesis nula es que no hay diferencia en la media de estas variables entre ambas ciudades. Use un nivel de confianza de 95%. Con base en su estimación, ¿es posible rechazar esa hipótesis nula?

Jóvenes que estudian en Bogotá

mean(geih_jovenes_bogota$ESC)
## [1] 11.61516
sd(geih_jovenes_bogota$ESC)
## [1] 2.955354
length(geih_jovenes_bogota$ESC)
## [1] 673

intervalo de confianza del 95% para Bogotá

x_barra <- 11.61516
s <- 2.955354
n <- 673
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 0.223683
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 11.39148 11.83884

R/: para un nivel de confianza del 95%, la media poblacional de jóvenes de Bogotá que estudian se encuentra entre 11.39148 y 11.83884

Ingresos laborales para personas en Bogotá

mean(geih_jovenes_bogota$INGLABO, na.rm = TRUE)
## [1] 1105737
sd(geih_jovenes_bogota$INGLABO, na.rm = TRUE)
## [1] 819688.5
length(geih_jovenes_bogota$INGLABO)
## [1] 673

intervalo de confianza del 95% para Bogotá

x_barra <- 1105737
s <- 819688.5
n <- 673
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 62040.07
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 1043697 1167777

R/: para un nivel de confianza del 95%, la media poblacional del ingreso laboral para peronas en Bogotá se encuentra entre 1043697 1167777

Prueba de hipótesis sobre la diferencia en la media de cada una de las variables de Cali y Bogotá

##Escolaridad

x_barra_cali <- 10.87755
x_barra_bogota <- 11.61516
d_barra <- x_barra_bogota - x_barra_cali
d_barra
## [1] 0.73761
s1 <- 2.596079
x_barra_cali <- 10.87755
n1 <- 539

s2 <- 2.955354
x_barra_bogota <- 11.61516
n2 <- 673
alpha <- 0.05
gl <- function(s1, n1,s2, n2){
  ((s1^2/n1 + s2^2/n2)^2)/
  ((1/(n1-1))*(s1^2/n1)^2+ (1/(n2-1))*(s2^2/n2)^2)
  }
grados <- gl(s1 = s1, n1 = n1, s2= s2, n2=n2)
ee <- sqrt((s1^2/n1) + (s2^2/n2))
alpha <- 0.05
t <- qt(alpha/2, df = grados, lower.tail = FALSE)

me <- t*ee
me
## [1] 0.3131856

intervalo de confianza

lb <- d_barra - me
la <- d_barra + me
intervalo <- c(lb, la)
intervalo
## [1] 0.4244244 1.0507956

R/: con un nivel de confianza del 95%, la diferencia en la media poblacional de escolaridad de estos dos grupos se va a encontrar entre 0.4244244 y 1.0507956

se procede a hacer la prueba de hipótesis en donde la hipótesis nula es que no hay diferencia en la media de las presentes variables, referentes a la escolaridad (ESC).

\[H_0: \mu \ = 0\] \[H_a: \mu ≠ 0\]

h_0 <- 0
t <- (d_barra - h_0)/ee
t
## [1] 4.620739
alpha <- 0.05
valor_p <- pt(t, df = grados, lower.tail =FALSE)* 2
valor_p
## [1] 4.236709e-06

teniendo en cuenta el nivel de significancia 0.05, la hipótesis nula se puede rechazar ya que el valor_p es menor al primero.

Ingreso Laboral

x_barra_cali <- 1003932
x_barra_bogota <- 1105737
d_barra <- x_barra_bogota - x_barra_cali
d_barra
## [1] 101805
s1 <- 919533.4
x_barra_cali <- 1003932
n1 <- 539

s2 <- 819688.5
x_barra_bogota <- 1105737
n2 <- 673
alpha <- 0.05
gl <- function(s1, n1,s2, n2){
  ((s1^2/n1 + s2^2/n2)^2)/
  ((1/(n1-1))*(s1^2/n1)^2+ (1/(n2-1))*(s2^2/n2)^2)
  }
grados <- gl(s1 = s1, n1 = n1, s2= s2, n2=n2)
ee <- sqrt((s1^2/n1) + (s2^2/n2))
alpha <- 0.05
t <- qt(alpha/2, df = grados, lower.tail = FALSE)

me <- t*ee
me
## [1] 99414.7

intervalo de confianza

lb <- d_barra - me
la <- d_barra + me
intervalo <- c(lb, la)
intervalo
## [1]   2390.303 201219.697

R/: con un nivel de confianza del 95%, la media poblacional de ingresos laborales de personas que afirman trabajar se encuentra entre 2390.303 201219.697

se procede a hacer la prueba de hipótesis en donde la hipótesis nula es que no hay diferencia en la media de las presentes variables, referentes al ingreso laboral (INGLABO).

\[H_0: \mu \ = 0\] \[H_a: \mu ≠ 0\]

h_0 <- 0
t <- (d_barra - h_0)/ee
t
## [1] 2.009324
alpha <- 0.05
valor_p <- pt(t, df = grados, lower.tail =FALSE)* 2
valor_p
## [1] 0.04474937

la hipótesis nula se puede rechazar ya que el valor p es menor que el valor del nivel de significancia, es decir que si hay diferencia entre las medias de las variables de ingreso laboral.

  1. Calcule la proporción de personas que asisten a la escuela en Bogotá. Usando esta información y la información estimada en las preguntas 5.c para la ciudad de Cali, realice una prueba de hipótesis sobre la diferencia en la proporción de personas que asisten a la escuela entre ambas ciudades. La hipótesis nula es que no hay diferencia en la proporción de estas variables entre ambas ciudades. Use un nivel de confianza de 95%. Con base en su estimación, ¿es posible rechazar esa hipótesis nula?
table(geih_jovenes_bogota$P6170)
## 
##   1   2 
## 268 405
Estudia <- 268
n <- 405

p_barra <- Estudia/n 
p_barra
## [1] 0.6617284
ee <- sqrt(p_barra*(1-p_barra)/n)
ee
## [1] 0.02350959

se puede evidenciar que la proporción de personas que estudian, según la muestra de bogotá, es de 66,17%

intervalo de confianza

alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)

ME <- z*ee
ME
## [1] 0.04607796
lb <- p_barra - ME
la <- p_barra + ME
intervalo  <- c(lb,la)
intervalo
## [1] 0.6156504 0.7078064

R/: para un nivel de confianza del 95%, la proporcion poblacional de personas que estudian se encuentra entre 0.6156504 0.7078064

##diferencia de la proporcion de personas que asisten a la escuela en Cali y Bogotá

p_barra_cali <- 0.5140449
p_barra_bogota <-  0.6617284
d_barra <- p_barra_bogota - p_barra_cali
d_barra
## [1] 0.1476835

R/: la proporcion de la diferencia de personas que asisten a la escuela entre ambas ciudades de de 147%.

intervalo de confianza y prueba de hipótesis

\[H_0: \ d_barra \ = 0\] \[H_a: \ d_barra ≠ 0\]

alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)

ME <- z*ee
ME
## [1] 0.04607796
lb <- d_barra - ME
la <- d_barra + ME
intervalo <- c(lb,la)
intervalo 
## [1] 0.1016055 0.1937615
h_0 <- 0
t <- (d_barra - h_0)/ee
t
## [1] 6.281839
alpha <- 0.05
valor_p <- pt(t, df = grados, lower.tail =FALSE)* 2
valor_p
## [1] 4.829677e-10

R/: se puede rechazar la hipótesis nula ya que el valor p es menor al nivel de significancia

  1. [Esta pregunta vale el 30% del taller] En mínimo tres párrafos, discuta los resultados obtenidos en las preguntas 5 a 7, de cara a la situación social y política reciente en todo el país, y en particular en la ciudad de Cali. ¿Los resultados obtenidos explican en algo la situación ocurrida en esa ciudad?. Asegúrese de referirse de manera extendida a los estimaciones realizadas en los puntos anteriores en su argumentación.

R/: el presente estudio ha permitido analizar a la luz de tres ejes importantes como la escolaridad, los ingresos laborales y la proporción se personas que se encuentran estudiando o no. Lo anterior en un rango de edades de 14 a 28 años, de las cidudades de Cali y Bogotá.

En primera medida, se analizará la variable ESC, referente a los años de escolaridad de las personas. Se puede ver que para Cali la media es de 10,8 y que para Bogotá es de 11,61. Cuando se procede a realizar la diferencia entre las medias que es de 0.73761 y, teniendo en cuenta que en el presente caso se puede rechazar la hipótesis nula, que es cuando no hay diferencia entre las medias, se puede ver que si y que la media de escolaridad en Bogotá es mayor. Por otro lado, en términos de ingreso laboral para las personas que aceptaron tener un trabajo, en Bogotá es de 1105737 y para Cali 1003932 se puede ver que las medias de ingreso laboral no difieren en mayor cantidad; sin embargo, el de la ciudad de Cali es menor. Una variable que permite entender de manera más clara la situacion del país, específicamente en la ciudad de Cali y Bogota´es la proprocion de personas que asisten a la escuela para Bogotá es de 66,17%, mientras que para Cali es de 51,4% la diferencia es de casi 10 puntos porcentuales, donde en Bogotá la proporcion es mayor, si compara con la proporcion en general de jóvenes a nivel nacional 66,37% no difieren mucho; sin embargo, esta proprocion es bastete preocupante ya que, a pesar de que es más del 50%, en términos de educacion, la proporcion debería ser sino 100%, cerca de este número. Además, del análisis anterior, vale la pena resaltar que estos datos son del mes de febrero de 2021 que, a esa fecha ya habían afectaciones a nivel económico y social a raíz de la pandemia y estas cifras, si se analizan ahora pueden diferentes en términos de personas que asisten a la escuela, una proporcion menor.

Cuando se realiza la prueba de hipótesis de la diferencia de las proporciones se ve que se tenía como hipótesis nula que no había diferencia entre las medias de personas que asisten a la escuela, entre Bogotá y Cali, pero este análisis permite descartar esta hipótesis para ver que hay diferencia entre estas dos cuidades, donde la proporcion de Cali es menor y que es de los 356 encuestados, solo 183 están estudiando.