La coyuntura ha sacado a la luz, distintos problemas estructurales a nivel social, económico y político en Colombia. La pandemia del COVID - 19, permitió evidenciar los altos indices de pobraza, falta de educación y desempleo. En ese sentido, la presente materia de métodos cuantitativos ha brindado una serie de herramientas para hacer análisis que pueden ser útiles a la hora de entender la coyuntura. A raíz de la presente crisis económica, social y política las protestas se han dado en diferentes ciudades de lpaís; sin embargo, en este caso se va a llevar a cabo el análisis del la ciudad de Cali y Bogotá, esto desde 3 ejes de estudio, como la escolaridad, los ingresos laborales y la proporción de jóvenes que estudian.
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.0.5
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.3 v purrr 0.3.4
## v tibble 3.1.1 v dplyr 1.0.6
## v tidyr 1.1.3 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.1
## Warning: package 'ggplot2' was built under R version 4.0.4
## Warning: package 'tibble' was built under R version 4.0.5
## Warning: package 'tidyr' was built under R version 4.0.5
## Warning: package 'dplyr' was built under R version 4.0.5
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
geih_feb_21 <- read_delim("geih_feb_21.csv", delim = ";")
##
## -- Column specification --------------------------------------------------------
## cols(
## DIRECTORIO = col_double(),
## SECUENCIA_P = col_double(),
## ORDEN = col_double(),
## P6020 = col_double(),
## P6040 = col_double(),
## P3147S2 = col_double(),
## P3246 = col_double(),
## P6170 = col_double(),
## ESC = col_double(),
## fex_c_2011 = col_number(),
## FT = col_double(),
## OCI = col_double(),
## INGLABO = col_double(),
## DSI = col_double(),
## INI = col_double(),
## AREA = col_character(),
## DPTO = col_character()
## )
head(geih_feb_21)
glimpse(geih_feb_21)
## Rows: 28,962
## Columns: 17
## $ DIRECTORIO <dbl> 5367062, 5367063, 5367063, 5367063, 5367063, 5367064, 5367~
## $ SECUENCIA_P <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1~
## $ ORDEN <dbl> 1, 1, 2, 3, 4, 1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 1, 1, 2, 3~
## $ P6020 <dbl> 2, 2, 1, 2, 1, 2, 2, 2, 1, 1, 1, 2, 2, 1, 2, 1, 2, 2, 1, 1~
## $ P6040 <dbl> 50, 52, 33, 29, 6, 52, 17, 20, 4, 5, 24, 17, 13, 30, 30, 0~
## $ P3147S2 <dbl> NA, NA, 1, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
## $ P3246 <dbl> 2, 2, NA, NA, NA, 1, NA, NA, NA, NA, NA, NA, NA, 2, NA, NA~
## $ P6170 <dbl> 2, 2, 2, 2, 1, 2, 1, 1, 1, 1, 2, 2, 1, 2, 2, NA, 2, 2, 1, ~
## $ ESC <dbl> 2, 8, 11, 11, 0, 0, 7, 7, 0, 0, 11, 11, 7, 14, 16, NA, 11,~
## $ fex_c_2011 <dbl> 1.062935e+16, 1.157189e+16, 1.157189e+16, 1.157189e+16, 1.~
## $ FT <dbl> 1, 1, 1, 1, NA, 1, 1, 1, NA, NA, 1, 1, 1, 1, 1, NA, 1, 1, ~
## $ OCI <dbl> NA, NA, NA, NA, NA, 1, NA, NA, NA, NA, 1, NA, NA, 1, 1, NA~
## $ INGLABO <dbl> NA, NA, NA, NA, NA, 140000, NA, NA, NA, NA, 1250000, NA, N~
## $ DSI <dbl> NA, NA, 1, 1, NA, NA, NA, 1, NA, NA, NA, NA, NA, NA, NA, N~
## $ INI <dbl> 1, 1, NA, NA, NA, NA, 1, NA, NA, NA, NA, 1, 1, NA, NA, NA,~
## $ AREA <chr> "05", "05", "05", "05", "05", "05", "05", "05", "05", "05"~
## $ DPTO <chr> "05", "05", "05", "05", "05", "05", "05", "05", "05", "05"~
geih_jovenes <- geih_feb_21 %>% filter (between(P6040, 14, 28))
geih_jovenes_cali <- geih_jovenes %>% filter(AREA == "76")
mean(geih_jovenes$ESC)
## [1] 11.04725
sd(geih_jovenes$ESC)
## [1] 2.892741
length(geih_jovenes$ESC)
## [1] 7111
x_barra <- 11.04725
s <- 2.892741
n <- 7111
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 0.06724597
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 10.9800 11.1145
R/: para un nivel de confianza del 95%, la media poblacional de la variable ESC que hace referencia a los años de escolaridad de las personas, se encuentra entre 10.9800 y 11.1145
mean(geih_jovenes$INGLABO, na.rm = TRUE)
## [1] 946990
sd(geih_jovenes$INGLABO, na.rm = TRUE)
## [1] 731024.6
length(geih_jovenes$INGLABO)
## [1] 7111
x_barra <- 946990
s <- 731024.6
n <- 7111
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 16993.73
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 929996.3 963983.7
R/: para un nivel de confianza del 95%, la media poblacional de personas encuestadas que reportan tener trabajo se encuentra entre 929996.3 y 963983.7
table(geih_jovenes$P6170)
##
## 1 2
## 2837 4274
Estudia <- 2837
n <- 4274
p_barra <- Estudia/n
p_barra
## [1] 0.663781
ee <- sqrt(p_barra*(1-p_barra)/n)
ee
## [1] 0.007226138
se puede ver que la proporción de personas que estudian es de 66,37%
alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)
ME <- z*ee
ME
## [1] 0.01416297
lb <- p_barra - ME
la <- p_barra + ME
intervalo <- c(lb,la)
intervalo
## [1] 0.649618 0.677944
R/: para un nivel de confianza del 95% la prorción poblacional de personas que estudian, se escuentra entre 0.649618 0.677944
mean(geih_jovenes_cali$ESC)
## [1] 10.87755
sd(geih_jovenes_cali$ESC)
## [1] 2.596079
length(geih_jovenes_cali$ESC)
## [1] 539
x_barra <- 10.87755
s <- 2.596079
n <- 539
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 0.2196594
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 10.65789 11.09721
R/: para un nivel de confianza del 95%, la media poblacional de la variable de escolaridad (ESC) de jóvenes en Cali se encuentra entre los intervalos de 10.65789 y 11.09721.
mean(geih_jovenes_cali$INGLABO, na.rm = TRUE)
## [1] 1003932
sd(geih_jovenes_cali$INGLABO, na.rm = TRUE)
## [1] 919533.4
length(geih_jovenes_cali$INGLABO)
## [1] 539
x_barra <- 1003932
s <- 919533.4
n <- 539
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 77803.54
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 926128.5 1081735.5
R/: para un nivel de confianza al 95%, la media poblacional, en este caso la variable de ingreso laboral de las personas encuestadas que reportan tener un trabajo en Cali se encuentra entre 926128.5 y 1081735.5
mean(geih_jovenes_cali$P6170)
## [1] 1.660482
sd(geih_jovenes_cali$P6170)
## [1] 0.4739855
length(geih_jovenes_cali$P6170)
## [1] 539
table(geih_jovenes_cali$P6170)
##
## 1 2
## 183 356
Estudia <- 183
n <- 356
p_barra <- Estudia/n
p_barra
## [1] 0.5140449
ee <- sqrt(p_barra*(1-p_barra)/n)
ee
## [1] 0.02648949
se puede ver que las personas que estudian es de una proporción del 51,4% en la ciudad de Cali.
alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)
ME <- z*ee
ME
## [1] 0.05191845
lb <- p_barra - ME
la <- p_barra + ME
intervalo <- c(lb,la)
intervalo
## [1] 0.4621265 0.5659634
R/: para un nivel de confianza del 95% la proporcion poblacional de personas identificadas como asistentes a la escuela en la ciudad de Cali, se encuentra entre 0.4621265 y 0.5659634
geih_jovenes_bogota <- geih_jovenes %>% filter(AREA == "11")
mean(geih_jovenes_bogota$ESC)
## [1] 11.61516
sd(geih_jovenes_bogota$ESC)
## [1] 2.955354
length(geih_jovenes_bogota$ESC)
## [1] 673
x_barra <- 11.61516
s <- 2.955354
n <- 673
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 0.223683
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 11.39148 11.83884
R/: para un nivel de confianza del 95%, la media poblacional de jóvenes de Bogotá que estudian se encuentra entre 11.39148 y 11.83884
mean(geih_jovenes_bogota$INGLABO, na.rm = TRUE)
## [1] 1105737
sd(geih_jovenes_bogota$INGLABO, na.rm = TRUE)
## [1] 819688.5
length(geih_jovenes_bogota$INGLABO)
## [1] 673
x_barra <- 1105737
s <- 819688.5
n <- 673
ee <- s/sqrt(n)
alpha <- 1-0.95
t_0.05 <- qt(alpha/2, df = n-1, lower.tail = FALSE)
ME <- t_0.05*ee
ME
## [1] 62040.07
lb_95 <- x_barra-ME
la_95 <- x_barra+ME
intervalo_95 <- c(lb_95, la_95)
intervalo_95
## [1] 1043697 1167777
R/: para un nivel de confianza del 95%, la media poblacional del ingreso laboral para peronas en Bogotá se encuentra entre 1043697 1167777
##Escolaridad
x_barra_cali <- 10.87755
x_barra_bogota <- 11.61516
d_barra <- x_barra_bogota - x_barra_cali
d_barra
## [1] 0.73761
s1 <- 2.596079
x_barra_cali <- 10.87755
n1 <- 539
s2 <- 2.955354
x_barra_bogota <- 11.61516
n2 <- 673
alpha <- 0.05
gl <- function(s1, n1,s2, n2){
((s1^2/n1 + s2^2/n2)^2)/
((1/(n1-1))*(s1^2/n1)^2+ (1/(n2-1))*(s2^2/n2)^2)
}
grados <- gl(s1 = s1, n1 = n1, s2= s2, n2=n2)
ee <- sqrt((s1^2/n1) + (s2^2/n2))
alpha <- 0.05
t <- qt(alpha/2, df = grados, lower.tail = FALSE)
me <- t*ee
me
## [1] 0.3131856
lb <- d_barra - me
la <- d_barra + me
intervalo <- c(lb, la)
intervalo
## [1] 0.4244244 1.0507956
R/: con un nivel de confianza del 95%, la diferencia en la media poblacional de escolaridad de estos dos grupos se va a encontrar entre 0.4244244 y 1.0507956
se procede a hacer la prueba de hipótesis en donde la hipótesis nula es que no hay diferencia en la media de las presentes variables, referentes a la escolaridad (ESC).
\[H_0: \mu \ = 0\] \[H_a: \mu ≠ 0\]
h_0 <- 0
t <- (d_barra - h_0)/ee
t
## [1] 4.620739
alpha <- 0.05
valor_p <- pt(t, df = grados, lower.tail =FALSE)* 2
valor_p
## [1] 4.236709e-06
teniendo en cuenta el nivel de significancia 0.05, la hipótesis nula se puede rechazar ya que el valor_p es menor al primero.
x_barra_cali <- 1003932
x_barra_bogota <- 1105737
d_barra <- x_barra_bogota - x_barra_cali
d_barra
## [1] 101805
s1 <- 919533.4
x_barra_cali <- 1003932
n1 <- 539
s2 <- 819688.5
x_barra_bogota <- 1105737
n2 <- 673
alpha <- 0.05
gl <- function(s1, n1,s2, n2){
((s1^2/n1 + s2^2/n2)^2)/
((1/(n1-1))*(s1^2/n1)^2+ (1/(n2-1))*(s2^2/n2)^2)
}
grados <- gl(s1 = s1, n1 = n1, s2= s2, n2=n2)
ee <- sqrt((s1^2/n1) + (s2^2/n2))
alpha <- 0.05
t <- qt(alpha/2, df = grados, lower.tail = FALSE)
me <- t*ee
me
## [1] 99414.7
lb <- d_barra - me
la <- d_barra + me
intervalo <- c(lb, la)
intervalo
## [1] 2390.303 201219.697
R/: con un nivel de confianza del 95%, la media poblacional de ingresos laborales de personas que afirman trabajar se encuentra entre 2390.303 201219.697
se procede a hacer la prueba de hipótesis en donde la hipótesis nula es que no hay diferencia en la media de las presentes variables, referentes al ingreso laboral (INGLABO).
\[H_0: \mu \ = 0\] \[H_a: \mu ≠ 0\]
h_0 <- 0
t <- (d_barra - h_0)/ee
t
## [1] 2.009324
alpha <- 0.05
valor_p <- pt(t, df = grados, lower.tail =FALSE)* 2
valor_p
## [1] 0.04474937
la hipótesis nula se puede rechazar ya que el valor p es menor que el valor del nivel de significancia, es decir que si hay diferencia entre las medias de las variables de ingreso laboral.
table(geih_jovenes_bogota$P6170)
##
## 1 2
## 268 405
Estudia <- 268
n <- 405
p_barra <- Estudia/n
p_barra
## [1] 0.6617284
ee <- sqrt(p_barra*(1-p_barra)/n)
ee
## [1] 0.02350959
se puede evidenciar que la proporción de personas que estudian, según la muestra de bogotá, es de 66,17%
alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)
ME <- z*ee
ME
## [1] 0.04607796
lb <- p_barra - ME
la <- p_barra + ME
intervalo <- c(lb,la)
intervalo
## [1] 0.6156504 0.7078064
R/: para un nivel de confianza del 95%, la proporcion poblacional de personas que estudian se encuentra entre 0.6156504 0.7078064
##diferencia de la proporcion de personas que asisten a la escuela en Cali y Bogotá
p_barra_cali <- 0.5140449
p_barra_bogota <- 0.6617284
d_barra <- p_barra_bogota - p_barra_cali
d_barra
## [1] 0.1476835
R/: la proporcion de la diferencia de personas que asisten a la escuela entre ambas ciudades de de 147%.
\[H_0: \ d_barra \ = 0\] \[H_a: \ d_barra ≠ 0\]
alpha <- 1-0.95
z <- qnorm(alpha/2, lower.tail = FALSE)
ME <- z*ee
ME
## [1] 0.04607796
lb <- d_barra - ME
la <- d_barra + ME
intervalo <- c(lb,la)
intervalo
## [1] 0.1016055 0.1937615
h_0 <- 0
t <- (d_barra - h_0)/ee
t
## [1] 6.281839
alpha <- 0.05
valor_p <- pt(t, df = grados, lower.tail =FALSE)* 2
valor_p
## [1] 4.829677e-10
R/: se puede rechazar la hipótesis nula ya que el valor p es menor al nivel de significancia
R/: el presente estudio ha permitido analizar a la luz de tres ejes importantes como la escolaridad, los ingresos laborales y la proporción se personas que se encuentran estudiando o no. Lo anterior en un rango de edades de 14 a 28 años, de las cidudades de Cali y Bogotá.
En primera medida, se analizará la variable ESC, referente a los años de escolaridad de las personas. Se puede ver que para Cali la media es de 10,8 y que para Bogotá es de 11,61. Cuando se procede a realizar la diferencia entre las medias que es de 0.73761 y, teniendo en cuenta que en el presente caso se puede rechazar la hipótesis nula, que es cuando no hay diferencia entre las medias, se puede ver que si y que la media de escolaridad en Bogotá es mayor. Por otro lado, en términos de ingreso laboral para las personas que aceptaron tener un trabajo, en Bogotá es de 1105737 y para Cali 1003932 se puede ver que las medias de ingreso laboral no difieren en mayor cantidad; sin embargo, el de la ciudad de Cali es menor. Una variable que permite entender de manera más clara la situacion del país, específicamente en la ciudad de Cali y Bogota´es la proprocion de personas que asisten a la escuela para Bogotá es de 66,17%, mientras que para Cali es de 51,4% la diferencia es de casi 10 puntos porcentuales, donde en Bogotá la proporcion es mayor, si compara con la proporcion en general de jóvenes a nivel nacional 66,37% no difieren mucho; sin embargo, esta proprocion es bastete preocupante ya que, a pesar de que es más del 50%, en términos de educacion, la proporcion debería ser sino 100%, cerca de este número. Además, del análisis anterior, vale la pena resaltar que estos datos son del mes de febrero de 2021 que, a esa fecha ya habían afectaciones a nivel económico y social a raíz de la pandemia y estas cifras, si se analizan ahora pueden diferentes en términos de personas que asisten a la escuela, una proporcion menor.
Cuando se realiza la prueba de hipótesis de la diferencia de las proporciones se ve que se tenía como hipótesis nula que no había diferencia entre las medias de personas que asisten a la escuela, entre Bogotá y Cali, pero este análisis permite descartar esta hipótesis para ver que hay diferencia entre estas dos cuidades, donde la proporcion de Cali es menor y que es de los 356 encuestados, solo 183 están estudiando.