En este estudio se busca conocer el desempeño académico en las pruebas saber ICFES para el segundo semestre del año 2020, en especial en los apartados de lectura crítica y matemáticas. Lo anterior con el fin de realizar comparaciones entre los puntajes promedio del segundo semestre del año 2019 con los puntajes promedio estimados del segundo semestre del 2020-II. Por lo tanto, se realizaran estimaciones del puntaje promedio en matemáticas y lectura crítica, además se estimarán los porcentajes de estudiantes que tienen internet en sus hogares y aquellos que pertenecen al estrato socieconómico 1.
Todas las estimaciones se realizarán por medio del muestreo aleatorio estratificado simple con afijaciones de muestra de tipo Optima de Neyman.
# Cargar paquetes necesarios para filtrar la información, hacer el muestreo
# y crear los gráficos.
library(ggplot2)
library(dplyr)
library(survey)
library(sampling)
# Lectura de la base de datos oficial de la prueba ICFES Saber 11 2020-II.
datos <- read.csv(file.choose())
# Creación de base de datos con las variables objetivo.
base_2 <- datos %>%
select(ESTU_GENERO,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,
COLE_AREA_UBICACION,ESTU_DEPTO_PRESENTACION,
PUNT_LECTURA_CRITICA,PUNT_MATEMATICAS)
# Base de datos final quitando los valores N.A.
base_2[base_2 == ""] = NA
base_2[base_2 == "Sin Estrato"] = NA
base_2[base_2 == "BOGOTÃ\u0081"] = "CUNDINAMARCA"
base_2[base_2 == "NARIÑO"] = "NARIÑO"
base_3 <- na.omit(base_2)
# Cambio de los tipos de algunas variables.
base_3$ESTU_GENERO <- as.factor(base_3$ESTU_GENERO)
base_3$FAMI_ESTRATOVIVIENDA <- as.factor(base_3$FAMI_ESTRATOVIVIENDA)
base_3$FAMI_TIENEINTERNET <- as.factor(base_3$FAMI_TIENEINTERNET)
base_3$COLE_AREA_UBICACION <- as.factor(base_3$COLE_AREA_UBICACION)
base_3$ESTU_DEPTO_PRESENTACION <- as.factor(base_3$ESTU_DEPTO_PRESENTACION)
Para realizar el muestreo, se utilizará la técnica del muestreo aleatorio estratificado, ya que se pretende estratificar a los estudiantes que presentaron la prueba Saber 11 en 2020-II por medio de los 32 departamentos que conforman a Colombia.
– Definición de datos importantes:
Total de estudiantes que presentaron la prueba Saber ICFES en el 2020-II: \(N = 470738\).
Total de estudiantes que presentaron la prueba Saber ICFES en el 2020-II por cada departamento:
# Total de estudiantes por departamento.
totales_depar <- as.data.frame(table(base_3$ESTU_DEPTO_PRESENTACION))
| AMAZONAS | ANTIOQUIA | ARAUCA | ATLANTICO | BOLIVAR | BOYACA | CALDAS | CAQUETA |
|---|---|---|---|---|---|---|---|
| 495 | 67154 | 2747 | 27321 | 20439 | 14731 | 9845 | 3554 |
| CASANARE | CAUCA | CESAR | CHOCO | CORDOBA | CUNDINAMARCA | GUAINIA | GUAVIARE |
|---|---|---|---|---|---|---|---|
| 5200 | 10631 | 11589 | 3457 | 17629 | 106701 | 193 | 784 |
| HUILA | LA GUAJIRA | MAGDALENA | META | NARIÑO | NORTE SANTANDER | PUTUMAYO | QUINDIO |
|---|---|---|---|---|---|---|---|
| 11539 | 6107 | 13342 | 10896 | 13953 | 14098 | 3110 | 5484 |
| RISARALDA | SAN ANDRES | SANTANDER | SUCRE | TOLIMA | VALLE | VAUPES | VICHADA |
|---|---|---|---|---|---|---|---|
| 8747 | 571 | 22729 | 9117 | 14735 | 33246 | 216 | 378 |
– Determinación de la muestra para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 en la prueba de matemáticas.
Para esto, se utilizará la afijación óptima de Neyman, ya que se conocen las varianzas dentro de cada estrato, pero no se conocen los costos y se suponen que son iguales. Este tipo de afijación, para encontrar el tamaño de muestra (por M.A.S) en cada departamento, se define con la formula siguiente:
\[ w_i = \frac{N_i*\sigma_i}{\sum_{j=1}^{32}N_j*\sigma_j}\]
# Varianzas poblacionales por departamento para el puntaje promedio en matemáticas.
varianzas_depar_mate <- base_3 %>% group_by(ESTU_DEPTO_PRESENTACION) %>%
summarise(var_i = var(PUNT_MATEMATICAS))
# Afijaciones, de tipo Neyman, para cada departamento.
Ni <- c(totales_depar$Freq)
var_i_mate <- c(varianzas_depar_mate$var_i)
denomi_mate <- sum(Ni*sqrt(var_i_mate))
numera_mate <- c(Ni*sqrt(var_i_mate))
wi_mat <- numera_mate/denomi_mate
Ahora, para encontrar a n se usa la formula siguiente:
Se propone un límite para el error de estimación \(B = 0.1\) puntos sobre el puntaje promedio obtenido en matemáticas, con una confianza del 95%.
\[D = \frac{0.1^2}{1.959964^2}\]
\[n = \frac{\sum_{i=1}^{32}\frac{N_i^2*\sigma_i^2}{wi}}{N^2*(\frac{B^2}{z^2_{\alpha/2}})+ \sum_{i=1}^{32}N_i*\sigma^2_{i}}\]
# Estimación del tamaño de muestra.
D_1= (0.1^2)/(1.959964^2)
arriba_mate = sum((Ni^2*var_i_mate)/wi_mat)
abajo_mate = ((470738^2)* D_1) + sum(Ni*var_i_mate)
n_1 <- arriba_mate/abajo_mate
n_1
## [1] 43856.45
Por tanto, la muestra estimada para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020, en la prueba de matemáticas, es igual a \(n = 43857\) estudiantes.
– Determinación de la muestra para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 en la prueba de lectura crítica.
Como se hizo en el punto anterior, se utilizará la afijación óptima de Neyman.
Además, se propone un límite para el error de estimación \(B = 0.1\) puntos sobre el puntaje promedio obtenido en lectura crítica con una confianza del 95%.
# Varianzas por departamento para el puntaje promedio en lectura crítica.
varianzas_depar_lecto <- base_3 %>% group_by(ESTU_DEPTO_PRESENTACION) %>%
summarise(var_i = var(PUNT_LECTURA_CRITICA))
# Afijaciones para cada departamento.
var_i_lecto <- c(varianzas_depar_lecto$var_i)
denomi_lecto <- sum(Ni*sqrt(var_i_lecto))
numera_lecto <- c(Ni*sqrt(var_i_lecto))
wi_lecto <- numera_lecto/denomi_lecto
# Estimación de la muestra.
arriba_lecto = sum((Ni^2*var_i_lecto)/wi_lecto)
abajo_lecto = ((470738^2)* D_1) + sum(Ni*var_i_lecto)
n_2 <- arriba_lecto/abajo_lecto
n_2
## [1] 34161.04
Por tanto, la muestra estimada para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre año 2020, en la prueba de lectura crítica es igual a \(n = 34162\) estudiantes.
– Determinación de la muestra para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que cuentan con servicio de internet en sus hogares.
En este caso se conocen las proporciones de estudiantes que tienen internet por cada departamento, esas proporciones son:
# Proporción de estudiantes que tienen internet por cada departamento.
props_internet <- as.data.frame(table(base_3$ESTU_DEPTO_PRESENTACION,
base_3$FAMI_TIENEINTERNET)/Ni)
| AMAZONAS | ANTIOQUIA | ARAUCA | ATLANTICO | BOLIVAR | BOYACA | CALDAS | CAQUETA |
|---|---|---|---|---|---|---|---|
| 0.232 | 0.764 | 0.51 | 0.678 | 0.551 | 0.62 | 0.701 | 0.601 |
| CASANARE | CAUCA | CESAR | CHOCO | CORDOBA | CUNDINAMARCA | GUAINIA | GUAVIARE |
|---|---|---|---|---|---|---|---|
| 0.61 | 0.54 | 0.59 | 0.45 | 0.43 | 0.89 | 0.332 | 0.504 |
| HUILA | LA GUAJIRA | MAGDALENA | META | NARIÑO | NORTE SANTANDER | PUTUMAYO | QUINDIO |
|---|---|---|---|---|---|---|---|
| 0.64 | 0.55 | 0.55 | 0.75 | 0.54 | 0.66 | 0.53 | 0.784 |
| RISARALDA | SAN ANDRES | SANTANDER | SUCRE | TOLIMA | VALLE | VAUPES | VICHADA |
|---|---|---|---|---|---|---|---|
| 0.80 | 0.45 | 0.74 | 0.47 | 0.66 | 0.80 | 0.15 | 0.29 |
# Varianzas por cada departamento.
p_i_internet <- c(props_internet$Freq[33:64])
var_i_internet <- c(p_i_internet*(1-p_i_internet))
Además, se supone un límite para el error de estimación de \(B = 0.01\), esto con una confianza del 95%.
Para hallar el tamaño de muestra se usa la siguiente fórmula:
\[D = \frac{0.01^2}{1.959964^2}\] \[n = \frac{\sum_{i=1}^{32}\frac{N_i^2*p_i*(1-p_i)}{wi}}{N^2*(\frac{B^2}{z^2_{\alpha/2}})+ \sum_{i=1}^{32}N_i*p_i*(1-pi)}\] Para las afijaciones en cada departamento, se propone la afijación óptima de Neyman, ya que se conocen las varianzas de las proporciones de los estudiantes con internet en cada departamento y los costos del muestreo se suponen iguales.
\[ w_i = \frac{N_i*\sqrt{p_i*(1-p_i)}}{\sum_{j=1}^{32}N_j*\sqrt{p_j*(1-p_j)}}\]
# Cálculo de las afijaciones.
denomi_internet <- sum(Ni*sqrt(var_i_internet))
numera_internet <- c(Ni*sqrt(var_i_internet))
wi_internet <- numera_internet/denomi_internet
# Cálculo del tamaño muestral.
D_2= (0.01^2)/(1.959964^2)
arriba_internet = sum((Ni^2*var_i_internet)/wi_internet)
abajo_internet = ((470738^2)* D_2) + sum(Ni*var_i_internet)
n_3 <- arriba_internet/abajo_internet
n_3
## [1] 6864.242
Por lo tanto, para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que cuentan con servicio de internet en sus hogares, se necesita una muestra estimada de \(n = 6865\), esto para tener un error de estimación \(B = 0.01\) y una confianza del 95%
– Determinación de la muestra para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que pertenecen al estrato socioeconómico 1.
En este caso se conocen las proporciones de estudiantes que pertenecen a cada estrato socioeconómico por departamento.
# Proporción de estudiantes que pertenecen a cada estrato socioeconómico.
props_estrato <- as.data.frame(table(base_3$ESTU_DEPTO_PRESENTACION,
base_3$FAMI_ESTRATOVIVIENDA)/Ni)
# Cálculo de varianzas.
p_i_estrato1 <- c(props_estrato$Freq[1:32])
var_i_estrato1 <- c(p_i_estrato1*(1-p_i_estrato1))
Además, se supone un limite para el error de estimación de \(B = 0.01\), esto con una confianza del 95%.
\[D = \frac{0.01^2}{1.959964^2}\] Para las afijaciones en cada departamento, se propone la afijación óptima de Neyman, ya que se conocen las varianzas de las proporciones de estudiantes que pertenecen al estrato 1 y los costos del muestreo se suponen iguales.
\[ w_i = \frac{N_i*\sqrt{p_i*(1-p_i)}}{\sum_{j=1}^{32}N_j*\sqrt{p_j*(1-p_j)}}\]
# Cálculo de las afijaciones.
denomi_estrato <- sum(Ni*sqrt(var_i_estrato1))
numera_estrato <- c(Ni*sqrt(var_i_estrato1))
wi_estrato <- numera_estrato/denomi_estrato
# Cálculo del tamaño muestral.
D_3= (0.01^2)/(1.959964^2)
arriba_estrato = sum((Ni^2*var_i_estrato1)/wi_estrato)
abajo_estrato = ((470738^2)* D_3) + sum(Ni*var_i_estrato1)
n_4 <- arriba_estrato/abajo_estrato
n_4
## [1] 7198.417
Por lo tanto, para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que pertenecen al estrato socioeconómico 1, se necesita una muestra estimada \(n = 7199\), esto para tener un error de estimación \(B = 0.01\) y una confianza del 95%
En la sección anterior se obtuvieron cuatro tamaños de muestras, a saber, \(n = 43857,34162,6865,7199\). De las cuales se escogerá la muestra más grande, es decir, \(n = 43857\), esto con el fin de asegurar los errores de estimación para las estimaciones de todos los parámetros.
# Datos ordenados por departamento alfabéticamente.
base_4 <- arrange(base_3,ESTU_DEPTO_PRESENTACION)
Posteriormente, se genera la muestra aleatoria estratificada realizando una muestra aleatoria simple en cada uno de los departamentos. Las afijaciones para cada departamento se realizaron con la afijación óptima de Neyman.
# Obtención de la muestra por M.A.E.S. con el paquete Sampling.
set.seed(123)
s <- sampling:::strata(base_4,c("ESTU_DEPTO_PRESENTACION"),
size=c(44,6500,244,2652,2056,1343,936,315,
476,975,1101,292,1679,9446,16,66,1118,566,1194,
977,1348,1364,282,531,799,55,2233,881,1336,
2984,18,30), method = "srswor")
# Base de datos con las 43857 observaciones de la muestra.
data_muestra <- getdata(base_4,s)
# Generación del diseño muestral.
diseñomuestral <- svydesign(id = ~1,
strata = ~ESTU_DEPTO_PRESENTACION,
data = data_muestra,
probs = ~Prob)
– Análisis descriptivo de la muestra obtenida con M.A.E.S.
En la anterior gráfica se observa que en la muestra los departamentos del Amazonas, Chocó, San Andrés y Vaupés se encuentran por debajo del puntaje promedio obtenido en Matemáticas en comparación con los demás departamentos, mientras que Boyacá, Cundinamarca y Santander están por encima del puntaje promedio en matemáticas. Además, se puede identificar que en la mayoría de departamentos hubo estudiantes que obtuvieron el puntaje máximo (100) en la prueba de matemáticas, como también hubo estudiantes(pocos) que obtuvieron 0 en la misma.
En los mismos departamentos mencionados en la gráfica anterior se observa que se encuentran por debajo del puntaje promedio obtenido en lectura crítica en comparación con los demás departamentos, y sobresalen Boyacá, Caldas, Cundinamarca y Santander, ya que están por encima del puntaje promedio en lectura crítica. También se puede identificar que en la mayoría de departamentos hubo estudiantes que obtuvieron el puntaje máximo (100) en la prueba de lectura crítica, como también hubo estudiantes (pocos) que obtuvieron 0 en la misma (en Antioquia).
En la gráfica se identifica que en los datos de la muestra predominan los estudiantes de estrato 1, 2 y 3, siendo el estrato 2 el que más sobresale y el estrato 6 el que menos lo hace, es decir, la mayoría de los estudiantes que presentaron la prueba pertenecen al estrato socieconómico 2.
– Conclusiones para la estimación del puntaje promedio obtenido en matemáticas y lectura crítica por parte de los estudiantes que presentaron las pruebas Saber 11 en el semestre dos del año 2020.
# Promedio poblacional estimado del puntaje obtenido en la prueba de matemáticas.
svymean(~PUNT_MATEMATICAS,diseñomuestral)
# Promedio poblacional estimado del puntaje obtenido en la prueba de lectura critica.
svymean(~PUNT_LECTURA_CRITICA,diseñomuestral)
# Promedio estimado del puntaje obtenido en la prueba de matemáticas por departamento.
svyby(~PUNT_MATEMATICAS,~ESTU_DEPTO_PRESENTACION, diseñomuestral, svymean)
## ESTU_DEPTO_PRESENTACION PUNT_MATEMATICAS se
## AMAZONAS AMAZONAS 45.27273 1.9073031
## ANTIOQUIA ANTIOQUIA 49.92908 0.1445658
## ARAUCA ARAUCA 50.15984 0.6727456
## ATLANTICO ATLANTICO 50.45626 0.2284092
## BOLIVAR BOLIVAR 47.98638 0.2684665
## BOYACA BOYACA 54.24795 0.2888118
## CALDAS CALDAS 50.89530 0.3829335
## CAQUETA CAQUETA 49.16825 0.5914335
## CASANARE CASANARE 51.90336 0.5172972
## CAUCA CAUCA 48.20615 0.3439415
## CESAR CESAR 50.19255 0.3467522
## CHOCO CHOCO 43.52740 0.6488594
## CORDOBA CORDOBA 48.71054 0.2785436
## CUNDINAMARCA CUNDINAMARCA 54.70072 0.1095853
## GUAINIA GUAINIA 46.87500 2.6439790
## GUAVIARE GUAVIARE 48.07576 1.0910337
## HUILA HUILA 51.76923 0.3449899
## LA GUAJIRA LA GUAJIRA 47.72261 0.4644781
## MAGDALENA MAGDALENA 46.43216 0.3068270
## META META 52.59468 0.3232635
## NARIÑO NARIÑO 51.86573 0.3207609
## NORTE SANTANDER NORTE SANTANDER 54.08065 0.3110467
## PUTUMAYO PUTUMAYO 50.53546 0.5897861
## QUINDIO QUINDIO 52.18456 0.4819815
## RISARALDA RISARALDA 51.80726 0.3971471
## SAN ANDRES SAN ANDRES 44.85455 1.5685070
## SANTANDER SANTANDER 55.44469 0.2487440
## SUCRE SUCRE 48.95573 0.3821440
## TOLIMA TOLIMA 49.61901 0.2943367
## VALLE VALLE 50.18499 0.1944245
## VAUPES VAUPES 41.05556 1.6870755
## VICHADA VICHADA 49.06667 1.6230618
# Promedio estimado del puntaje obtenido en la prueba de lectura crítica por departamento.
svyby(~PUNT_LECTURA_CRITICA,~ESTU_DEPTO_PRESENTACION, diseñomuestral, svymean)
## ESTU_DEPTO_PRESENTACION PUNT_LECTURA_CRITICA se
## AMAZONAS AMAZONAS 47.34091 1.2906982
## ANTIOQUIA ANTIOQUIA 52.00462 0.1272507
## ARAUCA ARAUCA 50.93852 0.5497891
## ATLANTICO ATLANTICO 51.45965 0.2069474
## BOLIVAR BOLIVAR 49.93337 0.2418358
## BOYACA BOYACA 53.84885 0.2623162
## CALDAS CALDAS 52.68697 0.3266142
## CAQUETA CAQUETA 50.45079 0.5189366
## CASANARE CASANARE 51.97479 0.4295771
## CAUCA CAUCA 49.53641 0.3208484
## CESAR CESAR 51.24886 0.3011932
## CHOCO CHOCO 46.17123 0.5939827
## CORDOBA CORDOBA 50.21084 0.2372282
## CUNDINAMARCA CUNDINAMARCA 55.05484 0.0943075
## GUAINIA GUAINIA 46.75000 2.4469369
## GUAVIARE GUAVIARE 48.63636 1.0953677
## HUILA HUILA 52.89714 0.2991562
## LA GUAJIRA LA GUAJIRA 48.89929 0.3844245
## MAGDALENA MAGDALENA 48.24539 0.2780638
## META META 52.99795 0.2974624
## NARIÑO NARIÑO 52.36573 0.2725055
## NORTE SANTANDER NORTE SANTANDER 54.14516 0.2651681
## PUTUMAYO PUTUMAYO 49.97872 0.5437600
## QUINDIO QUINDIO 53.09981 0.4275358
## RISARALDA RISARALDA 53.26909 0.3336402
## SAN ANDRES SAN ANDRES 49.25455 1.2566907
## SANTANDER SANTANDER 55.17555 0.2163365
## SUCRE SUCRE 50.36436 0.3341060
## TOLIMA TOLIMA 51.08009 0.2612668
## VALLE VALLE 52.06233 0.1736327
## VAUPES VAUPES 43.83333 2.4895205
## VICHADA VICHADA 49.20000 1.6927160
El promedio estimado para el puntaje obtenido en la prueba de matemáticas de los estudiantes que presentaron las pruebas ICFES en el segundo semestre del 2020 es 51.466 puntos. Esta estimación se hizo con un error de estimación 0.1045 puntos y un 95% de confianza. Además, el puntaje obtenido en la prueba de lectura crítica de los estudiantes que presentaron las pruebas ICFES en el segundo semestre del 2020 es 52.514 puntos. Esta estimación se hizo con un error de estimación 0.092 puntos y un 95% de confianza.
Se observa que el puntaje promedio estimado obtenido en la prueba de lectura crítica fue ligeramente mayor al puntaje promedio estimado en matemáticas. Además, en la tabla de los promedios estimados de los puntajes obtenidos en la prueba de matemáticas por departamento, puntualmente el departamento de Santander obtuvo el promedio estimado más alto (55.44 puntos). Por otra parte, el departamento que obtuvo el puntaje promedio estimado más bajo fue Vaupés (41.1 puntos). Lo anterior se estimó con un límite para el error de estimación de 0.49 puntos y de 3.31 puntos respectivamente, con una confianza del 95%.
Si se hace el mismo análisis para la estimación del puntaje promedio en lectura crítica, se obtiene que el departamento de Cundinamarca obtuvo el promedio estimado más alto (55.1 puntos), y el departamento que obtuvo el puntaje promedio estimado más bajo fue Vaupés (43.83333 puntos). Lo anterior se estimó con un límite para el error de estimación de 0.185 puntos y de 4.85 puntos respectivamente, con una confianza del 95%.
– Conclusiones para la proporción estimada de estudiantes que tienen internet en sus hogares.
# Proporcion estimada de estudiantes que tienen internet en el hogar.
table(data_muestra$FAMI_TIENEINTERNET)/43857
##
## No Si
## 0.2909228 0.7090772
# Totales de estudiantes que tienen internet en su hogar, en la muestra tomada,
# por cada departamento.
table(data_muestra$FAMI_TIENEINTERNET,data_muestra$ESTU_DEPTO_PRESENTACION)
##
## AMAZONAS ANTIOQUIA ARAUCA ATLANTICO BOLIVAR BOYACA CALDAS CAQUETA CASANARE
## No 36 1520 123 862 898 502 282 116 192
## Si 8 4980 121 1790 1158 841 654 199 284
##
## CAUCA CESAR CHOCO CORDOBA CUNDINAMARCA GUAINIA GUAVIARE HUILA LA GUAJIRA
## No 461 428 158 933 1054 11 29 420 268
## Si 514 673 134 746 8392 5 37 698 298
##
## MAGDALENA META NARIÑO NORTE SANTANDER PUTUMAYO QUINDIO RISARALDA
## No 532 253 606 438 143 99 151
## Si 662 724 742 926 139 432 648
##
## SAN ANDRES SANTANDER SUCRE TOLIMA VALLE VAUPES VICHADA
## No 31 615 496 454 614 13 21
## Si 24 1618 385 882 2370 5 9
# Proporciones de estudiantes que presentaron el Saber 11 y tienen internet en su hogar.
totales_internet <- c(8,4980,121,1790,1158,841,654,199,284,514,
673,134,746,8392,5,37,698,298,662,724,742,926,
139,432,648,24,1618,385,882,2370,5,9)
props_muest_internet <- totales_internet/c(44,6500,244,2652,2056,1343,
936,315,476,975,1101,292,
1679,9446,16,66,1118,566,1194,977,1348,
1364,282,531,799,55,2233,881,1336,2984,18,30)
# Varianzas para las proporciones de estudiantes que presentaron el Saber 11
# y tienen internet en su hogar por cada departamento.
var_pi <- ((470738-43857)/470738)*((props_muest_internet*(1-props_muest_internet))/(43857-1))
# Desviación estándar para la proporción de estudiantes que tienen internet.
desvi_internet <- sqrt(sum(((Ni/470738)^2)*var_pi))
# Límite para el error de estimación para la estimación de la proporción de estudiantes
# que presentaron el Saber 11 y tienen internet en su hogar.
desvi_internet*1.96
## [1] 0.001036348
La proporción global estimada de estudiantes que presentaron la prueba y que tienen internet en sus hogares es igual al 0.7090772 con un límite de error de estimación de 0.00104 y una confianza del 95%. Se observa que el departamento de Cundinamarca cuenta con una proporción estimada de estudiantes con internet en sus hogares igual a 0.888 con un límite para el error de estimación de 0.0028 y una confianza del 95%. También cabe resaltar que en la muestra tomada para el departamento de Vaupés no hubo ningún estudiante que contará con acceso a internet en su respectivo hogar.
– Conclusiones para la proporción estimada de estudiantes que pertenecen al estrato socieconómico 1.
# Proporciones estimadas de estudiantes pertenecientes a cada uno de los estratos
# socioeconómicos.
table(data_muestra$FAMI_ESTRATOVIVIENDA)/43857
##
## Estrato 1 Estrato 2 Estrato 3 Estrato 4 Estrato 5 Estrato 6
## 0.326994550 0.386209727 0.215951843 0.050049023 0.014068450 0.006726406
# Proporciones estimadas de estudiantes que pertenecen al estrato socieconómico 1.
# por departamento.
totales_estrato1 <- c(20,1537,146,1163,874,409,274,159,216,
484,588,158,1068,1137,6,33,530,234,
562,313,807, 522,181,153,180,16,689,
518,428,912,10,14)
props_muest_estrato1 <- totales_estrato1/c(44,6500,244,2652,2056,1343,
936,315,476,975,1101,292,1679,9446,16,66,
1118,566,1194,
977,1348,1364,282,531,799,55,
2233,881,1336,2984,18,30)
| AMAZONAS | ANTIOQUIA | ARAUCA | ATLANTICO | BOLIVAR | BOYACA | CALDAS | CAQUETA |
|---|---|---|---|---|---|---|---|
| 0.45 | 0.24 | 0.598 | 0.44 | 0.43 | 0.30 | 0.29 | 0.505 |
| CASANARE | CAUCA | CESAR | CHOCO | CORDOBA | CUNDINAMARCA | GUAINIA | GUAVIARE |
|---|---|---|---|---|---|---|---|
| 0.45 | 0.49 | 0.53 | 0.54 | 0.64 | 0.12 | 0.38 | 0.5 |
| HUILA | LA GUAJIRA | MAGDALENA | META | NARIÑO | NORTE SANTANDER | PUTUMAYO | QUINDIO |
|---|---|---|---|---|---|---|---|
| 0.47 | 0.41 | 0.471 | 0.32 | 0.598 | 0.38 | 0.642 | 0.29 |
| RISARALDA | SAN ANDRES | SANTANDER | SUCRE | TOLIMA | VALLE | VAUPES | VICHADA |
|---|---|---|---|---|---|---|---|
| 0.23 | 0.29 | 0.31 | 0.59 | 0.32 | 0.31 | 0.556 | 0.467 |
# Varianzas para las proporciones estimadas de estudiantes que presentaron el Saber 11
# y pertenecen al estrato 1.
var_pi_estrato <- ((470738-43857)/470738)*((props_muest_estrato1*
(1-props_muest_estrato1))/(43857-1))
# Desviación estándar para la proporcion estimada de estudiantes que pertenecen
# al estrato 1.
desvi_estrato <- sqrt(sum(((Ni/470738)^2)*var_pi_estrato))
# Limite para el error de estimación para la estimación de la proporcion de estudiantes
# que presentaron el Saber 11 y pertenecen al estrato 1.
desvi_estrato*1.96
## [1] 0.00106436
En el caso de los estudiantes que pertenecen al estrato socioeconómico 1, la estimación de la proporción global es igual a 0.327, esto con un límite para el error de estimación de 0.00106 y una confianza del 95%. Cabe recalcar que en la muestra se observó que los departamentos Putumayo y Córdoba cuentan con una proporción estimada de estudiantes pertenecientes al estrato 1 igual a 0.642 y 0.6360 respectivamente, los cuales son las proporciones más altas respecto a los demás departamentos.
De acuerdo a lo concluido anteriormente, se decide comparar los resultados de dos formas:
La estimación del promedio del puntaje en lectura crítica es igual a 52.514 puntos y el resultado reportado en las pruebas ICFES de 2019-II fue igual a 53 puntos, por tanto se evidencia una leve disminución en el desempeño comparando los puntajes para cada año.
Estimación del promedio del puntaje de matemáticas obtenida es igual a 51.466 puntos y el resultado en las pruebas ICFES de 2019-II fue de 52 puntos. De igual manera se observa una disminución en el desempeño en matemáticas si se comparan los dos años.
La estimación del promedio del puntaje en lectura crítica obtenida es igual a 52.514 puntos y el resultado real obtenido de la base datos de las pruebas ICFES fue de 52.49 puntos.
La estimación del promedio del puntaje de matemáticas obtenido es igual a 51.466 puntos y el resultado real obtenido de la base de datos de las pruebas ICFES fue de 51.398 puntos.
En ambos puntajes estimados se evidencia una leve diferencia con respecto a los resultados reales calculado.
# Valor real para proporción de estudiantes que presentaron la prueba
# y tienen internet en sus hogares.
table(base_4$FAMI_TIENEINTERNET)/470738
##
## No Si
## 0.2884789 0.7115211
# Valor real para proporción de estudiantes que presentaron la prueba
# y pertenecen al estrato 1.
table(base_4$FAMI_ESTRATOVIVIENDA)/470738
##
## Estrato 1 Estrato 2 Estrato 3 Estrato 4 Estrato 5 Estrato 6
## 0.323664119 0.386100124 0.219332198 0.049615710 0.014802289 0.006485561
Lo anterior muestra que se obtuvieron estimaciones muy cercanas al valor real, es decir, las estimaciones tuvieron gran exactitud.
– Base de datos de las pruebas Saber 11 2020-II
https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh
– Informe de resultados en la prueba saber 11 2019-II