0. Presentación del trabajo.

En este estudio se busca conocer el desempeño académico en las pruebas saber ICFES para el segundo semestre del año 2020, en especial en los apartados de lectura crítica y matemáticas. Lo anterior con el fin de realizar comparaciones entre los puntajes promedio del segundo semestre del año 2019 con los puntajes promedio estimados del segundo semestre del 2020-II. Por lo tanto, se realizaran estimaciones del puntaje promedio en matemáticas y lectura crítica, además se estimarán los porcentajes de estudiantes que tienen internet en sus hogares y aquellos que pertenecen al estrato socieconómico 1.

Todas las estimaciones se realizarán por medio del muestreo aleatorio estratificado simple con afijaciones de muestra de tipo Optima de Neyman.

1. Lectura de datos y depuración de la base de datos.

# Cargar paquetes necesarios para filtrar la información, hacer el muestreo
# y crear los gráficos. 
library(ggplot2)
library(dplyr)
library(survey)
library(sampling)
# Lectura de la base de datos oficial de la prueba ICFES Saber 11 2020-II.
datos <- read.csv(file.choose())
# Creación de base de datos con las variables objetivo.

base_2 <- datos %>% 
  select(ESTU_GENERO,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,
         COLE_AREA_UBICACION,ESTU_DEPTO_PRESENTACION,
         PUNT_LECTURA_CRITICA,PUNT_MATEMATICAS)
# Base de datos final quitando los valores N.A.
base_2[base_2 == ""] = NA
base_2[base_2 == "Sin Estrato"] = NA 
base_2[base_2 == "BOGOTÃ\u0081"] = "CUNDINAMARCA" 
base_2[base_2 == "NARIÑO"] = "NARIÑO" 
base_3 <- na.omit(base_2)
# Cambio de los tipos de algunas variables.
base_3$ESTU_GENERO <- as.factor(base_3$ESTU_GENERO)
base_3$FAMI_ESTRATOVIVIENDA <- as.factor(base_3$FAMI_ESTRATOVIVIENDA)
base_3$FAMI_TIENEINTERNET <- as.factor(base_3$FAMI_TIENEINTERNET)
base_3$COLE_AREA_UBICACION <- as.factor(base_3$COLE_AREA_UBICACION)
base_3$ESTU_DEPTO_PRESENTACION <- as.factor(base_3$ESTU_DEPTO_PRESENTACION)

2. Determinación de los tamaños de muestra por M.A.E.S.

Para realizar el muestreo, se utilizará la técnica del muestreo aleatorio estratificado, ya que se pretende estratificar a los estudiantes que presentaron la prueba Saber 11 en 2020-II por medio de los 32 departamentos que conforman a Colombia.

Definición de datos importantes:

Total de estudiantes que presentaron la prueba Saber ICFES en el 2020-II: \(N = 470738\).

Total de estudiantes que presentaron la prueba Saber ICFES en el 2020-II por cada departamento:

# Total de estudiantes por departamento.
totales_depar <- as.data.frame(table(base_3$ESTU_DEPTO_PRESENTACION))
AMAZONAS ANTIOQUIA ARAUCA ATLANTICO BOLIVAR BOYACA CALDAS CAQUETA
495 67154 2747 27321 20439 14731 9845 3554
CASANARE CAUCA CESAR CHOCO CORDOBA CUNDINAMARCA GUAINIA GUAVIARE
5200 10631 11589 3457 17629 106701 193 784
HUILA LA GUAJIRA MAGDALENA META NARIÑO NORTE SANTANDER PUTUMAYO QUINDIO
11539 6107 13342 10896 13953 14098 3110 5484
RISARALDA SAN ANDRES SANTANDER SUCRE TOLIMA VALLE VAUPES VICHADA
8747 571 22729 9117 14735 33246 216 378

Determinación de la muestra para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 en la prueba de matemáticas.

Para esto, se utilizará la afijación óptima de Neyman, ya que se conocen las varianzas dentro de cada estrato, pero no se conocen los costos y se suponen que son iguales. Este tipo de afijación, para encontrar el tamaño de muestra (por M.A.S) en cada departamento, se define con la formula siguiente:

\[ w_i = \frac{N_i*\sigma_i}{\sum_{j=1}^{32}N_j*\sigma_j}\]

# Varianzas poblacionales por departamento para el puntaje promedio en matemáticas.
varianzas_depar_mate <- base_3 %>% group_by(ESTU_DEPTO_PRESENTACION) %>% 
  summarise(var_i = var(PUNT_MATEMATICAS))
# Afijaciones, de tipo Neyman, para cada departamento.
Ni <- c(totales_depar$Freq)
var_i_mate <- c(varianzas_depar_mate$var_i)
denomi_mate <- sum(Ni*sqrt(var_i_mate))
numera_mate <- c(Ni*sqrt(var_i_mate))
wi_mat <- numera_mate/denomi_mate

Ahora, para encontrar a n se usa la formula siguiente:

Se propone un límite para el error de estimación \(B = 0.1\) puntos sobre el puntaje promedio obtenido en matemáticas, con una confianza del 95%.

\[D = \frac{0.1^2}{1.959964^2}\]

\[n = \frac{\sum_{i=1}^{32}\frac{N_i^2*\sigma_i^2}{wi}}{N^2*(\frac{B^2}{z^2_{\alpha/2}})+ \sum_{i=1}^{32}N_i*\sigma^2_{i}}\]

# Estimación del tamaño de muestra.
D_1= (0.1^2)/(1.959964^2) 
arriba_mate = sum((Ni^2*var_i_mate)/wi_mat)
abajo_mate = ((470738^2)* D_1) + sum(Ni*var_i_mate)
n_1 <- arriba_mate/abajo_mate
n_1
## [1] 43856.45

Por tanto, la muestra estimada para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020, en la prueba de matemáticas, es igual a \(n = 43857\) estudiantes.

Determinación de la muestra para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 en la prueba de lectura crítica.

Como se hizo en el punto anterior, se utilizará la afijación óptima de Neyman.

Además, se propone un límite para el error de estimación \(B = 0.1\) puntos sobre el puntaje promedio obtenido en lectura crítica con una confianza del 95%.

# Varianzas por departamento para el puntaje promedio en lectura crítica.
varianzas_depar_lecto <- base_3 %>% group_by(ESTU_DEPTO_PRESENTACION) %>% 
  summarise(var_i = var(PUNT_LECTURA_CRITICA))
# Afijaciones para cada departamento.
var_i_lecto <- c(varianzas_depar_lecto$var_i)
denomi_lecto <- sum(Ni*sqrt(var_i_lecto))
numera_lecto <- c(Ni*sqrt(var_i_lecto))
wi_lecto <- numera_lecto/denomi_lecto
# Estimación de la muestra.
arriba_lecto = sum((Ni^2*var_i_lecto)/wi_lecto)
abajo_lecto = ((470738^2)* D_1) + sum(Ni*var_i_lecto)
n_2 <- arriba_lecto/abajo_lecto
n_2
## [1] 34161.04

Por tanto, la muestra estimada para estimar el puntaje promedio que obtuvieron los estudiantes que presentaron la prueba ICFES en el segundo semestre año 2020, en la prueba de lectura crítica es igual a \(n = 34162\) estudiantes.

Determinación de la muestra para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que cuentan con servicio de internet en sus hogares.

En este caso se conocen las proporciones de estudiantes que tienen internet por cada departamento, esas proporciones son:

# Proporción de estudiantes que tienen internet por cada departamento.
props_internet <- as.data.frame(table(base_3$ESTU_DEPTO_PRESENTACION,
                                       base_3$FAMI_TIENEINTERNET)/Ni)
AMAZONAS ANTIOQUIA ARAUCA ATLANTICO BOLIVAR BOYACA CALDAS CAQUETA
0.232 0.764 0.51 0.678 0.551 0.62 0.701 0.601
CASANARE CAUCA CESAR CHOCO CORDOBA CUNDINAMARCA GUAINIA GUAVIARE
0.61 0.54 0.59 0.45 0.43 0.89 0.332 0.504
HUILA LA GUAJIRA MAGDALENA META NARIÑO NORTE SANTANDER PUTUMAYO QUINDIO
0.64 0.55 0.55 0.75 0.54 0.66 0.53 0.784
RISARALDA SAN ANDRES SANTANDER SUCRE TOLIMA VALLE VAUPES VICHADA
0.80 0.45 0.74 0.47 0.66 0.80 0.15 0.29
# Varianzas por cada departamento.
p_i_internet <- c(props_internet$Freq[33:64])
var_i_internet <- c(p_i_internet*(1-p_i_internet))

Además, se supone un límite para el error de estimación de \(B = 0.01\), esto con una confianza del 95%.

Para hallar el tamaño de muestra se usa la siguiente fórmula:

\[D = \frac{0.01^2}{1.959964^2}\] \[n = \frac{\sum_{i=1}^{32}\frac{N_i^2*p_i*(1-p_i)}{wi}}{N^2*(\frac{B^2}{z^2_{\alpha/2}})+ \sum_{i=1}^{32}N_i*p_i*(1-pi)}\] Para las afijaciones en cada departamento, se propone la afijación óptima de Neyman, ya que se conocen las varianzas de las proporciones de los estudiantes con internet en cada departamento y los costos del muestreo se suponen iguales.

\[ w_i = \frac{N_i*\sqrt{p_i*(1-p_i)}}{\sum_{j=1}^{32}N_j*\sqrt{p_j*(1-p_j)}}\]

# Cálculo de las afijaciones.
denomi_internet <- sum(Ni*sqrt(var_i_internet))
numera_internet <- c(Ni*sqrt(var_i_internet))
wi_internet <- numera_internet/denomi_internet
# Cálculo del tamaño muestral.
D_2= (0.01^2)/(1.959964^2) 
arriba_internet = sum((Ni^2*var_i_internet)/wi_internet)
abajo_internet = ((470738^2)* D_2) + sum(Ni*var_i_internet)
n_3 <- arriba_internet/abajo_internet
n_3
## [1] 6864.242

Por lo tanto, para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que cuentan con servicio de internet en sus hogares, se necesita una muestra estimada de \(n = 6865\), esto para tener un error de estimación \(B = 0.01\) y una confianza del 95%

Determinación de la muestra para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que pertenecen al estrato socioeconómico 1.

En este caso se conocen las proporciones de estudiantes que pertenecen a cada estrato socioeconómico por departamento.

# Proporción de estudiantes que pertenecen a cada estrato socioeconómico.
props_estrato <- as.data.frame(table(base_3$ESTU_DEPTO_PRESENTACION,
                                     base_3$FAMI_ESTRATOVIVIENDA)/Ni)
# Cálculo de varianzas.
p_i_estrato1 <- c(props_estrato$Freq[1:32])
var_i_estrato1 <- c(p_i_estrato1*(1-p_i_estrato1))

Además, se supone un limite para el error de estimación de \(B = 0.01\), esto con una confianza del 95%.

\[D = \frac{0.01^2}{1.959964^2}\] Para las afijaciones en cada departamento, se propone la afijación óptima de Neyman, ya que se conocen las varianzas de las proporciones de estudiantes que pertenecen al estrato 1 y los costos del muestreo se suponen iguales.

\[ w_i = \frac{N_i*\sqrt{p_i*(1-p_i)}}{\sum_{j=1}^{32}N_j*\sqrt{p_j*(1-p_j)}}\]

# Cálculo de las afijaciones.
denomi_estrato <- sum(Ni*sqrt(var_i_estrato1))
numera_estrato <- c(Ni*sqrt(var_i_estrato1))
wi_estrato <- numera_estrato/denomi_estrato
# Cálculo del tamaño muestral.
D_3= (0.01^2)/(1.959964^2) 
arriba_estrato = sum((Ni^2*var_i_estrato1)/wi_estrato)
abajo_estrato = ((470738^2)* D_3) + sum(Ni*var_i_estrato1)
n_4 <- arriba_estrato/abajo_estrato
n_4
## [1] 7198.417

Por lo tanto, para estimar la proporción de los estudiantes que presentaron la prueba ICFES en el segundo semestre del año 2020 que pertenecen al estrato socioeconómico 1, se necesita una muestra estimada \(n = 7199\), esto para tener un error de estimación \(B = 0.01\) y una confianza del 95%

3. Selección de la muestra por Muestreo Aleatorio Estratificado Simple (M.A.E.S.)

En la sección anterior se obtuvieron cuatro tamaños de muestras, a saber, \(n = 43857,34162,6865,7199\). De las cuales se escogerá la muestra más grande, es decir, \(n = 43857\), esto con el fin de asegurar los errores de estimación para las estimaciones de todos los parámetros.

# Datos ordenados por departamento alfabéticamente.
base_4 <- arrange(base_3,ESTU_DEPTO_PRESENTACION)

Posteriormente, se genera la muestra aleatoria estratificada realizando una muestra aleatoria simple en cada uno de los departamentos. Las afijaciones para cada departamento se realizaron con la afijación óptima de Neyman.

# Obtención de la muestra por M.A.E.S. con el paquete Sampling.
set.seed(123)
s <- sampling:::strata(base_4,c("ESTU_DEPTO_PRESENTACION"),
                       size=c(44,6500,244,2652,2056,1343,936,315,
                              476,975,1101,292,1679,9446,16,66,1118,566,1194,
                              977,1348,1364,282,531,799,55,2233,881,1336,
                              2984,18,30), method = "srswor")
# Base de datos con las 43857 observaciones de la muestra.
data_muestra <- getdata(base_4,s)
# Generación del diseño muestral.
diseñomuestral <- svydesign(id = ~1,
                            strata = ~ESTU_DEPTO_PRESENTACION,
                            data = data_muestra,
                            probs = ~Prob)

– Análisis descriptivo de la muestra obtenida con M.A.E.S.

En la anterior gráfica se observa que en la muestra los departamentos del Amazonas, Chocó, San Andrés y Vaupés se encuentran por debajo del puntaje promedio obtenido en Matemáticas en comparación con los demás departamentos, mientras que Boyacá, Cundinamarca y Santander están por encima del puntaje promedio en matemáticas. Además, se puede identificar que en la mayoría de departamentos hubo estudiantes que obtuvieron el puntaje máximo (100) en la prueba de matemáticas, como también hubo estudiantes(pocos) que obtuvieron 0 en la misma.

En los mismos departamentos mencionados en la gráfica anterior se observa que se encuentran por debajo del puntaje promedio obtenido en lectura crítica en comparación con los demás departamentos, y sobresalen Boyacá, Caldas, Cundinamarca y Santander, ya que están por encima del puntaje promedio en lectura crítica. También se puede identificar que en la mayoría de departamentos hubo estudiantes que obtuvieron el puntaje máximo (100) en la prueba de lectura crítica, como también hubo estudiantes (pocos) que obtuvieron 0 en la misma (en Antioquia).

En la gráfica se identifica que en los datos de la muestra predominan los estudiantes de estrato 1, 2 y 3, siendo el estrato 2 el que más sobresale y el estrato 6 el que menos lo hace, es decir, la mayoría de los estudiantes que presentaron la prueba pertenecen al estrato socieconómico 2.

Conclusiones para la estimación del puntaje promedio obtenido en matemáticas y lectura crítica por parte de los estudiantes que presentaron las pruebas Saber 11 en el semestre dos del año 2020.

# Promedio poblacional estimado del puntaje obtenido en la prueba de matemáticas. 
svymean(~PUNT_MATEMATICAS,diseñomuestral)
# Promedio poblacional estimado del puntaje obtenido en la prueba de lectura critica.  
svymean(~PUNT_LECTURA_CRITICA,diseñomuestral)
# Promedio estimado del puntaje obtenido en la prueba de matemáticas por departamento.
svyby(~PUNT_MATEMATICAS,~ESTU_DEPTO_PRESENTACION, diseñomuestral, svymean)
##                 ESTU_DEPTO_PRESENTACION PUNT_MATEMATICAS        se
## AMAZONAS                       AMAZONAS         45.27273 1.9073031
## ANTIOQUIA                     ANTIOQUIA         49.92908 0.1445658
## ARAUCA                           ARAUCA         50.15984 0.6727456
## ATLANTICO                     ATLANTICO         50.45626 0.2284092
## BOLIVAR                         BOLIVAR         47.98638 0.2684665
## BOYACA                           BOYACA         54.24795 0.2888118
## CALDAS                           CALDAS         50.89530 0.3829335
## CAQUETA                         CAQUETA         49.16825 0.5914335
## CASANARE                       CASANARE         51.90336 0.5172972
## CAUCA                             CAUCA         48.20615 0.3439415
## CESAR                             CESAR         50.19255 0.3467522
## CHOCO                             CHOCO         43.52740 0.6488594
## CORDOBA                         CORDOBA         48.71054 0.2785436
## CUNDINAMARCA               CUNDINAMARCA         54.70072 0.1095853
## GUAINIA                         GUAINIA         46.87500 2.6439790
## GUAVIARE                       GUAVIARE         48.07576 1.0910337
## HUILA                             HUILA         51.76923 0.3449899
## LA GUAJIRA                   LA GUAJIRA         47.72261 0.4644781
## MAGDALENA                     MAGDALENA         46.43216 0.3068270
## META                               META         52.59468 0.3232635
## NARIÑO                           NARIÑO         51.86573 0.3207609
## NORTE SANTANDER         NORTE SANTANDER         54.08065 0.3110467
## PUTUMAYO                       PUTUMAYO         50.53546 0.5897861
## QUINDIO                         QUINDIO         52.18456 0.4819815
## RISARALDA                     RISARALDA         51.80726 0.3971471
## SAN ANDRES                   SAN ANDRES         44.85455 1.5685070
## SANTANDER                     SANTANDER         55.44469 0.2487440
## SUCRE                             SUCRE         48.95573 0.3821440
## TOLIMA                           TOLIMA         49.61901 0.2943367
## VALLE                             VALLE         50.18499 0.1944245
## VAUPES                           VAUPES         41.05556 1.6870755
## VICHADA                         VICHADA         49.06667 1.6230618
# Promedio estimado del puntaje obtenido en la prueba de lectura crítica por departamento.
svyby(~PUNT_LECTURA_CRITICA,~ESTU_DEPTO_PRESENTACION, diseñomuestral, svymean)
##                 ESTU_DEPTO_PRESENTACION PUNT_LECTURA_CRITICA        se
## AMAZONAS                       AMAZONAS             47.34091 1.2906982
## ANTIOQUIA                     ANTIOQUIA             52.00462 0.1272507
## ARAUCA                           ARAUCA             50.93852 0.5497891
## ATLANTICO                     ATLANTICO             51.45965 0.2069474
## BOLIVAR                         BOLIVAR             49.93337 0.2418358
## BOYACA                           BOYACA             53.84885 0.2623162
## CALDAS                           CALDAS             52.68697 0.3266142
## CAQUETA                         CAQUETA             50.45079 0.5189366
## CASANARE                       CASANARE             51.97479 0.4295771
## CAUCA                             CAUCA             49.53641 0.3208484
## CESAR                             CESAR             51.24886 0.3011932
## CHOCO                             CHOCO             46.17123 0.5939827
## CORDOBA                         CORDOBA             50.21084 0.2372282
## CUNDINAMARCA               CUNDINAMARCA             55.05484 0.0943075
## GUAINIA                         GUAINIA             46.75000 2.4469369
## GUAVIARE                       GUAVIARE             48.63636 1.0953677
## HUILA                             HUILA             52.89714 0.2991562
## LA GUAJIRA                   LA GUAJIRA             48.89929 0.3844245
## MAGDALENA                     MAGDALENA             48.24539 0.2780638
## META                               META             52.99795 0.2974624
## NARIÑO                           NARIÑO             52.36573 0.2725055
## NORTE SANTANDER         NORTE SANTANDER             54.14516 0.2651681
## PUTUMAYO                       PUTUMAYO             49.97872 0.5437600
## QUINDIO                         QUINDIO             53.09981 0.4275358
## RISARALDA                     RISARALDA             53.26909 0.3336402
## SAN ANDRES                   SAN ANDRES             49.25455 1.2566907
## SANTANDER                     SANTANDER             55.17555 0.2163365
## SUCRE                             SUCRE             50.36436 0.3341060
## TOLIMA                           TOLIMA             51.08009 0.2612668
## VALLE                             VALLE             52.06233 0.1736327
## VAUPES                           VAUPES             43.83333 2.4895205
## VICHADA                         VICHADA             49.20000 1.6927160

El promedio estimado para el puntaje obtenido en la prueba de matemáticas de los estudiantes que presentaron las pruebas ICFES en el segundo semestre del 2020 es 51.466 puntos. Esta estimación se hizo con un error de estimación 0.1045 puntos y un 95% de confianza. Además, el puntaje obtenido en la prueba de lectura crítica de los estudiantes que presentaron las pruebas ICFES en el segundo semestre del 2020 es 52.514 puntos. Esta estimación se hizo con un error de estimación 0.092 puntos y un 95% de confianza.

Se observa que el puntaje promedio estimado obtenido en la prueba de lectura crítica fue ligeramente mayor al puntaje promedio estimado en matemáticas. Además, en la tabla de los promedios estimados de los puntajes obtenidos en la prueba de matemáticas por departamento, puntualmente el departamento de Santander obtuvo el promedio estimado más alto (55.44 puntos). Por otra parte, el departamento que obtuvo el puntaje promedio estimado más bajo fue Vaupés (41.1 puntos). Lo anterior se estimó con un límite para el error de estimación de 0.49 puntos y de 3.31 puntos respectivamente, con una confianza del 95%.

Si se hace el mismo análisis para la estimación del puntaje promedio en lectura crítica, se obtiene que el departamento de Cundinamarca obtuvo el promedio estimado más alto (55.1 puntos), y el departamento que obtuvo el puntaje promedio estimado más bajo fue Vaupés (43.83333 puntos). Lo anterior se estimó con un límite para el error de estimación de 0.185 puntos y de 4.85 puntos respectivamente, con una confianza del 95%.

Conclusiones para la proporción estimada de estudiantes que tienen internet en sus hogares.

# Proporcion estimada de estudiantes que tienen internet en el hogar.
table(data_muestra$FAMI_TIENEINTERNET)/43857
## 
##        No        Si 
## 0.2909228 0.7090772
# Totales de estudiantes que tienen internet en su hogar, en la muestra tomada, 
# por cada departamento.
table(data_muestra$FAMI_TIENEINTERNET,data_muestra$ESTU_DEPTO_PRESENTACION)
##     
##      AMAZONAS ANTIOQUIA ARAUCA ATLANTICO BOLIVAR BOYACA CALDAS CAQUETA CASANARE
##   No       36      1520    123       862     898    502    282     116      192
##   Si        8      4980    121      1790    1158    841    654     199      284
##     
##      CAUCA CESAR CHOCO CORDOBA CUNDINAMARCA GUAINIA GUAVIARE HUILA LA GUAJIRA
##   No   461   428   158     933         1054      11       29   420        268
##   Si   514   673   134     746         8392       5       37   698        298
##     
##      MAGDALENA META NARIÑO NORTE SANTANDER PUTUMAYO QUINDIO RISARALDA
##   No       532  253    606             438      143      99       151
##   Si       662  724    742             926      139     432       648
##     
##      SAN ANDRES SANTANDER SUCRE TOLIMA VALLE VAUPES VICHADA
##   No         31       615   496    454   614     13      21
##   Si         24      1618   385    882  2370      5       9
# Proporciones de estudiantes que presentaron el Saber 11 y tienen internet en su hogar.
totales_internet <- c(8,4980,121,1790,1158,841,654,199,284,514,
                      673,134,746,8392,5,37,698,298,662,724,742,926,
                      139,432,648,24,1618,385,882,2370,5,9)

props_muest_internet <- totales_internet/c(44,6500,244,2652,2056,1343,
                                          936,315,476,975,1101,292,
                                          1679,9446,16,66,1118,566,1194,977,1348,
                                          1364,282,531,799,55,2233,881,1336,2984,18,30)
# Varianzas para  las proporciones de estudiantes que presentaron el Saber 11
# y tienen internet en su hogar por cada departamento.
var_pi <- ((470738-43857)/470738)*((props_muest_internet*(1-props_muest_internet))/(43857-1))
# Desviación estándar para la proporción de estudiantes que tienen internet.
desvi_internet <- sqrt(sum(((Ni/470738)^2)*var_pi))
# Límite para el error de estimación para la estimación de la proporción de estudiantes
# que presentaron el Saber 11 y tienen internet en su hogar.
desvi_internet*1.96
## [1] 0.001036348

La proporción global estimada de estudiantes que presentaron la prueba y que tienen internet en sus hogares es igual al 0.7090772 con un límite de error de estimación de 0.00104 y una confianza del 95%. Se observa que el departamento de Cundinamarca cuenta con una proporción estimada de estudiantes con internet en sus hogares igual a 0.888 con un límite para el error de estimación de 0.0028 y una confianza del 95%. También cabe resaltar que en la muestra tomada para el departamento de Vaupés no hubo ningún estudiante que contará con acceso a internet en su respectivo hogar.

Conclusiones para la proporción estimada de estudiantes que pertenecen al estrato socieconómico 1.

# Proporciones estimadas de estudiantes pertenecientes a cada uno de los estratos 
# socioeconómicos.
table(data_muestra$FAMI_ESTRATOVIVIENDA)/43857
## 
##   Estrato 1   Estrato 2   Estrato 3   Estrato 4   Estrato 5   Estrato 6 
## 0.326994550 0.386209727 0.215951843 0.050049023 0.014068450 0.006726406
# Proporciones estimadas de estudiantes que pertenecen al estrato socieconómico 1.
# por departamento. 
totales_estrato1 <-  c(20,1537,146,1163,874,409,274,159,216,
                       484,588,158,1068,1137,6,33,530,234,
                       562,313,807, 522,181,153,180,16,689,
                       518,428,912,10,14)

props_muest_estrato1 <- totales_estrato1/c(44,6500,244,2652,2056,1343,
                                           936,315,476,975,1101,292,1679,9446,16,66,
                                           1118,566,1194,
                                           977,1348,1364,282,531,799,55,
                                           2233,881,1336,2984,18,30) 
AMAZONAS ANTIOQUIA ARAUCA ATLANTICO BOLIVAR BOYACA CALDAS CAQUETA
0.45 0.24 0.598 0.44 0.43 0.30 0.29 0.505
CASANARE CAUCA CESAR CHOCO CORDOBA CUNDINAMARCA GUAINIA GUAVIARE
0.45 0.49 0.53 0.54 0.64 0.12 0.38 0.5
HUILA LA GUAJIRA MAGDALENA META NARIÑO NORTE SANTANDER PUTUMAYO QUINDIO
0.47 0.41 0.471 0.32 0.598 0.38 0.642 0.29
RISARALDA SAN ANDRES SANTANDER SUCRE TOLIMA VALLE VAUPES VICHADA
0.23 0.29 0.31 0.59 0.32 0.31 0.556 0.467
# Varianzas para las proporciones estimadas de estudiantes que presentaron el Saber 11
# y pertenecen al estrato 1.
var_pi_estrato <- ((470738-43857)/470738)*((props_muest_estrato1*
                                              (1-props_muest_estrato1))/(43857-1))
# Desviación estándar para la proporcion estimada de estudiantes que pertenecen
# al estrato 1.
desvi_estrato <- sqrt(sum(((Ni/470738)^2)*var_pi_estrato))
# Limite para el error de estimación para la estimación de la proporcion de estudiantes
# que presentaron el Saber 11 y pertenecen al estrato 1.
desvi_estrato*1.96
## [1] 0.00106436

En el caso de los estudiantes que pertenecen al estrato socioeconómico 1, la estimación de la proporción global es igual a 0.327, esto con un límite para el error de estimación de 0.00106 y una confianza del 95%. Cabe recalcar que en la muestra se observó que los departamentos Putumayo y Córdoba cuentan con una proporción estimada de estudiantes pertenecientes al estrato 1 igual a 0.642 y 0.6360 respectivamente, los cuales son las proporciones más altas respecto a los demás departamentos.

4. Conclusiones y comparaciones.

De acuerdo a lo concluido anteriormente, se decide comparar los resultados de dos formas:

  1. Comparación con los resultados de la prueba ICFES Saber 11 en el 2019-II:
  1. Comparación con los resultados poblacionales:

En ambos puntajes estimados se evidencia una leve diferencia con respecto a los resultados reales calculado.

# Valor real para proporción de estudiantes que presentaron la prueba 
# y tienen internet en sus hogares.
table(base_4$FAMI_TIENEINTERNET)/470738
## 
##        No        Si 
## 0.2884789 0.7115211
# Valor real para proporción de estudiantes que presentaron la prueba
# y pertenecen al estrato 1. 
table(base_4$FAMI_ESTRATOVIVIENDA)/470738
## 
##   Estrato 1   Estrato 2   Estrato 3   Estrato 4   Estrato 5   Estrato 6 
## 0.323664119 0.386100124 0.219332198 0.049615710 0.014802289 0.006485561

Lo anterior muestra que se obtuvieron estimaciones muy cercanas al valor real, es decir, las estimaciones tuvieron gran exactitud.

5. Bibliografía.

Base de datos de las pruebas Saber 11 2020-II

https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh

Informe de resultados en la prueba saber 11 2019-II

https://www.icfes.gov.co/documents/20143/1711757/Informe+nacional+de+resultados+Saber+11-2019.pdf/01cca382-1f24-aefd-a3ef-0d04d2e6108d?version=1.0&t=1608776793757