Consigna

El Ministerio de Educación de la Provincia de Córdoba, quiere hacer un estudio sobre los estudiantes del último año de las escuelas secundarias urbanas, para determinar quiénes seguirán estudios universitarios. Para ello se solicita el diseño de una muestra acorde con una estimación con un error de muestreo del 5 % y un Nivel de Confianza del 95 %.

Se solicita un diseño completo que incluya:

  • Exploración de fuentes en función de la temática

  • Búsqueda de antecedentes para tasa de no respuesta

  • Diseño de a muestra

  • Diseño de instrumento de relevamiento (cuestionario)

Una vez seleccionada la Muestra, informarla a la Coordinación de la materia, quien enviará respuestas de las encuestas para que procesen el resultado final con la finalidad de estimar el parámetro correspondiente y sus errores de muestreo.

Exploracion de fuentes

Para construir nuestra muestra trabajaremos con dos fuentes: el Relevamiento Anual (RA) del Ministerio de Educación del año 2019, (del cual tomaremos las matriculas correspondientes a los ciclos básicos y orientados de secundaria en Córdoba) y el Censo del operativo Aprender 2019 que nos provee de algunas variables sociodemográficas relevantes para nuestro relevamiento.

df_ra <- openxlsx::read.xlsx("2021-12-5-Matricula-12-a-14.xlsx") %>% #seleccion de var de RA previam. limpia
  janitor::clean_names() %>% #emprolijamos nombre variable
  filter(provincia == "Córdoba", #seleccionamos casos de Córdoba del sector urbano accesibles a campo
         ambito    == "Urbano") %>% 
  mutate_all(~replace(., is.na(.), 0)) %>% 
  mutate (mat_total = x12+x13y14) %>% #calculamos la matricula total para ultimo año secund.
  filter(mat_total > 0) #nos quedamos con las escuelas que tienen al menos un matriculado


ggplot(df_ra) +
 aes(x = mat_total) +
 geom_histogram(bins = 30L, fill = "#4682B4") +
 labs(x = "Matricula total", 
      title = "Matricula último año secundaria", 
      subtitle = "Escuelas urbanas de Córdoba", 
      caption = "RA - Ministerio de Educación de la Nación") +
 theme_minimal()

## [1] "Al año 2019, la matrícula de alumnos de los últimos años de secundaria de escuelas urbanas cordobesas (tanto en su ciclo básico como orientado) era de 41687 alumnos"

Búsqueda de antecedentes para tasa de no respuesta

En nuestro país, si bien el sistema educativo superior se ha caracterizado por su alto grado de cobertura, su gratuidad no es una condición suficiente que garantice el acceso y permanencia de los estudiantes de menor ingreso. La situación socioeconómica de los jóvenes sigue siendo un factor incidente en la finalización de los estudios secundarios y en el ingreso, permanencia y egreso a los estudios de educación superior (García de Fanelli, 2005).

García de Fanelli (2019) en su estudio sobre el acceso a la educación superior, concluye que los jóvenes de los quintiles más altos de ingreso per cápita tienen una mayor presencia entre los estudiantes y graduados de la educación superior, siendo la necesidad de ingresar al mercado laboral uno de los factores que explican la deserción del estudiantado perteneciente a los sectores más bajos.

Asimismo, Gessaghi & Llinás (2005) afirman que la gran brecha entre los grupos socioeconómicos está dada en la finalización de los estudios secundarios. Así, la segmentación del sistema educativo genera circuitos educativos con diferente calidad. Por lo tanto, si bien todos los jóvenes que finalizan sus estudios secundarios acceden a la misma certificación, quienes tienen mayores condiciones para ingresar y continuar sus estudios son aquellos alumnos que provienen de los circuitos educativos más altos. En esta línea, subrayan que la barrera más importante para el acceso a los estudios terciarios o universitarios se encuentra en el nivel medio e inferior y no en el superior, impactando la deserción universitaria en mayor medida en el 40% de los jóvenes con menor ingreso per cápita familiar.

Análisis previo al diseño muestral

Con el objeto de ver si podemos encontrar algún método de estratificación, retomamos los datos de Censo del operativo Aprender 2019 para los alumnos de escuelas urbanas de Córdoba, que contiene los mismos identificadores de la base RA.

De esta base tomamos (además de las variables de identificación) dos variables de nuestro interés referentes al nivel socioeconómico:

  • “isocioa_puntaje”: variable cuantitativa (estandarizada, es decir, corresponde al valor z) construida en función de otros datos relevados en el mismo cuestionario
  • “isocioa”: que es una recategorización ordinal de la variable cuantitativa en función de las desvios estándar: para aquellos casos mayores a una desviación estandar hacia la izquierda isocioa = 1 (NSE bajo); para los que se encuentran dentro de una desviación estandar hacia arriba o abajo se les imputó isocioa = 2 (NSE medio); finalmente, para los que se encuentran arriba de una desviación estandar a la derecha isocioa = 2 (NSE alto).
url_2 = 'https://raw.githubusercontent.com/oblitterator/tecnicas_muestreo/main/Base%20estudiantes%205-6%20a%C3%B1o%20secundaria%202019%20USUARIA%20(Censo%20L%20y%20M)_Cordoba.csv'

df_aprender <- read.csv2(url(url_2), encoding = "UTF-8") %>% 
  filter (ambito != 2)%>% #Eliminamos las escuelas correspondientes al ámbito rural
  dplyr::select("ID1", "sector", "idalumno", "isocioa", "isocioa_puntaje") %>% 
  filter(!is.na(isocioa_puntaje)) 

summary(df_aprender)
##       ID1                sector         idalumno        isocioa    
##  Min.   :1.002e+14   Min.   :1.000   Min.   :  1.0   Min.   :1.00  
##  1st Qu.:2.142e+14   1st Qu.:1.000   1st Qu.:  6.0   1st Qu.:2.00  
##  Median :3.533e+14   Median :2.000   Median : 12.0   Median :2.00  
##  Mean   :4.255e+14   Mean   :1.513   Mean   : 39.9   Mean   :2.15  
##  3rd Qu.:6.030e+14   3rd Qu.:2.000   3rd Qu.: 20.0   3rd Qu.:3.00  
##  Max.   :9.996e+14   Max.   :2.000   Max.   :999.0   Max.   :3.00  
##  isocioa_puntaje  
##  Min.   :-2.7028  
##  1st Qu.:-0.4299  
##  Median : 0.1902  
##  Mean   : 0.2275  
##  3rd Qu.: 1.0266  
##  Max.   : 1.8168

Debido a que para realizar la muestra partiremos de la información del RA, agruparemos estos datos desagregados por alumno en el Aprender con el fin de juntar las dos bases y ver si nos es útil para estratificar las escuelas. Realizaremos dos tipos de agrupamiento de los alumnos:

  1. Tres variables de frecuencias de alumnos por NSE (bajo, medio, alto, en base a la variable isocioa) para cada escuela.

  2. Promedio de la variable cuantitativa isocioa_puntaje (que nos estaría dando la media de la distribución del z score por escuela)

#Sumarizamos el puntaje por escuela

df_puntaje_escuela <- aggregate(df_aprender$isocioa_puntaje, list(df_aprender$ID1), mean)

names(df_puntaje_escuela) <- c('ID1', 'puntaje_nse')


#Tranformaciones para la creación de variables para cada nivel 
df_aprender_nse <- df_aprender %>% 
  pivot_wider(id_cols = ID1,
                   names_from = isocioa,
                   values_from = isocioa,
                   values_fn = length, names_sort = TRUE,
                   values_fill = 0) 

df_aprender_nse <- df_aprender_nse %>% 
 mutate(total_censados = rowSums(df_aprender_nse[,2:4]),
        porc_bajo =     round(df_aprender_nse$'1'/total_censados,2),
        porc_medio=     round(df_aprender_nse$'2'/total_censados,2),
        porc_alto =     round(df_aprender_nse$'3'/total_censados,2)) 

Ahora que hemos procesado nuestra base, hacemos un join para tener el DF final para el análisis previo a la muestra:

df_escuelas <- left_join(df_ra,df_aprender_nse, by = c('id1'='ID1')) %>% 
   mutate_all(~replace(., is.na(.), 0)) #reemplazo todos los NA con 0

head(df_escuelas)
##            id1 provincia  sector ambito x12 x13y14 mat_total  1  2  3
## 1 1.001701e+14   Córdoba Privado Urbano  31      0        31  5 23  1
## 2 1.006970e+14   Córdoba Estatal Urbano  91      0        91 14 31  7
## 3 1.008000e+14   Córdoba Privado Urbano  58      0        58  0 31 22
## 4 1.008000e+14   Córdoba Privado Urbano  25      0        25  0 11 11
## 5 1.027701e+14   Córdoba Estatal Urbano 175      0       175 23 97 26
## 6 1.028970e+14   Córdoba Estatal Urbano  96     29       125 14 62  6
##   total_censados porc_bajo porc_medio porc_alto
## 1             29      0.17       0.79      0.03
## 2             52      0.27       0.60      0.13
## 3             53      0.00       0.58      0.42
## 4             22      0.00       0.50      0.50
## 5            146      0.16       0.66      0.18
## 6             82      0.17       0.76      0.07

Si observamos a las escuelas que poseen más de un 20% de sus alumnos con un nivel scoioeconómico bajo o alto (extremando las diferencias) podremos ver la relación entre sector de gestión y proporción de alumnos con niveles socioeconómicos altos y bajos

df_escuelas %>% 
  mutate(marca1 = as.integer(case_when(porc_bajo >= 0.20 ~ "1",
                            TRUE ~ "0")),
         marca2 = as.integer(case_when(porc_alto >= 0.20 ~ "1",
                            TRUE ~ "0"))) %>% 
  group_by(sector) %>% 
  summarise("nivel bajo" = sum(marca1),
            "nivel alto" = sum(marca2))
## # A tibble: 2 x 3
##   sector  `nivel bajo` `nivel alto`
##   <chr>          <int>        <int>
## 1 Estatal          191           44
## 2 Privado           14          271

Diseño muestral

Ante la imposibilidad de acceder al marco muestral de los alumnos del último año de las escuelas secundarias urbanas de la provincia de Córdoba y considerando que, de tener acceso a estos datos podría sacarse una muestra directa de los alumnos a encuestar y estimar a partir de allí la cantidad de casos favorables de éstos que planean asistir a la universidad, se decidió, para resolver esta faltante, las siguientes posibles estrategias muestrales:

Diseño muestral 1 Considerando a los alumnos como unidad de análisis, generando un muestreo por conglomerados bietápico, seleccionando en una primera etapa colegios y luego al interior de estos por muestreo aleatorio simple 10 alumnos de los últimos cursos en aquellas instituciones que posean de 10 o más alumnos, mientras que en aquellas que no lleguen a esta cantidad de alumnos matriculados se encuestará la totalidad de éstos. Estimaremos con ello el total de casos favorables, a partir del listado de alumnos recabado en el colegio seleccionado al momento de realizar la encuesta.

Diseño muestral 2 Considerando a la escuela como unidad de análisis, seleccionando estas de manera sistemática y haciendo a partir de allí una estimación del total de alumnos de la provincia que va a asistir a la universidad mediante la consulta al total de alumnos de cada escuela seleccionada con intenciones de asistir - estimación del total.

Si bien ambas estrategias tienen sus pro y sus contras, nos decidimos avanzar por la primera, debido a que se solicita que se contemple como unidad de análisis a los alumnos. A continuación desarrollamos el Diseño muestral 1

Determinación del tamaño de la muestra para un MAS

Determinamos el tamaño de nuestra muestra para estimar casos favorables mediante MAS,teniendo como unidad final de muestreo a los alumnos matriculados en 2019.

Tomaremos los antecedentes para la estimación de la proporción de Farinelli (2019) en donde establece que, en el año 2010 el 34.8% de la población de personas entre 18 y 30 años con secundario completo de nuestro país no asiste ni asistirá a las universidades.

N = sum(df_ra$mat_total)
p = 0.652
q = 1-p
d = 0.05
k = 1.96

m= ceiling((k^2*p*q/d^2)/1+(k^2*p*q/d^2/N))
## [1] "El tamaño de la muestra estimado para un MAS es de 349 alumnos, con un nivel de confianza del 95% y un margen de error 5%"

A los fines de contemplar la no respuesta y, teniendo como antecedente a los datos obtenidos por APRENDER para cada sector de gestión de la provincia de Córdoba, aumentaremos nuestro tamaño muestral un 20%.

m_final = ceiling(m*1.2)
m_final
## [1] 419

Con el propósito de disminuir el efecto diseño, aumentamos nuestra muestra final 1.5 veces.

m_final <- round(m_final*1.5)

m_final
## [1] 628

Recordemos que seleccionaremos por MAS a 10 alumnos del total de alumnos del último ciclo, en aquellas escuelas con 10 o más alumnos con matrícula total al momento del relevamiento. En aquellas escuelas seleccionadas que posean menos alumnos en su matrícula del último ciclo para el año 2021, se encuestarán a todos los alumnos.

Se contemplará la inasistencia como No Respuesta.

## [1] "Estimamos la cantidad de conglomerados a relevar, a sabiendas que de este modo nuestro m final se verá reducido, aunque no significativamente pues el porcentaje total de escuelas con menos de 10 alumnos es del 1.37 del total del padrón."

Filatramos la base para que nos queden solo las escuelas con más de 10 alumnos, pues es sobre las que realizaremos la muestra.

escuelas_2<- df_escuelas %>%
   filter(mat_total >= 10) #nos quedamos con las escuelas que tienen 10 matriculados o menos.

Calculamos la cantidad de conglomerados a relevar con esta lógica.

n= ceiling(m_final/10)
## [1] "Obtenemos de esta manera un total de 63 escuelas."

Antes de proseguir con el cálculo de nuestra muestra decidimos ordenar la muestra por sector de gestión y tamaño de matrícula de las escuelas al último relevamiento ministerial (2019), debido a que los análisis realizados de la base APRENDER verifican que el sector de gestión está relacionado con el nivel socioeconómico de las personas y la matrícula nos permite obtener una muestra con escuelas de todos los tamaños posibles.

Consideramos que existe una relación entre la variable continuidad de educación superior universitaria y matrícula del último año de las escuelas, pues es de esperar que la cantidad de alumnos que continúen sus estudios en nivel superior universitario aumente a medida que la matrícula crezca.

df_escuelas_ordenada <- escuelas_2 %>% 
  arrange(sector,mat_total) %>% 
  dplyr::select(id1,sector,mat_total)

head(df_escuelas_ordenada)
##            id1  sector mat_total
## 1 6.557001e+14 Estatal        10
## 2 3.091201e+14 Estatal        11
## 3 4.282500e+14 Estatal        11
## 4 5.257200e+14 Estatal        11
## 5 7.119600e+14 Estatal        11
## 6 2.425200e+14 Estatal        12

Decidimos realizar la selección de los conglomerados con una muestra sistemática de escuelas pues al ordenar por sector de gestión, estaríamos forzando a una estratificación por esta variable en donde la muestra sistemática final nos arrojará la misma proporción de unidades por sector de gestión que la existente en la población.

PASO 1: Calculamos el salto aleatorio

## [1] "El salto aleatorio determinado para nuestra base es de 11"

PASO 2: Realizamos la muestra

Obtenemos las 11 muestras posibles en función del salto aleatorio. A partir de allí sabemos que la probabilidad de selección de primer etapa será de 1/11.

df_escuelas_ordenada$muestra <- rep(c(1:11),             1000)[1:nrow(df_escuelas_ordenada)]

Seleccionamos una muestra de manera aleatoria.

set.seed (15)
sample(c(1:11), 1, replace = FALSE)
## [1] 5
muestra <- df_escuelas_ordenada[df_escuelas_ordenada$muestra==5,]

A los fines de completar el relevamiento, anexamos el listados de aquellas 10 escuelas que si bien no son incorporadas en la muestra por tener menos de 10 alumnos, serán relevadas exahustivamente, por lo que de éstas se considerará el total de casos de manera directa que será sumado a los datos obtenidos del relevamiento antes descripto.

muestra_5 <-muestra %>% dplyr::select(id1,sector,mat_total)
escuelas_3 <- escuelas %>% dplyr::select(id1,sector,mat_total)

muestra_final <- bind_rows(escuelas_3,muestra_5)

muestra_final
##             id1  sector mat_total
## 1  1.649201e+14 Privado         8
## 2  1.839601e+14 Privado         5
## 3  1.932006e+14 Estatal         8
## 4  2.582101e+14 Estatal         9
## 5  2.682558e+14 Estatal         5
## 6  3.646501e+14 Estatal         6
## 7  8.086055e+14 Estatal         5
## 8  8.192162e+14 Estatal         4
## 9  9.212981e+14 Privado         9
## 10 9.850698e+14 Estatal         9
## 11 7.119600e+14 Estatal        11
## 12 1.142100e+14 Estatal        14
## 13 2.735700e+14 Estatal        17
## 14 4.617701e+14 Estatal        19
## 15 1.152005e+14 Estatal        25
## 16 8.433636e+14 Estatal        26
## 17 1.405330e+14 Estatal        30
## 18 3.975700e+14 Estatal        32
## 19 3.423700e+14 Estatal        34
## 20 4.723200e+14 Estatal        36
## 21 3.697200e+14 Estatal        38
## 22 4.723200e+14 Estatal        41
## 23 7.565001e+14 Estatal        43
## 24 9.632100e+14 Estatal        45
## 25 2.605701e+14 Estatal        48
## 26 4.292101e+14 Estatal        50
## 27 2.778000e+14 Estatal        52
## 28 2.912008e+14 Estatal        54
## 29 1.544291e+14 Estatal        57
## 30 2.880243e+14 Estatal        59
## 31 1.812500e+14 Estatal        62
## 32 2.320003e+14 Estatal        65
## 33 2.177701e+14 Estatal        68
## 34 2.531201e+14 Estatal        73
## 35 7.103700e+14 Estatal        76
## 36 8.721002e+14 Estatal        79
## 37 4.809600e+14 Estatal        84
## 38 1.690501e+14 Estatal        91
## 39 1.887701e+14 Estatal        99
## 40 6.658501e+14 Estatal       109
## 41 1.795201e+14 Estatal       123
## 42 6.996003e+14 Estatal       140
## 43 1.027701e+14 Estatal       175
## 44 1.085700e+14 Privado        10
## 45 5.274000e+14 Privado        16
## 46 7.497007e+14 Privado        19
## 47 4.051201e+14 Privado        22
## 48 3.861200e+14 Privado        24
## 49 1.123523e+14 Privado        26
## 50 2.805010e+14 Privado        27
## 51 3.065700e+14 Privado        29
## 52 9.440006e+14 Privado        29
## 53 1.052500e+14 Privado        31
## 54 4.257005e+14 Privado        33
## 55 8.019600e+14 Privado        34
## 56 5.720037e+14 Privado        36
## 57 4.723200e+14 Privado        38
## 58 6.912500e+14 Privado        40
## 59 1.401440e+14 Privado        43
## 60 7.014040e+14 Privado        44
## 61 7.452003e+14 Privado        46
## 62 3.975700e+14 Privado        49
## 63 4.079601e+14 Privado        52
## 64 3.709201e+14 Privado        55
## 65 9.059700e+14 Privado        57
## 66 4.319701e+14 Privado        61
## 67 1.260818e+14 Privado        63
## 68 2.597007e+14 Privado        66
## 69 5.107200e+14 Privado        68
## 70 3.152101e+14 Privado        72
## 71 6.532500e+14 Privado        78
## 72 1.971201e+14 Privado        88
## 73 8.370044e+14 Privado        94
## 74 3.336001e+14 Privado       104
## 75 9.996006e+14 Privado       129
## 76 2.562001e+14 Privado       254

Descargue la muestra seleccionada

A continuación puede descargar la muestra seleccionada para completar las respuestas.

Diseño de instrumento de relevamiento (cuestionario) y documentación metodológica.

Para la realización de este estudio se elabora un cuestionario a completar en cada una de las escuelas seleccionadas en la muestra. El mismo puede descargarse el cuestionario y documentación metodológica aquí