El Ministerio de Educación de la Provincia de Córdoba, quiere hacer un estudio sobre los estudiantes del último año de las escuelas secundarias urbanas, para determinar quiénes seguirán estudios universitarios. Para ello se solicita el diseño de una muestra acorde con una estimación con un error de muestreo del 5 % y un Nivel de Confianza del 95 %.
Se solicita un diseño completo que incluya:
Exploración de fuentes en función de la temática
Búsqueda de antecedentes para tasa de no respuesta
Diseño de a muestra
Diseño de instrumento de relevamiento (cuestionario)
Una vez seleccionada la Muestra, informarla a la Coordinación de la materia, quien enviará respuestas de las encuestas para que procesen el resultado final con la finalidad de estimar el parámetro correspondiente y sus errores de muestreo.
Para construir nuestra muestra trabajaremos con dos fuentes: el Relevamiento Anual (RA) del Ministerio de Educación del año 2019, (del cual tomaremos las matriculas correspondientes a los ciclos básicos y orientados de secundaria en Córdoba) y el Censo del operativo Aprender 2019 que nos provee de algunas variables sociodemográficas relevantes para nuestro relevamiento.
df_ra <- openxlsx::read.xlsx("2021-12-5-Matricula-12-a-14.xlsx") %>% #seleccion de var de RA previam. limpia
janitor::clean_names() %>% #emprolijamos nombre variable
filter(provincia == "Córdoba", #seleccionamos casos de Córdoba del sector urbano accesibles a campo
ambito == "Urbano") %>%
mutate_all(~replace(., is.na(.), 0)) %>%
mutate (mat_total = x12+x13y14) %>% #calculamos la matricula total para ultimo año secund.
filter(mat_total > 0) #nos quedamos con las escuelas que tienen al menos un matriculado
ggplot(df_ra) +
aes(x = mat_total) +
geom_histogram(bins = 30L, fill = "#4682B4") +
labs(x = "Matricula total",
title = "Matricula último año secundaria",
subtitle = "Escuelas urbanas de Córdoba",
caption = "RA - Ministerio de Educación de la Nación") +
theme_minimal()
## [1] "Al año 2019, la matrícula de alumnos de los últimos años de secundaria de escuelas urbanas cordobesas (tanto en su ciclo básico como orientado) era de 41687 alumnos"
En nuestro país, si bien el sistema educativo superior se ha caracterizado por su alto grado de cobertura, su gratuidad no es una condición suficiente que garantice el acceso y permanencia de los estudiantes de menor ingreso. La situación socioeconómica de los jóvenes sigue siendo un factor incidente en la finalización de los estudios secundarios y en el ingreso, permanencia y egreso a los estudios de educación superior (García de Fanelli, 2005).
García de Fanelli (2019) en su estudio sobre el acceso a la educación superior, concluye que los jóvenes de los quintiles más altos de ingreso per cápita tienen una mayor presencia entre los estudiantes y graduados de la educación superior, siendo la necesidad de ingresar al mercado laboral uno de los factores que explican la deserción del estudiantado perteneciente a los sectores más bajos.
Asimismo, Gessaghi & Llinás (2005) afirman que la gran brecha entre los grupos socioeconómicos está dada en la finalización de los estudios secundarios. Así, la segmentación del sistema educativo genera circuitos educativos con diferente calidad. Por lo tanto, si bien todos los jóvenes que finalizan sus estudios secundarios acceden a la misma certificación, quienes tienen mayores condiciones para ingresar y continuar sus estudios son aquellos alumnos que provienen de los circuitos educativos más altos. En esta línea, subrayan que la barrera más importante para el acceso a los estudios terciarios o universitarios se encuentra en el nivel medio e inferior y no en el superior, impactando la deserción universitaria en mayor medida en el 40% de los jóvenes con menor ingreso per cápita familiar.
Con el objeto de ver si podemos encontrar algún método de estratificación, retomamos los datos de Censo del operativo Aprender 2019 para los alumnos de escuelas urbanas de Córdoba, que contiene los mismos identificadores de la base RA.
De esta base tomamos (además de las variables de identificación) dos variables de nuestro interés referentes al nivel socioeconómico:
url_2 = 'https://raw.githubusercontent.com/oblitterator/tecnicas_muestreo/main/Base%20estudiantes%205-6%20a%C3%B1o%20secundaria%202019%20USUARIA%20(Censo%20L%20y%20M)_Cordoba.csv'
df_aprender <- read.csv2(url(url_2), encoding = "UTF-8") %>%
filter (ambito != 2)%>% #Eliminamos las escuelas correspondientes al ámbito rural
dplyr::select("ID1", "sector", "idalumno", "isocioa", "isocioa_puntaje") %>%
filter(!is.na(isocioa_puntaje))
summary(df_aprender)
## ID1 sector idalumno isocioa
## Min. :1.002e+14 Min. :1.000 Min. : 1.0 Min. :1.00
## 1st Qu.:2.142e+14 1st Qu.:1.000 1st Qu.: 6.0 1st Qu.:2.00
## Median :3.533e+14 Median :2.000 Median : 12.0 Median :2.00
## Mean :4.255e+14 Mean :1.513 Mean : 39.9 Mean :2.15
## 3rd Qu.:6.030e+14 3rd Qu.:2.000 3rd Qu.: 20.0 3rd Qu.:3.00
## Max. :9.996e+14 Max. :2.000 Max. :999.0 Max. :3.00
## isocioa_puntaje
## Min. :-2.7028
## 1st Qu.:-0.4299
## Median : 0.1902
## Mean : 0.2275
## 3rd Qu.: 1.0266
## Max. : 1.8168
Debido a que para realizar la muestra partiremos de la información del RA, agruparemos estos datos desagregados por alumno en el Aprender con el fin de juntar las dos bases y ver si nos es útil para estratificar las escuelas. Realizaremos dos tipos de agrupamiento de los alumnos:
Tres variables de frecuencias de alumnos por NSE (bajo, medio, alto, en base a la variable isocioa) para cada escuela.
Promedio de la variable cuantitativa isocioa_puntaje (que nos estaría dando la media de la distribución del z score por escuela)
#Sumarizamos el puntaje por escuela
df_puntaje_escuela <- aggregate(df_aprender$isocioa_puntaje, list(df_aprender$ID1), mean)
names(df_puntaje_escuela) <- c('ID1', 'puntaje_nse')
#Tranformaciones para la creación de variables para cada nivel
df_aprender_nse <- df_aprender %>%
pivot_wider(id_cols = ID1,
names_from = isocioa,
values_from = isocioa,
values_fn = length, names_sort = TRUE,
values_fill = 0)
df_aprender_nse <- df_aprender_nse %>%
mutate(total_censados = rowSums(df_aprender_nse[,2:4]),
porc_bajo = round(df_aprender_nse$'1'/total_censados,2),
porc_medio= round(df_aprender_nse$'2'/total_censados,2),
porc_alto = round(df_aprender_nse$'3'/total_censados,2))
Ahora que hemos procesado nuestra base, hacemos un join para tener el DF final para el análisis previo a la muestra:
df_escuelas <- left_join(df_ra,df_aprender_nse, by = c('id1'='ID1')) %>%
mutate_all(~replace(., is.na(.), 0)) #reemplazo todos los NA con 0
head(df_escuelas)
## id1 provincia sector ambito x12 x13y14 mat_total 1 2 3
## 1 1.001701e+14 Córdoba Privado Urbano 31 0 31 5 23 1
## 2 1.006970e+14 Córdoba Estatal Urbano 91 0 91 14 31 7
## 3 1.008000e+14 Córdoba Privado Urbano 58 0 58 0 31 22
## 4 1.008000e+14 Córdoba Privado Urbano 25 0 25 0 11 11
## 5 1.027701e+14 Córdoba Estatal Urbano 175 0 175 23 97 26
## 6 1.028970e+14 Córdoba Estatal Urbano 96 29 125 14 62 6
## total_censados porc_bajo porc_medio porc_alto
## 1 29 0.17 0.79 0.03
## 2 52 0.27 0.60 0.13
## 3 53 0.00 0.58 0.42
## 4 22 0.00 0.50 0.50
## 5 146 0.16 0.66 0.18
## 6 82 0.17 0.76 0.07
Si observamos a las escuelas que poseen más de un 20% de sus alumnos con un nivel scoioeconómico bajo o alto (extremando las diferencias) podremos ver la relación entre sector de gestión y proporción de alumnos con niveles socioeconómicos altos y bajos
df_escuelas %>%
mutate(marca1 = as.integer(case_when(porc_bajo >= 0.20 ~ "1",
TRUE ~ "0")),
marca2 = as.integer(case_when(porc_alto >= 0.20 ~ "1",
TRUE ~ "0"))) %>%
group_by(sector) %>%
summarise("nivel bajo" = sum(marca1),
"nivel alto" = sum(marca2))
## # A tibble: 2 x 3
## sector `nivel bajo` `nivel alto`
## <chr> <int> <int>
## 1 Estatal 191 44
## 2 Privado 14 271
Ante la imposibilidad de acceder al marco muestral de los alumnos del último año de las escuelas secundarias urbanas de la provincia de Córdoba y considerando que, de tener acceso a estos datos podría sacarse una muestra directa de los alumnos a encuestar y estimar a partir de allí la cantidad de casos favorables de éstos que planean asistir a la universidad, se decidió, para resolver esta faltante, las siguientes posibles estrategias muestrales:
Diseño muestral 1 Considerando a los alumnos como unidad de análisis, generando un muestreo por conglomerados bietápico, seleccionando en una primera etapa colegios y luego al interior de estos por muestreo aleatorio simple 10 alumnos de los últimos cursos en aquellas instituciones que posean de 10 o más alumnos, mientras que en aquellas que no lleguen a esta cantidad de alumnos matriculados se encuestará la totalidad de éstos. Estimaremos con ello el total de casos favorables, a partir del listado de alumnos recabado en el colegio seleccionado al momento de realizar la encuesta.
Diseño muestral 2 Considerando a la escuela como unidad de análisis, seleccionando estas de manera sistemática y haciendo a partir de allí una estimación del total de alumnos de la provincia que va a asistir a la universidad mediante la consulta al total de alumnos de cada escuela seleccionada con intenciones de asistir - estimación del total.
Si bien ambas estrategias tienen sus pro y sus contras, nos decidimos avanzar por la primera, debido a que se solicita que se contemple como unidad de análisis a los alumnos. A continuación desarrollamos el Diseño muestral 1
Determinamos el tamaño de nuestra muestra para estimar casos favorables mediante MAS,teniendo como unidad final de muestreo a los alumnos matriculados en 2019.
Tomaremos los antecedentes para la estimación de la proporción de Farinelli (2019) en donde establece que, en el año 2010 el 34.8% de la población de personas entre 18 y 30 años con secundario completo de nuestro país no asiste ni asistirá a las universidades.
N = sum(df_ra$mat_total)
p = 0.652
q = 1-p
d = 0.05
k = 1.96
m= ceiling((k^2*p*q/d^2)/1+(k^2*p*q/d^2/N))
## [1] "El tamaño de la muestra estimado para un MAS es de 349 alumnos, con un nivel de confianza del 95% y un margen de error 5%"
A los fines de contemplar la no respuesta y, teniendo como antecedente a los datos obtenidos por APRENDER para cada sector de gestión de la provincia de Córdoba, aumentaremos nuestro tamaño muestral un 20%.
m_final = ceiling(m*1.2)
m_final
## [1] 419
Con el propósito de disminuir el efecto diseño, aumentamos nuestra muestra final 1.5 veces.
m_final <- round(m_final*1.5)
m_final
## [1] 628
Recordemos que seleccionaremos por MAS a 10 alumnos del total de alumnos del último ciclo, en aquellas escuelas con 10 o más alumnos con matrícula total al momento del relevamiento. En aquellas escuelas seleccionadas que posean menos alumnos en su matrícula del último ciclo para el año 2021, se encuestarán a todos los alumnos.
Se contemplará la inasistencia como No Respuesta.
## [1] "Estimamos la cantidad de conglomerados a relevar, a sabiendas que de este modo nuestro m final se verá reducido, aunque no significativamente pues el porcentaje total de escuelas con menos de 10 alumnos es del 1.37 del total del padrón."
Filatramos la base para que nos queden solo las escuelas con más de 10 alumnos, pues es sobre las que realizaremos la muestra.
escuelas_2<- df_escuelas %>%
filter(mat_total >= 10) #nos quedamos con las escuelas que tienen 10 matriculados o menos.
Calculamos la cantidad de conglomerados a relevar con esta lógica.
n= ceiling(m_final/10)
## [1] "Obtenemos de esta manera un total de 63 escuelas."
Antes de proseguir con el cálculo de nuestra muestra decidimos ordenar la muestra por sector de gestión y tamaño de matrícula de las escuelas al último relevamiento ministerial (2019), debido a que los análisis realizados de la base APRENDER verifican que el sector de gestión está relacionado con el nivel socioeconómico de las personas y la matrícula nos permite obtener una muestra con escuelas de todos los tamaños posibles.
Consideramos que existe una relación entre la variable continuidad de educación superior universitaria y matrícula del último año de las escuelas, pues es de esperar que la cantidad de alumnos que continúen sus estudios en nivel superior universitario aumente a medida que la matrícula crezca.
df_escuelas_ordenada <- escuelas_2 %>%
arrange(sector,mat_total) %>%
dplyr::select(id1,sector,mat_total)
head(df_escuelas_ordenada)
## id1 sector mat_total
## 1 6.557001e+14 Estatal 10
## 2 3.091201e+14 Estatal 11
## 3 4.282500e+14 Estatal 11
## 4 5.257200e+14 Estatal 11
## 5 7.119600e+14 Estatal 11
## 6 2.425200e+14 Estatal 12
Decidimos realizar la selección de los conglomerados con una muestra sistemática de escuelas pues al ordenar por sector de gestión, estaríamos forzando a una estratificación por esta variable en donde la muestra sistemática final nos arrojará la misma proporción de unidades por sector de gestión que la existente en la población.
## [1] "El salto aleatorio determinado para nuestra base es de 11"
Obtenemos las 11 muestras posibles en función del salto aleatorio. A partir de allí sabemos que la probabilidad de selección de primer etapa será de 1/11.
df_escuelas_ordenada$muestra <- rep(c(1:11), 1000)[1:nrow(df_escuelas_ordenada)]
Seleccionamos una muestra de manera aleatoria.
set.seed (15)
sample(c(1:11), 1, replace = FALSE)
## [1] 5
muestra <- df_escuelas_ordenada[df_escuelas_ordenada$muestra==5,]
A los fines de completar el relevamiento, anexamos el listados de aquellas 10 escuelas que si bien no son incorporadas en la muestra por tener menos de 10 alumnos, serán relevadas exahustivamente, por lo que de éstas se considerará el total de casos de manera directa que será sumado a los datos obtenidos del relevamiento antes descripto.
muestra_5 <-muestra %>% dplyr::select(id1,sector,mat_total)
escuelas_3 <- escuelas %>% dplyr::select(id1,sector,mat_total)
muestra_final <- bind_rows(escuelas_3,muestra_5)
muestra_final
## id1 sector mat_total
## 1 1.649201e+14 Privado 8
## 2 1.839601e+14 Privado 5
## 3 1.932006e+14 Estatal 8
## 4 2.582101e+14 Estatal 9
## 5 2.682558e+14 Estatal 5
## 6 3.646501e+14 Estatal 6
## 7 8.086055e+14 Estatal 5
## 8 8.192162e+14 Estatal 4
## 9 9.212981e+14 Privado 9
## 10 9.850698e+14 Estatal 9
## 11 7.119600e+14 Estatal 11
## 12 1.142100e+14 Estatal 14
## 13 2.735700e+14 Estatal 17
## 14 4.617701e+14 Estatal 19
## 15 1.152005e+14 Estatal 25
## 16 8.433636e+14 Estatal 26
## 17 1.405330e+14 Estatal 30
## 18 3.975700e+14 Estatal 32
## 19 3.423700e+14 Estatal 34
## 20 4.723200e+14 Estatal 36
## 21 3.697200e+14 Estatal 38
## 22 4.723200e+14 Estatal 41
## 23 7.565001e+14 Estatal 43
## 24 9.632100e+14 Estatal 45
## 25 2.605701e+14 Estatal 48
## 26 4.292101e+14 Estatal 50
## 27 2.778000e+14 Estatal 52
## 28 2.912008e+14 Estatal 54
## 29 1.544291e+14 Estatal 57
## 30 2.880243e+14 Estatal 59
## 31 1.812500e+14 Estatal 62
## 32 2.320003e+14 Estatal 65
## 33 2.177701e+14 Estatal 68
## 34 2.531201e+14 Estatal 73
## 35 7.103700e+14 Estatal 76
## 36 8.721002e+14 Estatal 79
## 37 4.809600e+14 Estatal 84
## 38 1.690501e+14 Estatal 91
## 39 1.887701e+14 Estatal 99
## 40 6.658501e+14 Estatal 109
## 41 1.795201e+14 Estatal 123
## 42 6.996003e+14 Estatal 140
## 43 1.027701e+14 Estatal 175
## 44 1.085700e+14 Privado 10
## 45 5.274000e+14 Privado 16
## 46 7.497007e+14 Privado 19
## 47 4.051201e+14 Privado 22
## 48 3.861200e+14 Privado 24
## 49 1.123523e+14 Privado 26
## 50 2.805010e+14 Privado 27
## 51 3.065700e+14 Privado 29
## 52 9.440006e+14 Privado 29
## 53 1.052500e+14 Privado 31
## 54 4.257005e+14 Privado 33
## 55 8.019600e+14 Privado 34
## 56 5.720037e+14 Privado 36
## 57 4.723200e+14 Privado 38
## 58 6.912500e+14 Privado 40
## 59 1.401440e+14 Privado 43
## 60 7.014040e+14 Privado 44
## 61 7.452003e+14 Privado 46
## 62 3.975700e+14 Privado 49
## 63 4.079601e+14 Privado 52
## 64 3.709201e+14 Privado 55
## 65 9.059700e+14 Privado 57
## 66 4.319701e+14 Privado 61
## 67 1.260818e+14 Privado 63
## 68 2.597007e+14 Privado 66
## 69 5.107200e+14 Privado 68
## 70 3.152101e+14 Privado 72
## 71 6.532500e+14 Privado 78
## 72 1.971201e+14 Privado 88
## 73 8.370044e+14 Privado 94
## 74 3.336001e+14 Privado 104
## 75 9.996006e+14 Privado 129
## 76 2.562001e+14 Privado 254
A continuación puede descargar la muestra seleccionada para completar las respuestas.
Para la realización de este estudio se elabora un cuestionario a completar en cada una de las escuelas seleccionadas en la muestra. El mismo puede descargarse el cuestionario y documentación metodológica aquí