Universidad Surcolombiana - Especialización en Estadística
Author
Sergio Andres Beltran, William Steiner Morales, Daniel Santiago Ortiz, Juan Pablo Donato
Published
April 4, 2026
1 Planteamiento del Problema
Los estudiantes de la Universidad Surcolombiana afirman que el valor de la matrícula en pregrado (Acuerdo 050 de 2015) es muy costosa, señalando que más del 50% de los estudiantes pagan más de medio salario mínimo por concepto de matrícula.
Preguntas de investigación:
¿Existe evidencia suficiente para afirmar que el costo promedio de la matrícula en los programas de Pregrado está por encima de medio salario mínimo ($500.000)?
¿Más del 50% de los estudiantes de pregrado pagan más de medio salario mínimo?
NoteNota
El SMMLV 2022 en Colombia fue de $1.000.000, por lo tanto medio SMMLV = $500.000.
1.1 Objetivos
1.1.1 Objetivo General
Determinar, mediante cinco diseños muestrales distintos, si la percepción de los estudiantes sobre el alto costo de la matrícula es estadísticamente sustentable, comparando los resultados entre métodos probabilísticos y no probabilísticos.
1.1.2 Objetivos Específicos
Preparar el marco muestral con la base de datos completa de todos los programas de pregrado (N = 13.687).
Calcular el tamaño de muestra adecuado para estimar la media y la proporción con precisión.
Aplicar cinco métodos de muestreo: Aleatorio Simple (MAS), Sistemático, No Probabilístico, Estratificado y por Conglomerados.
Realizar inferencia estadística mediante intervalos de confianza al 95% y pruebas de hipótesis.
Comparar la eficiencia y sesgo de cada método frente a los parámetros poblacionales reales.
2 Limpieza y Preparación del Marco Muestral
Code
datos <-read.csv("C:/Users/ESTUDIANTES/Documents/Working Holydays/2.0Base dedatosMatriculaPreUSCO2022.csv",header =TRUE, sep =";", fileEncoding ="latin1")datos <-clean_names(datos)names(datos) <-c("id_orig", "programas", "estrato_social", "declara_renta", "der_matricula")N <-nrow(datos)datos$id <-1:Nmat <- datos$der_matricula# Limpiar estrato social: agrupar valores atípicosdatos$estrato_clean <-as.character(datos$estrato_social)datos$estrato_clean[datos$estrato_clean %in%c("0", "NULL", "")] <-"1"datos$estrato_clean[datos$estrato_clean %in%c("5", "7")] <-"4"datos$estrato_clean <-as.numeric(datos$estrato_clean)cat("Población total N =", N, "\n")
NEIVA - LICENCIATURA EN LITERATURA Y LENGUA CASTELLANA
1
307909
2
LA PLATA - PSICOLOGIA
1
287764
3
NEIVA - ADMINISTRACION DE EMPRESAS (DIURNA)
2
1564376
4
NEIVA - INGENIERIA DE PETROLEOS
2
709779
5
NEIVA - ENFERMERIA
2
1188128
6
NEIVA - ECONOMIA
3
1899080
7
NEIVA - DERECHO (NOCTURNA)
3
387093
8
NEIVA - DERECHO (NOCTURNA)
3
387093
9
NEIVA - CONTADURIA PUBLICA (NOCTURNA)
2
1094169
10
NEIVA - INGENIERIA DE PETROLEOS
2
1567952
WarningAdvertencia
Este muestreo NO es probabilístico. Sus resultados NO son generalizables. Se incluye SOLO con fines comparativos.
5.4 Muestreo Aleatorio Estratificado
Se utiliza el Estrato Social como variable de estratificación con asignación proporcional: cada estrato aporta a la muestra en proporción a su peso en la población.
Code
# Tabla de estratos con tamaños y pesosinfo_estratos <- datos %>%group_by(estrato_clean) %>%summarise(N_h =n(), Media_h =mean(der_matricula), S_h =sd(der_matricula),P_h =sum(der_matricula >500000) /n()) %>%mutate(W_h = N_h / N, n_h =pmax(2, round(n_final * W_h)))# Ajustar para que sumen n_finaldiff_n <- n_final -sum(info_estratos$n_h)if (diff_n !=0) { idx_max <-which.max(info_estratos$N_h) info_estratos$n_h[idx_max] <- info_estratos$n_h[idx_max] + diff_n}kable(info_estratos,caption ="Asignación Proporcional por Estrato",col.names =c("Estrato", "N_h", "Media ($)", "Desv. Est.", "P(>500k)", "W_h", "n_h"),digits =c(0, 0, 0, 0, 4, 4, 0),format.args =list(big.mark =".", decimal.mark =",")) %>%kable_styling(bootstrap_options =c("striped", "hover"), full_width =FALSE)
Se utilizan los programas académicos como conglomerados. Se presentan dos versiones:
Versión A (una etapa): Se seleccionan aleatoriamente \(m\) programas y se incluyen todos los estudiantes.
Versión B (dos etapas): Se seleccionan los mismos \(m\) programas, pero dentro de cada uno se toma una sub-muestra proporcional para alcanzar un \(n\) comparable al de los demás diseños (~794).
5.5.1 Versión A — Una Etapa (censo dentro de cada cluster)
Code
M_total <-length(unique(datos$programas))m_sel <-10# Información de todos los conglomeradosinfo_cong <- datos %>%group_by(programas) %>%summarise(M_i =n(), Media_i =mean(der_matricula), Total_i =sum(der_matricula)) %>%arrange(desc(M_i))# Selección aleatoria de m programas (SRS de clusters)set.seed(2022)programas_sel <-sample(unique(datos$programas), m_sel)muestra_cong_1e <- datos[datos$programas %in% programas_sel, ]resumen_cong_1e <- muestra_cong_1e %>%group_by(programas) %>%summarise(n =n(),Media =fmt(mean(der_matricula)),P_mayor_500k =fmt(sum(der_matricula >500000) /n() *100, 2) )kable(resumen_cong_1e,caption =paste0("Versión A — Programas seleccionados (m = ", m_sel, " de ", M_total, ")"),col.names =c("Programa", "n (todos)", "Media ($)", "P(>500k) %"),align =c("l", "r", "r", "r")) %>%kable_styling(bootstrap_options =c("striped", "hover", "condensed"), full_width =FALSE) %>%row_spec(0, background ="#8F141B", color ="white", bold =TRUE)
Versión A — Programas seleccionados (m = 10 de 54)
Programa
n (todos)
Media ($)
P(>500k) %
LA PLATA - INGENIERIA AGRICOLA
137
419.654
17,52
NEIVA - BIOLOGIA APLICADA
183
763.887
60,11
NEIVA - ECONOMIA
328
761.998
55,79
NEIVA - INGENIERIA AGRICOLA
301
557.799
31,56
NEIVA - INGENIERIA DE PETROLEOS
300
857.614
58,33
NEIVA - LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN EDUCACION FISICA, RECREACION Y DEPORTE
12
357.982
0,00
NEIVA - LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN HUMANIDADES, LENGUA EXTRANJERA-INGLES
32
468.951
12,50
NEIVA - LICENCIATURA EN INGLES
325
669.806
47,38
PITALITO - ADMINISTRACION DE EMPRESAS (NOCTURNA)
281
459.947
20,64
PITALITO - COMUNICACION SOCIAL Y PERIODISMO
125
470.970
18,40
Code
cat("Tamaño total muestra 1 etapa:", nrow(muestra_cong_1e), "\n")
Tamaño total muestra 1 etapa: 2024
5.5.2 Versión B — Dos Etapas (sub-muestreo proporcional dentro de cada cluster)
Code
# Mismos programas seleccionados, pero sub-muestreo proporcionaln_objetivo_cong <- n_final # objetivo: mismo n que los otros diseños# Calcular n por programa proporcional a su tamañocong_sel_info <-data.frame(programa = programas_sel,N_i =sapply(programas_sel, function(p) sum(datos$programas == p)))cong_sel_info$w_i <- cong_sel_info$N_i /sum(cong_sel_info$N_i)cong_sel_info$n_i <-pmax(2, round(n_objetivo_cong * cong_sel_info$w_i))# Ajustar para que sumen n_objetivo_congdiff_cong <- n_objetivo_cong -sum(cong_sel_info$n_i)if (diff_cong !=0) { idx_max_cong <-which.max(cong_sel_info$N_i) cong_sel_info$n_i[idx_max_cong] <- cong_sel_info$n_i[idx_max_cong] + diff_cong}# Extraer sub-muestrasset.seed(2022)muestra_cong_2e <-data.frame()for (j in1:nrow(cong_sel_info)) { prog_j <- datos[datos$programas == cong_sel_info$programa[j], ] idx_j <-sample(1:nrow(prog_j), min(cong_sel_info$n_i[j], nrow(prog_j))) muestra_cong_2e <-rbind(muestra_cong_2e, prog_j[idx_j, ])}resumen_cong_2e <- muestra_cong_2e %>%group_by(programas) %>%summarise(n_sub =n(),Media =fmt(mean(der_matricula)),P_mayor_500k =fmt(sum(der_matricula >500000) /n() *100, 2) )kable(cbind( resumen_cong_2e,N_programa = cong_sel_info$N_i[match(resumen_cong_2e$programas, cong_sel_info$programa)] ),caption =paste0("Versión B — Sub-muestreo proporcional (n objetivo ≈ ", n_objetivo_cong, ")"),col.names =c("Programa", "n sub-muestra", "Media ($)", "P(>500k) %", "N programa"),align =c("l", "r", "r", "r", "r")) %>%kable_styling(bootstrap_options =c("striped", "hover", "condensed"), full_width =FALSE) %>%row_spec(0, background ="#8F141B", color ="white", bold =TRUE)
Versión B — Sub-muestreo proporcional (n objetivo ≈ 794)
Programa
n sub-muestra
Media ($)
P(>500k) %
N programa
LA PLATA - INGENIERIA AGRICOLA
54
424.932
18,52
137
NEIVA - BIOLOGIA APLICADA
72
813.992
61,11
183
NEIVA - ECONOMIA
128
779.288
59,38
328
NEIVA - INGENIERIA AGRICOLA
118
577.972
33,90
301
NEIVA - INGENIERIA DE PETROLEOS
118
847.429
57,63
300
NEIVA - LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN EDUCACION FISICA, RECREACION Y DEPORTE
5
347.997
0,00
12
NEIVA - LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN HUMANIDADES, LENGUA EXTRANJERA-INGLES
13
488.708
7,69
32
NEIVA - LICENCIATURA EN INGLES
127
625.401
43,31
325
PITALITO - ADMINISTRACION DE EMPRESAS (NOCTURNA)
110
474.300
23,64
281
PITALITO - COMUNICACION SOCIAL Y PERIODISMO
49
488.922
20,41
125
Code
cat("Tamaño total muestra 2 etapas:", nrow(muestra_cong_2e), "\n")
Tamaño total muestra 2 etapas: 794
Code
# Para el resto del análisis, usar la versión 1 etapa como "Cong. 1 etapa"# y la versión 2 etapas como "Cong. 2 etapas"muestra_cong <- muestra_cong_1e # mantener compatibilidad
6 Estimación Puntual y Error Estándar
Code
# Función para MAS, Sistemático y No Probabilísticocalc_ee <-function(muestra_x, N_pob, nombre) { n_m <-length(muestra_x) y_bar <-mean(muestra_x) s_m <-sd(muestra_x) ee_media <-sqrt((N_pob - n_m) / N_pob) * (s_m /sqrt(n_m)) p_m <-sum(muestra_x >500000) / n_m q_m <-1- p_m ee_prop <-sqrt((N_pob - n_m) / (N_pob -1)) *sqrt(p_m * q_m / n_m)data.frame(Muestra = nombre, n = n_m,Media_y =round(y_bar, 2), EE_media =round(ee_media, 2),Prop_p =round(p_m, 4), EE_prop =round(ee_prop, 4))}ee_mas <-calc_ee(muestra_mas$der_matricula, N, "MAS")ee_sist <-calc_ee(muestra_sist$der_matricula, N, "Sistemático")ee_conv <-calc_ee(muestra_conv$der_matricula, N, "No Probabilístico")
El muestreo estratificado típicamente produce el menor error estándar. El conglomerados de 1 etapa tiene mayor EE (correlación intra-cluster) pero usa todos los estudiantes del cluster. El de 2 etapas tiene un n comparable a los demás diseños pero agrega varianza adicional por el sub-muestreo.
9 Validacion, Analisis Comparativo y Comparacion con la Poblacion
NoteNota
Este paso es posible porque se tiene acceso a toda la poblacion (\(N = 13.686\)). En la practica esto no siempre ocurre, pero cuando se dispone del marco completo es una herramienta de validacion muy valiosa.
# DEFF: comparar varianza de cada metodo con la varianza del MASvar_mas <- ee_mas$EE_media^2deff <-data.frame(Metodo = tabla_ee$Muestra,EE_media = tabla_ee$EE_media,DEFF =round(tabla_ee$EE_media^2/ var_mas, 4),Interpretacion =ifelse( tabla_ee$EE_media^2/ var_mas <1, "Mas eficiente que MAS",ifelse(tabla_ee$EE_media^2/ var_mas ==1, "Igual que MAS", "Menos eficiente que MAS")))kable(deff,caption ="Efecto de Diseno (DEFF) - Comparacion con MAS",col.names =c("Metodo", "EE(media)", "DEFF", "Interpretacion")) %>%kable_styling(bootstrap_options =c("striped", "hover"), full_width =FALSE)
Efecto de Diseno (DEFF) - Comparacion con MAS
Metodo
EE(media)
DEFF
Interpretacion
MAS
15886.19
1.0000
Igual que MAS
Sistemático
16037.10
1.0191
Menos eficiente que MAS
No Probabilístico
17280.30
1.1832
Menos eficiente que MAS
Estratificado
14020.27
0.7789
Mas eficiente que MAS
Cong. 1 etapa
39408.68
6.1538
Menos eficiente que MAS
Cong. 2 etapas
17922.77
1.2728
Menos eficiente que MAS
ImportantInterpretación del DEFF
Un DEFF < 1 indica que el metodo es mas eficiente que el MAS (menor varianza). El estratificado tipicamente tiene DEFF < 1 porque controla la variabilidad entre estratos. El de conglomerados tipicamente tiene DEFF > 1 por la correlacion intra-cluster.
10 Discusion de Resultados
10.1 Hallazgos principales
Sobre la media de matricula: El promedio poblacional es $632.540, lo cual SI supera medio SMMLV ($500.000). Sin embargo, la mediana es solo $420.386, lo que indica una distribucion asimetrica positiva donde unos pocos estudiantes con matriculas altas elevan el promedio.
Sobre la proporcion que paga mas de $500.000: Solo el 39.58% de los estudiantes pagan mas de medio SMMLV. Es decir, la afirmacion de que “mas del 50% paga mas de medio salario minimo” NO es correcta segun los datos poblacionales reales. En realidad, la mayoria (60.42%) paga menos de $500.000.
Paradoja media vs proporcion: Aunque el PROMEDIO supera los $500.000, esto no significa que la MAYORIA pague mas de $500.000. Esto se explica por la asimetria de la distribucion: unos pocos estudiantes (posiblemente de estratos altos o programas como Medicina) pagan matriculas muy altas que “jalan” el promedio hacia arriba, mientras que la mayoria paga valores relativamente bajos.
10.2 Comparacion de metodos de muestreo
MAS y Sistematico: Ambos metodos probabilisticos producen estimaciones similares y cercanas a los parametros reales. Garantizan que cada unidad tiene probabilidad conocida de seleccion.
Muestreo Estratificado: Al usar el estrato social como variable de estratificacion, se controla la variabilidad dentro de cada estrato. Esto tipicamente produce un error estandar menor que el MAS (DEFF < 1), demostrando la ganancia por estratificacion.
Muestreo por Conglomerados: Al seleccionar programas completos, los estudiantes dentro de un mismo programa tienden a tener matriculas similares (correlacion intra-cluster). Esto produce un error estandar mayor que el MAS (DEFF > 1). Sin embargo, es mas practico logisticamente.
Muestreo No Probabilistico: Toma los primeros registros del marco. Si los datos estan ordenados por programa (como es el caso), este metodo introduce sesgo sistematico al sobre-representar algunos programas y excluir otros completamente.
10.3 Reflexion metodologica
Superioridad del Estratificado: Para estimar parametros globales con maxima precision, el muestreo estratificado con asignacion proporcional es el mejor metodo, ya que aprovecha la informacion de la estructura de la poblacion.
Utilidad del Conglomerados: Aunque menos preciso, el muestreo por conglomerados es mas economico en la practica real, porque solo se necesita acceder a los programas seleccionados, no a toda la universidad.
Relevancia del CV: El alto coeficiente de variacion (72.04%) indica gran heterogeneidad en los valores de matricula, lo que justifica el uso de metodos que controlen esta variabilidad (como el estratificado).
11 Conclusiones y Recomendaciones
Promedio estimado de matricula (MAS): $635.093. IC 95%: [$603.956 ; $666.230]
Proporcion que paga mas de medio SMMLV (MAS): 38.66%. IC 95%: [35.37% ; 41.95%]
La matricula promedio SI supera los $500.000. La prueba (Zc = 8.5038 > 1.645) muestra evidencia significativa.
NO es cierto que mas del 50% pague mas de medio SMMLV. La prueba NO rechaza H0 (Zc = -6.3908 < 1.645). Solo ~40% paga mas de $500.000.
Metodo mas eficiente: El muestreo estratificado por estrato social demostro ser el mas eficiente (menor EE) para estimar tanto la media como la proporcion.
Metodo mas practico: El muestreo por conglomerados (por programa) es el mas practico logisticamente, aunque sacrifica precision.
Recomendaciones para la administracion:
La percepcion de “matricula costosa” se sustenta parcialmente: el promedio supera medio SMMLV, pero la mayoria de estudiantes paga menos de $500.000
La distribucion es altamente asimetrica: unos pocos pagan mucho y muchos pagan poco
Se recomienda revisar el Acuerdo 050 de 2015 considerando esta asimetria
Para futuros estudios, utilizar muestreo estratificado por estrato social para mayor precision