Introducción
El presente documento, es un análisis de una muestra aleatoria simple de los valores de matrícula de los estudiantes del programa de Medicina y Enfermeria de la Universidad Surcolombiana sede Neiva para el año 2021. Se emplea como fuente de información la “Base De datos Estudiantes Matriculados Programas De Pregrado Usco 2021” suministrada por el docente Jaime Polanía Perdomo de la Especialización en Estadística.
Descripción del problema
De manera inicial, el problema trata de hacer una inferencia de si existe o no una diferencia significativa entre el promedio del valor del semestre del programa de Medicina y el programa de Enfermeria de la Universidad Surcolombiana. La razón de ser de este problema, radica en la situación/problema actual de la gratuidad en la matrícula financiera de programas académicos en universidades públicas en Colombia, y así, encontrar una posibilidad de que el el valor de la matrícula pueda influir al momento de elegir entre el Programa de Medicina y Enfermeria (el caso del aspirante de escasos recursos).
Descripción de los Datos
La base de información a tratar, es la de los estudiantes matriculados en el año 2021. En la siguiente línea se hace el “cargue” de la base de datos:
BD <- read.delim("~/Eps_Estadistica/5__Inferencia Estadistica/Taller Parcial/bd1.txt", comment.char="#", header = TRUE)
names(BD)
## [1] "id" "programa" "Estrato" "Renta"
## [5] "Valor.Matricula"
Como se puede apreciar, la base de datos consta de 4 variables importantes: el programa académico, el estrato social, el valor de renta y el valor de la matrícula.
Un resumen descriptivo de cada variable es presentado acá. Éste nos da indicio de un comprtamiento de dispersión, al igual del tipo de variable que hay en ella.
Esta Base de Datos será nuestro universo.
summary(BD)
## id programa Estrato Renta
## Min. : 1 Length:13687 Length:13687 Min. :1.154e+05
## 1st Qu.: 3422 Class :character Class :character 1st Qu.:7.392e+06
## Median : 6844 Mode :character Mode :character Median :9.858e+06
## Mean : 6844 Mean :2.419e+07
## 3rd Qu.:10266 3rd Qu.:1.978e+07
## Max. :13687 Max. :3.796e+09
## Valor.Matricula
## Min. : 117922
## 1st Qu.: 381626
## Median : 420386
## Mean : 632519
## 3rd Qu.: 700004
## Max. :3776068
Población
Como población de estudio, tomaremos los estudiantes matriculados a los programas de Medicina y Enfermeria
MEDICINA <- subset(BD, programa== "NEIVA.-.MEDICINA")
summary(MEDICINA)
## id programa Estrato Renta
## Min. : 18 Length:737 Length:737 Min. :1.200e+06
## 1st Qu.: 3544 Class :character Class :character 1st Qu.:9.000e+06
## Median : 6999 Mode :character Mode :character Median :1.900e+07
## Mean : 6797 Mean :4.969e+07
## 3rd Qu.:10209 3rd Qu.:4.578e+07
## Max. :13678 Max. :3.796e+09
## Valor.Matricula
## Min. : 209838
## 1st Qu.: 398783
## Median : 632004
## Mean : 923252
## 3rd Qu.:1335335
## Max. :3009323
ENFERMERIA <- subset(BD, programa== "NEIVA.-.ENFERMERIA")
summary(ENFERMERIA)
## id programa Estrato Renta
## Min. : 5 Length:391 Length:391 Min. : 2400000
## 1st Qu.: 3454 Class :character Class :character 1st Qu.: 8920000
## Median : 6473 Mode :character Mode :character Median : 15971983
## Mean : 6597 Mean : 32029764
## 3rd Qu.: 9439 3rd Qu.: 37194220
## Max. :13684 Max. :787443000
## Valor.Matricula
## Min. : 276039
## 1st Qu.: 402407
## Median : 536219
## Mean : 831720
## 3rd Qu.:1247978
## Max. :2571298
Muestra
Nuestra muestra consta de 100 estudiantes matriculados por cada programa, y serán escogidos con un muestreo aleatorio simple.
muestra_medicina<- sample(1:nrow(MEDICINA),size=100,replace=FALSE)
Matricula_Medicina<-BD$Valor.Matricula[muestra_medicina]
muestra_enfermeria<- sample(1:nrow(ENFERMERIA),size=100,replace=FALSE)
Matricula_Enfermeria<-BD$Valor.Matricula[muestra_enfermeria]
Como variable de estudio escogemos el valor de matrícula, el parámetro será la media poblacional de dicha variable, y el estimador será la media muestral de dicha población.
Gráfico Q-Q plot
Presentamos la prueba visual Q-Q plot de validación de normalidad para cada una de las muestras.
par(mfrow = c(1, 2))
qqnorm(Matricula_Medicina); qqline(Matricula_Medicina)
qqnorm(Matricula_Enfermeria); qqline(Matricula_Enfermeria)
Como se puede apreciar en la anterior gráfica, no hay un comportamiento normal de los datos de las muestras, ya que no hay un ajuste a la diagonal inscrita en cada gráfico
(Gráfico izquierdo: Muestra Medicina)
(Gráfico Derecho: Muestra Enfermeria)
Histogramas
Para los siguientes gráficos, notamos un sesgo positivo de los datos, es decir, una tendencia a valores bajos de matrícula académica.
par(mfrow = c(1, 2))
hist(Matricula_Medicina, main = "Histograma de Datos", col = "lightblue", border = "black")
hist(Matricula_Enfermeria, main = "Histograma de Datos", col = "lightblue", border = "black")
Prueba de Shapiro-Wilk
Procedemos a hacer la prueba de normalidad Shapiro-Wilk para cada una de las muestras.
shapiro.test(Matricula_Medicina)
##
## Shapiro-Wilk normality test
##
## data: Matricula_Medicina
## W = 0.73283, p-value = 3.371e-12
shapiro.test(Matricula_Enfermeria)
##
## Shapiro-Wilk normality test
##
## data: Matricula_Enfermeria
## W = 0.65948, p-value = 6.752e-14
Como era de esperarse, ninguna de las muestras tienen un comportamiento normal, pues el test arrojó valores de prueba muy por debajo de \(0,05\).
Esto conlleva a realizar una prueba No Paramétrica de validación de hipótesis. Para este caso, tomaremos la “Prueba de la Suma de Rangos de Wilcoxon (Mann-Whitney U)”.
Prueba de la Suma de Rangos de Wilcoxon (Mann-Whitney U)
Aquí definimos un vector concadenado de los valores de muestra de cada programa.
Valores_Matriculas = c(Matricula_Medicina, Matricula_Enfermeria)
Problema:
Determinar si hay diferencias significativas entre los valores de matrícula de los programas de Medicina y Enfermería.
Definimos las hipótesis:
\(H0:\) No existe diferencia significativa entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.
\(H1:\) Si existe diferencia significativa entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.
# Realizar la prueba de la suma de rangos de Wilcoxon (Mann-Whitney U)
resultado_wilcoxon <- wilcox.test(Valores_Matriculas)
print(resultado_wilcoxon)
##
## Wilcoxon signed rank test with continuity correction
##
## data: Valores_Matriculas
## V = 20100, p-value < 2.2e-16
## alternative hypothesis: true location is not equal to 0
Inferencia de datos:
# Análisis de resultados
if (resultado_wilcoxon$p.value < 0.05) {
cat("Hay diferencias significativas entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.")
} else {
cat("No hay suficiente evidencia para afirmar diferencias significativas.")
}
## Hay diferencias significativas entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.
Conclusiones
Tras una evidente similitud del comportamiento en la distribucion de los valores de matrícula entre los programas pregrado de Enfermeria y Medicina, no es posible afirmar que no hay diferencia entre sus valores promedio de matrícula, pues al validar la hipótesis nula que enuncia la ausencia de diferencia significativa entre estas medias, el test de prueba de Wilcoxon (Mann-Whitney U) nos da un valor muy por debajo del \(0,05\), lo que nos lleva a Rechazar a \(H0\) y considerar a \(H1\).
Tener un comportamiento de dispersión similar no implica tener una valor descriptivo (como la media) similar. Es posible que esta similitud en la distribución de los valores de matrícula se deba a la afinidad de los programas en cuestión, pues pertenecen a la misma facultad, por lo que habría un tendencia de personas con características similiares (estrato o condición monetaria) en busca un mismo perfil profesional.
Existe un rango bastante amplio entre los valores de matrícula académica entra cada pregrado estudiado, lo que incita a considerar la heterogeneidad de las clases sociales estudiando dichos programas académicos.
Es de considerar, el alto costo del valor de matrícula de algunos estudiantes de los pregrados en cuestión, se debe insistir en los procesos de gratuidad de la matrícula para los y las jóvenes que desean acceder a la educación pública en la región, para que no sigan existiendo brechas económicas tan marcadas, y más personas puedan acceder a una educación de calidad, que les genere las oportunidad de transformar sus condiciones económicas y materiales actuales, siendo a su vez, agentes de cambio.
Recomendaciones
Como sugerencia para otro posible trabajo, será hacer un proceso análogo a este, cambiando únicamente los pregrados en cuestion. Por ejemplo: tomar los progamas de Matemática Aplicada, Física y Biología Aplicada y aplicar una prueba como la Kruskal-Wallis.
Referencias
Mayorga, Rocío. Graciano, Diana. Hernández, Anahí. Moctezuma, Paola M. Pérez, Berenice y Roldan, Adamary. (2022). Cuadro comparativo de Análisis Paramétrico y No Paramétrico. Educación y Salud Boletín Científico Instituto de Ciencias de la Salud Universidad Autónoma del Estado de Hidalgo.
Mayorga, Humberto. (2004) Inferencia Esdística. Universidad Nacional de Colombia