Análisis Exploratorio de Datos

Introducción

El presente documento, es un análisis de una muestra aleatoria simple de los valores de matrícula de los estudiantes del programa de Medicina y Enfermeria de la Universidad Surcolombiana sede Neiva para el año 2021. Se emplea como fuente de información la “Base De datos Estudiantes Matriculados Programas De Pregrado Usco 2021” suministrada por el docente Jaime Polanía Perdomo de la Especialización en Estadística.

Descripción del problema

De manera inicial, el problema trata de hacer una inferencia de si existe o no una diferencia significativa entre el promedio del valor del semestre del programa de Medicina y el programa de Enfermeria de la Universidad Surcolombiana. La razón de ser de este problema, radica en la situación/problema actual de la gratuidad en la matrícula financiera de programas académicos en universidades públicas en Colombia, y así, encontrar una posibilidad de que el el valor de la matrícula pueda influir al momento de elegir entre el Programa de Medicina y Enfermeria (el caso del aspirante de escasos recursos).

Descripción de los Datos

La base de información a tratar, es la de los estudiantes matriculados en el año 2021. En la siguiente línea se hace el “cargue” de la base de datos:

BD <- read.delim("~/Eps_Estadistica/5__Inferencia Estadistica/Taller Parcial/bd1.txt", comment.char="#", header = TRUE)

names(BD)
## [1] "id"              "programa"        "Estrato"         "Renta"          
## [5] "Valor.Matricula"

Como se puede apreciar, la base de datos consta de 4 variables importantes: el programa académico, el estrato social, el valor de renta y el valor de la matrícula.

Un resumen descriptivo de cada variable es presentado acá. Éste nos da indicio de un comprtamiento de dispersión, al igual del tipo de variable que hay en ella.

Esta Base de Datos será nuestro universo.

summary(BD)
##        id          programa           Estrato              Renta          
##  Min.   :    1   Length:13687       Length:13687       Min.   :1.154e+05  
##  1st Qu.: 3422   Class :character   Class :character   1st Qu.:7.392e+06  
##  Median : 6844   Mode  :character   Mode  :character   Median :9.858e+06  
##  Mean   : 6844                                         Mean   :2.419e+07  
##  3rd Qu.:10266                                         3rd Qu.:1.978e+07  
##  Max.   :13687                                         Max.   :3.796e+09  
##  Valor.Matricula  
##  Min.   : 117922  
##  1st Qu.: 381626  
##  Median : 420386  
##  Mean   : 632519  
##  3rd Qu.: 700004  
##  Max.   :3776068

Población

Como población de estudio, tomaremos los estudiantes matriculados a los programas de Medicina y Enfermeria

MEDICINA <- subset(BD, programa== "NEIVA.-.MEDICINA") 
summary(MEDICINA)
##        id          programa           Estrato              Renta          
##  Min.   :   18   Length:737         Length:737         Min.   :1.200e+06  
##  1st Qu.: 3544   Class :character   Class :character   1st Qu.:9.000e+06  
##  Median : 6999   Mode  :character   Mode  :character   Median :1.900e+07  
##  Mean   : 6797                                         Mean   :4.969e+07  
##  3rd Qu.:10209                                         3rd Qu.:4.578e+07  
##  Max.   :13678                                         Max.   :3.796e+09  
##  Valor.Matricula  
##  Min.   : 209838  
##  1st Qu.: 398783  
##  Median : 632004  
##  Mean   : 923252  
##  3rd Qu.:1335335  
##  Max.   :3009323
ENFERMERIA <- subset(BD, programa== "NEIVA.-.ENFERMERIA") 
summary(ENFERMERIA)
##        id          programa           Estrato              Renta          
##  Min.   :    5   Length:391         Length:391         Min.   :  2400000  
##  1st Qu.: 3454   Class :character   Class :character   1st Qu.:  8920000  
##  Median : 6473   Mode  :character   Mode  :character   Median : 15971983  
##  Mean   : 6597                                         Mean   : 32029764  
##  3rd Qu.: 9439                                         3rd Qu.: 37194220  
##  Max.   :13684                                         Max.   :787443000  
##  Valor.Matricula  
##  Min.   : 276039  
##  1st Qu.: 402407  
##  Median : 536219  
##  Mean   : 831720  
##  3rd Qu.:1247978  
##  Max.   :2571298

Muestra

Nuestra muestra consta de 100 estudiantes matriculados por cada programa, y serán escogidos con un muestreo aleatorio simple.

muestra_medicina<- sample(1:nrow(MEDICINA),size=100,replace=FALSE)
Matricula_Medicina<-BD$Valor.Matricula[muestra_medicina]

muestra_enfermeria<- sample(1:nrow(ENFERMERIA),size=100,replace=FALSE)
Matricula_Enfermeria<-BD$Valor.Matricula[muestra_enfermeria]

Como variable de estudio escogemos el valor de matrícula, el parámetro será la media poblacional de dicha variable, y el estimador será la media muestral de dicha población.

Prueba de Normalidad

Gráfico Q-Q plot

Presentamos la prueba visual Q-Q plot de validación de normalidad para cada una de las muestras.

par(mfrow = c(1, 2))
qqnorm(Matricula_Medicina); qqline(Matricula_Medicina)
qqnorm(Matricula_Enfermeria); qqline(Matricula_Enfermeria)

Como se puede apreciar en la anterior gráfica, no hay un comportamiento normal de los datos de las muestras, ya que no hay un ajuste a la diagonal inscrita en cada gráfico

(Gráfico izquierdo: Muestra Medicina)

(Gráfico Derecho: Muestra Enfermeria)

Histogramas

Para los siguientes gráficos, notamos un sesgo positivo de los datos, es decir, una tendencia a valores bajos de matrícula académica.

par(mfrow = c(1, 2))
hist(Matricula_Medicina, main = "Histograma de Datos", col = "lightblue", border = "black")

hist(Matricula_Enfermeria, main = "Histograma de Datos", col = "lightblue", border = "black")

Prueba de Shapiro-Wilk

Procedemos a hacer la prueba de normalidad Shapiro-Wilk para cada una de las muestras.

shapiro.test(Matricula_Medicina)
## 
##  Shapiro-Wilk normality test
## 
## data:  Matricula_Medicina
## W = 0.73283, p-value = 3.371e-12
shapiro.test(Matricula_Enfermeria)
## 
##  Shapiro-Wilk normality test
## 
## data:  Matricula_Enfermeria
## W = 0.65948, p-value = 6.752e-14

Como era de esperarse, ninguna de las muestras tienen un comportamiento normal, pues el test arrojó valores de prueba muy por debajo de \(0,05\).

Esto conlleva a realizar una prueba No Paramétrica de validación de hipótesis. Para este caso, tomaremos la “Prueba de la Suma de Rangos de Wilcoxon (Mann-Whitney U)”.

Validación de Hipótesis

Prueba de la Suma de Rangos de Wilcoxon (Mann-Whitney U)

Aquí definimos un vector concadenado de los valores de muestra de cada programa.

Valores_Matriculas = c(Matricula_Medicina, Matricula_Enfermeria)

Problema:

Determinar si hay diferencias significativas entre los valores de matrícula de los programas de Medicina y Enfermería.

Definimos las hipótesis:

\(H0:\) No existe diferencia significativa entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.

\(H1:\) Si existe diferencia significativa entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.

# Realizar la prueba de la suma de rangos de Wilcoxon (Mann-Whitney U)
resultado_wilcoxon <- wilcox.test(Valores_Matriculas)
print(resultado_wilcoxon)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  Valores_Matriculas
## V = 20100, p-value < 2.2e-16
## alternative hypothesis: true location is not equal to 0

Inferencia de datos:

# Análisis de resultados
if (resultado_wilcoxon$p.value < 0.05) {
  cat("Hay diferencias significativas entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.")
} else {
  cat("No hay suficiente evidencia para afirmar diferencias significativas.")
}
## Hay diferencias significativas entre los promedios de los valores de matrícula de los programas de Medicina y Enfermeria de la Universidad Surcolombiana.

Conclusiones

  1. Tras una evidente similitud del comportamiento en la distribucion de los valores de matrícula entre los programas pregrado de Enfermeria y Medicina, no es posible afirmar que no hay diferencia entre sus valores promedio de matrícula, pues al validar la hipótesis nula que enuncia la ausencia de diferencia significativa entre estas medias, el test de prueba de Wilcoxon (Mann-Whitney U) nos da un valor muy por debajo del \(0,05\), lo que nos lleva a Rechazar a \(H0\) y considerar a \(H1\).

  2. Tener un comportamiento de dispersión similar no implica tener una valor descriptivo (como la media) similar. Es posible que esta similitud en la distribución de los valores de matrícula se deba a la afinidad de los programas en cuestión, pues pertenecen a la misma facultad, por lo que habría un tendencia de personas con características similiares (estrato o condición monetaria) en busca un mismo perfil profesional.

  3. Existe un rango bastante amplio entre los valores de matrícula académica entra cada pregrado estudiado, lo que incita a considerar la heterogeneidad de las clases sociales estudiando dichos programas académicos.

  4. Es de considerar, el alto costo del valor de matrícula de algunos estudiantes de los pregrados en cuestión, se debe insistir en los procesos de gratuidad de la matrícula para los y las jóvenes que desean acceder a la educación pública en la región, para que no sigan existiendo brechas económicas tan marcadas, y más personas puedan acceder a una educación de calidad, que les genere las oportunidad de transformar sus condiciones económicas y materiales actuales, siendo a su vez, agentes de cambio.

Recomendaciones

Como sugerencia para otro posible trabajo, será hacer un proceso análogo a este, cambiando únicamente los pregrados en cuestion. Por ejemplo: tomar los progamas de Matemática Aplicada, Física y Biología Aplicada y aplicar una prueba como la Kruskal-Wallis.

Referencias

  1. Mayorga, Rocío. Graciano, Diana. Hernández, Anahí. Moctezuma, Paola M. Pérez, Berenice y Roldan, Adamary. (2022). Cuadro comparativo de Análisis Paramétrico y No Paramétrico. Educación y Salud Boletín Científico Instituto de Ciencias de la Salud Universidad Autónoma del Estado de Hidalgo.

  2. Mayorga, Humberto. (2004) Inferencia Esdística. Universidad Nacional de Colombia

  3. https://rpubs.com/KarolZ/1119798

  4. https://rpubs.com/KarolZ/1119695