Análisis del costo de matrícula en la Universidad Surcolombiana según variables socioeconómicas del estudiante
Los estudiantes de la Universidad Surcolombiana han expresado inconformidad frente al valor de la matrícula que deben pagar en programas de pregrado, en especial bajo los lineamientos del Acuerdo 050 de 2015. Señalan que las variables utilizadas para calcular este costo no reflejan de manera precisa su realidad económica, lo que podría estar generando asignaciones de matrícula injustas o desproporcionadas.
Las variables consideradas para dicho cálculo son:
A1: Estrato socioeconómico del lugar de domicilio de quien depende económicamente el estudiante.
A2: Ingreso mensual de la persona de la cual depende económicamente el estudiante.
A3: Valor de la pensión mensual pagada en el último grado cursado en educación media.
Construir un modelo de regresión lineal que relacione el valor de la matrícula con las variables socioeconómicas consideradas, con el fin de verificar si estas variables son adecuadas y suficientes para predecir el costo justo de la matrícula.
Hipotesis Nula H0:Las variables A1, A2 y A3 no tienen efecto significativo sobre el valor de la matrícula.
Hipotesis Alternativa H1: Al menos una de las variables A1, A2 o A3 tiene un efecto significativo sobre el valor de la matrícula.
La población estudiantil se divide en una muestra estratificada de 200 estudiantes seleccionada de forma proporcional por estrato socioeconómico.
La base de datos que para el desarrollo de este taller contiene informacion conserniente a valor de matriculas de los estudiantes de la universidad surcolombiana en todas sus facultades y sedes, la base de datos fue suministrda por el programa de especializacion en estadistica como insumo de practicas de aprendizaje por los estudiantes de la especializacion.
Columnas principales:
# Cargar datos
datos <- read_excel("C:/Users/Nidia/Desktop/CODAZZI Y WILL/PROYECTO ESPECILIZACION EN ESTADISTICA/AVANCES PROYECTO/BD Muestra Estratificada.xlsx")
## New names:
## • `` -> `...1`
# Prueba de Shapiro-Wilk para normalidad
shapiro.test(datos$Estrato)
##
## Shapiro-Wilk normality test
##
## data: datos$Estrato
## W = 0.74924, p-value < 2.2e-16
shapiro.test(datos$Declara_Renta)
##
## Shapiro-Wilk normality test
##
## data: datos$Declara_Renta
## W = 0.12915, p-value < 2.2e-16
shapiro.test(datos$Matricula)
##
## Shapiro-Wilk normality test
##
## data: datos$Matricula
## W = 0.6892, p-value < 2.2e-16
#Histogramas y QQ plots:
hist(datos$Matricula, main = "Histograma Matrícula", xlab = "Matrícula")
qqnorm(datos$Matricula); qqline(datos$Matricula, col = "red")
Los resultados de la prueba de normalidad (Shapiro-Wilk) muestran que ninguna de las variables numéricas sigue una distribución normal, ya que todos los p-valores son menores a 0.05.
La regresión lineal no requiere que las variables predictoras (independientes) sean normales. Lo importante es que se cumplan los siguientes supuestos:
Linealidad: La relación entre las variables independientes y la dependiente debe ser aproximadamente lineal.
Independencia de errores: Los residuos (errores) deben ser independientes entre sí.
Homoscedasticidad: La varianza de los errores debe ser constante en todos los niveles de las variables independientes.
Normalidad de los residuos: Solo los residuos del modelo (no los datos originales) deben ser aproximadamente normales si se quieren aplicar pruebas de hipótesis o construir intervalos de confianza.
# Seleccionar variables
datos_numericos <- datos[, c("Estrato", "Declara_Renta", "Matricula", "Mayor_medio_SMMLV")]
#matriz de correlación
correlaciones <- cor(datos_numericos)
print(correlaciones)
## Estrato Declara_Renta Matricula Mayor_medio_SMMLV
## Estrato 1.0000000 0.3187146 0.4848031 0.3502429
## Declara_Renta 0.3187146 1.0000000 0.4441340 0.2025872
## Matricula 0.4848031 0.4441340 1.0000000 0.7099531
## Mayor_medio_SMMLV 0.3502429 0.2025872 0.7099531 1.0000000
# Visualizar matriz
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.4.3
## corrplot 0.95 loaded
corrplot(correlaciones, method = "color", type = "upper", tl.col = "black", tl.srt = 45)
Matricula vs Mayor_medio_SMMLV: Correlación fuerte positiva (0.71). Esto indica que cuando la pensión fue mayor a medio salario mínimo, el valor de la matrícula también tiende a ser mayor.
Matricula vs Declara_Renta: Correlación moderada (0.44). A mayor ingreso declarado, mayor es la matrícula.
Matricula vs Estrato: Correlación moderada-alta (0.48). Los estudiantes de estratos más altos suelen pagar más matrícula.
El modelo eleccionado es el Modelo de Regresion Lineal Multiple
Este modelo es adecuado porque:
1.* Las tres variables tienen correlación moderada o alta con la matrícula.
2.* Es facil de interpretar para los tomadores de desiciones
3.* Aunque las variables no son normales, el tamaño muestral (n = 200) es suficientemente grande para que el modelo sea válido bajo el Teorema Central del Límite.
4.* Las correlaciones entre las variables independientes son moderadas (< 0.7), lo cual evita problemas de colinealidad.
# Ajustar el modelo de regresión lineal múltiple
modelo <- lm(Matricula ~ Estrato + Declara_Renta + Mayor_medio_SMMLV, data = datos)
# Mostrar resumen completo del modelo (coeficientes, R², p-valores, etc.)
summary(modelo)
##
## Call:
## lm(formula = Matricula ~ Estrato + Declara_Renta + Mayor_medio_SMMLV,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -523624 -70996 -15727 85390 1226727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.555e+05 5.686e+04 2.735 0.00681 **
## Estrato 1.390e+05 3.439e+04 4.041 7.64e-05 ***
## Declara_Renta 8.775e-04 1.541e-04 5.695 4.46e-08 ***
## Mayor_medio_SMMLV 5.449e+05 4.324e+04 12.602 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274300 on 196 degrees of freedom
## Multiple R-squared: 0.629, Adjusted R-squared: 0.6233
## F-statistic: 110.8 on 3 and 196 DF, p-value: < 2.2e-16
# Gráficos de diagnóstico para evaluar supuestos del modelo
#par(mfrow = c(2, 2))
#plot(modelo)
Matricula=155,500+139,000×Estrato+0.0008775×Declara_Renta+544,900×Mayor_medio_SMMLV
Valor base estimado de la matrícula cuando todas las variables independientes son cero.
Por cada aumento en un nivel de estrato socioeconómico, la matrícula se incrementa en aproximadamente 139,000 pesos, manteniendo las otras variables constantes. Este coeficiente es estadísticamente significativo (p < 0.001), lo que indica que el estrato tiene un efecto importante en el costo.
Por cada peso adicional de ingreso mensual declarado, la matrícula aumenta en aproximadamente 0.00088 pesos (menos de 1 peso por cada 1000 pesos adicionales). Esto también es estadísticamente significativo (p < 0.00000001), pero su impacto práctico es menor comparado con otras variables.
Si la pensión pagada en el último grado fue mayor a medio salario mínimo, la matrícula aumenta en 544,900 pesos en promedio respecto a los que no lo pagaron. Este es el efecto más fuerte y altamente significativo (p << 0.0001).
R-cuadrado (0.629): El modelo explica aproximadamente el 62.9% de la variabilidad total en el valor de la matrícula, lo que es un buen nivel para datos sociales y económicos.
R-cuadrado ajustado (0.623): Ajusta el R² considerando el número de variables, confirmando un buen poder explicativo.
Error estándar residual (274,300): En promedio, la predicción de matrícula se desvía ±274,300 pesos del valor real.
Significancia: El test F es muy significativo (p < 2.2e-16), lo que indica que al menos una variable independiente explica significativamente la matrícula.
El p-valor del F-estadístico global es menor a 2.2×10−16, que es muchísimo menor que el nivel de significancia habitual (𝛼=0.05).
Por lo cual rechazamos la hipótesis nula y concluimos que al menos una variable independiente tiene un efecto estadísticamente significativo en la matrícula.
Con base en el modelo y los resultados, se acepta la hipótesis alternativa: las variables Estrato, Declara_Renta y Mayor_medio_SMMLV sí influyen de manera significativa en el valor de la matrícula para los estudiantes de la Universidad Surcolombiana.
El estrato socioeconómico, el ingreso declarado y si la pensión fue mayor a medio salario mínimo son variables que explican de manera significativa el costo de matrícula.
Mayor_medio_SMMLV tiene el mayor efecto individual, seguido por el estrato.
El modelo es válido y explica bien el comportamiento observado.