1.PLANTEAMIENTO DEL PROBLEMA

Análisis del costo de matrícula en la Universidad Surcolombiana según variables socioeconómicas del estudiante

Los estudiantes de la Universidad Surcolombiana han expresado inconformidad frente al valor de la matrícula que deben pagar en programas de pregrado, en especial bajo los lineamientos del Acuerdo 050 de 2015. Señalan que las variables utilizadas para calcular este costo no reflejan de manera precisa su realidad económica, lo que podría estar generando asignaciones de matrícula injustas o desproporcionadas.

Las variables consideradas para dicho cálculo son:

Objetivo

Construir un modelo de regresión lineal que relacione el valor de la matrícula con las variables socioeconómicas consideradas, con el fin de verificar si estas variables son adecuadas y suficientes para predecir el costo justo de la matrícula.

Hipotesis Nula H0:Las variables A1, A2 y A3 no tienen efecto significativo sobre el valor de la matrícula.

Hipotesis Alternativa H1: Al menos una de las variables A1, A2 o A3 tiene un efecto significativo sobre el valor de la matrícula.

Diseño Muestral Propuesto: Muestreo Estratificado

La población estudiantil se divide en una muestra estratificada de 200 estudiantes seleccionada de forma proporcional por estrato socioeconómico.

2.BASE DE DATOS

Descripción

La base de datos que para el desarrollo de este taller contiene informacion conserniente a valor de matriculas de los estudiantes de la universidad surcolombiana en todas sus facultades y sedes, la base de datos fue suministrda por el programa de especializacion en estadistica como insumo de practicas de aprendizaje por los estudiantes de la especializacion.

  • Cantidad de registros: 200 estudiantes.

Columnas principales:

  • ID: identificador único del estudiante.
  • Programa: carrera y sede a la que pertenece el estudiante.
  • Estrato: valores entre 1 y 4, representa el estrato socioeconómico.
  • Declara_Renta: monto declarado como ingreso mensual por quien mantiene económicamente al estudiante.
  • Matricula: valor que el estudiante paga de matrícula.
  • Mayor_medio_SMMLV: variable binaria (0 o 1) que indica si la pensión pagada en el último año fue mayor a medio salario mínimo.

Calidad de los datos:

  • No hay valores nulos.
  • Todos los tipos de datos son correctos (enteros para variables numéricas y texto para Programa).
  • La variable Programa tiene 45 programas únicos.

CARGAR BASE DE DATOS

# Cargar datos
datos <- read_excel("C:/Users/Nidia/Desktop/CODAZZI Y WILL/PROYECTO ESPECILIZACION EN ESTADISTICA/AVANCES PROYECTO/BD Muestra Estratificada.xlsx")
## New names:
## • `` -> `...1`

3. NORMALIDAD

# Prueba de Shapiro-Wilk para normalidad
shapiro.test(datos$Estrato)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Estrato
## W = 0.74924, p-value < 2.2e-16
shapiro.test(datos$Declara_Renta)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Declara_Renta
## W = 0.12915, p-value < 2.2e-16
shapiro.test(datos$Matricula)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Matricula
## W = 0.6892, p-value < 2.2e-16
#Histogramas y QQ plots:
hist(datos$Matricula, main = "Histograma Matrícula", xlab = "Matrícula")

qqnorm(datos$Matricula); qqline(datos$Matricula, col = "red")

Los resultados de la prueba de normalidad (Shapiro-Wilk) muestran que ninguna de las variables numéricas sigue una distribución normal, ya que todos los p-valores son menores a 0.05.

La regresión lineal no requiere que las variables predictoras (independientes) sean normales. Lo importante es que se cumplan los siguientes supuestos:

4.CORRELACION

# Seleccionar variables
datos_numericos <- datos[, c("Estrato", "Declara_Renta", "Matricula", "Mayor_medio_SMMLV")]

#matriz de correlación
correlaciones <- cor(datos_numericos)
print(correlaciones)
##                     Estrato Declara_Renta Matricula Mayor_medio_SMMLV
## Estrato           1.0000000     0.3187146 0.4848031         0.3502429
## Declara_Renta     0.3187146     1.0000000 0.4441340         0.2025872
## Matricula         0.4848031     0.4441340 1.0000000         0.7099531
## Mayor_medio_SMMLV 0.3502429     0.2025872 0.7099531         1.0000000
# Visualizar matriz
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.4.3
## corrplot 0.95 loaded
corrplot(correlaciones, method = "color", type = "upper", tl.col = "black", tl.srt = 45)

Analisis correlacion

  • Matricula vs Mayor_medio_SMMLV: Correlación fuerte positiva (0.71). Esto indica que cuando la pensión fue mayor a medio salario mínimo, el valor de la matrícula también tiende a ser mayor.

  • Matricula vs Declara_Renta: Correlación moderada (0.44). A mayor ingreso declarado, mayor es la matrícula.

  • Matricula vs Estrato: Correlación moderada-alta (0.48). Los estudiantes de estratos más altos suelen pagar más matrícula.

5.SELECCION Y PLANTEAMIENTO DEL MODELO

El modelo eleccionado es el Modelo de Regresion Lineal Multiple

Este modelo es adecuado porque:

1.* Las tres variables tienen correlación moderada o alta con la matrícula.

2.* Es facil de interpretar para los tomadores de desiciones

3.* Aunque las variables no son normales, el tamaño muestral (n = 200) es suficientemente grande para que el modelo sea válido bajo el Teorema Central del Límite.

4.* Las correlaciones entre las variables independientes son moderadas (< 0.7), lo cual evita problemas de colinealidad.

Variable dependiente

  • Matrícula: Es el valor que se quiere explicar o predecir. Representa el costo que debe pagar cada estudiante para inscribirse en su programa académico. Se elige como variable dependiente porque es el resultado económico afectado por factores socioeconómicos y académicos, y el análisis busca entender qué influye en ese costo.

Variables Independientes o Predictoras

  • Estrato: Representa el nivel socioeconómico del hogar del estudiante. Se espera que el estrato influya en la capacidad económica del estudiante o su familia y, por lo tanto, en el monto que puede pagar por matrícula.
  • Declara_Renta: Indica el ingreso mensual declarado por la persona que sostiene económicamente al estudiante. Esta variable mide directamente la capacidad financiera y es crucial para determinar el monto de matrícula ajustado a la realidad económica.
  • Mayor_medio_SMMLV: Variable binaria que indica si el valor de la pensión pagada en el último grado de educación media fue mayor a medio salario mínimo legal mensual vigente (SMMLV). Refleja un proxy del nivel socioeconómico y puede influir en la categorización de la matrícula.
# Ajustar el modelo de regresión lineal múltiple
modelo <- lm(Matricula ~ Estrato + Declara_Renta + Mayor_medio_SMMLV, data = datos)

# Mostrar resumen completo del modelo (coeficientes, R², p-valores, etc.)
summary(modelo)
## 
## Call:
## lm(formula = Matricula ~ Estrato + Declara_Renta + Mayor_medio_SMMLV, 
##     data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -523624  -70996  -15727   85390 1226727 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1.555e+05  5.686e+04   2.735  0.00681 ** 
## Estrato           1.390e+05  3.439e+04   4.041 7.64e-05 ***
## Declara_Renta     8.775e-04  1.541e-04   5.695 4.46e-08 ***
## Mayor_medio_SMMLV 5.449e+05  4.324e+04  12.602  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 274300 on 196 degrees of freedom
## Multiple R-squared:  0.629,  Adjusted R-squared:  0.6233 
## F-statistic: 110.8 on 3 and 196 DF,  p-value: < 2.2e-16
# Gráficos de diagnóstico para evaluar supuestos del modelo
#par(mfrow = c(2, 2))
#plot(modelo)

6.RESULTADOS DEL MODELO

Ecuacion:

Matricula=155,500+139,000×Estrato+0.0008775×Declara_Renta+544,900×Mayor_medio_SMMLV

Interpretacion:

Intercepto (155,500):

Valor base estimado de la matrícula cuando todas las variables independientes son cero.

Estrato (139,000):

Por cada aumento en un nivel de estrato socioeconómico, la matrícula se incrementa en aproximadamente 139,000 pesos, manteniendo las otras variables constantes. Este coeficiente es estadísticamente significativo (p < 0.001), lo que indica que el estrato tiene un efecto importante en el costo.

Declara_Renta (0.0008775):

Por cada peso adicional de ingreso mensual declarado, la matrícula aumenta en aproximadamente 0.00088 pesos (menos de 1 peso por cada 1000 pesos adicionales). Esto también es estadísticamente significativo (p < 0.00000001), pero su impacto práctico es menor comparado con otras variables.

Mayor_medio_SMMLV (544,900):

Si la pensión pagada en el último grado fue mayor a medio salario mínimo, la matrícula aumenta en 544,900 pesos en promedio respecto a los que no lo pagaron. Este es el efecto más fuerte y altamente significativo (p << 0.0001).

7.EVALUACION DEL MODELO

Ajustes:

  • R-cuadrado (0.629): El modelo explica aproximadamente el 62.9% de la variabilidad total en el valor de la matrícula, lo que es un buen nivel para datos sociales y económicos.

  • R-cuadrado ajustado (0.623): Ajusta el R² considerando el número de variables, confirmando un buen poder explicativo.

  • Error estándar residual (274,300): En promedio, la predicción de matrícula se desvía ±274,300 pesos del valor real.

  • Significancia: El test F es muy significativo (p < 2.2e-16), lo que indica que al menos una variable independiente explica significativamente la matrícula.

Resultados de la Hipotesis

El p-valor del F-estadístico global es menor a 2.2×10−16, que es muchísimo menor que el nivel de significancia habitual (𝛼=0.05).

Por lo cual rechazamos la hipótesis nula y concluimos que al menos una variable independiente tiene un efecto estadísticamente significativo en la matrícula.

CONCLUSIONES: