Regresion Lineal Simple

1.Problema

Como docente en formación virtual, me interesa analizar la relación entre el número de estudiantes matriculados al inicio de un programa y la cantidad de estudiantes que desertan durante la etapa lectiva. El programa admite hasta 80 estudiantes y está estructurado en dos fases: una etapa lectiva de 21 meses y una etapa productiva de 6 meses. Se observa que durante la etapa lectiva ocurre la mayor deserción, permaneciendo al final como máximo 10 estudiantes. Por ello, se propone aplicar un modelo de regresión lineal simple para evaluar cómo el tamaño inicial de la cohorte influye en el número de desertores durante la etapa lectiva.

2. Variables con relación Causa-efecto

X= número de estudiantes matriculados al inicio del programa

Y= número de estudiantes que desertan durante la etapa lectiva

3.Recolección de datos

Cohorte Matriculados Desertores
2018-1 80 70
2018-2 80 72
2019-1 60 48
2019-2 55 48
2020-1 55 50
2020-2 50 43
2021-1 44 33
2021-2 51 40
2022-1 54 44
2022-2 50 43
2023-1 40 31
2023-2 40 31
2024-1 51 43

4. Análisis descriptivo

Gráfico de dispersión

El diagrama de dispersión muestra una relación positiva entre el número de estudiantes matriculados y el número de desertores. A medida que aumenta la cantidad de matriculados, también tiende a incrementarse el número de estudiantes que abandonan, lo que sugiere una asociación lineal directa entre ambas variables. La recta de regresión confirma esta tendencia general, indicando que el tamaño de la cohorte podría estar relacionado con el nivel de deserción observado. Sin embargo, la variabilidad de los puntos alrededor de la línea sugiere que otros factores adicionales también pueden influir en la deserción.

Resultados RStudio

Residuals:
    Min      1Q  Median      3Q     Max 
-3.2116 -1.2330 -0.2827  1.7528  3.7706 
Coefficients:
Estimate Std. Error t value               Pr(>|t|)    
(Intercept) -8.57520    2.67054 -3.211        0.00829 ** 
Matriculados  0.99645    0.04773  20.879  3.37e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.095 on 11 degrees of freedom
Multiple R-squared:  0.9754,    Adjusted R-squared:  0.9731 
F-statistic: 435.9 on 1 and 11 DF,  p-value: 3.368e-10

5.Coeficiente del modelo

Interpretación

Ecuación

Y^=−8.575+0.996⋅X

Significancia de los coeficientes p-values: Matriculados → p = 3.37e-10 Intercepto → p = 0.008 Ambos son menores que 0.05

Calidad del ajuste (R²) R² = 0.9754 R² ajustado = 0.9731

El 97.5% de la variabilidad en la deserción se explica por el tamaño de la cohorte

Error del modelo Residual standard error = 2.095 El error promedio de predicción es ≈ 2 estudiantes, es un error pequeño.

El modelo de regresión lineal simple evidenció una relación lineal positiva y estadísticamente significativa entre el número de estudiantes matriculados y el número de desertores durante la etapa lectiva (p < 0.001). El coeficiente de determinación (R² = 0.9754) indica que el tamaño de la cohorte explica el 97.5% de la variabilidad en la deserción. La pendiente estimada sugiere que, por cada estudiante adicional matriculado, se espera aproximadamente un desertor adicional. El error estándar residual fue bajo, lo que evidencia un adecuado ajuste del modelo a los datos observados.

6.Prueba global

F = 435.9 p-value = 3.368e-10

El modelo completo es estadísticamente significativo. La variable matriculados tiene capacidad predictiva real sobre la deserción.

#ANOVA del modelo de regresión

Hipótesis

H₀: el número de matriculados NO explica la deserción (β₁ = 0) H₁: el número de matriculados SÍ explica la deserción (β₁ ≠ 0)

Variabilidad de la deserción explicada por los matriculados (modelo). Es enorme comparada con el error Sum Sq = 1913.4

Variación que el modelo no logra explicar (error). Es pequeña lo que indica que el modelo se ajusta bien. Sum Sq = 48.3

F = 435.9 el modelo frente al azar es un valor grande lo que indica fuerte relación.

Valor p

p = 3.37e-10 es menor que 0.05

Conclusión

• Se rechaza H₀ • El modelo es significativo • la regresión es válida

Resultados RStudio

summary(aov(modelo))
             Df Sum Sq Mean Sq F value   Pr(>F)    
Matriculados  1 1913.4  1913.4   435.9 3.37e-10 ***
Residuals    11   48.3     4.4                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

El análisis de varianza del modelo de regresión evidenció que el número de estudiantes matriculados explica de manera significativa la variabilidad en la deserción durante la etapa lectiva (F = 435.9, p < 0.001). La variación explicada por el modelo fue considerablemente mayor que la variación residual, lo que confirma la pertinencia del modelo lineal para describir la relación entre las variables.

7. Pruebas individuales

En la gráfica Q-Q plot los puntos siguen aproximadamente la línea recta, no hay desviaciones fuertes en los extremos y no se observan patrones sistemáticos.

a) Prueba Shapiro.

Hipótesis de la prueba:

H₀: los residuos siguen distribución normal H₁: los residuos NO son normales

W = 0.967 p-value = 0.8594 De acuerdo a la regla: Si p > 0.05 → los residuos son normales Si p ≤ 0.05 → no son normales

En este caso 0.8594 > 0.05

Conclusión:

La prueba de normalidad de Shapiro-Wilk aplicada a los residuos del modelo no evidenció desviaciones significativas de la normalidad (W = 0.967, p = 0.8594). Adicionalmente, el gráfico Q-Q mostró alineación adecuada de los residuos respecto a la distribución teórica normal. Por tanto, se cumple el supuesto de normalidad requerido para la validez del modelo de regresión lineal.

Resultados RStudio
Shapiro-Wilk normality test
data:  modelo$residuals
W = 0.96724, p-value = 0.8594

b) Prueba Breusch–Pagan.

Para verificar homocedasticidad en el modelo de regresión se necesita comprobar que la variabilidad de los errores sea constante y que el “ruido” no cambie según el tamaño de la cohorte.

Hipótesis:

H₀: varianza constante de los residuos (homocedasticidad) H₁: varianza no constante (heterocedasticidad)

Resultado:

BP = 0.0017 p-value = 0.9666

De acuerdo a la regla:

Si p > 0.05 → hay homocedasticidad Si p ≤ 0.05 → hay heterocedasticidad

En este caso: 0.9666 > 0.05

Conclusión.

La prueba de Breusch-Pagan no evidenció problemas de heterocedasticidad en el modelo (BP = 0.0017, p = 0.9666), lo que indica varianza constante de los residuos. Por tanto, se cumple el supuesto de homocedasticidad requerido para la validez del modelo de regresión lineal.

Resultados RStudio
> bptest(modelo)
studentized Breusch-Pagan test
data:  modelo
BP = 0.0017494, df = 1, p-value = 0.9666

c) Prueba de Durbin–Watson.

Hipótesis:

H₀: no hay autocorrelación (errores independientes) H₁: sí hay autocorrelación

Para verificar independencia de los errores en el modelo de regresión se aplica esta prueba.

Se comprueba si los residuos están correlacionados entre sí (autocorrelación). Si el error de una cohorte influye en el error de otra o si hay “patrones” en los residuos.

Valores: D-W = 1.756 p-value = 0.45 autocorrelación ≈ 0.10

cerca de 2 → independencia (valor ideal) cerca de 0 → autocorrelación positiva cerca de 4 → autocorrelación negativa 1.756 → cercano a 2, indica independencia de errores.

0.45 > 0.05 No hay evidencia de autocorrelación Se cumple el supuesto de independencia

Conclusión.

La prueba de Durbin–Watson no evidenció autocorrelación significativa en los residuos del modelo (DW = 1.756, p = 0.45), lo que indica independencia de los errores y cumplimiento de los supuestos del modelo de regresión lineal

Resultados RStudio
lag Autocorrelation D-W Statistic p-value
1       0.1024695      1.756268    0.45
Alternative hypothesis: rho != 0

8. Correlación y coeficiente de determinación

R² = 0.9754

El 97.5% de la variación en la deserción se explica por el número de estudiantes matriculados. El tamaño de la cohorte explica casi completamente la deserción observada. Es una relación extremadamente fuerte.

Coeficiente de correlación (r)

En regresión lineal simple: Como la pendiente es positiva, la correlación también es positiva.

Existe una correlación lineal positiva muy fuerte entre matriculados y desertores. Escala típica de interpretación: 0.00 — 0.30 → débil 0.30 — 0.70 → moderada 0.70 — 1.00 → fuerte Mi resultado ≈ 0.99 → relación casi perfecta.

Interpretación de los intervalos de confianza del modelo

Resultado obtenido: Pendiente (Matriculados): IC 95% = (0.891, 1.101)

Por cada estudiante adicional matriculado, la deserción esperada aumenta entre 0.89 y 1.10 estudiantes.

Conclusión. El coeficiente de determinación (R² = 0.9754) indica que el 97.5% de la variabilidad en la deserción es explicada por el número de estudiantes matriculados. Asimismo, el coeficiente de correlación lineal (r ≈ 0.99) evidencia una relación positiva muy fuerte entre ambas variables. El intervalo de confianza del 95% para la pendiente (0.891, 1.101) confirma que el efecto del tamaño de la cohorte sobre la deserción es significativo y positivo.

Resultados RStudio
2.5 %    97.5 %
(Intercept)  -14.4530320 -2.697375
Matriculados   0.8914037  1.101491

9. Probar cumplimiento de supuestos

a) Normalidad de los residuos

Pruebas: Gráfico Q-Q - Shapiro–Wilk Resultado: p = 0.8594 > 0.05 Conclusión: Los residuos siguen distribución normal.

b) Homocedasticidad (varianza constante) Prueba: Breusch–Pagan Resultado: p = 0.9666 > 0.05 Conclusión: La varianza de los errores es constante.

c) Independencia de los errores Prueba: Durbin–Watson Resultado: DW = 1.756 (≈ 2) p = 0.45 > 0.05 Conclusión: Los errores son independientes.

Se verificaron los supuestos del modelo de regresión lineal. La prueba de Shapiro-Wilk no evidenció desviaciones significativas de la normalidad de los residuos. La prueba de Breusch-Pagan confirmó homocedasticidad, evidenciando varianza constante de los errores. Finalmente, la prueba de Durbin-Watson indicó independencia de los residuos. En consecuencia, se cumplen los supuestos del modelo de regresión lineal.

10.Pronósticos puntuales y por intervalo

a) Pronóstico puntual + intervalo de confianza del 95% En este paso vamos a predecir la deserción para ciertos valores de matriculados. El tamaño de cohorte realistas dentro del rango de los datos es aproximadamente entre 40 y 80 estudiantes, entonces se deduce de acuerdo a los siguientes valores: cohorte pequeña → 45 cohorte media → 55 cohorte grande → 70

Significado de las columnas del modelo

Columna Significado
fit Deserción estimada por el modelo
lwr Límite inferior del intervalo de confianza
upr Límite superior del intervalo de confianza


Predicción de deserción por tamaño de cohorte

Interpretación de resultados

Cohorte de 45 estudiantes Cohorte de 55 estudiantes Cohorte de 70 estudiantes
Deserción esperada: 36.26 estudiantes
IC 95%: entre 34.64 y 37.89
Deserción esperada: 46.23 estudiantes
IC 95%: entre 44.95 y 47.51
Deserción esperada: 61.18 estudiantes
IC 95%: entre 59.12 y 63.24


Se realizaron pronósticos puntuales e intervalares del número de desertores para distintos tamaños de cohorte. Para 45 estudiantes matriculados, el modelo estima una deserción promedio de 36.26 estudiantes (IC 95%: 34.64–37.89). Para 55 estudiantes, la deserción esperada es de 46.23 estudiantes (IC 95%: 44.95–47.51), mientras que para 70 estudiantes se estiman 61.18 desertores (IC 95%: 59.12–63.24). Los resultados confirman que cohortes más grandes presentan mayores niveles esperados de deserción.
Resultados RStudio
prediccion=data.frame(Matriculados = c(45, 55, 70))
predict(modelo,prediccion,interval="confidence")
       fit      lwr      upr
1 36.26493 34.63525 37.89460
2 46.22940 44.94983 47.50897
3 61.17611 59.11521 63.23701


b) Pronóstico para cohortes individuales futuras

Esto es el rango donde probablemente caerá la deserción de una cohorte real. Los intervalos son más amplios porque incluyen variabilidad natural.

Interpretación de resultados

Intervalos de predicción de la deserción

Cohorte de 45 estudiantes Cohorte de 55 estudiantes Cohorte de 70 estudiantes
Deserción esperada: 36.26 estudiantes
Intervalo de predicción 95%: 31.37 a 41.16
Deserción esperada: 46.23 estudiantes
Intervalo de predicción 95%: 41.44 a 51.01
Deserción esperada: 61.18 estudiantes
Intervalo de predicción 95%: 56.13 a 66.23

Resultados RStudio
predict(modelo,prediccion,interval="prediction")
       fit      lwr      upr
1 36.26493 31.37417 41.15569
2 46.22940 41.44390 51.01490
3 61.17611 56.12527 66.22696

Conclusiones

Se ajustó un modelo de regresión lineal simple para evaluar la relación entre el número de estudiantes matriculados y el número de desertores por cohorte. El análisis descriptivo y el diagrama de dispersión evidenciaron una relación lineal positiva entre ambas variables. El análisis de varianza mostró que el modelo es estadísticamente significativo (p < 0.05), indicando que el número de matriculados explica de manera significativa la variabilidad en el número de desertores. Las pruebas de supuestos del modelo confirmaron su validez: los residuos presentan normalidad (Shapiro-Wilk p > 0.05), homocedasticidad (Breusch-Pagan p > 0.05) e independencia (Durbin-Watson p > 0.05). El coeficiente de regresión indica que por cada estudiante adicional matriculado se incrementa aproximadamente en una unidad el número esperado de desertores. El coeficiente de determinación evidencia un alto nivel de ajuste del modelo. Finalmente, se realizaron pronósticos puntuales e intervalares. Los resultados muestran que el número esperado de desertores aumenta conforme crece el tamaño de la cohorte, confirmando la relación positiva entre las variables analizadas.

Codigo fuente

# LIMPIAR MEMORIA
rm(list = ls())

# CARGAR DATOS DESDE EXCEL
library(readxl)
datos <- read_excel("C:/Users/USUARIO/Desktop/DOCTORADO/DISEÑO DE EXPERIMENTOS DOE/TAREA 2/desertores.xlsx")
View(datos)

# CREAR DIAGRAMA DE DISPERSION
plot(datos$Matriculados, datos$Desertores,
     pch = 19,
     col = "blue",
     main = "Relación entre Matriculados y Deserción",
     xlab = "Número de estudiantes matriculados",
     ylab = "Número de desertores")
abline(modelo, col = "red", lwd = 2)
grid()

# CREA EL MODELO DE REGRESION
modelo <- lm(Desertores ~ Matriculados, data = datos)

# CALCULAR COEFICIENTES
summary(modelo)

# ANALISIS DE VARIANZA
summary(aov(modelo))

# GRAFICA Q-Q
qqnorm(modelo$residuals)
qqline(modelo$residuals)

# PRUEBA SHAPIRO
shapiro.test(modelo$residuals)

# PRUEBA BREUSCH-PAGAN
library(lmtest)
bptest(modelo)

# PRUEBA DURBIN-WATSON
library(car)
dwt(modelo, alternative = "two.sided")

# INTERVALOS
confint(lm(Desertores ~ Matriculados, data = datos))

# PREDICCIONES
prediccion = data.frame(Matriculados = c(45, 55, 70))
predict(modelo, prediccion, interval="confidence")
predict(modelo, prediccion, interval="prediction")



Regresion Lineal Multiple


1.Problema

Continuando con el análisis de la deserción en la formación virtual, se busca identificar y cuantificar el efecto de diferentes causas institucionales y personales que inciden en el abandono de los estudiantes. La institución ha tipificado las novedades asociadas al retiro mediante las siguientes categorías: retiro por fraude, retiro del proceso de formación, traslado de centro, traslado de jornada, traslado de programa, cancelación de matrícula por índole académica, cancelación de matrícula por índole disciplinaria, condicionamiento de matrícula y deserción del proceso de formación por problemas personales.

Aunque estas causas se registran de manera individual, en la práctica pueden presentarse simultáneamente y con distinta intensidad a lo largo de los periodos académicos. Por ello, surge la necesidad de analizar de forma conjunta el efecto de estas variables explicativas sobre el número de desertores, con el fin de determinar cuáles factores tienen mayor influencia y en qué magnitud contribuyen al fenómeno de deserción.

En este contexto, se propone aplicar un modelo de regresión lineal múltiple que permita explicar y predecir la deserción estudiantil a partir de las diferentes causas tipificadas, aportando evidencia cuantitativa para la toma de decisiones institucionales orientadas a la permanencia estudiantil.

2. Variables con relación Causa-efecto

Y= número de estudiantes que desertan durante la etapa lectiva

Variables independientes. X: • Retiro por fraude • Retiro proceso de formación • Traslado de centro • Traslado de jornada • Traslado de programa • Cancelación matrícula índole académica • Cancelación matrícula índole disciplinaria • Condicionamiento de matrícula • Problemas personales

3.Recolección de datos

Variables de deserción por cohorte
Cohorte Desertores Fraude Retiro_formacion Traslado_centro Traslado_jornada Traslado_programa Cancel_Academica Cancel_disciplinaria Condicionamiento Problemas_personales
20201 25 1 5 2 3 4 3 1 2 7
20202 30 2 6 3 4 5 2 1 3 8
20211 28 1 5 2 3 4 3 1 2 7
20212 35 2 7 3 4 6 0 2 3 9
20221 40 3 8 4 5 7 0 2 4 10
20222 38 2 7 3 4 6 2 2 3 9
20231 45 3 9 4 5 7 0 2 4 11
20232 50 4 10 5 6 8 0 0 3 12
20241 48 3 9 4 5 7 0 0 4 11
20242 55 4 11 5 6 9 1 3 2 13

Se construyó una base de datos ficticia en Excel compuesta por cohortes académicas. Los datos fueron generados de forma coherente con el fenómeno educativo analizado y por experiencia.

4. Análisis descriptivo

Este análisis muestra el grafico boxplot de cada variable independiente y los datos de dispersión, valores altos/bajos, posibles atípicos y tendencia general.

Cohorte. La variable Cohorte presenta valores entre 20201 y 20242, correspondientes a los periodos académicos analizados. La mediana y el promedio se ubican en 20222, lo que indica una distribución temporal equilibrada. El 50% central de los datos se concentra entre 20211 y 20232, sin evidencia de valores atípicos.

Desertores. El grafico muestra que el número de estudiantes que abandonan la formación oscila entre 25 y 55 por cohorte. La mediana es 39 desertores, lo que indica que este valor representa el comportamiento típico de la deserción. El 50% central de los datos se encuentra aproximadamente entre 31 y 47 desertores, evidenciando una variabilidad moderada entre cohortes. No se observan valores atípicos, lo que sugiere un comportamiento relativamente estable de la deserción en el periodo analizado

Fraude. El diagrama de caja muestra que los casos asociados a retiro por fraude oscilan entre 1 y 4 por cohorte. La mediana es 2.5 y el promedio también 2.5, lo que indica un comportamiento estable de esta causa en el tiempo. El 50% central de los valores se concentra entre 2 y 3 casos, evidenciando baja variabilidad y ausencia de valores atípicos.

Proceso de formacion. Los valores asociados a esta causa oscilan entre 5 y 11 casos por cohorte. La mediana es 7.5 y el promedio 7.7, lo que indica una presencia frecuente de esta causa de deserción. El 50% central de los datos se ubica entre aproximadamente 6.25 y 9 casos, evidenciando variabilidad moderada y ausencia de valores atípicos.

Traslado de centro. Los casos asociados a traslado de centro varían entre 2 y 5 por cohorte. La mediana es 3.5 y el promedio también 3.5, lo que indica un comportamiento estable de esta causa. El 50% central de los valores se concentra entre 3 y 4 casos, evidenciando baja variabilidad y ausencia de valores atípicos.

Traslado de jornada. Los casos asociados a traslado de jornada oscilan entre 3 y 6 por cohorte. La mediana es 4.5 y el promedio también 4.5, lo que indica un comportamiento estable de esta causa en el tiempo. El 50% central de los valores se concentra entre 4 y 5 casos, evidenciando baja variabilidad y ausencia de valores atípicos.

Traslado de programa. Los casos asociados a traslado de jornada oscilan entre 3 y 6 por cohorte. La mediana es 4.5 y el promedio también 4.5, lo que indica un comportamiento estable de esta causa en el tiempo. El 50% central de los valores se concentra entre 4 y 5 casos, evidenciando baja variabilidad y ausencia de valores atípicos.

Cancelacion Academica por índole académica. Los casos asociados a esta causa oscilan entre 0 y 3 por cohorte. La mediana es 0.5 y el promedio 1.1, lo que indica baja frecuencia de esta causa de deserción. El 50% central de los valores se concentra entre 0 y 2 casos, evidenciando baja variabilidad y ausencia de valores atípicos.

Cancelacion Disciplinaria. Los casos asociados a esta causa varían entre 0 y 3 por cohorte. La mediana es 1.5 y el promedio 1.4, lo que indica baja presencia de esta causa de deserción. El 50% central de los valores se concentra entre 1 y 2 casos, evidenciando baja variabilidad y ausencia de valores atípicos.

Condicionamiento de matrícula Los casos asociados a condicionamiento de matrícula oscilan entre 2 y 4 por cohorte. La mediana y el promedio son 3, lo que indica un comportamiento estable de esta causa en el tiempo. El 50% central de los valores se concentra aproximadamente entre 2.25 y 3.75 casos, evidenciando baja variabilidad y ausencia de valores atípicos..

Problemas personales Los casos asociados a deserción por problemas personales varían entre 7 y 13 por cohorte. La mediana es 9.5 y el promedio 9.7, lo que indica que esta es una de las causas más frecuentes de deserción. El 50% central de los valores se concentra aproximadamente entre 8.25 y 11 casos, evidenciando variabilidad moderada y ausencia de valores atípicos.

En general, el análisis descriptivo evidencia que las variables asociadas a las causas de deserción presentan comportamientos estables entre cohortes, con baja o moderada variabilidad y sin presencia de valores atípicos. Las causas con mayor frecuencia corresponden a problemas personales y retiro del proceso de formación, mientras que otras causas muestran menor incidencia. Estos resultados permiten contar con una base adecuada para aplicar el modelo de regresión lineal múltiple y analizar la influencia conjunta de las variables explicativas sobre la deserción estudiantil.

5.Colinealidad entre las variables
Matriz de correlación de Pearson.

                         Cohorte Desertores     Fraude
Cohorte               1.00000000  0.9571972  0.8379061
Desertores            0.95719719  1.0000000  0.9522473
Fraude                0.83790613  0.9522473  1.0000000
Retiro_formacion      0.91413983  0.9901217  0.9749391
Traslado_centro       0.83790613  0.9522473  1.0000000
Traslado_jornada      0.83790613  0.9522473  1.0000000
Traslado_programa     0.87626598  0.9718781  0.9743804
Cancel_Academica     -0.63970962 -0.7168600 -0.7595141
Cancel_disciplinaria  0.08481385  0.1419526  0.1064794
Condicionamiento      0.35579736  0.3386303  0.3779645
Problemas_personales  0.91413983  0.9901217  0.9749391
                     Retiro_formacion Traslado_centro
Cohorte                     0.9141398       0.8379061
Desertores                  0.9901217       0.9522473
Fraude                      0.9749391       1.0000000
Retiro_formacion            1.0000000       0.9749391
Traslado_centro             0.9749391       1.0000000
Traslado_jornada            0.9749391       1.0000000
Traslado_programa           0.9867342       0.9743804
Cancel_Academica           -0.7428783      -0.7595141
Cancel_disciplinaria        0.1788743       0.1064794
Condicionamiento            0.3306982       0.3779645
Problemas_personales        1.0000000       0.9749391
                     Traslado_jornada Traslado_programa
Cohorte                     0.8379061         0.8762660
Desertores                  0.9522473         0.9718781
Fraude                      1.0000000         0.9743804
Retiro_formacion            0.9749391         0.9867342
Traslado_centro             1.0000000         0.9743804
Traslado_jornada            1.0000000         0.9743804
Traslado_programa           0.9743804         1.0000000
Cancel_Academica           -0.7595141        -0.7546305
Cancel_disciplinaria        0.1064794         0.2670763
Condicionamiento            0.3779645         0.3326411
Problemas_personales        0.9749391         0.9867342
                     Cancel_Academica Cancel_disciplinaria
Cohorte                   -0.63970962           0.08481385
Desertores                -0.71686001           0.14195264
Fraude                    -0.75951407           0.10647943
Retiro_formacion          -0.74287825           0.17887426
Traslado_centro           -0.75951407           0.10647943
Traslado_jornada          -0.75951407           0.10647943
Traslado_programa         -0.75463055           0.26707635
Cancel_Academica           1.00000000          -0.03575421
Cancel_disciplinaria      -0.03575421           1.00000000
Condicionamiento          -0.74033670          -0.14085904
Problemas_personales      -0.74287825           0.17887426
                     Condicionamiento Problemas_personales
Cohorte                     0.3557974            0.9141398
Desertores                  0.3386303            0.9901217
Fraude                      0.3779645            0.9749391
Retiro_formacion            0.3306982            1.0000000
Traslado_centro             0.3779645            0.9749391
Traslado_jornada            0.3779645            0.9749391
Traslado_programa           0.3326411            0.9867342
Cancel_Academica           -0.7403367           -0.7428783
Cancel_disciplinaria       -0.1408590            0.1788743
Condicionamiento            1.0000000            0.3306982
Problemas_personales        0.3306982            1.0000000

Resultados
Correlaciones extremadamente altas. entre varias variables, esto indica colinealidad severa:
Retiro_formacion ↔︎ Problemas_personales → 1.00 Fraude ↔︎ Traslado_centro / Traslado_jornada → 1.00 Retiro_formacion ↔︎ Traslado_programa → 0.99 Desertores ↔︎ varias causas → > 0.95


Muy fuertes (≈ 0.97 – 1.00)

Correlaciones negativas moderadas
Cancel_Academica con varias variables (~ -0.7)


Correlaciones bajas
Cancel_disciplinaria Condicionamiento

La matriz de correlación de Pearson evidencia la presencia de alta colinealidad entre varias variables explicativas, especialmente entre retiro del proceso de formación, problemas personales, traslado de centro, traslado de jornada y traslado de programa, cuyos coeficientes de correlación son superiores a 0.9. Esta situación indica que dichas variables presentan comportamientos muy similares y podrían estar midiendo efectos relacionados. Por el contrario, las variables cancelación disciplinaria y condicionamiento muestran correlaciones bajas, lo que sugiere menor asociación con las demás variables. En consecuencia, se identifica la necesidad de considerar la colinealidad en la construcción del modelo de regresión lineal múltiple.

6.Coeficientes del modelo Bi

Para estimar los coeficientes del modelo de regresión lineal múltiple se seleccionaron variables explicativas con menor grado de colinealidad, con el fin de garantizar estabilidad e interpretabilidad del modelo:


Variable dependiente: Desertores


Variables independientes:

Retiro_formacion (representa causas personales/académicas fuertes) Traslado_programa (movilidad académica) Cancel_Academica Cancel_disciplinaria Condicionamiento

Resultados del modelo

        1         2         3         4         5         6 
-1.437041 -1.636936  1.562959  0.690976 -0.629591  1.449633 
        7         8         9        10 
-0.750787 -0.749213  1.503148 -0.003148 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)  
(Intercept)           -4.8872     8.3172  -0.588   0.5884  
Retiro_formacion       5.1212     2.2267   2.300   0.0829 .
Traslado_programa      0.1653     3.0080   0.055   0.9588  
Cancel_Academica       1.1207     1.2036   0.931   0.4045  
Cancel_disciplinaria  -0.3730     0.8293  -0.450   0.6761  
Condicionamiento       1.0341     1.3054   0.792   0.4726  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.84 on 4 degrees of freedom
Multiple R-squared:  0.9851,    Adjusted R-squared:  0.9664 
F-statistic: 52.84 on 5 and 4 DF,  p-value: 0.0009586

El modelo de regresión lineal múltiple presenta un coeficiente de determinación R2=0.9851R^2 = 0.9851R2=0.9851, lo que indica que el 98.51% de la variabilidad en el número de desertores es explicada por las variables independientes incluidas en el modelo. El R2R^2R2 ajustado de 0.9664 confirma un alto nivel de ajuste considerando el número de predictores.

La prueba global del modelo es significativa (F = 52.84; p = 0.0009586), lo que evidencia que, en conjunto, las variables explicativas contribuyen de manera significativa a explicar la deserción estudiantil.

A nivel individual, la variable retiro del proceso de formación presenta el mayor efecto sobre la deserción (β = 5.1212) y muestra evidencia marginal de significancia estadística (p = 0.0829), indicando que incrementos en esta variable se asocian con aumentos en el número de desertores. Las demás variables no presentan efectos estadísticamente significativos de manera individual dentro del modelo.

7. Prueba global

ANOVA del modelo múltiple.

p-value = 0.0009586 F = 262.945

> summary(aov(modelo_multiple))
                     Df Sum Sq Mean Sq F value   Pr(>F)    
Retiro_formacion      1  890.5   890.5 262.945 8.46e-05 ***
Traslado_programa     1    0.9     0.9   0.266    0.633    
Cancel_Academica      1    0.4     0.4   0.131    0.736    
Cancel_disciplinaria  1    0.8     0.8   0.249    0.644    
Condicionamiento      1    2.1     2.1   0.628    0.473    
Residuals             4   13.5     3.4                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

El análisis de varianza (ANOVA) del modelo de regresión lineal múltiple evidencia que el modelo presenta significancia estadística global, lo cual indica que, en conjunto, las variables independientes explican de manera significativa la variabilidad en el número de desertores.

De forma individual, la variable retiro del proceso de formación presenta un efecto altamente significativo sobre la deserción (F = 262.945; p < 0.001), lo que confirma su relevancia como factor explicativo principal dentro del modelo. Las demás variables no muestran efectos estadísticamente significativos de manera individual, al presentar valores p superiores al nivel de significancia convencional (α = 0.05).

En consecuencia, se concluye que el modelo es estadísticamente válido en términos globales y que la variable retiro del proceso de formación es la que mayor contribución presenta en la explicación del fenómeno de deserción.

8. Pruebas individuales de los coeficientes

Si p-value < 0.05 → variable significativa Si p-value > 0.05 → no significativa Si está cerca de 0.10 → evidencia débil (marginal)

La prueba individual de los coeficientes del modelo muestra que la variable retiro del proceso de formación presenta evidencia marginal de significancia estadística (β = 5.1212; p = 0.0829), lo que sugiere una posible influencia positiva sobre la deserción estudiantil. Las variables traslado de programa, cancelación académica, cancelación disciplinaria y condicionamiento de matrícula no presentan efectos estadísticamente significativos de manera individual, al registrar valores p superiores al nivel de significancia de 0.05. En consecuencia, no se rechaza la hipótesis nula de que sus coeficientes sean iguales a cero dentro del modelo.

Factor inflación de la varianza

Para confirmar la colinealidad entre las variables independientes dentro del modelo múltiple, los resultados fueron:

Variable VIF Interpretación
Retiro_formacion 55.78 Colinealidad severa
Traslado_programa 64.38 Colinealidad severa
Cancel_Academica 6.37 Colinealidad moderada
Cancel_disciplinaria 1.71 Sin problema
Condicionamiento 3.02 Sin problema
vif(modelo_multiple)
Retiro_formacion    Traslado_programa 
       55.775721            64.384680 
Cancel_Academica Cancel_disciplinaria 
      6.373151             1.705561 
    Condicionamiento 
            3.018888 

El análisis del factor de inflación de la varianza (VIF) evidencia la presencia de colinealidad en el modelo de regresión lineal múltiple. Las variables retiro del proceso de formación y traslado de programa presentan valores de VIF superiores a 10, lo que indica colinealidad severa. La variable cancelación académica presenta colinealidad moderada, mientras que cancelación disciplinaria y condicionamiento de matrícula no evidencian problemas de colinealidad. Estos resultados sugieren la necesidad de considerar la reducción o selección de variables para mejorar la estabilidad del modelo.

Prueba de shapiro.

> shapiro.test(modelo_multiple$residuals)
Shapiro-Wilk normality test
data:  modelo_multiple$residuals
W = 0.89223, p-value = 0.1797

La prueba de normalidad de Shapiro-Wilk aplicada a los residuos del modelo presenta un valor p = 0.1797, superior al nivel de significancia de 0.05. En consecuencia, no se rechaza la hipótesis nula de normalidad, lo que indica que los residuos del modelo pueden considerarse aproximadamente normales. Por tanto, se cumple el supuesto de normalidad requerido para la regresión lineal múltiple

Prueba Anderson–Darling

> ad.test(modelo_multiple$residuals)
Anderson-Darling normality test
data:  modelo_multiple$residuals
A = 0.44394, p-value = 0.2243

La prueba de normalidad de Anderson-Darling aplicada a los residuos del modelo arroja un valor p = 0.2243, superior al nivel de significancia de 0.05. Por tanto, no se rechaza la hipótesis nula de normalidad, lo que confirma que los residuos del modelo pueden considerarse normalmente distribuidos. Este resultado es consistente con la prueba de Shapiro-Wilk previamente realizada.

Prueba Cramer-von Mises

cvm.test(modelo_multiple$residuals)
Cramer-von Mises normality test
data:  modelo_multiple$residuals
W = 0.066988, p-value = 0.2769

La prueba de normalidad Cramér–von Mises aplicada a los residuos del modelo presenta un valor p = 0.2769, superior al nivel de significancia de 0.05. En consecuencia, no se rechaza la hipótesis nula de normalidad, lo que indica que los residuos del modelo siguen una distribución aproximadamente normal. Este resultado es consistente con las pruebas de Shapiro-Wilk y Anderson-Darling, confirmando el cumplimiento del supuesto de normalidad.

Prueba de lilliefors

> lillie.test(modelo_multiple$residuals)
Lilliefors (Kolmogorov-Smirnov) normality test
data:  modelo_multiple$residuals
D = 0.19608, p-value = 0.3383

La prueba de normalidad de Lilliefors aplicada a los residuos del modelo presenta un valor p = 0.3383, superior al nivel de significancia de 0.05. Por lo tanto, no se rechaza la hipótesis nula de normalidad, lo que indica que los residuos del modelo pueden considerarse normalmente distribuidos. Este resultado es consistente con las pruebas de Shapiro-Wilk, Anderson-Darling y Cramér–von Mises.

9.Interpretar los coeficientes de la ecuación

Desertores=−4.8872+5.1212(Retiro_formacion)+0.1653(Traslado_programa)+1.1207(Cancel_Academica)−0.3730(Cancel_disciplinaria)+1.0341(Condicionamiento)

El intercepto del modelo (-4.8872) representa el valor estimado de desertores cuando todas las variables explicativas toman el valor cero, aunque su interpretación práctica es limitada en el contexto del estudio. El coeficiente asociado al retiro del proceso de formación (β = 5.1212) indica que, manteniendo constantes las demás variables, un incremento de un caso en esta causa se asocia con un aumento promedio de aproximadamente 5 desertores, evidenciando un efecto positivo importante sobre la deserción.

El coeficiente de traslado de programa (β = 0.1653) sugiere un efecto positivo muy pequeño sobre el número de desertores, manteniendo constantes las demás variables.

La cancelación de matrícula por índole académica (β = 1.1207) muestra una relación positiva con la deserción, indicando que incrementos en esta causa se asocian con aumentos en el número de desertores. La cancelación disciplinaria presenta un coeficiente negativo (β = -0.3730), lo que sugiere una relación inversa débil con la deserción bajo el control de las demás variables.

Finalmente, el condicionamiento de matrícula (β = 1.0341) evidencia una relación positiva moderada con el número de desertores, manteniendo constantes las demás variables.

10.Coeficientes de correlación y de determinación

> confint(modelo_multiple)
                          2.5 %    97.5 %
(Intercept)          -27.979378 18.204981
Retiro_formacion      -1.061021 11.303414
Traslado_programa     -8.186279  8.516814
Cancel_Academica      -2.221034  4.462377
Cancel_disciplinaria  -2.675419  1.929354
Condicionamiento      -2.590263  4.658469

Los intervalos de confianza al 95% para los coeficientes del modelo de regresión lineal múltiple muestran el rango de valores plausibles para cada parámetro. Se observa que los intervalos correspondientes a traslado de programa, cancelación académica, cancelación disciplinaria y condicionamiento de matrícula incluyen el valor cero, lo que indica que no existe evidencia estadística suficiente para afirmar que sus efectos difieren de cero al nivel de significancia del 5%.

El coeficiente asociado al retiro del proceso de formación presenta el mayor efecto estimado; sin embargo, su intervalo de confianza también incluye el valor cero, lo que sugiere que su efecto no es estadísticamente concluyente al nivel de confianza del 95%. Estos resultados son consistentes con las pruebas individuales de significancia obtenidas previamente.

11. Cumplimiento de supuestos

Supuesto de homocedasticidad de Breusch-Pagan

> bptest(modelo_multiple)
studentized Breusch-Pagan test
data:  modelo_multiple
BP = 8.6901, df = 5, p-value = 0.1221

La prueba de Breusch-Pagan arroja un valor p = 0.1221, mayor que el nivel de significancia de 0.05. Por lo tanto, no se rechaza la hipótesis nula de homocedasticidad, lo que indica que los residuos del modelo presentan varianza constante. En consecuencia, el supuesto de homocedasticidad del modelo de regresión múltiple se cumple.

Supuesto de independencia

> dwt(modelo_multiple, alternative = "two.sided")
 lag Autocorrelation D-W Statistic p-value
   1      -0.1572748      2.162113   0.868
 Alternative hypothesis: rho != 0

La prueba de Durbin-Watson arroja un estadístico DW = 2.1621 con p = 0.868. Como el valor p es mayor que 0.05, no se rechaza la hipótesis nula de independencia de los errores. Por lo tanto, no existe evidencia de autocorrelación y el supuesto de independencia se cumple.

12. Pronósticos puntuales y por intervalo

Pronóstico con intervalo de confianza

predict(modelo_multiple,prediccion,interval="confidence")
 fit       lwr     upr
1 15.21406 -15.33867 45.7668

El modelo predice un valor de Desertores = 15.21 para los valores de las variables ingresadas. El intervalo de confianza al 95% va desde −15.34 hasta 45.77. Esto significa que, con un 95% de confianza, el valor promedio esperado de desertores se encuentra dentro de ese rango, lo que evidencia alta variabilidad e incertidumbre en la predicción.

Pronóstico intervalo de predicción

> predict(modelo_multiple,prediccion,interval="prediction")
       fit       lwr     upr
1 15.21406 -15.76298 46.1911

El modelo estima 15.21 desertores para los valores ingresados. El intervalo de predicción al 95% va de −15.76 a 46.19.

El modelo predice 15.21 desertores; no obstante, el intervalo de predicción al 95% (−15.76, 46.19) es amplio, indicando alta incertidumbre en la predicción individual. Esto significa que, para un caso individual con esas características, el número real de desertores podría ubicarse dentro de ese rango con 95% de confianza.

Código RStudio

rm(list = ls())
library(readxl)
causas <- read_excel("C:/Users/USUARIO/Desktop/DOCTORADO/DISEÑO DE EXPERIMENTOS DOE/TAREA 2/causas.xlsx")
View(causas)
boxplot(causas$Cohorte)
summary(causas$Cohorte)
boxplot(causas$Desertores)
summary(causas$Desertores)
boxplot(causas$Fraude)
summary(causas$Fraude)
boxplot(causas$Retiro_formacion)
summary(causas$Retiro_formacion)
boxplot(causas$Traslado_centro)
summary(causas$Traslado_centro)
boxplot(causas$Traslado_jornada)
summary(causas$Traslado_jornada)
boxplot(causas$Traslado_programa)
summary(causas$Traslado_programa)
boxplot(causas$Cancel_Academica)
summary(causas$Cancel_Academica) 
boxplot(causas$Cancel_disciplinaria)
summary(causas$Cancel_disciplinaria) 
boxplot(causas$Condicionamiento)
summary(causas$Condicionamiento)
boxplot(causas$Problemas_personales)
summary(causas$Problemas_personales)
#MATRIZ DE CORRELACION PARA DETECTAR COLINEALIDAD
round(cor(x = causas, method = "pearson"), 11)
library(psych)
multi.hist(x = causas, dcol = c("blue", "red"), dlty = c("dotted", "solid"),main = "")
library(GGally)
ggpairs(causas, lower = list(continuous = "smooth"),diag = list(continuous = "bar"), axisLabels = "none")
#CONSTRUCCION DEL MODELO
modelo_multiple <- lm(Desertores ~ Retiro_formacion + Traslado_programa + Cancel_Academica + Cancel_disciplinaria +                        Condicionamiento, data = causas)
summary(modelo_multiple)
#PRUEBA GLOBAL
summary(aov(modelo_multiple))
library(car)
vif(modelo_multiple)
#INTERVALOS DE CONFIANZA
confint(modelo_multiple)
qqnorm(modelo_multiple$residuals)
qqline(modelo_multiple$residuals)
#PRUEBAS
shapiro.test(modelo_multiple$residuals)
library(nortest)
ad.test(modelo_multiple$residuals)
cvm.test(modelo_multiple$residuals)
lillie.test(modelo_multiple$residuals)
library(lmtest)
bptest(modelo_multiple)
library(car)
dwt(modelo_multiple, alternative = "two.sided")
prediccion = data.frame(
  Retiro_formacion = c(3),
  Traslado_programa = c(6.5),
  Cancel_Academica = c(1),
  Cancel_disciplinaria = c(1.5),
  Condicionamiento = c(3)
)
#valor esperado
predict(modelo_multiple,prediccion,interval="confidence")
predict(modelo_multiple,prediccion,interval="prediction")