Integrantes:

Interpretación modelo Logit.

El presente informe econométrico presenta el modelo logit la cual tiene como objetivo evaluar la probabilidad de que los estudiantes logren ingresar a la universidad. Utilizando herramientas estadísticas y técnicas, analizamos una serie de variables relevantes para comprender y predecir este si aceptado o rechazado.

Analizamos las variables GRE (examen obligatorio), GPA (promedio acumulado), RANK (ranking de la universidad), donde 1 es admitido y 0 rechazado.Además de calcular e interpretar betas, signos, odd ratio y las probabilidades de éxito para todos los individuos.

Desarrollo.

En el desarrollo de este informe, se ejecutaron una serie de comandos en R Studio con el propósito de cargar con éxito los datos contenidos en una tabla de formato Excel. Estas instrucciones permitieron la preparación adecuada de los datos para el análisis siguiente.

library(aod)
library(ggplot2)
mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
attach(mydata)
names(mydata)
## [1] "admit" "gre"   "gpa"   "rank"

Tras realizar estas operaciones iniciales, se procedió a emplear el comando “glm” para la regresión. En este análisis, se designó como variable dependiente (Y) la categorización dicotómica que distingue entre admisión (con un valor de 1) y rechazo (con un valor de 0). Las variables independientes incluidas fueron “gre”, correspondiente al examen GRE; gpa, representando el promedio acumulado; y “rank”, que denota el rango de la universidad. Para modelar adecuadamente esta relación, se especificó el uso del enfoque binomial con función de enlace “logit” en la variable “family”. Finalmente, utilizamos el comando “summary” para obtener el valor de los coeficientes de regresión (betas) en el modelo.

m1= glm(admit ~ gre + gpa + rank, family = binomial(link= "logit"), data=mydata)
summary(m1)
## 
## Call:
## glm(formula = admit ~ gre + gpa + rank, family = binomial(link = "logit"), 
##     data = mydata)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -3.449548   1.132846  -3.045  0.00233 ** 
## gre          0.002294   0.001092   2.101  0.03564 *  
## gpa          0.777014   0.327484   2.373  0.01766 *  
## rank        -0.560031   0.127137  -4.405 1.06e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 499.98  on 399  degrees of freedom
## Residual deviance: 459.44  on 396  degrees of freedom
## AIC: 467.44
## 
## Number of Fisher Scoring iterations: 4

Interpretación signos.

Por lo tanto, podemos concluir que el análisis de los coeficientes revela que el intercepto (que representa la admisión o el rechazo) tiene un efecto negativo en la probabilidad de éxito, asumiendo que las demás variables se mantienen constantes. Además, se observa que un mayor GPA (Promedio de Puntos de Graduación) y un rendimiento más alto en el GRE (Examen de Graduación Requerido) están positivamente asociados con la probabilidad de éxito en el proceso. En contraste, el RANK (Clasificación Universitaria) tiene una influencia negativa en dicha probabilidad.

Interpretación odd ratio.

Continuamente, se analiza el odd ratio. Si un coeficiente tiene un signo negativo, se dividió entre uno y su exponencial, y en caso de ser positivo, se utilizó la función exponencial para calcular el nuevo valor. Estas transformaciones se aplicaron para ajustar los resultados del análisis y obtener una comprensión más clara del impacto de cada variable en el modelo.

1/exp(-3.449548) 
## [1] 31.48616
exp(0.002294) 
## [1] 1.002297
exp(0.777014) 
## [1] 2.174968
1/exp(-0.560031) 
## [1] 1.750727

Interpretación de los odd ratios:

  • Intercepto: Es 31.48616 veces mas probable no ser admitido a ser admitido, suponiendo que las otras variables se mantienen constantes.

  • Gre: A una unidad de cambio en los puntos de gre es más probable que aumente 1.002297 puntos que el anterior, lo que quiere decir que es más probable a ser admitido.

  • Gpa: A una unidad de cambio en los puntos de gpa es más probable que aumente 2.174968 veces que el anterior, lo que indica que es más probable a ser admitido.

  • Rank: A una unidad de cambio en los puntos de rank aumenta la magnitud 1.750727 veces que el anterior, lo que sugiere que tiene más probabilidad al fracaso que al exito.

Predicción:

Para predecir el éxito en el proceso de admisión, usamos un modelo de regresión logística en R con el comando “Predict”. Cargamos los datos e ajustamos el modelo a ‘gre’, ‘gpa’ y ‘rank’(m1). La salida nos dio insights: GRE y GPA aumentan el éxito, mientras que el Rank lo reduce. Calculamos las predicciones y las clasificamos en ‘Éxito’ o ‘Fracaso’ según la probabilidad superara 0.5

Admitido la probabilidad debe ser mayor a 0.5 No admitido la probabilidad es menor a 0.5

mydata$prediccion = predict(m1, type = "response")

Utilizamos el código para asignar etiquetas de ‘Éxito’ o ‘Fracaso’ a cada predicción realizada por nuestro modelo. Primero, calculamos las predicciones usando la función ‘predict’. Luego, con la función ‘ifelse’, comparamos cada predicción con el umbral de 0.5. Si la predicción es mayor o igual a 0.5, etiquetamos el caso como ‘Éxito’, de lo contrario, lo etiquetamos como ‘Fracaso’. Esto crea una nueva columna llamada ‘exito_fracaso’ en nuestro conjunto de datos que indica si cada caso se considera un éxito o un fracaso según la predicción generada

#Tabla de exitos y fracasos 
mydata$exito_fracaso = ifelse(mydata$prediccion >= 0.5, "Éxito", "Fracaso")

# Tabla de frecuencia para observar el número total de éxitos y fracasos
tabla_exito_fracaso <- table(mydata$exito_fracaso)
print(tabla_exito_fracaso)
## 
##   Éxito Fracaso 
##      49     351

El comando “Table” nos permite observar el número total de estudiantes que tienen probabilidad de exito y cuantos en total tienen probabilidad de fracaso.

Resultado: Exito (9) Fracaso(351)

A través del siguiente histograma, se puede observar que los estudiantes aceptados se encuentran por encima del valor 0.5, mientras que los rechazados se sitúan por debajo de este umbral. Este sugiere que la mayoría de los estudiantes no serán admitidos.

hist(mydata$prediccion, col = "pink", main = "Histograma de Predicciones", xlab = "Predicción", ylab = "Frecuencia")

Y para finalizar se realizó una gráfica con el paquete “ggplot2”. La gráfica muestra visualmente la distribución de casos entre ‘Éxito’ y ‘Fracaso’. Cada barra representa cuántas veces ocurrió cada categoría. El color de las barras diferencia entre ‘Éxito’ y ‘Fracaso’ para una comprensión rápida

library(ggplot2)
ggplot(mydata, aes(x = exito_fracaso, fill = exito_fracaso)) +
  geom_bar() +
  labs(title = "Distribución de Éxito y Fracaso",
       x = "Éxito/Fracaso",
       y = "Frecuencia") +
  scale_fill_manual(values = c("Éxito" = "green", "Fracaso" = "red"))

Conclusiones

Al analizar los resultados, se evidencia una relación positiva entre el rendimiento en los exámenes GRE y el GPA acumulado con las probabilidades de éxito en el proceso de admisión. Esto sugiere que los estudiantes con calificaciones más altas en estas áreas tienen mayores posibilidades de ser admitidos. Por otro lado, el factor Rank muestra una tendencia contraria, donde un ranking más bajo de la universidad está asociado con una disminución en las probabilidades de éxito. Estas conclusiones resaltan la importancia de los logros académicos y la reputación de la institución en el proceso de selección.