El presente trabajo se centra en un análisis estadístico de un conjunto de datos obtenidos a través de una encuesta aplicada a estudiantes universitarios. Este estudio tiene como objetivo principal explorar y comprender diversos aspectos de la vida académica y personal de los estudiantes, y cómo estos factores pueden influir en su rendimiento académico y bienestar general.
El conjunto de datos utilizado en este análisis incluye información detallada sobre varios aspectos clave de la experiencia estudiantil. Las variables recogidas abarcan desde datos demográficos como el género y la fecha de la encuesta, hasta aspectos académicos como el promedio de matrícula, el año académico, la facultad y el promedio académico en 2023. Además, se consideraron factores relacionados con el entorno y estilo de vida de los estudiantes, tales como el tipo de alojamiento, la ayuda mensual recibida, si son becarios, y el número de horas dedicadas al estudio semanalmente.
Otros aspectos de interés en el análisis incluyen la frecuencia de socialización, el consumo de alcohol por noche, las clases perdidas, las materias reprobadas y la existencia de una relación sentimental. Asimismo, se evaluó la aprobación de los padres respecto al consumo de alcohol y el nivel de relación que los estudiantes mantienen con sus padres.
A través de un enfoque estadístico riguroso, este trabajo busca identificar patrones y correlaciones entre las diferentes variables, ofreciendo una visión integral de los factores que pueden afectar el desempeño académico y la calidad de vida de los estudiantes universitarios. Este análisis no solo proporcionará insights valiosos para los propios estudiantes, sino también para las instituciones educativas en la implementación de políticas y programas que apoyen el éxito y bienestar estudiantil.
El objetivo principal de este trabajo es analizar los efectos del consumo de alcohol en el rendimiento académico de los estudiantes universitarios, utilizando un enfoque estadístico basado en datos recogidos a través de una encuesta detallada. Específicamente, se pretende:
Evaluar la relación entre el consumo de alcohol y el promedio académico de los estudiantes universitarios en 2023.
Determinar cómo la frecuencia y cantidad de consumo de alcohol por noche afectan las horas de estudio semanal y las clases perdidas.
Investigar la correlación entre el consumo de alcohol y otros factores relacionados con el rendimiento académico, como la cantidad de materias reprobadas y el tipo de alojamiento.
Investigar la influencia de hábitos y comportamientos, tales como la frecuencia de socialización, el consumo de alcohol, y las clases perdidas, en el rendimiento académico.
Examinar el papel de la aprobación de los padres respecto al consumo de alcohol y su influencia en el comportamiento de los estudiantes y su desempeño académico.
En este estudio, se analizaron varias variables categóricas para entender mejor su impacto en el rendimiento académico de los estudiantes universitarios. Las variables categóricas son aquellas que clasifican a los estudiantes en diferentes grupos o categorías, sin implicar un orden específico. A continuación, se describen las principales variables categóricas incluidas en el análisis:
Género: Esta variable clasifica a los estudiantes según su género, proporcionando una base para analizar posibles diferencias en el rendimiento académico y el consumo de alcohol entre géneros.
Año Académico: Clasifica a los estudiantes según el año académico en el que se encontraban en 2023, lo que permite evaluar cómo las experiencias y el rendimiento varían a lo largo de la carrera universitaria.
Facultad: Agrupa a los estudiantes según la facultad a la que pertenecen, permitiendo identificar patrones específicos de rendimiento y consumo de alcohol en diferentes disciplinas académicas.
Alojamiento: Esta variable distingue entre estudiantes que viven en diferentes tipos de alojamiento (por ejemplo, en casa, en residencia universitaria, o en apartamento compartido), ayudando a examinar cómo el entorno de vida puede influir en el comportamiento y el rendimiento académico.
Becario: Indica si un estudiante recibe beca o no, permitiendo explorar cómo la ayuda financiera puede estar relacionada con el rendimiento académico y el consumo de alcohol.
Relación Sentimental: Clasifica a los estudiantes según si tienen una relación sentimental o no, proporcionando una perspectiva sobre cómo las relaciones personales pueden afectar el rendimiento académico y el consumo de alcohol.
Aprobación de los Padres en el Consumo de Alcohol: Esta variable captura las actitudes de los padres respecto al consumo de alcohol por parte de los estudiantes, lo que puede influir significativamente en los comportamientos y decisiones de los estudiantes.
Nivel de Relación con los Padres: Mide la calidad de la relación de los estudiantes con sus padres, permitiendo evaluar cómo el apoyo y la comunicación familiar afectan el rendimiento académico y los hábitos de consumo.
Estas variables categóricas son fundamentales para segmentar y entender las diferencias en el comportamiento y el rendimiento académico entre distintos grupos de estudiantes, ofreciendo una visión más completa y matizada de los factores que pueden influir en su éxito académico y bienestar.
options(repr.plot.width = 50, repr.plot.height = 20)
gentab <- table (datos$Género)
bp1 <- barplot(gentab,
col= c("pink", "lightblue") ,
main= "Distribución de Género" ,
xlab= "Género" ,
ylab= "Frecuencia",
ylim= c(0, 300))
text(bp1 , gentab, labels = gentab , pos=3, cex=0.8, col= "black")Se obtiene que del total de la muestra, 136 estudiantes corresponden al sexo femenino y 159 estudiantes al sexo masculino.
añotab <- table (datos$Año_académico)
options(repr.plot.width = 50, repr.plot.height = 20)
bp2 <- barplot(añotab,
col= c("lightgreen"),
main= "Distribución por año académico",
xlab= "Año académico",
ylab= "Frecuencia",
ylim= c(0, 180))
par(las=2)
text(bp2 , añotab,labels = añotab , pos=3, cex=0.8, col= "black")En cuanto a la distribución por año académico se obtiene que la mayoría de los estudiantes encuestados se encuentran en el segundo año académico, siendo 139. De la muestra hay 109 estudiantes de primer año, 36 de tercer año, 6 estudiantes en el cuarto año y 5 estudiantes graduados.
factab <- table (datos$Facultad)
options(repr.plot.width = 200, repr.plot.height = 50)
bp3 <- barplot(factab,
col= c("lightblue"),
main= "Distribución por Facultad",
xlab= "Facultad",
ylab= "Frecuencia", las=2,
ylim= c(0, 300),
cex.names = 0.5)
par(las=2)
text(bp3 , factab,labels = factab , pos=3, cex=0.8, col= "black")De la muestra analizada la mayoría de estudiantes que realizaron la encuesta son estudiantes de Ciencias Económicas y Empresariales con 161. Otras facultades que igual se encuentran dentro de la muestra son: Ciencias Agrarias, Artes y Ciencias Sociales, Educación, Ingeniería, Jurisprudencia, Medicina and Servicios de salud, Ciencias.
acotab <- table (datos$Alojamiento)
options(repr.plot.width = 200, repr.plot.height = 50)
bp4 <- barplot(acotab,
col= c("yellow"),
main= "Distribución por Acomodación",
xlab= "Acomodación",
ylab= "Frecuencia", las=2,
ylim= c(0, 400),
cex.names = 0.5)
par(las=2)
text(bp4 , acotab,labels = acotab , pos=3, cex=0.8, col= "black")En cuanto a la situación de la acomodación de los estudiantes 258 estudiantes de 295 se encuentran viviendo con sus familiares o en alojamientos privados.
bectab <- table (datos$Becario)
options(repr.plot.width = 200, repr.plot.height = 50)
bp5 <- barplot(bectab,
col= c("pink"),
main= "Distribución por estado de Beca",
xlab= "Beca",
ylab= "Frecuencia", las=2,
ylim= c(0, 400),
cex.names = 0.5)
par(las=2)
text(bp5 , bectab,labels = bectab , pos=3, cex=0.8, col= "black")De la situación de estudiantes que cuentan con beca. Del total de los estudiantes 268 no cuentan con becas mientras ejercen sus estudios y unicamente 27 de ellos si cuentan con alguna beca.
restab <- table (datos$Relación_sentimental)
options(repr.plot.width = 200, repr.plot.height = 50)
bp6 <- barplot(restab,
col= c("green"),
main= "Distribución por estado sentimental",
xlab= "Estado sentimental",
ylab= "Frecuencia", las=2,
ylim= c(0, 400),
cex.names = 0.5)
par(las=2)
text(bp6 , restab,labels = restab , pos=3, cex=0.8, col= "black")De los estudiantes encuestados, 167 estudiantes no se encuentran en una situación sentimental y 128 se encuentran en una situación sentimental.
apptab <- table (datos$Aprobación_de_padres_en_consumo_de_alcohol)
options(repr.plot.width = 200, repr.plot.height = 50)
bp7 <- barplot(apptab,
col= c("blue"),
main= "Distribución por aprobación padres",
xlab= "Aprobación padres en consumo de alcohol",
ylab= "Frecuencia", las=2,
ylim= c(0, 400),
cex.names = 0.5)
par(las=2)
text(bp7 , apptab,labels = apptab , pos=3, cex=0.8, col= "black")De los estudiantes encuestados, 260 estudiantes cuentan con la aprobación de sus padres para el consumo de alcohol, 35 no lo cuentan.
niptab <- table (datos$Nivel_de_relación_con_los_padres)
options(repr.plot.width = 200, repr.plot.height = 50)
bp8 <- barplot(niptab,
col= c("red"),
main= "Distribución por nivel de relación",
xlab= "Nivel de relación con los padres",
ylab= "Frecuencia", las=2,
ylim= c(0, 400),
cex.names = 0.5)
par(las=2)
text(bp8 , niptab,labels = niptab , pos=3, cex=0.8, col= "black")Sobre el nivel de relación que tienen los estudiantes con los padres para el total de la muestra, 198 estudiantes tienen una relación muy cercana con ellos, 67 la consideran solo cercana y solo 2 estudiantes tienen una relación distinta con sus padres.
La estadística descriptiva es una parte fundamental del análisis de datos y nos permite resumir y describir las características principales del conjunto de datos.
Los resúmenes numéricos incluyen medidas de tendencia central y dispersión, como la media, mediana, moda, varianza, desviación estándar, percentiles, entre otros.
a) Resumen Promedio académico 2023
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 30.00 60.00 65.00 66.56 74.00 95.22
La media del total de calificaciones en el año académico 2023 para el grupo de estudiantes encuestados es de 65/100. Siendo la menor calificación 30/100 y la máxima calificación 95.22/100
b) Resumen Consumo alcohol por noche
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 2.000 6.500 5.193 6.500 9.000
El consumo de alcohol de los estudiantes se encuentra alredor de 6.5 tragos por noche. Siendo el valor máximo de 9 vasos por noche y con un mínimo de ningún vaso por noche.
c) Resumen Horas de estudio semanal
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 2.000 6.500 5.388 9.000 9.000
Las horas de estudio de los estudiantes corresponden a una media de 6.5 horas semanal y un máximo de 9 horas semanal. Igual se evidencia que existen casos donde estudiantes semanalmente no dedican ninguna hora para el estudio.
d) Resumen Clases perdidas
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 1.000 1.081 2.000 5.000
Con respecto a las clases perdidas del grupo de estudiantes, la media se encuentra en una clase perdida semanalmente, con un máximo de 5 clases perdidas a la semana.
e) Resumen Materias reprobadas
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.9661 1.0000 5.0000
De las materias reprobadas del grupo de estudiantes, la media se encuentra en 0 porque la mayoría de los estudiantes no han reprobado ninguna materia dentro del año académico. El valor máximo de materias reprobadas es de 5.
Los histogramas son gráficos que muestran la distribución de una variable continua dividiéndola en intervalos y contando la cantidad de observaciones en cada intervalo. En nuestro caso vamos a entender la distribución de variables como el promedio académico y el consumo de alcohol.
a) Promedio académico
Al crear un histograma del promedio académico de los estudiantes en 2023, podemos observar la distribución general de las calificaciones. Esto nos permite identificar si los datos están distribuidos normalmente, si hay sesgos o si existen valores atípicos.
ggplot (datos, aes(x=Promedio_académico_2023)) +
geom_histogram(binwidth = 0.5, fill = "skyblue", color = "black") +
theme_minimal () +
labs (title = "Distribución del Promedio del Rendimiento Académico", x= "Promedio", y="Frecuencia")Se puede observar que la distribución del histograma se encuentra hacia la derecha (rango de calificaciones altos), no se visualiza que las calificaciones se encuentran distribuidas alrededor de la media (65). De igual forma se evidencia que gran cantidad de estudiantes tienen calificaciones sobre la media.
b) Consumo de Alcohol
Un histograma del consumo de alcohol por noche muestra cómo se distribuye el consumo entre los estudiantes.
ggplot (datos, aes(x=Consumo_alcohol_por_noche)) +
geom_histogram(binwidth = 1, fill = "skyblue", color = "black") +
theme_minimal () +
labs (title = "Distribución del Consumo de Alcohol por Noche", x= "Vasos por noche", y="Frecuencia")
El gráfico analiza la cantidad de consumo de alcohol por noche. Eje X
(Promedio): Representa el promedio de vasos de alcohol consumidas por
noche. Eje Y (Frecuencia): Indica la frecuencia, es decir, el número de
estudiantes que registran una determinada cantidad de consumo de
alcohol.
Frecuencia del Consumo:
*Consumo Nulo (0 unidades): Hay una frecuencia baja de noches sin consumo de alcohol, aproximadamente a 20 estudiantes.
*Consumo Moderado (2.5 unidades): Un incremento significativo se observa con alrededor de 70 estudiantes registrando un consumo promedio de 2.5 unidades.
*Consumo Moderado-Alto (5 unidades): Se mantiene una alta frecuencia de consumo, con aproximadamente 65 estudiantes.
*Consumo Alto (7.5 unidades): El punto más alto en el histograma, con una frecuencia de más de 80 estudiantes, lo que indica que la mayoría de los estudiantes consumen más de 7 vasos por noche.
*Consumo Muy Alto (10 unidades): La frecuencia disminuye nuevamente a cerca de 60 estudiantes.
Por lo tanto, del gráfico se desprende que el consumo de alcohol por noche aplica a la mayoría de los estudiantes, ya que solo un grupo pequeños de ellos (20) no consume alcohol, con respecto a la muestra total.
Los boxplots, o diagramas de caja y bigote, son gráficos que muestran la distribución de una variable continua a través de sus cuartiles, destacando los valores atípicos. Son útiles para comparar la distribución de una variable continua entre diferentes categorías.
a) Promedio académico por género Comparando el promedio académico entre géneros puede revelar diferencias significativas entre ellos.
ggplot(datos, aes(x=Género , y=Promedio_académico_2023 )) +
geom_boxplot() +
theme_minimal() +
labs(title = "Promedio del Rendimiento Académico por Género", x= "Sexo", y= "Promedio Académico 2023",
col=c("lightblue", "lightpink"))El gráfico de caja y bigotes (boxplot) muestra la distribución del rendimiento académico promedio en 2023, desglosado por sexo (Mujer y Hombre).
La mediana del rendimiento académico es mayor para las estudiantes mujeres (70 puntos) en comparación con los estudiantes varones (65 puntos), lo que sugiere que, en general, las estudiantes mujeres tienden a tener un rendimiento académico más alto.
El IQR para las estudiantes mujeres (16 puntos) es ligeramente mayor que para los estudiantes varones (14 puntos), lo que indica una variabilidad ligeramente mayor en los puntajes de las estudiantes mujeres.
La presencia de outliers en los estudiantes varones sugiere que hay algunos casos excepcionales con rendimientos significativamente diferentes del promedio, tanto positivos como negativos.
Los bigotes de los estudiantes varones se extienden más que los de las estudiantes mujeres, lo que indica una mayor dispersión en los puntajes de los estudiantes varones.
Las estudiantes mujeres tienen un rendimiento académico generalmente más alto y más consistente en comparación con los estudiantes varones.
Aunque ambos géneros muestran una variabilidad en los puntajes, los estudiantes varones tienen más outliers, indicando casos extremos de bajo y alto rendimiento.
b) Horas de estudio semanal por tipo de alojamiento Un boxplot que muestra las horas de estudio semanal según el tipo de alojamiento ayuda a entender cómo el entorno de vida puede afectar los hábitos de estudio.
ggplot(datos, aes(x=Alojamiento , y=Horas_de_estudio_semanal )) +
geom_boxplot() +
theme_minimal() +
labs(title = "Horas de estudio semanal por Tipo de Alojamiento", x= "Alojamiento", y= "Horas de estudio semanal",
col=c("lightblue", "lightpink"))
El gráfico de caja y bigotes (boxplot) muestra la distribución de las
horas de estudio semanal de los estudiantes según el tipo de
alojamiento. Los dos tipos de alojamiento considerados son “Non-private
accommodation (ie. Res)” (Alojamiento no privado, como residencias) y
“Private accommodation/stay with family/friends” (Alojamiento
privado/estancia con familiares o amigos). A continuación, se presenta
un análisis detallado e interpretación de este gráfico:
Ejes:
Eje X (Alojamiento): Muestra las categorías de tipo de alojamiento: “Non-private accommodation (ie. Res)” y “Private accommodation/stay with family/friends”.
Eje Y (Horas de estudio semanal): Representa las horas de estudio semanal, con un rango aproximado de 0 a 10 horas.
Elementos del Boxplot:
Caja: Representa el rango intercuartil (IQR), que contiene el 50% central de los datos (del primer cuartil, Q1, al tercer cuartil, Q3).
Línea Media (Mediana): La línea dentro de la caja indica la mediana de las horas de estudio semanal.
Bigotes (Whiskers): Se extienden hasta el valor máximo y mínimo dentro de 1.5 veces el IQR desde los cuartiles.
Puntos Fuera de los Bigotes: Representan los valores atípicos (outliers), que son puntajes significativamente diferentes del resto de los datos.
Análisis del Boxplot
Distribución para Alojamiento No Privado (Non-private accommodation ie. Res):
Mediana: Aproximadamente en 2.5 horas de estudio por semana.
Rango Intercuartil (IQR): Aproximadamente de 0 a 7.5 horas.
Bigotes: Se extienden desde 0 hasta 10 horas.
Outliers: No se observan puntos fuera de los bigotes, lo que indica que no hay valores atípicos significativos en esta categoría.
Distribución para Alojamiento Privado (Private accommodation/stay with family/friends):
Mediana: Aproximadamente en 5 horas de estudio por semana.
Rango Intercuartil (IQR): Aproximadamente de 2.5 a 7.5 horas.
Bigotes: Se extienden desde 0 hasta 10 horas.
Outliers: No se observan puntos fuera de los bigotes, lo que indica que no hay valores atípicos significativos en esta categoría.
Interpretación Comparativa
Comparación de Medianas:
La mediana de las horas de estudio semanal es mayor para los estudiantes que viven en alojamiento privado (5 horas) en comparación con aquellos que viven en alojamiento no privado (2.5 horas), lo que sugiere que, en general, los estudiantes en alojamiento privado tienden a estudiar más horas por semana.
Comparación del Rango Intercuartil (IQR):
El IQR para los estudiantes en alojamiento no privado (7.5 horas) es mayor que para los estudiantes en alojamiento privado (5 horas), lo que indica una mayor variabilidad en las horas de estudio semanal de los estudiantes en alojamiento no privado. Bigotes:
Los bigotes de ambos tipos de alojamiento se extienden hasta 10 horas, lo que indica que en ambos grupos hay estudiantes que estudian hasta 10 horas por semana.
Los diagramas de dispersión son útiles para examinar la relación entre dos variables continuas. Por ejemplo, podemos investigar la relación entre el consumo de alcohol y el promedio académico.
plot(datos$Consumo_alcohol_por_noche, datos$Promedio_académico_2023, main="Consumo de Alcohol vs. Promedio Académico", xlab="Consumo de Alcohol", ylab="Promedio Académico", col="darkblue", pch=19)
abline(lm(datos$Promedio_académico_2023 ~ datos$Consumo_alcohol_por_noche), col="red")
Cada punto en el gráfico representa un estudiante, con su consumo de
alcohol por noche y su correspondiente promedio académico. La línea roja
(col=“red”) en el gráfico es la línea de regresión, que muestra la
relación lineal entre el consumo de alcohol y el promedio académico.
Esta línea es añadida mediante la función abline() utilizando un modelo
de regresión lineal (lm).
Se determina la correlación de estas dos variables:
## [1] -0.09044441
El valor obtenido de la correlación es -0.0904441, lo que indica que es una correlación negativa perfecta. Al ser un valor muy cercano a 0 indica que la correlación existente entre la variable “Consumo de Alcohol” y el “Promedio Académico” es débil. En otras palabras, no hay una relación lineal significativa entre estas dos variables.
Mediante la regresión lineal múltiple se va analizar como el consumo de alcohol y otros factores (como horas de estudio y clases perdidas) afectan el promedio académico de los estudiantes.
Con la regresión lineal múltiple se puede examinar la relación entre una variable dependiente (rendimiento académico) y múltiples variables independientes (consumo de alcohol, horas de estudio, clases perdidas, etc).
model_reg <- lm(Promedio_académico_2023 ~ Consumo_alcohol_por_noche + Horas_de_estudio_semanal + Clases_perdidas + Frecuencia_socialización_semanal, data = datos)
summary(model_reg)##
## Call:
## lm(formula = Promedio_académico_2023 ~ Consumo_alcohol_por_noche +
## Horas_de_estudio_semanal + Clases_perdidas + Frecuencia_socialización_semanal,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.798 -6.960 -1.399 6.933 26.296
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 68.47378 1.72915 39.600 <2e-16 ***
## Consumo_alcohol_por_noche -0.14983 0.21860 -0.685 0.494
## Horas_de_estudio_semanal 0.05003 0.18663 0.268 0.789
## Clases_perdidas -0.60258 0.40283 -1.496 0.136
## Frecuencia_socialización_semanal -0.20700 0.27761 -0.746 0.456
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.309 on 290 degrees of freedom
## Multiple R-squared: 0.01787, Adjusted R-squared: 0.004325
## F-statistic: 1.319 on 4 and 290 DF, p-value: 0.2628
El modelo de regresión lineal múltiple no es estadísticamente significativo en su conjunto (p = 0.2628), lo que indica que las variables predictoras seleccionadas no explican bien la variabilidad en el promedio académico.
Ninguno de los predictores es estadísticamente significativo individualmente, lo que sugiere que no hay evidencia suficiente de que el consumo de alcohol, horas de estudio, clases perdidas, o la frecuencia de socialización tengan un impacto significativo en el promedio académico en este modelo.
El valor del R-cuadrado ajustado es muy bajo (0.004325), indicando que el modelo no explica bien la variabilidad en los datos.
Por lo tanto, se ajusta el modelo para considerar otras variables adicionales y la interacción que estas tengan con el rendimiento académico.Para esto, se transforma las variables categóricas a variables cuantitativas para realizar el análisis correspondiente.
datos_dummy <- datos %>%
mutate(
Género = as.factor(Género),
Año_académico = as.factor(Año_académico),
Facultad = as.factor(Facultad),
Alojamiento = as.factor(Alojamiento),
Becario = as.factor(Becario),
Relación_sentimental = as.factor(Relación_sentimental),
Aprobación_de_padres_en_consumo_de_alcohol = as.factor(Aprobación_de_padres_en_consumo_de_alcohol),
Nivel_de_relación_con_los_padres = as.factor(Nivel_de_relación_con_los_padres)
)
datos_dummy <- model.matrix(~ . - 1, data = datos_dummy)
datos_dummy <- as.data.frame(datos_dummy)
modelo_mejorado <- lm(Promedio_académico_2023 ~ Consumo_alcohol_por_noche * Clases_perdidas +
Consumo_alcohol_por_noche * Horas_de_estudio_semanal +
Consumo_alcohol_por_noche * Frecuencia_socialización_semanal +
Consumo_alcohol_por_noche * Alojamiento +
Consumo_alcohol_por_noche * Becario +
Frecuencia_socialización_semanal * Clases_perdidas +
Becario + Alojamiento + Ayuda_mensual + Relación_sentimental +
Aprobación_de_padres_en_consumo_de_alcohol + Nivel_de_relación_con_los_padres,
data = datos)
summary(modelo_mejorado)##
## Call:
## lm(formula = Promedio_académico_2023 ~ Consumo_alcohol_por_noche *
## Clases_perdidas + Consumo_alcohol_por_noche * Horas_de_estudio_semanal +
## Consumo_alcohol_por_noche * Frecuencia_socialización_semanal +
## Consumo_alcohol_por_noche * Alojamiento + Consumo_alcohol_por_noche *
## Becario + Frecuencia_socialización_semanal * Clases_perdidas +
## Becario + Alojamiento + Ayuda_mensual + Relación_sentimental +
## Aprobación_de_padres_en_consumo_de_alcohol + Nivel_de_relación_con_los_padres,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.3321 -5.7252 -0.9864 6.3566 26.7650
##
## Coefficients:
## Estimate
## (Intercept) 60.499106
## Consumo_alcohol_por_noche 0.919224
## Clases_perdidas 0.563400
## Horas_de_estudio_semanal 0.414711
## Frecuencia_socialización_semanal 0.804723
## AlojamientoPrivate accommodation/ stay with family/friends -0.959979
## BecarioYes (NSFAS, etc...) -0.462053
## Ayuda_mensualR 5001 - R 6000 -0.095348
## Ayuda_mensualR 6001 - R 7000 3.748171
## Ayuda_mensualR 7001 - R 8000 1.460370
## Ayuda_mensualR 8000+ 1.608722
## Relación_sentimentalYes 0.113866
## Aprobación_de_padres_en_consumo_de_alcoholYes 4.223445
## Nivel_de_relación_con_los_padresDistant 22.691121
## Nivel_de_relación_con_los_padresFair 0.545917
## Nivel_de_relación_con_los_padresVery close 0.005108
## Consumo_alcohol_por_noche:Clases_perdidas -0.239775
## Consumo_alcohol_por_noche:Horas_de_estudio_semanal -0.084212
## Consumo_alcohol_por_noche:Frecuencia_socialización_semanal -0.179674
## Consumo_alcohol_por_noche:AlojamientoPrivate accommodation/ stay with family/friends -0.240345
## Consumo_alcohol_por_noche:BecarioYes (NSFAS, etc...) 0.164578
## Clases_perdidas:Frecuencia_socialización_semanal 0.073847
## Std. Error
## (Intercept) 4.492217
## Consumo_alcohol_por_noche 0.717293
## Clases_perdidas 1.176932
## Horas_de_estudio_semanal 0.392079
## Frecuencia_socialización_semanal 1.046870
## AlojamientoPrivate accommodation/ stay with family/friends 3.337607
## BecarioYes (NSFAS, etc...) 3.477893
## Ayuda_mensualR 5001 - R 6000 1.370909
## Ayuda_mensualR 6001 - R 7000 1.711756
## Ayuda_mensualR 7001 - R 8000 2.148905
## Ayuda_mensualR 8000+ 2.119162
## Relación_sentimentalYes 1.106115
## Aprobación_de_padres_en_consumo_de_alcoholYes 1.740839
## Nivel_de_relación_con_los_padresDistant 7.072151
## Nivel_de_relación_con_los_padresFair 2.125502
## Nivel_de_relación_con_los_padresVery close 1.339586
## Consumo_alcohol_por_noche:Clases_perdidas 0.150493
## Consumo_alcohol_por_noche:Horas_de_estudio_semanal 0.067653
## Consumo_alcohol_por_noche:Frecuencia_socialización_semanal 0.167726
## Consumo_alcohol_por_noche:AlojamientoPrivate accommodation/ stay with family/friends 0.555094
## Consumo_alcohol_por_noche:BecarioYes (NSFAS, etc...) 0.599030
## Clases_perdidas:Frecuencia_socialización_semanal 0.199219
## t value
## (Intercept) 13.468
## Consumo_alcohol_por_noche 1.282
## Clases_perdidas 0.479
## Horas_de_estudio_semanal 1.058
## Frecuencia_socialización_semanal 0.769
## AlojamientoPrivate accommodation/ stay with family/friends -0.288
## BecarioYes (NSFAS, etc...) -0.133
## Ayuda_mensualR 5001 - R 6000 -0.070
## Ayuda_mensualR 6001 - R 7000 2.190
## Ayuda_mensualR 7001 - R 8000 0.680
## Ayuda_mensualR 8000+ 0.759
## Relación_sentimentalYes 0.103
## Aprobación_de_padres_en_consumo_de_alcoholYes 2.426
## Nivel_de_relación_con_los_padresDistant 3.209
## Nivel_de_relación_con_los_padresFair 0.257
## Nivel_de_relación_con_los_padresVery close 0.004
## Consumo_alcohol_por_noche:Clases_perdidas -1.593
## Consumo_alcohol_por_noche:Horas_de_estudio_semanal -1.245
## Consumo_alcohol_por_noche:Frecuencia_socialización_semanal -1.071
## Consumo_alcohol_por_noche:AlojamientoPrivate accommodation/ stay with family/friends -0.433
## Consumo_alcohol_por_noche:BecarioYes (NSFAS, etc...) 0.275
## Clases_perdidas:Frecuencia_socialización_semanal 0.371
## Pr(>|t|)
## (Intercept) < 2e-16
## Consumo_alcohol_por_noche 0.20110
## Clases_perdidas 0.63253
## Horas_de_estudio_semanal 0.29112
## Frecuencia_socialización_semanal 0.44274
## AlojamientoPrivate accommodation/ stay with family/friends 0.77385
## BecarioYes (NSFAS, etc...) 0.89441
## Ayuda_mensualR 5001 - R 6000 0.94460
## Ayuda_mensualR 6001 - R 7000 0.02940
## Ayuda_mensualR 7001 - R 8000 0.49734
## Ayuda_mensualR 8000+ 0.44843
## Relación_sentimentalYes 0.91808
## Aprobación_de_padres_en_consumo_de_alcoholYes 0.01591
## Nivel_de_relación_con_los_padresDistant 0.00149
## Nivel_de_relación_con_los_padresFair 0.79749
## Nivel_de_relación_con_los_padresVery close 0.99696
## Consumo_alcohol_por_noche:Clases_perdidas 0.11226
## Consumo_alcohol_por_noche:Horas_de_estudio_semanal 0.21429
## Consumo_alcohol_por_noche:Frecuencia_socialización_semanal 0.28501
## Consumo_alcohol_por_noche:AlojamientoPrivate accommodation/ stay with family/friends 0.66537
## Consumo_alcohol_por_noche:BecarioYes (NSFAS, etc...) 0.78372
## Clases_perdidas:Frecuencia_socialización_semanal 0.71116
##
## (Intercept) ***
## Consumo_alcohol_por_noche
## Clases_perdidas
## Horas_de_estudio_semanal
## Frecuencia_socialización_semanal
## AlojamientoPrivate accommodation/ stay with family/friends
## BecarioYes (NSFAS, etc...)
## Ayuda_mensualR 5001 - R 6000
## Ayuda_mensualR 6001 - R 7000 *
## Ayuda_mensualR 7001 - R 8000
## Ayuda_mensualR 8000+
## Relación_sentimentalYes
## Aprobación_de_padres_en_consumo_de_alcoholYes *
## Nivel_de_relación_con_los_padresDistant **
## Nivel_de_relación_con_los_padresFair
## Nivel_de_relación_con_los_padresVery close
## Consumo_alcohol_por_noche:Clases_perdidas
## Consumo_alcohol_por_noche:Horas_de_estudio_semanal
## Consumo_alcohol_por_noche:Frecuencia_socialización_semanal
## Consumo_alcohol_por_noche:AlojamientoPrivate accommodation/ stay with family/friends
## Consumo_alcohol_por_noche:BecarioYes (NSFAS, etc...)
## Clases_perdidas:Frecuencia_socialización_semanal
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.098 on 273 degrees of freedom
## Multiple R-squared: 0.1168, Adjusted R-squared: 0.0489
## F-statistic: 1.72 on 21 and 273 DF, p-value: 0.02768
De esto se desprende lo siguiente:
a) Residuos del modelo
Los residuos muestran cierta dispersión con un rango bastante amplio, lo que indica que hay variabilidad en los errores de predicción.
b) Coeficientes del modelo
Intercepto: El promedio académico predicho cuando todas las variables predictoras son cero es aproximadamente 60.5.
Consumo_alcohol_por_noche: No es estadísticamente significativo (p-valor = 0.20110).
Clases_perdidas: No es estadísticamente significativo (p-valor = 0.63253).
Horas_de_estudio_semanal: No es estadísticamente significativo (p-valor = 0.29112).
Frecuencia_socialización_semanal: No es estadísticamente significativo (p-valor = 0.44274).
Alojamiento (Private accommodation/ stay with family/friends): No es estadísticamente significativo (p-valor = 0.77385).
Becario (Yes - NSFAS, etc…): No es estadísticamente significativo (p-valor = 0.89441).
Ayuda_mensual (R 5001 - R 6000): No es estadísticamente significativo (p-valor = 0.94460).
Ayuda_mensual (R 6001 - R 7000): Estadísticamente significativo (p-valor = 0.02940) con un impacto positivo en el promedio académico.
Ayuda_mensual (R 7001 - R 8000): No es estadísticamente significativo (p-valor = 0.49734).
Ayuda_mensual (R 8000+): No es estadísticamente significativo (p-valor = 0.44843).
Relación_sentimental (Yes): No es estadísticamente significativo (p-valor = 0.91808).
Aprobación_de_padres_en_consumo_de_alcohol (Yes): Estadísticamente significativo (p-valor = 0.01591) con un impacto positivo en el promedio académico.
Nivel_de_relación_con_los_padres (Distant): Estadísticamente significativo (p-valor = 0.00149) con un impacto positivo muy fuerte en el promedio académico.
Nivel_de_relación_con_los_padres (Fair): No es estadísticamente significativo (p-valor = 0.79749).
Nivel_de_relación_con_los_padres (Very close): No es estadísticamente significativo (p-valor = 0.99696).
Interacciones: Ninguna de las interacciones es estadísticamente significativa.
c) Errores Estándar de los Residuos
Residual standard error (Error estándar residual): 9.098, lo que indica la variabilidad de los residuos.
Multiple R-squared: 0.1168, indicando que aproximadamente el 11.68% de la variabilidad en el promedio académico es explicada por el modelo.
Adjusted R-squared: 0.0489, ajustado por el número de predictores en el modelo, lo que sugiere que el modelo no explica mucho de la variabilidad en el promedio académico.
F-statistic: 1.72 con un p-valor de 0.02768, indicando que al menos uno de los coeficientes es significativo, pero el modelo en su conjunto no es muy fuerte.
d) Significancia de las variables
Las variables más significativas son la Aprobación_de_padres_en_consumo_de_alcohol (Yes) y Nivel_de_relación_con_los_padres (Distant), ambas con un impacto positivo en el promedio académico.
La categoría Ayuda_mensual (R 6001 - R 7000) también tiene un efecto significativo positivo.
Ninguna de las interacciones entre Consumo_alcohol_por_noche y las otras variables es significativa.
Por lo tanto, el modelo tiene un poder explicativo bajo.
El objetivo de utilizar el análisis de componentes principales (ACP) es reducir la dimensionalidad del conjunto de datos y encontrar las combinaciones lineales de variables que explican la mayor variabilidad en los datos, lo cual será útil para identificar patrones y factores subyacentes en el comportamiento y rendimiento de los estudiantes.
El ACP transforma las variables originales en un nuevo conjunto de variables (componentes principales) que son no correlacionadas y capturan la máxima varianza posible.
data_acp <- datos %>% select(Consumo_alcohol_por_noche, Horas_de_estudio_semanal, Clases_perdidas, Materias_reprobadas, Frecuencia_socialización_semanal)
pca <- prcomp(data_acp, scale = TRUE)
summary(pca)## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.2397 1.0306 0.9888 0.9142 0.7663
## Proportion of Variance 0.3074 0.2124 0.1955 0.1672 0.1175
## Cumulative Proportion 0.3074 0.5198 0.7154 0.8825 1.0000
## PC1 PC2 PC3 PC4
## Consumo_alcohol_por_noche -0.6484573 -0.1228491 0.1231523 -0.03440291
## Horas_de_estudio_semanal 0.2429343 -0.7411058 -0.1585216 0.58823357
## Clases_perdidas -0.5345198 0.1182255 0.3582087 0.58360069
## Materias_reprobadas -0.2083573 0.3556600 -0.8618007 0.29371560
## Frecuencia_socialización_semanal -0.4374493 -0.5433222 -0.2978095 -0.47533050
## PC5
## Consumo_alcohol_por_noche 0.74031155
## Horas_de_estudio_semanal 0.14351741
## Clases_perdidas -0.48104888
## Materias_reprobadas 0.03352523
## Frecuencia_socialización_semanal -0.44588069
fviz_pca_biplot(pca,
repel = TRUE,
col.var = "red", # Color de las variables
col.ind = "blue", # Color de los individuos
geom.ind = "point",
addEllipses = TRUE, # Añadir elipses para los grupos
labelsize = 3
) +
theme_minimal() +
labs(title = "Biplot de ACP",
x = "Componente Principal 1",
y = "Componente Principal 2")El primer componente principal (PC1) explica el 30.74% de la varianza total en los datos. Los primeros tres componentes combinados explican aproximadamente el 71.54% de la varianza total, lo que indica que una gran parte de la variabilidad en los datos puede ser capturada por estos tres primeros componentes. A medida que avanzamos a componentes superiores (PC4 y PC5), cada uno explica una proporción menor de la varianza total.
PC1:
Consumo_alcohol_por_noche, Clases_perdidas, y Frecuencia_socialización_semanal tienen las contribuciones más grandes y negativas. Esto sugiere que estos factores están altamente correlacionados entre sí y representan un patrón conjunto en los datos.
PC2:
Horas_de_estudio_semanal tiene una fuerte contribución negativa, mientras que Frecuencia_socialización_semanal también contribuye significativamente pero en sentido negativo. Esto podría representar un eje de estudio versus socialización.
PC3:
Materias_reprobadas tiene una fuerte contribución negativa, lo que sugiere que este componente está asociado principalmente con el rendimiento académico en términos de reprobación.
PC4:
Clases_perdidas y Horas_de_estudio_semanal tienen contribuciones positivas significativas, mientras que Frecuencia_socialización_semanal tiene una contribución negativa, indicando una relación inversa entre el estudio y la socialización.
PC5:
Consumo_alcohol_por_noche tiene una fuerte contribución positiva, lo que sugiere que este componente está fuertemente influenciado por el consumo de alcohol.
El ACP revela que una gran parte de la varianza en las variables analizadas puede ser explicada por los primeros tres componentes principales. Estos componentes capturan patrones significativos en los datos, con PC1 dominado por el consumo de alcohol, clases perdidas y socialización; PC2 destacando la relación entre horas de estudio y socialización; y PC3 reflejando el rendimiento académico en términos de materias reprobadas.
Este análisis sugiere que las variables relacionadas con el consumo de alcohol, el estudio y la socialización están fuertemente interconectadas y representan los ejes principales de variabilidad en los datos. Por lo tanto, se recomienda considerar estos factores en futuros estudios y en el diseño de intervenciones para mejorar el rendimiento académico y el bienestar de los estudiantes.
Se determinará si hay diferencias significativas en el rendimiento académico basado en diferentes niveles de consumo de alcohol, tipo de alojamiento, y otras variables categóricas.
Las pruebas de hipótesis permiten evaluar si las diferencias observadas en los datos son estadísticamente significativas.
a) t-test
Se va a comparar el rendimiento académico entre dos grupos, estudiantes con y sin beca.
##
## Welch Two Sample t-test
##
## data: Promedio_académico_2023 by Becario
## t = -0.64297, df = 31.002, p-value = 0.525
## alternative hypothesis: true difference in means between group No and group Yes (NSFAS, etc...) is not equal to 0
## 95 percent confidence interval:
## -5.239504 2.727768
## sample estimates:
## mean in group No mean in group Yes (NSFAS, etc...)
## 66.44784 67.70370
El valor p es mayor que el nivel de significancia comúnmente utilizado (α = 0.05), lo que indica que no hay evidencia suficiente para rechazar la hipótesis nula. En otras palabras, no encontramos una diferencia estadísticamente significativa en los promedios académicos entre los estudiantes que son becarios y los que no lo son.
La prueba t-test indica que no existe una diferencia estadísticamente significativa en los promedios académicos del año 2023 entre los estudiantes que son becarios y los que no lo son. A pesar de que los becarios tienen una media ligeramente superior, esta diferencia no es suficiente para ser considerada significativa desde un punto de vista estadístico.
b) ANOVA Comparar el rendimiento académico entre más de dos grupos (diferentes tipos de Facultad).
## Df Sum Sq Mean Sq F value Pr(>F)
## Facultad 7 528 75.50 0.865 0.535
## Residuals 287 25058 87.31
El ANOVA indica que no existe una diferencia estadísticamente significativa en los promedios académicos del año 2023 entre las diferentes facultades. La variabilidad observada en los promedios académicos no puede ser atribuida a la facultad a la que pertenecen los estudiantes.
Una vez analizado los datos y realizado los análisis respectivos, se concluye lo siguiente:
Los estudiantes que cuentan con la aprobación de sus padres respecto al consumo de alcohol tienden a tener un promedio académico significativamente más alto. Este resultado podría indicar que la confianza y el apoyo de los padres juegan un papel positivo en el rendimiento académico de los estudiantes.
Los estudiantes que reportan una relación distante con sus padres también muestran un aumento significativo en su promedio académico. Este hallazgo es contraintuitivo y podría sugerir que estos estudiantes desarrollan una mayor independencia y autoeficacia, compensando la falta de apoyo parental cercano.
Los estudiantes que reciben una ayuda mensual en el rango de R 6001 a R 7000 presentan un promedio académico significativamente más alto. Este resultado sugiere que un nivel moderado de apoyo financiero puede aliviar el estrés económico y permitir a los estudiantes concentrarse mejor en sus estudios.
A pesar de la inclusión de múltiples variables, como el consumo de alcohol por noche, las clases perdidas, las horas de estudio semanal, la frecuencia de socialización semanal, el tipo de alojamiento y si el estudiante es becario, ninguna de estas variables mostró una significancia estadística clara en el modelo. Esto indica que, individualmente, estos factores no tienen un impacto considerable en el promedio académico dentro de la muestra analizada.
Las interacciones entre el consumo de alcohol por noche y otras variables como las clases perdidas, las horas de estudio semanal, la frecuencia de socialización semanal, el tipo de alojamiento y si el estudiante es becario, no mostraron significancia estadística. Esto sugiere que el efecto combinado de estas variables con el consumo de alcohol no tiene un impacto notable en el promedio académico.
El modelo de regresión lineal múltiple utilizado explica aproximadamente el 11.68% de la variabilidad en el promedio académico de los estudiantes (R-cuadrado = 0.1168). Aunque el modelo es significativo en su conjunto (p-valor = 0.02768), su capacidad para predecir el promedio académico es limitada. Esto sugiere que existen otros factores no incluidos en el modelo que podrían influir significativamente en el rendimiento académico de los estudiantes.
Adicionalemente se presenta una conclusión general integrando los hallazgos de cada gráfico.
Distribución del Consumo de Alcohol por Noche:
El histograma muestra que la mayoría de los estudiantes consumen alrededor de 5 vasos de alcohol por noche, con una distribución que se concentra entre 2.5 y 7.5 vasos. Hay una minoría significativa que no consume alcohol y algunos que consumen hasta 10 vasos.
Promedio del Rendimiento Académico por Género:
El boxplot revela que las estudiantes mujeres tienden a tener un promedio académico ligeramente superior al de los estudiantes masculinos. Además, los estudiantes varones presentan una mayor variabilidad en sus calificaciones, incluyendo algunos outliers significativos.
Horas de Estudio Semanal por Tipo de Alojamiento:
Este boxplot indica que los estudiantes en alojamiento privado tienden a estudiar más horas por semana en comparación con aquellos en alojamiento no privado. Además, los estudiantes en alojamiento privado muestran una mayor consistencia en sus hábitos de estudio.
Relación entre Consumo de Alcohol y Promedio Académico:
El gráfico de dispersión con la línea de regresión sugiere que existe una relación inversa entre el consumo de alcohol y el rendimiento académico. A medida que aumenta el consumo de alcohol por noche, el promedio académico tiende a disminuir.
Impacto del Consumo de Alcohol:
El consumo de alcohol parece estar negativamente asociado con el rendimiento académico. Los estudiantes que consumen más alcohol por noche tienden a tener promedios académicos más bajos. Este hallazgo subraya la importancia de abordar el consumo excesivo de alcohol para mejorar el rendimiento académico.
Influencia del Tipo de Alojamiento:
El tipo de alojamiento influye significativamente en las horas de estudio. Los estudiantes en alojamiento privado no solo estudian más horas en promedio, sino que también tienen hábitos de estudio más consistentes. Este hallazgo sugiere que las condiciones del entorno de vivienda pueden tener un impacto considerable en los hábitos de estudio y, posiblemente, en el rendimiento académico. Recomendaciones
Investigaciones Futuras: Se recomienda realizar investigaciones adicionales para identificar otros factores que puedan influir en el rendimiento académico, como el bienestar emocional, la calidad de la enseñanza, y el entorno social y cultural de los estudiantes.
Apoyo Familiar y Financiero: Es crucial fomentar un ambiente de apoyo familiar y proporcionar ayudas financieras adecuadas a los estudiantes, ya que estos elementos han demostrado tener un impacto positivo en su rendimiento académico.
Programas de Intervención: Desarrollar programas de intervención que aborden tanto el apoyo emocional como las necesidades financieras de los estudiantes podría ser beneficioso para mejorar sus resultados académicos.