Pontificia Universidad Javeriana
Cali
Facultad de Ingeniería y Ciencias
Probabilidad y Estadística
Presentado a: Andrés Felipe
Ochoa
Presentado por:
Laura Sofía Moreno Ocampo
Juan José Zubiría Bedoya
Cristian Camilo Arango Valencia
Conjunto de Datos: Monitoreo del Estrés
Estudiantil.
Tamaño de Muestra: 1100 Filas.
Número de Variables: 21 Columnas.
https://www.kaggle.com/datasets/mdsultanulislamovi/student-stress-monitoring-datasets
Valores faltantes: Al revisar el conjunto de datos,
se encontró que ninguna variable presenta datos faltantes.
Registros duplicados: Se verificó que no existen
registros duplicados en la base de datos.
Valores fuera de rango: Según los rangos definidos en
la tabla de variables (por ejemplo: Nivel de Ansiedad 0–21, Autoestima
0–30, Historia de Salud Mental 0–1, etc.), no se encontraron valores
fuera de rango.
Errores de digitación: No se identificaron
inconsistencias en la digitación de las variables, ya que todos los
registros cumplen con los rangos establecidos.
Conclusión: El conjunto de datos no presenta
problemas de calidad.
-No hay valores faltantes.
-No existen registros duplicados.
-Todos los datos se encuentran dentro de los rangos esperados.
Por lo tanto, no fue necesario aplicar correcciones ni imputaciones en
el preprocesamiento.
En la Tabla 1 (Cuantitativas) se presentan aquellas variables que tienen una escala numérica continua o de intervalo, lo que permite calcular medidas como la media, desviación estándar e intervalos.
En la Tabla 2 (Cualitativas nominales) se agrupan las variables categóricas binarias o de tipo sí/no, donde lo más relevante es mostrar proporciones y frecuencias.
En la Tabla 3 (Ordinales) se incluyen las variables medidas en escalas tipo Likert (0–5), que aunque son numéricas, representan categorías ordenadas, por lo que requieren un tratamiento descriptivo particular.
Finalmente, se agregó una Tabla de Frecuencias (Tabla 4) para detallar la distribución de las respuestas en las variables ordinales, complementando el análisis con un enfoque más interpretativo.
Factores de riesgo claros:
El tener una historia de salud mental, la mala calidad del sueño y una
alta carga académica están fuertemente relacionados con mayores niveles
de estrés en los estudiantes (Revisar diagramas 3, 4 y 5).
Ansiedad y estrés son factores muy
relacionados:
El nivel de ansiedad es un predictor importante del estrés, ya que la
relación entre ambas variables es directa y consistente (Revisar
diagramas 10).
Apoyo social y entorno:
Aunque algunos estudiantes cuentan con un buen nivel de apoyo social, la
existencia de bullying y de casos con poco respaldo familiar/social
revela factores externos que también pueden influir en su bienestar
psicológico (Revisar diagramas 6 y 9).
Variabilidad en la población estudiantil:
Los histogramas muestran que no todos los estudiantes se encuentran en
la misma situación: algunos presentan bajo estrés/ansiedad, mientras
otros alcanzan niveles altos (revisar diagramas 1 y 2).
## [1] 0.6341555
El coeficiente de correlación de Pearson entre la carga de estudio y el nivel de estrés es aproximadamente de 0.63, lo que indica una relación positiva y moderadamente fuerte entre ambas variables, pero al ser menor de 0.8 no es una correlación lineal
El coeficiente de correlación de Pearson entre nivel de estrés y nivel ansiedad y depresión que son de aproximadamente de 0.74 y 0.71 respectivamente lo que indica una relación positiva y moderadamente fuerte entre ambas variables, y casi lineal al esta cerca de el valor 0.8, y por otro lado en el caso de nivel de estrés y calidad de sueño la correlación es de -0.75 lo que indica una relación negativa y bastante fuerte entre ambas variables, una correlación casi inversamente lineal.
Estrés vs Carga de Estudio:
Se observa una tendencia positiva moderada, lo que significa que una
mayor carga de estudio suele acompañarse de un nivel más alto de
estrés.
Estrés vs Nivel de Ansiedad:
Relación positiva fuerte, indicando que el aumento de la ansiedad está
claramente asociado con un incremento del estrés.
Estrés vs Calidad del Sueño:
Relación negativa, es decir, a medida que mejora la calidad del sueño,
los niveles de estrés tienden a disminuir.
Estrés vs Depresión:
Relación positiva fuerte, lo que sugiere que los estudiantes con
síntomas más altos de depresión suelen reportar niveles más
altos de estrés.
## [1] 0.7367954
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.97968 -0.28695 0.00993 0.21824 2.09851
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.098514 0.034643 -2.844 0.00454 **
## x 0.098962 0.002741 36.110 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5558 on 1098 degrees of freedom
## Multiple R-squared: 0.5429, Adjusted R-squared: 0.5425
## F-statistic: 1304 on 1 and 1098 DF, p-value: < 2.2e-16
## Predicción para ansiedad = 5 : 0.396
## Predicción para ansiedad = 10: 0.891
## Predicción para ansiedad = 20: 1.881
1. Ecuación del modelo
Según los coeficientes estimados, el modelo ajustado es:
\[ \text{Nivel de Estrés} = -0.0985 + 0.0989 \times \text{Nivel de Ansiedad} \]
2. Interpretación de los coeficientes
Intercepto (-0.0985): Representa el nivel de estrés estimado
cuando la ansiedad es 0.
Este valor es cercano a cero, lo que indica que una persona sin ansiedad
prácticamente no presenta estrés, lo cual tiene sentido desde el punto
de vista psicológico.
Pendiente (0.0989):
Indica que por cada punto adicional de ansiedad, el nivel de estrés
aumenta en promedio 0.0989 unidades.
Es decir, existe una relación positiva y casi proporcional entre
ansiedad y estrés.
3. Significancia estadística
El valor p asociado a la pendiente es
2e-16, mucho menor que 0.05.
Esto demuestra que la relación entre ansiedad y estrés es
estadísticamente significativa.
En otras palabras, hay evidencia muy sólida de que el nivel de ansiedad
influye directamente sobre el nivel de estrés.
4. Bondad del ajuste (R² = 0.5429)
El coeficiente de determinación R² = 0.5429 indica
que el 54.3 % de la variabilidad del estrés se explica por la
ansiedad.
Este valor es relativamente alto para un modelo con una sola variable
independiente,
por lo que se considera un buen ajuste lineal.
El 45.7 % restante se debe a otros factores no incluidos en el modelo, como la carga de trabajo, la calidad del sueño o el apoyo social.
5. Predicciones del modelo
| Nivel de Ansiedad | Estrés Predicho |
|---|---|
| 5 | 0.396 |
| 10 | 0.891 |
| 20 | 1.881 |
Las predicciones confirman la tendencia ascendente:
cuando la ansiedad aumenta de 5 a 20 unidades, el estrés casi se
quintuplica.
El cambio es progresivo y coherente con la pendiente del modelo (~0.1
por unidad de ansiedad).
Conclusión general
El modelo lineal simple muestra una relación positiva, fuerte y
significativa entre el nivel de ansiedad y el nivel de estrés.
A medida que aumenta la ansiedad, el estrés también se incrementa de
forma casi proporcional.
El modelo explica más de la mitad de la variabilidad total del estrés
(R² = 0.54),
por lo que la ansiedad puede considerarse un “predictor clave del
estrés” en las personas.
Una variable cualitativa y otra cuantitativa.
El gráfico de cajas muestra una clara diferencia en el nivel de estrés según la historia de salud mental. Las personas que reportan antecedentes de salud mental tienden a presentar niveles de estrés más altos en comparación con aquellos que no tienen antecedentes. Esto sugiere que la existencia de una condición previa de salud mental podría ser un factor asociado a una mayor vulnerabilidad frente al estrés. #Dos variables cualitativas
El siguiente diagrama es una tabla cruzada de dos variales
cualitativas, las cuales tienen un rango de 0 a 5 para ambas, teniendo
en cuenta que 0=muy bajo y 5=alto. El
patrón del gráfico sugiere que una mayor carga de estudio se asocia con
una menor calidad del sueño, lo que podría deberse al estrés, la falta
de tiempo para descansar o los horarios prolongados de estudio.
En este caso, el conjunto de datos no incluye una variable de tiempo (como fecha, semana o mes). Cada persona fue observada solo una vez, por lo que no es posible aplicar modelos de pronóstico, ya que estos necesitan una secuencia temporal de datos para estimar tendencias futuras.
Por ejemplo, si se tuviera una medición del nivel de estrés o ansiedad de las mismas personas durante varios días, semanas o meses, sí se podrían usar técnicas de pronóstico, como:
Suavización exponencial: para ver si el nivel de estrés aumenta o disminuye con el tiempo.
Método Holt-Winters: si los datos mostraran patrones repetitivos o estacionales.
Redes neuronales LSTM o GRU: para detectar comportamientos más complejos o no lineales a lo largo del tiempo.
En conclusión, como los datos actuales son de un solo momento, no se pueden hacer pronósticos reales. Sin embargo, si en el futuro se realiza un seguimiento temporal de las personas (por ejemplo, medir el estrés cada semana), estos métodos serían útiles para anticipar cambios o detectar periodos de mayor riesgo.