Indicar el conjunto de datos a trabajar, el tamaño de muestra y el número de variables

Conjunto de Datos: Monitoreo del Estrés Estudiantil.
Tamaño de Muestra: 1100 Filas.
Número de Variables: 21 Columnas.

https://www.kaggle.com/datasets/mdsultanulislamovi/student-stress-monitoring-datasets


Describir cada variable, si es cuantitativa o cualitativa, sus escalas de medición y unidades de medición

Tabla 0


Analizar si el conjunto de datos presenta inconsistencias, errores de digitación, información faltante, entre otros.Realizar entonces la limpieza y preprocesamiento de los datos.

Análisis de inconsistencias y limpieza de los datos

Valores faltantes: Al revisar el conjunto de datos, se encontró que ninguna variable presenta datos faltantes.
Registros duplicados: Se verificó que no existen registros duplicados en la base de datos.
Valores fuera de rango: Según los rangos definidos en la tabla de variables (por ejemplo: Nivel de Ansiedad 0–21, Autoestima 0–30, Historia de Salud Mental 0–1, etc.), no se encontraron valores fuera de rango.
Errores de digitación: No se identificaron inconsistencias en la digitación de las variables, ya que todos los registros cumplen con los rangos establecidos.

Conclusión: El conjunto de datos no presenta problemas de calidad.
-No hay valores faltantes.
-No existen registros duplicados.
-Todos los datos se encuentran dentro de los rangos esperados.
Por lo tanto, no fue necesario aplicar correcciones ni imputaciones en el preprocesamiento.


Realizar las estadísticas descriptivas de forma univariada, utilizando una tabla 1 (ejemplo: artículo salud) con los indicadores de tendencia central, dispersión y posición. Para responder la pregunta planteada se decidió organizar la información en tres tablas principales y una de apoyo. Esto se hizo porque las variables del estudio no son todas del mismo tipo ni se analizan con las mismas estadísticas.

En la Tabla 1 (Cuantitativas) se presentan aquellas variables que tienen una escala numérica continua o de intervalo, lo que permite calcular medidas como la media, desviación estándar e intervalos.

En la Tabla 2 (Cualitativas nominales) se agrupan las variables categóricas binarias o de tipo sí/no, donde lo más relevante es mostrar proporciones y frecuencias.

En la Tabla 3 (Ordinales) se incluyen las variables medidas en escalas tipo Likert (0–5), que aunque son numéricas, representan categorías ordenadas, por lo que requieren un tratamiento descriptivo particular.

Finalmente, se agregó una Tabla de Frecuencias (Tabla 4) para detallar la distribución de las respuestas en las variables ordinales, complementando el análisis con un enfoque más interpretativo.


Tabla 1


Tabla 2


Tabla 3


Tabla 4


Realizar algunos gráficos para tener una visión general de los datos.Recomendación: utilizar la librería ggplot de R (otra opción sería seaborn en Python o Excel).


Diagramas 1 y 2


Diagramas 3 y 4


Diagrama 5


Diagramas 6 y 7


Diagramas 8 y 9


Diagrama 10


Conclusiones Finales (Visión general)

Factores de riesgo claros:
El tener una historia de salud mental, la mala calidad del sueño y una alta carga académica están fuertemente relacionados con mayores niveles de estrés en los estudiantes (Revisar diagramas 3, 4 y 5).

Ansiedad y estrés son factores muy relacionados:
El nivel de ansiedad es un predictor importante del estrés, ya que la relación entre ambas variables es directa y consistente (Revisar diagramas 10).

Apoyo social y entorno:
Aunque algunos estudiantes cuentan con un buen nivel de apoyo social, la existencia de bullying y de casos con poco respaldo familiar/social revela factores externos que también pueden influir en su bienestar psicológico (Revisar diagramas 6 y 9).

Variabilidad en la población estudiantil:
Los histogramas muestran que no todos los estudiantes se encuentran en la misma situación: algunos presentan bajo estrés/ansiedad, mientras otros alcanzan niveles altos (revisar diagramas 1 y 2).

AVANCE 2

1. Análisis con dos variables

Correlación carga de estudio y nivel de estrés

## [1] 0.6341555

El coeficiente de correlación de Pearson entre la carga de estudio y el nivel de estrés es aproximadamente de 0.63, lo que indica una relación positiva y moderadamente fuerte entre ambas variables, pero al ser menor de 0.8 no es una correlación lineal

El coeficiente de correlación de Pearson entre nivel de estrés y nivel ansiedad y depresión que son de aproximadamente de 0.74 y 0.71 respectivamente lo que indica una relación positiva y moderadamente fuerte entre ambas variables, y casi lineal al esta cerca de el valor 0.8, y por otro lado en el caso de nivel de estrés y calidad de sueño la correlación es de -0.75 lo que indica una relación negativa y bastante fuerte entre ambas variables, una correlación casi inversamente lineal.

Diagramas de dispersión - nivel de estrés y variables clave

Estrés vs Carga de Estudio:
Se observa una tendencia positiva moderada, lo que significa que una mayor carga de estudio suele acompañarse de un nivel más alto de estrés.

Estrés vs Nivel de Ansiedad:
Relación positiva fuerte, indicando que el aumento de la ansiedad está claramente asociado con un incremento del estrés.

Estrés vs Calidad del Sueño:
Relación negativa, es decir, a medida que mejora la calidad del sueño, los niveles de estrés tienden a disminuir.

Estrés vs Depresión:
Relación positiva fuerte, lo que sugiere que los estudiantes con síntomas más altos de depresión suelen reportar niveles más altos de estrés.

MODELO LINEAL SIMPLE: Nivel de Estrés ~ Nivel de Ansiedad

## [1] 0.7367954

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.97968 -0.28695  0.00993  0.21824  2.09851 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.098514   0.034643  -2.844  0.00454 ** 
## x            0.098962   0.002741  36.110  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5558 on 1098 degrees of freedom
## Multiple R-squared:  0.5429, Adjusted R-squared:  0.5425 
## F-statistic:  1304 on 1 and 1098 DF,  p-value: < 2.2e-16
## Predicción para ansiedad = 5 : 0.396
## Predicción para ansiedad = 10: 0.891
## Predicción para ansiedad = 20: 1.881

1. Ecuación del modelo

Según los coeficientes estimados, el modelo ajustado es:

\[ \text{Nivel de Estrés} = -0.0985 + 0.0989 \times \text{Nivel de Ansiedad} \]


2. Interpretación de los coeficientes


3. Significancia estadística

El valor p asociado a la pendiente es 2e-16, mucho menor que 0.05.
Esto demuestra que la relación entre ansiedad y estrés es estadísticamente significativa.
En otras palabras, hay evidencia muy sólida de que el nivel de ansiedad influye directamente sobre el nivel de estrés.


4. Bondad del ajuste (R² = 0.5429)

El coeficiente de determinación R² = 0.5429 indica que el 54.3 % de la variabilidad del estrés se explica por la ansiedad.
Este valor es relativamente alto para un modelo con una sola variable independiente,
por lo que se considera un buen ajuste lineal.

El 45.7 % restante se debe a otros factores no incluidos en el modelo, como la carga de trabajo, la calidad del sueño o el apoyo social.


5. Predicciones del modelo

Nivel de Ansiedad Estrés Predicho
5 0.396
10 0.891
20 1.881

Las predicciones confirman la tendencia ascendente:
cuando la ansiedad aumenta de 5 a 20 unidades, el estrés casi se quintuplica.
El cambio es progresivo y coherente con la pendiente del modelo (~0.1 por unidad de ansiedad).


Conclusión general

El modelo lineal simple muestra una relación positiva, fuerte y significativa entre el nivel de ansiedad y el nivel de estrés.
A medida que aumenta la ansiedad, el estrés también se incrementa de forma casi proporcional.
El modelo explica más de la mitad de la variabilidad total del estrés (R² = 0.54),
por lo que la ansiedad puede considerarse un “predictor clave del estrés” en las personas.

Una variable cualitativa y otra cuantitativa.

El gráfico de cajas muestra una clara diferencia en el nivel de estrés según la historia de salud mental. Las personas que reportan antecedentes de salud mental tienden a presentar niveles de estrés más altos en comparación con aquellos que no tienen antecedentes. Esto sugiere que la existencia de una condición previa de salud mental podría ser un factor asociado a una mayor vulnerabilidad frente al estrés. #Dos variables cualitativas

El siguiente diagrama es una tabla cruzada de dos variales cualitativas, las cuales tienen un rango de 0 a 5 para ambas, teniendo en cuenta que 0=muy bajo y 5=alto. El patrón del gráfico sugiere que una mayor carga de estudio se asocia con una menor calidad del sueño, lo que podría deberse al estrés, la falta de tiempo para descansar o los horarios prolongados de estudio.

2. Pronósticos

En este caso, el conjunto de datos no incluye una variable de tiempo (como fecha, semana o mes). Cada persona fue observada solo una vez, por lo que no es posible aplicar modelos de pronóstico, ya que estos necesitan una secuencia temporal de datos para estimar tendencias futuras.

Por ejemplo, si se tuviera una medición del nivel de estrés o ansiedad de las mismas personas durante varios días, semanas o meses, sí se podrían usar técnicas de pronóstico, como:

En conclusión, como los datos actuales son de un solo momento, no se pueden hacer pronósticos reales. Sin embargo, si en el futuro se realiza un seguimiento temporal de las personas (por ejemplo, medir el estrés cada semana), estos métodos serían útiles para anticipar cambios o detectar periodos de mayor riesgo.