Estrés Post COVID

R.Contreras, S.Carrera, R.Pacheco, N.Soto, A.Collantes, J.F.Hernández y A.I.Rodriguez (Equipo 6)

4/5/2022

Caso de Estudio

1.- Librerías usadas (explicadas)

library(pacman) # librerias necesarias para este caso de estudio.
p_load(rmdformats,readr,readxl,ggplot2,DT, psych, GGally,xtable,corrplot,readxl,tidyverse,randomForest,caret,xfun,DataExplorer,rpart,rpart.plot)

Las primeras 3 ibrerias sirven para leer los archivos utilizados en este caso de estudio.

Ggplot2: es para crear gráficos ‘declarativamente’, basado en “La gramática de los gráficos”. Proporcionaa los datos y le dice a ‘ggplot2’ cómo asignar variables a la estética, qué primitivas gráficas usar y se ocupa de los detalles.

DT (data table): Basado en este paquete, puede filtrar, buscar y exportar datos a diferentes formatos fácilmente.

psych: Útil para la entrada de datos básicos y análisis descriptivos, para obtener una lista de todas las funciones.

GGally: Es un sistema de trazado basado en la gramática de los gráficos. ‘GGally’ amplía ‘ggplot2’ añadiendo varias funciones para reducir la complejidad de combinar objetos geométricos con datos transformados.

xtable: Convierta un objeto R en un objeto xtable, que luego se puede imprimir como una tabla LaTeX o HTML.

corrplot: Permite una visualización gráfica de una matriz de correlación, intervalo de confianza.

readxl: Permite leer datos en archivos de excel.

tidyverse: para llamar a la familia de paquetes tidyverse, que nos ayudaran al procesamiento de nuestros datos.

rpart: el paquete con la implementación de árboles de clasificación que utilizaremos.

rpart.plot: para graficar los resultados de rpart.

2.- Datos usados (diccionario y fuentes)

library(readxl)
estres <- read_excel("Estres_COVID_2022.xlsx") # Encuesta sobre la condición de estrés de estudiantes de pregrado en ITSON. 
factores <- read_excel("FactoresEstres.xlsx")
sintomas <- read_excel("sintomas2022.xlsx") 
acciones <- read_excel("accionesDisminucion.xlsx")
datosEstres <- read_excel("datosEstres_ITSON.xlsx")

## New names:
## * Incertidumbre -> Incertidumbre...12
## * Incertidumbre -> Incertidumbre...18

View(estres)

Figura 1. Datos de una encuesta hecha durante las primeras dos semanas de mayo de 2022 sobre los niveles de estrés de los estudiantes de pregrado de ITSON, esta encuesta se le hizo a un total de 100 personas.

3.- Introducción (antecedentes)

Una publicación reciente de The Lancet (2021), diario médico británica, evidencia el efecto devastador que tuvo la pandemia en la salud mental en el continente americano; incluso hicieron la OPS hizo una petición para que se fortalezcan los servicios y se les dé prioridad en los planes de respuesta y recuperación.

Por supuesto que México ha sido uno de las víctimas de esta pandemia de trastornos y condiciones mentales, y no es de sorprender, ya que nuestro país cuenta con el primer puesto a nivel mundial como el país con más estrés laboral, esto es sostenido por un estudio realizado por la OCCMundial sobre el “Estrés laboral en México”, el cual indica que el estrés laboral en México aumento en un 20% de cómo se encontraba antes de la pandemia.

Esto enciende focos rojos, ya que el estrés y las condiciones emocionales y psicológica son algo que no se debe de tomar a la ligera, pueden ser la causa de accidentes, indiferencia apática o incluso suicidio, es por eso mismo que la OPS solicita que se tomen cartas en este asunto.

4.- Objetivos (generales y particulares)

Lo que se busca con este caso de estudio es detectar las causas que generan el estrés y cuál es la razón de esto, ya que son una infinidad de factores los que pueden propiciar esto, siendo los escenarios imaginarios los que generalmente provocan estrés.

Para llegar más profundo a la fenomenología del estrés también es importante entender como nos afecta en nuestra salud mental y física, ya que esta también pude generar consecuencias físicas en el largo plazo.

Una vez cubiertos los puntos anteriores donde nos topamos con el núcleo de este análisis de estrés, poder argumentar de manera lógica la estructura teórica del estrés y aún más importante, dar con las posibles soluciones para reducirlo de manera significativa. Además de responder si en realidad la pandemia y el confinamiento fueron un parteaguas en los niveles de estrés a nivel nacional o tal vez mundial, siendo el principio del fin de la normalidad como la conocíamos, dando paso a lo que ahora se denomina como nueva normalidad.

Proceso de resolución de problema usando ciencia de datos:

La Ciencia de Datos es la utilización de métodos, procesos, algoritmos y sistemas matemáticos y científicos para guiar o incluso automatizar la generación de soluciones a distintos problemas. Es precisamente la disciplina que está detrás de muchos procesos que pasan desapercibidos en nuestra vida cotidiana, como la eficiencia de los buscadores web o la rigurosidad de las decisiones empresariales de distintos grupos alrededor del mundo.

Los pasos para llevar esta ciencia a la práctica son las siguientes:

1. Enmarcar el Problema Es importante poder definir correctamente el problema que estamos enfrentado, pasando de una petición ambigua a una definición concreta con la que podamos trabajar.

2. Colectar datos crudos. Lo siguiente es recolectar la información que vamos a necesitar. Para esto hay que identificar las fuentes que tenemos disponibles, y saber identificar las partes relevantes para nosotros.

3. Procesar los datos. Una ves que tenemos los datos vamos a utilizarlos, pero antes de eso hay que adecuarlos para el análisis, aquí es donde entrar herramientas como Python o R (como en el caso de este documento).

4. Explorar los datos. Aquí ya es donde utilizamos las librerías de nuestras respectivas herramientas de análisis para explorar los datos, sacando hipótesis, experimentando y practicando con los datos.

5. Realizar un análisis en profundidad. En una de las partes más importantes del proceso, cuando ya hemos explorado los datos, toca poner a prueba nuestros modelos, hacer predicciones y sacar conclusiones.

6. Comunicar los resultados. Aquí entran en juego medios de divulgación (como este propio documento) donde puedan darse a conocer las conclusiones y las soluciones a las que se llegó.

5.- Marco teórico (explicación del tema)

El estrés ha sido un tema del que se escucha hablar cada vez más, debido a la fácil comunicación o al aumento de casos que existen en estos tiempos y las investigaciones que han estado realizando por el gran impacto que provoca en la salud física, mental, rendimiento laboral, académico y personal; afectando así la vida diaria de las personas.

Existen varias definiciones sobre el estrés, una de ellas es la de Melgosa (1997), señala que, debido a las alteraciones que el estrés provoca en la persona, se puede entender este concepto como: “un conjunto de reacciones fisiológicas y psicológicas que experimenta el organismo cuando se lo somete a fuertes demandas”.

Es decir que, es una respuesta natural del cuerpo que aparece cuando percibimos que nuestros recursos no son suficientes para afrontar los problemas, y cuando se produce una sobrecarga de tensión repercute en el organismo, provocando la aparición de enfermedades y anomalías patológicas que impiden el normal desarrollo y funcionamiento del cuerpo humano.

En toda situación estresante existen una serie de características comunes:

• Se genera una situación nueva que nos exige un cambio.

• Al principio suele haber una gran falta de información sobre esa situación que nos estresa.

• Incertidumbre: ¿qué nos va a ocurrir?

• Ambigüedad: a mayor ambigüedad más estrés.

• Normalmente tampoco tenemos muchas habilidades para manejar esta nueva situación.

• El estrés nos provoca alteraciones biológicas en el organismo que nos obligan a trabajar aún más para volver a un estado de equilibrio.

• Cuanto más dure la situación, cuanto más crónica sea ésta, mayor nuestro desgaste.

El estrés puede ser temporal o puede continuar a largo plazo, y afectar así las hormonas, el estado de ánimo, las enfermedades y todos los aspectos de tu salud y bienestar, por lo que, el impacto del estrés en la salud puede ser significativo tanto en el aspecto físico como en el emocional.

En consecuencias físicas se pueden ver afectados los sistemas endócrino, nervioso e inmunológico, lo cual conduce a enfermedades del corazón, vasos sanguíneos, riñones e incluso la muerte. Por mencionar algunos padecimientos se encuentra el acné, alopecia, dermatitis, colitis ulcerosa, estreñimiento, migrañas, náuseas, vómitos, temblores, trastorno esquizofrénico y menstruales, suicidio, insomnio, infarto al miocardio, epilepsia, diarrea, asma, entre otros.

Como consecuencias psicológicas entre los efectos negativos producidos por la activación reiterada de la respuesta de estrés estarían la preocupación excesiva, obsesiones, incapacidad para tomar decisiones, concentrarse y mantener la atención, frecuentes olvidos, bloqueos mentales, mal humor, adicción a drogas y alcohol, depresión, ansiedad, miedos y fobias, alteración de las conductas de alimentación, entre otras.

6.- Método (técnicas y su aplicación)

Regresión Lineal

La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales, financieros y biológicos.

Se utiliza para predecir el valor de una variable según el valor de otra. La variable que desea predecir se denomina variable dependiente, la variable que está utilizando para predecir el valor de la otra variable se denomina variable independiente. Esta forma de análisis estima los coeficientes de la ecuación lineal, involucrando una o a más variables independientes que mejor predicen el valor de la variable dependiente, la regresión lineal se ajusta a una línea recta o a una superficie que minimiza las discrepancias entre los valores de salida previstos y reales.

Regresión Logística

Es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una variable cuantitativa. Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome la variable empleada como predictor. Por ejemplo, clasificar a un individuo desconocido como hombre o mujer en función del tamaño de la mandíbula.

Es importante tener en cuenta que, aunque la regresión logística permite clasificar, se trata de un modelo de regresión que modela el logaritmo de la probabilidad de pertenecer a cada grupo. La asignación final se hace en función de las probabilidades predichas. La regresión logística transforma el valor devuelto por la regresión lineal (β0+β1X) empleando una función cuyo resultado está siempre comprendido entre 0 y 1. Existen varias funciones que cumplen esta descripción, una de las más utilizadas es la función logística (también conocida como función sigmoide).

Regresión Lineal Múltiple

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores x1x2x3. Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última.

Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto). Para poder determinar qué impacto tienen en el modelo cada una de las variables, se emplean los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo.

7.- Resultados y discusión (gráficas y tablas resultantes explicadas)

pl <- ggplot(estres,aes(x=estres$VidaSocialAfectada))
pl+ geom_histogram(binwidth = 1, col='black', fill='purple', alpha=0.4)+ xlab('¿Qué tan afectado se vio tu desarrollo social con la pandemia?') + ylab('Frecuencia') + ggtitle('Histograma Desarrollo Social')

## Warning: Use of `estres$VidaSocialAfectada` is discouraged. Use
## `VidaSocialAfectada` instead.

> Figura 2. Histograma de impacto en el desarrollo social

pl <- ggplot(estres,aes(x=estres$Angustia))
pl+ geom_histogram(binwidth = 1, col='black', fill='purple', alpha=0.4)+ xlab('Angustia') + ylab('Frecuencia') + ggtitle('Histograma de Angustia')

## Warning: Use of `estres$Angustia` is discouraged. Use `Angustia` instead.

Figura 3. Histograma de niveles de angustia

pl <- ggplot(estres,aes(x=estres$Depresión))
pl+ geom_histogram(binwidth = 1, col='black', fill='purple', alpha=0.4)+ xlab('Depresión') + ylab('Frecuencia') + ggtitle('Histograma de Depresión')

## Warning: Use of `estres$Depresión` is discouraged. Use `Depresión` instead.

Figura 4. Histograma de niveles de depresion

pl <- ggplot(estres,aes(x=estres$Ansiedad))
pl+ geom_histogram(binwidth = 1, col='black', fill='purple', alpha=0.4)+ xlab('Ansiedad') + ylab('Frecuencia') + ggtitle('Histograma de Ansiedad')

## Warning: Use of `estres$Ansiedad` is discouraged. Use `Ansiedad` instead.

## Warning: Removed 1 rows containing non-finite values (stat_bin).

Figura 5. Histograma de niveles de ansiedad

pairs.panels(factores)

Figura 6. Coeficiente de correlacion entre los factores que influyen en los niveles de estres, de manera resumida, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.

multi.hist(x = factores, dcol = c("blue", "red"), dlty = c("dotted", "solid"), main = "")

Figura 7. Visualización grafica de la relación entre las variables de los factores que influyeron en el estres.

pairs.panels(sintomas)

Figura 8. Coeficiente de correlacion entre los sintomas generados por los niveles de estres.

Cálculo y representación de la recta de mínimos cuadrados

regresion <- lm (Depresion ~ Tristeza, data = sintomas)
summary(regresion)

## 
## Call:
## lm(formula = Depresion ~ Tristeza, data = sintomas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.9060 -1.2782  0.0262  1.2833  8.5799 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.60940    0.52686   1.157     0.25    
## Tristeza     0.81073    0.07723  10.498   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.479 on 98 degrees of freedom
## Multiple R-squared:  0.5293, Adjusted R-squared:  0.5245 
## F-statistic: 110.2 on 1 and 98 DF,  p-value: < 2.2e-16

Figura 9. El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y), la cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresión Este objeto es una lista que contiene toda la información relevante sobre el análisis. Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ‘Estimate’ de la tabla ‘Coefficients’ de la salida anterior.

En este ejemplo la ecuación de la recta de mínimos cuadrados es:

\[ y = 0.60940 + 0.81073x \]

Representacion de la recta de minimos cuadrados:

plot(sintomas$Depresion, sintomas$Tristeza, xlab="Depresion", ylab = "Tristeza")
abline(regresion)

Figura 10. El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. En este caso los datos se encuentran no están del todo dispersos en relación a la recta de mínimos cuadrados generada por el modelo de regresión, con unas cuantas excepciones que se alejan de la recta.

Calculo de predicciones:

predict_Depresion <- data.frame(Depresion = seq(1,5), Tristeza = seq(1,5))
predict(regresion, predict_Depresion)

##        1        2        3        4        5 
## 1.420133 2.230863 3.041594 3.852324 4.663055

Intervalos de confianza

confint(regresion)

##                  2.5 %    97.5 %
## (Intercept) -0.4361293 1.6549339
## Tristeza     0.6574722 0.9639888

Figura 11. Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict.

predict_Depresion <- data.frame(Depresion = seq(1,10), Tristeza = seq(1,10))
#Grafico de dispersion y recta 
plot(sintomas$Depresion, sintomas$Tristeza, xlab="Depresion", ylab = "Tristeza")
abline(regresion)

#Intervalo de confianza de la respuesta media 
# ic es una matriz con tres columnas: la prediccion, el limite inferior y el limite superior
ic <- predict(regresion, predict_Depresion, interval = 'confidence')
lines(predict_Depresion$Depresion, ic[, 2], lty = 2)
lines(predict_Depresion$Depresion, ic[, 3], lty = 2)

#Intervalo de prediccion
ic <- predict(regresion, predict_Depresion, interval = 'prediction')
lines(predict_Depresion$Depresion, ic[, 3], lty = 10, col = "green")
lines(predict_Depresion$Depresion, ic[, 2], lty = 10, col = "green")

Figura 12. Se calcula y representa los dos tipos de intervalos para el rango de angustia que van desde el 1 hasta el 10 (los de predicción en verde), los intervalos de confianza generalmente tienden a estar en cercanía a la recta de mínimos cuadrados.

Regresión lineal múltiple

Analizar la relación entre variables

round(cor(x = sintomas, method = "pearson"), 3)

##                 DoloresMuscular Angustia Incertidumbre FaltaSueño DolorCabeza
## DoloresMuscular           1.000    0.456         0.438      0.419       0.346
## Angustia                  0.456    1.000         0.720      0.315       0.399
## Incertidumbre             0.438    0.720         1.000      0.389       0.309
## FaltaSueño                0.419    0.315         0.389      1.000       0.316
## DolorCabeza               0.346    0.399         0.309      0.316       1.000
## CambiosApetito            0.393    0.392         0.391      0.573       0.414
## Depresion                 0.448    0.545         0.471      0.420       0.351
## Claustrofobia             0.461    0.324         0.392      0.234       0.247
## Tristeza                  0.323    0.448         0.468      0.315       0.317
## Ansiedad                  0.397    0.579         0.515      0.308       0.422
## MalHumor                  0.440    0.540         0.552      0.400       0.474
## Impotencia                0.362    0.614         0.667      0.411       0.344
## Paranoia                  0.213    0.476         0.515      0.255       0.338
##                 CambiosApetito Depresion Claustrofobia Tristeza Ansiedad
## DoloresMuscular          0.393     0.448         0.461    0.323    0.397
## Angustia                 0.392     0.545         0.324    0.448    0.579
## Incertidumbre            0.391     0.471         0.392    0.468    0.515
## FaltaSueño               0.573     0.420         0.234    0.315    0.308
## DolorCabeza              0.414     0.351         0.247    0.317    0.422
## CambiosApetito           1.000     0.446         0.353    0.437    0.556
## Depresion                0.446     1.000         0.456    0.728    0.617
## Claustrofobia            0.353     0.456         1.000    0.484    0.436
## Tristeza                 0.437     0.728         0.484    1.000    0.615
## Ansiedad                 0.556     0.617         0.436    0.615    1.000
## MalHumor                 0.401     0.577         0.355    0.555    0.702
## Impotencia               0.482     0.508         0.414    0.464    0.665
## Paranoia                 0.406     0.422         0.350    0.394    0.535
##                 MalHumor Impotencia Paranoia
## DoloresMuscular    0.440      0.362    0.213
## Angustia           0.540      0.614    0.476
## Incertidumbre      0.552      0.667    0.515
## FaltaSueño         0.400      0.411    0.255
## DolorCabeza        0.474      0.344    0.338
## CambiosApetito     0.401      0.482    0.406
## Depresion          0.577      0.508    0.422
## Claustrofobia      0.355      0.414    0.350
## Tristeza           0.555      0.464    0.394
## Ansiedad           0.702      0.665    0.535
## MalHumor           1.000      0.680    0.477
## Impotencia         0.680      1.000    0.598
## Paranoia           0.477      0.598    1.000

Figura 13. A la hora de establecer un modelo lineal múltiple se debe de estudiar la relación que existe entre variables. Esta información es crítica a la hora de identificar cuáles pueden ser los mejores predictores para el modelo, qué variables presentan relaciones de tipo no lineal (por lo que no pueden ser incluidas) y para identificar colinialidad entre predictores.

Análisis con histogramas

multi.hist( x = sintomas, dcol = c("blue","red"), dlty = c("dotted", "solid"), main = "")

Figura 14. Visualización grafica de la relación entre las variables de los síntomas mentales.

Representacion de relacion utilizando ggplot y ggally

ggpairs(sintomas, lower = list(continuous ="smooth"), diag = list (continuos = "barDiag"), axisLabels = "none")

Figura 15. Representación gráfica de la correlación entre las variables.

Entonces, de los análisis realizados hasta el momento, podemos obtener las siguientes conclusiones preliminares:

Las variables que tienen una mayor relación lineal con la depresión son: ansiedad (r= 0.617), y tristeza (r= 0.728).
Incertidumbre y Angustia están medianamente correlacionados (r = 0.720) por lo que posiblemente no sea útil introducir ambos predictores en el modelo.

Generar el modelo

modelo <- lm(Depresion ~ Tristeza, data=sintomas)
summary(modelo)

## 
## Call:
## lm(formula = Depresion ~ Tristeza, data = sintomas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.9060 -1.2782  0.0262  1.2833  8.5799 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.60940    0.52686   1.157     0.25    
## Tristeza     0.81073    0.07723  10.498   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.479 on 98 degrees of freedom
## Multiple R-squared:  0.5293, Adjusted R-squared:  0.5245 
## F-statistic: 110.2 on 1 and 98 DF,  p-value: < 2.2e-16

Figura 16. Modelo de regresión, análisis de varianza de estrato único y análisis de covarianza de cada variable de los síntomas de estrés.

Evaluando gráficamente el modelo

plot(sintomas$Depresion, sintomas$Tristeza)
abline(modelo)

Figura 17. Modelos grafico de la entre la depresión y la tristeza.

Múltiples predictores

modelo2 <- (lm(formula = Depresion ~ Angustia + Incertidumbre + Tristeza + Ansiedad, data = sintomas))
summary(modelo2)

## 
## Call:
## lm(formula = Depresion ~ Angustia + Incertidumbre + Tristeza + 
##     Ansiedad, data = sintomas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.7623 -1.0927  0.3631  1.1054  8.2703 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -1.01015    0.63102  -1.601   0.1127    
## Angustia       0.27751    0.11938   2.325   0.0222 *  
## Incertidumbre -0.04109    0.11675  -0.352   0.7257    
## Tristeza       0.59492    0.09353   6.360 7.02e-09 ***
## Ansiedad       0.19085    0.10036   1.902   0.0602 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.306 on 95 degrees of freedom
## Multiple R-squared:  0.6049, Adjusted R-squared:  0.5882 
## F-statistic: 36.36 on 4 and 95 DF,  p-value: < 2.2e-16

Figura 18. Modelo de múltiples predictores que arroja los valores residuales y los coeficientes que tiene cada variable.

Prueba de Breusch-Pagan

corrplot(cor(dplyr::select(sintomas, Depresion, Angustia, Incertidumbre, Tristeza)), method = "number", tl.col = "black")

Figura 19. Grafica que determinar la heterocedasticidad del modelo de regresión lineal, analiza si las varianzas estimadas de los residuos de una regresión dependen de los valores de las variables independientes.

Intervalo de confianza para cada uno de los coeficientes parciales de regresión:

confint(lm(formula = Depresion ~ Angustia + Incertidumbre + Tristeza + Ansiedad, data = sintomas))

##                      2.5 %    97.5 %
## (Intercept)   -2.262880565 0.2425838
## Angustia       0.040502962 0.5145151
## Incertidumbre -0.272871772 0.1906937
## Tristeza       0.409226358 0.7806057
## Ansiedad      -0.008387509 0.3900941

Figura 20. Valores de los intervalos de confianza del modelo según las variables.

Cada una de las pendientes de un modelo de regresión lineal múltiple (coeficientes parciales de regresión de los predictores) se define del siguiente modo: Si el resto de variables se mantienen constantes, por cada unidad que aumenta el predictor en cuestión, la variable (Y) varía en promedio tantas unidades como indica la pendiente.

Distribución normal de los residuos:

qqnorm(regresion$residuals)
qqline(regresion$residuals)

Figura 21. Grafica Q-Q Plot para comparar las distribuciones de probabilidad al trazar sus cuantiles uno contra el otro, lo ideal es que los puntos se acerquen a una recta diagonal, lo cual sucede en con este modelo.

Prueba de shapiro wilk para determinar normalidad

shapiro.test(regresion$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  regresion$residuals
## W = 0.9547, p-value = 0.001716

Figura 22. Esta prueba es aplicable cuando se analizan muestras compuestas por menos de 50 elementos, en otras palabras, muestras pequeñas. Como el p valor (0.001716) es menor a alfa (0,05), se rechaza la hipótesis nula (H0), por lo tanto, la regresión no presenta un comportamiento normal o paramétrico.

Regresión logística

La idea es ajustar por medio de la regresión logística, un modelo de regresión logística para estudiar la posible relación entre variables, para ajustar el modelo se usa el comando glm (para modelos lineales generalizados) indicando que la respuesta es binomial mediante el argumento family.

regresion_log<- glm(Depresion ~ Tristeza , data=sintomas)
summary(regresion_log)

## 
## Call:
## glm(formula = Depresion ~ Tristeza, data = sintomas)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -7.9060  -1.2782   0.0262   1.2833   8.5799  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.60940    0.52686   1.157     0.25    
## Tristeza     0.81073    0.07723  10.498   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 6.142998)
## 
##     Null deviance: 1278.99  on 99  degrees of freedom
## Residual deviance:  602.01  on 98  degrees of freedom
## AIC: 469.3
## 
## Number of Fisher Scoring iterations: 2

Figura 23. Ajuste del modelo lineal generalizados, este genera una descripción simbólica del predictor lineal y una descripción de la distribución de errores, en este caso entre las variables de depresión y tristeza del modelo.

Análisis gráfico descriptivo

Para conocer los datos faltantes, observaciones y filas

plot_intro(datosEstres)

datosEstres %>%
  gather() %>%
  ggplot(aes(value)) +
  geom_bar()+
  facet_wrap(~ key , scales = "free")+
  theme(axis.text = element_text(size=4))

## Warning: Removed 3 rows containing non-finite values (stat_count).

Sumario de los datos usados

summary(datosEstres)

##     Contagio     PeriodoAmpliado    Escasez      CrisisEconomica
##  Min.   : 0.00   Min.   : 0.00   Min.   : 0.00   Min.   : 0.00  
##  1st Qu.: 4.00   1st Qu.: 5.00   1st Qu.: 6.00   1st Qu.: 7.00  
##  Median : 6.00   Median : 7.50   Median : 8.00   Median : 8.00  
##  Mean   : 5.88   Mean   : 6.88   Mean   : 7.54   Mean   : 7.83  
##  3rd Qu.: 8.00   3rd Qu.: 9.00   3rd Qu.:10.00   3rd Qu.:10.00  
##  Max.   :10.00   Max.   :10.00   Max.   :10.00   Max.   :10.00  
##                                                                 
##  InformacionMedios ColapsoSistemaSalud FamiliarContagiado Hospitalizacion
##  Min.   : 0.00     Min.   : 3.00       Min.   : 2.00      Min.   : 0.00  
##  1st Qu.: 4.75     1st Qu.: 6.75       1st Qu.: 7.00      1st Qu.: 6.00  
##  Median : 6.00     Median : 9.00       Median : 9.00      Median : 9.00  
##  Mean   : 6.38     Mean   : 8.06       Mean   : 8.37      Mean   : 7.86  
##  3rd Qu.: 9.00     3rd Qu.:10.00       3rd Qu.:10.00      3rd Qu.:10.00  
##  Max.   :10.00     Max.   :10.00       Max.   :10.00      Max.   :10.00  
##                                                                          
##  ProblemasPersonales DesconfianzaContacto  CambioRutina  Incertidumbre...12
##  Min.   : 0.00       Min.   : 0.0         Min.   : 0.0   Min.   : 0.00     
##  1st Qu.: 5.00       1st Qu.: 4.0         1st Qu.: 5.0   1st Qu.: 5.00     
##  Median : 8.00       Median : 7.0         Median : 7.0   Median : 7.00     
##  Mean   : 6.92       Mean   : 6.4         Mean   : 6.9   Mean   : 6.89     
##  3rd Qu.: 9.25       3rd Qu.: 9.0         3rd Qu.: 9.0   3rd Qu.: 9.00     
##  Max.   :10.00       Max.   :10.0         Max.   :10.0   Max.   :10.00     
##                                                                            
##   FaltaDinero    ActNormalLimitada FallecidosCOVID DoloresMuscular
##  Min.   : 1.00   Min.   : 0.00     Min.   : 0.00   Min.   : 0.0   
##  1st Qu.: 6.75   1st Qu.: 5.00     1st Qu.: 5.00   1st Qu.: 3.0   
##  Median : 9.00   Median : 7.00     Median : 7.00   Median : 6.0   
##  Mean   : 8.10   Mean   : 7.27     Mean   : 6.88   Mean   : 5.2   
##  3rd Qu.:10.00   3rd Qu.:10.00     3rd Qu.:10.00   3rd Qu.: 8.0   
##  Max.   :10.00   Max.   :10.00     Max.   :10.00   Max.   :10.0   
##                                                                   
##     Angustia     Incertidumbre...18   FaltaSueño     DolorCabeza   
##  Min.   : 0.00   Min.   : 0.00      Min.   : 0.00   Min.   : 0.00  
##  1st Qu.: 5.00   1st Qu.: 4.00      1st Qu.: 5.00   1st Qu.: 5.00  
##  Median : 7.00   Median : 6.00      Median : 7.00   Median : 7.00  
##  Mean   : 6.67   Mean   : 5.97      Mean   : 6.27   Mean   : 6.91  
##  3rd Qu.: 9.25   3rd Qu.: 9.00      3rd Qu.: 9.00   3rd Qu.:10.00  
##  Max.   :10.00   Max.   :10.00      Max.   :10.00   Max.   :10.00  
##                                                                    
##  CambiosApetito    Depresion     Claustrofobia      Tristeza    
##  Min.   : 0.00   Min.   : 0.00   Min.   : 0.00   Min.   : 0.00  
##  1st Qu.: 3.00   1st Qu.: 2.00   1st Qu.: 0.00   1st Qu.: 4.00  
##  Median : 6.00   Median : 6.00   Median : 2.00   Median : 7.00  
##  Mean   : 6.02   Mean   : 5.49   Mean   : 3.01   Mean   : 6.02  
##  3rd Qu.: 9.00   3rd Qu.: 8.00   3rd Qu.: 5.00   3rd Qu.: 8.25  
##  Max.   :10.00   Max.   :10.00   Max.   :10.00   Max.   :10.00  
##                                                                 
##     Ansiedad        MalHumor       Impotencia       Paranoia    
##  Min.   : 0.00   Min.   : 0.00   Min.   : 0.00   Min.   : 0.00  
##  1st Qu.: 4.00   1st Qu.: 5.00   1st Qu.: 3.75   1st Qu.: 0.00  
##  Median : 8.00   Median : 8.00   Median : 7.00   Median : 4.00  
##  Mean   : 6.88   Mean   : 7.07   Mean   : 6.29   Mean   : 4.22  
##  3rd Qu.:10.00   3rd Qu.:10.00   3rd Qu.: 9.00   3rd Qu.: 7.00  
##  Max.   :10.00   Max.   :10.00   Max.   :10.00   Max.   :10.00  
##                                                                 
##  ComunicionFamilia EjercicioSalud  ComerAnsiedad    AprenderInternet
##  Min.   : 0.00     Min.   : 0.00   Min.   : 0.000   Min.   : 0.00   
##  1st Qu.: 3.00     1st Qu.: 4.00   1st Qu.: 4.250   1st Qu.: 5.00   
##  Median : 7.00     Median : 7.00   Median : 7.000   Median : 6.00   
##  Mean   : 6.15     Mean   : 6.25   Mean   : 6.327   Mean   : 6.22   
##  3rd Qu.: 9.00     3rd Qu.: 9.00   3rd Qu.: 9.000   3rd Qu.: 8.00   
##  Max.   :10.00     Max.   :10.00   Max.   :10.000   Max.   :10.00   
##                                    NA's   :2                        
##  LimpiarCocinar   VerPeliculas   EscucharMusica    EvitarTema   
##  Min.   : 0.00   Min.   : 0.00   Min.   : 2.00   Min.   : 0.00  
##  1st Qu.: 4.00   1st Qu.: 5.00   1st Qu.: 9.00   1st Qu.: 5.00  
##  Median : 7.00   Median : 7.00   Median :10.00   Median : 7.00  
##  Mean   : 6.03   Mean   : 6.56   Mean   : 9.04   Mean   : 6.52  
##  3rd Qu.: 9.00   3rd Qu.: 9.00   3rd Qu.:10.00   3rd Qu.: 9.00  
##  Max.   :10.00   Max.   :10.00   Max.   :10.00   Max.   :10.00  
##                                                                 
##      VerTV        EvadirRealidad PensarPositivo  ConsumoAlcohol 
##  Min.   : 0.000   Min.   : 0.0   Min.   : 0.00   Min.   : 0.00  
##  1st Qu.: 1.000   1st Qu.: 3.0   1st Qu.: 5.00   1st Qu.: 0.00  
##  Median : 5.000   Median : 5.0   Median : 8.00   Median : 1.00  
##  Mean   : 4.717   Mean   : 5.3   Mean   : 7.04   Mean   : 2.45  
##  3rd Qu.: 8.000   3rd Qu.: 8.0   3rd Qu.: 9.00   3rd Qu.: 5.00  
##  Max.   :10.000   Max.   :10.0   Max.   :10.00   Max.   :10.00  
##  NA's   :1                                                      
##  ConsumoTabacoVape
##  Min.   : 0.00    
##  1st Qu.: 0.00    
##  Median : 0.00    
##  Mean   : 1.64    
##  3rd Qu.: 1.00    
##  Max.   :10.00    
##

Necesitamos un set de entrenamiento para generar un modelo predictivo, y un set de prueba, para comprobar la eficacia de este modelo para hacer predicciones correctas. Usamos la función sample_frac() de dplyr para obtener un subconjunto de nuestros datos, que consiste en 70% del total de ellos. Usamos también set.seed() para que este ejemplo sea reproducible.

set.seed(100)
datos_entrenamiento <- sample_frac(sintomas, .7)
datos_prueba <- setdiff(sintomas, datos_entrenamiento)

Entrenando nuestro modelo

Usamos la función rpart de rpart para entrenar nuestro modelo. Esta función nos pide una fórmula para especificar la variable objetivo de la clasificación. La fórmula que usaremos es Depresion ~ ., la cual expresa que intentaremos clasificar la depresión usando a todas las demás variables como predictoras. En este primer intento no ajustaremos ningún otro parámetro.

arbol_1 <- rpart(formula = Depresion ~ ., data = datos_entrenamiento)
arbol_1

## n= 70 
## 
## node), split, n, deviance, yval
##       * denotes terminal node
## 
##  1) root 70 882.07140 5.357143  
##    2) Tristeza< 5.5 29 261.03450 2.586207  
##      4) DoloresMuscular< 5.5 16  32.93750 1.062500 *
##      5) DoloresMuscular>=5.5 13 145.23080 4.461538 *
##    3) Tristeza>=5.5 41 240.87800 7.317073  
##      6) Angustia< 6.5 12  58.91667 5.416667 *
##      7) Angustia>=6.5 29 120.68970 8.103448  
##       14) Tristeza< 8.5 17  69.05882 7.235294 *
##       15) Tristeza>=8.5 12  20.66667 9.333333 *

rpart.plot(arbol_1)

Figura 24. Cada nodo está coloreado de acuerdo a la categoría mayoritaria entre los datos que agrupa. Esta es la categoría que ha predicho el modelo para ese grupo. Dentro del rectángulo de cada nodo se nos muestra qué proporción de casos pertenecen a cada categoría y la proporción del total de datos que han sido agrupados allí.

Impacto que tuvo la pandemia el desarrollo social según el género

den.hom <- with(estres, density(VidaSocialAfectada[Género == 'Masculino']))
den.muj <- with(estres, density(VidaSocialAfectada[Género == 'Femenino']))

plot(den.hom, xlim=c(0, 12), 
     main='Vida social afectada segun género', ylab='Porcentaje',
     xlab='Vida Social Afectada', lwd=4, col='blue')
lines(den.muj, lwd=4, col='red')
legend('topright', legend=c('Hombres', 'Mujeres'), bty='n',
       lwd=3, col=c('blue', 'red'))

Figura 25. El género masculino fue más afectado a nivel de desarrollo social según los datos de la encuesta.

8.- Conclusión

El COVID trajo consigo muchos cambios para la vida de todos, teniendo que adaptarnos a un nuevo estilo de vida para sobrevivir a él; en la actualidad, aun después de 2 años desde el inicio de la contingencia global, seguimos sufriendo por estos cambios bruscos, como pudimos ver con anterioridad, el estrés fue una enemiga en común para la mayoría de personas como resultado de la cuarentena, según los datos expuestos anteriormente, sabemos que el estrés estuvo presente en la mayoría de las personas participantes dentro de la encuesta, también podemos decir con seguridad que el estrés fue el causante de síntomas físicos y emocionales, como lo fueron los dolores musculares en el lado físico, y la angustia que a su vez provocaba tristeza.

Pudimos apreciar también que el estrés no discrimina entre personas, pues con los resultados pudimos apreciar que el género masculino fue más afectado y por lo tanto su vida social sufrió más cambios en comparación con el otro género, sin embargo, esto no minimiza el impacto que puede provocar en la vida de los afectados.

“Nueva Normalidad” es la nueva etapa que vino con el inicio de la cuarentena, una nueva etapa que nos trajo muchos cambios en nuestras vidas, sin embargo es la oportunidad para empezar a trabajar en una nueva versión de nosotros, pudimos apreciar las consecuencias que trae el estrés post COVID, entonces trabajemos en nosotros mismos, aprendamos soluciones para combatir contra el estrés, como lo son el mindfulness, aprender sobre la disciplina, si está en nuestra posibilidad pidamos ayuda psicológica y profesional, y ante todo, recordemos que esto es temporal y saldremos adelante.

“La clave no es priorizar lo que está en tu agenda, sino programar tus prioridades.” – Stephen Covey

9.- Bibliografía

o Caparrini, F. S., & Windmill Web Work. (2020). Aprendizaje Supervisado y No Supervisado. Cs.Us.Es. http://www.cs.us.es/~fsancho/?e=77

o Suarez, A. (s.f.). Diferencias entre el Machine Learning supervisado y no supervisado. Bismart.com. http://blog.bismart.com/diferencias-machine-learning-supervisado-no-supervisado

o Naranjo P., M. (2009). Una Revisión Teórica sobre el Estrés y Algunos Aspectos Relevantes de Este en el Ámbito Educativo. Revista Educación, 33(2),171-190. Disponible en: https://www.redalyc.org/articulo.oa?id=44012058011 o Regueiro, A. (s.f.). Conceptos Básicos: ¿Qué es el Estrés y Cómo nos Afecta? Disponible en: https://www.uma.es/media/files/tallerestr%C3%A9s.pdf

o Persum Psicólogos Oviedo. (2018). Consecuencias del estrés. Disponible en: https://psicologosoviedo.com/especialidades/problemas-laborales/estres-negativo/

o Goldstein, A. (2017). Deconstructing Data Science: Breaking The Complex Craft Into Its Simplest Parts. Disponible en: https://ajgoldstein.com/2017/11/12/deconstructing-data-science/

o IBM. (s. f.). Acerca de la regresión lineal. México | IBM. Recuperado 6 de abril de 2022, de https://www.ibm.com/mx-es/analytics/learn/linear-regression

o Manuel Sánchez, J. (2010). Estrés laboral. Binasss. Recuperado 6 de abril de 2022, de https://www.binasss.sa.cr/opac-ms/media/digitales/Estr%C3%A9s%20laboral.pdf

o Rodrigo, J. A. (2016, julio). Introducción a la Regresión Lineal Múltiple. Ciencia de Datos. Recuperado 6 de abril de 2022, de https://www.cienciadedatos.net/documentos/25_regresion_lineal_multiple

o The Lancet. (2021, 15 noviembre). Strengthening mental health responses to COVID-19. The Lancet Regional Health Americas. Recuperado 6 de abril de 2022, de https://secure.jbs.elsevierhealth.com/action/cookieAbsent

10.- Descarga de código y datos

Descarga este código:

xfun::embed_file("Estres_Post_COVID.Rmd")

Download Estres_Post_COVID.Rmd

Descarga los datos utilizados en este caso:

xfun::embed_file("Estres_COVID_2022.xlsx")

Download Estres_COVID_2022.xlsx

xfun::embed_file("FactoresEstres.xlsx")

Download FactoresEstres.xlsx

xfun::embed_file("sintomas2022.xlsx")

Download sintomas2022.xlsx