Teoría Estadística
1.- Diferencias entre métodos supervisados y no supervisados
Los modelos de aprendizaje supervisado son aquellos en los que se aprenden funciones, relaciones que asocian entradas con salidas, por lo que se ajustan a un conjunto de ejemplos de los que conocemos la relación entre la entrada y la salida deseada. Algunos ejemplos de esta técnica son: árboles de decisiones, regresión, redes neuronales, máquinas de vectores de soporte y redes bayesianas.
Los modelos de aprendizaje no supervisado son aquellos en los que no estamos interesados en ajustar pares (entrada, salida), sino en aumentar el conocimiento estructural de los datos disponibles (y posibles datos futuros que provengan del mismo fenómeno). Algunos ejemplos son: K-Medias, clusterización jerárquica, Density Based Scan Clustering (DBSCAN) y Modelo de Agrupamiento Gaussiano.
2.- Proceso de resolución de problema usando ciencia de datos
La Ciencia de Datos es la utilización de métodos, procesos, algoritmos y sistemas matemáticos y científicos para guiar o incluso automatizar la generación de soluciones a distintos problemas. Es precisamente la disciplina que está detrás de muchos procesos que pasan desapercibidos en nuestra vida cotidiana, como la eficiencia de los buscadores web o la rigurosidad de las decisiones empresariales de distintos grupos alrededor del mundo.
Los pasos para llevar esta ciencia a la práctica son las siguientes:
1. Enmarcar el Problema Es importante poder definir correctamente el problema que estamos enfrentado, pasando de una petición ambigua a una definición concreta con la que podamos trabajar.
2. Colectar datos crudos. Lo siguiente es recolectar la información que vamos a necesitar. Para esto hay que identificar las fuentes que tenemos disponibles, y saber identificar las partes relevantes para nosotros.
3. Procesar los datos. Una ves que tenemos los datos vamos a utilizarlos, pero antes de eso hay que adecuarlos para el análisis, aquí es donde entrar herramientas como Python o R (como en el caso de este documento).
4. Explorar los datos. Aquí ya es donde utilizamos las librerías de nuestras respectivas herramientas de análisis para explorar los datos, sacando hipótesis, experimentando y practicando con los datos.
5. Realizar un análisis en profundidad. En una de las partes más importantes del proceso, cuando ya hemos explorado los datos, toca poner a prueba nuestros modelos, hacer predicciones y sacar conclusiones.
6. Comunicar los resultados. Aquí entran en juego medios de divulgación (como este propio documento) donde puedan darse a conocer las conclusiones y las soluciones a las que se llegó.
Caso de Estudio
1.- Librerías usadas (explicadas)
library(pacman) # librerias necesarias para este caso de estudio.
## Warning: package 'pacman' was built under R version 4.1.2
p_load(rmdformats,readr,readxl,ggplot2,DT, psych, GGally,xtable,corrplot)
Las primeras 3 ibrerias sirven para leer los archivos utilizados en este caso de estudio. Ggplot2: es para crear gráficos ‘declarativamente’, basado en “La gramática de los gráficos”. Proporcionaa los datos y le dice a ‘ggplot2’ cómo asignar variables a la estética, qué primitivas gráficas usar y se ocupa de los detalles. DT (data table): Basado en este paquete, puede filtrar, buscar y exportar datos a diferentes formatos fácilmente. psych: Útil para la entrada de datos básicos y análisis descriptivos, para obtener una lista de todas las funciones. GGally: Es un sistema de trazado basado en la gramática de los gráficos. ‘GGally’ amplía ‘ggplot2’ añadiendo varias funciones para reducir la complejidad de combinar objetos geométricos con datos transformados. xtable: Convierta un objeto R en un objeto xtable, que luego se puede imprimir como una tabla LaTeX o HTML. corrplot: Permite una visualización gráfica de una matriz de correlación, intervalo de confianza.
2.- Datos usados (Con su respectivo diccionario y fuentes)
library(readxl)
estres <- read_excel("Analisis_Estres_2021.xlsx") # Encuesta sobre la condición de estrés en Hermosillo y Ciudad Obregón.
sintomas <- read.csv("sintomas.csv")
View(estres)
Figura 1. Datos de una encuesta hecha durante las últimas dos semanas de noviembre sobre los niveles de estrés de la población de Hermosillo y Ciudad Obregón en Sonora, esta encuesta se le hizo a un total de 56 personas.
3.- Introducción (antecedentes)
Una publicación reciente de The Lancet (2021), diario médico británica, evidencia el efecto devastador que tuvo la pandemia en la salud mental en el continente americano; incluso hicieron la OPS hizo una petición para que se fortalezcan los servicios y se les dé prioridad en los planes de respuesta y recuperación.
Por supuesto que México ha sido uno de las víctimas de esta pandemia de trastornos y condiciones mentales, y no es de sorprender, ya que nuestro país cuenta con el primer puesto a nivel mundial como el país con más estrés laboral, esto es sostenido por un estudio realizado por la OCCMundial sobre el “Estrés laboral en México”, el cual indica que el estrés laboral en México aumento en un 20% de cómo se encontraba antes de la pandemia.
Esto enciende focos rojos, ya que el estrés y las condiciones emocionales y psicológica son algo que no se debe de tomar a la ligera, pueden ser la causa de accidentes, indiferencia apática o incluso suicidio, es por eso mismo que la OPS solicita que se tomen cartas en este asunto.
4.- Objetivos (general y particulares, planteamiento del problema)
Lo que se busca con este caso de estudio es detectar las causas que generan el estrés y cuál es la razón de esto, ya que son una infinidad de factores los que pueden propiciar esto, siendo los escenarios imaginarios los que generalmente provocan estrés.
Para llegar más profundo a la fenomenología del estrés también es importante entender como nos afecta en nuestra salud mental y física, ya que esta también pude generar consecuencias físicas en el largo plazo.
Una vez cubiertos los puntos anteriores donde nos topamos con el núcleo de este análisis de estrés, poder argumentar de manera lógica la estructura teórica del estrés y aún más importante, dar con las posibles soluciones para reducirlo de manera significativa. Además de responder si en realidad la pandemia y el confinamiento fueron un parteaguas en los niveles de estrés a nivel nacional o tal vez mundial, siendo el principio del fin de la normalidad como la conocíamos, dando paso a lo que ahora se denomina como nueva normalidad.
5.- Marco teórico (aquí explica acerca de su tema con fuentes)
El estrés ha sido un tema del que se escucha hablar cada vez más, debido a la fácil comunicación o al aumento de casos que existen en estos tiempos y las investigaciones que han estado realizando por el gran impacto que provoca en la salud física, mental, rendimiento laboral, académico y personal; afectando así la vida diaria de las personas.
Existen varias definiciones sobre el estrés, una de ellas es la de Melgosa (1997), señala que, debido a las alteraciones que el estrés provoca en la persona, se puede entender este concepto como: “un conjunto de reacciones fisiológicas y psicológicas que experimenta el organismo cuando se lo somete a fuertes demandas”.
Es decir que, es una respuesta natural del cuerpo que aparece cuando percibimos que nuestros recursos no son suficientes para afrontar los problemas, y cuando se produce una sobrecarga de tensión repercute en el organismo, provocando la aparición de enfermedades y anomalías patológicas que impiden el normal desarrollo y funcionamiento del cuerpo humano.
En toda situación estresante existen una serie de características comunes:
• Se genera una situación nueva que nos exige un cambio. • Al principio suele haber una gran falta de información sobre esa situación que nos estresa. • Incertidumbre: ¿qué nos va a ocurrir? • Ambigüedad: a mayor ambigüedad más estrés. • Normalmente tampoco tenemos muchas habilidades para manejar esta nueva situación. • El estrés nos provoca alteraciones biológicas en el organismo que nos obligan a trabajar aún más para volver a un estado de equilibrio. • Cuanto más dure la situación, cuanto más crónica sea ésta, mayor nuestro desgaste.
El estrés puede ser temporal o puede continuar a largo plazo, y afectar así las hormonas, el estado de ánimo, las enfermedades y todos los aspectos de tu salud y bienestar, por lo que, el impacto del estrés en la salud puede ser significativo tanto en el aspecto físico como en el emocional.
En consecuencias físicas se pueden ver afectados los sistemas endócrino, nervioso e inmunológico, lo cual conduce a enfermedades del corazón, vasos sanguíneos, riñones e incluso la muerte. Por mencionar algunos padecimientos se encuentra el acné, alopecia, dermatitis, colitis ulcerosa, estreñimiento, migrañas, náuseas, vómitos, temblores, trastorno esquizofrénico y menstruales, suicidio, insomnio, infarto al miocardio, epilepsia, diarrea, asma, entre otros.
Como consecuencias psicológicas entre los efectos negativos producidos por la activación reiterada de la respuesta de estrés estarían la preocupación excesiva, obsesiones, incapacidad para tomar decisiones, concentrarse y mantener la atención, frecuentes olvidos, bloqueos mentales, mal humor, adicción a drogas y alcohol, depresión, ansiedad, miedos y fobias, alteración de las conductas de alimentación, entre otras.
6.- Método (aquí explica cómo funcionan las técnicas y se desarrolla su aplicación)
Regresión Lineal
La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales, financieros y biológicos.
Se utiliza para predecir el valor de una variable según el valor de otra. La variable que desea predecir se denomina variable dependiente, la variable que está utilizando para predecir el valor de la otra variable se denomina variable independiente. Esta forma de análisis estima los coeficientes de la ecuación lineal, involucrando una o a más variables independientes que mejor predicen el valor de la variable dependiente, la regresión lineal se ajusta a una línea recta o a una superficie que minimiza las discrepancias entre los valores de salida previstos y reales.
Regresión Logística
Es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una variable cuantitativa. Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome la variable empleada como predictor. Por ejemplo, clasificar a un individuo desconocido como hombre o mujer en función del tamaño de la mandíbula.
Es importante tener en cuenta que, aunque la regresión logística permite clasificar, se trata de un modelo de regresión que modela el logaritmo de la probabilidad de pertenecer a cada grupo. La asignación final se hace en función de las probabilidades predichas. La regresión logística transforma el valor devuelto por la regresión lineal (β0+β1X) empleando una función cuyo resultado está siempre comprendido entre 0 y 1. Existen varias funciones que cumplen esta descripción, una de las más utilizadas es la función logística (también conocida como función sigmoide).
Regresión Lineal Múltiple
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores x1x2x3. Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última.
Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto). Para poder determinar qué impacto tienen en el modelo cada una de las variables, se emplean los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo.
7.- Resultados y discusión (las gráficas y tablas resultantes explicadas)
Regresion Linea
Matriz de diagramas de dispersion de los sintomas que dejo la pandemia en la salud mental de los sonorenses:
pairs.panels(sintomas)
Figura 2. En estadística, el coeficiente de correlación de Pearson es una medida de dependencia lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.
cor(sintomas)
## Dolores_musculares Angustia Incertidumbre Insomnio
## Dolores_musculares 1.00000000 0.3783591 0.3007115 0.2512535
## Angustia 0.37835911 1.0000000 0.7973415 0.5772838
## Incertidumbre 0.30071151 0.7973415 1.0000000 0.4761031
## Insomnio 0.25125353 0.5772838 0.4761031 1.0000000
## Dolor_cabeza 0.26306942 0.5469597 0.6076561 0.5184534
## Transtorno_Alimenticio 0.41663469 0.4835542 0.4673101 0.4871597
## Depresión 0.39483394 0.5874449 0.5342853 0.5067679
## Claustrofobia 0.30174567 0.4388256 0.4964639 0.2438232
## Tristeza 0.23136671 0.7047990 0.5851717 0.4979145
## Ansiedad 0.07675939 0.6300095 0.6280366 0.5006405
## Irritabilidad 0.33127508 0.6324644 0.5387593 0.5504878
## Impotencia 0.32356150 0.6652855 0.6461687 0.4997236
## Paranoia 0.27407605 0.5781183 0.6101572 0.2840175
## Dolor_cabeza Transtorno_Alimenticio Depresión
## Dolores_musculares 0.2630694 0.4166347 0.3948339
## Angustia 0.5469597 0.4835542 0.5874449
## Incertidumbre 0.6076561 0.4673101 0.5342853
## Insomnio 0.5184534 0.4871597 0.5067679
## Dolor_cabeza 1.0000000 0.6055618 0.5001010
## Transtorno_Alimenticio 0.6055618 1.0000000 0.6517516
## Depresión 0.5001010 0.6517516 1.0000000
## Claustrofobia 0.5309946 0.3177665 0.5008872
## Tristeza 0.5404270 0.5918640 0.7120418
## Ansiedad 0.6184117 0.4512844 0.5860952
## Irritabilidad 0.5023974 0.6638745 0.5970976
## Impotencia 0.6212191 0.6847273 0.6463794
## Paranoia 0.4817688 0.4159129 0.5717710
## Claustrofobia Tristeza Ansiedad Irritabilidad
## Dolores_musculares 0.3017457 0.2313667 0.07675939 0.3312751
## Angustia 0.4388256 0.7047990 0.63000951 0.6324644
## Incertidumbre 0.4964639 0.5851717 0.62803656 0.5387593
## Insomnio 0.2438232 0.4979145 0.50064048 0.5504878
## Dolor_cabeza 0.5309946 0.5404270 0.61841175 0.5023974
## Transtorno_Alimenticio 0.3177665 0.5918640 0.45128437 0.6638745
## Depresión 0.5008872 0.7120418 0.58609518 0.5970976
## Claustrofobia 1.0000000 0.4385055 0.48605603 0.3088536
## Tristeza 0.4385055 1.0000000 0.64101811 0.6941657
## Ansiedad 0.4860560 0.6410181 1.00000000 0.6304383
## Irritabilidad 0.3088536 0.6941657 0.63043830 1.0000000
## Impotencia 0.4916451 0.7484061 0.66143171 0.7605850
## Paranoia 0.5948369 0.5746567 0.54356654 0.4464650
## Impotencia Paranoia
## Dolores_musculares 0.3235615 0.2740760
## Angustia 0.6652855 0.5781183
## Incertidumbre 0.6461687 0.6101572
## Insomnio 0.4997236 0.2840175
## Dolor_cabeza 0.6212191 0.4817688
## Transtorno_Alimenticio 0.6847273 0.4159129
## Depresión 0.6463794 0.5717710
## Claustrofobia 0.4916451 0.5948369
## Tristeza 0.7484061 0.5746567
## Ansiedad 0.6614317 0.5435665
## Irritabilidad 0.7605850 0.4464650
## Impotencia 1.0000000 0.5251157
## Paranoia 0.5251157 1.0000000
Figura 3. Representación de la correlación que hay entre cada variable o síntoma mental. Se puede observar que hay una fuerte relación entre las variables de angustia e incertidumbre, siendo la correlación mas importante en el modelo, también la tristeza tiene una relación bastante notoria con variables como lo son la angustia, ansiedad, irritabilidad e impotencia.
- Cálculo y representación de la recta de mínimos cuadrados
regresion <- lm (Angustia ~ Incertidumbre, data = sintomas)
summary(regresion)
##
## Call:
## lm(formula = Angustia ~ Incertidumbre, data = sintomas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.1124 -0.4261 -0.1124 0.5739 1.7307
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.73987 0.32036 2.310 0.0248 *
## Incertidumbre 0.84313 0.08685 9.708 1.93e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8236 on 54 degrees of freedom
## Multiple R-squared: 0.6358, Adjusted R-squared: 0.629
## F-statistic: 94.25 on 1 and 54 DF, p-value: 1.929e-13
Figura 4. El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y), la cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresión Este objeto es una lista que contiene toda la información relevante sobre el análisis. Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ‘Estimate’ de la tabla ‘Coefficients’ de la salida anterior.
En este ejemplo la ecuación de la recta de mínimos cuadrados es:
\[ y = 0.73987 + 0.84313x \]
- Representacion de la recta de minimos cuadrados:
plot(sintomas$Angustia, sintomas$Incertidumbre, xlab="Angustia", ylab = "Incertidumbre")
abline(regresion)
Figura 5. El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. En este caso los datos se encuentran no están del todo dispersos en relación a la recta de mínimos cuadrados generada por el modelo de regresión, con unas cuantas excepciones que se alejan de la recta.
- Calculo de predicciones:
predict_Angustia <- data.frame(Angustia = seq(1,5), Incertidumbre = seq(1,5))
predict(regresion, predict_Angustia)
## 1 2 3 4 5
## 1.583002 2.426132 3.269261 4.112391 4.955520
- Intervalos de confianza
confint(regresion)
## 2.5 % 97.5 %
## (Intercept) 0.09759581 1.382150
## Incertidumbre 0.66901335 1.017246
Figura 6. Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict.
predict_Angustia <- data.frame(Angustia = seq(1,5), Incertidumbre = seq(1,5))
#Grafico de dispersion y recta
plot(sintomas$Angustia, sintomas$Incertidumbre, xlab="Angustia", ylab = "Incertidumbre")
abline(regresion)
#Intervalo de confianza de la respuesta media
# ic es una matriz con tres columnas: la prediccion, el limite inferior y el limite superior
ic <- predict(regresion, predict_Angustia, interval = 'confidence')
lines(predict_Angustia$Angustia, ic[, 2], lty = 2)
lines(predict_Angustia$Angustia, ic[, 3], lty = 2)
#Intervalo de prediccion
ic <- predict(regresion, predict_Angustia, interval = 'prediction')
lines(predict_Angustia$Angustia, ic[, 2], lty = 2, col = "green")
lines(predict_Angustia$Angustia, ic[, 3], lty = 2, col = "green")
Figura 7. Se calcula y representa los dos tipos de intervalos para el rango de angustia que van desde el 1 hasta el 5 (los de predicción en verde), los intervalos de confianza generalmente tienden a estar en cercanía a la recta de mínimos cuadrados.
Regresión lineal múltiple
Analizar la relación entre variables
round(cor(x = sintomas, method = "pearson"), 3)
## Dolores_musculares Angustia Incertidumbre Insomnio
## Dolores_musculares 1.000 0.378 0.301 0.251
## Angustia 0.378 1.000 0.797 0.577
## Incertidumbre 0.301 0.797 1.000 0.476
## Insomnio 0.251 0.577 0.476 1.000
## Dolor_cabeza 0.263 0.547 0.608 0.518
## Transtorno_Alimenticio 0.417 0.484 0.467 0.487
## Depresión 0.395 0.587 0.534 0.507
## Claustrofobia 0.302 0.439 0.496 0.244
## Tristeza 0.231 0.705 0.585 0.498
## Ansiedad 0.077 0.630 0.628 0.501
## Irritabilidad 0.331 0.632 0.539 0.550
## Impotencia 0.324 0.665 0.646 0.500
## Paranoia 0.274 0.578 0.610 0.284
## Dolor_cabeza Transtorno_Alimenticio Depresión
## Dolores_musculares 0.263 0.417 0.395
## Angustia 0.547 0.484 0.587
## Incertidumbre 0.608 0.467 0.534
## Insomnio 0.518 0.487 0.507
## Dolor_cabeza 1.000 0.606 0.500
## Transtorno_Alimenticio 0.606 1.000 0.652
## Depresión 0.500 0.652 1.000
## Claustrofobia 0.531 0.318 0.501
## Tristeza 0.540 0.592 0.712
## Ansiedad 0.618 0.451 0.586
## Irritabilidad 0.502 0.664 0.597
## Impotencia 0.621 0.685 0.646
## Paranoia 0.482 0.416 0.572
## Claustrofobia Tristeza Ansiedad Irritabilidad Impotencia
## Dolores_musculares 0.302 0.231 0.077 0.331 0.324
## Angustia 0.439 0.705 0.630 0.632 0.665
## Incertidumbre 0.496 0.585 0.628 0.539 0.646
## Insomnio 0.244 0.498 0.501 0.550 0.500
## Dolor_cabeza 0.531 0.540 0.618 0.502 0.621
## Transtorno_Alimenticio 0.318 0.592 0.451 0.664 0.685
## Depresión 0.501 0.712 0.586 0.597 0.646
## Claustrofobia 1.000 0.439 0.486 0.309 0.492
## Tristeza 0.439 1.000 0.641 0.694 0.748
## Ansiedad 0.486 0.641 1.000 0.630 0.661
## Irritabilidad 0.309 0.694 0.630 1.000 0.761
## Impotencia 0.492 0.748 0.661 0.761 1.000
## Paranoia 0.595 0.575 0.544 0.446 0.525
## Paranoia
## Dolores_musculares 0.274
## Angustia 0.578
## Incertidumbre 0.610
## Insomnio 0.284
## Dolor_cabeza 0.482
## Transtorno_Alimenticio 0.416
## Depresión 0.572
## Claustrofobia 0.595
## Tristeza 0.575
## Ansiedad 0.544
## Irritabilidad 0.446
## Impotencia 0.525
## Paranoia 1.000
Figura 8. A la hora de establecer un modelo lineal múltiple se debe de estudiar la relación que existe entre variables. Esta información es crítica a la hora de identificar cuáles pueden ser los mejores predictores para el modelo, qué variables presentan relaciones de tipo no lineal (por lo que no pueden ser incluidas) y para identificar colinialidad entre predictores.
Análisis con histogramas
multi.hist( x = sintomas, dcol = c("blue","red"), dlty = c("dotted", "solid"), main = "")
Figura 9. Visualización grafica de la relación entre las variables de los síntomas mentales.
Representacion de relacion utilizando ggplot y ggally
ggpairs(sintomas, lower = list(continuous ="smooth"), diag = list (continuos = "barDiag"), axisLabels = "none")
Figura 10. Representación gráfica de la correlación entre las variables.
Entonces, de los análisis realizados hasta el momento, podemos obtener las siguientes conclusiones preliminares:
Las variables que tienen una mayor relación lineal con la depresion son: tristeza (r= 0.71), transtorno alimenticio (r= 0.65) y impotencia (r= 0.64).
Incertidumbre y Angustia están medianamente correlacionados (r = 0.797) por lo que posiblemente no sea útil introducir ambos predictores en el modelo.
Generar el modelo
modelo <- lm(Depresión ~ Tristeza, data=sintomas)
summary(sintomas)
## Dolores_musculares Angustia Incertidumbre Insomnio
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.750 1st Qu.:2.000 1st Qu.:3.000
## Median :3.000 Median :4.000 Median :4.000 Median :4.000
## Mean :3.036 Mean :3.661 Mean :3.464 Mean :3.607
## 3rd Qu.:4.000 3rd Qu.:5.000 3rd Qu.:4.250 3rd Qu.:5.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## Dolor_cabeza Transtorno_Alimenticio Depresión Claustrofobia
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.750 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:1.000
## Median :4.000 Median :4.000 Median :3.000 Median :2.000
## Mean :3.446 Mean :3.286 Mean :3.036 Mean :2.304
## 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:3.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## Tristeza Ansiedad Irritabilidad Impotencia
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:3.000 1st Qu.:2.750 1st Qu.:2.000
## Median :3.000 Median :4.000 Median :4.000 Median :4.000
## Mean :3.196 Mean :3.732 Mean :3.482 Mean :3.429
## 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## Paranoia
## Min. :1.000
## 1st Qu.:1.000
## Median :2.000
## Mean :2.625
## 3rd Qu.:4.000
## Max. :5.000
Figura 11. Modelo de regresión, análisis de varianza de estrato único y análisis de covarianza de cada variable de los síntomas de estrés.
Evaluando gráficamente el modelo
plot(sintomas$Depresión, sintomas$Tristeza)
abline(modelo)
Figura 12. Modelos grafico de la entre la depresión y la tristeza.
Múltiples predictores
modelo2 <- (lm(formula = Depresión ~ Angustia + Incertidumbre + Tristeza + Ansiedad, data = sintomas))
summary(modelo2)
##
## Call:
## lm(formula = Depresión ~ Angustia + Incertidumbre + Tristeza +
## Ansiedad, data = sintomas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.3310 -0.5407 0.0006 0.5592 2.3576
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.06165 0.46844 -0.132 0.89581
## Angustia 0.04873 0.20945 0.233 0.81696
## Incertidumbre 0.10978 0.20038 0.548 0.58616
## Tristeza 0.58320 0.15985 3.648 0.00062 ***
## Ansiedad 0.18073 0.14475 1.249 0.21755
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.104 on 51 degrees of freedom
## Multiple R-squared: 0.543, Adjusted R-squared: 0.5072
## F-statistic: 15.15 on 4 and 51 DF, p-value: 3.155e-08
Figura 13. Modelo de múltiples predictores que arroja los valores residuales y los coeficientes que tiene cada variable.
Prueba de Breusch-Pagan
corrplot(cor(dplyr::select(sintomas, Depresión, Angustia, Incertidumbre, Tristeza)), method = "number", tl.col = "black")
Figura 14. Grafica que determinar la heterocedasticidad del modelo de regresión lineal, analiza si las varianzas estimadas de los residuos de una regresión dependen de los valores de las variables independientes.
Intervalo de confianza para cada uno de los coeficientes parciales de regresión:
confint(lm(formula = Depresión ~ Angustia + Incertidumbre + Tristeza + Ansiedad, data = sintomas))
## 2.5 % 97.5 %
## (Intercept) -1.0020747 0.8787705
## Angustia -0.3717674 0.4692268
## Incertidumbre -0.2924913 0.5120601
## Tristeza 0.2622947 0.9041053
## Ansiedad -0.1098793 0.4713335
Figura 15. Valores de los intervalos de confianza del modelo según las variables.
Cada una de las pendientes de un modelo de regresión lineal múltiple (coeficientes parciales de regresión de los predictores) se define del siguiente modo: Si el resto de variables se mantienen constantes, por cada unidad que aumenta el predictor en cuestión, la variable (Y) varía en promedio tantas unidades como indica la pendiente.
Distribución normal de los residuos:
qqnorm(regresion$residuals)
qqline(regresion$residuals)
Figura 16. Grafica Q-Q Plot para comparar las distribuciones de probabilidad al trazar sus cuantiles uno contra el otro, lo ideal es que los puntos se acerquen a una recta diagonal, lo cual sucede en con este modelo.
Prueba de shapiro wilk para determinar normalidad
shapiro.test(regresion$residuals)
##
## Shapiro-Wilk normality test
##
## data: regresion$residuals
## W = 0.94665, p-value = 0.0151
Figura 17. Esta prueba es aplicable cuando se analizan muestras compuestas por menos de 50 elementos, en otras palabras, muestras pequeñas. Como el p valor (0.0151) es menor a alfa (0,05), se rechaza la hipótesis nula (H0), por lo tanto, la regresión no presenta un comportamiento normal o paramétrico.
ggplot(data = sintomas, aes(regresion$fitted.values, regresion$residuals)) +
geom_point() +
geom_smooth(color = "firebrick", se = FALSE) +
geom_hline(yintercept = 0) +
theme_bw()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Figura 18. Modelo grafico de regresión lineal múltiple.
Regresión logística
La idea es ajustar por medio de la regresión logística, un modelo de regresión logística para estudiar la posible relación entre variables, para ajustar el modelo se usa el comando glm (para modelos lineales generalizados) indicando que la respuesta es binomial mediante el argumento family.
regresion_log<- glm(Depresión ~ Tristeza , data=sintomas)
summary(regresion_log)
##
## Call:
## glm(formula = Depresión ~ Tristeza, data = sintomas)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.4709 -0.6751 -0.0837 0.5291 2.9163
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.4922 0.3724 1.322 0.192
## Tristeza 0.7957 0.1068 7.452 7.6e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 1.240969)
##
## Null deviance: 135.929 on 55 degrees of freedom
## Residual deviance: 67.012 on 54 degrees of freedom
## AIC: 174.97
##
## Number of Fisher Scoring iterations: 2
Figura 19. Ajuste del modelo lineal generalizados, este genera una descripción simbólica del predictor lineal y una descripción de la distribución de errores, en este caso entre las variables de depresión y tristeza del modelo.
Predicción para valores nuevos con el modelo ajustado
datos_nuevos <-data.frame(Depresión = seq(1,4), Tristeza = seq(1,4))
probabilidades_nuevas <- predict(regresion_log, datos_nuevos, type="response")
colores <- NULL
colores[sintomas$Depresión == 0] <- "green"
colores[sintomas$Depresión == 1] <- "red"
plot(sintomas$Depresión, sintomas$Tristeza, pch=21, bg= colores, xlab = "Depresión", ylab = "Tristeza")
legend("bottomleft", c("Relacionado", "No Relacionado"), pch=21, col = c("black", "red"))
lines(datos_nuevos$Depresión, probabilidades_nuevas, col ="blue", lwd= 3)
Figura 20. Grafica de predicción con nuevos datos. La recta sigue la misma tendencia que ya venía marcando anteriormente.
Conclusión:
Con todo lo mostrado, queda demostrada la relación entre el estres en el caso del provocado por Covid y otra clase de problemas que pueden ser más graves. Por lo tanto, la salud mental es importante en la vida de las personas, y si bien, el reducir las prevenciones puede afectar la salud fisica de la población negativamente, puede afectar a la salud mental positivamente, lo cuál también hay que tener en cuenta.
8.- Bibliografía
o Caparrini, F. S., & Windmill Web Work. (2020). Aprendizaje Supervisado y No Supervisado. Cs.Us.Es. http://www.cs.us.es/~fsancho/?e=77
o Suarez, A. (s.f.). Diferencias entre el Machine Learning supervisado y no supervisado. Bismart.com. http://blog.bismart.com/diferencias-machine-learning-supervisado-no-supervisado
o Naranjo P., M. (2009). Una Revisión Teórica sobre el Estrés y Algunos Aspectos Relevantes de Este en el Ámbito Educativo. Revista Educación, 33(2),171-190. Disponible en: https://www.redalyc.org/articulo.oa?id=44012058011 o Regueiro, A. (s.f.). Conceptos Básicos: ¿Qué es el Estrés y Cómo nos Afecta? Disponible en: https://www.uma.es/media/files/tallerestr%C3%A9s.pdf
o Persum Psicólogos Oviedo. (2018). Consecuencias del estrés. Disponible en: https://psicologosoviedo.com/especialidades/problemas-laborales/estres-negativo/
o Goldstein, A. (2017). Deconstructing Data Science: Breaking The Complex Craft Into Its Simplest Parts. Disponible en: https://ajgoldstein.com/2017/11/12/deconstructing-data-science/
o IBM. (s. f.). Acerca de la regresión lineal. México | IBM. Recuperado 6 de abril de 2022, de https://www.ibm.com/mx-es/analytics/learn/linear-regression
o Manuel Sánchez, J. (2010). Estrés laboral. Binasss. Recuperado 6 de abril de 2022, de https://www.binasss.sa.cr/opac-ms/media/digitales/Estr%C3%A9s%20laboral.pdf
o Rodrigo, J. A. (2016, julio). Introducción a la Regresión Lineal Múltiple. Ciencia de Datos. Recuperado 6 de abril de 2022, de https://www.cienciadedatos.net/documentos/25_regresion_lineal_multiple
o The Lancet. (2021, 15 noviembre). Strengthening mental health responses to COVID-19. The Lancet Regional Health Americas. Recuperado 6 de abril de 2022, de https://secure.jbs.elsevierhealth.com/action/cookieAbsent
9.- Descarga de código y datos
Descarga este código:
xfun::embed_file("EU1_Estres.Rmd")
Descarga los datos utilizados en este caso:
xfun::embed_file("Analisis_Estres_2021.xlsx")
Download Analisis_Estres_2021.xlsx
xfun::embed_file("sintomas.csv")