Series de Tiempo
Introducción
Este trabajo se centra en analizar la evolución de la tasa de suicidios en España entre los años 1970 y 2022, con el objetivo de comprender su dinámica y estimar su comportamiento en años posteriores. La variable respuesta es la tasa de suicidios y se parte de la premisa de que su evolución está fuertemente influenciada por diversos factores socioeconómicos, demográficos y de salud pública. Para ello, se emplea un modelo de regresión lineal multivariable, considerando como variables explicativas los siguientes indicadores:
T_d: Tasa de desempleo (% de la población activa sin empleo).
Con_Alh: Consumo de alcohol per cápita (litros por persona al año).
P_solas: Porcentaje de población que vive sola.
N_psi: Número de psiquiatras por cada 100 mil habitantes.
N_Dvo: Número de divorcios registrados por año.
N_fec: Tasa de fecundidad (número promedio de hijos por mujer).
Estas variables permiten capturar distintos aspectos del entorno que pueden incidir directa o indirectamente en el bienestar psicológico de la población, como el aislamiento social, el estrés económico, el acceso a servicios de salud mental o los cambios en las estructuras familiares.
Además de la regresión lineal, el análisis incluye la aplicación de modelos ARIMA y la prueba de raíz unitaria ADF (Augmented Dickey-Fuller). Estas herramientas son esenciales para el estudio de series temporales, ya que permiten evaluar si la serie es estacionaria, es decir, si sus propiedades estadísticas (media, varianza, autocorrelación) se mantienen constantes a lo largo del tiempo. Verificar esta condición es crucial para garantizar la validez de los modelos aplicados y mejorar la precisión de las predicciones.
Con este enfoque, se busca no solo comprender los factores asociados al suicidio en el pasado, sino también anticipar su comportamiento futuro, aportando información útil para el diseño de políticas de prevención más efectivas y fundamentadas en datos.
Metodología
Una serie de tiempo es un conjunto de datos recogidos en momentos sucesivos, ordenados cronológicamente. Por ejemplo, el registro de la temperatura diaria, el precio mensual de un producto o las ventas anuales de una empresa. Su objetivo es analizar cómo cambian los datos a lo largo del tiempo para identificar patrones, tendencias y hacer predicciones.
Posteriormente a la explicación de que es una serie de tiempo tenemos los datos recogidos sobre las variables ya mencionadas y asi mismo de sus diferentes valores con respecto al tiempo sobre los cuales se haran especulaciones de que sucedio en esos años y como eso afectará a la tasa de suicidio en ese periodo de tiempo.
Supuestos necesarios para la modelación lineal en datos temporales: - 1.Estacionariedad: La media, la varianza y la estructura de correlación del proceso no cambian con el tiempo. A Continuación se muestra la serie de tiempo correspondientes a la tasa de suicidios:
Al observar la serie original, se aprecia una clara tendencia creciente desde principios de los años 80 hasta mediados de los 90, donde la tasa de suicidio en España aumentó notablemente. A partir de entonces, la serie muestra fluctuaciones moderadas, con periodos de estabilidad relativa, aunque con algunas subidas y bajadas. En general, la evolución de la serie sugiere que no es estacionaria, ya que exhibe una tendencia estructural en el tiempo. No se identifican patrones de estacionalidad clara, pero sí se observa un comportamiento cíclico suave.
Debido que al probar este supuesto mediante pruebas de hipótesis de Dickey-Fuller aumentada (ADF) encontramos que el p-value de la prueba fue de 0.7 > 0.05 encontramos que esta definitivamente no es estacionaria, se requirió diferenciarla para poder ajustarla a un modelo ARIMA el cual presupone estacionariedad.
Por medio de un gráfico de autocorrelación (ACF) de la serie original de la tasa de suicidio muestra un claro patrón de autocorrelación positiva, especialmente en los primeros lags. El valor del primer rezago es cercano a 1, y las autocorrelaciones decrecen lentamente a medida que el número de lags aumenta. Este comportamiento es característico de una serie no estacionaria, lo que confirma los resultados de la prueba ADF. La presencia de autocorrelaciones significativas a lo largo del tiempo sugiere una estructura dependiente y refuerza la necesidad de aplicar diferenciación a la serie para poder ajustarla a un modelo ARIMA.
Luego de aplicar la primera diferenciación a la serie original de la tasa de suicidio en España (1970–2022), se observa un comportamiento más estable y aleatorio en el gráfico. Las fluctuaciones se centran alrededor del valor cero y mantienen una variación relativamente constante en el tiempo.
Tras realizar la primera diferenciación de la serie, se analizaron las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) para determinar la estructura temporal del modelo ARIMA.
En la ACF, solo el primer rezago es significativamente distinto de cero, lo que sugiere la presencia de un componente de media móvil de orden 1 (MA(1)). En la PACF, el único rezago significativo es también el primero, lo cual indica un posible componente autorregresivo de orden 1 (AR(1)).
En este contexto, un componente AR(1) (Autorregresivo de orden 1) significa que el valor actual de la serie depende linealmente del valor anterior. Por otro lado, un componente MA(1) (Media Móvil de orden 1) implica que el valor actual está influenciado por el error aleatorio ocurrido en el periodo anterior.
Estos resultados orientan hacia un modelo ARIMA(1,1,1) como estructura inicial razonable para ajustar la serie diferenciada de la tasa de suicidio cumpliendo asi el supuesto de estacionariedad.
No autocorrelación en los residuos: Los errores del modelo no deben estar correlacionados entre sí. Si hay autocorrelación, el modelo lineal puede no ser adecuado.
Linealidad: Se asume que hay una relación lineal entre la variable dependiente y las variables explicativas.
Normalidad de los residuos: Los errores del modelo deben seguir una distribución normal (especialmente importante para construir intervalos de confianza y realizar pruebas de hipótesis).
Homocedasticidad: La varianza de los errores debe ser constante a lo largo del tiempo.
Implementar un modelo ARIMA no garantiza automáticamente que se cumplan todos los supuestos del modelo estadístico, como los ya mencionados (autocorrelación, linealidad, normalidad y homocedasticidad). Estos supuestos deben ser verificados explícitamente tras ajustar el modelo, cosa que haremos más adelante.
Descripción de las Variables
R² ajustado = 0.9494 → El modelo explica aproximadamente el 95% de la variabilidad en la tasa de suicidio. Esto indica un modelo muy fuerte en términos explicativos.
Error estándar residual: 0.3554 → Indica qué tanto se desvían, en promedio, los valores predichos de los valores observados.
F-statistic: 163.5 con p-value < 2.2e-16 → El modelo es globalmente significativo; al menos una de las variables independientes tiene un efecto significativo en la tasa de suicidio.
Del modelo podemos concluir que: - La tasa de fecundidad tiene el efecto más fuerte y significativo: a mayor fecundidad, menor tasa de suicidios. Esto podría estar relacionado con dinámicas familiares, vínculos afectivos o estabilidad emocional.
El consumo de alcohol y vivir solo tienen efectos negativos en la tasa de suicidio, es decir, según este modelo, disminuyen la tasa, lo cual puede ser contraintuitivo, especialmente en el caso del alcohol. Esto sugiere que podrían existir variables ocultas o que el alcohol se relaciona con otros factores culturales.
Más psiquiatras → más suicidios, pero esto no implica causalidad. Podría reflejar que en regiones con más suicidios se destinan más recursos en salud mental.
El desempleo y los divorcios no son estadísticamente significativos en este modelo. Es decir, no se puede afirmar que tengan un impacto claro sobre la tasa de suicidio en estos datos.
Las variables consideradas relevantes para la explicacion de la evolución de la tasa de suicidio en España entre 1970 y 2022, identificando su relación con variables socioeconómicas y demográficas son las siguientes:
Tasa de desempleo (T_D)
El desempleo es uno de los factores más estrechamente vinculados con la salud mental y el bienestar individual. Altas tasas de desempleo pueden generar estrés, inseguridad económica y pérdida de propósito, aumentando el riesgo de suicidio. En España, especialmente durante las crisis económicas (como la de 2008), se ha observado una relación entre el desempleo y un aumento en los casos de suicidio asimismo como en 2012, año en que se vivió un pico de suicidios en España, coincidiendo con el pico de la crisis hipotecaria y el aumento masivo de desahucios, acompañados de pérdidas de empleo y recortes sociales y en 2013 hubo un incremento del 9% respecto a 2012; los análisis vinculan este aumento con factores económicos como el desempleo y los embargos .
Tasa de fecundidad (tasa_fec)
La tasa de fecundidad refleja la dinámica familiar y social. Disminuciones sostenidas pueden estar relacionadas con transformaciones culturales, mayor individualismo y menor cohesión familiar, factores que en algunos contextos pueden aumentar el aislamiento social un ejemplo especifico es la legalización del matrimonio homosexual en el año 2005 lo cual generó una visibilidad de nuevos modelos familiares y más opciones de vida independiente en los que no fuera necesario tener hijos para ser una “familia feliz”.
Consumo de Alcohol Per Cápita (Con_Alh)
El consumo de alcohol per cápita es una variable que refleja los hábitos sociales y de salud de una población. Un alto consumo de alcohol se ha asociado frecuentemente con trastornos de salud mental, como la depresión, así como con conductas de riesgo. Entre 1970 y 2022, un aumento en el consumo podría haber contribuido a un incremento en las tasas de suicidio, especialmente en contextos de aislamiento o crisis económica, donde el alcohol puede actuar como un mecanismo de escape. A la vez, cambios en las políticas públicas y campañas de concientización también pueden haber modificado esta relación a lo largo del tiempo como lo hizo el confinamiento obligatorio de la pandemia vivida.
Porcentaje de Personas que Viven Solas (P_solas)
El porcentaje de personas que viven solas es una variable demográfica que puede estar relacionada con niveles más altos de soledad, aislamiento social y falta de redes de apoyo, factores que inciden directamente en la salud mental. Entre 1970 y 2022, el crecimiento de este fenómeno en España, asociado al envejecimiento poblacional, cambios culturales y en la estructura familiar, puede haber influido negativamente en la tasa de suicidios, especialmente en personas mayores.
Número de Psiquiatras por Cada 100.000 Habitantes (N_psi)
El número de psiquiatras por cada 100.000 habitantes refleja el nivel de acceso a atención especializada en salud mental. Un mayor número de psiquiatras puede estar relacionado con una mejor detección, tratamiento y prevención de trastornos mentales, lo que podría reducir las tasas de suicidio. Esta variable es clave para entender si el sistema de salud ha mejorado su capacidad de respuesta a lo largo de los años y cómo eso ha impactado en la evolución del suicidio en España, es algo comico el echo de que no hubiera una tasa alta de suicidio en el tiempo en el que la salud mental no era considerada algo relevante (1970-1982) pero despues de que existiera la reforma de psiquiatria en 1983 es como si la gente pudiera darse el lujo de sentirse mas propenso a caer en pensamientos intrusivos y dejar que los consuman aunque la cantidad de profesionales tambien haya aumentado con el tiempo.
Cantidad de Divorcios Registrados por Año(N_Dvo)
El número de divorcios es una variable mixta, con componentes tanto demográficos como socioeconómicos. El divorcio, especialmente cuando implica conflictos familiares o pérdida de estabilidad emocional y económica, puede ser un factor de estrés significativo. Entre 1970 y 2022, el aumento de divorcios en España, junto con la liberalización de las leyes que lo regulan, puede haber tenido un efecto sobre la salud mental de las personas afectadas, particularmente en contextos de poca red de apoyo o dificultades económicas, esta variable presenta también una curiosa particularidad y es que no tiene datos anteriores del año 1983 ya que no estaba aprobado el divorcio y podríamos ingenuamente suponer que las personas se empezaron a separar luego de legalizarlo y concluir metaforicamente hablando de que las personas si se mueren por amor.
Resultados principales
Parte de crear un modelo predictivo es demostrar que funciona así que se optó por dividir en dos grupos los datos obtenidos para así con un grupo de testeo de años equivalente al primer 80% se pudiera predecir el comportamiento del 20% de los años restantes.
Aunque el análisis exploratorio inicial sugería un modelo ARIMA(1,1,1) tras diferenciar la serie, el modelo ARIMA ajustado con variables explicativas externas fue seleccionado automáticamente como ARIMA(1,0,0). Esto se debe a que la inclusión de regresores absorbió parte de la estructura no estacionaria de la serie, permitiendo modelar sin necesidad de diferenciación adicional.
Se ajustó un modelo ARIMAX(1,0,0) para predecir la tasa de suicidio en España, utilizando como variables explicativas factores sociales como la tasa de fecundidad, consumo de alcohol, porcentaje de población que vive sola, psiquiatras por cada 100 mil habitantes, tasa de desempleo y número de divorcios. El modelo incluye un componente autorregresivo de orden 1, lo que indica una dependencia del valor actual con el del año anterior y a continuación tenemos los resultados.
En resumidas palabras el coeficiente autorregresivo (ar1 = 0.56) refleja una persistencia moderada en el comportamiento temporal. Entre las variables explicativas, la tasa de fecundidad mostró la mayor influencia negativa sobre la tasa de suicidios, mientras que el resto de variables presentaron efectos más leves o ambiguos. El error medio absoluto fue bajo (MAE ≈ 0.23) y el porcentaje de error medio absoluto (MAPE ≈ 3.65%) sugiere un modelo con buena capacidad predictiva. Además, los residuos del modelo no presentan autocorrelación significativa (ACF1 ≈ 0.09) cumpliendo así el 2do supuesto de un modelo de regresión lineal multivariado, lo cual indica un buen ajuste general del modelo a los datos.
Profundizando en el diagnóstico de los residuos del modelo generamos la siguiente imagen:
En el Gráfico 1: Serie de residuos a lo largo del tiempo (arriba): La línea oscila alrededor de 0, sin una tendencia evidente y no se observan patrones cíclicos fuertes ni cambios abruptos en la varianza esto sugiere que los residuos se comportan como ruido blanco, lo cual es deseable.
En el Gráfico 2: ACF de los residuos (abajo izquierda): Casi todos los lags están dentro de las bandas de confianza (líneas azules) evidenciando que no hay autocorrelaciones significativas indicando que el modelo explica bien la dependencia temporal de la serie.
En el Gráfico 3: Histograma de residuos con curva normal (abajo derecha): La forma del histograma es aproximadamente simétrica, y la curva roja (distribución normal teórica) se ajusta bastante bien es correcto decir que se observan pequeñas desviaciones, pero nada grave ya que para fines de predicción, esto es suficiente. Si fuera para hacer inferencia estadística más rigurosa, se podría hacer una prueba de normalidad (como Shapiro-Wilk).
El análisis de los residuos del modelo ARIMA(1,0,0) indica un comportamiento adecuado: no presentan autocorrelación significativa, están centrados en torno a cero y muestran una distribución aproximadamente normal. Esto sugiere que el modelo cumple con los supuestos de independencia, homocedasticidad y normalidad, al menos de forma aproximada.
Por tanto, el modelo puede considerarse confiable para propósitos de predicción y análisis explicativo.
Una vez comprobada la buena capacidad del modelo para predecir he aquí el gráfico comparativo de predicción (franja con distintos tipos de tonalidad de azul) y el observado (linea roja).
El modelo ARIMA(1,0,0) fue entrenado con datos desde 1970 hasta 2011 y validado sobre el periodo 2012–2022. En el gráfico se observa que la mayoría de los valores reales (línea roja) se mantienen dentro del intervalo de confianza del 95% de las predicciones (área azul). Esto indica que el modelo presenta un buen ajuste y capacidad predictiva, logrando captar la tendencia general y las variaciones de la tasa de suicidio durante la última década. Aunque se evidencian leves diferencias puntuales entre lo predicho y lo observado, estas no comprometen la fiabilidad del modelo, ya que se mantienen dentro de un margen aceptable de error. Las bandas de predicción se amplían hacia los años más recientes, lo cual refleja una mayor incertidumbre inherente a las proyecciones a largo plazo, pero aún así el modelo se comporta de manera estable.
No dejando de lado la curiosidad, el equipo de estudio decidió darle un vistazo a lo que consideramos valores atípicos de predicción, nos referimos a unos años en los que los valores observados fueron lo más alejados posible de la línea de predicción.
En los años marcados con círculos rojos (2012–2013 y 2020–2021), la tasa observada de suicidios se aleja notablemente del comportamiento predicho por el modelo. En 2012–2013, este incremento se asocia claramente con la crisis económica española, caracterizada por estallidos hipotecarios y una ola de desahucios que impactó fuertemente en la salud mental de la población. asimismo, durante 2020–2021, la pandemia de COVID-19 provocó un repunte significativo (entre un 7% y 9%), con un aumento histórico de casos, especialmente entre mujeres y adultos de mediana edad.
Conclusiones
A lo largo del periodo 1970–2022, la tasa de suicidios en España muestra una tendencia general creciente, especialmente marcada desde inicios de los años 80 hasta finales de los 90. Esta evolución sugiere que, más allá de eventos puntuales, existen transformaciones sociales, culturales o económicas que han sostenido un incremento estructural en las tasas, lo cual justifica la necesidad de modelar la serie con técnicas que capten dicha tendencia.
Los valores atípicos de predicción resaltan que aunque el modelo ARIMA capta bien la tendencia general, no puede anticipar choques sociales o sanitarios inesperados. Esto subraya la necesidad de incluir variables que reflejen crisis socioeconómicas o de salud pública para mejorar la capacidad predictiva ante situaciones extraordinarias.
El modelo ARIMA evidencia que variables como el consumo de alcohol per cápita, el porcentaje de población que vive sola y la tasa de fecundidad tienen un efecto estadísticamente significativo sobre la tasa de suicidios. Esto demuestra que el fenómeno no puede entenderse únicamente como una evolución temporal, sino que está altamente influenciado por determinantes sociales y demográficos, por lo que es clave integrar estos factores en cualquier análisis predictivo o de políticas públicas.
El análisis de los residuos muestra que el modelo ajustado cumple con los supuestos básicos de independencia y homocedasticidad, sin autocorrelación significativa. Esto indica que el modelo explica adecuadamente la estructura temporal de la serie y que los errores son aleatorios, lo cual valida su uso tanto para fines explicativos como predictivos dentro de un rango razonable de años.
Bibliografía
Our world in data https://ourworldindata.org/energy-production-consumption
Banco mundial https://www.bancomundial.org/ext/es/home
Visualización de datos en R https://www.joaquibarandica.com/post/datavizr/
Página web Joaqui Barandica http://www.joaquibarandica.com