Tasa de suicidio a nivel mundial entre 1985 y 2016

Zharick S. Molina

Introducción

El análisis de datos faltantes es un paso crucial en cualquier estudio de datos, especialmente cuando se busca identificar patrones en fenómenos complejos como el aumento de las tasas de suicidio a nivel mundial. Este trabajo se centra en un conjunto de datos compuesto por 27.820 observaciones, que ofrecen información socioeconómica y demográfica de diversos países. Dicho conjunto de datos fue creado con el objetivo de encontrar señales correlacionadas con el aumento de las tasas de suicidio. El análisis propuesto busca evaluar la calidad de los datos disponibles, identificar posibles patrones en los datos faltantes y proponer técnicas adecuadas para su manejo.

Exploración de datos

A continuación se presentan las variables del conjunto de datos junto a su descripción.

Variable Descripción Tipo de variable
suicides/100k suicidios por cada 100 mil habitantes (tasas de suicidio) Cuantitativa
country país Cualitativa
year año Cuantitativa
sex género (male, female) Cualitativa
age edad (grupo de edad) Cualitativa
suicides_no número de suicidios Cuantitativa
population población Cuantitativa
country-year clave compuesta país-año Cualitativa
HBI índice de desarrollo humano (IDH) por año Cuantitativa
gdp_for_year ($) producto interno bruto (PIB) por año Cuantitativa
gdp_per_capita producto interno bruto per capita Cuantitativa
generation generación Cualitativa
summary(Data)
##    country               year          sex                age           
##  Length:27820       Min.   :1985   Length:27820       Length:27820      
##  Class :character   1st Qu.:1995   Class :character   Class :character  
##  Mode  :character   Median :2002   Mode  :character   Mode  :character  
##                     Mean   :2001                                        
##                     3rd Qu.:2008                                        
##                     Max.   :2016                                        
##                                                                         
##   suicides_no        population       suicides/100k pop country-year      
##  Min.   :    0.0   Min.   :     278   Min.   :  0.00    Length:27820      
##  1st Qu.:    3.0   1st Qu.:   97498   1st Qu.:  0.92    Class :character  
##  Median :   25.0   Median :  430150   Median :  5.99    Mode  :character  
##  Mean   :  242.6   Mean   : 1844794   Mean   : 12.82                      
##  3rd Qu.:  131.0   3rd Qu.: 1486143   3rd Qu.: 16.62                      
##  Max.   :22338.0   Max.   :43805214   Max.   :224.97                      
##                                                                           
##   HDI for year   gdp_for_year ($)    gdp_per_capita ($)  generation       
##  Min.   :0.483   Min.   :4.692e+07   Min.   :   251     Length:27820      
##  1st Qu.:0.713   1st Qu.:8.985e+09   1st Qu.:  3447     Class :character  
##  Median :0.779   Median :4.811e+10   Median :  9372     Mode  :character  
##  Mean   :0.777   Mean   :4.456e+11   Mean   : 16866                       
##  3rd Qu.:0.855   3rd Qu.:2.602e+11   3rd Qu.: 24874                       
##  Max.   :0.944   Max.   :1.812e+13   Max.   :126352                       
##  NA's   :19456

Analicemos las características de cada una de las variables de forma individual.

summary(Data$year)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1985    1995    2002    2001    2008    2016
summary(Data$suicides_no)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     3.0    25.0   242.6   131.0 22338.0
summary(Data$population)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      278    97498   430150  1844794  1486143 43805214
summary(Data$`suicides/100k pop`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.92    5.99   12.82   16.62  224.97
summary(Data$`HDI for year`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.483   0.713   0.779   0.777   0.855   0.944   19456
summary(Data$`gdp_for_year ($)`)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 4.692e+07 8.985e+09 4.811e+10 4.456e+11 2.602e+11 1.812e+13
summary(Data$`gdp_per_capita ($)`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     251    3447    9372   16866   24874  126352
table(Data$sex)
## 
## female   male 
##  13910  13910
table(Data$age)
## 
## 15-24 years 25-34 years 35-54 years  5-14 years 55-74 years   75+ years 
##        4642        4642        4642        4610        4642        4642
table(Data$generation)
## 
##         Boomers G.I. Generation    Generation X    Generation Z      Millenials 
##            4990            2744            6408            1470            5844 
##          Silent 
##            6364

Nótese que las variables “country” y “country-year” no fueron incluidas debido a la cantidad de categorías existentes en estas variables.

Identificación de valores faltantes (NA)

Los gráficos anteriores revelan que la variable “HDI for year” presenta un 70% de datos faltantes, mientras que las demás variables tienen valores completos. El análisis del patrón de ausencia confirma que la falta de datos se concentra únicamente en esta variable, sin afectar a las demás. Esto sugiere que el problema de datos faltantes es sistemático para “HDI for year” y debe abordarse cuidadosamente. Dependiendo de la importancia de esta variable para el análisis global, podrían considerarse estrategias como la imputación de datos, la exclusión de la variable o un análisis segmentado. Ignorar estos datos faltantes podría distorsionar los resultados, especialmente en estudios donde el Índice de Desarrollo Humano es clave.

Los gráficos adicionales confirman que la variable “HDI for year” es la única con un 70% de datos faltantes, mientras que las demás están completas. El primer gráfico muestra cómo esta variable domina en términos de valores ausentes, y el segundo gráfico revela que la ausencia es consistente y sistemática (y no aleatoria). Esto refuerza la necesidad de un manejo específico de esta variable, ya sea mediante imputación, exclusión o un análisis segmentado, según su relevancia en el estudio.

Análisis de la variable HDI (Índice de Desarrollo Humano)

A partir del histograma y el QQ-plot, se puede concluir que la variable “HDI for year” no sigue una distribución normal. El histograma muestra una distribución sesgada, con una mayor concentración de valores entre 0.7 y 0.9, lo que indica una asimetría positiva. No tiene la forma clásica de campana que caracteriza a una distribución normal. En el QQ-plot, se observa que los puntos se desvían significativamente de la línea de referencia, especialmente en los extremos (colas). Esto sugiere que la variable tiene una distribución que difiere de la normal, probablemente con colas más pesadas y una mayor concentración de valores en la parte central.

Decisión sobre los valores NA

Ante la alta proporción de datos faltantes (70%) en la variable “HDI for year”, las dos opciones más viables de tratamiento son la imputación y la eliminación. La imputación por la mediana, considerada por su robustez frente a la falta de normalidad en los datos, podría ser una opción inicial, ya que evita el sesgo que introduciría la media en una distribución asimétrica. Sin embargo, imputar un volumen tan grande de datos podría distorsionar gravemente los resultados, creando una falsa precisión que desvirtuaría el análisis. A su vez, técnicas más complejas como la imputación múltiple, si bien podrían ofrecer estimaciones más ajustadas, corren el riesgo de sobreajustar la variable, añadiendo ruido en lugar de información útil.

Por otro lado, la eliminación de la variable se vuelve una opción más sólida al considerar que existen otras variables socioeconómicas en el conjunto de datos, como “gdp_for_year” y “gdp_per_capita”, que capturan información similar. Estas variables proporcionan un contexto socioeconómico suficiente para el análisis sin necesidad de recurrir a una variable con tantos datos faltantes. En resumen, aunque la imputación fue considerada, el riesgo de sesgo y la redundancia de información hacen que la eliminación de “HDI for year” sea la opción más fiable, permitiendo un análisis más limpio y robusto con las demás variables disponibles.

Data <- subset(Data, select = -`HDI for year`)
country year sex age suicides_no population suicides/100k pop country-year gdp_for_year gdp_per_capita generation
Albania 1987 male 15-24 years 21 312900 6.71 Albania1987 2156624900 796 Generation X
Albania 1987 male 35-54 years 16 308000 5.19 Albania1987 2156624900 796 Silent
Albania 1987 female 15-24 years 14 289700 4.83 Albania1987 2156624900 796 Generation X
Albania 1987 male 75+ years 1 21800 4.59 Albania1987 2156624900 796 G.I. Generation
Albania 1987 male 25-34 years 9 274300 3.28 Albania1987 2156624900 796 Boomers
Albania 1987 female 75+ years 1 35600 2.81 Albania1987 2156624900 796 G.I. Generation

Primeras filas del conjunto de datos luego de la eliminación

Detección de valores atípicos

El análisis de datos atípicos es crucial para identificar observaciones que se desvían significativamente de la tendencia general. En este estudio, que incluye 27.820 observaciones con información socioeconómica y demográfica de diversos países, se evaluarán los outliers para determinar si deben ser corregidos o eliminados, o si aportan información valiosa para el análisis. Distinguir adecuadamente estos puntos es esencial para asegurar la validez de los resultados y evitar conclusiones erróneas.

Los boxplots presentados revelan que la mayoría de las variables cuantitativas contienen una cantidad significativa de datos atípicos (outliers), especialmente en variables como “suicides_no”, “population”, “suicides/100k pop”, “gdp_for_year” y “gdp_per_capita”. En estas variables, los valores atípicos están claramente identificados como puntos fuera del rango intercuartílico, indicando una alta variabilidad en los datos. Este comportamiento sugiere que existen países o situaciones excepcionales que generan valores extremadamente altos en comparación con el resto de las observaciones, lo cual puede estar relacionado con factores demográficos, económicos o contextuales específicos. En contraste, la variable “year” muestra una distribución más uniforme y sin outliers significativos.

Evolución de las tasas de suicidio, PIB per cápita y el IDH en Colombia y Estados Unidos

En esta actividad, exploraremos y analizaremos un conjunto de datos para evaluar la evolución de las tasas de suicidio, PIB per cápita y el IDH en Colombia y Estados Unidos (EEUU). Primero, se verificará la existencia de posibles registros erróneos, luego se filtrarán los países de interés, y se realizarán análisis desglosados por año, género y grupo de edad.

Verificación de Registros Erróneos

Se realizará una exploración preliminar para identificar posibles errores en la base de datos, tales como valores faltantes, duplicados, valores fuera de rango y categorías inconsistentes en variables cualitativas.

## 
## Rango de años presentes en los datos:
## 
## [1] 1985 2016
## 
## Categorías en la variable 'age':
## 
## [1] "15-24 years" "35-54 years" "75+ years"   "25-34 years" "55-74 years"
## [6] "5-14 years" 
## 
## Categorías en la variable 'sex':
## 
## [1] "male"   "female"
## 
## Categorías en la variable 'country':
## 
##   [1] "Albania"                      "Antigua and Barbuda"         
##   [3] "Argentina"                    "Armenia"                     
##   [5] "Aruba"                        "Australia"                   
##   [7] "Austria"                      "Azerbaijan"                  
##   [9] "Bahamas"                      "Bahrain"                     
##  [11] "Barbados"                     "Belarus"                     
##  [13] "Belgium"                      "Belize"                      
##  [15] "Bosnia and Herzegovina"       "Brazil"                      
##  [17] "Bulgaria"                     "Cabo Verde"                  
##  [19] "Canada"                       "Chile"                       
##  [21] "Colombia"                     "Costa Rica"                  
##  [23] "Croatia"                      "Cuba"                        
##  [25] "Cyprus"                       "Czech Republic"              
##  [27] "Denmark"                      "Dominica"                    
##  [29] "Ecuador"                      "El Salvador"                 
##  [31] "Estonia"                      "Fiji"                        
##  [33] "Finland"                      "France"                      
##  [35] "Georgia"                      "Germany"                     
##  [37] "Greece"                       "Grenada"                     
##  [39] "Guatemala"                    "Guyana"                      
##  [41] "Hungary"                      "Iceland"                     
##  [43] "Ireland"                      "Israel"                      
##  [45] "Italy"                        "Jamaica"                     
##  [47] "Japan"                        "Kazakhstan"                  
##  [49] "Kiribati"                     "Kuwait"                      
##  [51] "Kyrgyzstan"                   "Latvia"                      
##  [53] "Lithuania"                    "Luxembourg"                  
##  [55] "Macau"                        "Maldives"                    
##  [57] "Malta"                        "Mauritius"                   
##  [59] "Mexico"                       "Mongolia"                    
##  [61] "Montenegro"                   "Netherlands"                 
##  [63] "New Zealand"                  "Nicaragua"                   
##  [65] "Norway"                       "Oman"                        
##  [67] "Panama"                       "Paraguay"                    
##  [69] "Philippines"                  "Poland"                      
##  [71] "Portugal"                     "Puerto Rico"                 
##  [73] "Qatar"                        "Republic of Korea"           
##  [75] "Romania"                      "Russian Federation"          
##  [77] "Saint Kitts and Nevis"        "Saint Lucia"                 
##  [79] "Saint Vincent and Grenadines" "San Marino"                  
##  [81] "Serbia"                       "Seychelles"                  
##  [83] "Singapore"                    "Slovakia"                    
##  [85] "Slovenia"                     "South Africa"                
##  [87] "Spain"                        "Sri Lanka"                   
##  [89] "Suriname"                     "Sweden"                      
##  [91] "Switzerland"                  "Thailand"                    
##  [93] "Trinidad and Tobago"          "Turkey"                      
##  [95] "Turkmenistan"                 "Ukraine"                     
##  [97] "United Arab Emirates"         "United Kingdom"              
##  [99] "United States"                "Uruguay"                     
## [101] "Uzbekistan"                  
## 
## Valores fuera de rango en suicides/100k pop:
## 
## # A tibble: 2 × 11
##   country     year sex   age       suicides_no population `suicides/100k pop`
##   <chr>      <dbl> <chr> <chr>           <dbl>      <dbl>               <dbl>
## 1 Aruba       1995 male  75+ years           2        889                225.
## 2 Seychelles  2006 male  75+ years           2        976                205.
## # ℹ 4 more variables: `country-year` <chr>, `gdp_for_year ($)` <dbl>,
## #   `gdp_per_capita ($)` <dbl>, generation <chr>
## 
## Número de registros duplicados: 0 
## 
## Valores faltantes por variable:
## 
##            country               year                sex                age 
##                  0                  0                  0                  0 
##        suicides_no         population  suicides/100k pop       country-year 
##                  0                  0                  0                  0 
##   gdp_for_year ($) gdp_per_capita ($)         generation 
##                  0                  0                  0

## # A tibble: 27,820 × 11
##    country  year sex    age         suicides_no population `suicides/100k pop`
##    <chr>   <dbl> <chr>  <chr>             <dbl>      <dbl>               <dbl>
##  1 Albania  1987 male   15-24 years          21     312900                6.71
##  2 Albania  1987 male   35-54 years          16     308000                5.19
##  3 Albania  1987 female 15-24 years          14     289700                4.83
##  4 Albania  1987 male   75+ years             1      21800                4.59
##  5 Albania  1987 male   25-34 years           9     274300                3.28
##  6 Albania  1987 female 75+ years             1      35600                2.81
##  7 Albania  1987 female 35-54 years           6     278800                2.15
##  8 Albania  1987 female 25-34 years           4     257200                1.56
##  9 Albania  1987 male   55-74 years           1     137500                0.73
## 10 Albania  1987 female 5-14 years            0     311000                0   
## # ℹ 27,810 more rows
## # ℹ 4 more variables: `country-year` <chr>, `gdp_for_year ($)` <dbl>,
## #   `gdp_per_capita ($)` <dbl>, generation <chr>

Posibles errores de registro o outliers significativos

Justificación

El resultado indica que encontraste dos registros con valores fuera del rango establecido (mayores a 200 suicidios por cada 100.000 habitantes) en los países de Aruba y Seychelles para hombres mayores de 75 años. Estos valores parecen ser extremadamente altos y, en un contexto real, podrían ser considerados como errores de registro o outliers significativos.

Posibles acciones

# Exclución
#Data <- Data %>%
  #filter(`suicides/100k pop` <= 200)

# Imputación
Data <- Data %>%
  mutate(`suicides/100k pop` = ifelse(`suicides/100k pop` > 200, median(Data$`suicides/100k pop`, na.rm = TRUE), `suicides/100k pop`))

Datos de Colombia y Estados Unidos

Se filtran los datos para obtener las bases master_col y master_eu, correspondientes a Colombia y EEUU respectivamente.

master_col <- Data %>%
  filter(country == "Colombia")

master_eu <- Data %>%
  filter(country == "United States")

Análisis de la Evolución de Suicidios, PIB per Cápita y IDH en Ambos Países

Se busca entender cómo han evolucionado las tasas de suicidio, el PIB per cápita y el IDH en Colombia y EEUU a lo largo de los años.

La gráfica muestra la evolución del PIB per cápita (en miles) y la tasa de suicidios por cada 100.000 habitantes en Colombia a lo largo de los años. La tasa de suicidios (línea celeste) evidencia una notable variabilidad, con picos significativos en diferentes años, lo que indica una inestabilidad en el comportamiento de este indicador. A pesar de estas fluctuaciones, no se observa una tendencia clara de crecimiento o disminución sostenida en la tasa de suicidios a lo largo del tiempo. Por otro lado, el PIB per cápita (línea roja) muestra un crecimiento gradual y sostenido desde 1990 hasta 2015, reflejando un desarrollo económico en el país. A partir de 2010, se percibe un aumento más acelerado en este indicador. Sin embargo, a pesar del incremento económico, la relación con la tasa de suicidios no es directa ni lineal, sugiriendo que otros factores más complejos están influyendo en las tasas de suicidio en Colombia.

La gráfica muestra la evolución del PIB per cápita (en miles) y la tasa de suicidios por cada 100.000 habitantes en Estados Unidos a lo largo de los años. La tasa de suicidios (línea celeste) exhibe cierta estabilidad, con ligeras fluctuaciones en valores relativamente constantes a lo largo del tiempo. Aunque se observan algunos picos, en general, la tasa se mantiene dentro de un rango similar, lo que indica que no ha habido un cambio dramático en las tasas de suicidio durante el período analizado. En contraste, el PIB per cápita (línea roja) ha mostrado un crecimiento continuo y sostenido desde 1990, con un incremento más pronunciado a partir del año 2000. Este crecimiento económico no parece tener un impacto directo en la tasa de suicidios, lo que sugiere que factores distintos al desarrollo económico están desempeñando un papel más importante en la estabilidad de las tasas de suicidio en Estados Unidos.

Análisis de la Evolución por Género

Este análisis desglosa las tasas de suicidio, PIB per cápita e IDH por género en Colombia y EEUU.

La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Colombia, desglosada por género (masculino y femenino) a lo largo de los años. La tasa de suicidios en hombres (línea celeste) es consistentemente más alta que en mujeres (línea roja) durante todo el período analizado. Los hombres presentan tasas significativamente más elevadas, con fluctuaciones notables y picos que alcanzan más de 20 suicidios por cada 100.000 habitantes en algunos años. En contraste, la tasa de suicidios en mujeres se mantiene en niveles mucho más bajos, sin superar los 5 suicidios por cada 100.000 habitantes. Además, mientras que la tendencia en hombres muestra una alta volatilidad y cierta estabilidad en los picos después de 2000, la tendencia en mujeres sigue siendo relativamente constante, sin grandes cambios a lo largo del tiempo.

La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Estados Unidos, desglosada por género (masculino y femenino) a lo largo de los años. De manera consistente, la tasa de suicidios en hombres (línea celeste) es significativamente mayor que en mujeres (línea roja) durante todo el período analizado. En las primeras décadas, especialmente antes del año 2000, la tasa de suicidios en hombres alcanza su punto más alto, superando los 50 suicidios por cada 100.000 habitantes. Posteriormente, se observa una reducción y estabilización en torno a los 40 suicidios por cada 100.000 habitantes. Por otro lado, la tasa de suicidios en mujeres se mantiene baja y relativamente estable a lo largo del tiempo, sin superar los 10 suicidios por cada 100.000 habitantes.

Análisis de la Evolución por Grupo de Edad

Se analiza cómo las tasas de suicidio han evolucionado en ambos países cuando se desglosan por grupo de edad.

La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Colombia, desglosada por grupo de edad, a lo largo de los años. El grupo de edad de 75 años y más (línea morada) presenta consistentemente las tasas de suicidio más altas, con picos que superan los 20 suicidios por cada 100.000 habitantes en algunos años. Este grupo muestra una tendencia volátil, con fluctuaciones pronunciadas desde los años 90 hasta 2015. En contraste, los grupos de edad más jóvenes, como el de 5 a 14 años (línea azul claro) y el de 15 a 24 años (línea roja), tienen tasas de suicidio mucho más bajas y estables, manteniéndose por debajo de los 5 suicidios por cada 100.000 habitantes durante la mayor parte del período.

Entre los grupos intermedios (25 a 74 años), las tasas de suicidio se mantienen en niveles moderados, con una tendencia ligeramente ascendente en las décadas más recientes, aunque nunca alcanzan los picos observados en los mayores de 75 años.

En resumen, la gráfica revela que el suicidio en Colombia es un problema más pronunciado en la población de mayor edad, especialmente en quienes tienen 75 años o más, mientras que los grupos más jóvenes muestran una incidencia considerablemente menor. Esto sugiere la necesidad de enfoques preventivos diferenciados según la edad, considerando que los factores de riesgo pueden variar significativamente entre las distintas generaciones.

La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Estados Unidos, desglosada por grupo de edad. El grupo de 75 años o más (línea morada) presenta consistentemente las tasas más elevadas de suicidio, con picos que superan los 60 suicidios por cada 100.000 habitantes antes de 1990. Sin embargo, a partir de ese año se observa una disminución significativa en esta tasa, que se estabiliza en niveles más bajos durante las décadas posteriores, aunque sigue siendo la más alta en comparación con otros grupos etarios. Los grupos intermedios (25 a 74 años) también presentan tasas de suicidio relevantes, aunque en un rango más moderado, generalmente entre 10 y 20 suicidios por cada 100.000 habitantes. Por otro lado, los grupos más jóvenes (5 a 24 años) tienen las tasas más bajas y estables, sin superar los 10 suicidios por cada 100.000 habitantes a lo largo del tiempo.

Este análisis destaca que, aunque se ha logrado una reducción importante en la tasa de suicidios en la población mayor de 75 años, este sigue siendo el grupo más afectado en comparación con otros. Las diferencias entre grupos etarios sugieren la necesidad de enfoques preventivos específicos según la edad, especialmente enfocados en la población mayor, que parece ser la más vulnerable en Estados Unidos a lo largo de las décadas.