Este análisis explora las tasas de suicidio a nivel mundial entre 1985 y 2016, que compila estadísticas de suicidios a nivel global, incluyendo variables demográficas y socioeconómicas. El objetivo del análisis es identificar patrones y señales correlacionadas con las tasas de suicidio en diferentes contextos socioeconómicos y demográficos. A través de este estudio, buscamos comprender mejor los factores que pueden influir en las tasas de suicidio y ayudar en la creación de políticas más efectivas para su prevención.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Loading required package: Rcpp
## ##
## ## Amelia II: Multiple Imputation
## ## (Version 1.8.2, built: 2024-04-10)
## ## Copyright (C) 2005-2024 James Honaker, Gary King and Matthew Blackwell
## ## Refer to http://gking.harvard.edu/amelia/ for more information
## ##
## country year sex age suicides_no population suicides.100k.pop
## 1 Albania 1987 male 15-24 years 21 312900 6.71
## 2 Albania 1987 male 35-54 years 16 308000 5.19
## 3 Albania 1987 female 15-24 years 14 289700 4.83
## 4 Albania 1987 male 75+ years 1 21800 4.59
## 5 Albania 1987 male 25-34 years 9 274300 3.28
## 6 Albania 1987 female 75+ years 1 35600 2.81
## country.year HDI.for.year gdp_for_year.... gdp_per_capita.... generation
## 1 Albania1987 NA 2,156,624,900 796 Generation X
## 2 Albania1987 NA 2,156,624,900 796 Silent
## 3 Albania1987 NA 2,156,624,900 796 Generation X
## 4 Albania1987 NA 2,156,624,900 796 G.I. Generation
## 5 Albania1987 NA 2,156,624,900 796 Boomers
## 6 Albania1987 NA 2,156,624,900 796 G.I. Generation
Se exhiben las primeras entradas para obtener una vista preliminar de los tipos de datos y las variables disponibles. Esto es crucial para identificar cómo están estructurados los datos antes de profundizar en análisis más específicos.
# Número de filas y columnas
dim(suicide_data)
## [1] 27820 12
# Nombres de las variables
names(suicide_data)
## [1] "country" "year" "sex"
## [4] "age" "suicides_no" "population"
## [7] "suicides.100k.pop" "country.year" "HDI.for.year"
## [10] "gdp_for_year...." "gdp_per_capita...." "generation"
# Tipos de variables
str(suicide_data)
## 'data.frame': 27820 obs. of 12 variables:
## $ country : chr "Albania" "Albania" "Albania" "Albania" ...
## $ year : int 1987 1987 1987 1987 1987 1987 1987 1987 1987 1987 ...
## $ sex : chr "male" "male" "female" "male" ...
## $ age : chr "15-24 years" "35-54 years" "15-24 years" "75+ years" ...
## $ suicides_no : int 21 16 14 1 9 1 6 4 1 0 ...
## $ population : int 312900 308000 289700 21800 274300 35600 278800 257200 137500 311000 ...
## $ suicides.100k.pop : num 6.71 5.19 4.83 4.59 3.28 2.81 2.15 1.56 0.73 0 ...
## $ country.year : chr "Albania1987" "Albania1987" "Albania1987" "Albania1987" ...
## $ HDI.for.year : num NA NA NA NA NA NA NA NA NA NA ...
## $ gdp_for_year.... : chr "2,156,624,900" "2,156,624,900" "2,156,624,900" "2,156,624,900" ...
## $ gdp_per_capita....: int 796 796 796 796 796 796 796 796 796 796 ...
## $ generation : chr "Generation X" "Silent" "Generation X" "G.I. Generation" ...
# Resumen estadístico de las variables numéricas
summary(suicide_data)
## country year sex age
## Length:27820 Min. :1985 Length:27820 Length:27820
## Class :character 1st Qu.:1995 Class :character Class :character
## Mode :character Median :2002 Mode :character Mode :character
## Mean :2001
## 3rd Qu.:2008
## Max. :2016
##
## suicides_no population suicides.100k.pop country.year
## Min. : 0.0 Min. : 278 Min. : 0.00 Length:27820
## 1st Qu.: 3.0 1st Qu.: 97498 1st Qu.: 0.92 Class :character
## Median : 25.0 Median : 430150 Median : 5.99 Mode :character
## Mean : 242.6 Mean : 1844794 Mean : 12.82
## 3rd Qu.: 131.0 3rd Qu.: 1486143 3rd Qu.: 16.62
## Max. :22338.0 Max. :43805214 Max. :224.97
##
## HDI.for.year gdp_for_year.... gdp_per_capita.... generation
## Min. :0.483 Length:27820 Min. : 251 Length:27820
## 1st Qu.:0.713 Class :character 1st Qu.: 3447 Class :character
## Median :0.779 Mode :character Median : 9372 Mode :character
## Mean :0.777 Mean : 16866
## 3rd Qu.:0.855 3rd Qu.: 24874
## Max. :0.944 Max. :126352
## NA's :19456
Se exploran las dimensiones de la base de datos, los nombres de las columnas, los tipos de datos de cada columna y un resumen estadístico de las variables numéricas. Esta etapa es fundamental para entender la escala del dataset, identificar las variables clave y detectar posibles incongruencias o valores faltantes en los datos.
# Distribución de variables categóricas
table(suicide_data$sex)
##
## female male
## 13910 13910
table(suicide_data$age)
##
## 15-24 years 25-34 years 35-54 years 5-14 years 55-74 years 75+ years
## 4642 4642 4642 4610 4642 4642
table(suicide_data$generation)
##
## Boomers G.I. Generation Generation X Generation Z Millenials
## 4990 2744 6408 1470 5844
## Silent
## 6364
Se exploran las dimensiones de la base de datos, los nombres de las columnas, los tipos de datos de cada columna y un resumen estadístico de las variables numéricas. Esta etapa es fundamental para entender la escala del dataset, identificar las variables clave y detectar posibles incongruencias o valores faltantes en los datos.
Se filtran los datos para el año 2000 y el país Japón para centrarse en un subconjunto específico del dataset. Esto permite un análisis más detallado de las tendencias y particularidades en un contexto y período específico, facilitando interpretaciones más precisas sobre las tasas de suicidio.
# Filtrar datos para el año 2000 y un país específico, por ejemplo, Japón
filtered_data <- subset(suicide_data, year == 2000 & country == "Japan")
# Mostrar las primeras filas de los datos filtrados
head(filtered_data)
## country year sex age suicides_no population suicides.100k.pop
## 13545 Japan 2000 male 55-74 years 7988 14034032 56.92
## 13546 Japan 2000 male 75+ years 1619 3187143 50.80
## 13547 Japan 2000 male 35-54 years 8023 17540437 45.74
## 13548 Japan 2000 female 75+ years 1796 5792695 31.00
## 13549 Japan 2000 male 25-34 years 2454 9260089 26.50
## 13550 Japan 2000 female 55-74 years 3032 15357610 19.74
## country.year HDI.for.year gdp_for_year.... gdp_per_capita....
## 13545 Japan2000 0.857 4,887,519,660,745 40813
## 13546 Japan2000 0.857 4,887,519,660,745 40813
## 13547 Japan2000 0.857 4,887,519,660,745 40813
## 13548 Japan2000 0.857 4,887,519,660,745 40813
## 13549 Japan2000 0.857 4,887,519,660,745 40813
## 13550 Japan2000 0.857 4,887,519,660,745 40813
## generation
## 13545 Silent
## 13546 G.I. Generation
## 13547 Boomers
## 13548 G.I. Generation
## 13549 Generation X
## 13550 Silent
# Crear una tabla de frecuencia para género y grupo de edad
gender_age_table <- table(suicide_data$sex, suicide_data$age)
# Mostrar la tabla
gender_age_table
##
## 15-24 years 25-34 years 35-54 years 5-14 years 55-74 years 75+ years
## female 2321 2321 2321 2305 2321 2321
## male 2321 2321 2321 2305 2321 2321
Se cuenta y visualiza la distribución de valores faltantes para cada variable. El mapa de calor ayuda a identificar patrones de datos faltantes, lo cual es esencial para decidir métodos de imputación o eliminación. Además, el boxplot horizontal permite visualizar valores atípicos en las tasas de suicidio por cada 100k habitantes, destacando observaciones que difieren significativamente del resto de los datos, lo que podría indicar errores de entrada o condiciones atípicas en ciertas poblaciones.
# Contar valores NA en cada columna
na_count <- colSums(is.na(suicide_data))
# Mostrar el conteo de NA
na_count
## country year sex age
## 0 0 0 0
## suicides_no population suicides.100k.pop country.year
## 0 0 0 0
## HDI.for.year gdp_for_year.... gdp_per_capita.... generation
## 19456 0 0 0
# Visualizar valores NA con un mapa de calor
library(Amelia)
missmap(suicide_data, main = "Mapa de Calor de Valores Faltantes", col = c("yellow", "black"), legend = FALSE)
El boxplot aquí presentado se focaliza exclusivamente en la variable “suicides.100k.pop”, la cual representa las tasas de suicidio por cada 100,000 habitantes. Esta variable ha sido seleccionada para el análisis de valores atípicos debido a su relevancia directa en el estudio de los factores que influyen en las tasas de suicidio y su impacto visual y analítico en la comprensión de la distribución de los datos.
La visualización muestra una serie de puntos rojos que representan valores atípicos, es decir, observaciones que se desvían marcadamente de la mayoría de los datos. Estos valores extremos pueden indicar situaciones específicas o errores en los datos que requieren investigación adicional. La razón por la cual se centra en esta variable y no en otras es debido a su significancia en el contexto del estudio y porque es la única variable que presenta valores atípicos claros que podrían sesgar cualquier análisis posterior si no se tratan adecuadamente.
Para los valores NA, se opta por dos enfoques: eliminación de filas con valores faltantes y la imputación usando la mediana de los datos disponibles. Esto asegura la integridad del análisis subsecuente y minimiza el impacto de los datos faltantes en las conclusiones del estudio.
# Decidir qué hacer con los valores NA
# Eliminar filas con NA
clean_data <- na.omit(suicide_data)
# Imputación de valores NA con la mediana
suicide_data$`suicides/100k pop`[is.na(suicide_data$`suicides/100k pop`)] <- median(suicide_data$`suicides/100k pop`, na.rm = TRUE)
# Mostrar las primeras filas de los datos procesados
head(clean_data)
## country year sex age suicides_no population suicides.100k.pop
## 73 Albania 1995 male 25-34 years 13 232900 5.58
## 74 Albania 1995 male 55-74 years 9 178000 5.06
## 75 Albania 1995 female 75+ years 2 40800 4.90
## 76 Albania 1995 female 15-24 years 13 283500 4.59
## 77 Albania 1995 male 15-24 years 11 241200 4.56
## 78 Albania 1995 male 75+ years 1 25100 3.98
## country.year HDI.for.year gdp_for_year.... gdp_per_capita....
## 73 Albania1995 0.619 2,424,499,009 835
## 74 Albania1995 0.619 2,424,499,009 835
## 75 Albania1995 0.619 2,424,499,009 835
## 76 Albania1995 0.619 2,424,499,009 835
## 77 Albania1995 0.619 2,424,499,009 835
## 78 Albania1995 0.619 2,424,499,009 835
## generation
## 73 Generation X
## 74 Silent
## 75 G.I. Generation
## 76 Generation X
## 77 Generation X
## 78 G.I. Generation
A continuacion se mostrará un análisis exhaustivo de los datos de suicidios en Colombia y Estados Unidos, centrándonos en la evolución de los suicidios por cada 100,000 habitantes, el PIB per cápita y el IDH a lo largo de los años. Este análisis se realizará tanto de forma general como desglosado por género y grupo de edad.
# Filtrar datos para Colombia y EEUU
master_col <- suicide_data %>% filter(country == "Colombia")
master_eu <- suicide_data %>% filter(country == "United States")
## `summarise()` has grouped output by 'country'. You can override using the
## `.groups` argument.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_line()`).
Aqui muestra una visualización de la evolución de los suicidios, el PIB per cápita (escalado) y el IDH (escalado) en Colombia y Estados Unidos a lo largo de los años. Se puede observar cómo las tendencias varían entre ambos países, reflejando posibles diferencias en factores socioeconómicos y demográficos.
## `summarise()` has grouped output by 'country', 'year'. You can override using
## the `.groups` argument.
El análisis desglosado por género revela que, en ambos países, los hombres tienden a tener tasas de suicidio significativamente más altas que las mujeres. Este patrón es consistente con la literatura global, que sugiere que los hombres son más propensos a utilizar métodos de suicidio más letales y pueden enfrentar mayores barreras para buscar ayuda debido a normas sociales y estigmatización.
## `summarise()` has grouped output by 'country', 'year'. You can override using
## the `.groups` argument.
Al desglosar los datos por grupo de edad, se observa que los grupos de edad más avanzada frecuentemente exhiben tasas más altas de suicidio. Esto podría deberse a problemas como la soledad, la depresión y condiciones de salud física que tienden a afectar más a estas edades. Además, los jóvenes también muestran tasas preocupantes que podrían estar relacionadas con factores como el acoso, el estrés académico y laboral, y la falta de redes de apoyo efectivas.