Actividad Practica: Análisis Exploratorio de la Base de Datos de Tasas de Suicidio

Introducción

Este análisis explora las tasas de suicidio a nivel mundial entre 1985 y 2016, que compila estadísticas de suicidios a nivel global, incluyendo variables demográficas y socioeconómicas. El objetivo del análisis es identificar patrones y señales correlacionadas con las tasas de suicidio en diferentes contextos socioeconómicos y demográficos. A través de este estudio, buscamos comprender mejor los factores que pueden influir en las tasas de suicidio y ayudar en la creación de políticas más efectivas para su prevención.

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

## Loading required package: Rcpp

## ## 
## ## Amelia II: Multiple Imputation
## ## (Version 1.8.2, built: 2024-04-10)
## ## Copyright (C) 2005-2024 James Honaker, Gary King and Matthew Blackwell
## ## Refer to http://gking.harvard.edu/amelia/ for more information
## ##

##   country year    sex         age suicides_no population suicides.100k.pop
## 1 Albania 1987   male 15-24 years          21     312900              6.71
## 2 Albania 1987   male 35-54 years          16     308000              5.19
## 3 Albania 1987 female 15-24 years          14     289700              4.83
## 4 Albania 1987   male   75+ years           1      21800              4.59
## 5 Albania 1987   male 25-34 years           9     274300              3.28
## 6 Albania 1987 female   75+ years           1      35600              2.81
##   country.year HDI.for.year gdp_for_year.... gdp_per_capita....      generation
## 1  Albania1987           NA    2,156,624,900                796    Generation X
## 2  Albania1987           NA    2,156,624,900                796          Silent
## 3  Albania1987           NA    2,156,624,900                796    Generation X
## 4  Albania1987           NA    2,156,624,900                796 G.I. Generation
## 5  Albania1987           NA    2,156,624,900                796         Boomers
## 6  Albania1987           NA    2,156,624,900                796 G.I. Generation

Características de la Base de Datos

Se exhiben las primeras entradas para obtener una vista preliminar de los tipos de datos y las variables disponibles. Esto es crucial para identificar cómo están estructurados los datos antes de profundizar en análisis más específicos.

# Número de filas y columnas
dim(suicide_data)

## [1] 27820    12

# Nombres de las variables
names(suicide_data)

##  [1] "country"            "year"               "sex"               
##  [4] "age"                "suicides_no"        "population"        
##  [7] "suicides.100k.pop"  "country.year"       "HDI.for.year"      
## [10] "gdp_for_year...."   "gdp_per_capita...." "generation"

# Tipos de variables
str(suicide_data)

## 'data.frame':    27820 obs. of  12 variables:
##  $ country           : chr  "Albania" "Albania" "Albania" "Albania" ...
##  $ year              : int  1987 1987 1987 1987 1987 1987 1987 1987 1987 1987 ...
##  $ sex               : chr  "male" "male" "female" "male" ...
##  $ age               : chr  "15-24 years" "35-54 years" "15-24 years" "75+ years" ...
##  $ suicides_no       : int  21 16 14 1 9 1 6 4 1 0 ...
##  $ population        : int  312900 308000 289700 21800 274300 35600 278800 257200 137500 311000 ...
##  $ suicides.100k.pop : num  6.71 5.19 4.83 4.59 3.28 2.81 2.15 1.56 0.73 0 ...
##  $ country.year      : chr  "Albania1987" "Albania1987" "Albania1987" "Albania1987" ...
##  $ HDI.for.year      : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ gdp_for_year....  : chr  "2,156,624,900" "2,156,624,900" "2,156,624,900" "2,156,624,900" ...
##  $ gdp_per_capita....: int  796 796 796 796 796 796 796 796 796 796 ...
##  $ generation        : chr  "Generation X" "Silent" "Generation X" "G.I. Generation" ...

# Resumen estadístico de las variables numéricas
summary(suicide_data)

##    country               year          sex                age           
##  Length:27820       Min.   :1985   Length:27820       Length:27820      
##  Class :character   1st Qu.:1995   Class :character   Class :character  
##  Mode  :character   Median :2002   Mode  :character   Mode  :character  
##                     Mean   :2001                                        
##                     3rd Qu.:2008                                        
##                     Max.   :2016                                        
##                                                                         
##   suicides_no        population       suicides.100k.pop country.year      
##  Min.   :    0.0   Min.   :     278   Min.   :  0.00    Length:27820      
##  1st Qu.:    3.0   1st Qu.:   97498   1st Qu.:  0.92    Class :character  
##  Median :   25.0   Median :  430150   Median :  5.99    Mode  :character  
##  Mean   :  242.6   Mean   : 1844794   Mean   : 12.82                      
##  3rd Qu.:  131.0   3rd Qu.: 1486143   3rd Qu.: 16.62                      
##  Max.   :22338.0   Max.   :43805214   Max.   :224.97                      
##                                                                           
##   HDI.for.year   gdp_for_year....   gdp_per_capita....  generation       
##  Min.   :0.483   Length:27820       Min.   :   251     Length:27820      
##  1st Qu.:0.713   Class :character   1st Qu.:  3447     Class :character  
##  Median :0.779   Mode  :character   Median :  9372     Mode  :character  
##  Mean   :0.777                      Mean   : 16866                       
##  3rd Qu.:0.855                      3rd Qu.: 24874                       
##  Max.   :0.944                      Max.   :126352                       
##  NA's   :19456

Se exploran las dimensiones de la base de datos, los nombres de las columnas, los tipos de datos de cada columna y un resumen estadístico de las variables numéricas. Esta etapa es fundamental para entender la escala del dataset, identificar las variables clave y detectar posibles incongruencias o valores faltantes en los datos.

Análisis de Variables Categóricas

# Distribución de variables categóricas
table(suicide_data$sex)

## 
## female   male 
##  13910  13910

table(suicide_data$age)

## 
## 15-24 years 25-34 years 35-54 years  5-14 years 55-74 years   75+ years 
##        4642        4642        4642        4610        4642        4642

table(suicide_data$generation)

## 
##         Boomers G.I. Generation    Generation X    Generation Z      Millenials 
##            4990            2744            6408            1470            5844 
##          Silent 
##            6364

Filtración y Exploración Detallada

Se filtran los datos para el año 2000 y el país Japón para centrarse en un subconjunto específico del dataset. Esto permite un análisis más detallado de las tendencias y particularidades en un contexto y período específico, facilitando interpretaciones más precisas sobre las tasas de suicidio.

# Filtrar datos para el año 2000 y un país específico, por ejemplo, Japón
filtered_data <- subset(suicide_data, year == 2000 & country == "Japan")

# Mostrar las primeras filas de los datos filtrados
head(filtered_data)

##       country year    sex         age suicides_no population suicides.100k.pop
## 13545   Japan 2000   male 55-74 years        7988   14034032             56.92
## 13546   Japan 2000   male   75+ years        1619    3187143             50.80
## 13547   Japan 2000   male 35-54 years        8023   17540437             45.74
## 13548   Japan 2000 female   75+ years        1796    5792695             31.00
## 13549   Japan 2000   male 25-34 years        2454    9260089             26.50
## 13550   Japan 2000 female 55-74 years        3032   15357610             19.74
##       country.year HDI.for.year  gdp_for_year.... gdp_per_capita....
## 13545    Japan2000        0.857 4,887,519,660,745              40813
## 13546    Japan2000        0.857 4,887,519,660,745              40813
## 13547    Japan2000        0.857 4,887,519,660,745              40813
## 13548    Japan2000        0.857 4,887,519,660,745              40813
## 13549    Japan2000        0.857 4,887,519,660,745              40813
## 13550    Japan2000        0.857 4,887,519,660,745              40813
##            generation
## 13545          Silent
## 13546 G.I. Generation
## 13547         Boomers
## 13548 G.I. Generation
## 13549    Generation X
## 13550          Silent

# Crear una tabla de frecuencia para género y grupo de edad
gender_age_table <- table(suicide_data$sex, suicide_data$age)

# Mostrar la tabla
gender_age_table

##         
##          15-24 years 25-34 years 35-54 years 5-14 years 55-74 years 75+ years
##   female        2321        2321        2321       2305        2321      2321
##   male          2321        2321        2321       2305        2321      2321

Valores Faltantes y Atípicos

Se cuenta y visualiza la distribución de valores faltantes para cada variable. El mapa de calor ayuda a identificar patrones de datos faltantes, lo cual es esencial para decidir métodos de imputación o eliminación. Además, el boxplot horizontal permite visualizar valores atípicos en las tasas de suicidio por cada 100k habitantes, destacando observaciones que difieren significativamente del resto de los datos, lo que podría indicar errores de entrada o condiciones atípicas en ciertas poblaciones.

# Contar valores NA en cada columna
na_count <- colSums(is.na(suicide_data))

# Mostrar el conteo de NA
na_count

##            country               year                sex                age 
##                  0                  0                  0                  0 
##        suicides_no         population  suicides.100k.pop       country.year 
##                  0                  0                  0                  0 
##       HDI.for.year   gdp_for_year.... gdp_per_capita....         generation 
##              19456                  0                  0                  0

# Visualizar valores NA con un mapa de calor
library(Amelia)
missmap(suicide_data, main = "Mapa de Calor de Valores Faltantes", col = c("yellow", "black"), legend = FALSE)

El boxplot aquí presentado se focaliza exclusivamente en la variable “suicides.100k.pop”, la cual representa las tasas de suicidio por cada 100,000 habitantes. Esta variable ha sido seleccionada para el análisis de valores atípicos debido a su relevancia directa en el estudio de los factores que influyen en las tasas de suicidio y su impacto visual y analítico en la comprensión de la distribución de los datos.

La visualización muestra una serie de puntos rojos que representan valores atípicos, es decir, observaciones que se desvían marcadamente de la mayoría de los datos. Estos valores extremos pueden indicar situaciones específicas o errores en los datos que requieren investigación adicional. La razón por la cual se centra en esta variable y no en otras es debido a su significancia en el contexto del estudio y porque es la única variable que presenta valores atípicos claros que podrían sesgar cualquier análisis posterior si no se tratan adecuadamente.

Tratamiento de Valores NA

Para los valores NA, se opta por dos enfoques: eliminación de filas con valores faltantes y la imputación usando la mediana de los datos disponibles. Esto asegura la integridad del análisis subsecuente y minimiza el impacto de los datos faltantes en las conclusiones del estudio.

# Decidir qué hacer con los valores NA
# Eliminar filas con NA
clean_data <- na.omit(suicide_data)

# Imputación de valores NA con la mediana
suicide_data$`suicides/100k pop`[is.na(suicide_data$`suicides/100k pop`)] <- median(suicide_data$`suicides/100k pop`, na.rm = TRUE)

# Mostrar las primeras filas de los datos procesados
head(clean_data)

##    country year    sex         age suicides_no population suicides.100k.pop
## 73 Albania 1995   male 25-34 years          13     232900              5.58
## 74 Albania 1995   male 55-74 years           9     178000              5.06
## 75 Albania 1995 female   75+ years           2      40800              4.90
## 76 Albania 1995 female 15-24 years          13     283500              4.59
## 77 Albania 1995   male 15-24 years          11     241200              4.56
## 78 Albania 1995   male   75+ years           1      25100              3.98
##    country.year HDI.for.year gdp_for_year.... gdp_per_capita....
## 73  Albania1995        0.619    2,424,499,009                835
## 74  Albania1995        0.619    2,424,499,009                835
## 75  Albania1995        0.619    2,424,499,009                835
## 76  Albania1995        0.619    2,424,499,009                835
## 77  Albania1995        0.619    2,424,499,009                835
## 78  Albania1995        0.619    2,424,499,009                835
##         generation
## 73    Generation X
## 74          Silent
## 75 G.I. Generation
## 76    Generation X
## 77    Generation X
## 78 G.I. Generation

Filtrado de los Datos para Colombia y Estados Unidos

A continuacion se mostrará un análisis exhaustivo de los datos de suicidios en Colombia y Estados Unidos, centrándonos en la evolución de los suicidios por cada 100,000 habitantes, el PIB per cápita y el IDH a lo largo de los años. Este análisis se realizará tanto de forma general como desglosado por género y grupo de edad.

# Filtrar datos para Colombia y EEUU
master_col <- suicide_data %>% filter(country == "Colombia")
master_eu <- suicide_data %>% filter(country == "United States")

## `summarise()` has grouped output by 'country'. You can override using the
## `.groups` argument.

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_line()`).

Aqui muestra una visualización de la evolución de los suicidios, el PIB per cápita (escalado) y el IDH (escalado) en Colombia y Estados Unidos a lo largo de los años. Se puede observar cómo las tendencias varían entre ambos países, reflejando posibles diferencias en factores socioeconómicos y demográficos.

## `summarise()` has grouped output by 'country', 'year'. You can override using
## the `.groups` argument.

El análisis desglosado por género revela que, en ambos países, los hombres tienden a tener tasas de suicidio significativamente más altas que las mujeres. Este patrón es consistente con la literatura global, que sugiere que los hombres son más propensos a utilizar métodos de suicidio más letales y pueden enfrentar mayores barreras para buscar ayuda debido a normas sociales y estigmatización.

## `summarise()` has grouped output by 'country', 'year'. You can override using
## the `.groups` argument.

Al desglosar los datos por grupo de edad, se observa que los grupos de edad más avanzada frecuentemente exhiben tasas más altas de suicidio. Esto podría deberse a problemas como la soledad, la depresión y condiciones de salud física que tienden a afectar más a estas edades. Además, los jóvenes también muestran tasas preocupantes que podrían estar relacionadas con factores como el acoso, el estrés académico y laboral, y la falta de redes de apoyo efectivas.