Zharick S. Molina
El análisis de datos faltantes es un paso crucial en cualquier estudio de datos, especialmente cuando se busca identificar patrones en fenómenos complejos como el aumento de las tasas de suicidio a nivel mundial. Este trabajo se centra en un conjunto de datos compuesto por 27.820 observaciones, que ofrecen información socioeconómica y demográfica de diversos países. Dicho conjunto de datos fue creado con el objetivo de encontrar señales correlacionadas con el aumento de las tasas de suicidio. El análisis propuesto busca evaluar la calidad de los datos disponibles, identificar posibles patrones en los datos faltantes y proponer técnicas adecuadas para su manejo.
A continuación se presentan las variables del conjunto de datos junto a su descripción.
| Variable | Descripción | Tipo de variable |
|---|---|---|
| suicides/100k | suicidios por cada 100 mil habitantes (tasas de suicidio) | Cuantitativa |
| country | país | Cualitativa |
| year | año | Cuantitativa |
| sex | género (male, female) | Cualitativa |
| age | edad (grupo de edad) | Cualitativa |
| suicides_no | número de suicidios | Cuantitativa |
| population | población | Cuantitativa |
| country-year | clave compuesta país-año | Cualitativa |
| HBI | índice de desarrollo humano (IDH) por año | Cuantitativa |
| gdp_for_year ($) | producto interno bruto (PIB) por año | Cuantitativa |
| gdp_per_capita | producto interno bruto per capita | Cuantitativa |
| generation | generación | Cualitativa |
## country year sex age
## Length:27820 Min. :1985 Length:27820 Length:27820
## Class :character 1st Qu.:1995 Class :character Class :character
## Mode :character Median :2002 Mode :character Mode :character
## Mean :2001
## 3rd Qu.:2008
## Max. :2016
##
## suicides_no population suicides/100k pop country-year
## Min. : 0.0 Min. : 278 Min. : 0.00 Length:27820
## 1st Qu.: 3.0 1st Qu.: 97498 1st Qu.: 0.92 Class :character
## Median : 25.0 Median : 430150 Median : 5.99 Mode :character
## Mean : 242.6 Mean : 1844794 Mean : 12.82
## 3rd Qu.: 131.0 3rd Qu.: 1486143 3rd Qu.: 16.62
## Max. :22338.0 Max. :43805214 Max. :224.97
##
## HDI for year gdp_for_year ($) gdp_per_capita ($) generation
## Min. :0.483 Min. :4.692e+07 Min. : 251 Length:27820
## 1st Qu.:0.713 1st Qu.:8.985e+09 1st Qu.: 3447 Class :character
## Median :0.779 Median :4.811e+10 Median : 9372 Mode :character
## Mean :0.777 Mean :4.456e+11 Mean : 16866
## 3rd Qu.:0.855 3rd Qu.:2.602e+11 3rd Qu.: 24874
## Max. :0.944 Max. :1.812e+13 Max. :126352
## NA's :19456
Analicemos las características de cada una de las variables de forma individual.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1985 1995 2002 2001 2008 2016
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 3.0 25.0 242.6 131.0 22338.0
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 278 97498 430150 1844794 1486143 43805214
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.92 5.99 12.82 16.62 224.97
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.483 0.713 0.779 0.777 0.855 0.944 19456
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.692e+07 8.985e+09 4.811e+10 4.456e+11 2.602e+11 1.812e+13
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 251 3447 9372 16866 24874 126352
##
## female male
## 13910 13910
##
## 15-24 years 25-34 years 35-54 years 5-14 years 55-74 years 75+ years
## 4642 4642 4642 4610 4642 4642
##
## Boomers G.I. Generation Generation X Generation Z Millenials
## 4990 2744 6408 1470 5844
## Silent
## 6364
Nótese que las variables “country” y “country-year” no fueron incluidas debido a la cantidad de categorías existentes en estas variables.
Los gráficos anteriores revelan que la variable “HDI for year” presenta un 70% de datos faltantes, mientras que las demás variables tienen valores completos. El análisis del patrón de ausencia confirma que la falta de datos se concentra únicamente en esta variable, sin afectar a las demás. Esto sugiere que el problema de datos faltantes es sistemático para “HDI for year” y debe abordarse cuidadosamente. Dependiendo de la importancia de esta variable para el análisis global, podrían considerarse estrategias como la imputación de datos, la exclusión de la variable o un análisis segmentado. Ignorar estos datos faltantes podría distorsionar los resultados, especialmente en estudios donde el Índice de Desarrollo Humano es clave.
Los gráficos adicionales confirman que la variable “HDI for year” es la única con un 70% de datos faltantes, mientras que las demás están completas. El primer gráfico muestra cómo esta variable domina en términos de valores ausentes, y el segundo gráfico revela que la ausencia es consistente y sistemática (y no aleatoria). Esto refuerza la necesidad de un manejo específico de esta variable, ya sea mediante imputación, exclusión o un análisis segmentado, según su relevancia en el estudio.
A partir del histograma y el QQ-plot, se puede concluir que la variable “HDI for year” no sigue una distribución normal. El histograma muestra una distribución sesgada, con una mayor concentración de valores entre 0.7 y 0.9, lo que indica una asimetría positiva. No tiene la forma clásica de campana que caracteriza a una distribución normal. En el QQ-plot, se observa que los puntos se desvían significativamente de la línea de referencia, especialmente en los extremos (colas). Esto sugiere que la variable tiene una distribución que difiere de la normal, probablemente con colas más pesadas y una mayor concentración de valores en la parte central.
Ante la alta proporción de datos faltantes (70%) en la variable “HDI for year”, las dos opciones más viables de tratamiento son la imputación y la eliminación. La imputación por la mediana, considerada por su robustez frente a la falta de normalidad en los datos, podría ser una opción inicial, ya que evita el sesgo que introduciría la media en una distribución asimétrica. Sin embargo, imputar un volumen tan grande de datos podría distorsionar gravemente los resultados, creando una falsa precisión que desvirtuaría el análisis. A su vez, técnicas más complejas como la imputación múltiple, si bien podrían ofrecer estimaciones más ajustadas, corren el riesgo de sobreajustar la variable, añadiendo ruido en lugar de información útil.
Por otro lado, la eliminación de la variable se vuelve una opción más sólida al considerar que existen otras variables socioeconómicas en el conjunto de datos, como “gdp_for_year” y “gdp_per_capita”, que capturan información similar. Estas variables proporcionan un contexto socioeconómico suficiente para el análisis sin necesidad de recurrir a una variable con tantos datos faltantes. En resumen, aunque la imputación fue considerada, el riesgo de sesgo y la redundancia de información hacen que la eliminación de “HDI for year” sea la opción más fiable, permitiendo un análisis más limpio y robusto con las demás variables disponibles.
| country | year | sex | age | suicides_no | population | suicides/100k pop | country-year | gdp_for_year | gdp_per_capita | generation |
|---|---|---|---|---|---|---|---|---|---|---|
| Albania | 1987 | male | 15-24 years | 21 | 312900 | 6.71 | Albania1987 | 2156624900 | 796 | Generation X |
| Albania | 1987 | male | 35-54 years | 16 | 308000 | 5.19 | Albania1987 | 2156624900 | 796 | Silent |
| Albania | 1987 | female | 15-24 years | 14 | 289700 | 4.83 | Albania1987 | 2156624900 | 796 | Generation X |
| Albania | 1987 | male | 75+ years | 1 | 21800 | 4.59 | Albania1987 | 2156624900 | 796 | G.I. Generation |
| Albania | 1987 | male | 25-34 years | 9 | 274300 | 3.28 | Albania1987 | 2156624900 | 796 | Boomers |
| Albania | 1987 | female | 75+ years | 1 | 35600 | 2.81 | Albania1987 | 2156624900 | 796 | G.I. Generation |
Primeras filas del conjunto de datos luego de la eliminación
El análisis de datos atípicos es crucial para identificar observaciones que se desvían significativamente de la tendencia general. En este estudio, que incluye 27.820 observaciones con información socioeconómica y demográfica de diversos países, se evaluarán los outliers para determinar si deben ser corregidos o eliminados, o si aportan información valiosa para el análisis. Distinguir adecuadamente estos puntos es esencial para asegurar la validez de los resultados y evitar conclusiones erróneas.
Los boxplots presentados revelan que la mayoría de las variables cuantitativas contienen una cantidad significativa de datos atípicos (outliers), especialmente en variables como “suicides_no”, “population”, “suicides/100k pop”, “gdp_for_year” y “gdp_per_capita”. En estas variables, los valores atípicos están claramente identificados como puntos fuera del rango intercuartílico, indicando una alta variabilidad en los datos. Este comportamiento sugiere que existen países o situaciones excepcionales que generan valores extremadamente altos en comparación con el resto de las observaciones, lo cual puede estar relacionado con factores demográficos, económicos o contextuales específicos. En contraste, la variable “year” muestra una distribución más uniforme y sin outliers significativos.
En esta actividad, exploraremos y analizaremos un conjunto de datos para evaluar la evolución de las tasas de suicidio, PIB per cápita y el IDH en Colombia y Estados Unidos (EEUU). Primero, se verificará la existencia de posibles registros erróneos, luego se filtrarán los países de interés, y se realizarán análisis desglosados por año, género y grupo de edad.
Se realizará una exploración preliminar para identificar posibles errores en la base de datos, tales como valores faltantes, duplicados, valores fuera de rango y categorías inconsistentes en variables cualitativas.
##
## Rango de años presentes en los datos:
##
## [1] 1985 2016
##
## Categorías en la variable 'age':
##
## [1] "15-24 years" "35-54 years" "75+ years" "25-34 years" "55-74 years"
## [6] "5-14 years"
##
## Categorías en la variable 'sex':
##
## [1] "male" "female"
##
## Categorías en la variable 'country':
##
## [1] "Albania" "Antigua and Barbuda"
## [3] "Argentina" "Armenia"
## [5] "Aruba" "Australia"
## [7] "Austria" "Azerbaijan"
## [9] "Bahamas" "Bahrain"
## [11] "Barbados" "Belarus"
## [13] "Belgium" "Belize"
## [15] "Bosnia and Herzegovina" "Brazil"
## [17] "Bulgaria" "Cabo Verde"
## [19] "Canada" "Chile"
## [21] "Colombia" "Costa Rica"
## [23] "Croatia" "Cuba"
## [25] "Cyprus" "Czech Republic"
## [27] "Denmark" "Dominica"
## [29] "Ecuador" "El Salvador"
## [31] "Estonia" "Fiji"
## [33] "Finland" "France"
## [35] "Georgia" "Germany"
## [37] "Greece" "Grenada"
## [39] "Guatemala" "Guyana"
## [41] "Hungary" "Iceland"
## [43] "Ireland" "Israel"
## [45] "Italy" "Jamaica"
## [47] "Japan" "Kazakhstan"
## [49] "Kiribati" "Kuwait"
## [51] "Kyrgyzstan" "Latvia"
## [53] "Lithuania" "Luxembourg"
## [55] "Macau" "Maldives"
## [57] "Malta" "Mauritius"
## [59] "Mexico" "Mongolia"
## [61] "Montenegro" "Netherlands"
## [63] "New Zealand" "Nicaragua"
## [65] "Norway" "Oman"
## [67] "Panama" "Paraguay"
## [69] "Philippines" "Poland"
## [71] "Portugal" "Puerto Rico"
## [73] "Qatar" "Republic of Korea"
## [75] "Romania" "Russian Federation"
## [77] "Saint Kitts and Nevis" "Saint Lucia"
## [79] "Saint Vincent and Grenadines" "San Marino"
## [81] "Serbia" "Seychelles"
## [83] "Singapore" "Slovakia"
## [85] "Slovenia" "South Africa"
## [87] "Spain" "Sri Lanka"
## [89] "Suriname" "Sweden"
## [91] "Switzerland" "Thailand"
## [93] "Trinidad and Tobago" "Turkey"
## [95] "Turkmenistan" "Ukraine"
## [97] "United Arab Emirates" "United Kingdom"
## [99] "United States" "Uruguay"
## [101] "Uzbekistan"
##
## Valores fuera de rango en suicides/100k pop:
##
## # A tibble: 2 × 11
## country year sex age suicides_no population `suicides/100k pop`
## <chr> <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 Aruba 1995 male 75+ years 2 889 225.
## 2 Seychelles 2006 male 75+ years 2 976 205.
## # ℹ 4 more variables: `country-year` <chr>, `gdp_for_year ($)` <dbl>,
## # `gdp_per_capita ($)` <dbl>, generation <chr>
##
## Número de registros duplicados: 0
##
## Valores faltantes por variable:
##
## country year sex age
## 0 0 0 0
## suicides_no population suicides/100k pop country-year
## 0 0 0 0
## gdp_for_year ($) gdp_per_capita ($) generation
## 0 0 0
## # A tibble: 27,820 × 11
## country year sex age suicides_no population `suicides/100k pop`
## <chr> <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 Albania 1987 male 15-24 years 21 312900 6.71
## 2 Albania 1987 male 35-54 years 16 308000 5.19
## 3 Albania 1987 female 15-24 years 14 289700 4.83
## 4 Albania 1987 male 75+ years 1 21800 4.59
## 5 Albania 1987 male 25-34 years 9 274300 3.28
## 6 Albania 1987 female 75+ years 1 35600 2.81
## 7 Albania 1987 female 35-54 years 6 278800 2.15
## 8 Albania 1987 female 25-34 years 4 257200 1.56
## 9 Albania 1987 male 55-74 years 1 137500 0.73
## 10 Albania 1987 female 5-14 years 0 311000 0
## # ℹ 27,810 more rows
## # ℹ 4 more variables: `country-year` <chr>, `gdp_for_year ($)` <dbl>,
## # `gdp_per_capita ($)` <dbl>, generation <chr>
Contexto Global: En la mayoría de los países, las tasas de suicidio suelen estar por debajo de 30 suicidios por cada 100.000 habitantes. Según la Organización Mundial de la Salud (OMS), las tasas más altas se encuentran generalmente en torno a los 20-30 suicidios por cada 100.000 habitantes, incluso en los países con los niveles más altos.
Umbral Alto: Establecer un límite arbitrario de 200 es una forma de identificar posibles valores atípicos o errores de registro, como un número mal ingresado (por ejemplo, si se duplicó el valor por error).
El resultado indica que encontraste dos registros con valores fuera del rango establecido (mayores a 200 suicidios por cada 100.000 habitantes) en los países de Aruba y Seychelles para hombres mayores de 75 años. Estos valores parecen ser extremadamente altos y, en un contexto real, podrían ser considerados como errores de registro o outliers significativos.
# Exclución
#Data <- Data %>%
#filter(`suicides/100k pop` <= 200)
# Imputación
Data <- Data %>%
mutate(`suicides/100k pop` = ifelse(`suicides/100k pop` > 200, median(Data$`suicides/100k pop`, na.rm = TRUE), `suicides/100k pop`))Se filtran los datos para obtener las bases master_col y master_eu, correspondientes a Colombia y EEUU respectivamente.
master_col <- Data %>%
filter(country == "Colombia")
master_eu <- Data %>%
filter(country == "United States")Se busca entender cómo han evolucionado las tasas de suicidio, el PIB per cápita y el IDH en Colombia y EEUU a lo largo de los años.
La gráfica muestra la evolución del PIB per cápita (en miles) y la tasa de suicidios por cada 100.000 habitantes en Colombia a lo largo de los años. La tasa de suicidios (línea celeste) evidencia una notable variabilidad, con picos significativos en diferentes años, lo que indica una inestabilidad en el comportamiento de este indicador. A pesar de estas fluctuaciones, no se observa una tendencia clara de crecimiento o disminución sostenida en la tasa de suicidios a lo largo del tiempo. Por otro lado, el PIB per cápita (línea roja) muestra un crecimiento gradual y sostenido desde 1990 hasta 2015, reflejando un desarrollo económico en el país. A partir de 2010, se percibe un aumento más acelerado en este indicador. Sin embargo, a pesar del incremento económico, la relación con la tasa de suicidios no es directa ni lineal, sugiriendo que otros factores más complejos están influyendo en las tasas de suicidio en Colombia.
La gráfica muestra la evolución del PIB per cápita (en miles) y la tasa de suicidios por cada 100.000 habitantes en Estados Unidos a lo largo de los años. La tasa de suicidios (línea celeste) exhibe cierta estabilidad, con ligeras fluctuaciones en valores relativamente constantes a lo largo del tiempo. Aunque se observan algunos picos, en general, la tasa se mantiene dentro de un rango similar, lo que indica que no ha habido un cambio dramático en las tasas de suicidio durante el período analizado. En contraste, el PIB per cápita (línea roja) ha mostrado un crecimiento continuo y sostenido desde 1990, con un incremento más pronunciado a partir del año 2000. Este crecimiento económico no parece tener un impacto directo en la tasa de suicidios, lo que sugiere que factores distintos al desarrollo económico están desempeñando un papel más importante en la estabilidad de las tasas de suicidio en Estados Unidos.
Este análisis desglosa las tasas de suicidio, PIB per cápita e IDH por género en Colombia y EEUU.
La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Colombia, desglosada por género (masculino y femenino) a lo largo de los años. La tasa de suicidios en hombres (línea celeste) es consistentemente más alta que en mujeres (línea roja) durante todo el período analizado. Los hombres presentan tasas significativamente más elevadas, con fluctuaciones notables y picos que alcanzan más de 20 suicidios por cada 100.000 habitantes en algunos años. En contraste, la tasa de suicidios en mujeres se mantiene en niveles mucho más bajos, sin superar los 5 suicidios por cada 100.000 habitantes. Además, mientras que la tendencia en hombres muestra una alta volatilidad y cierta estabilidad en los picos después de 2000, la tendencia en mujeres sigue siendo relativamente constante, sin grandes cambios a lo largo del tiempo.
La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Estados Unidos, desglosada por género (masculino y femenino) a lo largo de los años. De manera consistente, la tasa de suicidios en hombres (línea celeste) es significativamente mayor que en mujeres (línea roja) durante todo el período analizado. En las primeras décadas, especialmente antes del año 2000, la tasa de suicidios en hombres alcanza su punto más alto, superando los 50 suicidios por cada 100.000 habitantes. Posteriormente, se observa una reducción y estabilización en torno a los 40 suicidios por cada 100.000 habitantes. Por otro lado, la tasa de suicidios en mujeres se mantiene baja y relativamente estable a lo largo del tiempo, sin superar los 10 suicidios por cada 100.000 habitantes.
Se analiza cómo las tasas de suicidio han evolucionado en ambos países cuando se desglosan por grupo de edad.
La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Colombia, desglosada por grupo de edad, a lo largo de los años. El grupo de edad de 75 años y más (línea morada) presenta consistentemente las tasas de suicidio más altas, con picos que superan los 20 suicidios por cada 100.000 habitantes en algunos años. Este grupo muestra una tendencia volátil, con fluctuaciones pronunciadas desde los años 90 hasta 2015. En contraste, los grupos de edad más jóvenes, como el de 5 a 14 años (línea azul claro) y el de 15 a 24 años (línea roja), tienen tasas de suicidio mucho más bajas y estables, manteniéndose por debajo de los 5 suicidios por cada 100.000 habitantes durante la mayor parte del período.
Entre los grupos intermedios (25 a 74 años), las tasas de suicidio se mantienen en niveles moderados, con una tendencia ligeramente ascendente en las décadas más recientes, aunque nunca alcanzan los picos observados en los mayores de 75 años.
En resumen, la gráfica revela que el suicidio en Colombia es un problema más pronunciado en la población de mayor edad, especialmente en quienes tienen 75 años o más, mientras que los grupos más jóvenes muestran una incidencia considerablemente menor. Esto sugiere la necesidad de enfoques preventivos diferenciados según la edad, considerando que los factores de riesgo pueden variar significativamente entre las distintas generaciones.
La gráfica muestra la evolución de la tasa de suicidios por cada 100.000 habitantes en Estados Unidos, desglosada por grupo de edad. El grupo de 75 años o más (línea morada) presenta consistentemente las tasas más elevadas de suicidio, con picos que superan los 60 suicidios por cada 100.000 habitantes antes de 1990. Sin embargo, a partir de ese año se observa una disminución significativa en esta tasa, que se estabiliza en niveles más bajos durante las décadas posteriores, aunque sigue siendo la más alta en comparación con otros grupos etarios. Los grupos intermedios (25 a 74 años) también presentan tasas de suicidio relevantes, aunque en un rango más moderado, generalmente entre 10 y 20 suicidios por cada 100.000 habitantes. Por otro lado, los grupos más jóvenes (5 a 24 años) tienen las tasas más bajas y estables, sin superar los 10 suicidios por cada 100.000 habitantes a lo largo del tiempo.
Este análisis destaca que, aunque se ha logrado una reducción importante en la tasa de suicidios en la población mayor de 75 años, este sigue siendo el grupo más afectado en comparación con otros. Las diferencias entre grupos etarios sugieren la necesidad de enfoques preventivos específicos según la edad, especialmente enfocados en la población mayor, que parece ser la más vulnerable en Estados Unidos a lo largo de las décadas.