Información de los datos

Column

Estadísticas generales

 ano_del_hecho  mes_del_hecho    hora_del_hecho   identidad_de_genero
 Min.   :2015   Min.   : 1.000   Min.   : 5370   Hombre     :21357   
 1st Qu.:2017   1st Qu.: 4.000   1st Qu.:26970   Mujer      : 5189   
 Median :2020   Median : 7.000   Median :48570   Transgénero:   12   
 Mean   :2020   Mean   : 6.548   Mean   :45627                       
 3rd Qu.:2022   3rd Qu.:10.000   3rd Qu.:59370                       
 Max.   :2024   Max.   :12.000   Max.   :80970                       
                NA's   :30       NA's   :18416                       
 edad_quinquenal                    estado_civil  
 Min.   : 7.00   Casado/a                 : 3383  
 1st Qu.:22.00   No aplica                :   28  
 Median :32.00   Separado/a o Divorciado/a: 1181  
 Mean   :37.99   Sin información          : 2855  
 3rd Qu.:52.00   Soltero/a                :12547  
 Max.   :80.00   Unión libre              : 6067  
                 Viudo/a                  :  497  
                  escolaridad                    orientacion_sexual
 Básica primaria        :7030   Asexual                   :  262   
 Media / Secundaria alta:4988   Bisexual                  :    4   
 Básica secundaria      :4454   Heterosexual              : 3815   
 Sin información        :4355   Homosexual                :   73   
 Preescolar             :2880   No había sido implementada:17397   
 Técnica / Tecnológica  :1889   No Sabe / No Informa      : 5007   
 (Other)                : 962                                      
                                      pertenencia_grupal
 Ninguno                                       :19178   
 Sin información                               : 3030   
 Campesinos / Trabajadores del campo           : 1094   
 Otro                                          :  920   
 Persona adicta a una droga natural o sintética:  744   
 Grupos étnicos                                :  692   
 (Other)                                       :  900   
                   ciclo_vital     departamento_del_hecho_dane
 (06 a 11) Infancia      :  185   Antioquia      : 4419       
 (12 a 17) Adolescencia  : 2605   Bogotá, D.C.   : 3070       
 (18 a 28) Juventud      : 7883   Valle del Cauca: 2321       
 (29 a 59) Adultez       :11620   Cundinamarca   : 1654       
 (Más de 60) Adulto Mayor: 4265   Santander      : 1262       
                                  Tolima         : 1021       
                                  (Other)        :12811       
 municipio_del_hecho_dane       pais_de_nacimiento
 Bogotá, D.C.: 3070       Colombia       :25893   
 Medellín    : 1830       Venezuela      :  447   
 Cali        :  940       Sin información:  100   
 Bogotá D.C. :  666       Estados Unidos :   33   
 Barranquilla:  483       España         :   11   
 Ibagué      :  433       Ecuador        :   10   
 (Other)     :19136       (Other)        :   64   
                        escenario_del_hecho
 Vivienda                         :19583   
 Vía pública                      : 1288   
 Espacios terrestres al aire libre: 1153   
 Otros                            :  852   
 Sin información                  :  757   
 Actividades agropecuarias        :  656   
 (Other)                          : 2269   
         mecanismo_causal_de_la_lesion_fatal
 Generadores de asfixia    :17538           
 Tóxico                    : 4216           
 Proyectil de arma de fuego: 2593           
 Contundente               : 1595           
 Corto punzante            :  285           
 Cortante                  :  152           
 (Other)                   :  179           
 diagnostico_topografico_de_la_lesion_fatal
 Trauma de cuello:16461                    
 Sin lesiones    : 2756                    
 Trauma craneano : 2604                    
 Politraumatismo : 2520                    
 Sin información :  587                    
 Trauma de tórax :  563                    
 (Other)         : 1067                    
                        razon_del_suicidio       id       
 Sin información                 :14058    Min.   :    1  
 Enfermedad física o mental      : 4297    1st Qu.: 6640  
 Conflicto con pareja o ex pareja: 2710    Median :13280  
 Desamor                         : 1742    Mean   :13280  
 Económicas                      : 1638    3rd Qu.:19919  
 Otras                           :  629    Max.   :26558  
 (Other)                         : 1484                   

Column

Descripción de los datos

El suicidio es un problema de salud pública de gran impacto en Colombia y en el mundo.
Este informe explora los registros oficiales de presuntos suicidios en Colombia entre 2015 y 2024, reportados por el Instituto Nacional de Medicina Legal y Ciencias Forenses.

El conjunto de datos contiene información:

  • Temporal (año, mes y, cuando se dispone, hora del hecho).
  • Sociodemográfica (género, edad, ciclo vital, escolaridad, estado civil, orientación sexual, etc.).
  • Espacial (departamento y municipio del hecho).
  • Circunstancias (escenario, mecanismo, diagnóstico de la lesión fatal y razón del suicidio).

Imagen ilustrativa

Conjunto de datos

Row

Tamaño de la muestra y número de variables

Aquí se resume el tamaño del conjunto de datos y cuántas variables se usan en la base final después de la depuración.

  Número.de.registros Número.de.variables Variables.cuantitativas
1               26558                  18                       5
  Variables.cualitativas
1                     13

Row

Descripción del conjunto de datos

El conjunto de datos final corresponde a los registros de presuntos suicidios ocurridos en Colombia entre 2015 y 2024.

Cada fila representa un caso individual y contiene información sobre:

  • Tiempo: año, mes y hora del hecho (cuando está disponible).
  • Víctima: identidad de género, rango de edad (quinquenal), ciclo vital, estado civil, nivel educativo, orientación sexual y pertenencia a grupos específicos.
  • Ubicación del hecho: departamento, municipio y país de nacimiento.
  • Circunstancias: escenario donde ocurrió el hecho, mecanismo causal de la lesión fatal, diagnóstico topográfico y razón reportada del suicidio.

La base original fue sometida a un proceso de limpieza y estandarización para obtener la estructura que se describe en este tablero.

Row

Variables incluidas en el archivo final

Limpieza y procesamiento de datos

Row

Resumen general de la limpieza

El conjunto de datos original presentaba problemas típicos de bases reales:

  • Categorías duplicadas por tildes, mayúsculas o variaciones de escritura.
  • Variables muy específicas o con poca variabilidad.
  • Valores faltantes (NA) en algunas columnas.
  • Variables de género y sexo separadas que podían entrar en conflicto.

El objetivo del procesamiento fue dejar una base coherente, consistente y manejable para el análisis descriptivo. Para ello se hicieron tres tipos de tareas principales:

  1. Unificación de categorías.
  2. Creación de variables consolidadas (por ejemplo, identidad de género).
  3. Eliminación de columnas redundantes o poco informativas.

Row

Antes de hacer limpieza

Row

Despues de hacer limpieza

Row

Detalle de transformaciones aplicadas

  • Unificación de categorías en:

    • grupo_mayor_menor_de_edad
    • escolaridad
    • estado_civil
    • pertenencia_grupal
    • pertenencia_etnica
    • escenario_del_hecho
    • mecanismo_causal_de_la_lesion_fatal
    • diagnostico_topografico_de_la_lesion_fatal
    • razon_del_suicidio
  • Construcción de identidad_de_genero final, combinando la información de sexo biológico e identidad de género declarada.

  • Eliminación de columnas con poca utilidad para el análisis descriptivo inicial, entre ellas:
    dia_del_hecho, codigo_dane_municipio, codigo_dane_departamento, manera_de_muerte, localidad_del_hecho, grupo_de_edad_judicial, pueblo_indigena, ancestro_racial, zona_del_hecho, circunstancia_del_hecho_detallada, entre otras.

  • Tratamiento de valores faltantes:

    • En mes_del_hecho, los NA se reemplazaron por "Sin información".
    • En hora_del_hecho, se decidió no imputar y dejar NA.
    • En otras variables se consolidaron las categorías “Sin información” / “No aplica”.
  • Reordenamiento de columnas para agrupar variables en bloques temporales, sociodemográficos, de ubicación y de circunstancias del hecho.

Estadística descriptiva

Row

Resumen numérico de variables cuantitativas

En esta tabla se muestran medidas de tendencia central y dispersión para las variables numéricas.

Row

Distribución de algunas variables cualitativas

Aquí se resume la frecuencia y proporción de categorías en algunas variables clave. Esto permite identificar cuáles son las categorías dominantes en la base.

$`Identidad de género`
  identidad_de_genero Frecuencia Proporcion
1              Hombre      21357      80.42
2               Mujer       5189      19.54
3         Transgénero         12       0.05

$`Estado civil`
               estado_civil Frecuencia Proporcion
1                  Casado/a       3383      12.74
2                 No aplica         28       0.11
3 Separado/a o Divorciado/a       1181       4.45
4           Sin información       2855      10.75
5                 Soltero/a      12547      47.24
6               Unión libre       6067      22.84
7                   Viudo/a        497       1.87

$Escolaridad
                   escolaridad Frecuencia Proporcion
1              Básica primaria       7030      26.47
2            Básica secundaria       4454      16.77
3                    Doctorado          5       0.02
4   Especialización / Maestría         46       0.17
5      Media / Secundaria alta       4988      18.78
6                   Preescolar       2880      10.84
7  Profesional / Universitario         85       0.32
8    Sin escolaridad / ninguna        826       3.11
9              Sin información       4355      16.40
10       Técnica / Tecnológica       1889       7.11

$`Orientación sexual`
          orientacion_sexual Frecuencia Proporcion
1                    Asexual        262       0.99
2                   Bisexual          4       0.02
3               Heterosexual       3815      14.36
4                 Homosexual         73       0.27
5 No había sido implementada      17397      65.51
6       No Sabe / No Informa       5007      18.85

$`Pertenencia grupal`
                                                pertenencia_grupal Frecuencia
1                              Campesinos / Trabajadores del campo       1094
2                                                       Concejales          1
3  Consumidores de sustancias psicoactivas (drogas, alcohol, etc.)         98
4                                                     Discapacidad         17
5                              Ejercicio de actividades judiciales          7
6                               Ejercicio de actividades políticas          1
7                  Ejercicio de actividades sindicales o gremiales          1
8                                     Ejercicio del trabajo sexual          2
9                                          Funcionarios judiciales         43
10                                                  Grupos étnicos        692
11           Herido y/o enfermo bajo protección sanitaria o medica          1
12           Herido y/o enfermo bajo protección sanitaria o médica          3
13                                                           LGBT+        138
14                                            Liderazgo / Política          6
15                                          Magisterio / Educación         64
16                                              Múltiples factores          2
17                                                         Ninguno      19178
18                                                             ONG          4
19                                                            Otro        920
20                                                      Periodismo          4
21                  Persona adicta a una droga natural o sintética        744
22                          Persona en condición de desplazamiento        103
23                                   Persona en situación de calle         66
24                            Persona en situación de prostitución          2
25                        Persona que ejerce actividades políticas          2
26                          Personas desmovilizadas o reinsertadas          7
27                           Personas en situación de prostitución          2
28                      Personas que ejercen actividades políticas         12
29                                 Pertenecientes a grupos étnicos         53
30                                            Pertenencia múltiple         38
31                                            Privados de libertad        148
32                                                    Recicladores         19
33                                                       Religioso         13
34                                      Salud / Misión humanitaria         34
35                                                Servidor público          8
36                                                 Sin información       3030
37                                              Trabajadora sexual          1
   Proporcion
1        4.12
2        0.00
3        0.37
4        0.06
5        0.03
6        0.00
7        0.00
8        0.01
9        0.16
10       2.61
11       0.00
12       0.01
13       0.52
14       0.02
15       0.24
16       0.01
17      72.21
18       0.02
19       3.46
20       0.02
21       2.80
22       0.39
23       0.25
24       0.01
25       0.01
26       0.03
27       0.01
28       0.05
29       0.20
30       0.14
31       0.56
32       0.07
33       0.05
34       0.13
35       0.03
36      11.41
37       0.00

$`Ciclo vital`
               ciclo_vital Frecuencia Proporcion
1       (06 a 11) Infancia        185       0.70
2   (12 a 17) Adolescencia       2605       9.81
3       (18 a 28) Juventud       7883      29.68
4        (29 a 59) Adultez      11620      43.75
5 (Más de 60) Adulto Mayor       4265      16.06

$`Razón del suicidio`
                   razon_del_suicidio Frecuencia Proporcion
1       Abuso de sustancias y alcohol        436       1.64
2             Acceso a armas de fuego         24       0.09
3           Adicción a juegos de azar          6       0.02
4                            Bullying         50       0.19
5                          Ciberacoso          5       0.02
6    Conflicto con pareja o ex pareja       2710      10.20
7            Contacto sexual engañoso          1       0.00
8                             Desamor       1742       6.56
9                          Económicas       1638       6.17
10         Enfermedad física o mental       4297      16.18
11             Escolares / educativas        125       0.47
12                Estado de gestación          4       0.02
13                          Jurídicas        150       0.56
14                          Laborales        105       0.40
15 Maltrato físico/sexual/psicológico         97       0.37
16      Muerte de un familiar o amigo        390       1.47
17         Orientación sexual diversa         27       0.10
18                              Otras        629       2.37
19                    Sin información      14058      52.93
20    Suicidio de un familiar o amigo         45       0.17
21           Víctima de hostigamiento         19       0.07

Graficos (Top 10)

Column

Principales razones del suicidio (Top 10)

Este gráfico muestra las diez razones más frecuentes asociadas a los casos de suicidio registrados entre 2015 y 2024. La categoría “Sin información” ocupa el primer lugar con una frecuencia significativamente superior a las demás, lo que refleja una limitación en la calidad del registro y sugiere que, en muchos casos, no se dispone de datos suficientes sobre el motivo del suicidio.

Entre las razones reportadas, “Enfermedad física o mental” constituye el motivo más común, seguida por “Conflicto con pareja o ex pareja”, “Desamor” y “Económicas”, lo cual indica que los factores emocionales, de salud y socioeconómicos representan una parte importante de los casos.

Razones menos frecuentes, como “Muerte de un familiar o amigo”, “Jurídicas” o “Escolares / educativas”, aunque presentan un número menor de casos, permiten identificar situaciones específicas que también pueden influir en comportamientos suicidas. Este análisis aporta una visión clara de los factores predominantes y ayuda a orientar estrategias de prevención y apoyo según el tipo de motivo registrado.

Grafico

Column

Escenarios del hecho más frecuentes (Top 10)

El gráfico muestra los diez escenarios donde se registran más casos de suicidio. La categoría “Vivienda” destaca ampliamente como el lugar más frecuente, lo que sugiere que la mayoría de estos hechos ocurren en espacios privados donde las personas suelen estar solas y sin supervisión.

Le siguen, aunque a mucha distancia, escenarios como “Vía pública”, “Espacios terrestres al aire libre”, “Otros” y “Sin información”. Las demás categorías —como “Actividades agropecuarias”, “Hospedaje”, “Centro de atención médica” o “Guarniciones militares/policía”— presentan frecuencias menores.

En conjunto, el gráfico evidencia que el suicidio ocurre principalmente en entornos privados y domiciliarios, mientras que los casos en espacios públicos o institucionales son mucho menos comunes.

Grafico

Graficos (mes y año)

Column

Distribución de suicidios por año

El gráfico muestra la evolución anual de los casos de suicidio entre 2015 y 2024. Se observa una tendencia general al aumento, pasando de poco más de 2.000 casos en 2015 a valores cercanos o superiores a 3.000 en los últimos años del periodo.

Aunque existen pequeñas fluctuaciones —como las disminuciones en 2019 y 2020— la tendencia global indica un crecimiento sostenido en la incidencia de suicidios, especialmente notable a partir de 2021.

Este comportamiento sugiere que el problema ha ganado relevancia en los últimos años, pudiendo relacionarse con factores sociales, económicos y de salud mental.

Grafico

Column

Suicidios por mes

El gráfico muestra la distribución mensual de los casos de suicidio registrados a lo largo del periodo 2015–2024. Se observa que los valores se mantienen relativamente constantes entre los meses, con variaciones pequeñas que sugieren la ausencia de un patrón estacional marcado.

Aunque algunos meses presentan ligeros aumentos —por ejemplo, julio y diciembre suelen mostrar frecuencias algo superiores— dichos incrementos no representan picos drásticos. Esto indica que el comportamiento mensual del suicidio es bastante uniforme, sin evidencias claras de concentración en temporadas específicas como vacaciones, fin de año o temporadas escolares.

Este análisis es útil para descartar hipótesis de estacionalidad fuerte y refuerza la idea de que los suicidios dependen más de factores individuales, psicológicos y sociales que de variaciones temporales asociadas al calendario.

Grafico

Graficos

Column

Distribución por identidad de género

El gráfico muestra la distribución de suicidios según la identidad de género. Se observa que la mayoría de los casos corresponde a hombres, con una cifra ampliamente superior frente a la de mujeres. La categoría transgénero aparece con un número muy reducido de casos, lo que refleja una presencia mucho menor dentro del registro total.

Este patrón coincide con tendencias internacionales donde los hombres presentan tasas más altas de suicidio consumado, mientras que las mujeres tienden a mostrar mayores tasas de intento.

Grafico

Column

Distribución por rango de edad (quinquenal)

El gráfico evidencia cómo se distribuyen los suicidios según grupos de edad quinquenales. Se observa un aumento progresivo desde la adolescencia hasta alcanzar un pico significativo en el grupo de 20 a 24 años, seguido de valores también altos entre los 25 y 39 años.

A partir de los 40 años, la frecuencia comienza a disminuir de manera gradual, manteniendo una tendencia descendente hacia los grupos de mayor edad. Esto indica que los adultos jóvenes constituyen el segmento con mayor incidencia, lo cual es coherente con estudios que destacan esta etapa como crítica en términos de vulnerabilidad emocional, social y económica.

Grafico

Análisis con dos variables cuantitativas

Row

Selección de variables y objetivo

En este apartado se estudia la relación entre dos variables cuantitativas del conjunto de datos:

  • ano_del_hecho: año en el que ocurrió el suicidio.
  • edad_quinquenal: edad.

El objetivo es:

  • Calcular la correlación de Pearson entre ambas variables.
  • Construir la matriz de correlación de todas las variables numéricas.
  • Visualizar la relación mediante un gráfico de dispersión con recta de tendencia.

Correlación de Pearson entre año del hecho y edad quinquenal

[1] 0.02267661

Interpretación:
El valor obtenido representa el grado de relación lineal entre la edad del fallecido y el año en que ocurrió el suicidio.
Valores cercanos a 0 indican una relación lineal muy débil o inexistente, mientras que valores cercanos a 1 o –1 señalan una relación fuerte (positiva o negativa).

Row

Matriz de correlación entre variables numéricas del conjunto de datos

La matriz se calcula de manera interna para permitir la visualización gráfica en el siguiente apartado.

Comentarios generales:

  • Valores cercanos a 1 indican fuerte relación positiva.
  • Valores cercanos a –1 indican fuerte relación negativa.
  • Valores cercanos a 0 indican muy poca relación lineal.

Dado que las variables numéricas del conjunto están asociadas principalmente con información temporal (año, mes, hora) y escalas de edad, es esperable que las correlaciones sean bajas o moderadas.

Visualización gráfica de la matriz de correlación

Row

Gráfico de dispersión: año del hecho vs edad quinquenal

Interpretación del gráfico

El gráfico muestra cómo se relacionan la edad de las víctimas y el año en que ocurrió el suicidio:

  • La nube de puntos permite identificar si hay tendencia ascendente, descendente o nula.
  • La línea roja representa la tendencia lineal estimada.
  • Si la línea es casi horizontal, la relación entre las variables es débil.

En este caso, suele observarse que la distribución de edades se mantiene relativamente estable a través del tiempo, lo que concuerda con valores de correlación cercanos a cero.

Diagrama de cajas: variable cuantitativa vs cualitativa

Row

Planteamiento del análisis

En este apartado se analizan conjuntamente:

  • Variable cuantitativa: ano_del_hecho.
  • Variable cualitativa: identidad_de_genero.

El objetivo es comparar la distribución del año en que ocurrieron los suicidios entre los diferentes grupos de identidad de género, utilizando diagramas de cajas (boxplots).

Cada caja representa la distribución de ano_del_hecho para un grupo de identidad de género:

  • La línea central indica la mediana del año dentro de cada grupo.
  • Los bordes de la caja representan el rango intercuartílico (Q1–Q3).
  • Cualquier punto atípico (si aparece) indicaría años menos frecuentes o valores alejados del patrón general.

Este gráfico permite identificar si los casos de suicidio en ciertos géneros se concentran más en años recientes o si la distribución temporal es similar entre hombres, mujeres y personas transgénero.

Row

Diagrama de cajas por grupos (año del hecho según género)

Análisis entre dos variables cualitativas

Row

Tabla cruzada (frecuencias absolutas)

Descripcion de tabla cruzada

La tabla cruzada muestra la distribución de las principales razones del suicidio según la identidad de género. En todos los motivos analizados, los hombres presentan una frecuencia considerablemente mayor que las mujeres y las personas transgénero.

Los motivos más comunes para ambos géneros son la enfermedad física o mental, el conflicto de pareja y el desamor, aunque siempre con una proporción mucho mayor en hombres.

Row

Diagrama de barras apiladas (proporciones por género)

Analisis de barras apiladas

El gráfico de barras apiladas en proporciones facilita comparar visualmente la composición de motivos entre hombres, mujeres y personas transgénero.

Este análisis complementa la estadística descriptiva univariada y aporta evidencia sobre posibles diferencias en los motivos de suicidio según la identidad de género.

Pronósticos

Row

Pronósticos de suicidios en el tiempo

En esta sección se analiza la evolución temporal de los suicidios en Colombia y se realiza un pronóstico a partir de una serie de tiempo construida con el número de casos por año.

Se utiliza una metodología de suavización exponencial (Holt-Winters / ETS), adecuada para series con tendencia suave y sin fuertes patrones estacionales anuales.

Construcción de la serie de tiempo

Primero se agrupan los datos por año del hecho y se construye una serie de tiempo con esos totales.

   ano_del_hecho n_casos
1           2015    2068
2           2016    2310
3           2017    2571
4           2018    2696
5           2019    2643
6           2020    2420
7           2021    2689
8           2022    2952
9           2023    3195
10          2024    3014
Time Series:
Start = 2015 
End = 2024 
Frequency = 1 
 [1] 2068 2310 2571 2696 2643 2420 2689 2952 3195 3014

La tabla muestra el número total de casos por año entre 2015 y 2024, y ts_anual es la serie de tiempo sobre la cual se aplicará el modelo de pronóstico.

Row

Ajuste de un modelo de suavización exponencial (ETS)

Se utiliza la función ets() del paquete forecast, que ajusta automáticamente un modelo de suavización exponencial adecuado a la serie (con o sin tendencia, con o sin componente multiplicativo, etc.).

ETS(A,N,N) 

Call:
ets(y = ts_anual)

  Smoothing parameters:
    alpha = 0.9999 

  Initial states:
    l = 2066.6494 

  sigma:  231.3591

     AIC     AICc      BIC 
135.6738 139.6738 136.5816 

La salida del modelo indica el tipo de suavización utilizada (por ejemplo, modelo con tendencia aditiva) y los parámetros estimados de suavización.

Grafico pronostico

Row

Pronóstico para los próximos años

A continuación se genera un pronóstico para los próximos 3 años y se visualiza junto con los datos históricos.

     Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
2025       3014.018 2717.520 3310.517 2560.563 3467.474
2026       3014.018 2594.727 3433.309 2372.767 3655.269
2027       3014.018 2500.502 3527.535 2228.663 3799.374

El gráfico muestra en azul los datos observados y en color sombreado el intervalo de confianza del pronóstico. Las bandas más anchas indican mayor incertidumbre a medida que se proyectan años más lejanos.

Interpretación del pronóstico

  • El modelo de suavización exponencial captura la tendencia general de la serie histórica de suicidios.
  • Si la tendencia estimada es creciente, el pronóstico sugerirá un aumento esperado en el número de casos en los próximos años; si es estable, los valores futuros tenderán a mantenerse cercanos al promedio reciente.
  • Es importante interpretar estos resultados con precaución:
    • El modelo se basa exclusivamente en el comportamiento histórico de la serie.
    • No incorpora información externa (como políticas públicas, cambios en la atención en salud mental, crisis económicas, etc.).

Por tanto, el pronóstico debe entenderse como una proyección estadística condicionada a la prolongación de las tendencias observadas y no como una predicción exacta del número de casos futuros.

Row

Grafico del pronostico

---
title: "Suicidios en Colombia"
author: "Valentina y Jhojan"
date: "2025-11-14"
output:
  flexdashboard::flex_dashboard:
    orientation: column
    social: menu
    source_code: embed
    theme: cosmo
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE)

library(ggplot2)
library(dplyr)
library(corrplot)
library(forecast)

suicidios <- read.csv("suicidios_colombia_2015_2024_final.csv",
                      stringsAsFactors = TRUE)
```

Información de los datos
==================================================================

Column {data-width=50%}
------------------------------------------------------------------

### Estadísticas generales

```{r}
summary(suicidios)
```

Column {data-width=50%}
------------------------------------------------------------------

### Descripción de los datos

El suicidio es un problema de salud pública de gran impacto en Colombia y en el mundo.  
Este informe explora los registros oficiales de **presuntos suicidios en Colombia entre 2015 y 2024**,
reportados por el Instituto Nacional de Medicina Legal y Ciencias Forenses.

El conjunto de datos contiene información:

- Temporal (año, mes y, cuando se dispone, hora del hecho).  
- Sociodemográfica (género, edad, ciclo vital, escolaridad, estado civil, orientación sexual, etc.).  
- Espacial (departamento y municipio del hecho).  
- Circunstancias (escenario, mecanismo, diagnóstico de la lesión fatal y razón del suicidio).

### Imagen ilustrativa

![](suicidios_colombia.jpg){width=100%}


Conjunto de datos
==================================================================

Row
------------------------------------------------------------------

### Tamaño de la muestra y número de variables

Aquí se resume el tamaño del conjunto de datos y cuántas variables se usan en la base final
después de la depuración.

```{r}
n_filas <- nrow(suicidios)
n_columnas <- ncol(suicidios)
n_cuant <- suicidios |> select(where(is.numeric)) |> ncol()
n_cuali  <- n_columnas - n_cuant

data.frame(
  `Número de registros` = n_filas,
  `Número de variables` = n_columnas,
  `Variables cuantitativas` = n_cuant,
  `Variables cualitativas` = n_cuali
)
```

Row
------------------------------------------------------------------

### Descripción del conjunto de datos

El conjunto de datos final corresponde a los registros de **presuntos suicidios ocurridos en
Colombia entre 2015 y 2024**.  

Cada fila representa un caso individual y contiene información sobre:

- **Tiempo:** año, mes y hora del hecho (cuando está disponible).  
- **Víctima:** identidad de género, rango de edad (quinquenal), ciclo vital, estado civil,
  nivel educativo, orientación sexual y pertenencia a grupos específicos.  
- **Ubicación del hecho:** departamento, municipio y país de nacimiento.  
- **Circunstancias:** escenario donde ocurrió el hecho, mecanismo causal de la lesión fatal,
  diagnóstico topográfico y razón reportada del suicidio.  

La base original fue sometida a un proceso de limpieza y estandarización para obtener la
estructura que se describe en este tablero.

Row
------------------------------------------------------------------

### Variables incluidas en el archivo final


![](variables.jpeg)

Limpieza y procesamiento de datos
==================================================================

Row
------------------------------------------------------------------

### Resumen general de la limpieza

El conjunto de datos original presentaba problemas típicos de bases reales:

- Categorías duplicadas por tildes, mayúsculas o variaciones de escritura.
- Variables muy específicas o con poca variabilidad.
- Valores faltantes (NA) en algunas columnas.
- Variables de género y sexo separadas que podían entrar en conflicto.

El objetivo del procesamiento fue dejar una base **coherente, consistente y manejable** para el
análisis descriptivo. Para ello se hicieron tres tipos de tareas principales:

1. **Unificación de categorías.**  
2. **Creación de variables consolidadas (por ejemplo, identidad de género).**  
3. **Eliminación de columnas redundantes o poco informativas.**

Row
------------------------------------------------------------------

### Antes de hacer limpieza

![](antes.jpeg)

Row
------------------------------------------------------------------

### Despues de hacer limpieza

![](despues.jpeg)

Row
------------------------------------------------------------------

### Detalle de transformaciones aplicadas

- **Unificación de categorías** en:
  - `grupo_mayor_menor_de_edad`
  - `escolaridad`
  - `estado_civil`
  - `pertenencia_grupal`
  - `pertenencia_etnica`
  - `escenario_del_hecho`
  - `mecanismo_causal_de_la_lesion_fatal`
  - `diagnostico_topografico_de_la_lesion_fatal`
  - `razon_del_suicidio`

- **Construcción de `identidad_de_genero` final**, combinando la información de sexo biológico
  e identidad de género declarada.

- **Eliminación de columnas** con poca utilidad para el análisis descriptivo inicial, entre ellas:  
  `dia_del_hecho`, `codigo_dane_municipio`, `codigo_dane_departamento`,
  `manera_de_muerte`, `localidad_del_hecho`, `grupo_de_edad_judicial`,
  `pueblo_indigena`, `ancestro_racial`, `zona_del_hecho`,
  `circunstancia_del_hecho_detallada`, entre otras.

- **Tratamiento de valores faltantes:**
  - En `mes_del_hecho`, los NA se reemplazaron por `"Sin información"`.  
  - En `hora_del_hecho`, se decidió **no imputar** y dejar NA.  
  - En otras variables se consolidaron las categorías “Sin información” / “No aplica”.

- **Reordenamiento de columnas** para agrupar variables en bloques temporales,
  sociodemográficos, de ubicación y de circunstancias del hecho.

Estadística descriptiva
==================================================================

Row
------------------------------------------------------------------

### Resumen numérico de variables cuantitativas

En esta tabla se muestran medidas de tendencia central y dispersión para
las variables numéricas.

![](cualitativas.jpeg)

Row
------------------------------------------------------------------

### Distribución de algunas variables cualitativas

Aquí se resume la frecuencia y proporción de categorías en algunas variables clave.
Esto permite identificar cuáles son las categorías dominantes en la base.

```{r}
resumen_cualitativas <- function(var) {
  suicidios |>
    count({{var}}, name = "Frecuencia") |>
    mutate(Proporcion = round(100 * Frecuencia / sum(Frecuencia), 2))
}

list(
  "Identidad de género" = resumen_cualitativas(identidad_de_genero),
  "Estado civil"        = resumen_cualitativas(estado_civil),
  "Escolaridad"         = resumen_cualitativas(escolaridad),
  "Orientación sexual"  = resumen_cualitativas(orientacion_sexual),
  "Pertenencia grupal"  = resumen_cualitativas(pertenencia_grupal),
  "Ciclo vital"         = resumen_cualitativas(ciclo_vital),
  "Razón del suicidio"  = resumen_cualitativas(razon_del_suicidio)
)
```

Graficos (Top 10)
==================================================================

Column {data-width=50%}
------------------------------------------------------------------

### Principales razones del suicidio (Top 10)

Este gráfico muestra las diez razones más frecuentes asociadas a los casos de suicidio registrados entre 2015 y 2024.
La categoría “Sin información” ocupa el primer lugar con una frecuencia significativamente superior a las demás, lo que refleja una limitación en la calidad del registro y sugiere que, en muchos casos, no se dispone de datos suficientes sobre el motivo del suicidio.

Entre las razones reportadas, “Enfermedad física o mental” constituye el motivo más común, seguida por “Conflicto con pareja o ex pareja”, “Desamor” y “Económicas”, lo cual indica que los factores emocionales, de salud y socioeconómicos representan una parte importante de los casos.

Razones menos frecuentes, como “Muerte de un familiar o amigo”, “Jurídicas” o “Escolares / educativas”, aunque presentan un número menor de casos, permiten identificar situaciones específicas que también pueden influir en comportamientos suicidas.
Este análisis aporta una visión clara de los factores predominantes y ayuda a orientar estrategias de prevención y apoyo según el tipo de motivo registrado.


### Grafico
```{r}
suicidios %>%
  count(razon_del_suicidio, sort = TRUE) %>%
  slice_max(n, n = 10) %>%
  ggplot(aes(x = reorder(razon_del_suicidio, n), y = n)) +
  geom_col(fill = "red") +
  coord_flip() +
  labs(x = "Razón del suicidio", y = "Número de casos",
       title = "Principales razones del suicidio (Top 10)")
```

Column {data-width=50%}
------------------------------------------------------------------

### Escenarios del hecho más frecuentes (Top 10)

El gráfico muestra los diez escenarios donde se registran más casos de suicidio.
La categoría “Vivienda” destaca ampliamente como el lugar más frecuente, lo que sugiere que la mayoría de estos hechos ocurren en espacios privados donde las personas suelen estar solas y sin supervisión.

Le siguen, aunque a mucha distancia, escenarios como “Vía pública”, “Espacios terrestres al aire libre”, “Otros” y “Sin información”.
Las demás categorías —como “Actividades agropecuarias”, “Hospedaje”, “Centro de atención médica” o “Guarniciones militares/policía”— presentan frecuencias menores.

En conjunto, el gráfico evidencia que el suicidio ocurre principalmente en entornos privados y domiciliarios, mientras que los casos en espacios públicos o institucionales son mucho menos comunes.

### Grafico

```{r}
suicidios %>%
  count(escenario_del_hecho, sort = TRUE) %>%
  slice_max(n, n = 10) %>%
  ggplot(aes(x = reorder(escenario_del_hecho, n), y = n)) +
  geom_col(fill = "steelblue") +
  coord_flip() +
  labs(x = "Escenario del hecho", y = "Número de casos",
       title = "Escenarios del hecho más frecuentes (Top 10)")
``` 

Graficos (mes y año)
==================================================================

Column {data-width=50%}
------------------------------------------------------------------

### Distribución de suicidios por año

El gráfico muestra la evolución anual de los casos de suicidio entre 2015 y 2024.
Se observa una tendencia general al aumento, pasando de poco más de 2.000 casos en 2015 a valores cercanos o superiores a 3.000 en los últimos años del periodo.

Aunque existen pequeñas fluctuaciones —como las disminuciones en 2019 y 2020— la tendencia global indica un crecimiento sostenido en la incidencia de suicidios, especialmente notable a partir de 2021.

Este comportamiento sugiere que el problema ha ganado relevancia en los últimos años, pudiendo relacionarse con factores sociales, económicos y de salud mental.

### Grafico
```{r}
ggplot(suicidios, aes(x = factor(ano_del_hecho))) +
  geom_bar(fill = "steelblue") +
  labs(x = "Año del hecho", y = "Número de casos",
       title = "Distribución de suicidios por año")
```

Column {data-width=50%}
------------------------------------------------------------------

### Suicidios por mes

El gráfico muestra la distribución mensual de los casos de suicidio registrados a lo largo del periodo 2015–2024.
Se observa que los valores se mantienen relativamente constantes entre los meses, con variaciones pequeñas que sugieren la ausencia de un patrón estacional marcado.

Aunque algunos meses presentan ligeros aumentos —por ejemplo, julio y diciembre suelen mostrar frecuencias algo superiores— dichos incrementos no representan picos drásticos.
Esto indica que el comportamiento mensual del suicidio es bastante uniforme, sin evidencias claras de concentración en temporadas específicas como vacaciones, fin de año o temporadas escolares.

Este análisis es útil para descartar hipótesis de estacionalidad fuerte y refuerza la idea de que los suicidios dependen más de factores individuales, psicológicos y sociales que de variaciones temporales asociadas al calendario.

### Grafico
```{r}
ggplot(suicidios, aes(x = mes_del_hecho)) +
  geom_bar(fill = "darkgreen") +
  labs(x = "Mes del hecho", y = "Número de casos",
       title = "Distribución de suicidios por mes") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```

Graficos
==================================================================

Column {data-width=50%}
------------------------------------------------------------------

### Distribución por identidad de género

El gráfico muestra la distribución de suicidios según la identidad de género.
Se observa que la mayoría de los casos corresponde a hombres, con una cifra ampliamente superior frente a la de mujeres.
La categoría transgénero aparece con un número muy reducido de casos, lo que refleja una presencia mucho menor dentro del registro total.

Este patrón coincide con tendencias internacionales donde los hombres presentan tasas más altas de suicidio consumado, mientras que las mujeres tienden a mostrar mayores tasas de intento.

### Grafico

```{r}
ggplot(suicidios, aes(x = identidad_de_genero)) +
  geom_bar(fill = "purple") +
  labs(x = "Identidad de género", y = "Número de casos",
       title = "Distribución de suicidios por identidad de género")
```

Column {data-width=50%}
------------------------------------------------------------------

### Distribución por rango de edad (quinquenal)

El gráfico evidencia cómo se distribuyen los suicidios según grupos de edad quinquenales.
Se observa un aumento progresivo desde la adolescencia hasta alcanzar un pico significativo en el grupo de 20 a 24 años, seguido de valores también altos entre los 25 y 39 años.

A partir de los 40 años, la frecuencia comienza a disminuir de manera gradual, manteniendo una tendencia descendente hacia los grupos de mayor edad.
Esto indica que los adultos jóvenes constituyen el segmento con mayor incidencia, lo cual es coherente con estudios que destacan esta etapa como crítica en términos de vulnerabilidad emocional, social y económica.

### Grafico  
  
```{r}
ggplot(suicidios, aes(x = edad_quinquenal)) +
  geom_bar(fill = "orange") +
  labs(x = "Rango de edad (quinquenal)", y = "Número de casos",
       title = "Distribución de suicidios por rango de edad") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```

Análisis con dos variables cuantitativas
==================================================================

Row
------------------------------------------------------------------

### Selección de variables y objetivo

En este apartado se estudia la relación entre **dos variables cuantitativas** del conjunto de datos:

- `ano_del_hecho`: año en el que ocurrió el suicidio.  
- `edad_quinquenal`: edad.

El objetivo es:

- Calcular la **correlación de Pearson** entre ambas variables.  
- Construir la **matriz de correlación** de todas las variables numéricas.  
- Visualizar la relación mediante un **gráfico de dispersión** con recta de tendencia.


### Correlación de Pearson entre año del hecho y edad quinquenal

```{r}
# Calcular correlación entre edad quinquenal y año del hecho
cor_ano_edad <- cor(
  suicidios$ano_del_hecho,
  suicidios$edad_quinquenal,
  use = "complete.obs",
  method = "pearson"
)

cor_ano_edad
```

**Interpretación:**  
El valor obtenido representa el grado de relación lineal entre la edad del fallecido y el año en que ocurrió el suicidio.  
Valores cercanos a **0** indican una relación lineal muy débil o inexistente, mientras que valores cercanos a **1** o **–1** señalan una relación fuerte (positiva o negativa).

Row
------------------------------------------------------------------

### Matriz de correlación entre variables numéricas del conjunto de datos

```{r}
# Seleccionar solo variables numéricas
numericas <- suicidios %>% 
  dplyr::select(where(is.numeric))

# Matriz de correlación con pares completos
mat_corr <- cor(numericas, use = "pairwise.complete.obs")
```

La matriz se calcula de manera interna para permitir la visualización gráfica en el siguiente apartado.

**Comentarios generales:**

- Valores cercanos a **1** indican fuerte relación positiva.  
- Valores cercanos a **–1** indican fuerte relación negativa.  
- Valores cercanos a **0** indican muy poca relación lineal.

Dado que las variables numéricas del conjunto están asociadas principalmente con información temporal (año, mes, hora) y escalas de edad, es esperable que las correlaciones sean bajas o moderadas.


### Visualización gráfica de la matriz de correlación

```{r}
corrplot(
  mat_corr,
  method = "color",
  type   = "upper",
  tl.cex = 0.8,
  addCoef.col = "black",
  number.cex = 0.6
)
```



Row
------------------------------------------------------------------

### Gráfico de dispersión: año del hecho vs edad quinquenal

```{r}
ggplot(suicidios, aes(x = ano_del_hecho, y = edad_quinquenal)) +
  geom_point(alpha = 0.3, color = "darkblue") +
  geom_smooth(method = "lm", se = FALSE, colour = "red") +
  labs(
    title = "Dispersión entre año del hecho y edad quinquenal",
    x = "Año del hecho",
    y = "Edad quinquenal"
  )
```

### Interpretación del gráfico

El gráfico muestra cómo se relacionan la edad de las víctimas y el año en que ocurrió el suicidio:

- La nube de puntos permite identificar si hay tendencia ascendente, descendente o nula.  
- La línea roja representa la tendencia lineal estimada.  
- Si la línea es casi horizontal, la relación entre las variables es débil.  

En este caso, suele observarse que la distribución de edades se mantiene relativamente estable a través del tiempo, lo que concuerda con valores de correlación cercanos a cero.



Diagrama de cajas: variable cuantitativa vs cualitativa
==================================================================

Row
------------------------------------------------------------------

### Planteamiento del análisis

En este apartado se analizan conjuntamente:

- Variable **cuantitativa**: `ano_del_hecho`.  
- Variable **cualitativa**: `identidad_de_genero`.  

El objetivo es comparar la distribución del año en que ocurrieron los suicidios entre los diferentes grupos de identidad de género, utilizando **diagramas de cajas (boxplots)**.

Cada caja representa la distribución de `ano_del_hecho` para un grupo de identidad de género:

- La línea central indica la **mediana** del año dentro de cada grupo.  
- Los bordes de la caja representan el **rango intercuartílico (Q1–Q3)**.  
- Cualquier punto atípico (si aparece) indicaría años menos frecuentes o valores alejados del patrón general.

Este gráfico permite identificar si los casos de suicidio en ciertos géneros se concentran más en años recientes o si la distribución temporal es similar entre hombres, mujeres y personas transgénero.

Row
------------------------------------------------------------------

### Diagrama de cajas por grupos (año del hecho según género)

```{r}
ggplot(suicidios, aes(x = identidad_de_genero, y = ano_del_hecho)) +
  geom_boxplot(fill = "lightblue") +
  labs(
    title = "Distribución del año del hecho según identidad de género",
    x = "Identidad de género",
    y = "Año del hecho"
  )
```


Análisis entre dos variables cualitativas
==================================================================

Row
------------------------------------------------------------------

### Tabla cruzada (frecuencias absolutas)

![](tablacruzada.jpeg)

### Descripcion de tabla cruzada

La tabla cruzada muestra la distribución de las principales razones del suicidio según la identidad de género. En todos los motivos analizados, los hombres presentan una frecuencia considerablemente mayor que las mujeres y las personas transgénero. 

Los motivos más comunes para ambos géneros son la enfermedad física o mental, el conflicto de pareja y el desamor, aunque siempre con una proporción mucho mayor en hombres.

Row
------------------------------------------------------------------

### Diagrama de barras apiladas (proporciones por género)

```{r}
suicidios %>%
  filter(razon_del_suicidio != "Sin información") %>%  # opcional, mejora la visibilidad
  ggplot(aes(x = identidad_de_genero, fill = razon_del_suicidio)) +
  geom_bar(position = "fill") +
  labs(

    x = "Identidad de género",
    y = "Proporción",
    fill = "Razón del suicidio"
  ) +
  scale_y_continuous(labels = scales::percent)
```

### Analisis de barras apiladas

El gráfico de **barras apiladas en proporciones** facilita comparar visualmente la composición de motivos entre hombres, mujeres y personas transgénero.

Este análisis complementa la estadística descriptiva univariada y aporta evidencia sobre posibles diferencias en los motivos de suicidio según la identidad de género.


Pronósticos
==================================================================

Row
------------------------------------------------------------------

### Pronósticos de suicidios en el tiempo

En esta sección se analiza la evolución temporal de los suicidios en Colombia y se realiza un
**pronóstico** a partir de una serie de tiempo construida con el número de casos por año.

Se utiliza una metodología de **suavización exponencial** (Holt-Winters / ETS), adecuada para
series con tendencia suave y sin fuertes patrones estacionales anuales.

**Construcción de la serie de tiempo**

Primero se agrupan los datos por año del hecho y se construye una serie de tiempo con esos totales.

```{r}
# Conteo anual de suicidios
suicidios_anual <- suicidios %>%
  count(ano_del_hecho, name = "n_casos") %>%
  arrange(ano_del_hecho)

suicidios_anual

# Crear objeto de serie de tiempo (frecuencia anual)
ts_anual <- ts(
  suicidios_anual$n_casos,
  start = min(suicidios_anual$ano_del_hecho),
  frequency = 1
)

ts_anual
```

La tabla muestra el número total de casos por año entre 2015 y 2024, y `ts_anual` es la serie de tiempo sobre la cual se aplicará el modelo de pronóstico.

Row
------------------------------------------------------------------

### Ajuste de un modelo de suavización exponencial (ETS)

Se utiliza la función `ets()` del paquete **forecast**, que ajusta automáticamente un modelo de
suavización exponencial adecuado a la serie (con o sin tendencia, con o sin componente multiplicativo, etc.).

```{r}
# Ajustar modelo ETS (suavización exponencial)
modelo_ets <- ets(ts_anual)

modelo_ets
```

La salida del modelo indica el tipo de suavización utilizada (por ejemplo, modelo con tendencia aditiva)
y los parámetros estimados de suavización.


Grafico pronostico
=================================================================

Row
------------------------------------------------------------------

### Pronóstico para los próximos años

A continuación se genera un pronóstico para los próximos 3 años y se visualiza junto con los datos históricos.

```{r}
# Pronóstico a 3 años
pronostico_3 <- forecast(modelo_ets, h = 3)

pronostico_3
```

El gráfico muestra en azul los datos observados y en color sombreado el intervalo de confianza
del pronóstico. Las bandas más anchas indican mayor incertidumbre a medida que se proyectan
años más lejanos.

### Interpretación del pronóstico

- El modelo de suavización exponencial captura la **tendencia general** de la serie histórica de suicidios.  
- Si la tendencia estimada es creciente, el pronóstico sugerirá un **aumento esperado** en el número de casos en los próximos años; si es estable, los valores futuros tenderán a mantenerse cercanos al promedio reciente.  
- Es importante interpretar estos resultados con precaución:  
  - El modelo se basa exclusivamente en el **comportamiento histórico de la serie**.  
  - No incorpora información externa (como políticas públicas, cambios en la atención en salud mental, crisis económicas, etc.).  

Por tanto, el pronóstico debe entenderse como una **proyección estadística** condicionada a la prolongación de las tendencias observadas y no como una predicción exacta del número de casos futuros.

Row
------------------------------------------------------------------

### Grafico del pronostico

```{r}
# Gráfico del pronóstico
autoplot(pronostico_3) +
  labs(
    title = "Pronóstico del número de suicidios en Colombia",
    x = "Año",
    y = "Número de casos"
  )
```