1. Introdução

1.1 Declaração do Problema

As mortes por suicídio constituem um dos mais relevantes desafios de saúde pública no Brasil. Entre 2018 e 2020, os registros oficiais apontam um aumento consistente desse tipo de óbito, afetando jovens, adultos e idosos em diferentes contextos sociais e econômicos. Embora amplamente estudado, o suicídio permanece um fenômeno multifatorial, em que aspectos psicológicos, condições socioeconômicas, situações de vulnerabilidade, acesso limitado a serviços de saúde mental e fatores culturais se combinam de maneiras complexas.

Cada caso representa não apenas uma perda individual, mas também um impacto significativo sobre famílias, comunidades e redes de apoio. A persistência do crescimento desses números reforça a necessidade de análises sistemáticas, capazes de identificar padrões e grupos mais vulneráveis. A compreensão detalhada desses fatores é essencial para subsidiar políticas preventivas, ampliar o acesso a cuidados adequados e orientar intervenções públicas e privadas voltadas à redução desses óbitos.

Estudar esse tema significa transformar dados em informação estratégica para enfrentamento de um problema que, apesar de conhecido, ainda carece de respostas eficazes e sustentadas no tempo

Para aprofundar o entendimento desse problema, este relatório analisa dados do Sistema de Informações sobre Mortalidade (SIM) referentes ao período de 2018 a 2020. O objetivo é compreender onde, quando e como esses casos têm ocorrido, buscando nuances que possam orientar ações públicas e privadas.

A abordagem envolve explorar características demográficas, padrões regionais e recortes relevantes que ajudem a revelar dinâmicas não aparentes à primeira vista. Os dados oficiais permitem observar o fenômeno em escala nacional, mas também possibilitam descer ao nível de municípios, faixas etárias e circunstâncias específicas.

A metodologia empregada combina limpeza, padronização e análise sistemática das variáveis do SIM, sempre com foco em identificar tendências que ajudem a transformar números em conhecimento aplicado.

1.2 Abordagem Geral

Para compreender melhor o perfil e a dinâmica dos óbitos por suicídio, este relatório analisa informações do Sistema de Informações sobre Mortalidade (SIM) relativas ao período de 2018 a 2020. O SIM é a principal base nacional sobre mortalidade e oferece dados abrangentes, permitindo investigar características individuais (idade, sexo, raça/cor, escolaridade, estado civil), condições do evento (local de ocorrência, assistência médica) e a causa básica codificada conforme a CID-10.

A abordagem adotada envolve um processo estruturado, que começa com a extração dos microdados brutos e segue por etapas de limpeza e padronização, incluindo tratamento de valores ausentes, harmonização de categorias, criação de variáveis derivadas e seleção dos registros relevantes para suicídio (códigos X60–X84). Após essa preparação, realizam-se análises descritivas e exploratórias para identificar padrões temporais, concentrações geográficas, perfis populacionais e diferenças entre grupos sociodemográficos.

A combinação dessas etapas permite uma visão mais clara e comparável do fenômeno ao longo dos anos estudados, fornecendo subsídios para interpretações fundamentadas e alinhando a análise às necessidades de vigilância epidemiológica e formulação de políticas públicas.

1.3 Técnica Adotada

A estratégia deste trabalho busca ir além da simples contagem de casos. A proposta é destrinchar o fenômeno em diferentes camadas:

  • Caracterização detalhada das vítimas segundo sexo, idade, raça/cor, estado civil e escolaridade.

  • Localização geográfica dos casos, permitindo observar regiões com maior incidência.

  • Circunstâncias do óbito e padrões recorrentes associados aos códigos CID-10 utilizados para classificar suicídios.

  • Evolução temporal durante os quatro anos, permitindo identificar picos, sazonalidades e mudanças significativas.

Essa abordagem permite não apenas entender quantos casos ocorreram, mas sobretudo como eles se distribuíram e quais histórias os dados sugerem. A intenção é construir uma visão clara, objetiva e ao mesmo tempo sensível sobre o fenômeno, respeitando sua complexidade.

1.4 Benefícios da Análise para Clientes

Os resultados deste estudo têm potencial para apoiar uma ampla gama de atores sociais:

  • Gestores públicos, que precisam direcionar recursos para saúde mental, prevenção e vigilância epidemiológica.

  • Profissionais da área da saúde, que poderão identificar perfis de maior risco e planejar intervenções específicas.

  • Instituições de pesquisa, interessadas em padrões emergentes e possíveis associações ainda pouco exploradas.

  • Órgãos de segurança e assistência social, que atuam em situações de crise e acolhimento.

  • Organizações não governamentais, que desenvolvem campanhas e programas comunitários de apoio emocional.

Ao transformar milhares de registros em informações acionáveis, esta análise contribui para decisões mais informadas, programas de prevenção mais eficazes e, sobretudo, para a construção de estratégias que possam salvar vidas. Porque cada indicador não é apenas uma estatística: é uma chance de intervenção, uma oportunidade de fazer diferença e, em muitos casos, uma possibilidade real de evitar que mais histórias se encerrem antes do tempo.

2. Pacotes Requeridos

2.1 Lista de Pacote

library(microdatasus)
library(dplyr)
library(ggplot2)
library(readr)
library(tidyr)
library(DT)
library(lubridate)
library(future.apply)

2.2 Propósito dos Pacotes

Biblioteca Propósito
dplyr Manipulação de dados: filtragem, criação de variáveis, agrupamentos e sumarizações.
ggplot2 Construção de visualizações seguindo a gramática dos gráficos.
readr Leitura rápida e consistente de arquivos, especialmente .csv.
tidyr Organização e estruturação dos dados (wide ↔︎ long, limpeza de colunas desorganizadas).
DT Criação de tabelas interativas com paginação, busca e filtros.
lubridate Tratamento e manipulação de datas de forma simples e intuitiva.
microdatasus Download e padronização dos microdados do DATASUS (SIM, SINAN, SIH).
future.apply Execução paralela de funções apply para acelerar tarefas repetitivas e pesadas.

3. Preparação dos Dados

3.1 Fonte Original dos Dados

Os dados utilizados neste trabalho foram obtidos a partir do Sistema de Informações sobre Mortalidade (SIM)[1], gerido pelo Ministério da Saúde. Trata-se da base oficial de mortalidade do país, utilizada para consolidar estatísticas nacionais de óbitos por causa, local e perfil sociodemográfico.

A extração foi realizada diretamente via pacote microdatasus [2], que permite acessar os arquivos originais de forma padronizada.
Mais detalhes sobre o sistema podem ser encontrados no portal do DATASUS[3].

3.2 Descrição Detalhada dos Dados Originais

A coleta dos dados ocorre de forma contínua, a partir das Declarações de Óbito (DO) emitidas por profissionais de saúde e consolidadas pelas secretarias municipais e estaduais. Para este estudo, utilizamos os registros referentes aos anos de 2018 a 2020, período em que a estrutura das variáveis se manteve estável, permitindo comparações consistentes, embora o SIM registre informações desde 1979[4].


Estrutura dos Dados Originais

Os arquivos originais do SIM apresentam, em média, 80 a 90 variáveis, distribuídas entre:

  • Características sociodemográficas
    Sexo, idade, raça/cor, escolaridade, estado civil.

  • Informações contextuais do evento
    Local do óbito, assistência médica, município e UF de residência.

  • Informações geográficas
    Nome do Município de residência, latitude, longitude, altura, Uf do município.

  • Causa básica do óbito (CID-10)
    Código CAUSABAS, versão textual CAUSABAS_O e metadados administrativos.


Peculiaridades e Cuidados Necessários

1. Valores ausentes heterogêneos

A ausência de informação não é padronizada. Pode aparecer como:

  • campo vazio
  • “Ignorado”
  • códigos especiais (ex.: 9, 99, 999)

Essa variação exige padronização prévia antes da análise.

2. Variáveis codificadas

Diversos campos utilizam códigos que precisam ser traduzidos, como:

  • sexo (“M”, “F”, “I”)
  • local de ocorrência (“1”, “2”, “3”…)
  • escolaridade (“0”, “1”, “2”…)
  • assistência médica (“1”, “2”, “9”)

A decodificação correta é essencial para evitar interpretações equivocadas.

3. Diferenças de preenchimento entre estados e anos

  • Campos textuais como CAUSABAS_O variam em grafia, acentuação e abreviações.
  • Estados diferem na proporção de valores “ignorado” em variáveis sensíveis (ex.: raça/cor, escolaridade).

Essas variações podem impactar comparações regionais.

4. Informações redundantes

Alguns campos trazem o mesmo conteúdo em formatos distintos
(ex.: datas completas e variáveis derivadas como ano e mês), exigindo escolhas consistentes.


Preparação do Conjunto de Dados

Diante dessas características, o conjunto bruto não pode ser utilizado diretamente.
Foi necessário aplicar:

  • padronização de valores,
  • decodificação de categorias,
  • filtragem,
  • seleção de variáveis relevantes.

O objetivo foi garantir consistência entre anos e estados e ajustar o banco ao propósito específico deste estudo:
analisar apenas óbitos cuja causa básica pertence ao intervalo CID-10 X60–X84, correspondente às lesões autoprovocadas (suicídios).

3.3 Importação e Limpeza dos Dados

Para lidar com o volume e a diversidade dos dados, adotamos um processo estruturado composto por três etapas:

3.3.1 Importação paralela por unidade federativa

O SIM disponibiliza arquivos anuais por estado. O download sequencial é extremamente lento, principalmente ao lidar com múltiplos anos.
Por isso, utilizamos processamento paralelo (multisession) para acelerar a operação, reduzindo o tempo total de obtenção dos dados.

# Utilizar múltiplos cores
plan(multisession)  

ufs <- c("AC","AL","AP","AM","BA","CE","DF","ES","GO",
         "MA","MT","MS","MG","PA","PB","PR","PE","PI",
         "RJ","RN","RO","RR","RS","SC","SE","SP","TO")

get_uf <- function(uf,ano) {
  tryCatch({
    fetch_datasus(
      year_start = 2018,
      year_end   = 2020,
      uf = uf, # Sem essa função, basta chamar o fetch_datasus e substituir "uf" por "all"
      information_system = "SIM-DO"
    )
  }, error = function(e) NULL)
}

dados <- future_lapply(ufs, get_uf)
df <- do.call(dplyr::bind_rows, dados)

3.3.2 Seleção das variáveis relevantes

A base original contém dezenas de colunas que não são úteis para o objetivo desta análise.
Selecionamos apenas as variáveis essenciais para investigar suicídios e seus padrões:

  • data de nascimento e óbito,

  • características demográficas,

  • local do óbito,

  • assistência médica,

  • códigos CID relacionados à causa básica do óbito

  • idades dos indivíduos

  • mês e ano do óbito para análise temporal

# Colunas extraídas do dataset original
cols <- c(
  "CIRCOBITO", "DTOBITO", "DTNASC", "SEXO", "RACACOR", "ESTCIV",
  "ESC2010", "OCUP", "CODMUNRES", "LOCOCOR", "ASSISTMED",
  "CAUSABAS", "CAUSABAS_O"
)

Essa escolha reduz o tamanho da base e facilita a manipulação posterior.

3.3.3 Filtragem dos casos de Suicídio e Padronização

Para identificar os óbitos por suicídio, seguimos a metodologia recomendada por Lovisi et al. (2009)[5].
O critério utiliza os códigos CID-10 entre X60 e X84, que correspondem a lesões autoprovocadas intencionalmente. Isso é necessário pois a coluna “CIRCOBITO” não é 100% confiável e atribui outras classificações para casos em que seria considerado suicídio.

Após essa filtragem, a aplicação do Process-SIM da biblioteca microdatasus permite a organização final dos dados oriundos do Sistema de Informações sobre Mortalidade (SIM). A ferramenta automatiza etapas como leitura dos arquivos DBF, harmonização das variáveis e tratamento inicial de registros inconsistentes, facilitando a construção de um fluxo padronizado para análise estatística e visualização.

# Criação da lista para filtragem
filter_list <- paste0("X", 600:849)

df_filtrado <- df_p %>%
  dplyr::filter(
    CAUSABAS %in% filter_list | CAUSABAS_O %in% filter_list
  )

Podemos criar as variáveis citadas anteriormente da seguinte forma:

df$DTNASC  <- ymd(df$DTNASC)
df$DTOBITO <- ymd(df$DTOBITO)

df$idade <- floor(time_length(interval(df$DTNASC, df$DTOBITO), "years"))

df$ano <- year(df$DTOBITO)
df$mes <- month(df$DTOBITO)

df_work <- df %>%
  mutate(
  #Criação de uma variável de faixa etária, será importante para análises futuras
faixa_etaria = case_when(
      idade < 15 ~ "<15",
      idade >= 15 & idade <= 24 ~ "15-24",
      idade >= 25 & idade <= 34 ~ "25-34",
      idade >= 35 & idade <= 44 ~ "35-44",
      idade >= 45 & idade <= 59 ~ "45-59",
      idade >= 60 ~ "60+",
      TRUE ~ "Ignorado"
    ),
     mutate(
       # O  processamento do SIM não funciona sempre, nesse caso tive que decodificar a variável de escolaridade
    escolaridade_cat = case_when(
      ESC2010 == "0" ~ "Sem escolaridade",
      ESC2010 == "1" ~ "Fundamental I (1ª a 4ª série)",
      ESC2010 == "2" ~ "Fundamental II (5ª a 8ª série)",
      ESC2010 == "3" ~ "Ensino médio (antigo 2º grau)",
      ESC2010 == "4" ~ "Superior incompleto",
      ESC2010 == "5" ~ "Superior completo",
      ESC2010 == "9" ~ "Ignorado",
      TRUE ~ "Não informado"   # para qualquer outro código inesperado
    )
  )
)
# Decodificação CID-10 Detalhada (X60–X84)

# Dicionário completo CID-10 X60–X84
cid10_suicidio <- tibble::tribble(
  ~codigo, ~descricao,
  "X60", "Autointoxicação por analgésicos, antipiréticos e antirreumáticos",
  "X61", "Autointoxicação por anticonvulsivantes, sedativos, hipnóticos, antiparkinsonianos e psicotrópicos",
  "X62", "Autointoxicação por narcóticos e psicodislépticos",
  "X63", "Autointoxicação por outras substâncias farmacológicas",
  "X64", "Autointoxicação por outras substâncias químicas e nocivas",
  "X65", "Autointoxicação por álcool",
  "X66", "Autointoxicação por solventes orgânicos e hidrocarbonetos",
  "X67", "Autointoxicação por pesticidas",
  "X68", "Autointoxicação por produtos químicos não especificados",
  "X69", "Autointoxicação por outras substâncias nocivas não especificadas",
  "X70", "Lesão autoprovocada por enforcamento, estrangulamento e sufocação",
  "X71", "Lesão autoprovocada por afogamento e submersão",
  "X72", "Lesão autoprovocada por arma de fogo de mão",
  "X73", "Lesão autoprovocada por arma de fogo de cano longo",
  "X74", "Lesão autoprovocada por outras armas de fogo e não especificadas",
  "X75", "Lesão autoprovocada por dispositivos explosivos",
  "X76", "Lesão autoprovocada por fumaça, fogo e chamas",
  "X77", "Lesão autoprovocada por vapor, gases ou objetos quentes",
  "X78", "Lesão autoprovocada por objetos cortantes",
  "X79", "Lesão autoprovocada por objetos contundentes",
  "X80", "Lesão autoprovocada por precipitação de um lugar elevado",
  "X81", "Lesão autoprovocada por precipitação ou permanência diante de um objeto em movimento",
  "X82", "Lesão autoprovocada por colisão com veículo a motor",
  "X83", "Lesão autoprovocada por outros meios especificados",
  "X84", "Lesão autoprovocada por meios não especificados"
)

# Criando variável "descricao"
df_work <- df_work %>%
  mutate(causa_codigo = stringr::str_sub(CAUSABAS, 1, 3)) %>% 
  left_join(cid10_suicidio, by = c("causa_codigo" = "codigo"))

3.4 Estrutura Final dos Dados

Para manter o relatório legível, não exibimos o dataset completo. Em vez disso, apresentamos apenas as primeiras 200 linhas, além da descrição das variáveis do projeto

3.4.1 Estrutura Final dos Dados

datatable(
  head(df, 200),
  options = list(
    pageLength = 10,
    autoWidth = TRUE,
    scrollX = TRUE  
  ),
  rownames = FALSE,
  caption = "Primeiras 200 linhas do conjunto de dados final após limpeza e filtragem"
)

3.4.2 Descrição das Variáveis

Descrição das variáveis do conjunto de dados limpo
Variável Tipo Descrição
DTOBITO Date Data do óbito, informada na Declaração de Óbito.
DTNASC Date Data de nascimento da vítima.
SEXO Fator/chr Sexo biológico (Masculino, Feminino, Ignorado).
RACACOR Fator/chr Raça/cor segundo classificação do IBGE.
ESTCIV Fator/chr Estado civil informado na DO.
ESC2010 chr Grau de escolaridade codificado conforme padrão do Censo 2010.
OCUP chr Ocupação habitual, segundo a Classificação Brasileira de Ocupações.
LOCOCOR chr Local onde o óbito ocorreu (domicílio, hospital, via pública, etc.).
ASSISTMED chr Indica se a vítima recebeu assistência médica antes do óbito.
CAUSABAS chr Código CID-10 da causa básica de morte.
CAUSABAS_O chr Texto auxiliar da causa básica, quando informado.
munResUf chr Unidade federativa de residência da vítima.
idade numeric Idade da vítima no momento do óbito.
ano_obito numeric Ano do óbito conforme registro.
faixa_etaria chr Categoria derivada de idade (ex.: 15–24, 25–34, etc.).
mes_obito ordered Mês do óbito em formato ordinal.
assistido chr Variável padronizada derivada de ASSISTMED.
escolaridade_cat chr Categoria decodificada da escolaridade (ex.: fundamental I, médio, etc.).
causa_codigo chr Código X60–X84 padronizado, usado para criação da categoria de método.
descricao chr Descrição detalhada da causa X60–X84.

4. Análise Exploratória dos Dados

4.1 - Evolução mensal de óbitos por suicídio (2018–2020)

serie_mensal <- df %>%
  filter(ano_obito %in% 2018:2021) %>%
  group_by(ano_obito, mes_obito) %>%
  summarise(n = n(), .groups = "drop") %>%
  mutate(mes_ord = as.integer(mes_obito))

ggplot(serie_mensal,
       aes(x = mes_ord, y = n, color = factor(ano_obito), group = ano_obito)) +
  geom_line(size = 1) +
  geom_point(size = 1.5) +
  scale_x_continuous(breaks = 1:12, labels = month.abb) +
  labs(
    x = "Mês", y = "Nº de óbitos", color = "Ano",
    title = "Evolução mensal de óbitos por suicídio (2018–2020)"
  ) +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

A série mensal revela um comportamento que não é completamente regular, mas apresenta padrões que se repetem em mais de um ano. Em 2018 e 2019 observa-se um aumento acentuado entre fevereiro e março, sugerindo um possível componente sazonal. Esse salto no início do ano é compatível com observações de outros países, onde mudanças de rotina após o período festivo podem atuar como gatilhos para quem já se encontra em situação de vulnerabilidade psicológica.

Em 2020, o padrão sofre uma ruptura: ocorre uma queda entre fevereiro e março, coincidindo com o início da pandemia. Entretanto, essa queda é momentânea, pois meses depois surge um pico bem definido em agosto, período associado ao acúmulo dos impactos do isolamento prolongado, insegurança econômica e redução de interações sociais.

Mesmo com oscilações, cada ano termina com um total maior que o anterior, evidenciando uma tendência de crescimento que não se explica apenas por flutuações mensais.

4.2 Perfil etário e de sexo

dist_idade_sexo <- df %>%
  filter(ano_obito %in% 2018:2020) %>%
  group_by(faixa_etaria, SEXO) %>%
  summarise(n = n(), .groups = "drop")

ggplot(dist_idade_sexo,
       aes(x = faixa_etaria, y = n, fill = SEXO)) +
  geom_col(position = "dodge") +
  labs(
    x = "Faixa etária", y = "Nº de óbitos", fill = "Sexo",
    title = "Óbitos por faixa etária e sexo (2018–2020)"
  ) +
  theme_minimal()

A distribuição por sexo e faixa etária mostra forte assimetria. Homens concentram a maior parte dos óbitos em praticamente todas as faixas etárias. Esse padrão é consistente com a literatura, que associa maior letalidade dos métodos utilizados e menor probabilidade de buscar ajuda formal.

Entre as idades, o grupo de 45 a 59 anos se destaca como o mais afetado, representando um momento da vida marcado por pressões financeiras, responsabilidades familiares, desgaste acumulado e maior prevalência de transtornos depressivos não tratados. Faixas mais jovens também aparecem em número relevante, mas sem ultrapassar a magnitude observada no grupo de meia-idade.

4.3 Estados com maior número absoluto de óbitos

df %>%
  count(munResUf, sort = TRUE) %>%
  ggplot(aes(x = n, y = reorder(munResUf, n),fill = munResUf)) +
  geom_col(show.legend = FALSE) +
  scale_fill_viridis(discrete = TRUE, option = "D") +
  labs(
    title = "Distribuição de óbitos autoprovocados por Unidade Federativa",
    x = "Número de óbitos",
    y = "UF de residência"
  )

A análise geográfica revela forte concentração nas regiões Sudeste e Sul. São Paulo aparece em primeiro lugar, como esperado pela sua população numerosa e alta urbanização. Em seguida surgem Minas Gerais, Rio Grande do Sul, Paraná e Santa Catarina. Esses três últimos estados, apesar de terem populações menores que as maiores metrópoles brasileiras, apresentam proporções historicamente elevadas de suicídio, muitas vezes associadas à predominância de áreas rurais, maior isolamento social e fatores culturais específicos.

A Bahia ocupa a posição seguinte, influenciada pelo tamanho populacional do estado e por sua heterogeneidade regional. Esse panorama sugere que políticas de saúde mental precisam ser regionalmente adaptadas, pois o fenômeno não se distribui de modo uniforme pelo país.

4.4 Distribuição de óbitos autoprovocados por raça/cor

df %>%
  filter(!is.na(RACACOR)) %>%
  count(RACACOR, sort = TRUE) %>%
  ggplot(aes(x = n, y = reorder(RACACOR, n),fill = RACACOR)) +
  geom_col(show.legend = FALSE) +
  scale_fill_viridis(discrete = TRUE, option = "D") +
  labs(
    title = "Distribuição de óbitos autoprovocados por raça/cor",
    x = "Número de óbitos",
    y = "Raça/Cor declarada"
  )

Quando observamos a variável raça/cor, nota-se que a população branca reúne o maior número absoluto de óbitos, apesar de a população parda ser numericamente maior no Brasil. Essa discrepância indica que o risco relativo não acompanha diretamente a composição populacional.

Há várias hipóteses possíveis:
– diferenças no acesso à saúde mental;
– maior detecção e notificação entre determinados grupos;
– fatores socioeconômicos e culturais que influenciam tanto o sofrimento quanto a letalidade dos métodos empregados.

Ainda que esse achado não encerre o debate, ele aponta para complexidades que vão além da demografia bruta.

4.5 Tabela de Frequência de causas de lesão autoprovocada

top10_tabela <- df %>%
  count(descricao, sort = TRUE) %>%
  slice_max(n, n = 10) %>%   # mais seguro que top_n()
  gt() %>%
  tab_header(
    title = "Top 10 causas de lesão autoprovocada (CID-10 X60–X84)"
  ) %>%
  cols_label(
    descricao = "Causa Detalhada",
    n = "Número de Óbitos"
  ) %>%
  fmt_number(
    columns = n,
    sep_mark = ".",
    dec_mark = ","
  )

top10_tabela
Top 10 causas de lesão autoprovocada (CID-10 X60–X84)
Causa Detalhada Número de Óbitos
Lesão autoprovocada por enforcamento, estrangulamento e sufocação 28.655,00
Lesão autoprovocada por outras armas de fogo e não especificadas 1.966,00
Lesão autoprovocada por precipitação de um lugar elevado 1.423,00
Autointoxicação por outras substâncias químicas e nocivas 1.121,00
Autointoxicação por produtos químicos não especificados 1.010,00
Lesão autoprovocada por arma de fogo de mão 837,00
Lesão autoprovocada por meios não especificados 836,00
Autointoxicação por anticonvulsivantes, sedativos, hipnóticos, antiparkinsonianos e psicotrópicos 741,00
Lesão autoprovocada por objetos cortantes 598,00
Autointoxicação por outras substâncias nocivas não especificadas 576,00

As causas mais frequentes evidenciam uma predominância extrema de um único método: enforcamento, estrangulamento e sufocação. Esse grupo representa mais de 28 mil casos, superando com larga vantagem todas as outras categorias somadas.

Métodos com arma de fogo aparecem em seguida, mas em número muito menor, e logo depois surgem quedas de locais elevados e autointoxicações. A dominância do enforcamento indica um método altamente letal e de fácil acesso, o que contribui significativamente para a alta mortalidade observada, especialmente entre homens.

Esse perfil de meios confirma a necessidade de intervenções focadas não apenas em suporte psicológico, mas também em estratégias ambientais e de redução de acesso a meios letais.

4.6 Local de ocorrência e Estado Civil

df %>%
  filter(!is.na(ESTCIV)) %>%
  count(ESTCIV, sort = TRUE) %>%
  dplyr::top_n(10, wt = n) %>%
  ggplot(aes(x = n, y = reorder(ESTCIV, n),fill = ESTCIV)) +
  geom_col(show.legend = FALSE) +
  scale_fill_viridis(discrete = TRUE, option = "D") +  labs(
    title = "Relação entre Estado Civil e Número de Óbitos",
    x = "Número de óbitos",
    y = "Estado Civil"
  )

df %>%
  filter(!is.na(LOCOCOR)) %>%
  filter(!(LOCOCOR=="6")) %>%
  count(LOCOCOR, sort = TRUE) %>%
  ggplot(aes(x = n, y = reorder(LOCOCOR, n),fill = LOCOCOR)) +
  geom_col(show.legend = FALSE) +
  scale_fill_viridis(discrete = TRUE, option = "D") +  labs(
    title = "Local de ocorrência do óbito",
    x = "Número de óbitos",
    y = "Local"
  )

O domicílio aparece como o local mais frequente dos óbitos, seguido por categorias genéricas (“outros”), hospital e via pública. O predomínio do ambiente doméstico é um indicador importante: muitos eventos ocorrem longe de contextos em que poderia haver intervenção imediata, reforçando a importância de redes de apoio próximas.

Quando observamos estado civil, surge um padrão claro:
pessoas solteiras representam a maior parcela dos óbitos.

Isso pode refletir uma série de fatores:

  • menor presença de redes de suporte emocional e cotidiano;

  • maior exposição a isolamento social;

  • maior vulnerabilidade em períodos de crise;

  • ausência de parceiros que possam identificar sinais de alerta precoces.

O cruzamento dessas informações, domicílio como principal local e solteiros como o principal grupo, sugere que muitos episódios ocorrem em ambientes privados, sem testemunhas ou possibilidade de ajuda

4.7 Ocupação e Escolaridade

df %>%
  filter(!is.na(escolaridade_cat)) %>%
  count(escolaridade_cat, sort = TRUE) %>%
  dplyr::top_n(10, wt = n) %>%
  ggplot(aes(x = n, y = reorder(escolaridade_cat, n), fill = escolaridade_cat)) +
  geom_col(show.legend = FALSE) +
  scale_fill_viridis(discrete = TRUE, option = "D") +  labs(
    title = "Relação entre Escolaridade e Número de Óbitos",
    x = "Número de óbitos",
    y = "Escolaridade"
  )

df %>%
  filter(!is.na(OCUP)) %>%
  count(OCUP, sort = TRUE) %>%
  dplyr::top_n(10, wt = n) %>%
  ggplot(aes(x = n, y = reorder(OCUP, n), fill = OCUP)) +
  geom_col(show.legend = FALSE) +
  scale_fill_viridis(discrete = TRUE, option = "D") +  labs(
    title = "Top 10 ocupações mais frequentes entre os óbitos autoprovocados",
    x = "Número de óbitos",
    y = "Ocupação"
  )

Ocupação

O conjunto de ocupações mais comuns entre os óbitos revela dois grandes blocos vulneráveis:

  1. Trabalhadores rurais
    – trabalhador agropecuário,
    – trabalhador volante da agricultura,
    – caseiro,
    – produtor agropecuário.

  2. Trabalhos de baixa remuneração ou alta informalidade
    – pedreiro,
    – servente de obras,
    – empregado doméstico,
    – vendedor/comerciário varejista

    Essas categorias compartilham características importantes:
    – alta instabilidade financeira,
    – pouca proteção trabalhista,
    – baixos rendimentos,
    – menor acesso a serviços de saúde,
    – maior presença em áreas isoladas e com menos suporte institucional.

Isso indica que condições socioeconômicas e contextos laborais exercem papel central na vulnerabilidade.

Escolaridade

O padrão observado na escolaridade complementa o panorama das ocupações. Os grupos com maior número de óbitos são:

  • Ensino Fundamental II

  • Ensino Médio

  • Ensino Fundamental I

Essa distribuição mostra uma forte concentração em níveis educacionais baixos a médios, faixas associadas a menor renda, ocupações mais instáveis e menor acesso a cuidados de saúde mental de qualidade.

O conjunto desses achados sugere uma associação robusta entre vulnerabilidade socioeconômica, trabalho informal ou fisicamente desgastante e menor escolaridade.

5. Conclusões

5.1 Conclusão da Declaração do Problema

Este trabalho partiu do desafio de compreender um fenômeno multifatorial, sensível e profundamente humano: os óbitos por lesões autoprovocadas no Brasil. A questão central não era apenas medir quantos casos ocorreram, mas entender quem são essas pessoas, em quais condições vivem, como esses eventos acontecem e o que o conjunto de dados revela sobre vulnerabilidades sociais que não são imediatamente visíveis.

A análise permitiu concluir que o problema é marcado pela combinação de fatores demográficos, sociais, regionais e circunstanciais que se reforçam entre si. Não se trata de um evento aleatório distribuído uniformemente na sociedade, mas de um padrão estruturado, concentrado em perfis, momentos e contextos específicos que podem ser objeto de intervenção direcionada.

5.2 Conclusão sobre a Abordagem Utilizada

Para responder à questão inicial, utilizou-se um conjunto de dados amplo do Sistema de Informações sobre Mortalidade (SIM), cobrindo o período 2018–2020. A abordagem empregada, baseada em limpeza, padronização, criação de novas variáveis (faixa etária, causa detalhada, ano/mês, escolaridade reagrupada, ocupação categorizada), e posterior exploração visual e estatística, mostrou-se adequada para revelar padrões estruturais.

A combinação de análises temporais, demográficas, geográficas e circunstanciais permitiu transformar registros individuais em um conjunto coerente de evidências. Esse processo confirmou a viabilidade da metodologia adotada e permitiu situar o problema em um contexto mais amplo, no qual determinantes sociais de saúde e desigualdades estruturais se mostram decisivos.

5.3 Conclusão sobre os Insights Obtidos

A evolução mensal dos óbitos mostrou uma trajetória ascendente no período analisado, marcada por picos sazonais e padrões que se alteram em 2020, indicando que fatores sociais amplos, como mudanças econômicas e eventos nacionais, influenciam de forma significativa esses desfechos. Quando essa evolução é observada ao lado do perfil etário e de sexo, nota-se a predominância de homens de meia-idade, especialmente entre 45 e 59 anos, um segmento geralmente pressionado por responsabilidades econômicas, desgaste psicológico acumulado e menor procura por assistência especializada.

Essa tendência ganha força quando analisada regionalmente: estados mais populosos e desenvolvidos, como São Paulo, Minas Gerais e os estados do Sul, concentram números absolutos elevados. Embora parte disso seja explicado pelo tamanho populacional, a persistência de altas taxas nessas regiões sugere particularidades culturais, padrões de acesso a meios letais e dinâmicas de isolamento urbano e rural que reforçam riscos.

O recorte por raça/cor adiciona outra camada: embora a população parda seja numericamente predominante no país, os óbitos atingem proporcionalmente mais pessoas brancas. Isso aponta para fatores comportamentais, culturais e psicossociais específicos desse grupo, que se combinam com os demais elementos estruturais.

O método utilizado também não é neutro: o enforcamento permanece como o mais frequente e extremamente letal, explicando por que grande parte desses episódios resulta em óbito mesmo ocorrendo em domicílio, local onde a maioria dos casos acontece. Essa concentração no ambiente doméstico é reforçada pelo fato de que pessoas solteiras compõem a maior parte dos registros, sugerindo menor acesso a suporte social imediato nos momentos críticos.

Ao incorporar ocupação e escolaridade, o quadro se aprofunda: grande parte dos óbitos envolve trabalhadores rurais, pedreiros, trabalhadores de serviços gerais e ocupações de maior desgaste físico e instabilidade econômica. Esses indivíduos, em sua maioria, possuem escolaridade limitada ao fundamental II ou ensino médio, indicando que vulnerabilidade socioeconômica e baixa inserção em redes formais de cuidado podem funcionar como fatores silenciosos que aumentam o risco ao longo do tempo.

Todos esses elementos, quando considerados em conjunto (evolução temporal, perfil demográfico, distribuição regional, raça/cor, ambiente doméstico, estado civil, inserção profissional e escolaridade) convergem para um retrato consistente: o problema é estrutural, reforçado por desigualdades sociais, baixa disponibilidade de apoio emocional ou institucional e grande acesso a métodos altamente letais. Não é possível compreendê-lo olhando apenas para uma variável; é a combinação das condições que revela onde as maiores vulnerabilidades se acumulam.

5.4 Implicações para Clientes

Os resultados oferecem um conjunto de indicações práticas:

  1. Fortalecimento da rede de cuidado no ambiente doméstico, com foco em indivíduos solteiros ou com poucos vínculos familiares.

  2. Ações em setores profissionais vulneráveis, incluindo trabalhadores rurais, da construção civil e ocupações de baixa escolaridade.

  3. Campanhas específicas para grupos com menor nível educacional, com políticas de inserção social.

  4. Políticas de redução de acesso a meios letais, especialmente venenos e armas de fogo.

Esses insights podem orientar instituições públicas, equipes de vigilância epidemiológica, serviços de saúde mental e organizações governamentais e não governamentais na formulação de estratégias mais adequadas ao perfil real das pessoas mais afetadas.

5.5 Limitações e Possíveis Extensões

Ainda que ampla, a análise apresenta limitações importantes:

  • parte dos registros possui preenchimento incompleto, especialmente em ocupação e escolaridade;

  • números absolutos não ajustados por população dificultam comparações diretas entre UFs;

  • não há informações clínicas ou psicossociais que permitam aprofundar a compreensão das causas;

  • variáveis como renda, condições econômicas ou contexto familiar não estão disponíveis;

  • análises mais avançadas (modelos estatísticos, séries temporais, machine learning) poderiam esclarecer relações causais e prever grupos de risco com mais precisão.

Futuras expansões poderiam incluir: cálculo de taxas por 100 mil habitantes por UF e raça/cor, inclusão de dados socioeconômicos externos, modelagem preditiva, análises qualitativas regionais e uma série histórica mais longa para avaliar tendências estruturais.

6. Referências

[1] Ministério da Saúde – Sistema de Informações sobre Mortalidade (SIM).
Disponível em: https://www.gov.br/saude/pt-br/composicao/svsa/sistemas-de-informacao/sim

[2] Saldanha, R. F. – microdatasus: Pacote para download e processamento de dados do DATASUS.
Repositório GitHub: https://github.com/rfsaldanha/microdatasus

[3] DATASUS – Departamento de Informática do SUS.
Portal: https://datasus.saude.gov.br/

[4] Ministério da Saúde – Estrutura do SIM para Ciência de Dados.
Documento técnico (PDF): https://rfsaldanha.github.io/sis/assets/sim/Estrutura_SIM_para_CD.pdf