Influência dos Fatores Sociais e de Saúde na Mortalidade por Câncer de Mama no Brasil

Análise Inteligente de Dados (COB754)

Lívia Ferrete

Sumário

  • 1. Introdução
  • 2. Objetivo
  • 3. Metodologia
    • 3.1. Fontes dos dados
    • 3.2. Estrutura do banco e relação de variáveis
    • 3.3. Tabela descritiva
    • 3.4. Preparação dos dados
    • 3.5. Modelagens
      • 3.5.1. Treinamento dos modelos
      • 3.5.2. Regressão Linear
      • 3.5.3. k-NN
      • 3.5.4. Random Forest
  • 4. Resultados
    • 4.1. Regressão Linear
    • 4.2. k-NN
    • 4.3. Random Forest
    • 4.4. Comparação entre modelos
  • 5. Conclusão

Introdução

  • O câncer de mama é uma das principais causas de morte entre mulheres em todo o mundo;
  • a doença impõe significativos desafios socioeconômicos para as famílias e o sistema de saúde.

Objetivo

Desenvolver modelos de predição da taxa de mortalidade por câncer de mama nas regiões geográficas imediatas (RGIs), no período de 2015 a 2019, por meio de indicadores socioeconômicos e de saúde no Brasil.

Regiões Geográficas Imediatas

Mapa das Regiões Geográficas Imediatas

“As Regiões Geográficas Imediatas correspondem às áreas que procuram centros urbanos próximos para satisfação de necessidades imediatas como emprego, saúde, educação, compras de bens de consumo e prestação de serviços públicos.”

Metodologia

Fontes dos dados

  • Taxas de mortalidade e diversos preditores obtidas a nível municipal, em diversas bases oficiais, como o Atlas On-line de Mortalidade (INCA), DATASUS/Tabnet (Ministério da Saúde), Ipeadata (IPEA), Proadess (FIOCRUZ) e SIDRA (IBGE);
    • Posteriormente, aglutinado nas RGIs (média ponderada pelo tamanho da população dos municípios que compõem cada região).
  • Taxas dos preditores: 2010 (último censo);
  • Taxa de mortalidade: 2015 a 2019 - recorte 5 anos, sem contemplar a pandemia de Covid-19.

Estrutura do banco

# Lendo o banco
dados <- readRDS("base_CM_RI_COB754.RDS")

# Visualização inicial dos dados
str(dados)
'data.frame':   510 obs. of  25 variables:
 $ regiao_geografica_imediata       : chr  "110001" "110002" "110003" "110004" ...
 $ TAXA_AJUSTADA                    : num  13.37 9.32 7.66 6.99 10.86 ...
 $ mp_cobertura_esf_2010            : num  59.1 52.8 64.3 56.4 53.3 ...
 $ mp_densidade_demografica         : num  10.8 13.7 10.3 12.7 16.3 ...
 $ mp_mais_de_0.5_a_1_morador       : num  46 49.7 47.8 47.3 47.3 ...
 $ mp_desemprego                    : num  5.58 4.42 4.4 5.37 5.39 ...
 $ mp_domicilio_entorno_arborizado  : num  37.1 22.5 27.2 34.2 63.9 ...
 $ mp_domicilio_mulher_responsavel  : num  38.6 29.3 29.2 29.9 29 ...
 $ mp_domicilio_entorno_pavimentado : num  44.2 53.2 36.4 27.9 36.9 ...
 $ mp_enfermeiros_2010              : num  66.5 36.2 34.3 35.4 40.2 ...
 $ mp_esgoto_ou_fossa               : num  38.42 8.45 5.69 14.26 25.46 ...
 $ mp_evangelicos                   : num  32.4 33.9 35.8 35.9 34.6 ...
 $ mp_gini                          : num  0.552 0.53 0.524 0.535 0.545 ...
 $ mp_homicidios_2010               : num  43.9 59.9 29.3 14.5 20.8 ...
 $ mp_leitos_hosp_2010              : num  2.42 1.36 1.21 1.46 1.59 ...
 $ mp_mamografos_2010               : num  2.414 4.24 0.919 1.752 0.346 ...
 $ mp_medicos_gyn_ob_2010           : num  10.57 3.906 0.919 4.108 2.506 ...
 $ mp_medio_completo                : num  28.8 17.7 12.9 18.2 16.8 ...
 $ mp_PCDs                          : num  21.6 21.4 21.2 23.1 23.2 ...
 $ mp_pib_per_capita                : num  19800 12954 12232 13072 12666 ...
 $ mp_raca_preta                    : num  6.95 8.2 7.91 6.35 6.09 ...
 $ mp_recursos_destinados_saude_2010: num  18 20.9 18.7 20.1 23.3 ...
 $ mp_suicidios_2010                : num  6.75 3.66 2.66 3.38 5.54 ...
 $ mp_trabalha_mais_44h             : num  25.2 30.1 23.6 25.4 26.3 ...
 $ mp_ultrassons_2010               : num  13.7 13.4 11.6 13.9 14.3 ...

Relação de variáveis

  • Atributo chave: regiao_geografica_imediata;

  • Taxa de mortalidade (desfecho): TAXA_AJUSTADA;

  • Indicadores sociais: densidade_demografica, mais_de_0.5_a_1_morador, domicilio_entorno_arborizado, domicilio_mulher_responsavel, domicilio_entorno_pavimentado, esgoto_ou_fossa, evangelicos, homicidios_2010, medio_completo, PCDs, raca_preta, suicidios_2010;

  • Indicadores econômicos: desemprego, gini, pib_per_capita, trabalha_mais_44h;

  • Indicadores de saúde: enfermeiros_2010, leitos_hosp_2010, mamografos_2010, medicos_gyn_ob_2010, recursos_destinados_saude_2010, ultrassons_2010.

Tabela descritiva

Características N = 5101
Mortalidade por CM (por 100 mil habitantes) 11,0 (5,2)
Cobertura da ESF (%) 73 (35)
Densidade demográfica (habitante/km²) 48 (92)
Densidade domiciliar (até 1 morador/cômodo) 41,7 (6,9)
Desemprego (%) 6,62 (3,12)
Arborização (%) 72 (33)
Mulheres responsáveis (%) 35,3 (5,4)
Pavimentação (%) 74 (26)
Enfermeiros (por 100 mil habitantes) 52 (20)
Esgoto (%) 47 (53)
Evangélicos (%) 19 (12)
Índice de Gini 0,51 (0,06)
Homicídios (por 100 mil habitantes) 16 (18)
Leitos hospitalares (por mil habitantes) 1,88 (1,01)
Mamógrafos (por 100 mil habitantes) 1,50 (1,74)
Médicos especialistas (por 100 mil habitantes) 1,9 (3,7)
Médio completo (%) 18,5 (7,8)
Pessoas com deficiência (%) 23,67 (4,13)
PIB per capita (R$) 12.937 (12.003)
Raça preta (%) 5,7 (4,2)
Recursos destinados à saúde (%) 20,00 (3,89)
Suicídios (por 100 mil habitantes) 5,2 (4,1)
Trabalho excedente (%) 29 (8)
Ultrassons (por 100 mil habitantes) 10,8 (6,4)
1 Mediana (AIQ)

Preparação dos dados

  • Avaliação de multicolinearidade: variáveis previamente selecionadas a partir da correlação de Spearman (> 0.8) e do VIF (> 5);

  • Quantificação de valores ausentes:

sum(is.na(dados))
[1] 0

Matriz de correlação dos preditores

Modelagens

Foram desenvolvidos, treinados e comparados 3 modelos de regressão distintos: k-NN, Regressão Linear e Random Forest.

Treinamento dos modelos

  • Divisão treino/teste: 80/20;
  • Escolha de hiperparâmetros (k-NN e RF): validação cruzada (10-fold), repetida 3x.

Regressão Linear

  • Seleção de variáveis por step (backward).

k-NN

  • Padronização dos preditores por Z-score (a distribuição de cada variável apresentando média 0 e desvio padrão 1).
Hiperparâmetros testados
  • Número de vizinhos (k): valores ímpares entre 1 e 23;
  • Distância: Manhattan ou euclidiana;
  • Ponderação (kernel): “rectangular” (sem peso) ou “gaussian”.

Random Forest

  • mtry: testados valores entre 1 e 23;
  • ntree: testados os valores 500, 1000 e 1500.

Resultados

Regressão Linear


Call:
lm(formula = TAXA_AJUSTADA ~ mp_densidade_demografica + mp_domicilio_entorno_arborizado + 
    mp_domicilio_mulher_responsavel + mp_enfermeiros_2010 + mp_esgoto_ou_fossa + 
    mp_evangelicos + mp_gini + mp_leitos_hosp_2010 + mp_medicos_gyn_ob_2010 + 
    mp_medio_completo + mp_PCDs + mp_suicidios_2010, data = dados_treino)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.2128 -1.6825 -0.0064  1.4540  9.2762 

Coefficients:
                                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)                      2.725e+00  2.756e+00   0.989  0.32331    
mp_densidade_demografica         4.077e-04  2.577e-04   1.582  0.11442    
mp_domicilio_entorno_arborizado  1.727e-02  7.203e-03   2.398  0.01695 *  
mp_domicilio_mulher_responsavel  8.809e-02  4.048e-02   2.176  0.03016 *  
mp_enfermeiros_2010             -1.207e-02  9.767e-03  -1.236  0.21731    
mp_esgoto_ou_fossa               2.935e-02  7.341e-03   3.997 7.63e-05 ***
mp_evangelicos                   3.250e-02  2.186e-02   1.487  0.13791    
mp_gini                         -1.533e+01  3.693e+00  -4.150 4.07e-05 ***
mp_leitos_hosp_2010              4.970e-01  1.909e-01   2.603  0.00958 ** 
mp_medicos_gyn_ob_2010           1.435e-01  4.864e-02   2.949  0.00337 ** 
mp_medio_completo                1.983e-01  4.462e-02   4.444 1.15e-05 ***
mp_PCDs                          1.919e-01  5.532e-02   3.469  0.00058 ***
mp_suicidios_2010                1.028e-01  3.610e-02   2.847  0.00465 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.654 on 397 degrees of freedom
Multiple R-squared:  0.5431,    Adjusted R-squared:  0.5293 
F-statistic: 39.33 on 12 and 397 DF,  p-value: < 2.2e-16

Regressão Linear: predição

RMSE = 2.39
MAE = 1.81
r = 0.74

k-NN

kmax = 9
distance = 1 (manhattan)
kernel = gaussian

RMSE = 2.33
R2 = 64.16
MAE = 1.85

k-NN: predição

RMSE = 2.05
MAE = 1.64
r = 0.8

Random Forest

Random Forest 

410 samples
 23 predictor

No pre-processing
Resampling: Cross-Validated (10 fold, repeated 3 times) 
Summary of sample sizes: 369, 370, 370, 368, 367, 369, ... 
Resampling results across tuning parameters:

  mtry  RMSE      Rsquared   MAE     
   1    2.560942  0.6031226  2.049818
   3    2.462074  0.6125599  1.944870
   5    2.429364  0.6170074  1.910092
   7    2.428968  0.6145141  1.903734
   9    2.419556  0.6155518  1.895613
  11    2.412149  0.6172546  1.886183
  13    2.411777  0.6164578  1.893282
  15    2.412343  0.6158686  1.893550
  17    2.409757  0.6156315  1.897381
  19    2.404120  0.6174481  1.892688
  21    2.408884  0.6148182  1.896647
  23    2.403173  0.6170297  1.894876

RMSE was used to select the optimal model using the smallest value.
The final value used for the model was mtry = 23.

Random Forest: predição

RMSE = 2.15
MAE = 1.7
r = 0.8

Random Forest: importância das variáveis

Comparação entre modelos

IC95% das métricas

  • Criação de 2000 amostras bootstrap do conjunto de teste (TLC);

  • Houve sobreposição de todos os intervalos das métricas.

IC95% das métricas

  • MAE:
    • k-NN: (1.39 - 1.85)
    • Random Forest: (1.45 - 1.92)
    • Regressão Linear: (1.49 - 2.01)
  • R2:
    • k-NN: (0.58 - 0.74)
    • Random Forest: (0.54 - 0.74)
    • Regressão Linear: (0.46 - 0.65)
  • RMSE:
    • k-NN: (1.76 - 2.31)
    • Random Forest: (1.78 - 2.44)
    • Regressão Linear: (1.95 - 2.67)

Visualização gráfica dos ICs

Conclusão

Modelo escolhido

  • Visto que não há diferença estatisticamente significativa entre os modelos, apesar do k-NN ter performado melhor, em média, optou-se pelo Random Forest;

  • Possibilidade de verificar a importância das variáveis no desempenho do modelo, característica que o torna interessante para estudos epidemiológicos, de viés exploratório.

Obrigada!