1. Base de Dados e Pré-processamento
1.1 Carregando a base de dados
#carregando a base de dados em .csv
dados <-
data.table::fread("/Dados/Coorte100m/PBF_SHSM/SHARED/Dataset_SIM_Daiane_geo.csv", select = c("cod_familiar_eq", "idade", "cod_sexo_pessoa_eq", "cod_raca_cor_pessoa_eq", "escolaridade_eq", "regiao", "urban", "cod_destino_lixo_domic_fam_eq", "cod_escoa_sanitario_domic_fam_eq", "cod_abaste_agua_domic_fam_eq", "homicide", "suicide"))
|--------------------------------------------------|
|==================================================|
dados <- dados %>% filter(idade > 10) #retirando criancas menores de 10 anos
1.2 Pre-processando a base original
#funcao para calcular a moda
moda <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
#criando a variavel idade
dados <- dados %>%
mutate(
idade = case_when(
idade < 19~1,
idade >= 20 & idade < 40~2,
idade >= 40 & idade < 60~3,
idade >= 60~4)
)
#criando a variavel homem_familia
dados <- dados %>%
mutate(
homem_familia = case_when(
cod_sexo_pessoa_eq == 1~1,
cod_sexo_pessoa_eq == 2~0)
)
#criando a variavel escolaridade
dados <- dados %>%
mutate(
escolaridade = case_when(
escolaridade_eq == 0~0,
escolaridade_eq == 1~1,
escolaridade_eq == 2~2,
escolaridade_eq == 3~3,
escolaridade_eq == 4~4,
escolaridade_eq == 5 | escolaridade_eq == 6~5)
)
#mudando o rotulo da variavel regiao
dados <- dados %>%
mutate(
regiao = case_when(
regiao == "Nordeste"~1,
regiao == "Norte"~2,
regiao == "Sudeste"~3,
regiao == "Centro-Oeste"~4,
regiao == "Sul"~5)
)
#criando a variavel LivingConditions
#Lixo
dados <- dados %>%
mutate(
lixo = case_when(
cod_destino_lixo_domic_fam_eq == 1 | cod_destino_lixo_domic_fam_eq == 2~1,
TRUE~0)
)
#Escoamento
dados <- dados %>%
mutate(
escoamento = case_when(
cod_escoa_sanitario_domic_fam_eq == 1 | cod_escoa_sanitario_domic_fam_eq == 2 | cod_escoa_sanitario_domic_fam_eq == 3~1,
TRUE~0)
)
#Agua
dados <- dados %>%
mutate(
agua = case_when(
cod_abaste_agua_domic_fam_eq == 1~1,
TRUE~0)
)
#LivingConditions
dados <- dados %>%
mutate(
living_conditions = (lixo + escoamento + agua)
)
1.3 Realizando a mudanca de grao da base
#familias com pelo menos um suicidio
qtd_suic_familia <- dados %>%
group_by(cod_familiar_eq) %>% #agrupando por familias
summarise(
qtd_pesoas_familia = n(),#quantidade de pessoas na familia
qtd_suic_familia = sum(suicide), #quantidade de suicidios na familia
qtd_homic_familia = sum(homicide), #quantidade de homicidio na familia
homem_familia = (sum(homem_familia)/n())*100, #percentual de homens na familia
raca = moda(cod_raca_cor_pessoa_eq), #raca predominante(moda) na familia
regiao = moda(regiao), #regiao predominante (moda) da familia
urban = moda(urban), #predominancia de membros da familia em area urbana
idade = moda(idade), #predominancia (moda) da faixa etaria da familia
escolaridade = moda(escolaridade), #predominancia (moda) da faixa etaria da familia
living_conditions = moda(living_conditions)#condicao de vida predominante(moda) na familia
) %>%
filter(qtd_pesoas_familia > 1) #familias com mais de uma pessoa
#categorizar a quantidade de pessoas na familia
qtd_suic_familia <- qtd_suic_familia %>%
mutate(
pessoas_na_familia = case_when(
qtd_pesoas_familia == 2~"1",
qtd_pesoas_familia == 3~"2",
qtd_pesoas_familia == 4~"2",
qtd_pesoas_familia == 5~"3",
qtd_pesoas_familia == 6~"3",
qtd_pesoas_familia >7~"4")
)
#criando a variavel desfecho
dados_familia <- qtd_suic_familia %>%
mutate( #se teve pelo menos um suicidio (1) e caso contrrario (0)
desfecho = case_when(qtd_suic_familia >= 1~1,TRUE~0)
)
1.4 Salvando a base agregada no grao familia
#salvando a base de dados em .csv
rm(dados)
write.csv(dados_familia,"/Dados/Coorte100m/PBF_SHSM/SHARED/Dataset_SIM_Daiane_geo_Agregada.csv")
rm(dados_familia)
rm(qtd_suic_familia)
gc()
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 2683512 143.4 626419900 33454.5 645755748 34487.1
Vcells 106622989 813.5 3104563892 23686.0 3874748559 29562.0
2. Análise Exploratória dos Dados
2.1 Carregando a base de dados agregada
dados <-
data.table::fread("/Dados/Coorte100m/PBF_SHSM/SHARED/Dataset_SIM_Daiane_geo_Agregada.csv")
#dados <- dados %>% sample_n(10000)
2.2 Tabela de contingência vs Variável binária suicídio
familiar
dados %>%
select( #aqui ta selecionando as variáveis na tabela
qtd_homic_familia,
pessoas_na_familia,
homem_familia,
raca,
regiao,
urban,
idade,
escolaridade,
living_conditions,
desfecho) %>%
tbl_summary(by = desfecho,
statistic = list(all_continuous() ~ "{mean} ({sd})")) %>%
add_p() %>% #adiciona os p-valores dos testes estatísticos
bold_labels()
There was an error in 'add_p()/add_difference()' for variable 'qtd_homic_familia', p-value omitted:
Error in stats::fisher.test(c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, : FEXACT error 40.
Out of workspace.
| Characteristic |
0, N = 21,598,482 |
1, N = 32,727 |
p-value |
| qtd_homic_familia |
|
|
|
| 0 |
21,386,133 (99%) |
32,008 (98%) |
|
| 1 |
206,696 (1.0%) |
699 (2.1%) |
|
| 2 |
5,392 (<0.1%) |
19 (<0.1%) |
|
| 3 |
245 (<0.1%) |
1 (<0.1%) |
|
| 4 |
15 (<0.1%) |
0 (0%) |
|
| 5 |
1 (<0.1%) |
0 (0%) |
|
| pessoas_na_familia |
|
|
<0.001 |
| 1 |
10,088,330 (47%) |
8,787 (28%) |
|
| 2 |
8,659,781 (41%) |
14,924 (47%) |
|
| 3 |
2,333,798 (11%) |
6,902 (22%) |
|
| 4 |
221,379 (1.0%) |
952 (3.0%) |
|
| Unknown |
295,194 |
1,162 |
|
| homem_familia |
46 (22) |
52 (19) |
<0.001 |
| raca |
|
|
<0.001 |
| 1 |
6,573,302 (33%) |
11,776 (39%) |
|
| 2 |
1,502,227 (7.6%) |
2,172 (7.3%) |
|
| 3 |
67,582 (0.3%) |
80 (0.3%) |
|
| 4 |
11,447,985 (58%) |
15,437 (52%) |
|
| 5 |
95,640 (0.5%) |
435 (1.5%) |
|
| Unknown |
1,911,746 |
2,827 |
|
| regiao |
|
|
<0.001 |
| 1 |
8,618,383 (40%) |
12,122 (37%) |
|
| 2 |
2,008,379 (9.3%) |
2,503 (7.7%) |
|
| 3 |
6,858,034 (32%) |
9,110 (28%) |
|
| 4 |
1,474,313 (6.8%) |
2,315 (7.1%) |
|
| 5 |
2,616,703 (12%) |
6,655 (20%) |
|
| Unknown |
22,670 |
22 |
|
| urban |
|
|
<0.001 |
| 0 |
5,254,968 (26%) |
9,500 (30%) |
|
| 1 |
15,333,490 (74%) |
22,013 (70%) |
|
| Unknown |
1,010,024 |
1,214 |
|
| idade |
|
|
<0.001 |
| 1 |
6,138,318 (29%) |
11,405 (35%) |
|
| 2 |
9,704,713 (46%) |
13,632 (42%) |
|
| 3 |
4,119,118 (19%) |
5,858 (18%) |
|
| 4 |
1,353,356 (6.3%) |
1,424 (4.4%) |
|
| Unknown |
282,977 |
408 |
|
| escolaridade |
|
|
<0.001 |
| 0 |
1,996,971 (11%) |
3,363 (12%) |
|
| 1 |
35,890 (0.2%) |
41 (0.2%) |
|
| 2 |
122,090 (0.7%) |
169 (0.6%) |
|
| 3 |
7,129,604 (40%) |
12,132 (45%) |
|
| 4 |
5,958,677 (33%) |
9,393 (35%) |
|
| 5 |
2,780,214 (15%) |
2,101 (7.7%) |
|
| Unknown |
3,575,036 |
5,528 |
|
| living_conditions |
|
|
<0.001 |
| 0 |
2,031,060 (9.4%) |
2,952 (9.0%) |
|
| 1 |
1,860,732 (8.6%) |
3,263 (10.0%) |
|
| 2 |
4,531,631 (21%) |
7,410 (23%) |
|
| 3 |
13,175,059 (61%) |
19,102 (58%) |
|
3. Regressao Logistica
3.1 Construcao do modelo
#modelagem da regressao logistica
m1 <- glm(desfecho ~ qtd_homic_familia + pessoas_na_familia + homem_familia + raca + regiao + urban + idade + escolaridade + living_conditions, data = dados, family = binomial(link = "logit"))
summary(m1)
Call:
glm(formula = desfecho ~ qtd_homic_familia + pessoas_na_familia +
homem_familia + raca + regiao + urban + idade + escolaridade +
living_conditions, family = binomial(link = "logit"), data = dados)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.2991 -0.0611 -0.0482 -0.0397 4.1325
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -7.2878300 0.0416999 -174.768 < 2e-16 ***
qtd_homic_familia 0.4582886 0.0405174 11.311 < 2e-16 ***
pessoas_na_familia2 0.6313746 0.0157501 40.087 < 2e-16 ***
pessoas_na_familia3 1.1551285 0.0197516 58.483 < 2e-16 ***
pessoas_na_familia4 1.5168903 0.0399293 37.989 < 2e-16 ***
homem_familia 0.0113679 0.0003264 34.827 < 2e-16 ***
raca2 -0.1395011 0.0262247 -5.319 1.04e-07 ***
raca3 -0.2563168 0.1247354 -2.055 0.03989 *
raca4 -0.2234810 0.0155999 -14.326 < 2e-16 ***
raca5 0.9052960 0.0534195 16.947 < 2e-16 ***
regiao2 -0.1400343 0.0255728 -5.476 4.35e-08 ***
regiao3 0.0031151 0.0172758 0.180 0.85690
regiao4 0.2060884 0.0261628 7.877 3.35e-15 ***
regiao5 0.5632645 0.0205074 27.466 < 2e-16 ***
urban1 -0.0513244 0.0178476 -2.876 0.00403 **
idade2 0.0802788 0.0157975 5.082 3.74e-07 ***
idade3 -0.0440783 0.0193386 -2.279 0.02265 *
idade4 -0.2742231 0.0322476 -8.504 < 2e-16 ***
escolaridade1 -0.2646262 0.1593179 -1.661 0.09671 .
escolaridade2 -0.1095082 0.0821363 -1.333 0.18245
escolaridade3 -0.1589606 0.0207841 -7.648 2.04e-14 ***
escolaridade4 -0.2661941 0.0221819 -12.001 < 2e-16 ***
escolaridade5 -0.7789799 0.0300139 -25.954 < 2e-16 ***
living_conditions1 0.0264305 0.0337192 0.784 0.43313
living_conditions2 0.0067576 0.0312055 0.217 0.82856
living_conditions3 -0.0129738 0.0322286 -0.403 0.68728
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 374966 on 16913585 degrees of freedom
Residual deviance: 364878 on 16913560 degrees of freedom
(4717623 observations deleted due to missingness)
AIC: 364930
Number of Fisher Scoring iterations: 10
3.2 Tabela de significancia
#construindo tabela
tab_model(m1, file="tabela-suicidio.html")
Profiled confidence intervals may take longer time to compute. Use 'ci_method="wald"' for
faster computation of CIs.
htmltools::includeHTML("tabela-suicidio.html")
| |
desfecho |
| Predictors |
Odds Ratios |
CI |
p |
| (Intercept) |
0.00 |
0.00 – 0.00 |
<0.001 |
| qtd homic familia |
1.58 |
1.46 – 1.71 |
<0.001 |
| pessoas na familia [2] |
1.88 |
1.82 – 1.94 |
<0.001 |
| pessoas na familia [3] |
3.17 |
3.05 – 3.30 |
<0.001 |
| pessoas na familia [4] |
4.56 |
4.21 – 4.93 |
<0.001 |
| homem familia |
1.01 |
1.01 – 1.01 |
<0.001 |
| raca [2] |
0.87 |
0.83 – 0.92 |
<0.001 |
| raca [3] |
0.77 |
0.60 – 0.98 |
0.040 |
| raca [4] |
0.80 |
0.78 – 0.82 |
<0.001 |
| raca [5] |
2.47 |
2.22 – 2.74 |
<0.001 |
| regiao [2] |
0.87 |
0.83 – 0.91 |
<0.001 |
| regiao [3] |
1.00 |
0.97 – 1.04 |
0.857 |
| regiao [4] |
1.23 |
1.17 – 1.29 |
<0.001 |
| regiao [5] |
1.76 |
1.69 – 1.83 |
<0.001 |
| urban [1] |
0.95 |
0.92 – 0.98 |
0.004 |
| idade [2] |
1.08 |
1.05 – 1.12 |
<0.001 |
| idade [3] |
0.96 |
0.92 – 0.99 |
0.023 |
| idade [4] |
0.76 |
0.71 – 0.81 |
<0.001 |
| escolaridade [1] |
0.77 |
0.55 – 1.03 |
0.097 |
| escolaridade [2] |
0.90 |
0.76 – 1.05 |
0.182 |
| escolaridade [3] |
0.85 |
0.82 – 0.89 |
<0.001 |
| escolaridade [4] |
0.77 |
0.73 – 0.80 |
<0.001 |
| escolaridade [5] |
0.46 |
0.43 – 0.49 |
<0.001 |
| living conditions [1] |
1.03 |
0.96 – 1.10 |
0.433 |
| living conditions [2] |
1.01 |
0.95 – 1.07 |
0.829 |
| living conditions [3] |
0.99 |
0.93 – 1.05 |
0.687 |
| Observations |
16913586 |
| R2 Tjur |
0.001 |
NA
