Introdução

Vamos mostrar um exemplo da importância da análise estatística na área de saúde usando o R. Para isso vamos voltar no tempo e conhecer um pouco da história do médico e cientista Dr.Ignaz Semmelwei, hoje conhecido como um dos pioneiros dos procedimentos antissépticos.

1. Conheça o Dr. Ignaz Semmelwei

Este da foto acima é o Dr. Ignaz Semmelweis, médico húngaro nascido em 1818 e ativo no Hospital Geral de Viena. Sua preocupação na época era a febre do parto: uma doença mortal que afetava mulheres que acabavam de dar à luz. No início dos anos 1840, no Hospital Geral de Viena, 10% das mulheres que davam à luz morriam por causa disso. Ele sabia a causa da febre do parto: são as mãos contaminadas dos médicos que estão entregando os bebês.

Vamos analisar aqui os dados que fizeram Semmelweis descobrir a importância da lavagem das mãos e para isso será usado o R.

Inicialmente vamos observar os dados que fizeram Semmelweis perceber que havia algo errado com os procedimentos do Hospital Geral de Viena.

Rodando o código abaixo, com o dataset retirado do Github temos acesso a tabela com os dados.

# Carregue o pacote tidyverse
library(tidyverse)

# ler o dataset/yearly_deaths_by_clinic.csv em yearly- dados anuais
yearly <- read_csv('https://raw.githubusercontent.com/datacamp/projects-discovery-of-handwashing-python/master/datasets/yearly_deaths_by_clinic.csv')

# imprimir yearly

print(yearly)
## # A tibble: 12 x 4
##     year births deaths clinic  
##    <dbl>  <dbl>  <dbl> <chr>   
##  1  1841   3036    237 clinic 1
##  2  1842   3287    518 clinic 1
##  3  1843   3060    274 clinic 1
##  4  1844   3157    260 clinic 1
##  5  1845   3492    241 clinic 1
##  6  1846   4010    459 clinic 1
##  7  1841   2442     86 clinic 2
##  8  1842   2659    202 clinic 2
##  9  1843   2739    164 clinic 2
## 10  1844   2956     68 clinic 2
## 11  1845   3241     66 clinic 2
## 12  1846   3754    105 clinic 2

Para quem não está acostumado com o R, a tabela gerada é chamada tibble, que é o padrão de tabela usada atualmente no R. Observe que o resultado do código também nos informa que a tabela tem 12 linhas e 4 colunas.

As 4 colunas são:

Notou algo estranho?

2. O número alarmante de mortes

A tabela acima mostra o número de mulheres que deram à luz nas duas clínicas do Hospital Geral de Viena nos anos de 1841 a 1846. Você notará que dar à luz era muito perigoso; um número alarmante de mulheres morreu como resultado do parto, a maioria por febre do parto.

Veremos isso mais claramente se considerarmos o percentual de mortes. Para isso vamos usar a função mutate do pacote dplyr para acrescentar uma nova coluna, proportion_deaths que terá essa informação.

# Adicionando uma nova coluna em yearly: proporção de mortes por nº. nascimentos

yearly <- mutate(yearly, proportion_deaths =deaths /births)
# Imprimindo o dataset com a nova coluna
print(yearly)
## # A tibble: 12 x 5
##     year births deaths clinic   proportion_deaths
##    <dbl>  <dbl>  <dbl> <chr>                <dbl>
##  1  1841   3036    237 clinic 1            0.0781
##  2  1842   3287    518 clinic 1            0.158 
##  3  1843   3060    274 clinic 1            0.0895
##  4  1844   3157    260 clinic 1            0.0824
##  5  1845   3492    241 clinic 1            0.0690
##  6  1846   4010    459 clinic 1            0.114 
##  7  1841   2442     86 clinic 2            0.0352
##  8  1842   2659    202 clinic 2            0.0760
##  9  1843   2739    164 clinic 2            0.0599
## 10  1844   2956     68 clinic 2            0.0230
## 11  1845   3241     66 clinic 2            0.0204
## 12  1846   3754    105 clinic 2            0.0280

3. Morte nas clínicas

Se agora traçarmos a proporção de mortes na clínica 1 e na clínica 2, veremos um padrão curioso …

# plotando a proporção anual de mortes nas duas clínicas
# .... YOUR CODE FOR TASK 3 ....
ggplot(yearly, aes(x=year, y=proportion_deaths, color=clinic)) + geom_line() + xlab('ano') + ylab('percentual')

Pelo gráfico acima, fica evidente que a proporção de mortes na clinica 1 é maior do que na clinica 2…

4. A lavagem das mãos começa

Por que a proporção de mortes é constantemente muito maior na Clínica 1? Semmelweis viu o mesmo padrão e ficou confuso e angustiado. A única diferença entre as clínicas era que muitos estudantes de medicina serviam na Clínica 1, enquanto a maioria das parteiras trabalhava na Clínica 2. Enquanto as parteiras cuidavam apenas das mulheres que estavam em trabalho de parto, os estudantes de medicina também passavam um tempo nas salas de autópsia examinando cadáveres.

Semmelweis começou a suspeitar que algo nos cadáveres, espalhado pelas mãos dos estudantes de medicina, causava febre no parto. Então, numa tentativa desesperada de deter as altas taxas de mortalidade, ele decretou: Lave as mãos! Este foi um pedido pouco ortodoxo e controverso, ninguém em Viena sabia sobre bactérias naquele momento.

Vamos carregar dados mensais da Clínica 1, também acessado direto do github, para ver se a lavagem das mãos teve algum efeito. As primeiras 10 linhas são

# Lendo o dataset datasets/monthly_deaths.csv -dados mensais

monthly <- read_csv('https://raw.githubusercontent.com/datacamp/projects-discovery-of-handwashing-r/master/datasets/monthly_deaths.csv')

#Adicionando uma nova coluna com proporção de mortes por nº. nascimentos
monthly <- mutate(monthly,proportion_deaths=(deaths/births))

#imprimindo as primeiras linhas dos dados com a nova coluna
print(monthly)
## # A tibble: 98 x 4
##    date       births deaths proportion_deaths
##    <date>      <dbl>  <dbl>             <dbl>
##  1 1841-01-01    254     37           0.146  
##  2 1841-02-01    239     18           0.0753 
##  3 1841-03-01    277     12           0.0433 
##  4 1841-04-01    255      4           0.0157 
##  5 1841-05-01    255      2           0.00784
##  6 1841-06-01    200     10           0.05   
##  7 1841-07-01    190     16           0.0842 
##  8 1841-08-01    222      3           0.0135 
##  9 1841-09-01    213      4           0.0188 
## 10 1841-10-01    236     26           0.110  
## # ... with 88 more rows

5. O efeito da lavagem das mãos

Com os dados carregados, agora podemos observar a proporção de mortes ao longo do tempo. No gráfico abaixo, feito usando o pacote ggplot, não marcamos onde começou a lavagem obrigatória das mãos, mas a proporção de mortes reduziu de tal maneira que você poderá identificá-la facilmente!

# plot da proporção mensal de mortes
ggplot(monthly, aes(x=date, y=proportion_deaths)) + geom_line()+
labs(x='data', y='Proportion de mortes')

6. O efeito da lavagem das mãos em destaque

A partir do verão de 1847 a proporção de mortes reduziu drasticamente e, sim, foi quando Semmelweis tornou obrigatória a lavagem das mãos.

O efeito da lavagem das mãos fica ainda mais claro se destacarmos isso no gráfico.

Vamos destacar quando se tornou obrigatório a lavagem de mãos.

# A partir desta data, a lavagem das mãos passou a ser obrigatória
handwashing_start = as.Date('1847-06-01')

# Adicione uma coluna TRUE / FALSE ao mês chamada handwashing_started para separar as datas
monthly <- monthly %>% mutate(handwashing_started= date>=handwashing_start)
# Traçar a proporção mensal de mortes antes e depois da lavagem das mãos

ggplot(monthly, aes(x=date, y=proportion_deaths, color=handwashing_started)) + geom_line() 

7. Mais lavagem das mãos, menos mortes?

Novamente, o gráfico mostra que a lavagem das mãos teve um efeito enorme. Quanto isso reduziu a proporção mensal de mortes em média?

Agrupando os dados por esses dois conjuntos(antes e depois da obrigatoriedade de lavagem de mãos) e calculando a média de proporção de óbitos:

# Calculando a proporção média de mortes
# antes e depois da lavagem das mãos.

monthly_summary <-  monthly %>% group_by(handwashing_started)%>%
   summarise(mean_proportion_deaths=mean(proportion_deaths))

# Printing out the summary.
monthly_summary
## # A tibble: 2 x 2
##   handwashing_started mean_proportion_deaths
##   <lgl>                                <dbl>
## 1 FALSE                               0.105 
## 2 TRUE                                0.0211

8. Uma análise estatística dos dados de lavagem das mãos de Semmelweis

Reduziu a proporção de mortes em cerca de 8 pontos percentuais! De 10% em média antes da lavagem das mãos para apenas 2% quando a lavagem das mãos foi aplicada (o que ainda é um número alto para os padrões modernos). Podemos olhar um boxplot para observar essa diferença de um outro ponto de vista:

ggplot(monthly, aes(x = handwashing_started, y=proportion_deaths, fill=handwashing_started)) + geom_boxplot()

Para ter uma ideia da incerteza sobre o quanto a lavagem das mãos reduz a mortalidade, poderíamos olhar para um intervalo de confiança (aqui calculado usando um teste t).

#Calculando um intervalo de confiança de 95% usando teste t:
test_result <-  t.test( proportion_deaths ~ handwashing_started, data = monthly)
test_result
## 
##  Welch Two Sample t-test
## 
## data:  proportion_deaths by handwashing_started
## t = 9.6101, df = 92.435, p-value = 1.445e-15
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.06660662 0.10130659
## sample estimates:
## mean in group FALSE  mean in group TRUE 
##          0.10504998          0.02109338

9. O destino do Dr. Semmelweis

O fato de os médicos não terem lavado as mãos aumentou a proporção de mortes entre 6,7 e 10 pontos percentuais, segundo um intervalo de confiança de 95%. Ao todo, parece que Semmelweis tinha evidências sólidas de que lavar as mãos era um procedimento simples, mas altamente eficaz, que poderia salvar muitas vidas.

A tragédia é que, apesar das evidências, a teoria de Semmelweis - de que a febre puerperal era causada por alguma “substância” (o que hoje conhecemos como bactérias) de cadáveres de sala de autópsia - foi ridicularizada pelos cientistas contemporâneos. A comunidade médica rejeitou amplamente sua descoberta e em 1849 ele foi forçado a deixar o Hospital Geral de Viena para sempre.

Uma razão para isso foi que as estatísticas e os argumentos estatísticos eram incomuns na ciência médica do século XIX. Semmelweis apenas publicou seus dados como longas tabelas de dados brutos, mas não mostrou nenhum gráfico nem intervalo de confiança. Se ele tivesse tido acesso à análise que acabamos de fazer, ele poderia ter sido mais bem-sucedido em conseguir que os médicos vienenses lavassem as mãos.

Era isso, até a próxima!

Keep calm and analysing data!