Análise Exploratória

Importando os dados

br <- read.csv("/Users/_nxtusr/Documents/covid_br.csv", sep=';', stringsAsFactors = FALSE)
jp <- read.csv("/Users/_nxtusr/Documents/covid_jp.csv", sep = ';')
cg <- read.csv("/Users/_nxtusr/Documents/covid_cg.csv", sep = ';')

Visualização de Dados - Cenário Brasileiro

Visualização de Dados - Cenário João Pessoa

Panorama Brasileiro

Brasil: Separando os dados entre os 80 primeiros dias e os 80 ultimos dias

br$data <- as.Date(br$data , format = "%Y-%m-%d")
jp$data <- as.Date(jp$data , format = "%Y-%m-%d")

br_antes <- br %>% filter(data <= "2020-05-14")
br_depois <- br %>% filter(data > "2020-07-04")

Casos Novos 80 primeiros dias - Brasil

Casos Novos 80 últimos dias - Brasil

Testes de Aderência de Anderson-Darling para os dados brasileiros

No caso de pequenas amostras (n<30) o teste de Shapiro-Wilk é mais apropriado que o teste K-S, no entanto como nossa amostra é de n > 30 e a média e o desvio padrão da população são conhecidos, por isso em tese poderiamos utilizar o teste de Kolmogorov Smirnov, no entanto ao tentar utilizá-lo recebemos a seguinte mensagem de erro: “ties should not be present for the Kolmogorov-Smirnov test”, que nos informa que valores repetidos não podem estar presentes no teste de Kolmogorov Smirnov. Portanto iremos utilizar o teste de Anderson-Darling, onde:

H0: a amostra é selecionada de uma população que segue a distribuição normal

H1: a amostra selecionada da população não segue a distribuição normal

80 primeiros dias

ad.test(br_antes$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  br_antes$casosNovos
## A = 6.5802, p-value = 2.786e-16

A nossa estatística de teste A é igual a 6.5802 e o valor p correspondente é igual a 2.786e-16. Uma vez que o nosso valor p é inferior a 0.05, podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

80 últimos dias

ad.test(br_depois$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  br_depois$casosNovos
## A = 1.1324, p-value = 0.005462

A nossa estatística de teste A é igual a 1.1324 e o valor p correspondente é igual a 0.005462. Uma vez que o nosso valor p é inferior a 0.05, podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

Teste de Hipóteses

t-emparelhado

H0: μantes = μantes (ou μΔ = 0)

H1: μantes > μdepois

t.test(br_antes$casosNovos, br_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Welch Two Sample t-test
## 
## data:  br_antes$casosNovos and br_depois$casosNovos
## t = -21.509, df = 87.562, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -37862.49       Inf
## sample estimates:
## mean of x mean of y 
##  2536.475 37682.500

Não é possível rejeitar H0 em favor de H1, pois p-value é maior que 0,05.

Teste de Hipótese (Wilcoxon)

H0: μantes = μantes (ou μΔ = 0)

H1: μantes > μdepois

wilcox.test(br_antes$casosNovos, br_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  br_antes$casosNovos and br_depois$casosNovos
## W = 5, p-value = 1
## alternative hypothesis: true location shift is greater than 0

Não é possível rejeitar H0 em favor de H1, pois p-value é maior que 0,05.

Conclusão

A média de casos novos de covid no Brasil não pode ser considerada menor nos últimos 80 dias do que a média de casos de covid nos primeiros 80 dias.

Para o caso de João Pessoa

João Pessoa: Separando os dados entre os 80 primeiros dias e os 80 últimos dias

jp_antes <- jp %>% filter(data <= "2020-06-14")
jp_depois <- jp %>% filter(data > "2020-07-04")

Casos Novos 80 primeiros dias - João Pessoa

Casos Novos 80 últimos dias - João Pessoa

Testes de Aderência de Anderson-Darling para os dados de João Pessoa

No caso de pequenas amostras (n<30) o teste de Shapiro-Wilk é mais apropriado que o teste K-S, no entanto como nossa amostra é de n > 30 e a média e o desvio padrão da população são conhecidos, por isso em tese poderiamos utilizar o teste de Kolmogorov Smirnov, no entanto ao tentar utilizá-lo recebemos a seguinte mensagem de erro: “ties should not be present for the Kolmogorov-Smirnov test”, que nos informa que valores repetidos não podem estar presentes no teste de Kolmogorov Smirnov. Portanto iremos utilizar o teste de Anderson-Darling, onde:

H0: a amostra é selecionada de uma população que segue a distribuição normal

H1: a amostra selecionada da população não segue a distribuição normal

80 primeiros dias

ad.test(jp_antes$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  jp_antes$casosNovos
## A = 5.6762, p-value = 4.139e-14

A nossa estatística de teste A é igual a 5.6762 e o valor p correspondente é igual a 4.139e-14. Uma vez que o nosso valor p é inferior a 0.05, podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

80 últimos dias

ad.test(jp_depois$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  jp_depois$casosNovos
## A = 1.0571, p-value = 0.008406

A nossa estatística de teste A é igual a 1.0571 e o valor p correspondente é igual a 0.008406. Uma vez que o nosso valor p é inferior a 0.05, podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

Teste de Hipóteses

t-emparelhado

H0: μantes = μdepois (ou μΔ = 0)

H1: μantes > μdepois

t.test(jp_antes$casosNovos, jp_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Welch Two Sample t-test
## 
## data:  jp_antes$casosNovos and jp_depois$casosNovos
## t = -4.2451, df = 155.27, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -114.6063       Inf
## sample estimates:
## mean of x mean of y 
##   98.6250  181.0875

Não é possível rejeitar H0 em favor de H1, pois p-value é maior que 0,05.

Teste de Hipótese (Wilcoxon)

H0: μantes = μdepois (ou μΔ = 0)

H1: μantes > μdepois

wilcox.test(jp_antes$casosNovos, jp_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  jp_antes$casosNovos and jp_depois$casosNovos
## W = 1852.5, p-value = 1
## alternative hypothesis: true location shift is greater than 0

Não é possível rejeitar H0 em favor de H1, pois p-value é maior que 0,05.

Conclusão

A média de casos novos de covid em João Pessoa não pode ser considerada menor nos últimos 80 dias do que a média de casos de covid nos primeiros 80 dias.