Análise Exploratória

Importando os dados

br <- read.csv("/Users/_nxtusr/Documents/covid_br.csv", sep=';', stringsAsFactors = FALSE)
jp <- read.csv("/Users/_nxtusr/Documents/covid_jp.csv", sep = ';')
cg <- read.csv("/Users/_nxtusr/Documents/covid_cg.csv", sep = ';')

Visualização de Dados - Cenário Brasileiro

Visualização de Dados - Cenário João Pessoa

Panorama Brasileiro

Brasil: Separando os dados entre o mês de Julho e Agosto

br$data <- as.Date(br$data , format = "%Y-%m-%d")
jp$data <- as.Date(jp$data , format = "%Y-%m-%d")

br_antes <- br %>% filter(data >= "2020-07-01" & data < "2020-08-01")
br_depois <- br %>% filter(data >= "2020-08-01" & data < "2020-09-01")

Casos Novos Julho - Brasil

Casos Novos Agosto - Brasil

Testes de Aderência de Anderson-Darling para os dados brasileiros

Foram considerados 3 testes de aderência para esse trabalho: Shapiro-Wilk, Kolmogorov Smirno e Anderson-Darling.

  1. No caso de pequenas amostras (n < 30) o teste de Shapiro-Wilk é mais apropriado que os testes K-S e Anderson-Darling, no entanto a amostra em questão é de n > 30 podemos descartar esse teste para um mais apropiado;

  2. A média e o desvio padrão da população são conhecidos, por isso em tese seria possível utilizar o teste de Kolmogorov Smirnov, no entanto ao tentar utilizá-lo foi recebida a seguinte mensagem de erro: “ties should not be present for the Kolmogorov-Smirnov test”, que informa que valores repetidos não podem estar presentes no teste de Kolmogorov Smirnov, portanto se pode descartar esse teste para um mais aproppriado;

  3. Desse modo será utilizado o teste de Anderson-Darling, onde:

H0: a amostra é selecionada de uma população que segue a distribuição normal

H1: a amostra selecionada da população não segue a distribuição normal

Julho

ad.test(br_antes$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  br_antes$casosNovos
## A = 0.49722, p-value = 0.1967

A nossa estatística de teste A é igual a 0.49722 e o valor p correspondente é igual a 0.1967. Uma vez que o nosso valor p é superior a 0.05, não podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

Agosto

ad.test(br_depois$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  br_depois$casosNovos
## A = 1.7871, p-value = 0.0001098

A nossa estatística de teste A é igual a 1.7871 e o valor p correspondente é igual a 0.0001098. Uma vez que o nosso valor p é inferior a 0.05, podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

Teste de Hipóteses

t-test

H0: μantes = μantes (ou μΔ = 0)

H1: μantes > μdepois

t.test(br_antes$casosNovos, br_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Welch Two Sample t-test
## 
## data:  br_antes$casosNovos and br_depois$casosNovos
## t = 0.13541, df = 59.998, p-value = 0.4464
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -5360.583       Inf
## sample estimates:
## mean of x mean of y 
##  40659.48  40186.68

Não é possível rejeitar H0 em favor de H1, pois p-value é maior que 0,05.

Teste de Hipótese (Wilcoxon)

H0: μantes = μantes (ou μΔ = 0)

H1: μantes > μdepois

wilcox.test(br_antes$casosNovos, br_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Wilcoxon rank sum test
## 
## data:  br_antes$casosNovos and br_depois$casosNovos
## W = 456, p-value = 0.6366
## alternative hypothesis: true location shift is greater than 0

Não é possível rejeitar H0 em favor de H1, pois p-value é maior que 0,05.

Conclusão

A média de casos novos de covid no Brasil não pode ser considerada menor em agosto do que a média de casos de covid em julho.

Para o caso de João Pessoa

João Pessoa: Separando os dados entre os 80 primeiros dias e os 80 últimos dias

jp_antes <- jp %>% filter(data >= "2020-07-01" & data < "2020-08-01")
jp_depois <- jp %>% filter(data >= "2020-08-01" & data < "2020-09-01")

Casos Novos Julho - João Pessoa

Casos Novos Agosto - João Pessoa

Testes de Aderência de Anderson-Darling para os dados de João Pessoa

Foram considerados 3 testes de aderência para esse trabalho: Shapiro-Wilk, Kolmogorov Smirno e Anderson-Darling.

  1. No caso de pequenas amostras (n < 30) o teste de Shapiro-Wilk é mais apropriado que os testes K-S e Anderson-Darling, no entanto a amostra em questão é de n > 30 podemos descartar esse teste para um mais apropiado;

  2. A média e o desvio padrão da população são conhecidos, por isso em tese seria possível utilizar o teste de Kolmogorov Smirnov, no entanto ao tentar utilizá-lo foi recebida a seguinte mensagem de erro: “ties should not be present for the Kolmogorov-Smirnov test”, que informa que valores repetidos não podem estar presentes no teste de Kolmogorov Smirnov, portanto se pode descartar esse teste para um mais aproppriado;

  3. Desse modo será utilizado o teste de Anderson-Darling, onde:

H0: a amostra é selecionada de uma população que segue a distribuição normal

H1: a amostra selecionada da população não segue a distribuição normal

Julho

ad.test(jp_antes$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  jp_antes$casosNovos
## A = 0.40026, p-value = 0.3418

A nossa estatística de teste A é igual a 0.40026 e o valor p correspondente é igual a 0.3418. Uma vez que o nosso valor p é superior a 0.05, não podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

Agosto

ad.test(jp_depois$casosNovos)
## 
##  Anderson-Darling normality test
## 
## data:  jp_depois$casosNovos
## A = 0.66493, p-value = 0.07469

A nossa estatística de teste A é igual a 0.66493 e o valor p correspondente é igual a 0.07469. Uma vez que o nosso valor p é superior a 0.05, não podemos rejeitar a hipótese nula e concluir que temos provas suficientes para dizer que estes dados não seguem uma distribuição normal.

Teste de Hipóteses

t-test

H0: μantes = μdepois (ou μΔ = 0)

H1: μantes > μdepois

t.test(jp_antes$casosNovos, jp_depois$casosNovos, paired = F, alternative = "greater")
## 
##  Welch Two Sample t-test
## 
## data:  jp_antes$casosNovos and jp_depois$casosNovos
## t = 2.3789, df = 55.435, p-value = 0.01042
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  23.71637      Inf
## sample estimates:
## mean of x mean of y 
##  259.0968  179.1935

É possível rejeitar H0 em favor de H1, pois p-value é menor que 0,05.

Teste de Hipótese (Wilcoxon)

H0: μantes = μdepois (ou μΔ = 0)

H1: μantes > μdepois

wilcox.test(jp_antes$casosNovos, jp_depois$casosNovos, paired = F, alternative = "greater")
## Warning in wilcox.test.default(jp_antes$casosNovos, jp_depois$casosNovos, :
## cannot compute exact p-value with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  jp_antes$casosNovos and jp_depois$casosNovos
## W = 619, p-value = 0.02601
## alternative hypothesis: true location shift is greater than 0

É possível rejeitar H0 em favor de H1, pois p-value é menor que 0,05.

Conclusão

A média de casos novos de covid em João Pessoa pode ser considerada menor no mês de Agosto do que a média de casos de covid nos mês de Julho.