RELATÓRIO FINAL

Universidade Federal do Estado do Rio de Janeiro - CCJP

Disciplina: Estatística Aplicada às Ciências Humanas e Sociais
Professor: Steven Dutt-Ross

Nome: Ana Beatriz Marinho dos Anjos
Matrícula: 20211520022
E-mail:

Nome: Anna Carolina Carvalho de Almeida Certo
Matrícula: 20211520001
E-mail:

knitr::include_graphics("C:/Users/DELL/Downloads/covid-19-variants.jpg")

Introdução

O coronavírus — também conhecido como Covid-19 — teve seu início em dezembro de 2019 na cidade de Wuhan, China, após a Organização Mundial da Saúde (OMS) ser notificada acerca de inúmeros casos de pneumonia. A princípio, a doença foi tratada como uma epidemia, uma vez que estava sofrendo apenas com o aumento no número de quadros da doença em diversas regiões, estados e cidades. Todavia, tal “designação” não durou muito tempo, posto que a doença se expandiu pelo mundo todo, causando uma série de impactos sem precedentes na história recente da humanidade.

Devido a sua rápida disseminação geográfica em níveis alarmantes de contaminação, em março de 2020, a OMS anunciou sua mudança de classificação, fazendo com que o Covid-19 passasse a ser tratado como uma pandemia. No Brasil, a doença causada pelo vírus SARS-CoV-2 teve o seu primeiro caso registrado em fevereiro de 2020 e em poucas semanas já havia se espalhado por todo território nacional. Nesse contexto, em consequência do aumento exponencial de contágio, o país ocupou as primeiras posições no ranking mundial de número de infectados e mortos pela enfermidade.

Portanto, ao considerar o que foi exposto nos parágrafos acima, o propósito deste trabalho é analisar de maneira mais direcionada e detalhada como o Covid-19 se incidiu ao longo do território brasileiro, analisando as regiões mais afetadas negativamente e a correlação entre as diferentes variáveis da base de dados utilizada.

Objetivo

O objetivo geral do relatório é analisar os dados do coronavírus nas cinco grandes regiões do Brasil em relação ao percentual de indivíduos vacinados com a terceira dose, além do número de casos e mortes até a data de 19/01/2022. Já, de maneira específica, nosso trabalho tem o intuito de estudar precisamente o impacto da Covid-19 em cada região brasileira, através de boxplots e diagramas de dispersão, verificando se, de fato, a variável “região”, seja em tamanho populacional ou fatores externos — não detalhados neste trabalho — exerce influência sobre as hipóteses que abrangem os casos, mortes e maior avanço da vacinação.

Metodologia

A priori, foram utilizadas duas bases de dados retiradas do site “github.com”, pertencentes ao mesmo autor “wcota”, encontradas na pasta “covid19br” e denominadas “cities_info.csv” e “cases-brazil-total.csv”. Para manter um padrão e evitar qualquer divergência nos dados, a última data de atualização da nossa base pertence ao dia 19/01/2022, posto que diariamente o autor atualiza a segunda base citada com novas informações. Ademais, é válido ressaltar que para melhor entendimento e manipulação dos dados, ambas foram fundidas e sofreram algumas alterações que serão minudenciadas a seguir.

Inicialmente, constatou-se que as duas bases de dados eram um “Arquivo de Valores Separados por Vírgulas do Microsoft Excel”, o que nos possibilitou usar tal programa para fazer as modificações necessárias. No que tange a primeira base de dados apresentada acima (cities_info.csv), foi utilizado a ferramenta de dados “Texto para Colunas”, onde as informações que antes eram organizadas por meio de vírgulas, ficassem agrupadas em colunas, facilitando a visualização. Entretanto, faz-se necessário apontar que de todos os elementos contidos na base, as únicas variáveis de interesse eram as da estimativa de população dos anos 2019, 2020 e 2021. Sendo assim, visto que as informações estavam separadas por cidades, foi feito o somatório individual de cada estado do Brasil para cada um dos três anos.

Outrossim, com relação a segunda base (cases-brazil-total.csv), a mesma ferramenta de dados foi utilizada e algumas variáveis consideradas desnecessárias para fins deste relatório foram descartadas. É importante mencionar que nenhum valor original foi alterado, no entanto, houve uma padronização dos dados.

Na variável “Mortes_por_TotalCasos” foi feita uma multiplicação por 100 para que se achasse o número exato do percentual, além disso, todos os dados que já possuíam a porcentagem ajustada e antes apresentavam cinco casas decimais após a vírgula, foram reduzidos para duas casas. O critério adotado foi que na terceira casa decimal, aqueles que fossem menores (<) ou iguais (=) a cinco, permaneceriam da mesma forma, enquanto aqueles superiores (>), seriam acrescidos de um.

Ademais, outro ponto que vale a pena salientar é que, originalmente, a base de dados se encontrava na língua inglesa. Desse modo, alguns itens e todo o cabeçalho foram traduzidos e adaptados, a fim de tornar as informações mais compreensíveis para os falantes da língua portuguesa.

Portanto, segue abaixo a base de dados utilizada para fins deste trabalho:

#Biblioteca
library(kableExtra)

#Base de dados
library(readr)
DadosCovid <- read_delim("C:/Users/DELL/Downloads/covid19br-master/DadosCovid.csv", 
                    delim = ";", escape_double = FALSE, trim_ws = TRUE)
## Rows: 27 Columns: 22
## -- Column specification --------------------------------------------------------
## Delimiter: ";"
## chr  (3): Pais, Regiao, Estado
## dbl (19): Pop2019, Pop2020, Pop2021, TotalCasos, Mortes, Mortes_por_100mil_h...
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
#Manipulação da tabela
kable(DadosCovid, row.names = FALSE)%>%
  kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                 position = "center", fixed_thead = T) %>%
  scroll_box(width = "900px", height = "600px")
Pais Regiao Estado Pop2019 Pop2020 Pop2021 TotalCasos Mortes Mortes_por_100mil_habitantes TotalCasos_por_100mil_habitantes Mortes_por_TotalCasos Recuperados Testes Testes_por_100mil_habitantes PrimeiraDose PrimeiraDose_por_100_habitantes SegundaDose SegundaDose_por_100_habitantes DoseUnica DoseUnica_por_100_habitantes TerceiraDose TerceiraDose_por_100_habitantes
Brasil Norte AC 881935 894470 906876 90299 1854 210.22 10238.74 2.05 86228 250875 28445.97 579916 65.75 451519 51.20 12264 1.39 63473 7.20
Brasil Nordeste AL 3337357 3351543 3365351 246511 6397 191.68 7386.41 2.59 235400 629842 18872.48 2370815 71.04 1884073 56.45 58151 1.74 323781 9.70
Brasil Norte AM 4144597 4207714 4269995 457408 13860 334.41 11036.25 3.03 420707 1166605 28147.61 2793031 67.39 2284279 55.11 56968 1.37 567377 13.69
Brasil Norte AP 845731 861773 877613 130239 2032 240.26 15399.58 1.56 116354 227745 26928.77 508627 60.14 329618 38.97 17062 2.01 37503 4.43
Brasil Nordeste BA 14873064 14930634 14985284 1294269 27695 186.21 8702.10 2.14 1253200 2689354 18082.04 10900691 73.29 9040834 60.79 264128 1.77 1811592 12.18
Brasil Nordeste CE 9132078 9187103 9240580 980698 24916 272.84 10739.04 2.54 879783 3093551 33875.65 7059020 77.30 6426047 70.36 179204 1.96 1641960 17.98
Brasil Centro-Oeste DF 3015268 3055149 3094325 551680 11132 369.19 18296.21 2.02 511299 782118 25938.59 2324678 77.10 2155062 71.47 58706 1.95 621376 20.60
Brasil Sudeste ES 4018650 4064052 4108508 681689 13385 333.07 16963.13 1.96 621086 2396293 59629.30 3126646 77.80 2749202 68.41 115144 2.86 941102 23.42
Brasil Centro-Oeste GO 7018354 7113540 7206589 978504 24792 353.24 13942.07 2.53 938474 1619728 23078.46 5292713 75.41 4377724 62.37 156634 2.23 812916 11.58
Brasil Nordeste MA 7075181 7114598 7153262 375086 10427 147.37 5301.43 2.78 357885 931953 13172.14 4586853 64.83 3609078 51.01 119603 1.69 539318 7.62
Brasil Sudeste MG 21168791 21292666 21411923 2383041 56833 268.47 11257.33 2.38 2204182 6625144 31296.75 16668740 78.74 15207915 71.84 502687 2.37 4123479 19.48
Brasil Centro-Oeste MS 2778986 2809394 2839188 393607 9765 351.39 14163.69 2.48 369713 1126800 40547.16 2057937 74.05 1813477 65.26 258398 9.30 796277 28.65
Brasil Centro-Oeste MT 3484466 3526220 3567234 582373 14144 405.91 16713.41 2.43 550931 557142 15989.31 2567619 73.69 2071025 59.43 93543 2.68 317396 9.11
Brasil Norte PA 8602865 8690745 8777124 634851 17261 200.64 7379.53 2.72 593998 999004 11612.46 5921604 68.83 5300467 61.61 133596 1.55 604796 7.03
Brasil Nordeste PB 4018127 4039277 4059905 469004 9620 239.41 11672.20 2.05 358448 1152470 28681.77 3113683 77.49 2526506 62.88 65493 1.63 487596 12.13
Brasil Nordeste PE 9557071 9616621 9674793 657143 20558 215.11 6875.99 3.13 588784 2452546 25662.11 7327255 76.67 6265873 65.56 176334 1.84 1610297 16.85
Brasil Nordeste PI 3273227 3281480 3289290 345171 7329 223.91 10545.28 2.12 337580 633026 19339.51 2740753 83.73 2434836 74.39 52989 1.62 411470 12.57
Brasil Sul PR 11433957 11516840 11597484 1729565 40951 358.15 15126.56 2.37 1521724 4398954 38472.72 9103996 79.62 7957102 69.59 328122 2.87 1885189 16.49
Brasil Sudeste RJ 17264943 17366189 17463349 1459328 69616 403.22 8452.55 4.77 1307974 2313502 13399.99 13110028 75.93 10911260 63.20 367911 2.13 2754043 15.95
Brasil Nordeste RN 3506853 3534165 3560903 395645 7611 217.03 11282.05 1.92 256642 1066514 30412.28 2637509 75.21 2350331 67.02 59688 1.70 713742 20.35
Brasil Norte RO 1777225 1796460 1815278 293052 6795 382.34 16489.30 2.32 270457 1110979 62512.00 1240550 69.80 1043135 58.69 37180 2.09 189826 10.68
Brasil Norte RR 605761 631181 652713 133380 2082 343.70 22018.58 1.56 126934 355203 58637.48 376167 62.10 268307 44.29 10964 1.81 27513 4.54
Brasil Sul RS 11377239 11422973 11466630 1612300 36552 321.27 14171.28 2.27 1486527 6145500 54015.74 8948983 78.66 7923571 69.64 304620 2.68 2322601 20.41
Brasil Sul SC 7164788 7252502 7338473 1315268 20295 283.26 18357.39 1.54 1241428 2568392 35847.42 5826378 81.32 5018558 70.04 261793 3.65 972611 13.57
Brasil Nordeste SE 2298696 2318822 2338474 280588 6067 263.93 12206.40 2.16 271802 604183 26283.73 1754788 76.34 1543946 67.16 40125 1.74 282882 12.30
Brasil Sudeste SP 45919049 46289333 46649132 4513255 155858 339.42 9828.72 3.45 4270000 19501783 42469.92 38470955 83.78 35867998 78.11 1196996 2.60 13813989 30.08
Brasil Norte TO 1572866 1590248 1607363 245897 3976 252.79 15633.69 1.62 230893 721136 45848.53 1064365 67.67 839015 53.34 36539 2.32 141963 9.02

Nossa base de dados também possui um dicionário (descrição dos dados) que contém 22 variáveis. É possível navegar em 3 abas, se for optado por mostrar 10 entradas ou, então, escolher mostrar 25 entradas — através do “show 10 entries”, alterando para 25. Além disso, caso a necessidade seja a procura por um dado específico, basta utilizar a barra de pesquisa (Search).

#Base de dados (descrição)
library(readxl)
Descricao <- read_excel("C:/Users/DELL/Downloads/covid19br-master/Descricao.xlsx")

#Manipulação da tabela
library(DT)
DT::datatable(Descricao, rownames = FALSE, colnames = "DESCRIÇÃO DOS DADOS")

Por fim, utilizamos gráficos do modelo boxplot para o cruzamento de uma variável qualitativa — Região — e outras quantitativas, sendo elas: Mortes, TotalCasos, Mortes_por_100mil_habitantes, TotalCasos_por_100mil_habitantes, TerceiraDose_por_100_habitantes e também Pop2021 . Além disso, nosso estudo também abrangeu diagramas de dispersão, matriz de correlação e testes de hipóteses.

Teste de hipóteses

Os testes de hipóteses foram feitos para entendermos a interferência da variável Região nas variáveis “Mortes”, “TotalCasos”, “Mortes_por_100mil_habitantes”, “TotalCasos_por_100mil_habitantes” e “TerceiraDose_por_100_habitantes” e também para avaliarmos a correlação entre a população em 2021 e a quantidade de óbitos e infecções por coronavírus. Para tanto, consideramos alpha = 0.05 em todos os testes realizados e definimos a regra de decisão como:

Se p-valor ≤ alpha, rejeita H0.

Se p-valor > alpha, não rejeita H0.

Dito isso, primeiramente foi feito com todas as variáveis um teste de normalidade (shapiro wilk) para a verificação desse pressuposto, adotando as seguintes hipóteses:

H0: os dados seguem uma distribuição normal.

H1: os dados não seguem uma distribuição normal.

Após verificarmos se a variável segue uma distribuição normal ou não, foram feitos os seguintes testes:

  • Para o cruzamento de uma variável qualitativa e outra quantitativa que não atendem ao pressuposto de normalidade, executou-se o teste de Kruskal-Wallis, adotando as hipóteses:

H0: os grupos são amostrados de populações com distribuições idênticas.

H1: os grupos são amostrados de populações com diferentes distribuições.

E depois, foi feito o teste de Comparações Múltiplas de Wilcoxon.

  • Já para testar a variável qualitativa Região com as variáveis quantitativas que possuem uma distribuição normal foi executado o Teste de Barlett, com as hipóteses:

H0: todas as variâncias são iguais.

H1: pelo menos uma das variâncias é diferente.

Após verificarmos que a hipótese nula não foi rejeitada, executamos o teste ANOVA, sendo adotadas as seguintes hipóteses:

H0: todas as médias são iguais.

H1: existe pelo menos uma média diferente.

Em seguida, utilizamos o teste de Comparações Múltiplas de Tukey para comparar as diferenças entre as médias e o p-valor.

Por fim, para o teste de hipóteses de duas variáveis quantitativas que não são normais, foi utilizado o método de Spearman, com os critérios:

H0: rho = 0; as variáveis não são correlacionadas.

H1: rho i= 0; as variáveis têm correlação.

Análise de Resultados e Discussões

Boxplots

Boxplot 1 - Número total de mortes por região

par(cex=0.7)
boxplot(Mortes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 1 \n Número total de mortes por região",
        ylab = "Número total de mortes", 
        xlab = "Regiões do Brasil")

No que tange a análise do Boxplot 1 - “Número total de mortes por região”, pode-se constatar que quando comparado às outras regiões brasileiras, o Sudeste é aquele que não só apresenta maior dispersão de seus dados e amplitude interquartil — referente ao tamanho da caixa —, como também foi o mais atingido em relação ao número total de óbitos, tendo algum de seus estados atingido mais de 150.000 mortes.

As demais regiões, por sua vez, possuem pouca variabilidade e sofreram menor impacto da pandemia, visto que nenhum estado presente dessas regiões registrou mais de 50.000 mortes. Além disso, a região Norte, dentre todas, foi a que menos sofreu fatalidades pela doença. Para mais, vale ressaltar que o gráfico não contém a presença de outliers — os famosos “pontos fora da curva” — e todos apresentam uma concentração de dados assimétricos, ou seja, a mediana (linha preta) não se encontra no centro de nenhuma das caixas.

Boxplot 2 - Número total de casos por região

par(cex=0.7)
boxplot(TotalCasos~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 2 \n Número total de casos por região",
        ylab = "Número total de casos", 
        xlab = "Regiões do Brasil")

options(scipen = 999)

Apesar de grande semelhança com o gráfico anterior, o boxplot 2 que trata do número total de casos por região possui algumas dissemelhanças as quais devem ser levadas em conta. A começar pelo Sul, ainda que tenha diminuído a proporção de dispersão dos seus dados, a região sofreu aumento no total de casos quando comparado ao total de mortes — isso, em tese, tende a ser um fator positivo, dado que, embora mais casos o Sul obteve menos fatalidades.

Equitativamente, o Sudeste permanece sendo a região mais atingida pela pandemia, não só pelo grande número de óbitos, como agora com grande volume no número total de casos — sendo superior a marca de 4 milhões. É possível também observar no Nordeste a presença de um outlier, ou seja, existe um estado presente nesta região que registrou um número tão discrepante de casos em relação aos demais, que não aparece dentro do limite de detecção desses valores.

O Norte apresenta a mediana mais centralizada e uma notável simetria, divergente de todas as outras regiões que são assimétricas. Com exceção do outlier encontrado no Nordeste, seus outros estados, o Centro-Oeste e o Norte não registraram mais de 1 milhão de casos, demonstrando que foram menos atingidos quando comparados às regiões Sudeste e Sul.

Boxplot 3 - Número de mortes por 100 mil habitantes em cada região do Brasil

par(cex=0.7)
boxplot(Mortes_por_100mil_habitantes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 3 \n Número de mortes por 100 mil habitantes em cada região do Brasil",
        ylab = "Mortes por 100 mil habitantes", 
        xlab = "Regiões do Brasil")

Já neste Boxplot 3, quando comparamos o número de mortes por 100 mil habitantes com seu total em cada região do Brasil, fica notório uma drástica mudança. Se antes, a região Sudeste foi a mais atingida e apresentava maior amplitude, agora, a região Norte é aquela que apresenta maior variabilidade e um número considerável de mortes em algum de seus estados — entre 350 e 400.

Outrossim, o Centro-Oeste se encontra na parte superior da tabela, demonstrando que além de pouco desvio-padrão, detém a maior letalidade pelo Covid-19 em relação a 100 mil habitantes, tendo todos os seus estados atingindo acima de 350 mortes. O Sudeste também possui uma alta taxa de mortalidade, chegando a atingir a marca de 400 mortes por 100 mil habitantes em um de seus estados. O Sul, porventura, segue o mesmo caminho mantendo um considerável índice, dado a sua curta dispersão, ainda que não seja o mais evidente entre as regiões.

Neste gráfico não há a presença de outliers. Ademais, o Nordeste é a região com menos óbitos em relação à população e, assim como Centro-Oeste e Norte — ainda que bem leve — apresenta uma distribuição assimétrica de seus dados, diferente do Sudeste e Sul — ambos com simetria.

Boxplot 4 - Número de casos por 100 mil habitantes em cada região do Brasil

par(cex=0.7)
boxplot(TotalCasos_por_100mil_habitantes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 4 \n Número de casos por 100 mil habitantes em cada região do Brasil",
        ylab = "Casos por 100 mil habitantes", 
        xlab = "Regiões do Brasil")

No quarto boxplot, que trata do número de casos por 100 mil habitantes em cada região do Brasil, temos que Norte é o estado que possui um número máximo e mínimo bem espaçado, além de maior amplitude interquartil, demonstrando ser o único com mais de 20 mil casos pela população. A região Centro-Oeste e Sul, se encontram em um patamar muito semelhante, ainda que suas caixas denotem diferença de tamanho. O primeiro teria maior dispersão dos dados, enquanto a variabilidade do segundo é mais estreita.

Contudo, uma métrica que chama a atenção é o Sudeste, pois quando comparado aos boxplots anteriores, sempre esteve em evidência com seus altos índices de dispersão ou forte presença — de modo negativo — na parte superior. Neste gráfico, porém, ele se mantém próximo a área central, com uma variabilidade dos dados similar ao Norte e próximo do seu valor mínimo encontrado. Além disso, a região Nordeste apresenta menor número de casos proporcionais ao seu número de habitantes. Por fim, todas as regiões contém assimetria e nenhuma possui a presença de outliers.

Boxplot 5 - Porcentagem da população vacinada com a 3ª dose por região

par(cex=0.7)
boxplot(TerceiraDose_por_100_habitantes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 5 \n Porcentagem da população vacinada com a 3ª dose por região",
        ylab = "Terceira dose (%)", 
        xlab = "Regiões do Brasil")

Este quinto boxplot que trata da porcentagem da população vacinada com a 3ª dose por região, demonstra explicita diferenciação dos demais já apresentados. A começar pelo Centro-Oeste que possui maior destaque, com grande dispersão de dados e amplitude interquartil, tendo estados com quase 30% da população vacinada com tal dose e outros que não atingiram os 10%.

O Sudeste, por sua vez, é a região mais avançada, possuindo todos os seus estados com, no mínimo, 15% da vacinação em dia — além de um deles já ter ultrapassado a marca de 30%. Em oposição a isso, temos o Norte sendo o mais atrasado, com nenhum de seus estados atingido ao menos 15% da vacinação.

Já o Nordeste e o Sul se encontram mais no centro do gráfico, embora o primeiro ainda tenha um desempenho inferior, com alguns estados abaixo de 10%. Nenhuma região contém outliers e todas possuem assimetria de dados.

Boxplot 6 - População de 2021 em cada região do Brasil

par(cex=0.7)
boxplot(Pop2021~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 6 \n População de 2021 em cada região do Brasil",
        ylab = "População de 2021", 
        xlab = "Regiões do Brasil")

O último boxplot compara o tamanho da população de 2021 em cada região do Brasil. O Sudeste, sem dúvidas, é aquele que concentra a maior parte da população brasileira, ao concentrar maior dispersão de dados e amplitude interquartil, além de demonstrar que um de seus estados possui mais de 40 milhões de pessoas.

Ademais, todas as regiões possuem assimetria e, no que concerne as que se concentram na parte inferior do gráfico, com exceção do Nordeste, todas possuem uma dispersão de dados baixa. Por fim, o Norte é o único que apresenta um outlier, ou seja, um de seus estados possui um número tão elevado de indivíduos — ultrapassa a marca de 1 milhão — em comparação aos outros, que não aparece dentro do limite de detecção desses valores.

Diagrama de dispersão e matriz de correlação

Diagrama de dispersão 1 - Total de casos e total de mortes por 100 mil habitantes

par(bg = "white")
par(cex=0.85)
plot(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes, 
     pch = 16, col = "#b12740",
     main = "Diagrama de dispersão 1 \n Total de Casos e Total de Mortes por 100 mil habitantes ",
     xlab = "Total de Casos por 100 mil habitantes",
     ylab = "Total de Mortes por 100 mil habitantes")
abline(lsfit(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes),
       col="#052a83") 

cor(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes)
## [1] 0.6120991
#nível de correlação → 0.6120991
#considerado grau moderado de associação

library(corrplot)
## corrplot 0.92 loaded
par(cex=0.7)
cor1 <- cor(DadosCovid[,c("Mortes_por_100mil_habitantes","TotalCasos_por_100mil_habitantes")])
corrplot.mixed(cor1)

O diagrama de dispersão 1 e a matriz de correlação mostram que a relação entre as variáveis “TotalCasos_por_100mil_habitantes” e “Mortes_por_100mil_habitantes” é linear, positiva e de grau moderado, com seu índice de associação igual a 0.61. Isso significa que quando a quantidade de casos/100 mil hab. aumenta, o número de óbitos/100 mil hab. também tende a crescer, porém, como não existe uma forte concentração entre os pontos, outras variáveis podem estar envolvidas.

Diagrama de dispersão 2 - Total de casos por total de mortes

par(cex=0.85)
plot(DadosCovid$TotalCasos, DadosCovid$Mortes, 
     pch = 16, col = "#b12740",
     main = "Diagrama de dispersão 2 \n Total de Casos por Total de Mortes",
     xlab = "Total de Casos",
     ylab = "Total de Mortes ")
abline(lsfit(DadosCovid$TotalCasos,DadosCovid$Mortes),
       col="#052a83")

cor(DadosCovid$TotalCasos, DadosCovid$Mortes)
## [1] 0.9613614
#nível de correlação → 0.9613614
#considerado grau excelente de associação

library(corrplot)
cor2 <- cor(DadosCovid[,c("Mortes","TotalCasos")])
corrplot.mixed(cor2)

Já diferentemente do diagrama 1, no diagrama de dispersão das variáveis “TotalCasos” e “Mortes” há uma relação positiva e linear, com grande concentração entre os pontos, embora seja possível observar que existe um muito disperso dos demais. Além disso, a matriz de correlação indica que o grau de associação é excelente, correspondendo a aproximadamente 0.96, portanto, pode-se afirmar que essa pouca dispersão nos dados e o alto índice de correlação significam que há uma tendência muito clara de que o total de casos e de mortos pela Covid-19 aumentam ou diminuem em conjunto.

Teste de Hipóteses

Teste de Hipóteses 1 - Pop2021 x Mortes e Pop2021 x TotalCasos

A priori, executamos o teste Shapiro Wilk para verificar se as variáveis são normais ou não.

# Teste de normalidade

# H0 = Os dados seguem uma distribuição normal
# H1 = Os dados nao seguem uma distribuicao normal
# alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

shapiro.test(DadosCovid$Mortes)
## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$Mortes
## W = 0.61398, p-value = 0.0000003023
#p-value = 3.023e-07
# pvalor < alpha -> Rejeito H0

shapiro.test(DadosCovid$Pop2021)
## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$Pop2021
## W = 0.67249, p-value = 0.000001643
#p-value = 1.643e-06
# pvalor < alpha -> Rejeito H0 

shapiro.test(DadosCovid$TotalCasos)
## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$TotalCasos
## W = 0.71261, p-value = 0.000005835
#p-value = 5.835e-06
# pvalor < alpha -> Rejeito H0 

# As variaveis nao possuem distribuicao normal.

Como pvalor < alpha em todas as 3 variáveis, a hipótese nula foi rejeitada e por isso executou-se o teste de Spearman.

# 2. Spearman

# H0: rho = 0; nao sao correlacionadas
# H1: rho i= 0; tem correlacao
# alpha = 0.05 
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

cor.test(DadosCovid$Pop2021,DadosCovid$Mortes, method = "spearman", conf.level = 0.95)
## 
##  Spearman's rank correlation rho
## 
## data:  DadosCovid$Pop2021 and DadosCovid$Mortes
## S = 142, p-value = 0.0000003038
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9566545
rho = 0.9566545 

cor.test(DadosCovid$Pop2021,DadosCovid$TotalCasos, method = "spearman", conf.level = 0.95)
## 
##  Spearman's rank correlation rho
## 
## data:  DadosCovid$Pop2021 and DadosCovid$TotalCasos
## S = 232, p-value = 0.0000006441
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9291819
rho = 0.9291819 

Considerando que o número de mortes por Covid-19 seja a variável independente e o total da população em 2021 seja a variável dependente, a hipótese de que as regiões com maior número de habitantes foram as que tiveram uma maior quantidade de óbitos pelo vírus não deve ser rejeitada, tendo em vista que o coeficiente de correlação de Spearman é positivo. Ademais, o rho sendo próximo de 1 indica que as duas variáveis estão fortemente correlacionadas.

Vale ressaltar que a mesma situação ocorre quando aplicamos o teste na variável TotalCasos e Pop2021: ambas apresentam forte grau de associação e a hipótese nula H0 não é rejeitada, visto que rho é diferente de 0.

Teste de Hipóteses 2 - Regiao x Mortes

Foi executado o teste de Shapiro Wilk para os resíduos das variáveis Mortes e Região.

# Teste de hipóteses regiaoxmortes 

modelo1 <- aov(Mortes ~ Regiao, data = DadosCovid)

residuos1 <- residuals(modelo1)
residuos1
##            1            2            3            4            5            6 
##  -4983.14286  -7005.22222   7022.85714  -4805.14286  14292.77778  11513.77778 
##            7            8            9           10           11           12 
##  -3826.25000 -60538.00000   9833.75000  -2975.22222 -17090.00000  -5193.25000 
##           13           14           15           16           17           18 
##   -814.25000  10423.85714  -3782.22222   7155.77778  -6073.22222   8351.66667 
##           19           20           21           22           23           24 
##  -4307.00000  -5791.22222    -42.14286  -4755.14286   3952.66667 -12304.33333 
##           25           26           27 
##  -7335.22222  81935.00000  -2861.14286
# 1. Teste de normalidade
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
#Se pvalor < alpha REJ H0
#Se pvalor > NÃO REJ H0

shapiro.test(residuos1)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos1
## W = 0.69553, p-value = 0.000003363
#p-value = 0.000003363
# pvalor < alpha Rej H0
# Pressuposto de normalidade violado 

Tendo em vista que pvalor < alpha, os dados não seguem uma distribuição normal e deve ser executado, em seguida, o teste de Kruskal-Wallis, para saber se a variável Região interfere na variável Mortes.

# 2. Teste de Kruskal-Wallis 
# H0: os grupos são amostrados de populações com distribuições idênticas. 
# H1: os grupos são amostrados de populações com diferentes distribuições.
kruskal.test(Mortes ~ Regiao, data = DadosCovid)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Mortes by Regiao
## Kruskal-Wallis chi-squared = 13.795, df = 4, p-value = 0.007977
#p-value = 0.007977
# pvalor < alpha Rej H0

# 3. Teste de Comparações Múltiplas de Wilcoxon 

WT1 <- pairwise.wilcox.test(DadosCovid$Mortes, DadosCovid$Regiao)
WT1
## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  DadosCovid$Mortes and DadosCovid$Regiao 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.80         -        -     -      
## Norte    0.55         0.45     -     -      
## Sudeste  0.55         0.18     0.19  -      
## Sul      0.55         0.45     0.17  0.80   
## 
## P value adjustment method: holm

Como pvalor é menor que 0.05, a hipótese nula foi rejeitada. Portanto, os grupos são amostrados de populações com diferentes distribuições, logo, a quantidade de mortes por covid-19 não possui distribuição semelhante entre todas as regiões e por isso, pode-se afirmar que o fator região exerce influência sobre essa variável.

A partir da matriz do Teste de Wilcoxon é possível observar que todos os pares de regiões possuem distribuição da variável em média semelhante, uma vez que quando comparadas uma com a outra, pvalor > 0.05.

Teste de Hipóteses 3 - Regiao x TotalCasos

Para o cruzamento das variáveis Região e TotalCasos também foi executado o teste de Shapiro Wilk.

# Teste de hipóteses regiaoxtotalcasos 

modelo2 <- aov(TotalCasos ~ Regiao, data = DadosCovid)

residuos2<- residuals(modelo2)
residuos2
##            1            2            3            4            5            6 
##  -193290.429  -313946.222   173818.571  -153350.429   733811.778   420240.778 
##            7            8            9           10           11           12 
##   -74861.000 -1577639.250   351963.000  -185371.222   123712.750  -232934.000 
##           13           14           15           16           17           18 
##   -44168.000   351261.571   -91453.222    96685.778  -215286.222   177187.333 
##           19           20           21           22           23           24 
##  -800000.250  -164812.222     9462.571  -150209.429    59922.333  -237109.667 
##           25           26           27 
##  -279869.222  2253926.750   -37692.429
# Teste de normalidade
#H0: os dados seguem uma distribuição normal
#H1: os dados não seguem uma distrbuição normal
#alpha: 0,05
#Se pvalor < alpha REJ H0
#Se pvalor > NÃO REJ H0

shapiro.test(residuos2)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos2
## W = 0.7828, p-value = 0.00006993
#p-value = 0.00006993
# pvalor < alpha Rej H0
# Pressuposto de normalidade violado

O teste de Shapiro Wilk nos resíduos das variáveis mencionadas anteriormente indicou que pvalor<alpha, então o pressuposto de normalidade foi violado. Portanto, executou-se o teste de Kruskal-Wallis.

# 2. Teste de Kruskal-Wallis
# H0: os grupos são amostrados de populações com distribuições idênticas. 
# H1: os grupos são amostrados de populações com diferentes distribuições.
kruskal.test(TotalCasos ~ Regiao, data = DadosCovid)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  TotalCasos by Regiao
## Kruskal-Wallis chi-squared = 17.017, df = 4, p-value = 0.001918
#p-value = 0.001918

# 3. Teste de Comparações Múltiplas de Wilcoxon

WT2 <- pairwise.wilcox.test(DadosCovid$TotalCasos, DadosCovid$Regiao)
WT2
## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  DadosCovid$TotalCasos and DadosCovid$Regiao 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 1.000        -        -     -      
## Norte    0.329        0.329    -     -      
## Sudeste  0.329        0.090    0.061 -      
## Sul      0.329        0.082    0.117 1.000  
## 
## P value adjustment method: holm

No Teste de Kruskal-Wallis pvalor deu um número menor que alpha, portanto a hipótese nula foi rejeitada. Dito isso, os grupos são amostrados de populações com diferentes distribuições, logo, o total de casos de covid-19 não possui distribuição semelhante entre todas as regiões e por isso, pode-se afirmar que assim como na variável Mortes, o fator região exerce influência sobre a quantidade de casos da doença.

A partir da matriz do Teste de Wilcoxon é possível observar que todos os pares de regiões possuem distribuição da variável em média semelhante, uma vez que quando comparadas uma com a outra, pvalor > 0.05.

Teste de Hipóteses 4 - Regiao x Mortes_por_100mil_habitantes

A princípio foi feito um teste de normalidade (Shapiro Wilk) entre as variáveis Regiao e Mortes por 100 mil habitantes.

shapiro.test(DadosCovid$Mortes_por_100mil_habitantes)
## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$Mortes_por_100mil_habitantes
## W = 0.95108, p-value = 0.2277
#p-value = 0.2277
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal
#Para dados que seguem uma distribuição normal

modelo3 <- aov(Mortes_por_100mil_habitantes~Regiao, data=DadosCovid)
residuos3 <- residuals(modelo3)
residuos3
##           1           2           3           4           5           6 
## -70.4028571 -25.8188889  53.7871429 -40.3628571 -31.2888889  55.3411111 
##           7           8           9          10          11          12 
##  -0.7425000  -2.9750000 -16.6925000 -70.1288889 -67.5750000 -18.5425000 
##          13          14          15          16          17          18 
##  35.9775000 -79.9828571  21.9111111  -2.3888889   6.4111111  37.2566667 
##          19          20          21          22          23          24 
##  67.1750000  -0.4688889 101.7171429  63.0771429   0.3766667 -37.6333333 
##          25          26          27 
##  46.4311111   3.3750000 -27.8328571
shapiro.test(residuos3)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos3
## W = 0.97227, p-value = 0.6626
# p-value = 0.6626
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

Pvalor > alpha, ou seja, não rejeito H0. Como os dados seguem uma distribuição normal, será feito o Teste de Bartlett.

# Teste de Bartlett

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

bartlett.test(residuos3~DadosCovid$Regiao)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos3 by DadosCovid$Regiao
## Bartlett's K-squared = 4.4977, df = 4, p-value = 0.3428
#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguais

Verificou-se através deste teste de homogeneidade das variâncias para os resíduos que pvalor > alpha. Desse modo, não se rejeita H0 e todas as variâncias são iguais. Logo será feito a ANOVA.

#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0

modelo4 <- aov(Mortes_por_100mil_habitantes~Regiao, data= DadosCovid)
modelo4
## Call:
##    aov(formula = Mortes_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## Terms:
##                   Regiao Residuals
## Sum of Squares  84276.51  57106.06
## Deg. of Freedom        4        22
## 
## Residual standard error: 50.94831
## Estimated effects may be unbalanced
summary(modelo4)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Regiao       4  84277   21069   8.117 0.000353 ***
## Residuals   22  57106    2596                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# pvalor = 0.000353
#pvalor < alpha Rej H0
#Existe pelo menos uma região com média diferente

Rejeitamos H0, dado que pvalor — indicado como Pr(>F) neste teste — é < alpha. A ANOVA indicou que existe pelo menos uma região com média diferente, sendo assim, seguimos realizando o Teste de Tukey para descobrir qual média se dissemelha das demais.

# Teste de Tukey
#Qual a média que é diferente das demais?
TukeyHSD(modelo4)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Mortes_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## $Regiao
##                             diff         lwr        upr     p adj
## Nordeste-Centro-Oeste -152.43361 -243.271006 -61.596216 0.0004834
## Norte-Centro-Oeste     -89.30964 -184.055793   5.436508 0.0710600
## Sudeste-Centro-Oeste   -33.88750 -140.775573  73.000573 0.8778838
## Sul-Centro-Oeste       -49.03917 -164.491481  66.413148 0.7171548
## Norte-Nordeste          63.12397  -13.054803 139.302739 0.1371117
## Sudeste-Nordeste       118.54611   27.708716 209.383506 0.0066296
## Sul-Nordeste           103.39444    2.619403 204.169486 0.0424772
## Sudeste-Norte           55.42214  -39.324008 150.168293 0.4340664
## Sul-Norte               40.27048  -64.041602 144.582555 0.7810386
## Sul-Sudeste            -15.15167 -130.603981 100.300648 0.9947698

Primeiramente, é importante destacar que o valor de p adj, refere-se ao pvalor. O Teste de Tukey evidenciou que referente ao número de mortes por 100 mil habitantes em relação a região, as médias que se mostram diferentes possuem pvalor < 0.05. Dito isso, são elas: Nordeste-Centro-Oeste, Sudeste-Nordeste e Sul-Nordeste. Logo, todos os demais possuem uma distribuição de média similar, já que pvalor > 0.05.

Teste de Hipóteses 5 - Regiao x TotalCasos_por_100mil_habitantes

Agora fez-se um teste de normalidade (Shapiro Wilk) entre as variáveis Regiao e Total de casos por 100 mil habitantes

#Teste de normalidade (Shapiro Wilk)

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

shapiro.test(DadosCovid$TotalCasos_por_100mil_habitantes)
## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$TotalCasos_por_100mil_habitantes
## W = 0.97825, p-value = 0.8209
# p-value = 0.8209
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

#Para dados que seguem uma distribuição normal

modelo6 <- aov(TotalCasos_por_100mil_habitantes~Regiao, data=DadosCovid)
residuos6 <- residuals(modelo6)
residuos6
##          1          2          3          4          5          6          7 
## -3789.2129 -2025.9122 -2991.7029  1371.6271  -710.2222  1326.7178  2517.3650 
##          8          9         10         11         12         13         14 
##  5337.6975 -1836.7750 -4110.8922  -368.1025 -1615.1550   934.5650 -6648.4229 
##         15         16         17         18         19         20         21 
##  2259.8778 -2536.3322  1132.9578  -758.5167 -3172.8825  1869.7278  2461.3471 
##         22         23         24         25         26         27 
##  7990.6271 -1713.7967  2472.3133  2794.0778 -1796.7125  1605.7371
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05

shapiro.test(residuos6)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos6
## W = 0.97174, p-value = 0.6482
#p-value = 0.6482
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

Constatou-se que pvalor > alpha, ou seja, H0 não é rejeitado e os dados seguem uma distribuição normal. Logo, será feito um Teste de Bartlett.

# Teste de Bartlett

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

bartlett.test(residuos6~DadosCovid$Regiao)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos6 by DadosCovid$Regiao
## Bartlett's K-squared = 4.5722, df = 4, p-value = 0.3341
#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguais

Como pvalor > alpha, percebe-se que todas as variâncias são iguais, pois não se rejeita H0. Sendo assim será feito a ANOVA.

# ANOVA
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0

modelo7 <- aov(TotalCasos_por_100mil_habitantes~Regiao, data= DadosCovid)
modelo7
## Call:
##    aov(formula = TotalCasos_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## Terms:
##                    Regiao Residuals
## Sum of Squares  182319471 254012436
## Deg. of Freedom         4        22
## 
## Residual standard error: 3397.943
## Estimated effects may be unbalanced
summary(modelo7)
##             Df    Sum Sq  Mean Sq F value Pr(>F)  
## Regiao       4 182319471 45579868   3.948 0.0146 *
## Residuals   22 254012436 11546020                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# PR(>F) pvalor = 0.0146
#pvalor < alpha Rej H0
#Existe pelo menos uma média diferente

Uma vez que pvalor < alpha, rejeita H0 e observa-se que existe pelo menos uma média diferente. Logo, descobriremos a média diferente das demais através do Teste de Tukey.

#Qual a média que é diferente das demais?
TukeyHSD(modelo7)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = TotalCasos_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## $Regiao
##                             diff         lwr        upr     p adj
## Nordeste-Centro-Oeste -6366.5228 -12424.8269  -308.2186 0.0362649
## Norte-Centro-Oeste    -1750.8921  -8069.8866  4568.1023 0.9209490
## Sudeste-Centro-Oeste  -4153.4125 -11282.1997  2975.3747 0.4379578
## Sul-Centro-Oeste        106.2317  -7593.7385  7806.2018 0.9999993
## Norte-Nordeste         4615.6306   -465.0321  9696.2933 0.0870601
## Sudeste-Nordeste       2213.1103  -3845.1939  8271.4144 0.8127997
## Sul-Nordeste           6472.7544   -248.3305 13193.8394 0.0627885
## Sudeste-Norte         -2402.5204  -8721.5148  3916.4741 0.7901936
## Sul-Norte              1857.1238  -5099.8601  8814.1077 0.9302079
## Sul-Sudeste            4259.6442  -3440.3260 11959.6143 0.4883142

Por meio desse teste, descobrimos que a única média diferente é a relação entre Nordeste-Centro-Oeste. Dessa maneira, quando tratamos do total de casos por 100 mil habitantes, fica claro que as demais relações entre as regiões possuem uma distribuição de média semelhante.

Teste de Hipóteses 6 - Regiao x TerceiraDose_por_100_habitantes

Realizando o último teste de hipóteses entre Região e Porcentagem da terceira dose, através do Teste de normalidade (Shapiro Wilk).

#Teste de normalidade (Shapiro Wilk)

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

shapiro.test(DadosCovid$TerceiraDose_por_100_habitantes)
## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$TerceiraDose_por_100_habitantes
## W = 0.95156, p-value = 0.2339
# p-value = 0.2339
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

#Para dados que seguem uma distribuição normal

modelo8 <- aov(TerceiraDose_por_100_habitantes~Regiao, data=DadosCovid)
residuos8 <- residuals(modelo8)
residuos8
##          1          2          3          4          5          6          7 
## -0.8842857 -3.8200000  5.6057143 -3.6542857 -1.3400000  4.4600000  3.1150000 
##          8          9         10         11         12         13         14 
##  1.1875000 -5.9050000 -5.9000000 -2.7525000 11.1650000 -8.3750000 -1.0542857 
##         15         16         17         18         19         20         21 
## -1.3900000  3.3300000 -0.9500000 -0.3333333 -6.2825000  6.8300000  2.5957143 
##         22         23         24         25         26         27 
## -3.5442857  3.5866667 -3.2533333 -1.2200000  7.8475000  0.9357143
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05

shapiro.test(residuos8)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos8
## W = 0.97606, p-value = 0.7647
#p-value = 0.7647
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

Como Pvalor > alpha, não se rejeita H0 e os dados seguem uma distribuição normal. Desse modo, realizamos um Teste de Bartlett.

# Teste de Bartlett

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

bartlett.test(residuos8~DadosCovid$Regiao)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos8 by DadosCovid$Regiao
## Bartlett's K-squared = 5.2583, df = 4, p-value = 0.2618
#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguais

Todas as variâncias são mostram iguais. Posto que pvalor > alpha, H0 não é rejeitado. Então, seguimos fazendo a ANOVA.

# ANOVA
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0

modelo9 <- aov(TerceiraDose_por_100_habitantes~Regiao, data= DadosCovid)
modelo9
## Call:
##    aov(formula = TerceiraDose_por_100_habitantes ~ Regiao, data = DadosCovid)
## 
## Terms:
##                   Regiao Residuals
## Sum of Squares  587.2136  572.9660
## Deg. of Freedom        4        22
## 
## Residual standard error: 5.103323
## Estimated effects may be unbalanced
summary(modelo9)
##             Df Sum Sq Mean Sq F value Pr(>F)   
## Regiao       4  587.2  146.80   5.637 0.0028 **
## Residuals   22  573.0   26.04                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# PR(>F) pvalor = 0.0028
#pvalor < alpha Rej H0
#Existe pelo menos uma média diferente

A ANOVA indica que existe pelo menos uma média diferente, por isso rejeitamos H0, visto que pvalor < alpha. Por conseguinte, fazemos um Teste de Tukey para descobrir a média que se difere das demais.

#Qual a média que é diferente das demais?
TukeyHSD(modelo9)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = TerceiraDose_por_100_habitantes ~ Regiao, data = DadosCovid)
## 
## $Regiao
##                             diff         lwr         upr     p adj
## Nordeste-Centro-Oeste -3.9650000 -13.0638816  5.13388157 0.6981182
## Norte-Centro-Oeste    -9.4007143 -18.8911229  0.08969437 0.0530240
## Sudeste-Centro-Oeste   4.7475000  -5.9591249 15.45412493 0.6847249
## Sul-Centro-Oeste      -0.6616667 -12.2261433 10.90280999 0.9997980
## Norte-Nordeste        -5.4357143 -13.0662900  2.19486138 0.2497839
## Sudeste-Nordeste       8.7125000  -0.3863816 17.81138157 0.0649323
## Sul-Nordeste           3.3033333  -6.7909695 13.39763612 0.8652452
## Sudeste-Norte         14.1482143   4.6578056 23.63862295 0.0018111
## Sul-Norte              8.7390476  -1.7095484 19.18764367 0.1313743
## Sul-Sudeste           -5.4091667 -16.9736433  6.15530999 0.6414476

Enfim, por meio do resultado do Teste de Tukey, descobrimos que a relação Sudeste-Norte é a média diferente das demais. Portanto, é possível explicitar que a distribuição de média é similar entre as regiões em relação ao teste de hipóteses realizado sobre a porcentagem da terceira dose por região.

Conclusão

A partir dos resultados obtidos, conclui-se que a Covid-19, no que tange ao número total de óbitos e de casos da doença, atingiu de forma diferente cada uma das 5 regiões do Brasil, pois através dos testes de hipóteses foi possível concluir que a variável qualitativa Região interfere nas variáveis quantitativas Mortes, TotalCasos, Mortes por 100 mil habitantes e TotalCasos por 100 mil habitantes. Além disso, tendo como métrica a porcentagem da população vacinada com a terceira dose para analisar o avanço da vacinação por região, foi possível observar que estas se encontram em diferentes estágios. Nesse sentido, os gráficos do tipo boxplot foram utilizados para expressar visualmente tais disparidades.

Outrossim, a hipótese de que o número total de casos e a quantidade de mortes estão correlacionadas se confirma pela matriz de correlação, que apontou excelente grau de associação entre elas, indicando que essas variáveis aumentam ou diminuem em conjunto. Entretanto, quando analisadas as variáveis “Mortes_por_100mil_habitantes” e “TotalCasos_por_100mil_habitantes” o resultado obtido foi que não existe uma forte correlação entre os dados, portanto outros fatores podem estar envolvidos.

Ainda no que diz respeito à variável população em 2021 e a quantidade de mortes e de casos de coronavírus até janeiro de 2022, era de se esperar uma forte associação entre esses índices e o tamanho populacional. Nesse sentido, essa hipótese foi confirmada pelo teste de Spearman, que indicou um coeficiente de correlação próximo a 1, para ambos os casos. Assim, pode-se concluir que as regiões com maior número de habitantes foram as que tiveram uma maior quantidade de óbitos e de casos da doença.

Por fim, tendo em vista tudo o que foi mencionado neste relatório, os gráficos de dispersão e do tipo boxplot e as matrizes de correlação entre as variáveis de interesse são complementares para o entendimento dos dados, pois cada ferramenta de análise se restringe a fornecer apenas um tipo específico de informação, mas quando utilizadas em conjunto, permitem uma melhor compreensão e visualização dos resultados obtidos.

Referências Bibliográficas

Base de dados (cities_info.csv): https://github.com/wcota/covid19br/blob/master/cities_info.csv

Base de dados (cases-brazil-total.csv): https://github.com/wcota/covid19br/blob/master/cases-brazil-total.csv

Descrição dos dados: https://github.com/wcota/covid19br/blob/master/DESCRIPTION.md

INSTITUTO BUTANTAN. Entenda o que é uma pandemia e as diferenças entre surto, epidemia e endemia. Disponível em: https://butantan.gov.br/covid/butantan-tira-duvida/tira-duvida-noticias/entenda-o-que-e-uma-pandemia-e-as-diferencas-entre-surto-epidemia-e-endemia Acesso em: 11 fev.

OPAS. Histórico da pandemia de COVID-19. Organização Pan-Americana da Saúde. Disponível em: https://www.paho.org/pt/covid19/historico-da-pandemia-covid-19 Acesso em: 11 fev.

PEREIRA, Ana Cláudia. et al. Coronavírus e seu crescimento. Portal da Ciência. Universidade Federal de Lavras. Disponível em: https://ciencia.ufla.br/todas-opiniao/677-coronavirus-e-seu-crescimento Acesso em: 11 fev. 2022

UNA-SUS. Organização Mundial de Saúde declara pandemia do novo Coronavírus. Disponível em: https://www.unasus.gov.br/noticia/organizacao-mundial-de-saude-declara-pandemia-de-coronavirus Acesso em: 11 fev.