RELATÓRIO FINAL
Universidade Federal do Estado do Rio de Janeiro - CCJP
Disciplina: Estatística Aplicada às Ciências Humanas e Sociais
Professor: Steven Dutt-Ross
Nome: Ana Beatriz Marinho dos Anjos
Matrícula: 20211520022
E-mail: biadosanjos0@gmail.com
Nome: Anna Carolina Carvalho de Almeida Certo
Matrícula: 20211520001
E-mail: annacarolina.certo@edu.unirio.br
knitr::include_graphics("C:/Users/DELL/Downloads/covid-19-variants.jpg")Introdução
O coronavírus — também conhecido como Covid-19 — teve seu início em dezembro de 2019 na cidade de Wuhan, China, após a Organização Mundial da Saúde (OMS) ser notificada acerca de inúmeros casos de pneumonia. A princípio, a doença foi tratada como uma epidemia, uma vez que estava sofrendo apenas com o aumento no número de quadros da doença em diversas regiões, estados e cidades. Todavia, tal “designação” não durou muito tempo, posto que a doença se expandiu pelo mundo todo, causando uma série de impactos sem precedentes na história recente da humanidade.
Devido a sua rápida disseminação geográfica em níveis alarmantes de contaminação, em março de 2020, a OMS anunciou sua mudança de classificação, fazendo com que o Covid-19 passasse a ser tratado como uma pandemia. No Brasil, a doença causada pelo vírus SARS-CoV-2 teve o seu primeiro caso registrado em fevereiro de 2020 e em poucas semanas já havia se espalhado por todo território nacional. Nesse contexto, em consequência do aumento exponencial de contágio, o país ocupou as primeiras posições no ranking mundial de número de infectados e mortos pela enfermidade.
Portanto, ao considerar o que foi exposto nos parágrafos acima, o propósito deste trabalho é analisar de maneira mais direcionada e detalhada como o Covid-19 se incidiu ao longo do território brasileiro, analisando as regiões mais afetadas negativamente e a correlação entre as diferentes variáveis da base de dados utilizada.
Objetivo
O objetivo geral do relatório é analisar os dados do coronavírus nas cinco grandes regiões do Brasil em relação ao percentual de indivíduos vacinados com a terceira dose, além do número de casos e mortes até a data de 19/01/2022. Já, de maneira específica, nosso trabalho tem o intuito de estudar precisamente o impacto da Covid-19 em cada região brasileira, através de boxplots e diagramas de dispersão, verificando se, de fato, a variável “região”, seja em tamanho populacional ou fatores externos — não detalhados neste trabalho — exerce influência sobre as hipóteses que abrangem os casos, mortes e maior avanço da vacinação.
Metodologia
A priori, foram utilizadas duas bases de dados retiradas do site “github.com”, pertencentes ao mesmo autor “wcota”, encontradas na pasta “covid19br” e denominadas “cities_info.csv” e “cases-brazil-total.csv”. Para manter um padrão e evitar qualquer divergência nos dados, a última data de atualização da nossa base pertence ao dia 19/01/2022, posto que diariamente o autor atualiza a segunda base citada com novas informações. Ademais, é válido ressaltar que para melhor entendimento e manipulação dos dados, ambas foram fundidas e sofreram algumas alterações que serão minudenciadas a seguir.
Inicialmente, constatou-se que as duas bases de dados eram um “Arquivo de Valores Separados por Vírgulas do Microsoft Excel”, o que nos possibilitou usar tal programa para fazer as modificações necessárias. No que tange a primeira base de dados apresentada acima (cities_info.csv), foi utilizado a ferramenta de dados “Texto para Colunas”, onde as informações que antes eram organizadas por meio de vírgulas, ficassem agrupadas em colunas, facilitando a visualização. Entretanto, faz-se necessário apontar que de todos os elementos contidos na base, as únicas variáveis de interesse eram as da estimativa de população dos anos 2019, 2020 e 2021. Sendo assim, visto que as informações estavam separadas por cidades, foi feito o somatório individual de cada estado do Brasil para cada um dos três anos.
Outrossim, com relação a segunda base (cases-brazil-total.csv), a mesma ferramenta de dados foi utilizada e algumas variáveis consideradas desnecessárias para fins deste relatório foram descartadas. É importante mencionar que nenhum valor original foi alterado, no entanto, houve uma padronização dos dados.
Na variável “Mortes_por_TotalCasos” foi feita uma multiplicação por 100 para que se achasse o número exato do percentual, além disso, todos os dados que já possuíam a porcentagem ajustada e antes apresentavam cinco casas decimais após a vírgula, foram reduzidos para duas casas. O critério adotado foi que na terceira casa decimal, aqueles que fossem menores (<) ou iguais (=) a cinco, permaneceriam da mesma forma, enquanto aqueles superiores (>), seriam acrescidos de um.
Ademais, outro ponto que vale a pena salientar é que, originalmente, a base de dados se encontrava na língua inglesa. Desse modo, alguns itens e todo o cabeçalho foram traduzidos e adaptados, a fim de tornar as informações mais compreensíveis para os falantes da língua portuguesa.
Portanto, segue abaixo a base de dados utilizada para fins deste trabalho:
#Biblioteca
library(kableExtra)
#Base de dados
library(readr)
DadosCovid <- read_delim("C:/Users/DELL/Downloads/covid19br-master/DadosCovid.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)## Rows: 27 Columns: 22
## -- Column specification --------------------------------------------------------
## Delimiter: ";"
## chr (3): Pais, Regiao, Estado
## dbl (19): Pop2019, Pop2020, Pop2021, TotalCasos, Mortes, Mortes_por_100mil_h...
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
#Manipulação da tabela
kable(DadosCovid, row.names = FALSE)%>%
kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"),
position = "center", fixed_thead = T) %>%
scroll_box(width = "900px", height = "600px")| Pais | Regiao | Estado | Pop2019 | Pop2020 | Pop2021 | TotalCasos | Mortes | Mortes_por_100mil_habitantes | TotalCasos_por_100mil_habitantes | Mortes_por_TotalCasos | Recuperados | Testes | Testes_por_100mil_habitantes | PrimeiraDose | PrimeiraDose_por_100_habitantes | SegundaDose | SegundaDose_por_100_habitantes | DoseUnica | DoseUnica_por_100_habitantes | TerceiraDose | TerceiraDose_por_100_habitantes |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Brasil | Norte | AC | 881935 | 894470 | 906876 | 90299 | 1854 | 210.22 | 10238.74 | 2.05 | 86228 | 250875 | 28445.97 | 579916 | 65.75 | 451519 | 51.20 | 12264 | 1.39 | 63473 | 7.20 |
| Brasil | Nordeste | AL | 3337357 | 3351543 | 3365351 | 246511 | 6397 | 191.68 | 7386.41 | 2.59 | 235400 | 629842 | 18872.48 | 2370815 | 71.04 | 1884073 | 56.45 | 58151 | 1.74 | 323781 | 9.70 |
| Brasil | Norte | AM | 4144597 | 4207714 | 4269995 | 457408 | 13860 | 334.41 | 11036.25 | 3.03 | 420707 | 1166605 | 28147.61 | 2793031 | 67.39 | 2284279 | 55.11 | 56968 | 1.37 | 567377 | 13.69 |
| Brasil | Norte | AP | 845731 | 861773 | 877613 | 130239 | 2032 | 240.26 | 15399.58 | 1.56 | 116354 | 227745 | 26928.77 | 508627 | 60.14 | 329618 | 38.97 | 17062 | 2.01 | 37503 | 4.43 |
| Brasil | Nordeste | BA | 14873064 | 14930634 | 14985284 | 1294269 | 27695 | 186.21 | 8702.10 | 2.14 | 1253200 | 2689354 | 18082.04 | 10900691 | 73.29 | 9040834 | 60.79 | 264128 | 1.77 | 1811592 | 12.18 |
| Brasil | Nordeste | CE | 9132078 | 9187103 | 9240580 | 980698 | 24916 | 272.84 | 10739.04 | 2.54 | 879783 | 3093551 | 33875.65 | 7059020 | 77.30 | 6426047 | 70.36 | 179204 | 1.96 | 1641960 | 17.98 |
| Brasil | Centro-Oeste | DF | 3015268 | 3055149 | 3094325 | 551680 | 11132 | 369.19 | 18296.21 | 2.02 | 511299 | 782118 | 25938.59 | 2324678 | 77.10 | 2155062 | 71.47 | 58706 | 1.95 | 621376 | 20.60 |
| Brasil | Sudeste | ES | 4018650 | 4064052 | 4108508 | 681689 | 13385 | 333.07 | 16963.13 | 1.96 | 621086 | 2396293 | 59629.30 | 3126646 | 77.80 | 2749202 | 68.41 | 115144 | 2.86 | 941102 | 23.42 |
| Brasil | Centro-Oeste | GO | 7018354 | 7113540 | 7206589 | 978504 | 24792 | 353.24 | 13942.07 | 2.53 | 938474 | 1619728 | 23078.46 | 5292713 | 75.41 | 4377724 | 62.37 | 156634 | 2.23 | 812916 | 11.58 |
| Brasil | Nordeste | MA | 7075181 | 7114598 | 7153262 | 375086 | 10427 | 147.37 | 5301.43 | 2.78 | 357885 | 931953 | 13172.14 | 4586853 | 64.83 | 3609078 | 51.01 | 119603 | 1.69 | 539318 | 7.62 |
| Brasil | Sudeste | MG | 21168791 | 21292666 | 21411923 | 2383041 | 56833 | 268.47 | 11257.33 | 2.38 | 2204182 | 6625144 | 31296.75 | 16668740 | 78.74 | 15207915 | 71.84 | 502687 | 2.37 | 4123479 | 19.48 |
| Brasil | Centro-Oeste | MS | 2778986 | 2809394 | 2839188 | 393607 | 9765 | 351.39 | 14163.69 | 2.48 | 369713 | 1126800 | 40547.16 | 2057937 | 74.05 | 1813477 | 65.26 | 258398 | 9.30 | 796277 | 28.65 |
| Brasil | Centro-Oeste | MT | 3484466 | 3526220 | 3567234 | 582373 | 14144 | 405.91 | 16713.41 | 2.43 | 550931 | 557142 | 15989.31 | 2567619 | 73.69 | 2071025 | 59.43 | 93543 | 2.68 | 317396 | 9.11 |
| Brasil | Norte | PA | 8602865 | 8690745 | 8777124 | 634851 | 17261 | 200.64 | 7379.53 | 2.72 | 593998 | 999004 | 11612.46 | 5921604 | 68.83 | 5300467 | 61.61 | 133596 | 1.55 | 604796 | 7.03 |
| Brasil | Nordeste | PB | 4018127 | 4039277 | 4059905 | 469004 | 9620 | 239.41 | 11672.20 | 2.05 | 358448 | 1152470 | 28681.77 | 3113683 | 77.49 | 2526506 | 62.88 | 65493 | 1.63 | 487596 | 12.13 |
| Brasil | Nordeste | PE | 9557071 | 9616621 | 9674793 | 657143 | 20558 | 215.11 | 6875.99 | 3.13 | 588784 | 2452546 | 25662.11 | 7327255 | 76.67 | 6265873 | 65.56 | 176334 | 1.84 | 1610297 | 16.85 |
| Brasil | Nordeste | PI | 3273227 | 3281480 | 3289290 | 345171 | 7329 | 223.91 | 10545.28 | 2.12 | 337580 | 633026 | 19339.51 | 2740753 | 83.73 | 2434836 | 74.39 | 52989 | 1.62 | 411470 | 12.57 |
| Brasil | Sul | PR | 11433957 | 11516840 | 11597484 | 1729565 | 40951 | 358.15 | 15126.56 | 2.37 | 1521724 | 4398954 | 38472.72 | 9103996 | 79.62 | 7957102 | 69.59 | 328122 | 2.87 | 1885189 | 16.49 |
| Brasil | Sudeste | RJ | 17264943 | 17366189 | 17463349 | 1459328 | 69616 | 403.22 | 8452.55 | 4.77 | 1307974 | 2313502 | 13399.99 | 13110028 | 75.93 | 10911260 | 63.20 | 367911 | 2.13 | 2754043 | 15.95 |
| Brasil | Nordeste | RN | 3506853 | 3534165 | 3560903 | 395645 | 7611 | 217.03 | 11282.05 | 1.92 | 256642 | 1066514 | 30412.28 | 2637509 | 75.21 | 2350331 | 67.02 | 59688 | 1.70 | 713742 | 20.35 |
| Brasil | Norte | RO | 1777225 | 1796460 | 1815278 | 293052 | 6795 | 382.34 | 16489.30 | 2.32 | 270457 | 1110979 | 62512.00 | 1240550 | 69.80 | 1043135 | 58.69 | 37180 | 2.09 | 189826 | 10.68 |
| Brasil | Norte | RR | 605761 | 631181 | 652713 | 133380 | 2082 | 343.70 | 22018.58 | 1.56 | 126934 | 355203 | 58637.48 | 376167 | 62.10 | 268307 | 44.29 | 10964 | 1.81 | 27513 | 4.54 |
| Brasil | Sul | RS | 11377239 | 11422973 | 11466630 | 1612300 | 36552 | 321.27 | 14171.28 | 2.27 | 1486527 | 6145500 | 54015.74 | 8948983 | 78.66 | 7923571 | 69.64 | 304620 | 2.68 | 2322601 | 20.41 |
| Brasil | Sul | SC | 7164788 | 7252502 | 7338473 | 1315268 | 20295 | 283.26 | 18357.39 | 1.54 | 1241428 | 2568392 | 35847.42 | 5826378 | 81.32 | 5018558 | 70.04 | 261793 | 3.65 | 972611 | 13.57 |
| Brasil | Nordeste | SE | 2298696 | 2318822 | 2338474 | 280588 | 6067 | 263.93 | 12206.40 | 2.16 | 271802 | 604183 | 26283.73 | 1754788 | 76.34 | 1543946 | 67.16 | 40125 | 1.74 | 282882 | 12.30 |
| Brasil | Sudeste | SP | 45919049 | 46289333 | 46649132 | 4513255 | 155858 | 339.42 | 9828.72 | 3.45 | 4270000 | 19501783 | 42469.92 | 38470955 | 83.78 | 35867998 | 78.11 | 1196996 | 2.60 | 13813989 | 30.08 |
| Brasil | Norte | TO | 1572866 | 1590248 | 1607363 | 245897 | 3976 | 252.79 | 15633.69 | 1.62 | 230893 | 721136 | 45848.53 | 1064365 | 67.67 | 839015 | 53.34 | 36539 | 2.32 | 141963 | 9.02 |
Nossa base de dados também possui um dicionário (descrição dos dados) que contém 22 variáveis. É possível navegar em 3 abas, se for optado por mostrar 10 entradas ou, então, escolher mostrar 25 entradas — através do “show 10 entries”, alterando para 25. Além disso, caso a necessidade seja a procura por um dado específico, basta utilizar a barra de pesquisa (Search).
#Base de dados (descrição)
library(readxl)
Descricao <- read_excel("C:/Users/DELL/Downloads/covid19br-master/Descricao.xlsx")
#Manipulação da tabela
library(DT)
DT::datatable(Descricao, rownames = FALSE, colnames = "DESCRIÇÃO DOS DADOS")Por fim, utilizamos gráficos do modelo boxplot para o cruzamento de uma variável qualitativa — Região — e outras quantitativas, sendo elas: Mortes, TotalCasos, Mortes_por_100mil_habitantes, TotalCasos_por_100mil_habitantes, TerceiraDose_por_100_habitantes e também Pop2021 . Além disso, nosso estudo também abrangeu diagramas de dispersão, matriz de correlação e testes de hipóteses.
Teste de hipóteses
Os testes de hipóteses foram feitos para entendermos a interferência da variável Região nas variáveis “Mortes”, “TotalCasos”, “Mortes_por_100mil_habitantes”, “TotalCasos_por_100mil_habitantes” e “TerceiraDose_por_100_habitantes” e também para avaliarmos a correlação entre a população em 2021 e a quantidade de óbitos e infecções por coronavírus. Para tanto, consideramos alpha = 0.05 em todos os testes realizados e definimos a regra de decisão como:
Se p-valor ≤ alpha, rejeita H0.
Se p-valor > alpha, não rejeita H0.
Dito isso, primeiramente foi feito com todas as variáveis um teste de normalidade (shapiro wilk) para a verificação desse pressuposto, adotando as seguintes hipóteses:
H0: os dados seguem uma distribuição normal.
H1: os dados não seguem uma distribuição normal.
Após verificarmos se a variável segue uma distribuição normal ou não, foram feitos os seguintes testes:
- Para o cruzamento de uma variável qualitativa e outra quantitativa que não atendem ao pressuposto de normalidade, executou-se o teste de Kruskal-Wallis, adotando as hipóteses:
H0: os grupos são amostrados de populações com distribuições idênticas.
H1: os grupos são amostrados de populações com diferentes distribuições.
E depois, foi feito o teste de Comparações Múltiplas de Wilcoxon.
- Já para testar a variável qualitativa Região com as variáveis quantitativas que possuem uma distribuição normal foi executado o Teste de Barlett, com as hipóteses:
H0: todas as variâncias são iguais.
H1: pelo menos uma das variâncias é diferente.
Após verificarmos que a hipótese nula não foi rejeitada, executamos o teste ANOVA, sendo adotadas as seguintes hipóteses:
H0: todas as médias são iguais.
H1: existe pelo menos uma média diferente.
Em seguida, utilizamos o teste de Comparações Múltiplas de Tukey para comparar as diferenças entre as médias e o p-valor.
Por fim, para o teste de hipóteses de duas variáveis quantitativas que não são normais, foi utilizado o método de Spearman, com os critérios:
H0: rho = 0; as variáveis não são correlacionadas.
H1: rho i= 0; as variáveis têm correlação.
Análise de Resultados e Discussões
Boxplots
Boxplot 1 - Número total de mortes por região
par(cex=0.7)
boxplot(Mortes~Regiao, data = DadosCovid,
col=c("#b12740"),
main= "Boxplot 1 \n Número total de mortes por região",
ylab = "Número total de mortes",
xlab = "Regiões do Brasil")No que tange a análise do Boxplot 1 - “Número total de mortes por região”, pode-se constatar que quando comparado às outras regiões brasileiras, o Sudeste é aquele que não só apresenta maior dispersão de seus dados e amplitude interquartil — referente ao tamanho da caixa —, como também foi o mais atingido em relação ao número total de óbitos, tendo algum de seus estados atingido mais de 150.000 mortes.
As demais regiões, por sua vez, possuem pouca variabilidade e sofreram menor impacto da pandemia, visto que nenhum estado presente dessas regiões registrou mais de 50.000 mortes. Além disso, a região Norte, dentre todas, foi a que menos sofreu fatalidades pela doença. Para mais, vale ressaltar que o gráfico não contém a presença de outliers — os famosos “pontos fora da curva” — e todos apresentam uma concentração de dados assimétricos, ou seja, a mediana (linha preta) não se encontra no centro de nenhuma das caixas.
Boxplot 2 - Número total de casos por região
par(cex=0.7)
boxplot(TotalCasos~Regiao, data = DadosCovid,
col=c("#b12740"),
main= "Boxplot 2 \n Número total de casos por região",
ylab = "Número total de casos",
xlab = "Regiões do Brasil")options(scipen = 999)Apesar de grande semelhança com o gráfico anterior, o boxplot 2 que trata do número total de casos por região possui algumas dissemelhanças as quais devem ser levadas em conta. A começar pelo Sul, ainda que tenha diminuído a proporção de dispersão dos seus dados, a região sofreu aumento no total de casos quando comparado ao total de mortes — isso, em tese, tende a ser um fator positivo, dado que, embora mais casos o Sul obteve menos fatalidades.
Equitativamente, o Sudeste permanece sendo a região mais atingida pela pandemia, não só pelo grande número de óbitos, como agora com grande volume no número total de casos — sendo superior a marca de 4 milhões. É possível também observar no Nordeste a presença de um outlier, ou seja, existe um estado presente nesta região que registrou um número tão discrepante de casos em relação aos demais, que não aparece dentro do limite de detecção desses valores.
O Norte apresenta a mediana mais centralizada e uma notável simetria, divergente de todas as outras regiões que são assimétricas. Com exceção do outlier encontrado no Nordeste, seus outros estados, o Centro-Oeste e o Norte não registraram mais de 1 milhão de casos, demonstrando que foram menos atingidos quando comparados às regiões Sudeste e Sul.
Boxplot 3 - Número de mortes por 100 mil habitantes em cada região do Brasil
par(cex=0.7)
boxplot(Mortes_por_100mil_habitantes~Regiao, data = DadosCovid,
col=c("#b12740"),
main= "Boxplot 3 \n Número de mortes por 100 mil habitantes em cada região do Brasil",
ylab = "Mortes por 100 mil habitantes",
xlab = "Regiões do Brasil")Já neste Boxplot 3, quando comparamos o número de mortes por 100 mil habitantes com seu total em cada região do Brasil, fica notório uma drástica mudança. Se antes, a região Sudeste foi a mais atingida e apresentava maior amplitude, agora, a região Norte é aquela que apresenta maior variabilidade e um número considerável de mortes em algum de seus estados — entre 350 e 400.
Outrossim, o Centro-Oeste se encontra na parte superior da tabela, demonstrando que além de pouco desvio-padrão, detém a maior letalidade pelo Covid-19 em relação a 100 mil habitantes, tendo todos os seus estados atingindo acima de 350 mortes. O Sudeste também possui uma alta taxa de mortalidade, chegando a atingir a marca de 400 mortes por 100 mil habitantes em um de seus estados. O Sul, porventura, segue o mesmo caminho mantendo um considerável índice, dado a sua curta dispersão, ainda que não seja o mais evidente entre as regiões.
Neste gráfico não há a presença de outliers. Ademais, o Nordeste é a região com menos óbitos em relação à população e, assim como Centro-Oeste e Norte — ainda que bem leve — apresenta uma distribuição assimétrica de seus dados, diferente do Sudeste e Sul — ambos com simetria.
Boxplot 4 - Número de casos por 100 mil habitantes em cada região do Brasil
par(cex=0.7)
boxplot(TotalCasos_por_100mil_habitantes~Regiao, data = DadosCovid,
col=c("#b12740"),
main= "Boxplot 4 \n Número de casos por 100 mil habitantes em cada região do Brasil",
ylab = "Casos por 100 mil habitantes",
xlab = "Regiões do Brasil")No quarto boxplot, que trata do número de casos por 100 mil habitantes em cada região do Brasil, temos que Norte é o estado que possui um número máximo e mínimo bem espaçado, além de maior amplitude interquartil, demonstrando ser o único com mais de 20 mil casos pela população. A região Centro-Oeste e Sul, se encontram em um patamar muito semelhante, ainda que suas caixas denotem diferença de tamanho. O primeiro teria maior dispersão dos dados, enquanto a variabilidade do segundo é mais estreita.
Contudo, uma métrica que chama a atenção é o Sudeste, pois quando comparado aos boxplots anteriores, sempre esteve em evidência com seus altos índices de dispersão ou forte presença — de modo negativo — na parte superior. Neste gráfico, porém, ele se mantém próximo a área central, com uma variabilidade dos dados similar ao Norte e próximo do seu valor mínimo encontrado. Além disso, a região Nordeste apresenta menor número de casos proporcionais ao seu número de habitantes. Por fim, todas as regiões contém assimetria e nenhuma possui a presença de outliers.
Boxplot 5 - Porcentagem da população vacinada com a 3ª dose por região
par(cex=0.7)
boxplot(TerceiraDose_por_100_habitantes~Regiao, data = DadosCovid,
col=c("#b12740"),
main= "Boxplot 5 \n Porcentagem da população vacinada com a 3ª dose por região",
ylab = "Terceira dose (%)",
xlab = "Regiões do Brasil")Este quinto boxplot que trata da porcentagem da população vacinada com a 3ª dose por região, demonstra explicita diferenciação dos demais já apresentados. A começar pelo Centro-Oeste que possui maior destaque, com grande dispersão de dados e amplitude interquartil, tendo estados com quase 30% da população vacinada com tal dose e outros que não atingiram os 10%.
O Sudeste, por sua vez, é a região mais avançada, possuindo todos os seus estados com, no mínimo, 15% da vacinação em dia — além de um deles já ter ultrapassado a marca de 30%. Em oposição a isso, temos o Norte sendo o mais atrasado, com nenhum de seus estados atingido ao menos 15% da vacinação.
Já o Nordeste e o Sul se encontram mais no centro do gráfico, embora o primeiro ainda tenha um desempenho inferior, com alguns estados abaixo de 10%. Nenhuma região contém outliers e todas possuem assimetria de dados.
Boxplot 6 - População de 2021 em cada região do Brasil
par(cex=0.7)
boxplot(Pop2021~Regiao, data = DadosCovid,
col=c("#b12740"),
main= "Boxplot 6 \n População de 2021 em cada região do Brasil",
ylab = "População de 2021",
xlab = "Regiões do Brasil")O último boxplot compara o tamanho da população de 2021 em cada região do Brasil. O Sudeste, sem dúvidas, é aquele que concentra a maior parte da população brasileira, ao concentrar maior dispersão de dados e amplitude interquartil, além de demonstrar que um de seus estados possui mais de 40 milhões de pessoas.
Ademais, todas as regiões possuem assimetria e, no que concerne as que se concentram na parte inferior do gráfico, com exceção do Nordeste, todas possuem uma dispersão de dados baixa. Por fim, o Norte é o único que apresenta um outlier, ou seja, um de seus estados possui um número tão elevado de indivíduos — ultrapassa a marca de 1 milhão — em comparação aos outros, que não aparece dentro do limite de detecção desses valores.
Diagrama de dispersão e matriz de correlação
Diagrama de dispersão 1 - Total de casos e total de mortes por 100 mil habitantes
par(bg = "white")
par(cex=0.85)
plot(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes,
pch = 16, col = "#b12740",
main = "Diagrama de dispersão 1 \n Total de Casos e Total de Mortes por 100 mil habitantes ",
xlab = "Total de Casos por 100 mil habitantes",
ylab = "Total de Mortes por 100 mil habitantes")
abline(lsfit(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes),
col="#052a83") cor(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes)## [1] 0.6120991
#nível de correlação → 0.6120991
#considerado grau moderado de associação
library(corrplot)## corrplot 0.92 loaded
par(cex=0.7)
cor1 <- cor(DadosCovid[,c("Mortes_por_100mil_habitantes","TotalCasos_por_100mil_habitantes")])
corrplot.mixed(cor1)O diagrama de dispersão 1 e a matriz de correlação mostram que a relação entre as variáveis “TotalCasos_por_100mil_habitantes” e “Mortes_por_100mil_habitantes” é linear, positiva e de grau moderado, com seu índice de associação igual a 0.61. Isso significa que quando a quantidade de casos/100 mil hab. aumenta, o número de óbitos/100 mil hab. também tende a crescer, porém, como não existe uma forte concentração entre os pontos, outras variáveis podem estar envolvidas.
Diagrama de dispersão 2 - Total de casos por total de mortes
par(cex=0.85)
plot(DadosCovid$TotalCasos, DadosCovid$Mortes,
pch = 16, col = "#b12740",
main = "Diagrama de dispersão 2 \n Total de Casos por Total de Mortes",
xlab = "Total de Casos",
ylab = "Total de Mortes ")
abline(lsfit(DadosCovid$TotalCasos,DadosCovid$Mortes),
col="#052a83")cor(DadosCovid$TotalCasos, DadosCovid$Mortes)## [1] 0.9613614
#nível de correlação → 0.9613614
#considerado grau excelente de associação
library(corrplot)
cor2 <- cor(DadosCovid[,c("Mortes","TotalCasos")])
corrplot.mixed(cor2)Já diferentemente do diagrama 1, no diagrama de dispersão das variáveis “TotalCasos” e “Mortes” há uma relação positiva e linear, com grande concentração entre os pontos, embora seja possível observar que existe um muito disperso dos demais. Além disso, a matriz de correlação indica que o grau de associação é excelente, correspondendo a aproximadamente 0.96, portanto, pode-se afirmar que essa pouca dispersão nos dados e o alto índice de correlação significam que há uma tendência muito clara de que o total de casos e de mortos pela Covid-19 aumentam ou diminuem em conjunto.
Teste de Hipóteses
Teste de Hipóteses 1 - Pop2021 x Mortes e Pop2021 x TotalCasos
A priori, executamos o teste Shapiro Wilk para verificar se as variáveis são normais ou não.
# Teste de normalidade
# H0 = Os dados seguem uma distribuição normal
# H1 = Os dados nao seguem uma distribuicao normal
# alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0
shapiro.test(DadosCovid$Mortes)##
## Shapiro-Wilk normality test
##
## data: DadosCovid$Mortes
## W = 0.61398, p-value = 0.0000003023
#p-value = 3.023e-07
# pvalor < alpha -> Rejeito H0
shapiro.test(DadosCovid$Pop2021)##
## Shapiro-Wilk normality test
##
## data: DadosCovid$Pop2021
## W = 0.67249, p-value = 0.000001643
#p-value = 1.643e-06
# pvalor < alpha -> Rejeito H0
shapiro.test(DadosCovid$TotalCasos)##
## Shapiro-Wilk normality test
##
## data: DadosCovid$TotalCasos
## W = 0.71261, p-value = 0.000005835
#p-value = 5.835e-06
# pvalor < alpha -> Rejeito H0
# As variaveis nao possuem distribuicao normal.Como pvalor < alpha em todas as 3 variáveis, a hipótese nula foi rejeitada e por isso executou-se o teste de Spearman.
# 2. Spearman
# H0: rho = 0; nao sao correlacionadas
# H1: rho i= 0; tem correlacao
# alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0
cor.test(DadosCovid$Pop2021,DadosCovid$Mortes, method = "spearman", conf.level = 0.95)##
## Spearman's rank correlation rho
##
## data: DadosCovid$Pop2021 and DadosCovid$Mortes
## S = 142, p-value = 0.0000003038
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9566545
rho = 0.9566545
cor.test(DadosCovid$Pop2021,DadosCovid$TotalCasos, method = "spearman", conf.level = 0.95)##
## Spearman's rank correlation rho
##
## data: DadosCovid$Pop2021 and DadosCovid$TotalCasos
## S = 232, p-value = 0.0000006441
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9291819
rho = 0.9291819 Considerando que o número de mortes por Covid-19 seja a variável independente e o total da população em 2021 seja a variável dependente, a hipótese de que as regiões com maior número de habitantes foram as que tiveram uma maior quantidade de óbitos pelo vírus não deve ser rejeitada, tendo em vista que o coeficiente de correlação de Spearman é positivo. Ademais, o rho sendo próximo de 1 indica que as duas variáveis estão fortemente correlacionadas.
Vale ressaltar que a mesma situação ocorre quando aplicamos o teste na variável TotalCasos e Pop2021: ambas apresentam forte grau de associação e a hipótese nula H0 não é rejeitada, visto que rho é diferente de 0.
Teste de Hipóteses 2 - Regiao x Mortes
Foi executado o teste de Shapiro Wilk para os resíduos das variáveis Mortes e Região.
# Teste de hipóteses regiaoxmortes
modelo1 <- aov(Mortes ~ Regiao, data = DadosCovid)
residuos1 <- residuals(modelo1)
residuos1## 1 2 3 4 5 6
## -4983.14286 -7005.22222 7022.85714 -4805.14286 14292.77778 11513.77778
## 7 8 9 10 11 12
## -3826.25000 -60538.00000 9833.75000 -2975.22222 -17090.00000 -5193.25000
## 13 14 15 16 17 18
## -814.25000 10423.85714 -3782.22222 7155.77778 -6073.22222 8351.66667
## 19 20 21 22 23 24
## -4307.00000 -5791.22222 -42.14286 -4755.14286 3952.66667 -12304.33333
## 25 26 27
## -7335.22222 81935.00000 -2861.14286
# 1. Teste de normalidade
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
#Se pvalor < alpha REJ H0
#Se pvalor > NÃO REJ H0
shapiro.test(residuos1)##
## Shapiro-Wilk normality test
##
## data: residuos1
## W = 0.69553, p-value = 0.000003363
#p-value = 0.000003363
# pvalor < alpha Rej H0
# Pressuposto de normalidade violado Tendo em vista que pvalor < alpha, os dados não seguem uma distribuição normal e deve ser executado, em seguida, o teste de Kruskal-Wallis, para saber se a variável Região interfere na variável Mortes.
# 2. Teste de Kruskal-Wallis
# H0: os grupos são amostrados de populações com distribuições idênticas.
# H1: os grupos são amostrados de populações com diferentes distribuições.
kruskal.test(Mortes ~ Regiao, data = DadosCovid)##
## Kruskal-Wallis rank sum test
##
## data: Mortes by Regiao
## Kruskal-Wallis chi-squared = 13.795, df = 4, p-value = 0.007977
#p-value = 0.007977
# pvalor < alpha Rej H0
# 3. Teste de Comparações Múltiplas de Wilcoxon
WT1 <- pairwise.wilcox.test(DadosCovid$Mortes, DadosCovid$Regiao)
WT1##
## Pairwise comparisons using Wilcoxon rank sum exact test
##
## data: DadosCovid$Mortes and DadosCovid$Regiao
##
## Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.80 - - -
## Norte 0.55 0.45 - -
## Sudeste 0.55 0.18 0.19 -
## Sul 0.55 0.45 0.17 0.80
##
## P value adjustment method: holm
Como pvalor é menor que 0.05, a hipótese nula foi rejeitada. Portanto, os grupos são amostrados de populações com diferentes distribuições, logo, a quantidade de mortes por covid-19 não possui distribuição semelhante entre todas as regiões e por isso, pode-se afirmar que o fator região exerce influência sobre essa variável.
A partir da matriz do Teste de Wilcoxon é possível observar que todos os pares de regiões possuem distribuição da variável em média semelhante, uma vez que quando comparadas uma com a outra, pvalor > 0.05.
Teste de Hipóteses 3 - Regiao x TotalCasos
Para o cruzamento das variáveis Região e TotalCasos também foi executado o teste de Shapiro Wilk.
# Teste de hipóteses regiaoxtotalcasos
modelo2 <- aov(TotalCasos ~ Regiao, data = DadosCovid)
residuos2<- residuals(modelo2)
residuos2## 1 2 3 4 5 6
## -193290.429 -313946.222 173818.571 -153350.429 733811.778 420240.778
## 7 8 9 10 11 12
## -74861.000 -1577639.250 351963.000 -185371.222 123712.750 -232934.000
## 13 14 15 16 17 18
## -44168.000 351261.571 -91453.222 96685.778 -215286.222 177187.333
## 19 20 21 22 23 24
## -800000.250 -164812.222 9462.571 -150209.429 59922.333 -237109.667
## 25 26 27
## -279869.222 2253926.750 -37692.429
# Teste de normalidade
#H0: os dados seguem uma distribuição normal
#H1: os dados não seguem uma distrbuição normal
#alpha: 0,05
#Se pvalor < alpha REJ H0
#Se pvalor > NÃO REJ H0
shapiro.test(residuos2)##
## Shapiro-Wilk normality test
##
## data: residuos2
## W = 0.7828, p-value = 0.00006993
#p-value = 0.00006993
# pvalor < alpha Rej H0
# Pressuposto de normalidade violadoO teste de Shapiro Wilk nos resíduos das variáveis mencionadas anteriormente indicou que pvalor<alpha, então o pressuposto de normalidade foi violado. Portanto, executou-se o teste de Kruskal-Wallis.
# 2. Teste de Kruskal-Wallis
# H0: os grupos são amostrados de populações com distribuições idênticas.
# H1: os grupos são amostrados de populações com diferentes distribuições.
kruskal.test(TotalCasos ~ Regiao, data = DadosCovid)##
## Kruskal-Wallis rank sum test
##
## data: TotalCasos by Regiao
## Kruskal-Wallis chi-squared = 17.017, df = 4, p-value = 0.001918
#p-value = 0.001918
# 3. Teste de Comparações Múltiplas de Wilcoxon
WT2 <- pairwise.wilcox.test(DadosCovid$TotalCasos, DadosCovid$Regiao)
WT2##
## Pairwise comparisons using Wilcoxon rank sum exact test
##
## data: DadosCovid$TotalCasos and DadosCovid$Regiao
##
## Centro-Oeste Nordeste Norte Sudeste
## Nordeste 1.000 - - -
## Norte 0.329 0.329 - -
## Sudeste 0.329 0.090 0.061 -
## Sul 0.329 0.082 0.117 1.000
##
## P value adjustment method: holm
No Teste de Kruskal-Wallis pvalor deu um número menor que alpha, portanto a hipótese nula foi rejeitada. Dito isso, os grupos são amostrados de populações com diferentes distribuições, logo, o total de casos de covid-19 não possui distribuição semelhante entre todas as regiões e por isso, pode-se afirmar que assim como na variável Mortes, o fator região exerce influência sobre a quantidade de casos da doença.
A partir da matriz do Teste de Wilcoxon é possível observar que todos os pares de regiões possuem distribuição da variável em média semelhante, uma vez que quando comparadas uma com a outra, pvalor > 0.05.
Teste de Hipóteses 4 - Regiao x Mortes_por_100mil_habitantes
A princípio foi feito um teste de normalidade (Shapiro Wilk) entre as variáveis Regiao e Mortes por 100 mil habitantes.
shapiro.test(DadosCovid$Mortes_por_100mil_habitantes)##
## Shapiro-Wilk normality test
##
## data: DadosCovid$Mortes_por_100mil_habitantes
## W = 0.95108, p-value = 0.2277
#p-value = 0.2277
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal#Para dados que seguem uma distribuição normal
modelo3 <- aov(Mortes_por_100mil_habitantes~Regiao, data=DadosCovid)
residuos3 <- residuals(modelo3)
residuos3## 1 2 3 4 5 6
## -70.4028571 -25.8188889 53.7871429 -40.3628571 -31.2888889 55.3411111
## 7 8 9 10 11 12
## -0.7425000 -2.9750000 -16.6925000 -70.1288889 -67.5750000 -18.5425000
## 13 14 15 16 17 18
## 35.9775000 -79.9828571 21.9111111 -2.3888889 6.4111111 37.2566667
## 19 20 21 22 23 24
## 67.1750000 -0.4688889 101.7171429 63.0771429 0.3766667 -37.6333333
## 25 26 27
## 46.4311111 3.3750000 -27.8328571
shapiro.test(residuos3)##
## Shapiro-Wilk normality test
##
## data: residuos3
## W = 0.97227, p-value = 0.6626
# p-value = 0.6626
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normalPvalor > alpha, ou seja, não rejeito H0. Como os dados seguem uma distribuição normal, será feito o Teste de Bartlett.
# Teste de Bartlett
#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05
bartlett.test(residuos3~DadosCovid$Regiao)##
## Bartlett test of homogeneity of variances
##
## data: residuos3 by DadosCovid$Regiao
## Bartlett's K-squared = 4.4977, df = 4, p-value = 0.3428
#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguaisVerificou-se através deste teste de homogeneidade das variâncias para os resíduos que pvalor > alpha. Desse modo, não se rejeita H0 e todas as variâncias são iguais. Logo será feito a ANOVA.
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0
modelo4 <- aov(Mortes_por_100mil_habitantes~Regiao, data= DadosCovid)
modelo4## Call:
## aov(formula = Mortes_por_100mil_habitantes ~ Regiao, data = DadosCovid)
##
## Terms:
## Regiao Residuals
## Sum of Squares 84276.51 57106.06
## Deg. of Freedom 4 22
##
## Residual standard error: 50.94831
## Estimated effects may be unbalanced
summary(modelo4)## Df Sum Sq Mean Sq F value Pr(>F)
## Regiao 4 84277 21069 8.117 0.000353 ***
## Residuals 22 57106 2596
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# pvalor = 0.000353
#pvalor < alpha Rej H0
#Existe pelo menos uma região com média diferenteRejeitamos H0, dado que pvalor — indicado como Pr(>F) neste teste — é < alpha. A ANOVA indicou que existe pelo menos uma região com média diferente, sendo assim, seguimos realizando o Teste de Tukey para descobrir qual média se dissemelha das demais.
# Teste de Tukey
#Qual a média que é diferente das demais?
TukeyHSD(modelo4)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Mortes_por_100mil_habitantes ~ Regiao, data = DadosCovid)
##
## $Regiao
## diff lwr upr p adj
## Nordeste-Centro-Oeste -152.43361 -243.271006 -61.596216 0.0004834
## Norte-Centro-Oeste -89.30964 -184.055793 5.436508 0.0710600
## Sudeste-Centro-Oeste -33.88750 -140.775573 73.000573 0.8778838
## Sul-Centro-Oeste -49.03917 -164.491481 66.413148 0.7171548
## Norte-Nordeste 63.12397 -13.054803 139.302739 0.1371117
## Sudeste-Nordeste 118.54611 27.708716 209.383506 0.0066296
## Sul-Nordeste 103.39444 2.619403 204.169486 0.0424772
## Sudeste-Norte 55.42214 -39.324008 150.168293 0.4340664
## Sul-Norte 40.27048 -64.041602 144.582555 0.7810386
## Sul-Sudeste -15.15167 -130.603981 100.300648 0.9947698
Primeiramente, é importante destacar que o valor de p adj, refere-se ao pvalor. O Teste de Tukey evidenciou que referente ao número de mortes por 100 mil habitantes em relação a região, as médias que se mostram diferentes possuem pvalor < 0.05. Dito isso, são elas: Nordeste-Centro-Oeste, Sudeste-Nordeste e Sul-Nordeste. Logo, todos os demais possuem uma distribuição de média similar, já que pvalor > 0.05.
Teste de Hipóteses 5 - Regiao x TotalCasos_por_100mil_habitantes
Agora fez-se um teste de normalidade (Shapiro Wilk) entre as variáveis Regiao e Total de casos por 100 mil habitantes
#Teste de normalidade (Shapiro Wilk)
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0
shapiro.test(DadosCovid$TotalCasos_por_100mil_habitantes)##
## Shapiro-Wilk normality test
##
## data: DadosCovid$TotalCasos_por_100mil_habitantes
## W = 0.97825, p-value = 0.8209
# p-value = 0.8209
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal
#Para dados que seguem uma distribuição normal
modelo6 <- aov(TotalCasos_por_100mil_habitantes~Regiao, data=DadosCovid)
residuos6 <- residuals(modelo6)
residuos6## 1 2 3 4 5 6 7
## -3789.2129 -2025.9122 -2991.7029 1371.6271 -710.2222 1326.7178 2517.3650
## 8 9 10 11 12 13 14
## 5337.6975 -1836.7750 -4110.8922 -368.1025 -1615.1550 934.5650 -6648.4229
## 15 16 17 18 19 20 21
## 2259.8778 -2536.3322 1132.9578 -758.5167 -3172.8825 1869.7278 2461.3471
## 22 23 24 25 26 27
## 7990.6271 -1713.7967 2472.3133 2794.0778 -1796.7125 1605.7371
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
shapiro.test(residuos6)##
## Shapiro-Wilk normality test
##
## data: residuos6
## W = 0.97174, p-value = 0.6482
#p-value = 0.6482
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normalConstatou-se que pvalor > alpha, ou seja, H0 não é rejeitado e os dados seguem uma distribuição normal. Logo, será feito um Teste de Bartlett.
# Teste de Bartlett
#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05
bartlett.test(residuos6~DadosCovid$Regiao)##
## Bartlett test of homogeneity of variances
##
## data: residuos6 by DadosCovid$Regiao
## Bartlett's K-squared = 4.5722, df = 4, p-value = 0.3341
#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguaisComo pvalor > alpha, percebe-se que todas as variâncias são iguais, pois não se rejeita H0. Sendo assim será feito a ANOVA.
# ANOVA
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0
modelo7 <- aov(TotalCasos_por_100mil_habitantes~Regiao, data= DadosCovid)
modelo7## Call:
## aov(formula = TotalCasos_por_100mil_habitantes ~ Regiao, data = DadosCovid)
##
## Terms:
## Regiao Residuals
## Sum of Squares 182319471 254012436
## Deg. of Freedom 4 22
##
## Residual standard error: 3397.943
## Estimated effects may be unbalanced
summary(modelo7)## Df Sum Sq Mean Sq F value Pr(>F)
## Regiao 4 182319471 45579868 3.948 0.0146 *
## Residuals 22 254012436 11546020
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# PR(>F) pvalor = 0.0146
#pvalor < alpha Rej H0
#Existe pelo menos uma média diferenteUma vez que pvalor < alpha, rejeita H0 e observa-se que existe pelo menos uma média diferente. Logo, descobriremos a média diferente das demais através do Teste de Tukey.
#Qual a média que é diferente das demais?
TukeyHSD(modelo7)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = TotalCasos_por_100mil_habitantes ~ Regiao, data = DadosCovid)
##
## $Regiao
## diff lwr upr p adj
## Nordeste-Centro-Oeste -6366.5228 -12424.8269 -308.2186 0.0362649
## Norte-Centro-Oeste -1750.8921 -8069.8866 4568.1023 0.9209490
## Sudeste-Centro-Oeste -4153.4125 -11282.1997 2975.3747 0.4379578
## Sul-Centro-Oeste 106.2317 -7593.7385 7806.2018 0.9999993
## Norte-Nordeste 4615.6306 -465.0321 9696.2933 0.0870601
## Sudeste-Nordeste 2213.1103 -3845.1939 8271.4144 0.8127997
## Sul-Nordeste 6472.7544 -248.3305 13193.8394 0.0627885
## Sudeste-Norte -2402.5204 -8721.5148 3916.4741 0.7901936
## Sul-Norte 1857.1238 -5099.8601 8814.1077 0.9302079
## Sul-Sudeste 4259.6442 -3440.3260 11959.6143 0.4883142
Por meio desse teste, descobrimos que a única média diferente é a relação entre Nordeste-Centro-Oeste. Dessa maneira, quando tratamos do total de casos por 100 mil habitantes, fica claro que as demais relações entre as regiões possuem uma distribuição de média semelhante.
Teste de Hipóteses 6 - Regiao x TerceiraDose_por_100_habitantes
Realizando o último teste de hipóteses entre Região e Porcentagem da terceira dose, através do Teste de normalidade (Shapiro Wilk).
#Teste de normalidade (Shapiro Wilk)
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0
shapiro.test(DadosCovid$TerceiraDose_por_100_habitantes)##
## Shapiro-Wilk normality test
##
## data: DadosCovid$TerceiraDose_por_100_habitantes
## W = 0.95156, p-value = 0.2339
# p-value = 0.2339
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal
#Para dados que seguem uma distribuição normal
modelo8 <- aov(TerceiraDose_por_100_habitantes~Regiao, data=DadosCovid)
residuos8 <- residuals(modelo8)
residuos8## 1 2 3 4 5 6 7
## -0.8842857 -3.8200000 5.6057143 -3.6542857 -1.3400000 4.4600000 3.1150000
## 8 9 10 11 12 13 14
## 1.1875000 -5.9050000 -5.9000000 -2.7525000 11.1650000 -8.3750000 -1.0542857
## 15 16 17 18 19 20 21
## -1.3900000 3.3300000 -0.9500000 -0.3333333 -6.2825000 6.8300000 2.5957143
## 22 23 24 25 26 27
## -3.5442857 3.5866667 -3.2533333 -1.2200000 7.8475000 0.9357143
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
shapiro.test(residuos8)##
## Shapiro-Wilk normality test
##
## data: residuos8
## W = 0.97606, p-value = 0.7647
#p-value = 0.7647
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normalComo Pvalor > alpha, não se rejeita H0 e os dados seguem uma distribuição normal. Desse modo, realizamos um Teste de Bartlett.
# Teste de Bartlett
#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05
bartlett.test(residuos8~DadosCovid$Regiao)##
## Bartlett test of homogeneity of variances
##
## data: residuos8 by DadosCovid$Regiao
## Bartlett's K-squared = 5.2583, df = 4, p-value = 0.2618
#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguaisTodas as variâncias são mostram iguais. Posto que pvalor > alpha, H0 não é rejeitado. Então, seguimos fazendo a ANOVA.
# ANOVA
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0
modelo9 <- aov(TerceiraDose_por_100_habitantes~Regiao, data= DadosCovid)
modelo9## Call:
## aov(formula = TerceiraDose_por_100_habitantes ~ Regiao, data = DadosCovid)
##
## Terms:
## Regiao Residuals
## Sum of Squares 587.2136 572.9660
## Deg. of Freedom 4 22
##
## Residual standard error: 5.103323
## Estimated effects may be unbalanced
summary(modelo9)## Df Sum Sq Mean Sq F value Pr(>F)
## Regiao 4 587.2 146.80 5.637 0.0028 **
## Residuals 22 573.0 26.04
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# PR(>F) pvalor = 0.0028
#pvalor < alpha Rej H0
#Existe pelo menos uma média diferenteA ANOVA indica que existe pelo menos uma média diferente, por isso rejeitamos H0, visto que pvalor < alpha. Por conseguinte, fazemos um Teste de Tukey para descobrir a média que se difere das demais.
#Qual a média que é diferente das demais?
TukeyHSD(modelo9)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = TerceiraDose_por_100_habitantes ~ Regiao, data = DadosCovid)
##
## $Regiao
## diff lwr upr p adj
## Nordeste-Centro-Oeste -3.9650000 -13.0638816 5.13388157 0.6981182
## Norte-Centro-Oeste -9.4007143 -18.8911229 0.08969437 0.0530240
## Sudeste-Centro-Oeste 4.7475000 -5.9591249 15.45412493 0.6847249
## Sul-Centro-Oeste -0.6616667 -12.2261433 10.90280999 0.9997980
## Norte-Nordeste -5.4357143 -13.0662900 2.19486138 0.2497839
## Sudeste-Nordeste 8.7125000 -0.3863816 17.81138157 0.0649323
## Sul-Nordeste 3.3033333 -6.7909695 13.39763612 0.8652452
## Sudeste-Norte 14.1482143 4.6578056 23.63862295 0.0018111
## Sul-Norte 8.7390476 -1.7095484 19.18764367 0.1313743
## Sul-Sudeste -5.4091667 -16.9736433 6.15530999 0.6414476
Enfim, por meio do resultado do Teste de Tukey, descobrimos que a relação Sudeste-Norte é a média diferente das demais. Portanto, é possível explicitar que a distribuição de média é similar entre as regiões em relação ao teste de hipóteses realizado sobre a porcentagem da terceira dose por região.
Conclusão
A partir dos resultados obtidos, conclui-se que a Covid-19, no que tange ao número total de óbitos e de casos da doença, atingiu de forma diferente cada uma das 5 regiões do Brasil, pois através dos testes de hipóteses foi possível concluir que a variável qualitativa Região interfere nas variáveis quantitativas Mortes, TotalCasos, Mortes por 100 mil habitantes e TotalCasos por 100 mil habitantes. Além disso, tendo como métrica a porcentagem da população vacinada com a terceira dose para analisar o avanço da vacinação por região, foi possível observar que estas se encontram em diferentes estágios. Nesse sentido, os gráficos do tipo boxplot foram utilizados para expressar visualmente tais disparidades.
Outrossim, a hipótese de que o número total de casos e a quantidade de mortes estão correlacionadas se confirma pela matriz de correlação, que apontou excelente grau de associação entre elas, indicando que essas variáveis aumentam ou diminuem em conjunto. Entretanto, quando analisadas as variáveis “Mortes_por_100mil_habitantes” e “TotalCasos_por_100mil_habitantes” o resultado obtido foi que não existe uma forte correlação entre os dados, portanto outros fatores podem estar envolvidos.
Ainda no que diz respeito à variável população em 2021 e a quantidade de mortes e de casos de coronavírus até janeiro de 2022, era de se esperar uma forte associação entre esses índices e o tamanho populacional. Nesse sentido, essa hipótese foi confirmada pelo teste de Spearman, que indicou um coeficiente de correlação próximo a 1, para ambos os casos. Assim, pode-se concluir que as regiões com maior número de habitantes foram as que tiveram uma maior quantidade de óbitos e de casos da doença.
Por fim, tendo em vista tudo o que foi mencionado neste relatório, os gráficos de dispersão e do tipo boxplot e as matrizes de correlação entre as variáveis de interesse são complementares para o entendimento dos dados, pois cada ferramenta de análise se restringe a fornecer apenas um tipo específico de informação, mas quando utilizadas em conjunto, permitem uma melhor compreensão e visualização dos resultados obtidos.
Referências Bibliográficas
Base de dados (cities_info.csv): https://github.com/wcota/covid19br/blob/master/cities_info.csv
Base de dados (cases-brazil-total.csv): https://github.com/wcota/covid19br/blob/master/cases-brazil-total.csv
Descrição dos dados: https://github.com/wcota/covid19br/blob/master/DESCRIPTION.md
INSTITUTO BUTANTAN. Entenda o que é uma pandemia e as diferenças entre surto, epidemia e endemia. Disponível em: https://butantan.gov.br/covid/butantan-tira-duvida/tira-duvida-noticias/entenda-o-que-e-uma-pandemia-e-as-diferencas-entre-surto-epidemia-e-endemia Acesso em: 11 fev.
OPAS. Histórico da pandemia de COVID-19. Organização Pan-Americana da Saúde. Disponível em: https://www.paho.org/pt/covid19/historico-da-pandemia-covid-19 Acesso em: 11 fev.
PEREIRA, Ana Cláudia. et al. Coronavírus e seu crescimento. Portal da Ciência. Universidade Federal de Lavras. Disponível em: https://ciencia.ufla.br/todas-opiniao/677-coronavirus-e-seu-crescimento Acesso em: 11 fev. 2022
UNA-SUS. Organização Mundial de Saúde declara pandemia do novo Coronavírus. Disponível em: https://www.unasus.gov.br/noticia/organizacao-mundial-de-saude-declara-pandemia-de-coronavirus Acesso em: 11 fev.