RELATÓRIO FINAL

Universidade Federal do Estado do Rio de Janeiro - CCJP

Disciplina: Estatística Aplicada às Ciências Humanas e Sociais
Professor: Steven Dutt-Ross

Nome: Ana Beatriz Marinho dos Anjos
Matrícula: 20211520022
E-mail: biadosanjos0@gmail.com

Nome: Anna Carolina Carvalho de Almeida Certo
Matrícula: 20211520001
E-mail: annacarolina.certo@edu.unirio.br

knitr::include_graphics("C:/Users/DELL/Downloads/covid-19-variants.jpg")

Introdução

O coronavírus — também conhecido como Covid-19 — teve seu início em dezembro de 2019 na cidade de Wuhan, China, após a Organização Mundial da Saúde (OMS) ser notificada acerca de inúmeros casos de pneumonia. A princípio, a doença foi tratada como uma epidemia, uma vez que estava sofrendo apenas com o aumento no número de quadros da doença em diversas regiões, estados e cidades. Todavia, tal “designação” não durou muito tempo, posto que a doença se expandiu pelo mundo todo, causando uma série de impactos sem precedentes na história recente da humanidade.

Devido a sua rápida disseminação geográfica em níveis alarmantes de contaminação, em março de 2020, a OMS anunciou sua mudança de classificação, fazendo com que o Covid-19 passasse a ser tratado como uma pandemia. No Brasil, a doença causada pelo vírus SARS-CoV-2 teve o seu primeiro caso registrado em fevereiro de 2020 e em poucas semanas já havia se espalhado por todo território nacional. Nesse contexto, em consequência do aumento exponencial de contágio, o país ocupou as primeiras posições no ranking mundial de número de infectados e mortos pela enfermidade.

Portanto, ao considerar o que foi exposto nos parágrafos acima, o propósito deste trabalho é analisar de maneira mais direcionada e detalhada como o Covid-19 se incidiu ao longo do território brasileiro, analisando as regiões mais afetadas negativamente e a correlação entre as diferentes variáveis da base de dados utilizada.

Objetivo

O objetivo geral do relatório é analisar os dados do coronavírus nas cinco grandes regiões do Brasil em relação ao percentual de indivíduos vacinados com a terceira dose, além do número de casos e mortes até a data de 19/01/2022. Já, de maneira específica, nosso trabalho tem o intuito de estudar precisamente o impacto da Covid-19 em cada região brasileira, através de boxplots e diagramas de dispersão, verificando se, de fato, a variável “região”, seja em tamanho populacional ou fatores externos — não detalhados neste trabalho — exerce influência sobre as hipóteses que abrangem os casos, mortes e maior avanço da vacinação.

Metodologia

A priori, foram utilizadas duas bases de dados retiradas do site “github.com”, pertencentes ao mesmo autor “wcota”, encontradas na pasta “covid19br” e denominadas “cities_info.csv” e “cases-brazil-total.csv”. Para manter um padrão e evitar qualquer divergência nos dados, a última data de atualização da nossa base pertence ao dia 19/01/2022, posto que diariamente o autor atualiza a segunda base citada com novas informações. Ademais, é válido ressaltar que para melhor entendimento e manipulação dos dados, ambas foram fundidas e sofreram algumas alterações que serão minudenciadas a seguir.

Inicialmente, constatou-se que as duas bases de dados eram um “Arquivo de Valores Separados por Vírgulas do Microsoft Excel”, o que nos possibilitou usar tal programa para fazer as modificações necessárias. No que tange a primeira base de dados apresentada acima (cities_info.csv), foi utilizado a ferramenta de dados “Texto para Colunas”, onde as informações que antes eram organizadas por meio de vírgulas, ficassem agrupadas em colunas, facilitando a visualização. Entretanto, faz-se necessário apontar que de todos os elementos contidos na base, as únicas variáveis de interesse eram as da estimativa de população dos anos 2019, 2020 e 2021. Sendo assim, visto que as informações estavam separadas por cidades, foi feito o somatório individual de cada estado do Brasil para cada um dos três anos.

Outrossim, com relação a segunda base (cases-brazil-total.csv), a mesma ferramenta de dados foi utilizada e algumas variáveis consideradas desnecessárias para fins deste relatório foram descartadas. É importante mencionar que nenhum valor original foi alterado, no entanto, houve uma padronização dos dados.

Na variável “Mortes_por_TotalCasos” foi feita uma multiplicação por 100 para que se achasse o número exato do percentual, além disso, todos os dados que já possuíam a porcentagem ajustada e antes apresentavam cinco casas decimais após a vírgula, foram reduzidos para duas casas. O critério adotado foi que na terceira casa decimal, aqueles que fossem menores (<) ou iguais (=) a cinco, permaneceriam da mesma forma, enquanto aqueles superiores (>), seriam acrescidos de um.

Ademais, outro ponto que vale a pena salientar é que, originalmente, a base de dados se encontrava na língua inglesa. Desse modo, alguns itens e todo o cabeçalho foram traduzidos e adaptados, a fim de tornar as informações mais compreensíveis para os falantes da língua portuguesa.

Portanto, segue abaixo a base de dados utilizada para fins deste trabalho:

#Biblioteca
library(kableExtra)

#Base de dados
library(readr)
DadosCovid <- read_delim("C:/Users/DELL/Downloads/covid19br-master/DadosCovid.csv", 
                    delim = ";", escape_double = FALSE, trim_ws = TRUE)

## Rows: 27 Columns: 22

## -- Column specification --------------------------------------------------------
## Delimiter: ";"
## chr  (3): Pais, Regiao, Estado
## dbl (19): Pop2019, Pop2020, Pop2021, TotalCasos, Mortes, Mortes_por_100mil_h...

## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

#Manipulação da tabela
kable(DadosCovid, row.names = FALSE)%>%
  kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                 position = "center", fixed_thead = T) %>%
  scroll_box(width = "900px", height = "600px")

Pais	Regiao	Estado	Pop2019	Pop2020	Pop2021	TotalCasos	Mortes	Mortes_por_100mil_habitantes	TotalCasos_por_100mil_habitantes	Mortes_por_TotalCasos	Recuperados	Testes	Testes_por_100mil_habitantes	PrimeiraDose	PrimeiraDose_por_100_habitantes	SegundaDose	SegundaDose_por_100_habitantes	DoseUnica	DoseUnica_por_100_habitantes	TerceiraDose	TerceiraDose_por_100_habitantes
Brasil	Norte	AC	881935	894470	906876	90299	1854	210.22	10238.74	2.05	86228	250875	28445.97	579916	65.75	451519	51.20	12264	1.39	63473	7.20
Brasil	Nordeste	AL	3337357	3351543	3365351	246511	6397	191.68	7386.41	2.59	235400	629842	18872.48	2370815	71.04	1884073	56.45	58151	1.74	323781	9.70
Brasil	Norte	AM	4144597	4207714	4269995	457408	13860	334.41	11036.25	3.03	420707	1166605	28147.61	2793031	67.39	2284279	55.11	56968	1.37	567377	13.69
Brasil	Norte	AP	845731	861773	877613	130239	2032	240.26	15399.58	1.56	116354	227745	26928.77	508627	60.14	329618	38.97	17062	2.01	37503	4.43
Brasil	Nordeste	BA	14873064	14930634	14985284	1294269	27695	186.21	8702.10	2.14	1253200	2689354	18082.04	10900691	73.29	9040834	60.79	264128	1.77	1811592	12.18
Brasil	Nordeste	CE	9132078	9187103	9240580	980698	24916	272.84	10739.04	2.54	879783	3093551	33875.65	7059020	77.30	6426047	70.36	179204	1.96	1641960	17.98
Brasil	Centro-Oeste	DF	3015268	3055149	3094325	551680	11132	369.19	18296.21	2.02	511299	782118	25938.59	2324678	77.10	2155062	71.47	58706	1.95	621376	20.60
Brasil	Sudeste	ES	4018650	4064052	4108508	681689	13385	333.07	16963.13	1.96	621086	2396293	59629.30	3126646	77.80	2749202	68.41	115144	2.86	941102	23.42
Brasil	Centro-Oeste	GO	7018354	7113540	7206589	978504	24792	353.24	13942.07	2.53	938474	1619728	23078.46	5292713	75.41	4377724	62.37	156634	2.23	812916	11.58
Brasil	Nordeste	MA	7075181	7114598	7153262	375086	10427	147.37	5301.43	2.78	357885	931953	13172.14	4586853	64.83	3609078	51.01	119603	1.69	539318	7.62
Brasil	Sudeste	MG	21168791	21292666	21411923	2383041	56833	268.47	11257.33	2.38	2204182	6625144	31296.75	16668740	78.74	15207915	71.84	502687	2.37	4123479	19.48
Brasil	Centro-Oeste	MS	2778986	2809394	2839188	393607	9765	351.39	14163.69	2.48	369713	1126800	40547.16	2057937	74.05	1813477	65.26	258398	9.30	796277	28.65
Brasil	Centro-Oeste	MT	3484466	3526220	3567234	582373	14144	405.91	16713.41	2.43	550931	557142	15989.31	2567619	73.69	2071025	59.43	93543	2.68	317396	9.11
Brasil	Norte	PA	8602865	8690745	8777124	634851	17261	200.64	7379.53	2.72	593998	999004	11612.46	5921604	68.83	5300467	61.61	133596	1.55	604796	7.03
Brasil	Nordeste	PB	4018127	4039277	4059905	469004	9620	239.41	11672.20	2.05	358448	1152470	28681.77	3113683	77.49	2526506	62.88	65493	1.63	487596	12.13
Brasil	Nordeste	PE	9557071	9616621	9674793	657143	20558	215.11	6875.99	3.13	588784	2452546	25662.11	7327255	76.67	6265873	65.56	176334	1.84	1610297	16.85
Brasil	Nordeste	PI	3273227	3281480	3289290	345171	7329	223.91	10545.28	2.12	337580	633026	19339.51	2740753	83.73	2434836	74.39	52989	1.62	411470	12.57
Brasil	Sul	PR	11433957	11516840	11597484	1729565	40951	358.15	15126.56	2.37	1521724	4398954	38472.72	9103996	79.62	7957102	69.59	328122	2.87	1885189	16.49
Brasil	Sudeste	RJ	17264943	17366189	17463349	1459328	69616	403.22	8452.55	4.77	1307974	2313502	13399.99	13110028	75.93	10911260	63.20	367911	2.13	2754043	15.95
Brasil	Nordeste	RN	3506853	3534165	3560903	395645	7611	217.03	11282.05	1.92	256642	1066514	30412.28	2637509	75.21	2350331	67.02	59688	1.70	713742	20.35
Brasil	Norte	RO	1777225	1796460	1815278	293052	6795	382.34	16489.30	2.32	270457	1110979	62512.00	1240550	69.80	1043135	58.69	37180	2.09	189826	10.68
Brasil	Norte	RR	605761	631181	652713	133380	2082	343.70	22018.58	1.56	126934	355203	58637.48	376167	62.10	268307	44.29	10964	1.81	27513	4.54
Brasil	Sul	RS	11377239	11422973	11466630	1612300	36552	321.27	14171.28	2.27	1486527	6145500	54015.74	8948983	78.66	7923571	69.64	304620	2.68	2322601	20.41
Brasil	Sul	SC	7164788	7252502	7338473	1315268	20295	283.26	18357.39	1.54	1241428	2568392	35847.42	5826378	81.32	5018558	70.04	261793	3.65	972611	13.57
Brasil	Nordeste	SE	2298696	2318822	2338474	280588	6067	263.93	12206.40	2.16	271802	604183	26283.73	1754788	76.34	1543946	67.16	40125	1.74	282882	12.30
Brasil	Sudeste	SP	45919049	46289333	46649132	4513255	155858	339.42	9828.72	3.45	4270000	19501783	42469.92	38470955	83.78	35867998	78.11	1196996	2.60	13813989	30.08
Brasil	Norte	TO	1572866	1590248	1607363	245897	3976	252.79	15633.69	1.62	230893	721136	45848.53	1064365	67.67	839015	53.34	36539	2.32	141963	9.02

Nossa base de dados também possui um dicionário (descrição dos dados) que contém 22 variáveis. É possível navegar em 3 abas, se for optado por mostrar 10 entradas ou, então, escolher mostrar 25 entradas — através do “show 10 entries”, alterando para 25. Além disso, caso a necessidade seja a procura por um dado específico, basta utilizar a barra de pesquisa (Search).

#Base de dados (descrição)
library(readxl)
Descricao <- read_excel("C:/Users/DELL/Downloads/covid19br-master/Descricao.xlsx")

#Manipulação da tabela
library(DT)
DT::datatable(Descricao, rownames = FALSE, colnames = "DESCRIÇÃO DOS DADOS")

Por fim, utilizamos gráficos do modelo boxplot para o cruzamento de uma variável qualitativa — Região — e outras quantitativas, sendo elas: Mortes, TotalCasos, Mortes_por_100mil_habitantes, TotalCasos_por_100mil_habitantes, TerceiraDose_por_100_habitantes e também Pop2021 . Além disso, nosso estudo também abrangeu diagramas de dispersão, matriz de correlação e testes de hipóteses.

Teste de hipóteses

Os testes de hipóteses foram feitos para entendermos a interferência da variável Região nas variáveis “Mortes”, “TotalCasos”, “Mortes_por_100mil_habitantes”, “TotalCasos_por_100mil_habitantes” e “TerceiraDose_por_100_habitantes” e também para avaliarmos a correlação entre a população em 2021 e a quantidade de óbitos e infecções por coronavírus. Para tanto, consideramos alpha = 0.05 em todos os testes realizados e definimos a regra de decisão como:

Se p-valor ≤ alpha, rejeita H0.

Se p-valor > alpha, não rejeita H0.

Dito isso, primeiramente foi feito com todas as variáveis um teste de normalidade (shapiro wilk) para a verificação desse pressuposto, adotando as seguintes hipóteses:

H0: os dados seguem uma distribuição normal.

H1: os dados não seguem uma distribuição normal.

Após verificarmos se a variável segue uma distribuição normal ou não, foram feitos os seguintes testes:

Para o cruzamento de uma variável qualitativa e outra quantitativa que não atendem ao pressuposto de normalidade, executou-se o teste de Kruskal-Wallis, adotando as hipóteses:

H0: os grupos são amostrados de populações com distribuições idênticas.

H1: os grupos são amostrados de populações com diferentes distribuições.

E depois, foi feito o teste de Comparações Múltiplas de Wilcoxon.

Já para testar a variável qualitativa Região com as variáveis quantitativas que possuem uma distribuição normal foi executado o Teste de Barlett, com as hipóteses:

H0: todas as variâncias são iguais.

H1: pelo menos uma das variâncias é diferente.

Após verificarmos que a hipótese nula não foi rejeitada, executamos o teste ANOVA, sendo adotadas as seguintes hipóteses:

H0: todas as médias são iguais.

H1: existe pelo menos uma média diferente.

Em seguida, utilizamos o teste de Comparações Múltiplas de Tukey para comparar as diferenças entre as médias e o p-valor.

Por fim, para o teste de hipóteses de duas variáveis quantitativas que não são normais, foi utilizado o método de Spearman, com os critérios:

H0: rho = 0; as variáveis não são correlacionadas.

H1: rho i= 0; as variáveis têm correlação.

Análise de Resultados e Discussões

Boxplots

Boxplot 1 - Número total de mortes por região

par(cex=0.7)
boxplot(Mortes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 1 \n Número total de mortes por região",
        ylab = "Número total de mortes", 
        xlab = "Regiões do Brasil")

No que tange a análise do Boxplot 1 - “Número total de mortes por região”, pode-se constatar que quando comparado às outras regiões brasileiras, o Sudeste é aquele que não só apresenta maior dispersão de seus dados e amplitude interquartil — referente ao tamanho da caixa —, como também foi o mais atingido em relação ao número total de óbitos, tendo algum de seus estados atingido mais de 150.000 mortes.

As demais regiões, por sua vez, possuem pouca variabilidade e sofreram menor impacto da pandemia, visto que nenhum estado presente dessas regiões registrou mais de 50.000 mortes. Além disso, a região Norte, dentre todas, foi a que menos sofreu fatalidades pela doença. Para mais, vale ressaltar que o gráfico não contém a presença de outliers — os famosos “pontos fora da curva” — e todos apresentam uma concentração de dados assimétricos, ou seja, a mediana (linha preta) não se encontra no centro de nenhuma das caixas.

Boxplot 2 - Número total de casos por região

par(cex=0.7)
boxplot(TotalCasos~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 2 \n Número total de casos por região",
        ylab = "Número total de casos", 
        xlab = "Regiões do Brasil")

options(scipen = 999)

Apesar de grande semelhança com o gráfico anterior, o boxplot 2 que trata do número total de casos por região possui algumas dissemelhanças as quais devem ser levadas em conta. A começar pelo Sul, ainda que tenha diminuído a proporção de dispersão dos seus dados, a região sofreu aumento no total de casos quando comparado ao total de mortes — isso, em tese, tende a ser um fator positivo, dado que, embora mais casos o Sul obteve menos fatalidades.

Equitativamente, o Sudeste permanece sendo a região mais atingida pela pandemia, não só pelo grande número de óbitos, como agora com grande volume no número total de casos — sendo superior a marca de 4 milhões. É possível também observar no Nordeste a presença de um outlier, ou seja, existe um estado presente nesta região que registrou um número tão discrepante de casos em relação aos demais, que não aparece dentro do limite de detecção desses valores.

O Norte apresenta a mediana mais centralizada e uma notável simetria, divergente de todas as outras regiões que são assimétricas. Com exceção do outlier encontrado no Nordeste, seus outros estados, o Centro-Oeste e o Norte não registraram mais de 1 milhão de casos, demonstrando que foram menos atingidos quando comparados às regiões Sudeste e Sul.

Boxplot 3 - Número de mortes por 100 mil habitantes em cada região do Brasil

par(cex=0.7)
boxplot(Mortes_por_100mil_habitantes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 3 \n Número de mortes por 100 mil habitantes em cada região do Brasil",
        ylab = "Mortes por 100 mil habitantes", 
        xlab = "Regiões do Brasil")

Já neste Boxplot 3, quando comparamos o número de mortes por 100 mil habitantes com seu total em cada região do Brasil, fica notório uma drástica mudança. Se antes, a região Sudeste foi a mais atingida e apresentava maior amplitude, agora, a região Norte é aquela que apresenta maior variabilidade e um número considerável de mortes em algum de seus estados — entre 350 e 400.

Outrossim, o Centro-Oeste se encontra na parte superior da tabela, demonstrando que além de pouco desvio-padrão, detém a maior letalidade pelo Covid-19 em relação a 100 mil habitantes, tendo todos os seus estados atingindo acima de 350 mortes. O Sudeste também possui uma alta taxa de mortalidade, chegando a atingir a marca de 400 mortes por 100 mil habitantes em um de seus estados. O Sul, porventura, segue o mesmo caminho mantendo um considerável índice, dado a sua curta dispersão, ainda que não seja o mais evidente entre as regiões.

Neste gráfico não há a presença de outliers. Ademais, o Nordeste é a região com menos óbitos em relação à população e, assim como Centro-Oeste e Norte — ainda que bem leve — apresenta uma distribuição assimétrica de seus dados, diferente do Sudeste e Sul — ambos com simetria.

Boxplot 4 - Número de casos por 100 mil habitantes em cada região do Brasil

par(cex=0.7)
boxplot(TotalCasos_por_100mil_habitantes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 4 \n Número de casos por 100 mil habitantes em cada região do Brasil",
        ylab = "Casos por 100 mil habitantes", 
        xlab = "Regiões do Brasil")

No quarto boxplot, que trata do número de casos por 100 mil habitantes em cada região do Brasil, temos que Norte é o estado que possui um número máximo e mínimo bem espaçado, além de maior amplitude interquartil, demonstrando ser o único com mais de 20 mil casos pela população. A região Centro-Oeste e Sul, se encontram em um patamar muito semelhante, ainda que suas caixas denotem diferença de tamanho. O primeiro teria maior dispersão dos dados, enquanto a variabilidade do segundo é mais estreita.

Contudo, uma métrica que chama a atenção é o Sudeste, pois quando comparado aos boxplots anteriores, sempre esteve em evidência com seus altos índices de dispersão ou forte presença — de modo negativo — na parte superior. Neste gráfico, porém, ele se mantém próximo a área central, com uma variabilidade dos dados similar ao Norte e próximo do seu valor mínimo encontrado. Além disso, a região Nordeste apresenta menor número de casos proporcionais ao seu número de habitantes. Por fim, todas as regiões contém assimetria e nenhuma possui a presença de outliers.

Boxplot 5 - Porcentagem da população vacinada com a 3ª dose por região

par(cex=0.7)
boxplot(TerceiraDose_por_100_habitantes~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 5 \n Porcentagem da população vacinada com a 3ª dose por região",
        ylab = "Terceira dose (%)", 
        xlab = "Regiões do Brasil")

Este quinto boxplot que trata da porcentagem da população vacinada com a 3ª dose por região, demonstra explicita diferenciação dos demais já apresentados. A começar pelo Centro-Oeste que possui maior destaque, com grande dispersão de dados e amplitude interquartil, tendo estados com quase 30% da população vacinada com tal dose e outros que não atingiram os 10%.

O Sudeste, por sua vez, é a região mais avançada, possuindo todos os seus estados com, no mínimo, 15% da vacinação em dia — além de um deles já ter ultrapassado a marca de 30%. Em oposição a isso, temos o Norte sendo o mais atrasado, com nenhum de seus estados atingido ao menos 15% da vacinação.

Já o Nordeste e o Sul se encontram mais no centro do gráfico, embora o primeiro ainda tenha um desempenho inferior, com alguns estados abaixo de 10%. Nenhuma região contém outliers e todas possuem assimetria de dados.

Boxplot 6 - População de 2021 em cada região do Brasil

par(cex=0.7)
boxplot(Pop2021~Regiao, data = DadosCovid,
        col=c("#b12740"),
        main= "Boxplot 6 \n População de 2021 em cada região do Brasil",
        ylab = "População de 2021", 
        xlab = "Regiões do Brasil")

O último boxplot compara o tamanho da população de 2021 em cada região do Brasil. O Sudeste, sem dúvidas, é aquele que concentra a maior parte da população brasileira, ao concentrar maior dispersão de dados e amplitude interquartil, além de demonstrar que um de seus estados possui mais de 40 milhões de pessoas.

Ademais, todas as regiões possuem assimetria e, no que concerne as que se concentram na parte inferior do gráfico, com exceção do Nordeste, todas possuem uma dispersão de dados baixa. Por fim, o Norte é o único que apresenta um outlier, ou seja, um de seus estados possui um número tão elevado de indivíduos — ultrapassa a marca de 1 milhão — em comparação aos outros, que não aparece dentro do limite de detecção desses valores.

Diagrama de dispersão e matriz de correlação

Diagrama de dispersão 1 - Total de casos e total de mortes por 100 mil habitantes

par(bg = "white")
par(cex=0.85)
plot(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes, 
     pch = 16, col = "#b12740",
     main = "Diagrama de dispersão 1 \n Total de Casos e Total de Mortes por 100 mil habitantes ",
     xlab = "Total de Casos por 100 mil habitantes",
     ylab = "Total de Mortes por 100 mil habitantes")
abline(lsfit(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes),
       col="#052a83")

cor(DadosCovid$TotalCasos_por_100mil_habitantes,DadosCovid$Mortes_por_100mil_habitantes)

## [1] 0.6120991

#nível de correlação → 0.6120991
#considerado grau moderado de associação

library(corrplot)

## corrplot 0.92 loaded

par(cex=0.7)
cor1 <- cor(DadosCovid[,c("Mortes_por_100mil_habitantes","TotalCasos_por_100mil_habitantes")])
corrplot.mixed(cor1)

O diagrama de dispersão 1 e a matriz de correlação mostram que a relação entre as variáveis “TotalCasos_por_100mil_habitantes” e “Mortes_por_100mil_habitantes” é linear, positiva e de grau moderado, com seu índice de associação igual a 0.61. Isso significa que quando a quantidade de casos/100 mil hab. aumenta, o número de óbitos/100 mil hab. também tende a crescer, porém, como não existe uma forte concentração entre os pontos, outras variáveis podem estar envolvidas.

Diagrama de dispersão 2 - Total de casos por total de mortes

par(cex=0.85)
plot(DadosCovid$TotalCasos, DadosCovid$Mortes, 
     pch = 16, col = "#b12740",
     main = "Diagrama de dispersão 2 \n Total de Casos por Total de Mortes",
     xlab = "Total de Casos",
     ylab = "Total de Mortes ")
abline(lsfit(DadosCovid$TotalCasos,DadosCovid$Mortes),
       col="#052a83")

cor(DadosCovid$TotalCasos, DadosCovid$Mortes)

## [1] 0.9613614

#nível de correlação → 0.9613614
#considerado grau excelente de associação

library(corrplot)
cor2 <- cor(DadosCovid[,c("Mortes","TotalCasos")])
corrplot.mixed(cor2)

Já diferentemente do diagrama 1, no diagrama de dispersão das variáveis “TotalCasos” e “Mortes” há uma relação positiva e linear, com grande concentração entre os pontos, embora seja possível observar que existe um muito disperso dos demais. Além disso, a matriz de correlação indica que o grau de associação é excelente, correspondendo a aproximadamente 0.96, portanto, pode-se afirmar que essa pouca dispersão nos dados e o alto índice de correlação significam que há uma tendência muito clara de que o total de casos e de mortos pela Covid-19 aumentam ou diminuem em conjunto.

Teste de Hipóteses

Teste de Hipóteses 1 - Pop2021 x Mortes e Pop2021 x TotalCasos

A priori, executamos o teste Shapiro Wilk para verificar se as variáveis são normais ou não.

# Teste de normalidade

# H0 = Os dados seguem uma distribuição normal
# H1 = Os dados nao seguem uma distribuicao normal
# alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

shapiro.test(DadosCovid$Mortes)

## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$Mortes
## W = 0.61398, p-value = 0.0000003023

#p-value = 3.023e-07
# pvalor < alpha -> Rejeito H0

shapiro.test(DadosCovid$Pop2021)

## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$Pop2021
## W = 0.67249, p-value = 0.000001643

#p-value = 1.643e-06
# pvalor < alpha -> Rejeito H0 

shapiro.test(DadosCovid$TotalCasos)

## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$TotalCasos
## W = 0.71261, p-value = 0.000005835

#p-value = 5.835e-06
# pvalor < alpha -> Rejeito H0 

# As variaveis nao possuem distribuicao normal.

Como pvalor < alpha em todas as 3 variáveis, a hipótese nula foi rejeitada e por isso executou-se o teste de Spearman.

# 2. Spearman

# H0: rho = 0; nao sao correlacionadas
# H1: rho i= 0; tem correlacao
# alpha = 0.05 
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

cor.test(DadosCovid$Pop2021,DadosCovid$Mortes, method = "spearman", conf.level = 0.95)

## 
##  Spearman's rank correlation rho
## 
## data:  DadosCovid$Pop2021 and DadosCovid$Mortes
## S = 142, p-value = 0.0000003038
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9566545

rho = 0.9566545 

cor.test(DadosCovid$Pop2021,DadosCovid$TotalCasos, method = "spearman", conf.level = 0.95)

## 
##  Spearman's rank correlation rho
## 
## data:  DadosCovid$Pop2021 and DadosCovid$TotalCasos
## S = 232, p-value = 0.0000006441
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9291819

rho = 0.9291819

Considerando que o número de mortes por Covid-19 seja a variável independente e o total da população em 2021 seja a variável dependente, a hipótese de que as regiões com maior número de habitantes foram as que tiveram uma maior quantidade de óbitos pelo vírus não deve ser rejeitada, tendo em vista que o coeficiente de correlação de Spearman é positivo. Ademais, o rho sendo próximo de 1 indica que as duas variáveis estão fortemente correlacionadas.

Vale ressaltar que a mesma situação ocorre quando aplicamos o teste na variável TotalCasos e Pop2021: ambas apresentam forte grau de associação e a hipótese nula H0 não é rejeitada, visto que rho é diferente de 0.

Teste de Hipóteses 2 - Regiao x Mortes

Foi executado o teste de Shapiro Wilk para os resíduos das variáveis Mortes e Região.

# Teste de hipóteses regiaoxmortes 

modelo1 <- aov(Mortes ~ Regiao, data = DadosCovid)

residuos1 <- residuals(modelo1)
residuos1

##            1            2            3            4            5            6 
##  -4983.14286  -7005.22222   7022.85714  -4805.14286  14292.77778  11513.77778 
##            7            8            9           10           11           12 
##  -3826.25000 -60538.00000   9833.75000  -2975.22222 -17090.00000  -5193.25000 
##           13           14           15           16           17           18 
##   -814.25000  10423.85714  -3782.22222   7155.77778  -6073.22222   8351.66667 
##           19           20           21           22           23           24 
##  -4307.00000  -5791.22222    -42.14286  -4755.14286   3952.66667 -12304.33333 
##           25           26           27 
##  -7335.22222  81935.00000  -2861.14286

# 1. Teste de normalidade
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
#Se pvalor < alpha REJ H0
#Se pvalor > NÃO REJ H0

shapiro.test(residuos1)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos1
## W = 0.69553, p-value = 0.000003363

#p-value = 0.000003363
# pvalor < alpha Rej H0
# Pressuposto de normalidade violado

Tendo em vista que pvalor < alpha, os dados não seguem uma distribuição normal e deve ser executado, em seguida, o teste de Kruskal-Wallis, para saber se a variável Região interfere na variável Mortes.

# 2. Teste de Kruskal-Wallis 
# H0: os grupos são amostrados de populações com distribuições idênticas. 
# H1: os grupos são amostrados de populações com diferentes distribuições.
kruskal.test(Mortes ~ Regiao, data = DadosCovid)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Mortes by Regiao
## Kruskal-Wallis chi-squared = 13.795, df = 4, p-value = 0.007977

#p-value = 0.007977
# pvalor < alpha Rej H0

# 3. Teste de Comparações Múltiplas de Wilcoxon 

WT1 <- pairwise.wilcox.test(DadosCovid$Mortes, DadosCovid$Regiao)
WT1

## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  DadosCovid$Mortes and DadosCovid$Regiao 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.80         -        -     -      
## Norte    0.55         0.45     -     -      
## Sudeste  0.55         0.18     0.19  -      
## Sul      0.55         0.45     0.17  0.80   
## 
## P value adjustment method: holm

Como pvalor é menor que 0.05, a hipótese nula foi rejeitada. Portanto, os grupos são amostrados de populações com diferentes distribuições, logo, a quantidade de mortes por covid-19 não possui distribuição semelhante entre todas as regiões e por isso, pode-se afirmar que o fator região exerce influência sobre essa variável.

A partir da matriz do Teste de Wilcoxon é possível observar que todos os pares de regiões possuem distribuição da variável em média semelhante, uma vez que quando comparadas uma com a outra, pvalor > 0.05.

Teste de Hipóteses 3 - Regiao x TotalCasos

Para o cruzamento das variáveis Região e TotalCasos também foi executado o teste de Shapiro Wilk.

# Teste de hipóteses regiaoxtotalcasos 

modelo2 <- aov(TotalCasos ~ Regiao, data = DadosCovid)

residuos2<- residuals(modelo2)
residuos2

##            1            2            3            4            5            6 
##  -193290.429  -313946.222   173818.571  -153350.429   733811.778   420240.778 
##            7            8            9           10           11           12 
##   -74861.000 -1577639.250   351963.000  -185371.222   123712.750  -232934.000 
##           13           14           15           16           17           18 
##   -44168.000   351261.571   -91453.222    96685.778  -215286.222   177187.333 
##           19           20           21           22           23           24 
##  -800000.250  -164812.222     9462.571  -150209.429    59922.333  -237109.667 
##           25           26           27 
##  -279869.222  2253926.750   -37692.429

# Teste de normalidade
#H0: os dados seguem uma distribuição normal
#H1: os dados não seguem uma distrbuição normal
#alpha: 0,05
#Se pvalor < alpha REJ H0
#Se pvalor > NÃO REJ H0

shapiro.test(residuos2)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos2
## W = 0.7828, p-value = 0.00006993

#p-value = 0.00006993
# pvalor < alpha Rej H0
# Pressuposto de normalidade violado

O teste de Shapiro Wilk nos resíduos das variáveis mencionadas anteriormente indicou que pvalor<alpha, então o pressuposto de normalidade foi violado. Portanto, executou-se o teste de Kruskal-Wallis.

# 2. Teste de Kruskal-Wallis
# H0: os grupos são amostrados de populações com distribuições idênticas. 
# H1: os grupos são amostrados de populações com diferentes distribuições.
kruskal.test(TotalCasos ~ Regiao, data = DadosCovid)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  TotalCasos by Regiao
## Kruskal-Wallis chi-squared = 17.017, df = 4, p-value = 0.001918

#p-value = 0.001918

# 3. Teste de Comparações Múltiplas de Wilcoxon

WT2 <- pairwise.wilcox.test(DadosCovid$TotalCasos, DadosCovid$Regiao)
WT2

## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  DadosCovid$TotalCasos and DadosCovid$Regiao 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 1.000        -        -     -      
## Norte    0.329        0.329    -     -      
## Sudeste  0.329        0.090    0.061 -      
## Sul      0.329        0.082    0.117 1.000  
## 
## P value adjustment method: holm

No Teste de Kruskal-Wallis pvalor deu um número menor que alpha, portanto a hipótese nula foi rejeitada. Dito isso, os grupos são amostrados de populações com diferentes distribuições, logo, o total de casos de covid-19 não possui distribuição semelhante entre todas as regiões e por isso, pode-se afirmar que assim como na variável Mortes, o fator região exerce influência sobre a quantidade de casos da doença.

Teste de Hipóteses 4 - Regiao x Mortes_por_100mil_habitantes

A princípio foi feito um teste de normalidade (Shapiro Wilk) entre as variáveis Regiao e Mortes por 100 mil habitantes.

shapiro.test(DadosCovid$Mortes_por_100mil_habitantes)

## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$Mortes_por_100mil_habitantes
## W = 0.95108, p-value = 0.2277

#p-value = 0.2277
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

#Para dados que seguem uma distribuição normal

modelo3 <- aov(Mortes_por_100mil_habitantes~Regiao, data=DadosCovid)
residuos3 <- residuals(modelo3)
residuos3

##           1           2           3           4           5           6 
## -70.4028571 -25.8188889  53.7871429 -40.3628571 -31.2888889  55.3411111 
##           7           8           9          10          11          12 
##  -0.7425000  -2.9750000 -16.6925000 -70.1288889 -67.5750000 -18.5425000 
##          13          14          15          16          17          18 
##  35.9775000 -79.9828571  21.9111111  -2.3888889   6.4111111  37.2566667 
##          19          20          21          22          23          24 
##  67.1750000  -0.4688889 101.7171429  63.0771429   0.3766667 -37.6333333 
##          25          26          27 
##  46.4311111   3.3750000 -27.8328571

shapiro.test(residuos3)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos3
## W = 0.97227, p-value = 0.6626

# p-value = 0.6626
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

Pvalor > alpha, ou seja, não rejeito H0. Como os dados seguem uma distribuição normal, será feito o Teste de Bartlett.

# Teste de Bartlett

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

bartlett.test(residuos3~DadosCovid$Regiao)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos3 by DadosCovid$Regiao
## Bartlett's K-squared = 4.4977, df = 4, p-value = 0.3428

#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguais

Verificou-se através deste teste de homogeneidade das variâncias para os resíduos que pvalor > alpha. Desse modo, não se rejeita H0 e todas as variâncias são iguais. Logo será feito a ANOVA.

#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0

modelo4 <- aov(Mortes_por_100mil_habitantes~Regiao, data= DadosCovid)
modelo4

## Call:
##    aov(formula = Mortes_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## Terms:
##                   Regiao Residuals
## Sum of Squares  84276.51  57106.06
## Deg. of Freedom        4        22
## 
## Residual standard error: 50.94831
## Estimated effects may be unbalanced

summary(modelo4)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Regiao       4  84277   21069   8.117 0.000353 ***
## Residuals   22  57106    2596                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# pvalor = 0.000353
#pvalor < alpha Rej H0
#Existe pelo menos uma região com média diferente

Rejeitamos H0, dado que pvalor — indicado como Pr(>F) neste teste — é < alpha. A ANOVA indicou que existe pelo menos uma região com média diferente, sendo assim, seguimos realizando o Teste de Tukey para descobrir qual média se dissemelha das demais.

# Teste de Tukey
#Qual a média que é diferente das demais?
TukeyHSD(modelo4)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Mortes_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## $Regiao
##                             diff         lwr        upr     p adj
## Nordeste-Centro-Oeste -152.43361 -243.271006 -61.596216 0.0004834
## Norte-Centro-Oeste     -89.30964 -184.055793   5.436508 0.0710600
## Sudeste-Centro-Oeste   -33.88750 -140.775573  73.000573 0.8778838
## Sul-Centro-Oeste       -49.03917 -164.491481  66.413148 0.7171548
## Norte-Nordeste          63.12397  -13.054803 139.302739 0.1371117
## Sudeste-Nordeste       118.54611   27.708716 209.383506 0.0066296
## Sul-Nordeste           103.39444    2.619403 204.169486 0.0424772
## Sudeste-Norte           55.42214  -39.324008 150.168293 0.4340664
## Sul-Norte               40.27048  -64.041602 144.582555 0.7810386
## Sul-Sudeste            -15.15167 -130.603981 100.300648 0.9947698

Primeiramente, é importante destacar que o valor de p adj, refere-se ao pvalor. O Teste de Tukey evidenciou que referente ao número de mortes por 100 mil habitantes em relação a região, as médias que se mostram diferentes possuem pvalor < 0.05. Dito isso, são elas: Nordeste-Centro-Oeste, Sudeste-Nordeste e Sul-Nordeste. Logo, todos os demais possuem uma distribuição de média similar, já que pvalor > 0.05.

Teste de Hipóteses 5 - Regiao x TotalCasos_por_100mil_habitantes

Agora fez-se um teste de normalidade (Shapiro Wilk) entre as variáveis Regiao e Total de casos por 100 mil habitantes

#Teste de normalidade (Shapiro Wilk)

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

shapiro.test(DadosCovid$TotalCasos_por_100mil_habitantes)

## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$TotalCasos_por_100mil_habitantes
## W = 0.97825, p-value = 0.8209

# p-value = 0.8209
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

#Para dados que seguem uma distribuição normal

modelo6 <- aov(TotalCasos_por_100mil_habitantes~Regiao, data=DadosCovid)
residuos6 <- residuals(modelo6)
residuos6

##          1          2          3          4          5          6          7 
## -3789.2129 -2025.9122 -2991.7029  1371.6271  -710.2222  1326.7178  2517.3650 
##          8          9         10         11         12         13         14 
##  5337.6975 -1836.7750 -4110.8922  -368.1025 -1615.1550   934.5650 -6648.4229 
##         15         16         17         18         19         20         21 
##  2259.8778 -2536.3322  1132.9578  -758.5167 -3172.8825  1869.7278  2461.3471 
##         22         23         24         25         26         27 
##  7990.6271 -1713.7967  2472.3133  2794.0778 -1796.7125  1605.7371

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05

shapiro.test(residuos6)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos6
## W = 0.97174, p-value = 0.6482

#p-value = 0.6482
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

Constatou-se que pvalor > alpha, ou seja, H0 não é rejeitado e os dados seguem uma distribuição normal. Logo, será feito um Teste de Bartlett.

# Teste de Bartlett

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

bartlett.test(residuos6~DadosCovid$Regiao)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos6 by DadosCovid$Regiao
## Bartlett's K-squared = 4.5722, df = 4, p-value = 0.3341

#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguais

Como pvalor > alpha, percebe-se que todas as variâncias são iguais, pois não se rejeita H0. Sendo assim será feito a ANOVA.

# ANOVA
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0

modelo7 <- aov(TotalCasos_por_100mil_habitantes~Regiao, data= DadosCovid)
modelo7

## Call:
##    aov(formula = TotalCasos_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## Terms:
##                    Regiao Residuals
## Sum of Squares  182319471 254012436
## Deg. of Freedom         4        22
## 
## Residual standard error: 3397.943
## Estimated effects may be unbalanced

summary(modelo7)

##             Df    Sum Sq  Mean Sq F value Pr(>F)  
## Regiao       4 182319471 45579868   3.948 0.0146 *
## Residuals   22 254012436 11546020                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# PR(>F) pvalor = 0.0146
#pvalor < alpha Rej H0
#Existe pelo menos uma média diferente

Uma vez que pvalor < alpha, rejeita H0 e observa-se que existe pelo menos uma média diferente. Logo, descobriremos a média diferente das demais através do Teste de Tukey.

#Qual a média que é diferente das demais?
TukeyHSD(modelo7)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = TotalCasos_por_100mil_habitantes ~ Regiao, data = DadosCovid)
## 
## $Regiao
##                             diff         lwr        upr     p adj
## Nordeste-Centro-Oeste -6366.5228 -12424.8269  -308.2186 0.0362649
## Norte-Centro-Oeste    -1750.8921  -8069.8866  4568.1023 0.9209490
## Sudeste-Centro-Oeste  -4153.4125 -11282.1997  2975.3747 0.4379578
## Sul-Centro-Oeste        106.2317  -7593.7385  7806.2018 0.9999993
## Norte-Nordeste         4615.6306   -465.0321  9696.2933 0.0870601
## Sudeste-Nordeste       2213.1103  -3845.1939  8271.4144 0.8127997
## Sul-Nordeste           6472.7544   -248.3305 13193.8394 0.0627885
## Sudeste-Norte         -2402.5204  -8721.5148  3916.4741 0.7901936
## Sul-Norte              1857.1238  -5099.8601  8814.1077 0.9302079
## Sul-Sudeste            4259.6442  -3440.3260 11959.6143 0.4883142

Por meio desse teste, descobrimos que a única média diferente é a relação entre Nordeste-Centro-Oeste. Dessa maneira, quando tratamos do total de casos por 100 mil habitantes, fica claro que as demais relações entre as regiões possuem uma distribuição de média semelhante.

Teste de Hipóteses 6 - Regiao x TerceiraDose_por_100_habitantes

Realizando o último teste de hipóteses entre Região e Porcentagem da terceira dose, através do Teste de normalidade (Shapiro Wilk).

#Teste de normalidade (Shapiro Wilk)

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Se pvalor < alpha Rej H0
# Se pvalor > alpha NÃO Rej H0

shapiro.test(DadosCovid$TerceiraDose_por_100_habitantes)

## 
##  Shapiro-Wilk normality test
## 
## data:  DadosCovid$TerceiraDose_por_100_habitantes
## W = 0.95156, p-value = 0.2339

# p-value = 0.2339
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

#Para dados que seguem uma distribuição normal

modelo8 <- aov(TerceiraDose_por_100_habitantes~Regiao, data=DadosCovid)
residuos8 <- residuals(modelo8)
residuos8

##          1          2          3          4          5          6          7 
## -0.8842857 -3.8200000  5.6057143 -3.6542857 -1.3400000  4.4600000  3.1150000 
##          8          9         10         11         12         13         14 
##  1.1875000 -5.9050000 -5.9000000 -2.7525000 11.1650000 -8.3750000 -1.0542857 
##         15         16         17         18         19         20         21 
## -1.3900000  3.3300000 -0.9500000 -0.3333333 -6.2825000  6.8300000  2.5957143 
##         22         23         24         25         26         27 
## -3.5442857  3.5866667 -3.2533333 -1.2200000  7.8475000  0.9357143

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05

shapiro.test(residuos8)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos8
## W = 0.97606, p-value = 0.7647

#p-value = 0.7647
# pvalor > alpha NÃO Rej H0
# Os dados seguem uma distribuicao normal

Como Pvalor > alpha, não se rejeita H0 e os dados seguem uma distribuição normal. Desse modo, realizamos um Teste de Bartlett.

# Teste de Bartlett

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

bartlett.test(residuos8~DadosCovid$Regiao)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos8 by DadosCovid$Regiao
## Bartlett's K-squared = 5.2583, df = 4, p-value = 0.2618

#p-value = 0.3428
#pvalor > alpha NÃO Rej H0
#todas as variâncias são iguais

Todas as variâncias são mostram iguais. Posto que pvalor > alpha, H0 não é rejeitado. Então, seguimos fazendo a ANOVA.

# ANOVA
#H0: médias das regiões são iguais
#H1: há pelo menos uma média diferente
#alpha: 0,05
# Se pvalor < alpha REJ H0
# Se pvalor > NÃO REJ H0

modelo9 <- aov(TerceiraDose_por_100_habitantes~Regiao, data= DadosCovid)
modelo9

## Call:
##    aov(formula = TerceiraDose_por_100_habitantes ~ Regiao, data = DadosCovid)
## 
## Terms:
##                   Regiao Residuals
## Sum of Squares  587.2136  572.9660
## Deg. of Freedom        4        22
## 
## Residual standard error: 5.103323
## Estimated effects may be unbalanced

summary(modelo9)

##             Df Sum Sq Mean Sq F value Pr(>F)   
## Regiao       4  587.2  146.80   5.637 0.0028 **
## Residuals   22  573.0   26.04                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# PR(>F) pvalor = 0.0028
#pvalor < alpha Rej H0
#Existe pelo menos uma média diferente

A ANOVA indica que existe pelo menos uma média diferente, por isso rejeitamos H0, visto que pvalor < alpha. Por conseguinte, fazemos um Teste de Tukey para descobrir a média que se difere das demais.

#Qual a média que é diferente das demais?
TukeyHSD(modelo9)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = TerceiraDose_por_100_habitantes ~ Regiao, data = DadosCovid)
## 
## $Regiao
##                             diff         lwr         upr     p adj
## Nordeste-Centro-Oeste -3.9650000 -13.0638816  5.13388157 0.6981182
## Norte-Centro-Oeste    -9.4007143 -18.8911229  0.08969437 0.0530240
## Sudeste-Centro-Oeste   4.7475000  -5.9591249 15.45412493 0.6847249
## Sul-Centro-Oeste      -0.6616667 -12.2261433 10.90280999 0.9997980
## Norte-Nordeste        -5.4357143 -13.0662900  2.19486138 0.2497839
## Sudeste-Nordeste       8.7125000  -0.3863816 17.81138157 0.0649323
## Sul-Nordeste           3.3033333  -6.7909695 13.39763612 0.8652452
## Sudeste-Norte         14.1482143   4.6578056 23.63862295 0.0018111
## Sul-Norte              8.7390476  -1.7095484 19.18764367 0.1313743
## Sul-Sudeste           -5.4091667 -16.9736433  6.15530999 0.6414476

Enfim, por meio do resultado do Teste de Tukey, descobrimos que a relação Sudeste-Norte é a média diferente das demais. Portanto, é possível explicitar que a distribuição de média é similar entre as regiões em relação ao teste de hipóteses realizado sobre a porcentagem da terceira dose por região.

Conclusão

A partir dos resultados obtidos, conclui-se que a Covid-19, no que tange ao número total de óbitos e de casos da doença, atingiu de forma diferente cada uma das 5 regiões do Brasil, pois através dos testes de hipóteses foi possível concluir que a variável qualitativa Região interfere nas variáveis quantitativas Mortes, TotalCasos, Mortes por 100 mil habitantes e TotalCasos por 100 mil habitantes. Além disso, tendo como métrica a porcentagem da população vacinada com a terceira dose para analisar o avanço da vacinação por região, foi possível observar que estas se encontram em diferentes estágios. Nesse sentido, os gráficos do tipo boxplot foram utilizados para expressar visualmente tais disparidades.

Outrossim, a hipótese de que o número total de casos e a quantidade de mortes estão correlacionadas se confirma pela matriz de correlação, que apontou excelente grau de associação entre elas, indicando que essas variáveis aumentam ou diminuem em conjunto. Entretanto, quando analisadas as variáveis “Mortes_por_100mil_habitantes” e “TotalCasos_por_100mil_habitantes” o resultado obtido foi que não existe uma forte correlação entre os dados, portanto outros fatores podem estar envolvidos.

Ainda no que diz respeito à variável população em 2021 e a quantidade de mortes e de casos de coronavírus até janeiro de 2022, era de se esperar uma forte associação entre esses índices e o tamanho populacional. Nesse sentido, essa hipótese foi confirmada pelo teste de Spearman, que indicou um coeficiente de correlação próximo a 1, para ambos os casos. Assim, pode-se concluir que as regiões com maior número de habitantes foram as que tiveram uma maior quantidade de óbitos e de casos da doença.

Por fim, tendo em vista tudo o que foi mencionado neste relatório, os gráficos de dispersão e do tipo boxplot e as matrizes de correlação entre as variáveis de interesse são complementares para o entendimento dos dados, pois cada ferramenta de análise se restringe a fornecer apenas um tipo específico de informação, mas quando utilizadas em conjunto, permitem uma melhor compreensão e visualização dos resultados obtidos.

Referências Bibliográficas

Base de dados (cities_info.csv): https://github.com/wcota/covid19br/blob/master/cities_info.csv

Base de dados (cases-brazil-total.csv): https://github.com/wcota/covid19br/blob/master/cases-brazil-total.csv

Descrição dos dados: https://github.com/wcota/covid19br/blob/master/DESCRIPTION.md

INSTITUTO BUTANTAN. Entenda o que é uma pandemia e as diferenças entre surto, epidemia e endemia. Disponível em: https://butantan.gov.br/covid/butantan-tira-duvida/tira-duvida-noticias/entenda-o-que-e-uma-pandemia-e-as-diferencas-entre-surto-epidemia-e-endemia Acesso em: 11 fev.

OPAS. Histórico da pandemia de COVID-19. Organização Pan-Americana da Saúde. Disponível em: https://www.paho.org/pt/covid19/historico-da-pandemia-covid-19 Acesso em: 11 fev.

PEREIRA, Ana Cláudia. et al. Coronavírus e seu crescimento. Portal da Ciência. Universidade Federal de Lavras. Disponível em: https://ciencia.ufla.br/todas-opiniao/677-coronavirus-e-seu-crescimento Acesso em: 11 fev. 2022

UNA-SUS. Organização Mundial de Saúde declara pandemia do novo Coronavírus. Disponível em: https://www.unasus.gov.br/noticia/organizacao-mundial-de-saude-declara-pandemia-de-coronavirus Acesso em: 11 fev.