1 Introdução

Esse exercício busca realizar uma análise sobre os casos de Covid-19, causada pelo vírus SARS-CoV-2 em quatro cidades da China. Vamos analisar principalmente correlações entre certas variáveis e a quantidade de casos, as variáveis em que vamos nos concentrar são Temperatura e Umidade e como elas afetam R0 que corresponde a quantidade de casos do vírus em uma determinada data. O objetivo principal é exercitar a técnica de Regressão Simples.

1.1 Visão geral dos dados

Abaixo podemos ter uma visão bem geral dos nossos dados, observando todas as variáveis presentes nos dados. Os atributos presentes são cidade que informa a que cidade os dados daquela linha se referem, R0 que indica os números de casos em um daterminada data, além das medições da temperatura e da umidade.

## Rows: 84
## Columns: 5
## $ cidade      <chr> "Beijing", "Beijing", "Beijing", "Beijing", "Beijing", "B…
## $ data        <date> 2020-01-24, 2020-01-25, 2020-01-26, 2020-01-27, 2020-01-…
## $ R0          <dbl> 2.1558, 2.2367, 2.2915, 2.2991, 2.2949, 2.3228, 2.3238, 2…
## $ temperatura <dbl> -0.5, -2.5, -2.8, -0.8, -0.8, 0.5, -1.8, 0.5, 1.5, 0.3, -…
## $ humidade    <dbl> 50.5, 65.0, 67.3, 62.8, 62.3, 60.0, 57.0, 48.5, 24.5, 63.…

2 Analises

2.1 Analises quanto a umidade

Abaixo podemos visualizar um gráfico que informa os dados da umidade em todas as quatro cidades analisadas.

Podemos ver que a distribuição da umidade é bem semelhante em todas as quatro cidades, mas que os valores mais altos estão nas cidades de Shangai e Chengdu.

Abaixo vamos visualizar a correlação entre a umidade e o R0 para todas as cidades.

Podemos concluir após a avaliação do gráfico que a cidade que possui valores mais dispersos com relação ao comportamente do R0 em função da umidade é a cidade de Chengdu, desconsiderando esses valores distoantes, podemos observar uma correlação que parece ser linear e negativa entre essas variáveis.

Abaixo separamos a visualização por cidade para poder analisar melhor e poder tirar mais conclusões com os dados que temos.

Analisando as cidades separadamente podemos ver com mais clareza que realmente a correlação parece ser linear. Além disso, podemos tirar informações que antes não estavam tão claras, como a correlação referente a cidade de Chengdu ser positiva e não negativa como nas outras três cidades. Podemos ver também a presença de dois pontos extremos mínimos na cidade de Guangzhou.

2.1.1 Análise da umidade referente a Chengdu

Agora vamos nos concetrar nossas análises nos dados da cidade de Chengdu que curiosamente é a única onde a correlação é positiva.

Abaixo temos uma visualização separada do gráfico referente a Chengdu.

## Warning in f(...): The default behavior of beeswarm has changed in version
## 0.6.0. In versions <0.6.0, this plot would have been dodged on the y-axis. In
## versions >=0.6.0, grouponX=FALSE must be explicitly set to group on y-axis.
## Please set grouponX=TRUE/FALSE to avoid this warning and ensure proper axis
## choice.

No gráfico acima podemos ver com mais clareza que a relação aparenta ser linear e positiva, mas que os pontos estão bem dispersos nessa relação.

## # A tibble: 1 x 1
##   coeficiente
##         <dbl>
## 1       0.619

O coeficiente de correlação calculado acima utilizando o método de Pearson resultou em um valor que indica que a relação tem uma força média.

## # A tibble: 2 x 5
##   term        estimate std.error statistic  p.value
##   <chr>          <dbl>     <dbl>     <dbl>    <dbl>
## 1 (Intercept)  1.65      0.103       16.0  1.77e-12
## 2 humidade     0.00466   0.00136      3.43 2.79e- 3
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df logLik   AIC   BIC
##       <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>  <dbl> <dbl> <dbl>
## 1     0.383         0.350 0.0593      11.8 0.00279     2   30.6 -55.2 -52.1
## # … with 2 more variables: deviance <dbl>, df.residual <int>

A regressão linear simples foi utilizada para analisar a associação entre o R0 e a humidade. Os resultados da regressão indicam que um modelo no formato \(R0 = 0,004.umidade + 1.65\) explicam 38,27% da variância da variável de resposta (\(R^2 = 0,3827\)). O aumento de 1 unidade de humidade medida em (%) produz uma mudança de 0.004 em R0. Portanto, embora exista uma relação entre a umidade e o R0, o efeito da umidade sobre o R0 é muito baixo.

Como podemos ver no gráfico acima existem muitos pontos distantes da reta que representa o nosso modelo, isso mostra como o modelo explica pouco do que acontece na relação analisada.

2.2 Analise quanto a temperatura

Abaixo podemos visualizar um gráfico que informa os dados da umidade em todas as quatro cidades analisadas.

Com base no gráfico acima, podemos concluir que a cidade com as menores temperaturas é Beijing, enquanto que Guangzhou tem as maiores temperaturas. Além disso podemos destacar que as temperaturas em Shangai e Chengdu são semelhantes, sendo Chengdu um pouco mais quente.

No gráfico acima que representa a correlação entre R0 e a Temperatura em todas as cidades podemos observar que a correlação parece ser negativa e linear.

No gráfico acima podemos visualizar a correlação por cidade, dessa forma podemos obter mais informações, além de reforçar a observação anterior de que a relação é negativa. Por exemplo, em Beijing a relação não é muito constante há uma faixa de valores subindo e outra descendo. A relação parece ser semelhante em duas cidades: Shangai e Chengdu, isso reforça a observação anterior de que as temperaturas dessas duas cidades são semelhantes, além disso, essas duas cidades parecem pussuir as relações mais lineares dentre as quatro analisadas.

2.2.1 Análise da temperatura referente a Chengdu

Vamos nos concentrar na cidade de Chengdu a partir de agora.

Analisando separadamente é masi claro que existem alguns pontos dispersos na relação, mas que a tendência é que ela se mantenha linear.

## # A tibble: 1 x 1
##   correlacao
##        <dbl>
## 1     -0.732

O coeficiente de correlação calculado acima ajuda a reforçar nossas observações de que a relação é negativa e tende a ser linear, pois o coeficiente é bem próximo de 1 o que indica também que a relação tem uma força média-alta.

## # A tibble: 2 x 5
##   term        estimate std.error statistic  p.value
##   <chr>          <dbl>     <dbl>     <dbl>    <dbl>
## 1 (Intercept)   2.26     0.0561      40.3  7.21e-20
## 2 temperatura  -0.0260   0.00556     -4.68 1.63e- 4
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df logLik   AIC   BIC
##       <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>  <dbl> <dbl> <dbl>
## 1     0.536         0.511 0.0514      21.9 1.63e-4     2   33.6 -61.2 -58.0
## # … with 2 more variables: deviance <dbl>, df.residual <int>

Regressão linear simples foi utilizada para analisar a associação entre o R0 e a temperatura. Os resultados da regressão indicam que um modelo no formato \(R0 = -0,026.temperatura + 2,26\) explica 53,55% da variância da variável de resposta (\(R^2 = 0,5355\)). O aumento de 1 unidade de humidade medida em (%) produz uma mudança de -0.026 em R0. Portanto, embora exista uma relação entre a temperatura e o R0, o efeito da temperatura sobre o R0 é muito baixo, no entando podemos ver que a influência da temperatura sobre o R0 é maior que a influência da umidade.

No gráfico acima a reta azul representa o nosso modelo, podemos ver que embora exitam pontos dispersos a tendência é que eles estejam próximos a reta da nossa função.