Nesta documento, vamos utilizar os dados de 2010-2021 e analisar as correlações entre diferentes variáveis.
Para cada cidade, temos as seguintes informações:
Através de um gráfio de pontos, podemos verificar visualmente se há uma relação linear entre a temperatura atual com a da semana passada:
clima = clima %>%
mutate(temp_semana_passada = lag(temp_media, n = 1))
clima %>%
filter(!is.na(temp_semana_passada), !is.na(temp_media)) %>%
ggplot(aes(x= temp_media, y = temp_semana_passada))+
geom_point()
Visualmente, há uma correlação positiva e linear. Agora, vamos executar os algoritmos de correlação, para confirmar nossa hipótese:
clima %>%
filter(!is.na(temp_semana_passada),!is.na(temp_media)) %>%
summarise(spearman = cor(temp_media, temp_semana_passada, method="spearman"),
kendall = cor(temp_media, temp_semana_passada, method="kendall"),
pearson = cor(temp_media, temp_semana_passada, method="pearson"))
## # A tibble: 1 x 3
## spearman kendall pearson
## <dbl> <dbl> <dbl>
## 1 0.931 0.778 0.939
Em ambos os métodos, há uma correlação, forte e positiva, entre a temperatura atual com a da semana passada. Destaque para os métodos Spearman e Pearson, que tem valores semelhantes e mais altos que o método Kendall.
Vizualiando a figura abaixo, não é possível determinar se há uma correlação entre chuva e temperatura.
clima = clima %>%
mutate(choveu = chuva != 0)
clima %>%
filter(choveu) %>%
ggplot(aes(x = temp_media, y = chuva))+
geom_point()
Mas, ao olharmos as cidades de forma separa, talvez encontremos alguma correlação. Para simplificar, vou escolher o ano de 2016 para análise, por que foi o ano que entrei no curso de computação :)
library(ggpubr)
joao_pessoa %>%
ggscatter(x = "temp_media", y = "chuva",
add = "reg.line", conf.int = TRUE,
cor.coef = TRUE, cor.method = "pearson",
xlab = "Temperatura Média", ylab = "Chuva", title = "João Pessoa", color = "seagreen")
## `geom_smooth()` using formula 'y ~ x'
campina_grande %>%
ggscatter(x = "temp_media", y = "chuva",
add = "reg.line", conf.int = TRUE,
cor.coef = TRUE, cor.method = "pearson",
xlab = "Temperatura Média", ylab = "Chuva", title = "Campina Grande", color = "mediumorchid1")
## `geom_smooth()` using formula 'y ~ x'
patos %>%
ggscatter(x = "temp_media", y = "chuva",
add = "reg.line", conf.int = TRUE,
cor.coef = TRUE, cor.method = "pearson",
xlab = "Temperatura Média", ylab = "Chuva", title = "Patos", color = "tomato")
## `geom_smooth()` using formula 'y ~ x'
Nos gráficos acima, demostra-se que há uma correlação, porém não muito forte como na análise anterior, e que o seu sinal é negativo. Portanto, quanto maior a temperatura, menor a probabilidade de grande volume de chuva.