library(tidyverse)
library(here)
library(cowplot)
theme_set(theme_bw())

Olá a todos! Esse notebook é uma continuação da serie de análise do clima de algumas cidades da Paraiba. Dentre elas, selecionamos os dados das seguinte cidades:

Campina Grande Patos João Pessoa

Para rever a parte 1, clique aqui

Vamos começar carregando nossos dados

# SEMPRE read_csv NUNCA read.csv
clima_tudo = read_csv(
    here("data/tempo-jp-cg-pt.csv"),
    col_types = cols(
        .default = col_double(),
        cidade = col_character(),
        semana = col_date(format = ""),
        ano = col_integer(),
        mes = col_integer()
    )
)

clima = clima_tudo %>% 
    filter(ano <= 2019, ano >= 2010, !is.na(temp_max))

glimpse(clima)
Rows: 1,562
Columns: 11
$ cidade      <chr> "Campina Grande", "Campina Grande", "Campina Grande", "Campina Grande", "Campina Grande"~
$ semana      <date> 2010-01-03, 2010-01-10, 2010-01-17, 2010-01-24, 2010-01-31, 2010-02-07, 2010-02-14, 201~
$ temp_max    <dbl> 31.4, 32.1, 31.0, 31.2, 32.1, 32.2, 31.3, 32.9, 34.1, 34.6, 33.0, 32.7, 32.5, 32.4, 31.8~
$ temp_media  <dbl> 25.53333, 25.60952, 24.20952, 26.06190, 26.02381, 26.04286, 25.84762, 26.95238, 27.97143~
$ temp_min    <dbl> 21.2, 21.3, 20.5, 21.2, 21.4, 20.4, 21.5, 22.1, 22.0, 21.9, 20.8, 21.1, 22.6, 22.6, 21.3~
$ vento_medio <dbl> 4.080952, 3.952381, 2.860000, 3.690476, 3.971429, 3.404762, 3.404762, 3.542857, 3.061905~
$ vento_max   <dbl> 5.3, 6.6, 5.0, 5.5, 6.5, 6.3, 5.5, 5.5, 4.0, 5.0, 7.8, 5.6, 5.1, 5.3, 5.5, 5.5, 4.5, 6.3~
$ umidade     <dbl> 76.23810, 75.95238, 85.33333, 77.80952, 76.04762, 77.76190, 80.42857, 76.04762, 71.00000~
$ chuva       <dbl> 4.7, 0.2, 69.3, 3.8, 1.2, 10.9, 2.5, 0.0, 0.0, 0.0, 0.2, 12.6, 8.4, 30.4, 12.9, 44.6, 7.~
$ ano         <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010~
$ mes         <int> 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7~
ferias = clima %>%
    filter(cidade == 'Campina Grande') %>%
    filter(mes == 1 | mes == 2 | mes == 6)

aula = clima %>% 
    filter(cidade == 'Campina Grande') %>%
    filter(mes != 1 & mes != 2 & mes != 6)

sumario_ferias = ferias %>% 
    group_by(ano) %>%
    summarise(temp_max_anual = max(temp_max),
              temp_median = quantile(temp_max, .5),
              temp_min_anual = min(temp_max),
              chuva_max = max(chuva),
              chuva_median = quantile(chuva, .5),
              chuva_min = min(chuva),
              .groups = 'drop')

sumario_aula = aula %>% 
    group_by(ano) %>%
    summarise(temp_max_anual = max(temp_max),
              temp_median = quantile(temp_max, .5),
              temp_min_anual = min(temp_max),
              chuva_max = max(chuva),
              chuva_median = quantile(chuva, .5),
              chuva_min = min(chuva),
              .groups = 'drop')

Que tal iniciarmos essa análise de uma maneira diferente ?

1. Podemos tentar observar se nos meses de férias da UFCG (local onde estudo) e na cidade de Campina Grande (local onde eu moro, ora pois), duas perguntas:

Para iniciar a análise, optei por deixar os gráficos correspondentes aos meses de férias ao lado dos meses que normalmente ocorrem as aulas, tal informação pode ser vista no eixo x do gráfico, os meses de férias escolhidos foram:

Consequentemente os outros meses foram escolhidos como os meses onde ocorrem aulas normalmente :D

  1. Quais as semelhanças e diferenças entre a temperatura e as chuvas nos meses de férias e nos meses de aula?
# Meses de Férias
plot_ferias <- ferias %>% 
    ggplot(aes(x = ano, y = temp_max)) + 
    geom_point(alpha = .75, size = .9, color = 'gray') +
    geom_point(data = sumario_ferias, aes(y = temp_max_anual), color = 'black') +
    geom_point(data = sumario_ferias, aes(y = temp_median), color = 'coral') +
    geom_point(data = sumario_ferias, aes(y = temp_min_anual), color = 'black') +
    labs(
        x = 'Meses durante as férias',
        y = 'Calor'
    )

# Meses de aula
plot_aula <- aula %>% 
    filter(mes != 1 & mes != 2 & mes != 6) %>% 
    ggplot(aes(x = ano, y = temp_max)) + 
    geom_point(alpha = .75, size = .9, color = 'gray') +
    geom_point(data = sumario_aula, aes(y = temp_max_anual), color = 'black') +
    geom_point(data = sumario_aula, aes(y = temp_median), color = 'coral') +
    geom_point(data = sumario_aula, aes(y = temp_min_anual), color = 'black') +
    labs(
        x = 'Meses durante as aulas',
        y = 'Calor'
    )

plot_grid(plot_ferias, plot_aula)

Gráfico correspondente a temperatura anual entre 2010 e 2019 para a cidade de Campina Grande

# Meses de Férias
plot_ferias <- ferias %>% 
    ggplot(aes(x = ano, y = chuva)) + 
    geom_point(alpha = .75, size = .9, color = 'steelblue') +
    geom_point(data = sumario_ferias, aes(y = chuva_max), color = 'black') +
    geom_point(data = sumario_ferias, aes(y = chuva_median), color = 'coral') +
    geom_point(data = sumario_ferias, aes(y = chuva_min), color = 'black') +
    labs(
        x = 'Meses durante as férias',
        y = 'Calor'
    )

# Meses de aula
plot_aula <- aula %>% 
    ggplot(aes(x = ano, y = chuva)) + 
    geom_point(alpha = .75, size = .9, color = 'steelblue') +
    geom_point(data = sumario_aula, aes(y = chuva_max), color = 'black') +
    geom_point(data = sumario_aula, aes(y = chuva_median), color = 'coral') +
    geom_point(data = sumario_aula, aes(y = chuva_min), color = 'black') +
    labs(
        x = 'Meses durante as aulas',
        y = 'Calor'
    )

plot_grid(plot_ferias, plot_aula)

Gráfico correspondente as chuvas anuais entre 2010 e 2019 para a cidade de Campina Grande

Algo que podemos observar nos gráficos dipostos é que durante as férias temos temperaturas mais quentes, oque é natural, já que são meses do verão. De maneira análoga, para as chuvas ocorre o mesmo efeito, já que temos uma mescla das outras estações, incluindo o inverno e consequentemente mais índices de chuva.

Um detalhe interessante nesse gráfico é que podemos observar essa informação de maneira mais resumida ou sumarizada de acordo com os pontos máximos, mínimos e um quantil de 50% de cada gráfico. Tal maneira é interessante mas reduz grandemente a quantidade de informação.

Podemos observar que atráves do quantil que muitos pontos se concentram em temperaturas mais altas tanto para os meses de férias quanto para os meses de aula. O mesmo ocorre para os dados de chuvas, o quantil nos mostra que existem mais dias com pouca ou nenhuma chuva, em relação aos dias com chuva.

plot_chuvas_ferias = ferias %>% 
    ggplot(aes(x = chuva)) + 
    geom_density(fill = "steelblue", color = "black") + 
    geom_rug() +
    labs(
        x = 'Meses durante as férias',
    )

plot_chuvas_aula = aula %>% 
    ggplot(aes(x = chuva)) + 
    geom_density(fill = "steelblue", color = "black") + 
    geom_rug() +
    labs(
        x = 'Meses durante as aulas',
    )

plot_grid(plot_chuvas_ferias, plot_chuvas_aula)

Gráfico correspondente a densidade das chuvas anuais entre 2010 e 2019 para a cidade de Campina Grande

Nesse gráfico podemos observar mais claramente que a concentração dos dias não chuvosos se aprensentam com maior área no gráfico de densidade, por outro lado, podemos ver que os dias chuvosos se encontram na calda longa. Os traços abaixo do gráfico nos ajudam a entender melhor a concentração dos pontos/semanas.

Um fato interessante comparando nos dois gráficos é que existem mais dias chuvosos nas férias :oooooo

  1. Quando o clima é melhor?

Bem, isso é bem subjetivo e individual para cada pessoa. Talvez minha resposta seja bem enviesada a dizer que os meses de férias são melhores e mais animados e o calor possa proporcionar isso! Mas os dias chuvosos da nossa amada Campina Grande me fazem sempre repensar esse posicionamento rs.

2. Vamos comparar se as 3 cidades têm meses claramente mais quentes/frios. Em qual delas há épocas mais diferentes?

clima %>% 
    ggplot(aes(x = mes, y = temp_media)) +
    facet_wrap(~reorder(cidade, temp_media)) +
    geom_point(aes(y = temp_media), color="gray") +
    stat_summary(geom = "line", color = "green", fun = median)+
    stat_summary(geom = "line", color = "red", fun = mean)+
    scale_x_continuous(breaks = 1:12) + 
    labs(
         y = "Temperatura média", 
         x = "Mês"
    )

clima %>% 
    group_by(cidade) %>% 
        summarise(variancia = sum((temp_max - mean(temp_max))**2) / n(),
                  .groups = "drop")

Neste gráfico é possível visualizar a distribuição da temperatura das cidades em cada mês em um período de 10 anos. Os pontos cinzas representam as médias dos meses de cada ano observado, e as linhas verde e vermelha representam a média e mediana ao longo dos meses.

Ao observar os pontos em cinza, podemos ver que as temperaturas em João Pessoa estão mais concentradas que as demais cidades. Patos é a cidade que houve mais dispersão nas temperaturas e possuiu as temperaturas mais elevadas, com alguns pontos extremos, chegando próximo aos 32,5°C e um pouco abaixo de 25°C. Campina Grande registrou no geral temperaturas mais baixas e uma dispersão maior de temperatura que João Pessoa.

Observando as linhas no gráfico, o comportamento da temperatura em Campina Grande é parecido com João Pessoa, apresentando uma curva mais suavizada, com os meses de março e dezembro possuindo as temperaturas médias mais altas e julho a mais baixa, e em Patos a curva é mais “brusca” com uma diferença maior entre a curva da média e mediana, ficando evidente que em novembro apresentou a temperatura média mais alta e em junho a mais baixa. Para descobrir a cidade que tem épocas mais diferentes, foi calculada a variância da temperatura máxima, e mostrou que a variância de Campina Grande é maior que a das outras cidades, levando a crer que é a cidade com épocas mais diferentes.

---
title: "Mais EDA no clima de João Pessoa, Campina Grande e Patos"
output: html_notebook
---

```{r warning=FALSE, message=FALSE}
library(tidyverse)
library(here)
library(cowplot)
theme_set(theme_bw())
```

Olá a todos! Esse notebook é uma continuação da serie de análise do clima de algumas cidades da Paraiba. Dentre elas, selecionamos os dados das seguinte cidades:

Campina Grande
Patos
João Pessoa

*Para rever a parte 1, clique [aqui](https://rpubs.com/leo_mirach/eda_weather_cities_pb)*

#### Vamos começar carregando nossos dados

```{r}
clima_tudo = read_csv(
    here("data/tempo-jp-cg-pt.csv"),
    col_types = cols(
        .default = col_double(),
        cidade = col_character(),
        semana = col_date(format = ""),
        ano = col_integer(),
        mes = col_integer()
    )
)

clima = clima_tudo %>% 
    filter(ano <= 2019, ano >= 2010, !is.na(temp_max))

glimpse(clima)
```

```{r}
ferias = clima %>%
    filter(cidade == 'Campina Grande') %>%
    filter(mes == 1 | mes == 2 | mes == 6)

aula = clima %>% 
    filter(cidade == 'Campina Grande') %>%
    filter(mes != 1 & mes != 2 & mes != 6)

sumario_ferias = ferias %>% 
    group_by(ano) %>%
    summarise(temp_max_anual = max(temp_max),
              temp_median = quantile(temp_max, .5),
              temp_min_anual = min(temp_max),
              chuva_max = max(chuva),
              chuva_median = quantile(chuva, .5),
              chuva_min = min(chuva),
              .groups = 'drop')

sumario_aula = aula %>% 
    group_by(ano) %>%
    summarise(temp_max_anual = max(temp_max),
              temp_median = quantile(temp_max, .5),
              temp_min_anual = min(temp_max),
              chuva_max = max(chuva),
              chuva_median = quantile(chuva, .5),
              chuva_min = min(chuva),
              .groups = 'drop')
```

Que tal iniciarmos essa análise de uma maneira diferente ? 

#### 1. Podemos tentar observar se nos *meses de férias* da UFCG (local onde estudo) e na cidade de Campina Grande (local onde eu moro, ora pois), duas perguntas:

Para iniciar a análise, optei por deixar os gráficos correspondentes aos meses de férias ao lado dos meses que normalmente ocorrem as aulas, tal informação pode ser vista no eixo x do gráfico, os meses de férias escolhidos foram:

* Janeiro
* Fevereiro
* Junho

Consequentemente os outros meses foram escolhidos como os meses onde ocorrem aulas normalmente :D

1. Quais as semelhanças e diferenças entre a *temperatura* e as *chuvas* nos meses de férias e nos meses de aula?


```{r}
# Meses de Férias
plot_ferias <- ferias %>% 
    ggplot(aes(x = ano, y = temp_max)) + 
    geom_point(alpha = .75, size = .9, color = 'gray') +
    geom_point(data = sumario_ferias, aes(y = temp_max_anual), color = 'black') +
    geom_point(data = sumario_ferias, aes(y = temp_median), color = 'coral') +
    geom_point(data = sumario_ferias, aes(y = temp_min_anual), color = 'black') +
    labs(
        x = 'Meses durante as férias',
        y = 'Calor'
    )

# Meses de aula
plot_aula <- aula %>% 
    filter(mes != 1 & mes != 2 & mes != 6) %>% 
    ggplot(aes(x = ano, y = temp_max)) + 
    geom_point(alpha = .75, size = .9, color = 'gray') +
    geom_point(data = sumario_aula, aes(y = temp_max_anual), color = 'black') +
    geom_point(data = sumario_aula, aes(y = temp_median), color = 'coral') +
    geom_point(data = sumario_aula, aes(y = temp_min_anual), color = 'black') +
    labs(
        x = 'Meses durante as aulas',
        y = 'Calor'
    )

plot_grid(plot_ferias, plot_aula)
```

*Gráfico correspondente a temperatura anual entre 2010 e 2019 para a cidade de Campina Grande*

```{r}
# Meses de Férias
plot_ferias <- ferias %>% 
    ggplot(aes(x = ano, y = chuva)) + 
    geom_point(alpha = .75, size = .9, color = 'steelblue') +
    geom_point(data = sumario_ferias, aes(y = chuva_max), color = 'black') +
    geom_point(data = sumario_ferias, aes(y = chuva_median), color = 'coral') +
    geom_point(data = sumario_ferias, aes(y = chuva_min), color = 'black') +
    labs(
        x = 'Meses durante as férias',
        y = 'Calor'
    )

# Meses de aula
plot_aula <- aula %>% 
    ggplot(aes(x = ano, y = chuva)) + 
    geom_point(alpha = .75, size = .9, color = 'steelblue') +
    geom_point(data = sumario_aula, aes(y = chuva_max), color = 'black') +
    geom_point(data = sumario_aula, aes(y = chuva_median), color = 'coral') +
    geom_point(data = sumario_aula, aes(y = chuva_min), color = 'black') +
    labs(
        x = 'Meses durante as aulas',
        y = 'Calor'
    )

plot_grid(plot_ferias, plot_aula)
```
*Gráfico correspondente as chuvas anuais entre 2010 e 2019 para a cidade de Campina Grande*

Algo que podemos observar nos gráficos dipostos é que durante as férias temos temperaturas mais quentes, oque é natural, já que são meses do verão. De maneira análoga, para as chuvas ocorre o mesmo efeito, já que temos uma mescla das outras estações, incluindo o inverno e consequentemente mais índices de chuva.

Um detalhe interessante nesse gráfico é que podemos observar essa informação de maneira mais resumida ou sumarizada de acordo com os pontos máximos, mínimos e um quantil de 50% de cada gráfico. Tal maneira é interessante mas reduz grandemente a quantidade de informação.

Podemos observar que atráves do quantil que muitos pontos se concentram em temperaturas mais altas tanto para os meses de férias quanto para os meses de aula.
O mesmo ocorre para os dados de chuvas, o quantil nos mostra que existem mais dias com pouca ou nenhuma chuva, em relação aos dias com chuva.

```{r}
plot_chuvas_ferias = ferias %>% 
    ggplot(aes(x = chuva)) + 
    geom_density(fill = "steelblue", color = "black") + 
    geom_rug() +
    labs(
        x = 'Meses durante as férias',
    )

plot_chuvas_aula = aula %>% 
    ggplot(aes(x = chuva)) + 
    geom_density(fill = "steelblue", color = "black") + 
    geom_rug() +
    labs(
        x = 'Meses durante as aulas',
    )

plot_grid(plot_chuvas_ferias, plot_chuvas_aula)
```
*Gráfico correspondente a densidade das chuvas anuais entre 2010 e 2019 para a cidade de Campina Grande*

Nesse gráfico podemos observar mais claramente que a concentração dos dias não chuvosos se aprensentam com maior área no gráfico de densidade, por outro lado, podemos ver que os dias chuvosos se encontram na calda longa. Os traços abaixo do gráfico nos ajudam a entender melhor a concentração dos pontos/semanas.

Um fato interessante comparando nos dois gráficos é que existem mais dias chuvosos nas férias :oooooo

2. Quando o clima é melhor?

Bem, isso é bem subjetivo e individual para cada pessoa. Talvez minha resposta seja bem enviesada a dizer que os meses de férias são melhores e mais animados e o calor possa proporcionar isso! Mas os dias chuvosos da nossa amada Campina Grande me fazem sempre repensar esse posicionamento rs.

#### 2. Vamos comparar se as 3 cidades têm meses claramente mais quentes/frios. Em qual delas há épocas mais diferentes? 

```{r}
clima %>% 
    ggplot(aes(x = mes, y = temp_media)) +
    facet_wrap(~reorder(cidade, temp_media)) +
    geom_point(aes(y = temp_media), color="gray") +
    stat_summary(geom = "line", color = "green", fun = median)+
    stat_summary(geom = "line", color = "red", fun = mean)+
    scale_x_continuous(breaks = 1:12) + 
    labs(
         y = "Temperatura média", 
         x = "Mês"
    )
```

```{r}
clima %>% 
    group_by(cidade) %>% 
        summarise(variancia = sum((temp_max - mean(temp_max))**2) / n(),
                  .groups = "drop")
```

Neste gráfico é possível visualizar a distribuição da temperatura das cidades em cada mês em um período de 10 anos. Os pontos cinzas representam as médias dos meses de cada ano observado, e as linhas verde e vermelha representam a média e mediana ao longo dos meses. 

Ao observar os pontos em cinza, podemos ver que as temperaturas em João Pessoa estão mais concentradas que as demais cidades. Patos é a cidade que houve mais dispersão nas temperaturas e possuiu as temperaturas mais elevadas, com alguns pontos extremos, chegando próximo aos 32,5°C e um pouco abaixo de 25°C. Campina Grande registrou no geral temperaturas mais baixas e uma dispersão maior de temperatura que João Pessoa. 

Observando as linhas no gráfico, o comportamento da temperatura em Campina Grande é parecido com João Pessoa, apresentando uma curva mais suavizada, com os meses de março e dezembro possuindo as temperaturas médias mais altas e julho a mais baixa, e em Patos a curva é mais "brusca" com uma diferença maior entre a curva da média e mediana, ficando evidente que em novembro apresentou a temperatura média mais alta e em junho a mais baixa. Para descobrir a cidade que tem épocas mais diferentes, foi calculada a variância da temperatura máxima, e mostrou que a variância de Campina Grande é maior que a das outras cidades, levando a crer que é a cidade com épocas mais diferentes.


