Atividade Avaliativa Processo Seletivo – Vaga de Estágio THM

Pacotes exigidos

library(readxl)
library(ggplot2)
library(tidyverse)
library(forecast)
library(dplyr)
library(geobr)
library(FinTS)
library(knitr)

Carregando e limpando os dados

b20122016 <- read_excel("2012_2016.xls") %>% dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(`Data de Amostragem`>'2015-11-05', Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b2017 <- read_excel("2017.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20181<- read_excel("2018_1trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20182<- read_excel("2018_2trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20183<- read_excel("2018_3trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20184<- read_excel("2018_4trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20191<- read_excel("2019_1trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20192<- read_excel("2019_2trimestre.xls",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20193<- read_excel("2019_3trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20194<- read_excel("2019_4trimestre.xlsx",sheet="Doce")%>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20201<- read_excel("2020_1trimestre.xlsx")%>% mutate(Ano=2020) %>%   dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b20202<- read_excel("2020_2trimestre.xlsx")%>% mutate(Ano=2020) %>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b202034<- read_excel("2020_3e4trimestres.xls",skip = 3)%>% mutate(Ano=2020) %>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b202112<- read_excel("2021_1e2trimestres.xls",skip = 3)%>% mutate(Ano=2021) %>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

b202134<- read_excel("2021_3e4trimestres.xls",skip = 3)%>% mutate(Ano=2021) %>%  dplyr::select(Ano,`Data de Amostragem`,Estação,`Manganês total`,`Sinal Manganês total`,Turbidez,`Sinal Turbidez`) %>% 
  filter(Estação=="RD011" | Estação=="RD071" | Estação=="RD072")

baseFinal <- rbind(b20122016, b2017,b20181,b20182,b20183,b20184,b20191,b20192,b20193,b20194,b20201,b20202,b202034,b202112,b202134)
baseFinal<- baseFinal %>%  mutate_if(is.character, as.factor)
a=baseFinal %>% filter(!is.na(`Manganês total`))

mangan<-ts(a[,4], start = c(2016), end = c(2021,12), frequency = 30)
turbi<-ts(a[,6], start = c(2016), end = c(2021,12), frequency = 30)

Análise concentração do manganês

plot(mangan, xlab="Mês/ano", ylab="Manganês Total", main="Concentração do metal Manganês", sub="Pontos do Rio Doce (RD071, RD072 e RD011) 2015-2021")

Considerando todo o período, após o rompimento na barragem a concentração do manganÊs foi bem alta, aparentou dar uma estabilizada entre 2017 e inicio de 2019 mas logo depois teve um aumento maior que após o rompimento.

ggseasonplot(mangan, year.labels=TRUE, year.labels.left=TRUE) 

Analisando o gráfico de sazonalidade, vemos que há diversos picos na concentração do manganês, sendo que a menor taxa é um pouco depois do meio do período, vale destacar as altas concentrações no início, meio e fim, indicando também um aumento comparado aos anos logo após o rompimento da barragem.

mm<-decompose(mangan,type='multiplicative')
plot(mm)

Analisando o gráfico de decomposição podemos observar que:

  • A tendência da série variou bastante no período (provavelmente houve alguma forma de estabilização mas logo depois voltou o aumento);
  • A sazonalidade da série é forte.

Análise parâmetro Turbidez

plot(turbi, xlab="Mês/ano", ylab="Turbidez", main="parâmetro Turbidez de qualidade da água superficial do Rio Doce", sub="Pontos do Rio Doce (RD071, RD072 e RD011) 2015-2021")

Considerando todo o período, após o rompimento na barragem o parâmetro turbidez da água estava muito alto e demorou algum tempo para se estabilizar, ainda que apresente alguns picos em 2020 e 2021, temos um indício de queda e regularização.

ggseasonplot(turbi, year.labels=TRUE, year.labels.left=TRUE) 

Analisando o gráfico de sazonalidade, comprova-se o seu pico no ano do rompimento.

mm<-decompose(turbi,type='multiplicative')
plot(mm)

Analisando o gráfico de decomposição podemos observar que:

  • A tendência da série mostra o decaimento previsto para regularização do nível após o rompimento, provavelmente mantendo constante esse parâmetro
  • A sazonalidade da série também é forte.

Extra

O erro identificado seria o código do município e a formatação do nome dos municípios.

a=read_municipality(code_muni = "MG",year=2018)
cod=a$code_muni
a=data.frame(codigomun=a$code_muni,nomemun=a$name_muni)
baseextra <- read.csv("extra/dados_MG.csv") %>% select(!(CO_STATUS:NU_ALTITUD))
c <- a |> dplyr::mutate(codigomun = stringr::str_sub(codigomun, 1, 6))
c$codigomun=as.integer(c$codigomun)
df3 <- inner_join(c, baseextra, by=c('codigomun'='CO_MUNICIP'))

Após feito o join, vamos voltar a base como era, com os códigos e nomes dos municípios concertados.

df4=df3 %>% select(nomemun)
df4 <- inner_join(a, df4, by=c('nomemun'='nomemun'))
baseextra <- read.csv("extra/dados_MG.csv")
baseextra=slice(baseextra,-1)
baseextra$CO_MUNICIP=df4$codigomun
baseextra$DS_NOME=df4$nomemun
baseextra %>% head() %>% kable()
CO_MUNICIP CO_STATUS DS_NOME DS_NOMEPAD NU_LATITUD NU_LONGIT NU_ALTITUD
3100104 ATIVO Abadia Dos Dourados ABADIA DOS DOURADOS -18.48756 -47.39683 753
3100203 ATIVO Abaeté ABAETE -19.15585 -45.44619 645
3100302 ATIVO Abre Campo ABRE CAMPO -20.30145 -42.48099 590
3100401 ATIVO Acaiaca ACAIACA -20.36041 -43.14824 493
3100500 ATIVO Açucena ACUCENA -19.07671 -42.54621 474
3100609 ATIVO Água Boa AGUA BOA -17.99105 -42.38964 432

Desafio

Eu não consegui converter para um valor em específico os pontos de interesses solicitados, mas através do gráfico de sazonalidade abaixo, podemos ver um grande aumento da concentração do manganês possivelmente na data perto de 10/12/2020 e também para o período chuvoso que contempla o intervalo de 01/10/2020 a 31/03/2021, indicando assim que nesses períodos, a concentração de manganês era bem elevada.

ggseasonplot(mangan, year.labels=TRUE, year.labels.left=TRUE,main="Série Concentração manganês por Ano")+ theme(plot.title = element_text(hjust = 0.5))