Análise Exploratória de Dados Climáticos

1 Introdução

Este relatório realiza uma análise exploratória de dados climáticos utilizando o conjunto airquality, que contém observações diárias da qualidade do ar na cidade de Nova York durante os meses de maio a setembro de 1973. O objetivo deste relatório é explorar, manipular e apresentar os dados de forma interativa, com visualizações e fórmulas relevantes à análise ambiental.

2 Manipulação e Análise dos Dados

2.1 Carregando os Dados

data("airquality")
head(airquality)
##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6

2.2 Descrição do Conjunto

O dataset airquality contém as variáveis:

  • Ozone: concentração de ozônio (ppb)
  • Solar.R: radiação solar (lang)
  • Wind: velocidade do vento (mph)
  • Temp: temperatura (Fahrenheit)
  • Month: mês
  • Day: dia do mês

2.3 Limpeza e Criação de Novas Variáveis

No exemplo é criada a variável Temp_C, que é a temperatura em ºC.

library(dplyr)

dados_limpos <- airquality %>%
  na.omit() %>%
  mutate(
    Temp_C = round((Temp - 32) * 5/9, 1),
    Qualidade = case_when(
      Ozone < 50 ~ "Boa",
      Ozone < 100 ~ "Moderada",
      TRUE ~ "Ruim"
    )
  )

head(dados_limpos)
##   Ozone Solar.R Wind Temp Month Day Temp_C Qualidade
## 1    41     190  7.4   67     5   1   19.4       Boa
## 2    36     118  8.0   72     5   2   22.2       Boa
## 3    12     149 12.6   74     5   3   23.3       Boa
## 4    18     313 11.5   62     5   4   16.7       Boa
## 7    23     299  8.6   65     5   7   18.3       Boa
## 8    19      99 13.8   59     5   8   15.0       Boa

2.4 Estatísticas Resumidas

summary(dados_limpos)
##      Ozone          Solar.R           Wind            Temp      
##  Min.   :  1.0   Min.   :  7.0   Min.   : 2.30   Min.   :57.00  
##  1st Qu.: 18.0   1st Qu.:113.5   1st Qu.: 7.40   1st Qu.:71.00  
##  Median : 31.0   Median :207.0   Median : 9.70   Median :79.00  
##  Mean   : 42.1   Mean   :184.8   Mean   : 9.94   Mean   :77.79  
##  3rd Qu.: 62.0   3rd Qu.:255.5   3rd Qu.:11.50   3rd Qu.:84.50  
##  Max.   :168.0   Max.   :334.0   Max.   :20.70   Max.   :97.00  
##      Month            Day            Temp_C       Qualidade        
##  Min.   :5.000   Min.   : 1.00   Min.   :13.90   Length:111        
##  1st Qu.:6.000   1st Qu.: 9.00   1st Qu.:21.70   Class :character  
##  Median :7.000   Median :16.00   Median :26.10   Mode  :character  
##  Mean   :7.216   Mean   :15.95   Mean   :25.44                     
##  3rd Qu.:9.000   3rd Qu.:22.50   3rd Qu.:29.15                     
##  Max.   :9.000   Max.   :31.00   Max.   :36.10

A análise estatística dos dados climáticos revela um panorama interessante sobre as variáveis observadas. A concentração de ozônio (Ozone), por exemplo, varia de 1 a 168 partes por bilhão (ppb), com uma média de 42,1 ppb e mediana de 31 ppb. Essa diferença entre média e mediana indica que existem valores muito altos influenciando a média, o que sugere a presença de outliers e uma possível assimetria à direita. Essa variação expressiva nos níveis de ozônio pode refletir episódios de piora na qualidade do ar em determinados dias.

Já a radiação solar (Solar.R) oscila entre 7 e 334 lang, com média de 184,8 e mediana de 207. A mediana acima da média sugere uma leve assimetria à esquerda, ou seja, a presença de dias com baixa incidência solar influenciando os resultados. Como a radiação solar está diretamente relacionada à formação de ozônio, esse aspecto é importante para análises posteriores.

A variável Wind (velocidade do vento) apresenta uma distribuição mais simétrica, com valores entre 2,3 e 20,7 mph, e média e mediana bastante próximas (9,94 e 9,7 mph, respectivamente). A velocidade do vento é um fator essencial para a dispersão de poluentes, o que pode impactar diretamente a concentração de ozônio na atmosfera.

Quanto à temperatura (Temp), observamos valores entre 57°F e 97°F (ou 13,9°C a 36,1°C, considerando a variável convertida Temp_C), com média em torno de 25,4°C. Esse intervalo é condizente com os meses de coleta dos dados, que vão de maio a setembro, ou seja, no período de verão no hemisfério norte. Durante esses meses, é comum haver temperaturas mais elevadas e maior formação de ozônio.

As variáveis de data, Month e Day, confirmam que os registros abrangem os meses de maio (5) a setembro (9) e dias entre 1 e 31. Isso reforça o contexto sazonal da coleta, focado nos meses mais quentes, quando a qualidade do ar tende a se deteriorar.

Por fim, a variável Qualidade classifica os dias em três categorias — “Boa”, “Moderada” e “Ruim” — com base nos níveis de ozônio. Essa categorização é útil para a interpretação dos dados e permite uma análise qualitativa mais intuitiva dos impactos ambientais.

Em resumo, os dados climáticos apresentam variabilidade significativa, especialmente nas concentrações de ozônio e na radiação solar, indicando que fatores como temperatura, vento e incidência solar podem estar relacionados ao comportamento do ozônio. Esta análise descritiva inicial é fundamental para embasar investigações mais detalhadas, como as visualizações gráficas feitas a seguir.

3 Tabela Interativa

library(DT)

datatable(dados_limpos, 
          options = list(
            pageLength = 10, 
            dom = 'lfrtip', 
            responsive = TRUE,
            autoWidth = TRUE,
            columnDefs = list(
              list(targets = 0:5, className = 'dt-center')
            )
          ), 
          caption = "Tabela Interativa de Dados Climáticos")

4 Equações Relevantes

Abaixo estão cinco equações relevantes no contexto da análise ambiental deste relatório:

4.1 Conversão de Temperatura (F para C)

\[ T_C = \frac{5}{9}(T_F - 32) \]

4.2 Média de uma variável

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]

4.3 Índice de Qualidade do Ar (simplificado)

\[ IQA = \frac{C}{C_{padrao}} \times 100 \]

4.4 Correlação de Pearson

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2} \sqrt{\sum(y_i - \bar{y})^2}} \]

4.5 Regressão Linear Simples

\[ Ozone = \beta_0 + \beta_1 \cdot Temp + \varepsilon \]

5 Gráficos Ilustrativos

5.1 Figura 1: Relação entre temperatura e ozônio

library(ggplot2)

ggplot(dados_limpos, aes(x = Temp_C, y = Ozone)) +
  geom_point(color = "#7394d4") +
  geom_smooth(method = "lm", se = FALSE, color = "#c93311") +
  labs(title = "Ozonio vs Temperatura (°C)",
       x = "Temperatura (°C)",
       y = "Ozonio (ppb)") +
  theme_minimal()

5.2 Figura 2: Qualidade do Ar ao longo dos meses

ggplot(dados_limpos, aes(x = factor(Month), fill = Qualidade)) +
  geom_bar(position = "dodge") +
  labs(title = "Classificação da Qualidade do Ar por Mês",
       x = "Mês",
       y = "Frequência") +
  scale_fill_manual(values = c("Boa" = "#74a089", "Moderada" = "#fddda0", "Ruim" = "#f8afa8")) +
  theme_minimal()

6 Referências

  1. Wilks, D. S. (2011). Statistical Methods in the Atmospheric Sciences. Academic Press.
  2. Cleveland, W. S. (1993). Visualizing Data. Hobart Press.
  3. McKinney, W. (2017). Python for Data Analysis. O’Reilly Media.
  4. Wickham, H., & Grolemund, G. (2016). R for Data Science. O’Reilly.
  5. Environmental Protection Agency (EPA). Air Quality Index. https://www.epa.gov/air-quality-index