Análise Exploratória de Dados Climáticos
1 Introdução
Este relatório realiza uma análise exploratória de dados climáticos utilizando o conjunto airquality, que contém observações diárias da qualidade do ar na cidade de Nova York durante os meses de maio a setembro de 1973. O objetivo deste relatório é explorar, manipular e apresentar os dados de forma interativa, com visualizações e fórmulas relevantes à análise ambiental.
2 Manipulação e Análise dos Dados
2.1 Carregando os Dados
## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
2.2 Descrição do Conjunto
O dataset airquality contém as variáveis:
Ozone: concentração de ozônio (ppb)Solar.R: radiação solar (lang)Wind: velocidade do vento (mph)Temp: temperatura (Fahrenheit)Month: mêsDay: dia do mês
2.3 Limpeza e Criação de Novas Variáveis
No exemplo é criada a variável Temp_C, que é a temperatura em ºC.
library(dplyr)
dados_limpos <- airquality %>%
na.omit() %>%
mutate(
Temp_C = round((Temp - 32) * 5/9, 1),
Qualidade = case_when(
Ozone < 50 ~ "Boa",
Ozone < 100 ~ "Moderada",
TRUE ~ "Ruim"
)
)
head(dados_limpos)## Ozone Solar.R Wind Temp Month Day Temp_C Qualidade
## 1 41 190 7.4 67 5 1 19.4 Boa
## 2 36 118 8.0 72 5 2 22.2 Boa
## 3 12 149 12.6 74 5 3 23.3 Boa
## 4 18 313 11.5 62 5 4 16.7 Boa
## 7 23 299 8.6 65 5 7 18.3 Boa
## 8 19 99 13.8 59 5 8 15.0 Boa
2.4 Estatísticas Resumidas
## Ozone Solar.R Wind Temp
## Min. : 1.0 Min. : 7.0 Min. : 2.30 Min. :57.00
## 1st Qu.: 18.0 1st Qu.:113.5 1st Qu.: 7.40 1st Qu.:71.00
## Median : 31.0 Median :207.0 Median : 9.70 Median :79.00
## Mean : 42.1 Mean :184.8 Mean : 9.94 Mean :77.79
## 3rd Qu.: 62.0 3rd Qu.:255.5 3rd Qu.:11.50 3rd Qu.:84.50
## Max. :168.0 Max. :334.0 Max. :20.70 Max. :97.00
## Month Day Temp_C Qualidade
## Min. :5.000 Min. : 1.00 Min. :13.90 Length:111
## 1st Qu.:6.000 1st Qu.: 9.00 1st Qu.:21.70 Class :character
## Median :7.000 Median :16.00 Median :26.10 Mode :character
## Mean :7.216 Mean :15.95 Mean :25.44
## 3rd Qu.:9.000 3rd Qu.:22.50 3rd Qu.:29.15
## Max. :9.000 Max. :31.00 Max. :36.10
A análise estatística dos dados climáticos revela um panorama interessante sobre as variáveis observadas. A concentração de ozônio (Ozone), por exemplo, varia de 1 a 168 partes por bilhão (ppb), com uma média de 42,1 ppb e mediana de 31 ppb. Essa diferença entre média e mediana indica que existem valores muito altos influenciando a média, o que sugere a presença de outliers e uma possível assimetria à direita. Essa variação expressiva nos níveis de ozônio pode refletir episódios de piora na qualidade do ar em determinados dias.
Já a radiação solar (Solar.R) oscila entre 7 e 334 lang, com média de 184,8 e mediana de 207. A mediana acima da média sugere uma leve assimetria à esquerda, ou seja, a presença de dias com baixa incidência solar influenciando os resultados. Como a radiação solar está diretamente relacionada à formação de ozônio, esse aspecto é importante para análises posteriores.
A variável Wind (velocidade do vento) apresenta uma distribuição mais simétrica, com valores entre 2,3 e 20,7 mph, e média e mediana bastante próximas (9,94 e 9,7 mph, respectivamente). A velocidade do vento é um fator essencial para a dispersão de poluentes, o que pode impactar diretamente a concentração de ozônio na atmosfera.
Quanto à temperatura (Temp), observamos valores entre 57°F e 97°F (ou 13,9°C a 36,1°C, considerando a variável convertida Temp_C), com média em torno de 25,4°C. Esse intervalo é condizente com os meses de coleta dos dados, que vão de maio a setembro, ou seja, no período de verão no hemisfério norte. Durante esses meses, é comum haver temperaturas mais elevadas e maior formação de ozônio.
As variáveis de data, Month e Day, confirmam que os registros abrangem os meses de maio (5) a setembro (9) e dias entre 1 e 31. Isso reforça o contexto sazonal da coleta, focado nos meses mais quentes, quando a qualidade do ar tende a se deteriorar.
Por fim, a variável Qualidade classifica os dias em três categorias — “Boa”, “Moderada” e “Ruim” — com base nos níveis de ozônio. Essa categorização é útil para a interpretação dos dados e permite uma análise qualitativa mais intuitiva dos impactos ambientais.
Em resumo, os dados climáticos apresentam variabilidade significativa, especialmente nas concentrações de ozônio e na radiação solar, indicando que fatores como temperatura, vento e incidência solar podem estar relacionados ao comportamento do ozônio. Esta análise descritiva inicial é fundamental para embasar investigações mais detalhadas, como as visualizações gráficas feitas a seguir.
3 Tabela Interativa
4 Equações Relevantes
Abaixo estão cinco equações relevantes no contexto da análise ambiental deste relatório:
4.1 Conversão de Temperatura (F para C)
\[ T_C = \frac{5}{9}(T_F - 32) \]
4.2 Média de uma variável
\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]
4.3 Índice de Qualidade do Ar (simplificado)
\[ IQA = \frac{C}{C_{padrao}} \times 100 \]
4.4 Correlação de Pearson
\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2} \sqrt{\sum(y_i - \bar{y})^2}} \]
4.5 Regressão Linear Simples
\[ Ozone = \beta_0 + \beta_1 \cdot Temp + \varepsilon \]
5 Gráficos Ilustrativos
5.1 Figura 1: Relação entre temperatura e ozônio
library(ggplot2)
ggplot(dados_limpos, aes(x = Temp_C, y = Ozone)) +
geom_point(color = "#7394d4") +
geom_smooth(method = "lm", se = FALSE, color = "#c93311") +
labs(title = "Ozonio vs Temperatura (°C)",
x = "Temperatura (°C)",
y = "Ozonio (ppb)") +
theme_minimal()5.2 Figura 2: Qualidade do Ar ao longo dos meses
ggplot(dados_limpos, aes(x = factor(Month), fill = Qualidade)) +
geom_bar(position = "dodge") +
labs(title = "Classificação da Qualidade do Ar por Mês",
x = "Mês",
y = "Frequência") +
scale_fill_manual(values = c("Boa" = "#74a089", "Moderada" = "#fddda0", "Ruim" = "#f8afa8")) +
theme_minimal()6 Referências
- Wilks, D. S. (2011). Statistical Methods in the Atmospheric Sciences. Academic Press.
- Cleveland, W. S. (1993). Visualizing Data. Hobart Press.
- McKinney, W. (2017). Python for Data Analysis. O’Reilly Media.
- Wickham, H., & Grolemund, G. (2016). R for Data Science. O’Reilly.
- Environmental Protection Agency (EPA). Air Quality Index. https://www.epa.gov/air-quality-index