1. Introdução

Na aula do dia 27-03-2015 aprendemos sobre o uso da Plataforma R na Análise Exploratória de Dados. Foi proposto aos alunos a aplicação prática da aula através de um exercício que consistiu na elaboração de um relatório utilizando a linguagem Markdow, que é uma ferramenta importante de comunicação e reproducibilidade de análises estatísticas.

A proposta foi escolher um conjunto de dados e elaborar gráficos com os pacotes disponibilizados no Programa R.

Foi utilizado na elaboração deste relatório o conjunto de dados referente ao levantamento de áreas contaminadas em Minas Gerais realizado pela Fundação Estadual de Meio Ambiente - FEAM durante os anos de 2009 a 2014. Os dados foram transcritos de um relatório e convertido em arquivo csv, areascontaminadasMG.csv.

Os responsáveis por empreendimentos com áreas com suspeita de contaminação ou contaminadas pela disposição inadequada de materiais e resíduos contendo substancias químicas, realizam o Cadastro de Áreas Suspeitas de Contaminação e Contaminadas por Substâncias Químicas à Feam, de acordo com Deliberação Normativa COPAM n.o 116/2008.

O formulário eletrônico para o cadastro está disponível no Banco de Declarações Ambientais - BDA - e deve ser preenchido e enviado à Fundação Estadual de Meio Ambiente (Feam) exclusivamente em formato digital, no endereço.

O BDA permite ao usuário realizar o cadastramento de áreas suspeitas de contaminação ou contaminadas por substâncias químicas e emitir protocolo de envio, que deverá ser mantido pelo responsável para fins de comprovação junto ao órgão ambiental.

O cadastramento destas áreas permite a elaboração do Inventário Estadual de Áreas Contaminadas e a definição de ações para gerenciamento para cada área identificada, visando à proteção da saúde humana e do meio ambiente.

2. Dados

O conjunto de dados escolhido consiste no levantamento do número de áreas contaminadas em Minas Gerais entre os anos de 2009 a 2014 (ano da realização do último inventário).

Temos, então, 6 observações para uma variável.

3. Preaparação dos Dados para a elaboração dos gráficos

Após apresentar o conjunto de dados que utilizaremos neste laboratório 2, vamos preparar os dados para a EDA subsequente testar os tipos de gráficos.

3.1 Importando os dados

Para começar, vamos importar o arquivo de dados para o R e executar alguns comandos básicos:

#Exibindo o diretório de trabalho atual
getwd()

## [1] "G:/MestradoIFMG/Markdown/Laboratorio2"

#Definindo o diretório de trabalho
setwd("G:\\MestradoIFMG\\Markdown\\Laboratorio2")

#Importando o arquivo com a função read.csv() 
areascontaminadasMG <- read.csv("areas_contaminadas_2009a2014.csv", h=TRUE)

#Observando a estrutura de dados
str(areascontaminadasMG)

## 'data.frame':    6 obs. of  1 variable:
##  $ ano.total: Factor w/ 6 levels "2009;413","2010;438",..: 1 2 3 4 5 6

#Verificando a classe da estrutura de dados
class(areascontaminadasMG)

## [1] "data.frame"

#Observando as dimensões: n. de observações e n. de variáveis
dim (areascontaminadasMG)

## [1] 6 1

#Exibindo o nome das variáveis
names(areascontaminadasMG)

## [1] "ano.total"

#Exibe as 6 primeiras linhas do objeto
head(areascontaminadasMG)

##   ano.total
## 1  2009;413
## 2  2010;438
## 3  2011;438
## 4  2012;490
## 5  2013;554
## 6  2014;577

#Exibe as 6 últimas linhas do objeto
tail(areascontaminadasMG)

##   ano.total
## 1  2009;413
## 2  2010;438
## 3  2011;438
## 4  2012;490
## 5  2013;554
## 6  2014;577

#Visão exploratória dos Dados: Sumário
summary(areascontaminadasMG)

##     ano.total
##  2009;413:1  
##  2010;438:1  
##  2011;438:1  
##  2012;490:1  
##  2013;554:1  
##  2014;577:1

#Observando os dados em outra planilha
View(areascontaminadasMG)

#Extraindo a primeira linha

ind1<-areascontaminadasMG[1,]

#Transformando o banco de dados em numérico

areascontaminadasMG<-c(413,438,438,490,554,577)

areascontaminadasMG<-as.numeric(areascontaminadasMG)

areascontaminadasMG

## [1] 413 438 438 490 554 577

class(areascontaminadasMG)

## [1] "numeric"

3.2 Elaborando Gráficos

##GRÁFICO DE RAMO-E-FOLHAS
stem(areascontaminadasMG)        #Gera um gráfico (histograma invertido - bimodalidade dos dados)

## 
##   The decimal point is 2 digit(s) to the right of the |
## 
##   4 | 144
##   4 | 9
##   5 | 
##   5 | 58

stem(areascontaminadasMG, scale=1)             #Ampliação do ramo

## 
##   The decimal point is 2 digit(s) to the right of the |
## 
##   4 | 144
##   4 | 9
##   5 | 
##   5 | 58

##GRÁFICO DE PONTOS: dotchart()
dotchart(areascontaminadasMG, main="Número de Áreas Contaminadas MG",cex=0.5)

dotchart(areascontaminadasMG[order(areascontaminadasMG)],main="Número de Áreas Contaminadas MG",cex=0.5)

##TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIA DE FREQUENCIAS
library("sm")

## Warning: package 'sm' was built under R version 3.1.3

## Package 'sm', version 2.2-5.4: type help(sm) for summary information

##OBTENDO UMA TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS
binning(areascontaminadasMG)

## $x
## [1] 433.5 474.5 556.5
## 
## $x.freq
## [1] 3 1 2
## 
## $table.freq
## [1] 3 1 0 2
## 
## $breaks
## [1] 413 454 495 536 577

summary(areascontaminadasMG)                  #dá o mínimo e o máximo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     413     438     464     485     538     577

binning(areascontaminadasMG,nbins=5)

## $x
## [1] 429.4 495.0 560.6
## 
## $x.freq
## [1] 3 1 2
## 
## $table.freq
## [1] 3 0 1 0 2
## 
## $breaks
## [1] 413.0 445.8 478.6 511.4 544.2 577.0

##HISTOGRAMA
hist(areascontaminadasMG)

hist(areascontaminadasMG,main=" ", xlab = "Áreas Contaminadas em MG", ylab = "Ano")     #inches = polegadas

data()

hist(areascontaminadasMG,freq=F,breaks=12,col="lightgrey",xlab="Áreas Contaminadas em MG",ylab="Ano",main="")
rug(areascontaminadasMG)
grid()

##HISTOGRAMA (Com densidade empírica)
hist(areascontaminadasMG,freq=FALSE,breaks=12,col="lightblue",xlab = "Áreas Contaminadas em MG", ylab="Ano", main="Com curva de Densidade Empírica")
rug(jitter(areascontaminadasMG))
lines(density(areascontaminadasMG),col="red", lwd=2)

library(lattice)

## Warning: package 'lattice' was built under R version 3.1.3

densityplot(areascontaminadasMG)

##BOXPLOT
boxplot(areascontaminadasMG,col="lightgrey",ylab="Áreas Contaminadas em MG")

##GRÁFICO DE LINHAS
plot(areascontaminadasMG, type="l", xlab="Ano", ylab="Número de áreas Contaminadas em MG")
grid()

plot(areascontaminadasMG, type="o", xlab="Ano", ylab="Número de áreas Contaminadas em MG")
grid()                  #grid=permite criar referências no gráfico

plot(areascontaminadasMG, type="o", xlab="Ano", ylab="Número de áreas Contaminadas em MG", col="blue")   #col=comando da cor

x <- rnorm(6)
areascontaminadasMG <- ts(x, start=c(413,577), frequency=1)
areascontaminadasMG

## Time Series:
## Start = 989 
## End = 994 
## Frequency = 1 
## [1] -1.7387046  0.3720879 -1.1429707  0.7323174  0.8277616 -1.4227229

plot(areascontaminadasMG, type="l", xlab="Ano", ylab="Áreas Contaminadas MG")

##GRÁFICO DE PROBABILIDADE
qqnorm(areascontaminadasMG, ylab = "quantis amostrais",xlab = "quantis teóricos")
qqline(areascontaminadasMG)

##GRÁFICO DE BARRAS
areascontaminadasMG <- c(rep("2009",413), rep("2010",438),rep("2011",438),rep("2012",490),rep("2013",554),rep("2014",577))
areascontaminadasMG <- table(areascontaminadasMG)

barplot(areascontaminadasMG)

areascontaminadasMG

## areascontaminadasMG
## 2009 2010 2011 2012 2013 2014 
##  413  438  438  490  554  577

table(areascontaminadasMG)

## areascontaminadasMG
## 413 438 490 554 577 
##   1   2   1   1   1

barplot(areascontaminadasMG,horiz=TRUE)

4. Conclusão

Para melhor visualização e interpretação dos dados observando o número de áreas contaminadas no Estado de Minas Gerais a cada ano o gráfico de barras e o de linhas foram as melhores opções. Observando os gráficos é possível perceber que em 6 anos de levantamento de dados, de 2009 a 2014, em 2009 obteve-se o cadastro inicial de 413 áreas e em 2014 de 577 áreas representando um aumento de 28,42% do número inicial de áreas contaminadas cadastradas.

Laboratório 2: Análise Exploratória de Dados e Elaboração de Gráficos