Na aula do dia 27-03-2015 aprendemos sobre o uso da Plataforma R na Análise Exploratória de Dados. Foi proposto aos alunos a aplicação prática da aula através de um exercício que consistiu na elaboração de um relatório utilizando a linguagem Markdow, que é uma ferramenta importante de comunicação e reproducibilidade de análises estatísticas.
A proposta foi escolher um conjunto de dados e elaborar gráficos com os pacotes disponibilizados no Programa R.
Foi utilizado na elaboração deste relatório o conjunto de dados referente ao levantamento de áreas contaminadas em Minas Gerais realizado pela Fundação Estadual de Meio Ambiente - FEAM durante os anos de 2009 a 2014. Os dados foram transcritos de um relatório e convertido em arquivo csv, areascontaminadasMG.csv.
Os responsáveis por empreendimentos com áreas com suspeita de contaminação ou contaminadas pela disposição inadequada de materiais e resíduos contendo substancias químicas, realizam o Cadastro de Áreas Suspeitas de Contaminação e Contaminadas por Substâncias Químicas à Feam, de acordo com Deliberação Normativa COPAM n.o 116/2008.
O formulário eletrônico para o cadastro está disponível no Banco de Declarações Ambientais - BDA - e deve ser preenchido e enviado à Fundação Estadual de Meio Ambiente (Feam) exclusivamente em formato digital, no endereço.
O BDA permite ao usuário realizar o cadastramento de áreas suspeitas de contaminação ou contaminadas por substâncias químicas e emitir protocolo de envio, que deverá ser mantido pelo responsável para fins de comprovação junto ao órgão ambiental.
O cadastramento destas áreas permite a elaboração do Inventário Estadual de Áreas Contaminadas e a definição de ações para gerenciamento para cada área identificada, visando à proteção da saúde humana e do meio ambiente.
O conjunto de dados escolhido consiste no levantamento do número de áreas contaminadas em Minas Gerais entre os anos de 2009 a 2014 (ano da realização do último inventário).
Temos, então, 6 observações para uma variável.
Após apresentar o conjunto de dados que utilizaremos neste laboratório 2, vamos preparar os dados para a EDA subsequente testar os tipos de gráficos.
Para começar, vamos importar o arquivo de dados para o R e executar alguns comandos básicos:
#Exibindo o diretório de trabalho atual
getwd()
## [1] "G:/MestradoIFMG/Markdown/Laboratorio2"
#Definindo o diretório de trabalho
setwd("G:\\MestradoIFMG\\Markdown\\Laboratorio2")
#Importando o arquivo com a função read.csv()
areascontaminadasMG <- read.csv("areas_contaminadas_2009a2014.csv", h=TRUE)
#Observando a estrutura de dados
str(areascontaminadasMG)
## 'data.frame': 6 obs. of 1 variable:
## $ ano.total: Factor w/ 6 levels "2009;413","2010;438",..: 1 2 3 4 5 6
#Verificando a classe da estrutura de dados
class(areascontaminadasMG)
## [1] "data.frame"
#Observando as dimensões: n. de observações e n. de variáveis
dim (areascontaminadasMG)
## [1] 6 1
#Exibindo o nome das variáveis
names(areascontaminadasMG)
## [1] "ano.total"
#Exibe as 6 primeiras linhas do objeto
head(areascontaminadasMG)
## ano.total
## 1 2009;413
## 2 2010;438
## 3 2011;438
## 4 2012;490
## 5 2013;554
## 6 2014;577
#Exibe as 6 últimas linhas do objeto
tail(areascontaminadasMG)
## ano.total
## 1 2009;413
## 2 2010;438
## 3 2011;438
## 4 2012;490
## 5 2013;554
## 6 2014;577
#Visão exploratória dos Dados: Sumário
summary(areascontaminadasMG)
## ano.total
## 2009;413:1
## 2010;438:1
## 2011;438:1
## 2012;490:1
## 2013;554:1
## 2014;577:1
#Observando os dados em outra planilha
View(areascontaminadasMG)
#Extraindo a primeira linha
ind1<-areascontaminadasMG[1,]
#Transformando o banco de dados em numérico
areascontaminadasMG<-c(413,438,438,490,554,577)
areascontaminadasMG<-as.numeric(areascontaminadasMG)
areascontaminadasMG
## [1] 413 438 438 490 554 577
class(areascontaminadasMG)
## [1] "numeric"
##GRÁFICO DE RAMO-E-FOLHAS
stem(areascontaminadasMG) #Gera um gráfico (histograma invertido - bimodalidade dos dados)
##
## The decimal point is 2 digit(s) to the right of the |
##
## 4 | 144
## 4 | 9
## 5 |
## 5 | 58
stem(areascontaminadasMG, scale=1) #Ampliação do ramo
##
## The decimal point is 2 digit(s) to the right of the |
##
## 4 | 144
## 4 | 9
## 5 |
## 5 | 58
##GRÁFICO DE PONTOS: dotchart()
dotchart(areascontaminadasMG, main="Número de Áreas Contaminadas MG",cex=0.5)
dotchart(areascontaminadasMG[order(areascontaminadasMG)],main="Número de Áreas Contaminadas MG",cex=0.5)
##TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIA DE FREQUENCIAS
library("sm")
## Warning: package 'sm' was built under R version 3.1.3
## Package 'sm', version 2.2-5.4: type help(sm) for summary information
##OBTENDO UMA TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS
binning(areascontaminadasMG)
## $x
## [1] 433.5 474.5 556.5
##
## $x.freq
## [1] 3 1 2
##
## $table.freq
## [1] 3 1 0 2
##
## $breaks
## [1] 413 454 495 536 577
summary(areascontaminadasMG) #dá o mínimo e o máximo
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 413 438 464 485 538 577
binning(areascontaminadasMG,nbins=5)
## $x
## [1] 429.4 495.0 560.6
##
## $x.freq
## [1] 3 1 2
##
## $table.freq
## [1] 3 0 1 0 2
##
## $breaks
## [1] 413.0 445.8 478.6 511.4 544.2 577.0
##HISTOGRAMA
hist(areascontaminadasMG)
hist(areascontaminadasMG,main=" ", xlab = "Áreas Contaminadas em MG", ylab = "Ano") #inches = polegadas
data()
hist(areascontaminadasMG,freq=F,breaks=12,col="lightgrey",xlab="Áreas Contaminadas em MG",ylab="Ano",main="")
rug(areascontaminadasMG)
grid()
##HISTOGRAMA (Com densidade empírica)
hist(areascontaminadasMG,freq=FALSE,breaks=12,col="lightblue",xlab = "Áreas Contaminadas em MG", ylab="Ano", main="Com curva de Densidade Empírica")
rug(jitter(areascontaminadasMG))
lines(density(areascontaminadasMG),col="red", lwd=2)
library(lattice)
## Warning: package 'lattice' was built under R version 3.1.3
densityplot(areascontaminadasMG)
##BOXPLOT
boxplot(areascontaminadasMG,col="lightgrey",ylab="Áreas Contaminadas em MG")
##GRÁFICO DE LINHAS
plot(areascontaminadasMG, type="l", xlab="Ano", ylab="Número de áreas Contaminadas em MG")
grid()
plot(areascontaminadasMG, type="o", xlab="Ano", ylab="Número de áreas Contaminadas em MG")
grid() #grid=permite criar referências no gráfico
plot(areascontaminadasMG, type="o", xlab="Ano", ylab="Número de áreas Contaminadas em MG", col="blue") #col=comando da cor
x <- rnorm(6)
areascontaminadasMG <- ts(x, start=c(413,577), frequency=1)
areascontaminadasMG
## Time Series:
## Start = 989
## End = 994
## Frequency = 1
## [1] -1.7387046 0.3720879 -1.1429707 0.7323174 0.8277616 -1.4227229
plot(areascontaminadasMG, type="l", xlab="Ano", ylab="Áreas Contaminadas MG")
##GRÁFICO DE PROBABILIDADE
qqnorm(areascontaminadasMG, ylab = "quantis amostrais",xlab = "quantis teóricos")
qqline(areascontaminadasMG)
##GRÁFICO DE BARRAS
areascontaminadasMG <- c(rep("2009",413), rep("2010",438),rep("2011",438),rep("2012",490),rep("2013",554),rep("2014",577))
areascontaminadasMG <- table(areascontaminadasMG)
barplot(areascontaminadasMG)
areascontaminadasMG
## areascontaminadasMG
## 2009 2010 2011 2012 2013 2014
## 413 438 438 490 554 577
table(areascontaminadasMG)
## areascontaminadasMG
## 413 438 490 554 577
## 1 2 1 1 1
barplot(areascontaminadasMG,horiz=TRUE)
Para melhor visualização e interpretação dos dados observando o número de áreas contaminadas no Estado de Minas Gerais a cada ano o gráfico de barras e o de linhas foram as melhores opções. Observando os gráficos é possível perceber que em 6 anos de levantamento de dados, de 2009 a 2014, em 2009 obteve-se o cadastro inicial de 413 áreas e em 2014 de 577 áreas representando um aumento de 28,42% do número inicial de áreas contaminadas cadastradas.