Abstract
Aprendendo a ferramenta RMarkdown na disciplina de Tópicos especiais em Estatística e Experimentação Agropecuária (Data Science) da Universidade Federal de Lavras (UFLA). Professor Paulo Henrique Sales Guimarães.O objetivo dessa apresentação foi aprender as funcionalidades básicas da ferramente RMarkdown no RStudio.
Portanto, a partir de um banco de dados na internet, foi gerado esse relatório inlustrativo para a disciplina.
Os dados foram adquiridos pelo site, assim como as informações contidos nesse relatório.
Podemos pensar a análise exploratório de dados de duas formas:
Estarão disponíveis todos os dados utilizados nesa anàlise exploratória:
Salve-os cada um em um arquivo .csv e importe para o R software.
## local parcela arvore fuste cap h especie
## 1 chauas 1 1 1 210 80 Myrcia sulfiflora
## 2 chauas 1 3 1 170 80 Myrcia sulfiflora
## 3 chauas 1 4 1 720 70 Syagrus romanzoffianus
## 4 chauas 1 5 1 200 80 Tabebuia cassinoides
## 5 chauas 1 6 1 750 170 indet.1
## 6 chauas 1 7 1 320 80 Myrcia sulfiflora
A forma mais direta de se obter um resumo estatístico das variáveis num ‘data.frame’ é através da função ‘summary’. Ela apresenta estatísticas descritivas para as variáveis numéricas.
summary(cax)
## local parcela arvore fuste
## Length:1027 Min. :1.000 Min. : 1.0 Min. : 1.000
## Class :character 1st Qu.:2.000 1st Qu.: 51.0 1st Qu.: 1.000
## Mode :character Median :3.000 Median : 99.0 Median : 1.000
## Mean :2.821 Mean :108.5 Mean : 1.711
## 3rd Qu.:4.000 3rd Qu.:159.0 3rd Qu.: 2.000
## Max. :5.000 Max. :291.0 Max. :11.000
## dap h especie
## Min. : 20.0 Min. : 5.00 Length:1027
## 1st Qu.: 190.0 1st Qu.: 60.00 Class :character
## Median : 270.0 Median : 90.00 Mode :character
## Mean : 299.7 Mean : 90.28
## 3rd Qu.: 360.0 3rd Qu.:110.00
## Max. :2100.0 Max. :480.00
Uma outra forma de explorar a distribuição de uma variável é trabalharmos com um gráfico de densidade. O gráfico de densidade é gerado como se fosse um histograma com uma classe móvel, isto é, a classe que tem uma certa amplitude, se move da esquerda para direita e em cada ponto estima a densidade probabilística da variável. Tecnicamente, a função ‘density’ é um estimador de densidade de kernel gaussiano.
O parâmetro que controla o comportamento do estimador de densidade é a amplitude da janela de observação bandwidth (‘bw’). Janela pequenas, geram estimativas de densidade com viés pequeno, mas com variância grande. Janelas grandes geram estimativas de densidade com viés grande, mas pequena variância. O ideal é o equilíbrio entre os extremos e o R possui algumas funções que buscam automaticamente da bandwidth apropriada, mas o analista tem controle sobre esse parâmetro:
plot( density(cax$dap, bw=0.5), col="red" )
lines( density(cax$dap, bw=5), col="blue" )
lines( density(cax$dap, bw=1.5), col="green" )
A maneira clássica de se apresentar uma variável quantitativa associada a uma classe é o famoso gráfico de barras.
Vejamos um exemplo comum em fitossociologia que é apresentar a densidade relativa das espécies:
da = table( cax$especie[ cax$local=="jureia" ] )
da = sort(da, decreasing=TRUE )
dr = da/sum(da) * 100
barplot( dr )
barplot( dr , xlab="Densidade Relativa (%)", horiz=T, las=1)
Os gráficos de dispersão (ou gráficos x-y) são os gráficos mais utilizados para estudar a relação entre duas variáveis.
A função genérica no R para gráficos de dispersão é a função ‘plot’:
a função ‘plot’, o primeiro argumento é plotado nas abscissas (eixo-x) e o segundo argumento nas ordenadas (eixo-y).
Ao investigar a relação entre duas variáveis, freqüentemente a densidade de pontos no gráfico torna o julgamento da relação problemática, pois é muito difícil considerar a variação da densidade ao se julgar a relação no gráfico de dispersão.
Há no R uma função adicional que auxilia o julgamento adicionando ao gráfico de dispersão uma linha não-paramétrica de tendência (smooth ou suavização):
scatter.smooth( cax$dap, cax$h , col="red", xlab="DAP (cm)", ylab="Altura (dm)", main="Caixetais")
Foram aprofundados todos os os pricípios básico em carater introdutório da ferramente RMarkdown na construção desse artigo, assim como a prática dessa ferramenta no RStudio. Qualquer dúvidas ou curiosidade sobre os assuntos abordados pode entrar em contato com carloszarzar_@hotmail.com ou procure as referências, sendo a fonde de informação desse artigo. Obrigado!