Objetivo

O objetivo dessa apresentação foi aprender as funcionalidades básicas da ferramente RMarkdown no RStudio.

Portanto, a partir de um banco de dados na internet, foi gerado esse relatório inlustrativo para a disciplina.

Os dados foram adquiridos pelo site, assim como as informações contidos nesse relatório.

Análise Exploratória de Dados

Podemos pensar a análise exploratório de dados de duas formas:

Estarão disponíveis todos os dados utilizados nesa anàlise exploratória:

Salve-os cada um em um arquivo .csv e importe para o R software.

##    local parcela arvore fuste cap   h                especie
## 1 chauas       1      1     1 210  80      Myrcia sulfiflora
## 2 chauas       1      3     1 170  80      Myrcia sulfiflora
## 3 chauas       1      4     1 720  70 Syagrus romanzoffianus
## 4 chauas       1      5     1 200  80   Tabebuia cassinoides
## 5 chauas       1      6     1 750 170                indet.1
## 6 chauas       1      7     1 320  80      Myrcia sulfiflora

Estatísticas Descritivas

A forma mais direta de se obter um resumo estatístico das variáveis num ‘data.frame’ é através da função ‘summary’. Ela apresenta estatísticas descritivas para as variáveis numéricas.

summary(cax)
##     local              parcela          arvore          fuste       
##  Length:1027        Min.   :1.000   Min.   :  1.0   Min.   : 1.000  
##  Class :character   1st Qu.:2.000   1st Qu.: 51.0   1st Qu.: 1.000  
##  Mode  :character   Median :3.000   Median : 99.0   Median : 1.000  
##                     Mean   :2.821   Mean   :108.5   Mean   : 1.711  
##                     3rd Qu.:4.000   3rd Qu.:159.0   3rd Qu.: 2.000  
##                     Max.   :5.000   Max.   :291.0   Max.   :11.000  
##       dap               h            especie         
##  Min.   :  20.0   Min.   :  5.00   Length:1027       
##  1st Qu.: 190.0   1st Qu.: 60.00   Class :character  
##  Median : 270.0   Median : 90.00   Mode  :character  
##  Mean   : 299.7   Mean   : 90.28                     
##  3rd Qu.: 360.0   3rd Qu.:110.00                     
##  Max.   :2100.0   Max.   :480.00

Gráficos de Densidade

Uma outra forma de explorar a distribuição de uma variável é trabalharmos com um gráfico de densidade. O gráfico de densidade é gerado como se fosse um histograma com uma classe móvel, isto é, a classe que tem uma certa amplitude, se move da esquerda para direita e em cada ponto estima a densidade probabilística da variável. Tecnicamente, a função ‘density’ é um estimador de densidade de kernel gaussiano.

O parâmetro que controla o comportamento do estimador de densidade é a amplitude da janela de observação bandwidth (‘bw’). Janela pequenas, geram estimativas de densidade com viés pequeno, mas com variância grande. Janelas grandes geram estimativas de densidade com viés grande, mas pequena variância. O ideal é o equilíbrio entre os extremos e o R possui algumas funções que buscam automaticamente da bandwidth apropriada, mas o analista tem controle sobre esse parâmetro:

plot( density(cax$dap, bw=0.5), col="red" )
lines( density(cax$dap, bw=5), col="blue" )
lines( density(cax$dap, bw=1.5), col="green" )

Gráfico de Variável Quantitativa por Classes

A maneira clássica de se apresentar uma variável quantitativa associada a uma classe é o famoso gráfico de barras.

Vejamos um exemplo comum em fitossociologia que é apresentar a densidade relativa das espécies:

da = table( cax$especie[ cax$local=="jureia" ] )
da = sort(da, decreasing=TRUE )
dr = da/sum(da) * 100
barplot( dr )

barplot( dr , xlab="Densidade Relativa (%)", horiz=T, las=1)

Análise Gráfica: Relação entre Variáveis

Gráfico de Dispersão

Os gráficos de dispersão (ou gráficos x-y) são os gráficos mais utilizados para estudar a relação entre duas variáveis.

A função genérica no R para gráficos de dispersão é a função ‘plot’:

a função ‘plot’, o primeiro argumento é plotado nas abscissas (eixo-x) e o segundo argumento nas ordenadas (eixo-y).

Ao investigar a relação entre duas variáveis, freqüentemente a densidade de pontos no gráfico torna o julgamento da relação problemática, pois é muito difícil considerar a variação da densidade ao se julgar a relação no gráfico de dispersão.

Há no R uma função adicional que auxilia o julgamento adicionando ao gráfico de dispersão uma linha não-paramétrica de tendência (smooth ou suavização):

scatter.smooth( cax$dap, cax$h , col="red", xlab="DAP (cm)", ylab="Altura (dm)", main="Caixetais")

Conclusão

Foram aprofundados todos os os pricípios básico em carater introdutório da ferramente RMarkdown na construção desse artigo, assim como a prática dessa ferramenta no RStudio. Qualquer dúvidas ou curiosidade sobre os assuntos abordados pode entrar em contato com ou procure as referências, sendo a fonde de informação desse artigo. Obrigado!