R - Aula 3, estatística descritiva e gráficos

Estatística descritiva

A estatística descritiva, parte da estatística que descreve (daí seu nome) os principais parâmetros e conformação dos dados. A partir disso pode-se tomar conclusões para exploração de dados e para futuras análises que podem vir a ser utilizadas. Os principais parâmetros dos dados que se deve estar atento são o tamanho amostral (n), as medidas de tendência central (média, moda e mediana), medidas de dispersão (variância e desvio padrão), a amplitude dos dados (menor e maior número) e à normalidade dos dados (distribuição gaussiana com a média e mediana sendo a medida central).
No R há diferentes funções e formas de se ter acesso aos parâmetros dos dados, porém é importante enteder todo o processo para análisar desde a simples até a mais complexa, que vai desde o carregamento de dados à intepretação do que foi obtido a partir da função tulizada nos dados.

Principais parâmetros para se interpretar dos dados na estatística descritiva:
1. Tamanho amostral
2. Medida de tendência central
3. Medida de dispersão
4. Amplitude dos dados
5. Tipo de distribuição dos dados

Funções de descrição

Há formas de se obter a descrição estatística dos dados manualmente a partir das funções mais manuais, tais como mean(), median(), sd() ou se(), min(), max(), etc.. porém essa forma de descrição dos dados se torna obsoleta ao momento que há formas muito mais simples e rápidas de se obter a descrição do que se deseja.
A função mais famosa para a estatística descritiva no R, é a chamada de summary(), que dá a amplitude dos dados, a média e mediana dos dados, porém não mede o tamanho amostral total, o tipo de distribição dos dados e nem a medida de disperção dos dados. Seu uso está descrito abaixo.

summary( )

Nesse exemplo, será utilizada uma tabela que automaticamente vem no R (sim, há tabelas que já vêm automaticamente já baixadas no R) chamada de iris, Esta tabela possui as características de algumas espécies de flores, tais como tamanho e largura da pétala e sépala.

summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

summary() retorna boa parte da estatística descritiva como os quartis, média, mediana, mínimo, máximo e as espécies que há na tabela. É importante saber que de ante-mão, quanto mais próxima a mediana estiver da média, maior a probablidade de a destribuição dos dados ser gaussiana. Esta forma de descrição é mais utilizada para uma obtenção rápida dos parâmetros dos dados.

describe( )

A função describe(), da biblioteca psych é a mais utilizada no R, pois retorna tudo o que é de mais importante para o entendimento dos dados a partir de sua descrição e dá uma boa base para a posterior estatística inferencial. Seu uso está descrito a seguir.

library(psych)
describe(iris)

             vars   n mean   sd median trimmed  mad min max range  skew
Sepal.Length    1 150 5.84 0.83   5.80    5.81 1.04 4.3 7.9   3.6  0.31
Sepal.Width     2 150 3.06 0.44   3.00    3.04 0.44 2.0 4.4   2.4  0.31
Petal.Length    3 150 3.76 1.77   4.35    3.76 1.85 1.0 6.9   5.9 -0.27
Petal.Width     4 150 1.20 0.76   1.30    1.18 1.04 0.1 2.5   2.4 -0.10
Species*        5 150 2.00 0.82   2.00    2.00 1.48 1.0 3.0   2.0  0.00
             kurtosis   se
Sepal.Length    -0.61 0.07
Sepal.Width      0.14 0.04
Petal.Length    -1.42 0.14
Petal.Width     -1.36 0.06
Species*        -1.52 0.07

Esta função retorna uma descrição bem mais detalahada a respeito dos dados, como medidas de tendência central, medida de dispersão, tamanho amostral total (150 nesse caso), a ambplitude separada do mínimo e máximo, o skewness dos dados, que é uma medida de uniformidade, quanto maior for esse parâmetro, mais os dados tenderão a ser assimétricos e a curtose que é um tipo de medida de concentração dos dados, quanto maior a curtose, menos concentrados estão os dados e maior é a probabilidade de existir outliers.

Interpretação gráfica

Para entender de uma forma mais fácil a distribuição dos dados, porém, é recomendado plotar histogramas (gráfico abaixo) e a partir dele, de forma visual, ainda que preliminar, ver como os dados se distribuem.

Pode-se dizer que apesar da longa calda no final do eixo x, o padrão de distribuição para a largura da sépala parece ser normal (Lembrando que toda essa vizualização dos dados é apenas preliminar). Para plotar estes gráficos (como o histograma acima), é também necessário utilizar algumas funções e seguir a alguns axiomas básicos.

Gráficos

Um gráfico no R, pode ser plotados de maneiras inimagináveis, desde gráficos mais simples, como um gráfico de barras ou um histograma, até gráficos em 3D animados e que interagem com o cursor do mouse. Para tal, porém, alguns passos devem ser seguidos e algumas ideias têm de estar claras.
1. Para se plotar um gráfico de linha ou pontos, precisa-se de variáveis quantitativas no eixo x e y
2. Para um gráfico de barras, precisa-se de uma variável de agrupamento* no eixo x e quantitativa no y
3. Para se plotar um boxplot, geralmente se utiliza duas variáveis categóricas, uma no x e outra no y
*Variável de agrupamento é aquela que divide toda a amostra em grupos. e.g coletas em três diferentes praias, caracterizam a coleta com uma variável de agrupamento com 3 grupos, as praias.

Atributos

Caso seja necessário editar algo do gráfico, há formas de fazer isso com as funções:

col="white" (ou nome de qualquer cor entre aspas)
lwd=3 (qualquer número para mudar a largura da linha)
cex=2 (tamanho dos pontos)
pch=13 (de 1 - 25, para definir o formato do ponto)
width=3 (largura dos boxplots ou gráfico de barras)
xlab="qqr coisa" (para definir o que estará escrito no eixo x)
ylab="qqr coisa" (para definir o que estará escrito no eixo y)
main="qqr coisa" (para o título principal do gráfico)
OBS.: Se uma variável categórica for definida onde se define cor, tamanho dos pontos ou largura dos boxplots, estes tomarão diferentes proporções de acordo com o grupo a qual o ponto, boxplot, etc pertencem.

Boxplot

Os gráficos são muito importantes para uma boa interpretação visual dos dados, pois ele resume dados enormes em apenas uma ou poucas figuras assim como será representado aqui com a tabela de dados iris, vejamos.
Se por exemplo, é necessário que seja plotado um gráfico que mostre a diferença de larguras das pétalas e sépalas das espécies da tabela iris, pode-se neste caso, plotar um boxplot com as espécies como variável de agrupamento. Obs.: o sinal $ se utiliza quando eu quero selecionar alguma coluna específica da tabela dos dados para os gráficos.

plot(x = iris$Species, y = iris$Petal.Length)  # Variável categórica (x) por uma quantitativa (y)
plot(x = iris$Species, y = iris$Petal.Width)

Gráfico de pontos

Caso eu queira comparar duas variáveis quantitativas sem comparar com alguma variável categórica, pode-se utilizar do gráfico de pontos.

plot(x = iris$Petal.Width, y = iris$Petal.Length, pch = 16, col = iris$Species, ylab = "Comprimento da pétala", 
    xlab = "Largura da pétala")

Gráfico de linhas

Especialmente para o gráfico de linhas no R, a utilização dele vem a partir de um teste estatístico chamado de regressão. Este teste mostra a força de relação entre duas variáveis e quanto mais a linha que ele gera é parecida com a distribuição dos pontos, maior é a relação entre eles.
Também diferentemente dos outros, a linha não pode ser plotada com a função plot() e há de ser adicionada após o gráfico já estar plotado com a função lines().

regiris = lm(Petal.Length ~ Petal.Width, data = iris)  #Regressão  
plot(x = iris$Petal.Width, y = iris$Petal.Length, pch = 16, col = iris$Species, ylab = "Comprimento da pétala", 
    xlab = "Largura da pétala")  #gráfico de pontos  
lines(iris$Petal.Width, fitted(regiris), col = "darkred", lwd = 2)  # adicionando linha

lines() indica que uma linha será adicionada por cima do gráfico de pontos com a opção fitted() que mostra como a linha irá se comportar no gráfico. É perceptível que a relação entre a largura e o comprimento da pétala é bem significativa.

Histogramas

Os histogramas servem para plotar variáveis que podem ser ordinais e contínuas, como idade, tamanho de algo, peso, comprimento de algo, abundância de alguma espécie, etc. Como já visto anteriormente, ele também serve para observar de forma preliminar a distribuição das frequências dos dados e interpretar o tipo de distribuição.

hist(iris$Sepal.Width, col = "lightblue", main = "Largura da sépala", xlab = "", 
    ylab = "Frequência")

Em resumo…

A estatística descritiva é uma das partes iniciais e mais importantes antes de se tomar qualquer conclusão sobre meus gráficos, é importante explorá-los.
As principais formas de descrever os dados no R se dá de três formas:
1. Análise manual (mais bruta)
2. summary() que é o mais famoso, contudo não é o mais completo
3. describe() é o mais completo, pois dá o resumo de tudo que é de mais importante para a descrição dos dados
O histograma é um tipo de gráfico preliminar muito importante para a análise exploratória, pois ele faz um resumo seguro e literal dos dados.
Dependendo do tipo dos dados, sempre haverá um tipo de gráfico mais adequado para representá-los. O tipo de gráfico variará de acordo com as variáveis categóricas e quantitativas. Os principais tipos de gráficos são:
1. Barra, que representa melhor as variáveis categóricas e seus pontos máximos
2. Boxplot, que melhor representa as variáveis categóricas x quantitativas, pois traz grupos(x) e amplitude(y) 3. Pontos ou dispersão que representa a dispersão de duas variáveis uma em relação a outra e este representa muito bem variáveis quantitativas x quantitativas
4. Linha, muito utilizada para mostrar os segmentos dos pontos, ótimas para plotar variáveis espaciais (latitudes, longitudes) e para relações entre duas variáveis quantitativas com alguns modelos estatísticos aplicados.

Exercício

Instruções

Para esse exercício será necessária apenas a entrega do script do R. Com os respectivos código digitados. Para questões dissertativas responda com comentários nos scripts do R utilizando do `#` no início de cada linha.

Bora que tem exercício de R!

Questões

1. Porque utilizar a estatística descritiva?

2. Quais os principais parâmetros da estatítica descritiva?

3. Quais as principais funções de descrição de dados?

4. A função summary() é melhor do que a describe()? Por que?

5. Qual a importância do histograma na descrição dos dados?

6. Qual tipo de gráfico é mais recomendado para dados com:

Apenas variáveis categóricas
Apenas variáveis quantitativas
Variáveis categóricas x quantitativas
Variáveis quantitativas x quantitativas

7. Com as tabelas utilizadas na atividade da aula passada, escolha uma ou mais variáveis da tabela a partir do símbolo $ após o nome dado à tabela e faça uma estatística descritiva com a função que achas melhor para os dados.

8. Faça um histograma a partir da(s) variável(is) escolhida(s), modifique os títulos dos eixos e a cor desse histograma.

9. Faça uma explicação breve da distribuição dos dados de acordo com os resultados da questão 7 e 8.

10. Ainda na tabela da atividade passada, escolha duas variáveis quantitativas e uma categórica, plote gráficos de barra, boxplot e ponto de acordo com as variáveis escolhidas. Dê cor aos pontos de acordo com a variável categórica escolhida, mude também as formas dos pontos, escolha um entre essas formas (13, 15, 16, 18).

R - Aula 3, estatística descritiva e gráficos