Iniciando com qplot

Ele nos proporciona uma grande variedade de gráficos com sua primeira função ggplot2, qplot (), que é a abreviação de plotagem rápida. O qplot facilita produzir plotagens complexas, geralmente exigindo várias linhas de código e usando outras plotagens do sistema, em uma linha. O qplot () pode fazer isso porque é baseado na gramática de gráficos, o que permite criar uma descrição simples, mas expressiva. Começaremos simples para que você possa avançar. Adotaremos algumas terminologias do ggplot2 que serão usadas. O qplot foi projetado para ser muito semelhante ao plot, o que deve tornar fácil se você já está familiarizado com a plotagem em R. Lembre-se, durante uma R sessão, você pode obter um resumo de todos os argumentos para qplot com a ajuda do R, qplot.

Datasets

usaremos apenas uma fonte de dados, para que você possa se familiarizar com os detalhes da plotagem em vez de ter que se familiarizar com diferentes conjuntos de dados. O conjunto de dados de diamantes consiste em preços e informações de qualidade cerca de 54.000 diamantes e está incluído no pacote ggplot2. Os dados contém os quatro Cs de qualidade, quilate, corte, cor e clareza do diamante; e cinco medidas físicas, profundidade, tabela, x, y e z.

library(ggplot2)
data("diamonds")
head(diamonds)
## # A tibble: 6 x 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23  Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2 0.21  Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3 0.23  Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4 0.290 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5 0.31  Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6 0.24  Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

O conjunto de dados não foi bem limpo, além de demonstrar relações interessantes sobre diamantes, também demonstra alguma qualidade de dados problemas Também usaremos outro conjunto de dados, dsmall, que é uma amostra aleatória de 100 diamantes. Usaremos esses dados para gráficos mais apropriados para conjuntos de dados menores.

set.seed(1410) # Make the sample reproducible
dsmall <- diamonds[sample(nrow(diamonds), 100), ]

Uso Básico

Assim como no gráfico, os dois primeiros argumentos para qplot () são x e y, fornecendo o coordenadas x e y para os objetos no gráfico. Há também um opcional argumento de dados. Se isso for especificado, qplot () procurará dentro desse quadro de dados antes de procurar objetos no seu espaço de trabalho. O uso do argumento data é recomendado: é uma boa ideia manter os dados relacionados em um único quadro de dados. E se você não especificar um, qplot () tentará criar um para você e pode parecer no lugar errado. Aqui está um exemplo simples do uso de qplot (). Produz um gráfico de dispersão mostrando a relação entre o preço e quilates (peso) de um diamante.

qplot(carat, price, data = diamonds)

O gráfico mostra uma forte correlação com valores discrepantes notáveis e algumas estrias verticais interessantes. O relacionamento parece exponencial, portanto, o primeira coisa a fazer é transformar as variáveis. Porque qplot () aceita funções de variáveis como argumentos, e plotaremos log (preço) vs. log (quilate):

qplot(log(carat), log(price), data = diamonds)

O relacionamento agora parece linear. Com esse excesso de trama, porém, nós precisamos ser cautelosos ao tirar conclusões firmes. Os argumentos também podem ser combinações de variáveis existentes, portanto, se estivermos curiosos sobre a relação entre o volume do diamante (aproximado por x * y * z) e seu peso, poderíamos fazer o seguinte:

qplot(carat, x * y * z, data = diamonds)

Esperamos que a densidade (peso / volume) dos diamantes seja constante, e veja uma relação linear entre volume e peso. A maioria de os diamantes parecem cair ao longo de uma linha, mas existem alguns valores extremos.

Cor, tamanho, forma e outros atributos estéticos

Com plot, é sua responsabilidade converter uma variável categórica nos seus dados (por exemplo, “maçãs”, “bananas”, “peras”) em algo que a plotagem sabe como uso (por exemplo, “vermelho”, “amarelo”, “verde”). O qplot pode fazer isso por você automaticamente, e fornecerá automaticamente uma legenda que mapeia os atributos exibidos para os valores dos dados. Isso facilita a inclusão de dados adicionais na plotagem. No próximo exemplo, aumentamos o gráfico de quilates e o preço com informações sobre a cor e o corte do diamante.

qplot(carat, price, data = dsmall, colour = color)

qplot(carat, price, data = dsmall, shape = cut)
## Warning: Using shapes for an ordinal variable is not advised

Cor, tamanho e forma são exemplos de atributos estéticos, visuais e propriedades que afetam a maneira como as observações são exibidas. Para cada atributo estético existe uma função, chamada de escala, que mapeia valores de dados para validar os valores para essa estética. É essa escala que controla a aparência dos pontos e a legenda associada. Por exemplo, nas plotagens acima, a cor dos mapas de escala é J para roxo e F para verde

Você também pode definir manualmente a estética usando I (), por exemplo, color = I (“red”) ou tamanho = I (2). Para conjuntos de dados grandes, como os dados de diamantes, os pontos semitransparentes costumam ser úteis para aliviar parte da plotagem. Para Para criar uma cor semi-transparente, você pode usar a estética alfa, que leva um valor entre 0 (completamente transparente) e 1 (opaco completo). Isto é geralmente útil para especificar a transparência como uma fração, por exemplo, 1/10 ou 1/20, como o denominador especifica o número de pontos que devem ser traçados em excesso para obter uma cor completamente opaca.

qplot(carat, price, data = diamonds, alpha = I(1/10))

qplot(carat, price, data = diamonds, alpha = I(1/100))

qplot(carat, price, data = diamonds, alpha = I(1/200))

Diferentes tipos de atributos estéticos funcionam melhor com diferentes tipos de variáveis. Por exemplo, cor e forma funcionam bem com variáveis categóricas, enquanto o tamanho funciona melhor com variáveis contínuas. A quantidade de dados também faz a diferença: se houver muitos dados, como nos gráficos acima, eles podem ser difícil distinguir os diferentes grupos.

Referências

Schmuller, Joseph. Análise Estatística com R - Para leigos - Tradução da 2a edição. Alta Books Editora. 2019.

Oliveira, Paulo; Guerra, Saulo; McDonnell, Robert. Ciência de Dados com R. Introdução.Editora IBPAD. Brasília. 2018. Disponível em: {https://cdr.ibpad.com.br/cdr-intro.pdf}