Atividade 4 - Gráfico para variáveis quantitativas

Fazer uma publicação no RPUBS de um histograma e uma análise descritiva (summary) em uma variável quantitativa da base de dados chamada “df_pokemon.RData”.

A critério de treino, fiz um comparativo entre os gráficos de Pizza e de Barra.

load("C:/Users/tauan/Desktop/Base_de_dados-master/df_pokemon.RData")
head(df)
##   id    pokemon species_id height weight base_experience type_1 type_2 attack
## 1  1  bulbasaur          1      7     69              64  grass poison     49
## 2  2    ivysaur          2     10    130             142  grass poison     62
## 3  3   venusaur          3     20   1000             236  grass poison     82
## 4  4 charmander          4      6     85              62   fire   <NA>     52
## 5  5 charmeleon          5     11    190             142   fire   <NA>     64
## 6  6  charizard          6     17    905             240   fire flying     84
##   defense hp special_attack special_defense speed color_1 color_2 color_f
## 1      49 45             65              65    45 #78C850 #A040A0 #81A763
## 2      63 60             80              80    60 #78C850 #A040A0 #81A763
## 3      83 80            100             100    80 #78C850 #A040A0 #81A763
## 4      43 39             60              50    65 #F08030    <NA> #F08030
## 5      58 58             80              65    80 #F08030    <NA> #F08030
## 6      78 78            109              85   100 #F08030 #A890F0 #DE835E
##   egg_group_1 egg_group_2 url_image         x        y
## 1     monster       plant     1.png  32.82239 17.21614
## 2     monster       plant     2.png  33.32643 16.71226
## 3     monster       plant     3.png  33.93778 16.17232
## 4     monster      dragon     4.png -24.36338 30.78973
## 5     monster      dragon     5.png -24.57820 30.60161
## 6     monster      dragon     6.png -25.50657 29.77037
table(df$type_1)
## 
##      bug     dark   dragon electric    fairy fighting     fire   flying 
##       63       28       24       36       17       25       46        3 
##    ghost    grass   ground      ice   normal   poison  psychic     rock 
##       23       66       30       23       93       28       46       40 
##    steel    water 
##       22      105
barplot(table(df$type_1),
        col="skyblue",
        main="Pokemons por tipo")

pie(table(df$type_1))

O que dá pra notar é que o gráfico de barras para a variável “Tipo de Pokemon” tem muito melhor visualização. Entretanto, tentando usa-lo pra uma variável quanti, ele já não funciona tão bem. E aqui começa o estudo do histograma.

Separei primeiro a variável Velocidade. Usei função sumário pra visualização dos parâmetros.

summary(df$speed)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00   45.00   65.00   65.72   85.00  160.00

Temos aqui o caso de menor velocidade: 5um Mediana em 65um Máxima 160um (um = unidades de medida, não informada na tabela)

Entretanto não temos um número exato de amostras nesse sumário. Pra melhor entendimento da situação fiz uso de dois gráficos, a critério de teste. O primeiro, um gráfico de barras. Mostrando exatamente a quantidade de casos e suas velocidades,

barplot(df$speed, ylab= "Velocidade", xlab="Pokes", col = "black")

Difícil interpretação e vizualização. Praticamente inútil pra análise de dados de forma quantitativa. A melhor alternativa é o histogram. Feito a seguir:

hist(df$speed, main = "Velocidade dos Pokes",
     col = "pink",
     xlab = "Velocidade", 
     ylab = "Frequência",
     labels = TRUE,
     border = FALSE,
     ylim = c(0, 220),
     xlim = c (0, 180),
     xaxp = c (0, 180, 10))

Com esse histograma é possível fazer uma análise mais clara da base de dados. É sabido que 27 Pokemons possuem velocidade entre 0 e 20 um. E que 125 Pokemóns possuem velocidade entre 18 e 36um. Com isso, é possível verificar a quantidade de amostras com velocidades aproximadas, dentro de limites específicos.

É interessante, porém, perceber. Que a análise não é conclusiva no quesito comparativo. Por exemplo: plotando o histograma de altura ou peso dos pokemóns, é inconclusivo se os mais rápidos são necessariamente os mais leves ou menores.

hist(df$height,  
     main = "Altura dos Pokemons", 
     xlab = "Altura", ylab = "Número de pokes", 
     col = c("lightblue"), 
     border = FALSE, 
     xlim = c(0,70), ylim = c(0,420),
     labels = TRUE)

hist (df$weight,
      main = "Peso do Pokemons",
      xlab= "Peso",
      ylab = "Frequência",
      border = FALSE,
      labels = TRUE,
      col = "lightgreen",
      ylim = c (0, 650),
      xlim = c (0, 10000 ))

Fazendo a avaliação, os dados são inconclusivos, comparativamente falando. Não é possível afirmar, apenas com base nos gráficos, que o mais alto é também o mais pesado. Seria comparar elefante com girafa. Esse tipo de gráfico mostra números de amostras dentro de um range. Cumpre objetivo quantitativo. Um gráfico de barras ou de pizza, entretanto, não servem (como foi visto) pra esse tipo de análise.