O objetivo dessa atividade é desenvolver os conhecimentos adquiridos na aula 03, explorando o uso dos gráficos aprendidos em outras bases de dados.
A base de dados escolhida foi“df_pokemon.RData”.
Ao longo desse trabalho utilizaremos nas análises os seguintes gráficos: histograma e box-plot. Realizei ainda uma análise descritiva (summary) de uma variável quantitativa da base escolhida.
1º Passo: Importar a base de dados:
load("C:/Users/loren/Downloads/Estatistica/Base_de_dados-master/df_pokemon.RData")
2º Passo: Conhecer os nossos dados:
Nessa etapa foi utilizada a “str” para obter um resumo das classes que compunham a nossa base.
str(df)
Classes 'tbl_df', 'tbl' and 'data.frame': 718 obs. of 22 variables:
$ id : num 1 2 3 4 5 6 7 8 9 10 ...
$ pokemon : chr "bulbasaur" "ivysaur" "venusaur" "charmander" ...
$ species_id : int 1 2 3 4 5 6 7 8 9 10 ...
$ height : int 7 10 20 6 11 17 5 10 16 3 ...
$ weight : int 69 130 1000 85 190 905 90 225 855 29 ...
$ base_experience: int 64 142 236 62 142 240 63 142 239 39 ...
$ type_1 : chr "grass" "grass" "grass" "fire" ...
$ type_2 : chr "poison" "poison" "poison" NA ...
$ attack : int 49 62 82 52 64 84 48 63 83 30 ...
$ defense : int 49 63 83 43 58 78 65 80 100 35 ...
$ hp : int 45 60 80 39 58 78 44 59 79 45 ...
$ special_attack : int 65 80 100 60 80 109 50 65 85 20 ...
$ special_defense: int 65 80 100 50 65 85 64 80 105 20 ...
$ speed : int 45 60 80 65 80 100 43 58 78 45 ...
$ color_1 : chr "#78C850" "#78C850" "#78C850" "#F08030" ...
$ color_2 : chr "#A040A0" "#A040A0" "#A040A0" NA ...
$ color_f : chr "#81A763" "#81A763" "#81A763" "#F08030" ...
$ egg_group_1 : chr "monster" "monster" "monster" "monster" ...
$ egg_group_2 : chr "plant" "plant" "plant" "dragon" ...
$ url_image : chr "1.png" "2.png" "3.png" "4.png" ...
$ x : num 32.8 33.3 33.9 -24.4 -24.6 ...
$ y : num 17.2 16.7 16.2 30.8 30.6 ...
3º Passo: Início da análise
O primeiro parâmentro que busquei analisar foi os tipos de pokemons existente na nossa base. Para uma visibilidade melhor utilizei o gráfico de pizza (pie).
Essa análise foi feita da seguinte forma: criei o vetor “tabela_pokemon”, a esse vetor foi atribuída a tabele df (nossa base) e a variável “Type 1” que é uma variável character.
Feito isso, chamei o gráfico de pie.
tabela_pokemon <- table(df$type_1) #Analisando os dados tipos
tabela_pokemon
bug dark dragon electric fairy fighting fire flying
63 28 24 36 17 25 46 3
ghost grass ground ice normal poison psychic rock
23 66 30 23 93 28 46 40
steel water
22 105
pie(tabela_pokemon,col= c("aliceblue", "blueviolet","cyan4","darkgreen","goldenrod3",
"honeydew","lavenderblush","lemonchiffon","mintcream","orange","plum3","papayawhip","rosybrown",
"sienna4","skyblue1","turquoise1","violetred","thistle3"),border = FALSE)
4º Passo: Montando o Histograma
Para a montagem do histograma era importante pensar em qual dado utilizar. Tendo como parâmetro analisar os pokemons com melhor ataque o primeiro histograma considerou esta variável.
hist(df$attack, col= "purple",
main= "Histograma de Attack",
xlab = "Attack",
ylab = "Frequência",
xlim =c(0,200),
ylim =c(0,200),
labels = TRUE,
border = FALSE)
Podemos dizer que o Histograma de Attack apresenta uma curva quase que simétrica.
Sendo está uma variável discreta, o gráfico nos mostra que há apenas um pokemon com ataque superior a 150, sendo este um pokemon dito como raro pois a sua frequência é baixa.
Ao todo temos 183 pokemons que possuem potência de ataque entre 50 e 100, esse grupo é o que apresenta maior frequência de ocorrrência no gráfico.
5º Passo: Montando o Box-Plot
Através da função Summary obtemos os seguintes dados da variável “Attack”, seu ponto mínimo (5), o primeiro quartil (53), mediana (73),média (74,85), terceiro quartil (95) e máximo (168).
Ao plotar o Box-Plot, fica evidente a presença de pontos outliers. No gráfico acima do ponto 150 há dois pontos, estes são os outliers. Na função summary o ponto máximo é marcado pelo número 168. Considerando que régua de frequência tem seu ponto máximo no 150, o máximo informado na função summary é o outliers da análise.
summary(df$attack)
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.00 53.00 73.00 74.85 95.00 165.00
boxplot(df$attack, col= "purple",
main="Box-Plot Attack",
xlab= "Attack",
ylab= "Frequência")