Nessa terceira atividade, irei analisar a base de dados df_pokemon.RData. Com isso, o primeiro passo será carregá-la.
# Carregando a base de dados
load("C:/Users/thaya/Desktop/Base_de_dados-master/df_pokemon.RData")
str(df)
Classes 'tbl_df', 'tbl' and 'data.frame': 718 obs. of 22 variables:
$ id : num 1 2 3 4 5 6 7 8 9 10 ...
$ pokemon : chr "bulbasaur" "ivysaur" "venusaur" "charmander" ...
$ species_id : int 1 2 3 4 5 6 7 8 9 10 ...
$ height : int 7 10 20 6 11 17 5 10 16 3 ...
$ weight : int 69 130 1000 85 190 905 90 225 855 29 ...
$ base_experience: int 64 142 236 62 142 240 63 142 239 39 ...
$ type_1 : chr "grass" "grass" "grass" "fire" ...
$ type_2 : chr "poison" "poison" "poison" NA ...
$ attack : int 49 62 82 52 64 84 48 63 83 30 ...
$ defense : int 49 63 83 43 58 78 65 80 100 35 ...
$ hp : int 45 60 80 39 58 78 44 59 79 45 ...
$ special_attack : int 65 80 100 60 80 109 50 65 85 20 ...
$ special_defense: int 65 80 100 50 65 85 64 80 105 20 ...
$ speed : int 45 60 80 65 80 100 43 58 78 45 ...
$ color_1 : chr "#78C850" "#78C850" "#78C850" "#F08030" ...
$ color_2 : chr "#A040A0" "#A040A0" "#A040A0" NA ...
$ color_f : chr "#81A763" "#81A763" "#81A763" "#F08030" ...
$ egg_group_1 : chr "monster" "monster" "monster" "monster" ...
$ egg_group_2 : chr "plant" "plant" "plant" "dragon" ...
$ url_image : chr "1.png" "2.png" "3.png" "4.png" ...
$ x : num 32.8 33.3 33.9 -24.4 -24.6 ...
$ y : num 17.2 16.7 16.2 30.8 30.6 ...
Agora, irei colocar um resumo dos dados.
summary(df)
id pokemon species_id height
Min. : 1.0 Length:718 Min. : 1.0 Min. : 1.00
1st Qu.:180.2 Class :character 1st Qu.:180.2 1st Qu.: 6.00
Median :359.5 Mode :character Median :359.5 Median : 10.00
Mean :359.5 Mean :359.5 Mean : 11.41
3rd Qu.:538.8 3rd Qu.:538.8 3rd Qu.: 14.00
Max. :718.0 Max. :718.0 Max. :145.00
weight base_experience type_1 type_2
Min. : 1.0 Min. : 36.00 Length:718 Length:718
1st Qu.: 95.0 1st Qu.: 65.25 Class :character Class :character
Median : 280.0 Median :147.00 Mode :character Mode :character
Mean : 568.2 Mean :141.55
3rd Qu.: 609.5 3rd Qu.:177.00
Max. :9500.0 Max. :608.00
attack defense hp special_attack
Min. : 5.00 Min. : 5.00 Min. : 1.00 Min. : 10.00
1st Qu.: 53.00 1st Qu.: 50.00 1st Qu.: 50.00 1st Qu.: 45.00
Median : 73.00 Median : 65.00 Median : 65.00 Median : 65.00
Mean : 74.85 Mean : 70.67 Mean : 68.37 Mean : 68.47
3rd Qu.: 95.00 3rd Qu.: 85.00 3rd Qu.: 80.00 3rd Qu.: 90.00
Max. :165.00 Max. :230.00 Max. :255.00 Max. :154.00
special_defense speed color_1 color_2
Min. : 20.00 Min. : 5.00 Length:718 Length:718
1st Qu.: 50.00 1st Qu.: 45.00 Class :character Class :character
Median : 65.00 Median : 65.00 Mode :character Mode :character
Mean : 69.09 Mean : 65.72
3rd Qu.: 85.00 3rd Qu.: 85.00
Max. :230.00 Max. :160.00
color_f egg_group_1 egg_group_2 url_image
Length:718 Length:718 Length:718 Length:718
Class :character Class :character Class :character Class :character
Mode :character Mode :character Mode :character Mode :character
x y
Min. :-49.152 Min. :-45.793
1st Qu.:-17.695 1st Qu.:-17.293
Median : 0.705 Median : -0.628
Mean : 0.000 Mean : 0.000
3rd Qu.: 15.905 3rd Qu.: 18.155
Max. : 53.142 Max. : 46.593
Dentre as variáveis quantitativas contidas no arquivo, a escolhida para análise foi a altura. O estudo se iniciará com um resumo dessa variável e um histograma, o qual será interpretado logo mais.
# Altura
summary(df$height)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 6.00 10.00 11.41 14.00 145.00
hist(df$height, col =c("yellow1"),
main = "Altura",
xlab = "Altura",
ylab = "Frequência",
ylim = c(0,600))
boxplot(df$height, col = "#5192cf",
main="Altura")
# Estudo dos outliers
median(df$height) #mediana
[1] 10
mean(df$height) #média
[1] 11.40669
O primeiro gráfico aqui apresentado é um histograma assimétrico, ou seja, a maior parte dos dados está localizada, nesse caso, em duas categorias. A categoria com maior frequência é a de ‘pokemons’ que medem de 1-10 (não encontrei a especificação da unidade de medida utilizada), seguida pela categoria de ‘pokemons’ que medem de 10-20. Pode-se observar, com auxílio do summary, que nenhum pokemon mede mais que 145. A presença de barras bem isoladas condena a existência de outliers, mas esse fato será melhor comentado a seguir.
Como mencionado, com o box-plot percebe-se melhor os outliers, isto é, os valores muito fora da curva. A altura mínima da um pokémon é de 1 e a máxima de 145. O primeiro quartil é 6, enquanto a mediana é 10 e o terceiro quartil 14.