Matrícula: 20241520033

Professor: Steven Dutt-Ross

Abri o arquivo “df-pokemon.Rdata”.

load("C:/Users/Helena/Base_de_dados-master/df_pokemon.RData")
View(df)

Baixei os pacotes necessários para o exercício.

library(dplyr)

## 
## Anexando pacote: 'dplyr'

## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag

## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union

library(reactable)
library(ggplot2)
library(readxl)

Perguntas a serem respondidas:

1 - Um resumo (média, mediana, desvio-padrão, etc) de uma variável quantitativa por grupos de uma variável qualitativa.

df %>% group_by(egg_group_2) %>% summarise(mediana=round(median(speed),2),
                                     média=round(mean(speed),2),
                                     desvio_padrão=round(sd(speed),2)) %>%
  reactable()

R: Após executar o comando acima, pude observar que foi feita uma tabela com três informações: mediana, média e desvio padrão. Essas informações foram retiradas da base de dados “df”, em que são expostos dados sobre diversos pokemons. Escolhi a variável qualitativa “egg_group_2” para usar com a variável quantitativa “speed”.

Dessa forma, comecei a analisar o que eu tinha para explorar, e percebi que seria interessante destacar em minha resposta a comparação dos tipos “water_1”, “water_2” e “water_3”. Esses, como se pode observar, são todos do tipo água, mas possuem diferenças entre si que os fazem ficar em grupos diferentes, possibilitando a análise mais precisa de cada um deles.

Dando uma geral nos três grupos, fica nítido que o que possui o menor desvio padrão é o “water_2”, ou seja, ele é o que tem menor dispersão nos dados. Suas informações são mais uniformes, o que também mostra que a chance dele possuir outliers é menor. Outliers são dados que se encontram fora do padrão, isto é, que estão muito acima da média ou muito abaixo, o que pode ocasionar uma falsa interpretação dos dados.

2 - Um gráfico boxplot.

boxplot(attack ~ type_1, data = df,col="steelblue4",
        main="Gráfico 1 - Ataque Relativo aos Pokemons do Tipo 1 ",
        xlab = "Tipo 1",
        ylab = "Ataque")

R: Após executar o comando acima, o “R” gerou um gráfico do tipo “boxplot” mostrando as seguintes informações: o mínimo, o primeiro quartil, a mediana, o 3 quartil, o máximo e os outliers. Dessa forma, é possível fazer uma análise mais completa sobre os dados em questão, sendo o poder de ataque relativo aos pokemons do tipo 1, ou seja, as variáveis “attack” (quantitativa) e “type_1” (qualitativa).

Comparando os tipos “bug” (inseto) e “fairy” (fada), é notório que os pokemons do tipo fada possuem ataques com menor poder ofensivo que o tipo inseto. No entanto, eles têm um mínimo de poder de ataque maior se comparados com os insetos. Outra observação válida é o quesito dos ataques do tipo fada serem proporcionais aos do tipo inseto, se visto que, no gráfico, esse conjunto de ataques cabe no outro, isto é, eles não variam tanto um em relação ao outro.

Por fim, é perceptível que o grupo dos insetos não apresentam outliers, enquanto os pokemons fada sim. Esses pokemons possuem 2 outliers, que estão bem acima do máximo, representados por círculos. Isso significa que 2 pokemons estão com ataques bem acima da média, se comparados com os outros da mesma tipagem.

3 - Um diagrama de dispersão.

plot(df$weight,df$speed, col="violetred4",pch=19, 
     main = "Gráfico 2  - Diagrama de Dispersão entre Peso e Velocidade",
     xlab = "Peso",
     ylab = "Velocidade")
abline(lsfit(df$weight,df$speed),
       col="plum4",lwd=5)

R: Após executar o comando acima, obtive um gráfico com diversas bolinhas na cor violeta. Esses círculos representam o quanto de peso e velocidade cada pokemon possui, com o intuito de analisar se essas duas variáveis influenciam uma na outra. Além disso, o gráfico possui uma reta cor ameixa, que serve para indicar, por exemplo, relações lineares entre as variáveis apresentadas.

Dessa forma, é aparente que os pokemons mais leves são os mais velozes, já que há uma concentração de bolinhas na primeira parcela do gráfico. Na verdade, a maioria dos pokemons da base de dados “df” são leves, tendo pouquíssimos acima de 2000 hectogramas (200 quilogramas).

Sendo assim, pode-se concluir que pokemons leves tendem a ser mais velozes e pokemons pesados tendem a ser mais lentos, fazendo sentido. Com isso, conseguimos ver na apresentação desses dados um desalinhamento das variáveis, isto é, não são lineares, como a própria reta mostra. A maioria da estatística está na primeira parcela do gráfico, como dito antes. O restante dos dados estatísticos está nas demais parcelas.

4 - Uma correlação.

plot(df$attack,df$defense, col="darkblue",pch=19, 
     main = "Gráfico 3  - Correlação entre Ataque e Defesa",
     xlab = "Ataque",
     ylab = "Defesa")
abline(lsfit(df$attack,df$defense),
       col="pink",lwd=5)

cor(df$attack,df$defense)

## [1] 0.4317745

R: Após executar os comandos acima, obtive um gráfico com diversas bolinhas na cor azul, assim como na questão 3. Essas bolas representam o quanto de ataque e defesa cada pokemon possui, com o intuito de analisar se essas duas variáveis influenciam uma na outra. Além disso, o gráfico possui uma reta rosa, que serve para indicar, por exemplo, relações lineares entre as variáveis apresentadas, também como na questão 3.

Por conseguinte, temos outra informação importante, mas que não está presente no gráfico. Essa informação é o número 0.4317745, gerado pelo comando “cor()”. Esse número indica a relação linear que as variáveis possuem, indo de -1 até 1.

Sendo 1, significa que as variáveis possuem correlação positiva perfeita (quando uma variável aumenta, a outra aumenta proporcionalmente), enquanto -1 significa correlação negativa perfeita (quando uma variável aumenta, a outra diminui proporcionalmente). Por fim, 0 mostra não haver correlação entre as variáveis. Dessa forma, é possível concluir que as variáveis “attack” e “defense” pouco dependem uma da outra, já que sua correlação é fraca, se perpetuando em só alguns casos isolados.

Atividade 2 - df-pokemon.Rdata

João Pedro Martins dos Santos Costa

2024-11-08