Aula 5 - Media, Mediana e Boxplot

Mediana e Média - Qd usar?

Exemplo: 78, 45, 23,12, 88 Como calcular a média e a Mediana?

Passo 1: organizar em ordem crescente: 12, 23,45,78, 88

Mediana, nesse caso seria o 45,pois ela é o valor que corresponde ao conjunto de dados que se encontra no meio. (50% dos dados a esquerda e 50% a direita)

A média: (12+23+45+78+88)/5= 49,2 Exemplo 2:1,2,3,4,50000

Mediana:3 Média:1002

Nesse caso, 50000 = Outlier (foda da curva).

A mediana é robusta a outlier, enquanto a média é mais sensível.

Só tem 2 casos em que a mediana é mais recomendável que a média: Em caso de distribuição assimétrica e a presença de outliers.

Outros dados:

Mínimo Mediana Média Máximo

Dica: Sempre coloque o resumão anterior no relatório
O R já faz isso com a função Summary
load("C:/Users/loren/Downloads/Estatistica/Base_de_dados-master/df_pokemon.RData")

summary(df)
##        id          pokemon            species_id        height      
##  Min.   :  1.0   Length:718         Min.   :  1.0   Min.   :  1.00  
##  1st Qu.:180.2   Class :character   1st Qu.:180.2   1st Qu.:  6.00  
##  Median :359.5   Mode  :character   Median :359.5   Median : 10.00  
##  Mean   :359.5                      Mean   :359.5   Mean   : 11.41  
##  3rd Qu.:538.8                      3rd Qu.:538.8   3rd Qu.: 14.00  
##  Max.   :718.0                      Max.   :718.0   Max.   :145.00  
##      weight       base_experience     type_1             type_2         
##  Min.   :   1.0   Min.   : 36.00   Length:718         Length:718        
##  1st Qu.:  95.0   1st Qu.: 65.25   Class :character   Class :character  
##  Median : 280.0   Median :147.00   Mode  :character   Mode  :character  
##  Mean   : 568.2   Mean   :141.55                                        
##  3rd Qu.: 609.5   3rd Qu.:177.00                                        
##  Max.   :9500.0   Max.   :608.00                                        
##      attack          defense             hp         special_attack  
##  Min.   :  5.00   Min.   :  5.00   Min.   :  1.00   Min.   : 10.00  
##  1st Qu.: 53.00   1st Qu.: 50.00   1st Qu.: 50.00   1st Qu.: 45.00  
##  Median : 73.00   Median : 65.00   Median : 65.00   Median : 65.00  
##  Mean   : 74.85   Mean   : 70.67   Mean   : 68.37   Mean   : 68.47  
##  3rd Qu.: 95.00   3rd Qu.: 85.00   3rd Qu.: 80.00   3rd Qu.: 90.00  
##  Max.   :165.00   Max.   :230.00   Max.   :255.00   Max.   :154.00  
##  special_defense      speed          color_1            color_2         
##  Min.   : 20.00   Min.   :  5.00   Length:718         Length:718        
##  1st Qu.: 50.00   1st Qu.: 45.00   Class :character   Class :character  
##  Median : 65.00   Median : 65.00   Mode  :character   Mode  :character  
##  Mean   : 69.09   Mean   : 65.72                                        
##  3rd Qu.: 85.00   3rd Qu.: 85.00                                        
##  Max.   :230.00   Max.   :160.00                                        
##    color_f          egg_group_1        egg_group_2         url_image        
##  Length:718         Length:718         Length:718         Length:718        
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##        x                 y          
##  Min.   :-49.152   Min.   :-45.793  
##  1st Qu.:-17.695   1st Qu.:-17.293  
##  Median :  0.705   Median : -0.628  
##  Mean   :  0.000   Mean   :  0.000  
##  3rd Qu.: 15.905   3rd Qu.: 18.155  
##  Max.   : 53.142   Max.   : 46.593
summary(df$base_experience)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   36.00   65.25  147.00  141.55  177.00  608.00

O BOXPLOT

O boxplot é uma visualização do mínimo, primeiro Quartil, mediana, terceiro quartil e máximo.

Buscamos avaliar a presença de outliers, ver dispersão dos dados e verificar a simetria.

Interpretando o Boxplot:

Do 0 até a primeira loja da caixa, temos o primeiro quartil (25%); Linha grossa do Boxplot = Mediana Do zero até a mediana = 50%

boxplot(df$height, col= "orange",
        main= "Boxplot Altura")

Leitura: Existem muitos outliers, e concentração de alturas, além de ser levemente assimétrico.

boxplot(df$base_experience, col= "yellow",
        main= "Boxplot Experência")