Load da Base de Dados “diamante” e dos pacotes Dyplr e Tidyverse

load("C:/Estatistica/Base_de_dados-master/diamante.RData")
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(tidyverse)

## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.4     v stringr 1.4.0
## v tidyr   1.1.2     v forcats 0.5.0
## v readr   1.4.0

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Sumarização da Média e Desvio Padrão

# Sumarização da Média, Mediana e Desvio Padrão
diamante %>%
  group_by(corte) %>%
  summarize(media=mean(quilate, na.rm = T),
            mediana=median(quilate, na.rm = T),
            desvio_padrao=sd(quilate))

## `summarise()` ungrouping output (override with `.groups` argument)

## # A tibble: 5 x 4
##   corte     media mediana desvio_padrao
##   <ord>     <dbl>   <dbl>         <dbl>
## 1 Justo     1.05     1            0.516
## 2 Bom       0.849    0.82         0.454
## 3 Muito Bom 0.806    0.71         0.459
## 4 Premium   0.892    0.86         0.515
## 5 Ideal     0.703    0.54         0.433

Valores de Mínimo e Máximo quilates dentro dos respectios grupos de corte

# Mínimo e Máximo
diamante %>%
  group_by(corte) %>%
  summarise(MenorQuilate = min(quilate),
            MaiorQuilate = max(quilate))

## `summarise()` ungrouping output (override with `.groups` argument)

## # A tibble: 5 x 3
##   corte     MenorQuilate MaiorQuilate
##   <ord>            <dbl>        <dbl>
## 1 Justo             0.22         5.01
## 2 Bom               0.23         3.01
## 3 Muito Bom         0.2          4   
## 4 Premium           0.2          4.01
## 5 Ideal             0.2          3.5

Correnpondência distintas de quilates para cada diferente corte

# Variações distintas 
diamante %>%
  group_by(corte) %>%
  summarise(quantidade = n_distinct(quilate))

## `summarise()` ungrouping output (override with `.groups` argument)

## # A tibble: 5 x 2
##   corte     quantidade
##   <ord>          <int>
## 1 Justo            185
## 2 Bom              199
## 3 Muito Bom        231
## 4 Premium          251
## 5 Ideal            232

Boxplot

boxplot(diamante$quilate~diamante$corte,
        col = c("#FF4000", "#FFFF00","#58FAF4", "#01DF01", "#2E64FE"))

Conclusão

Podemos perceber pelo gráfico que o corte Justo tem a maior Média e Mediana de quilates, representada pela altura da barra entre as caixa, além disso, é o corte com maior simetria, diferindo bastante dos demais, que possuem uma distribuição bastante assimétrica. Todos os cortes possuem outliers, uma atenção especial deve ser dada outlier de 5,01 do corte justo e o outlier 4.0 do corte Muito bom, ambos muito acima de suas respetivas médias. Também podemos perceber pela altura do limite das barras, que o corte Premium tem em sua variância um valor acima da média.

Atividade 7 - Análise de duas variáveis

Fernando Ribeiro