load("C:/Estatistica/Base_de_dados-master/diamante.RData")
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2 v purrr 0.3.4
## v tibble 3.0.4 v stringr 1.4.0
## v tidyr 1.1.2 v forcats 0.5.0
## v readr 1.4.0
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
# Sumarização da Média, Mediana e Desvio Padrão
diamante %>%
group_by(corte) %>%
summarize(media=mean(quilate, na.rm = T),
mediana=median(quilate, na.rm = T),
desvio_padrao=sd(quilate))
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 5 x 4
## corte media mediana desvio_padrao
## <ord> <dbl> <dbl> <dbl>
## 1 Justo 1.05 1 0.516
## 2 Bom 0.849 0.82 0.454
## 3 Muito Bom 0.806 0.71 0.459
## 4 Premium 0.892 0.86 0.515
## 5 Ideal 0.703 0.54 0.433
# Mínimo e Máximo
diamante %>%
group_by(corte) %>%
summarise(MenorQuilate = min(quilate),
MaiorQuilate = max(quilate))
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 5 x 3
## corte MenorQuilate MaiorQuilate
## <ord> <dbl> <dbl>
## 1 Justo 0.22 5.01
## 2 Bom 0.23 3.01
## 3 Muito Bom 0.2 4
## 4 Premium 0.2 4.01
## 5 Ideal 0.2 3.5
# Variações distintas
diamante %>%
group_by(corte) %>%
summarise(quantidade = n_distinct(quilate))
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 5 x 2
## corte quantidade
## <ord> <int>
## 1 Justo 185
## 2 Bom 199
## 3 Muito Bom 231
## 4 Premium 251
## 5 Ideal 232
boxplot(diamante$quilate~diamante$corte,
col = c("#FF4000", "#FFFF00","#58FAF4", "#01DF01", "#2E64FE"))
Podemos perceber pelo gráfico que o corte Justo tem a maior Média e Mediana de quilates, representada pela altura da barra entre as caixa, além disso, é o corte com maior simetria, diferindo bastante dos demais, que possuem uma distribuição bastante assimétrica. Todos os cortes possuem outliers, uma atenção especial deve ser dada outlier de 5,01 do corte justo e o outlier 4.0 do corte Muito bom, ambos muito acima de suas respetivas médias. Também podemos perceber pela altura do limite das barras, que o corte Premium tem em sua variância um valor acima da média.