load("C:/Users/thamara.oliveira/Documents/Base_de_dados-master/diamante.RData")
# Variável "corte"
prop.table(table(diamante$corte))
##
## Justo Bom Muito Bom Premium Ideal
## 0.02984798 0.09095291 0.22398962 0.25567297 0.39953652
summary(diamante$corte)
## Justo Bom Muito Bom Premium Ideal
## 1610 4906 12082 13791 21551
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
diamante %>%
pull(corte) %>%
table() %>%
prop.table()
## .
## Justo Bom Muito Bom Premium Ideal
## 0.02984798 0.09095291 0.22398962 0.25567297 0.39953652
# Média, mediana e desvio padrão da variável "PREÇO"
diamante %>%
group_by(preco) %>%
summarize(media=mean(preco),mediana=median(preco),desvio_padrao=sd(preco),tamanho=n())
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 11,602 x 5
## preco media mediana desvio_padrao tamanho
## <int> <dbl> <dbl> <dbl> <int>
## 1 326 326 326 0 2
## 2 327 327 327 NA 1
## 3 334 334 334 NA 1
## 4 335 335 335 NA 1
## 5 336 336 336 0 2
## 6 337 337 337 0 2
## 7 338 338 338 NA 1
## 8 339 339 339 NA 1
## 9 340 340 340 NA 1
## 10 342 342 342 NA 1
## # ... with 11,592 more rows
# ESTATISTICA DAS DUAS VARIÁVEIS
tabela_diamante1<-diamante%>%
group_by(corte)%>%
summarize(media=mean (quilate), mediana=median(quilate), desvio_padrao=sd(quilate))%>%
arrange(desc(media))
## `summarise()` ungrouping output (override with `.groups` argument)
# BOXPLOT
par(cex=0.6)
boxplot(diamante$quilate~diamante$corte,col="darkred")
Conclusão
A média de quilates do corte Justo é a maior entre as outras classificações, com o valor de (1,05) e o corte justo e premium possuem o mesmo desvio padrão de (0,52). É possível observar através do gráfico que o tipo de corte muito bom é o mais simétrico. O tipo de corte justo possui o maior outlier e o tipo de corte Premium possui a maior quantidade de quilates.