O Brasil é o 2º país na América Latina que mais consome vinho, ficando atrás apenas da Argentina. Sendo assim, torna-se bem relevante uma pesquisa sobre os vinhos, como o tipo, teor alcólico, densidade, cor, dentre outras variáveis, e também relacionar essas variáveis entre si, para podermos alcançar conclusões interessantes a respeito dos vinhos.
Os objetivos da pesquisa são apresentar as variáveis a respeito da composição do vinho, relacioná-las e assim, poder obter conclusões sobre essa bebida tão consumida mundialmente. Através de uma matriz de correlação buscamos encontrar uma relação entre as variáveis de qualidade, teor alcólico, densidade, pH e açúcar residual. Também por meio de uma tabela feita com flextable, procuramos observar se existe diferença na qualidade dos tipos de vinho. Através do diagrama de dispersão, queremos descobrir se há relação entre as variáveis álcool e densidade. Ainda há o objetivo de descobrir a normalidade da distribuição das variáveis álcool e densidade.
A base de dados utilizada foi encontrada no site kaggle, que foi publicada em 2021. As variáveis contidas nessa base são: tipo, acidez, ácido cítrico, açúcar residual, cloreto, dióxido sulfúrico livre, dióxido sulfúrico total, densidade, pH, sulphates, teor alcólico e qualidade. As ferramentas usadas para essa realização foram: Matriz de correlação, tabela utilizando flextable, diagrama de dispersão e teste de hipóteses.
Dicionário de dados:
library(readr)## Warning: package 'readr' was built under R version 4.1.1
winequalityN <- read_csv("C:/Users/Felipe/Downloads/Base_de_dados-master/winequalityN.csv")## Rows: 6497 Columns: 13
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): type
## dbl (12): fixed acidity, volatile acidity, citric acid, residual sugar, chlo...
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
Inicialmente, utilizaremos a matriz de correlação para relacionar as variáveis: qualidade, teor alcólico, densidade, pH e açúcar residual.
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(corrplot)## corrplot 0.90 loaded
library(rio)
library(flextable)
library(reactable) ## Warning: package 'reactable' was built under R version 4.1.1
library(RColorBrewer)## Warning: package 'RColorBrewer' was built under R version 4.1.1
class(winequalityN$quality)## [1] "numeric"
names(winequalityN)## [1] "type" "fixed acidity" "volatile acidity"
## [4] "citric acid" "residual sugar" "chlorides"
## [7] "free sulfur dioxide" "total sulfur dioxide" "density"
## [10] "pH" "sulphates" "alcohol"
## [13] "quality"
MC2<-winequalityN %>% select(quality,alcohol,density,pH,`residual sugar`)
MC2 <- na.omit(MC2)
MC2 %>% cor() %>% corrplot.mixed()É possível perceber que não existem valores de correlação significativos entre nenhuma das variáveis selecionadas em relação a variável qualidade. Também foi possível observar que há uma relação inversa entre as variáveis álcool e densidade com um valor de correlação negativo de 0.69.
A princípio a tabela foi criada para relacionar a qualidade do vinho com o seu tipo, buscando entender se o tipo de vinho diferencia de fato em sua qualidade.
ft2 <- winequalityN %>% select(type,quality) %>%
group_by(type) %>%
summarise(media=round(mean(quality),1),
desvio.padrao=round(sd(quality),1),
media2=mean(quality),
desvio.padrao2=sd(quality),
tamanho=n()) %>%
data.frame() %>% flextable()
ft2type | media | desvio.padrao | media2 | desvio.padrao2 | tamanho |
red | 5.6 | 0.8 | 5.636023 | 0.8075694 | 1,599 |
white | 5.9 | 0.9 | 5.877909 | 0.8856386 | 4,898 |
ft2 %>% theme_tron()type | media | desvio.padrao | media2 | desvio.padrao2 | tamanho |
red | 5.6 | 0.8 | 5.636023 | 0.8075694 | 1,599 |
white | 5.9 | 0.9 | 5.877909 | 0.8856386 | 4,898 |
Através da tabela, podemos perceber que não há diferença tão significativa na qualidade dos vinhos brancos e vermelhos
A utilização do gráfico foi feita para poder entender qual é a relação entre as variáveis álcool e densidade.
plot(winequalityN$alcohol, winequalityN$density,pch=19,col="darkblue",
main="Gráfico Álcool / Densidade")
abline(lsfit(winequalityN$alcohol, winequalityN$density),col="red")cor(winequalityN$alcohol, winequalityN$density)## [1] -0.6867454
Ao analisar o gráfico, percebemos que há uma relação inversa entre as variáveis álcool e densidade, observando a linha decrescente
Nessa etapa, verificaremos se as distribuição das variáveis “álcool” e “densidade” são normais ou não.
Primeiro estabelecemos as condições
Hipótese nula: Os dados possuem distribuição normal Hipótese alternativa: os dados não possuem distribuição normal
alpha-0,05
se Pvalor menor que 0,05, rej H0 se Pvalor maior que 0,05, não rej H0
shapiro.test(winequalityN$alcohol[0:5000])##
## Shapiro-Wilk normality test
##
## data: winequalityN$alcohol[0:5000]
## W = 0.95352, p-value < 2.2e-16
shapiro.test(winequalityN$density[0:5000])##
## Shapiro-Wilk normality test
##
## data: winequalityN$density[0:5000]
## W = 0.95628, p-value < 2.2e-16
Ambos os Pvalores são menores que 0,05.
Podemos concluir que as variáveis não possuem distribuição normal.
Portanto, é possível concluir que não há valores de correlação relevantes entre qualidade, teor alcólico, densidade, pH e açúcar residual. Também foi possível ver que não há distinção expressiva na qualidade dos vinhos brancos e vermelhos. Além disso, as variáveis álcool e densidade demonstraram uma linha decrescente no gráfico de dispersão, o que nos mostra uma relação inversa entre elas. E, ainda falando das mesmas, vimos que ambas não possuem distribuição normal, o que configura em uma hipótese alternativa.