#Load all the required libraries
library("ggplot2")
library("dplyr")
library("gridExtra")
library(corrplot)
Esta EDA inclui análises univariada, bivariada e multivariada em torno das principais propriedades químicas que influenciam a qualidade dos vinhos tintos.
wines = read.csv('wineQualityReds.csv')
summary(wines$quality)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
A primeira coisa a se perceber no plot acima é que a maioria dos vinhos são de qualidade média. Os valores outliers são bem aproximados a vinhos de qualidades ruins e boas, será que os vinhos usados nas avaliações dos especialistas são de uma região especifica? De várias regiões?
Normalmente se faz referencia ao ácido tartarico, uns dos principais ácidos encontrados em uvas e um dos principais ácidos do vinho.
summary(wines$fixed.acidity)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
grid.arrange(ggplot(wines, aes( x = 1, y = fixed.acidity )) +
geom_jitter(alpha = 0.5 ) +
geom_boxplot(alpha = 0.2, color = 'red3' ),
ggplot(data = wines, aes(x = fixed.acidity)) +
geom_histogram(binwidth = 0.1, color = 'black',fill = I('red')),
ggplot(data = wines, aes(x = fixed.acidity)) + scale_x_log10()+
geom_histogram(binwidth = 0.1, color = 'black',fill = I('red')))
A distribuição de Fixed Acidity tem a maior parte de seus dados inclinados mais positivamente, A mediana gira em torno de 8 e 9 mais, há muitos outliers do lado positivo.
Após a eliminação de grande parte dos outliers com a aplicação do log10 para normalização dos dados, temos uma distribuição normal, que já era possivel enxergar, apesar do grande número de outliers.
A acidez volátil refere-se aos ácidos destilados a vapor presentes no vinho, em grandes quantidades pode levar à um gosto desagradável. O nível médio de ácido acético em um vinho é inferior a 400 mg / L, embora os níveis possam variar de indetectáveis até 3 g / L.
summary(wines$volatile.acidity)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
grid.arrange(ggplot(wines, aes( x = 1, y = volatile.acidity )) +
geom_jitter(alpha = 0.5 ) +
geom_boxplot(alpha = 0.2, color = 'red3' ),
ggplot(data = wines, aes(x = volatile.acidity)) +
geom_histogram(binwidth = 0.1, color = 'black',fill = I('pink')),
ggplot(data = wines, aes(x = volatile.acidity)) +scale_x_log10() +
geom_histogram(binwidth = 0.1, color = 'black',fill = I('pink')))
A distribuição de acidez volatil se assemelha a uma distribuição bimodal, com altos picos entre 0.4 e 0.6 .
Uma distribuição bimodal é uma distribuição de probabilidade contínua com duas modas diferentes.
Presente nas uvas em baixa quantidade, nos vinhos o ácido cítrico tem pouca ou nenhuma presença. Nos vinhos tintos desaparece devido à ação de bactérias láticas (fermentação malolática). Sensorialmente é fresco, porém em alguns casos pode apresentar um leve final amargo.
summary(wines$citric.acid)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
Além de contér alguns outliers zerados, essa distribuição parece muito estranha.Os picos giram mais ou menos entre 0.25 e 0.35.
Com a normalização dos dados com o log10, temos uma distribuição bem diferente, se assemelhando a uma distribuição assimetrica negativa.
A fermentação de um vinho é feita através do contato do açucar com a levedura, após a fermentação resta o açucar residual.
Quando contém até 4 gramas de açucar residual por litro, um vinho pode ser considerado seco, a partir de 25 a 80 gramas é considerado doce ou suave.
summary(wines$residual.sugar)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
var(wines$residual.sugar)
## [1] 1.987897
Aqui temos mais uma distribuição enviesada positivamente, Açucar residual tem alto pico variando entre 2 e 3. Porém com muitos outliers observados nas faixas mais altas e mesmo com a normalização temos um padrão bem parecido com o anterior.
Com a normalização eliminei bastante outliers, porém o número de outliers positivos ainda é grande.
Chlorides representa a quantidade de sal contidas nos vinhos.
summary(wines$chlorides)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
Chlorides tem uma distribuição muito parecida com a de Açucar residual, existe uma grande quantidade de outliers positivos. A médiana está em torno de 0.07
Após a normalização ainda temos bastante outliers à esquerda, lembrando a já citada distribuição assimetrica negativa.
É uma forma livre de SO2, um gás dissolvido que impede o crescimento de microbios e a oxidação do vinho.
Quantidades excessivas de SO2 podem inibir a fermentação e causar efeitos sensoriais indesejáveis.
summary(wines$free.sulfur.dioxide)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
var(wines$free.sulfur.dioxide)
## [1] 109.4149
grid.arrange(ggplot(wines, aes( x = 1, y = free.sulfur.dioxide )) +
geom_jitter(alpha = 0.3 ) +
geom_boxplot(alpha = 0.5, color = 'red' ),
ggplot(data = wines, aes(x = free.sulfur.dioxide)) +
geom_histogram(binwidth = 1.5, color = 'black',fill = I('sienna4')),
ggplot(data = wines, aes(x = free.sulfur.dioxide)) +scale_x_log10()+
geom_histogram(binwidth = 0.05, color = 'black',fill = I('sienna4')))
Para Free.sulfur.dioxide, há um alto pico envolta de 5 e 7 mais ou menos, porém vemos o padrão comportamental visto nas outras distribuições, uma longa “calda” com outliers positivos.
Mesmo com a normalização vemos uma distribuição estranha, com muitos outliers negativos.
O dióxido de enxofre total (TSO2) é a porção de dioxido de enxofre livre (SO2) que está livre no vinho mais a porção que está ligada a outros produtos químicos no vinho.
summary(wines$total.sulfur.dioxide)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
var(wines$total.sulfur.dioxide)
## [1] 1082.102
grid.arrange(ggplot(wines, aes( x = 1, y = total.sulfur.dioxide )) +
geom_jitter(alpha = 0.3 ) +
geom_boxplot(alpha = 0.5, color = 'red' ),
ggplot(data = wines, aes(x = total.sulfur.dioxide)) +
geom_histogram(binwidth = 3, color = 'black',fill = I('yellowgreen')),
ggplot(data = wines, aes(x = total.sulfur.dioxide)) +scale_x_log10()+
geom_histogram(binwidth = 0.05, color = 'black',fill = I('yellowgreen')))
Sendo uma porção da variável anterior, o dióxido de enxofre total segue um padrão similar da variavel Free.sulfur.dioxide, com altos picos entre 20 e 40, é uma variável com muitos outliers positivos e com uma variância muito alta.
após a normalização temos uma distribuição um pouco mais normal, com uma alta variação.
A densidade do vinho se refere ao corpo do vinho, à sensação de maior ou menor densidade que a bebida apresenta.
A densidade do vinho pode variar de acordo com a densidade da água e o teor percentual de álcool e açúcar.
summary(wines$density)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
var(wines$density)
## [1] 3.562029e-06
grid.arrange(ggplot(wines, aes( x = 1, y = density )) +
geom_jitter(alpha = 0.3 ) +
geom_boxplot(alpha = 0.5, color = 'red' ),
ggplot(data = wines, aes(x = density)) +
geom_histogram(binwidth = 0.001, color = 'black',fill = I('purple2')))
Para densidade, vemos um novo padrão pela primeira vez, densidade contém uma distribuição normal quase perfeita.
summary(wines$pH)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
var(wines$pH)
## [1] 0.02383518
O pH (potencial Hidrogeniônico) é calculado a partir da concentração de íons de hidrogênio. Indica acidez, neutralidade ou alcalinidade de um produto. A escala varia de 0 a 14 e, quanto menor for o índice de pH, maior é a acidez. Abaixo de 7, o pH é ácido, igual a 7 é neutro, e maior que 7 é alcalino.
Nos vinhos em geral, o pH varia de 2,8 (acidez forte) até 3,8 (acidez leve). Com pH acima de 3,5 o vinho é frágil e pode estar sujeito a alterações (defeitos). Um pH baixo tem grande importância na estabilidade do vinho.
grid.arrange(ggplot(wines, aes( x = 1, y = pH )) +
geom_jitter(alpha = 0.3 ) +
geom_boxplot(alpha = 0.5, color = 'red' ),
ggplot(data = wines, aes(x = pH)) +
geom_histogram(binwidth = 0.1, color = 'black',fill = I('darkorange2')))
Ph se assemelha muito a variavel anterior, seguindo o mesmo padrão. Obtendo uma distribuição normal.
O termo sulfato é um termo inclusivo para o dióxido de enxofre (SO2), um conservante que é amplamente utilizado na produção de vinho (e na maioria das indústrias alimentícias) por suas propriedades antioxidantes e antibacterianas. O SO2 desempenha um papel importante na prevenção da oxidação e na manutenção da frescura de um vinho.
summary(wines$sulphates)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
var(wines$sulphates)
## [1] 0.02873262
grid.arrange(ggplot(wines, aes( x = 1, y = sulphates )) +
geom_jitter(alpha = 0.3 ) +
geom_boxplot(alpha = 0.5, color = 'red' ),
ggplot(data = wines, aes(x = sulphates)) +
geom_histogram(binwidth = 0.1, color = 'black',fill = I('powderblue')))
Conforme pode ser observado, esta distribuição segue um padrão assimetrico positivo, devido sua “causa” mais longa à direita.
Há uma similaridade entre as variveis Free/Total sulphur Dioxide e Chlorides. Porém sulphates contém um número menor de outliers positivo se comparado as anteriores.
Por ser uma propriedade que contém dioxido de enxofre(S02) é possivel que tenha uma certa correlação com as variáveis total e free sulfur dioxide
Esta variável se refere a porcentagem de alcool contida nos vinhos.
O álcool é a alma do vinho. É a sua maior ou menor presença que define muitas das vezes a sua qualidade. É habitual dizer-se de um vinho com mais de 13% de álcool que é encorpado, vinoso, capitoso, quente. Já um vinho seco com menos de 11% de álcool é um vinho leve, magro, ligeiro e quase sempre desinteressante. Mas álcool em excesso pode tornar um vinho pesado, chato, mole, desinteressante.
summary(wines$alcohol)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
grid.arrange(ggplot(wines, aes( x = 1, y = alcohol )) +
geom_jitter(alpha = 0.3 ) +
geom_boxplot(alpha = 0.5, color = 'red2' ),
ggplot(data = wines, aes(x = alcohol)) +
geom_histogram(binwidth = 0.1, color = 'black',fill = I('orchid2')))
No Alcool é possivel observar que tem uma distribuição enviesada, mantém uma certa semelhança com as distribuições de Chlorides e residual sugar. Porém não existe uma grande variação, tendo uma maior concentração de valores mais ou menos em 9%.
A partir da primeira plotagem do gráfico foi possivel perceber que a qualidade dos vinhos não está muito bem distribuida, tendo alguns poucos outliers nas categorias “bom” e “ruim”, sendo em grande parte “médio”.
Será que os dados realmente estão completos?
A acidez (fixa, volátil e cítrica) pode alterar a qualidade do vinho com base em seus valores. O pH também está relacionado a acidez, o que pode surtir algum efeito.
O açucar residual também pode afetar na qualidade final do vinho, uma vez que o açucar pode afetar positivamente ou negativamente o sabor do vinho, adocicando demais ou amargando. Pois o açucar residual é o açucar que não fermentou e não virou alcool.
Fixed and volatile acidity, total/free sulfur dioxides, alcohol e sulphates seguem um padrão de distribuição parecido, padrão assimetrico positivo. Este tipo de distribuição contém uma a cauda à direita, com valores positivos, onde há mais outliers em praticamente todas as variaveis citadas.
As únicas distribuições que estão mais normalizadas são Density e pH, que seguem um padrão de distribuição normal, com poucos outliers.
Citric acid tem um grande número de valores zerados, o que pode prejudicar nas proximas análises. Talvez os dados desta variável não estejam completos.
Residual Sugar e chloride conforme observado contém muitos outliers positivos.
A partir do histograma de residual sugar é possivel perceber que tem uma grande distribuição entre 2 à 4, o que posso supor que grande parte dos vinhos analisados são vinhos mais doces.
O teor alcoolico dos vinhos abaixo de 13% pode indicar vinhos mais leves, maior refrescancia. E o Ph está na média de 3,3. Podendo indicar que os vinhos bem avaliados sejam mais secos e om maior acidez.
Aqui criarei uma tabela de correlação para entender quais variaveis deste conjunto de dados estão correlacionadas entre si.
corrWines <- cor(wines)
round(corrWines *100,2)
## X fixed.acidity volatile.acidity citric.acid
## X 100.00 -26.85 -0.88 -15.36
## fixed.acidity -26.85 100.00 -25.61 67.17
## volatile.acidity -0.88 -25.61 100.00 -55.25
## citric.acid -15.36 67.17 -55.25 100.00
## residual.sugar -3.13 11.48 0.19 14.36
## chlorides -11.99 9.37 6.13 20.38
## free.sulfur.dioxide 9.05 -15.38 -1.05 -6.10
## total.sulfur.dioxide -11.78 -11.32 7.65 3.55
## density -36.84 66.80 2.20 36.49
## pH 13.60 -68.30 23.49 -54.19
## sulphates -12.53 18.30 -26.10 31.28
## alcohol 24.51 -6.17 -20.23 10.99
## quality 6.65 12.41 -39.06 22.64
## residual.sugar chlorides free.sulfur.dioxide
## X -3.13 -11.99 9.05
## fixed.acidity 11.48 9.37 -15.38
## volatile.acidity 0.19 6.13 -1.05
## citric.acid 14.36 20.38 -6.10
## residual.sugar 100.00 5.56 18.70
## chlorides 5.56 100.00 0.56
## free.sulfur.dioxide 18.70 0.56 100.00
## total.sulfur.dioxide 20.30 4.74 66.77
## density 35.53 20.06 -2.19
## pH -8.57 -26.50 7.04
## sulphates 0.55 37.13 5.17
## alcohol 4.21 -22.11 -6.94
## quality 1.37 -12.89 -5.07
## total.sulfur.dioxide density pH sulphates alcohol
## X -11.78 -36.84 13.60 -12.53 24.51
## fixed.acidity -11.32 66.80 -68.30 18.30 -6.17
## volatile.acidity 7.65 2.20 23.49 -26.10 -20.23
## citric.acid 3.55 36.49 -54.19 31.28 10.99
## residual.sugar 20.30 35.53 -8.57 0.55 4.21
## chlorides 4.74 20.06 -26.50 37.13 -22.11
## free.sulfur.dioxide 66.77 -2.19 7.04 5.17 -6.94
## total.sulfur.dioxide 100.00 7.13 -6.65 4.29 -20.57
## density 7.13 100.00 -34.17 14.85 -49.62
## pH -6.65 -34.17 100.00 -19.66 20.56
## sulphates 4.29 14.85 -19.66 100.00 9.36
## alcohol -20.57 -49.62 20.56 9.36 100.00
## quality -18.51 -17.49 -5.77 25.14 47.62
## quality
## X 6.65
## fixed.acidity 12.41
## volatile.acidity -39.06
## citric.acid 22.64
## residual.sugar 1.37
## chlorides -12.89
## free.sulfur.dioxide -5.07
## total.sulfur.dioxide -18.51
## density -17.49
## pH -5.77
## sulphates 25.14
## alcohol 47.62
## quality 100.00
corrplot(corrWines, type = "upper", order = "hclust",
tl.col = "black", tl.srt = 45)
Os valores que tem maior correlação com a qualidade são alcohol e volatile acidity.
Ph tem uma forte correlação negativa com os ácidos (quanto menor o ph maior acidez), porém com volatile acidity há correlação positiva.
Sulphates e Chlorides tem correlação média, porém somente sulphates tem correlação com a qualidade.
Density tem forte correlação com os ácidos fixed acidity e citric acid, residual sugar e uma forte correlação negativa com alcohol.
Conforme visto, Alcohol e volatile acidity tem as maiores correlações com Quality.
#options(repr.plot.width=6, repr.plot.height=4) #Setting the plot size
ggplot(aes(x= factor(quality), y= alcohol), data = wines) +
geom_jitter( alpha = .3) +
geom_boxplot( alpha = .5,color = 'red3')+
stat_summary(fun.y = "mean", geom = "point", color = "red",
shape = 4, size = 6) +
labs(x= 'Quality',
y= 'Alcohol',
title= 'Alcohol vs Quality')
Aqui é possivel perceber que os vinhos avaliados com qualidade média (entre 5 e 6), contém entre 9% e 11% de alcool, fortalecendo a ideia de que a maior parte dos vinhos avaliados são em parte suave ou doce.
Algo interessante que percebi, é que vinhos com maior teor alcoolico tem mais tendência a serem melhor avaliados. Vinhos com mais de 13% de teor alcoolico tem por volta de avaliação acima de 7 (boa). Alguns valores mais extremos mostram isso.
Pelo que pude perceber nestes plots, é que a medida que o Volatile acidity aumenta, tem um efeito negativo na qualidade.
ggplot(data = wines, aes(x = alcohol, y = fixed.acidity)) +
geom_point(alpha = 0.3) +
#xlab("Density vs alcohol") +
geom_smooth(method="lm",color='red') +
labs(x= 'Alcohol',
y= 'Fixed Acidity',
title= 'Fixed Acidity vs Quality')
Já os vinhos melhores avaliados contem volatile acidity menor. Já fixed acidity parece não ter nenhum efeito sobre a qualidade final.
Sulphates tem correlação com a qualidade, e a partir desse plot é possivel perceber que vinhos com menor quantidade de sulphates tem qualidade média, já os vinhos melhores avaliados contém uma maior quantidade de sulphates.
Duas variáveis que eu estava curioso para comparar chlorides e quality, devido a correlação de chlorides e sulphates e não haver forte correlação com quality. É possivel perceber que os vinhos melhores avaliados tem menores valores de chlorides.
grid.arrange(ggplot(aes(x= quality, y= density), data = wines) +
geom_violin(trim=FALSE, fill="gray") +
geom_jitter( alpha = .25, color = 'red2') +
stat_summary(fun.y = "mean", geom = "point", color = "black",
shape = 2, size = 4) +
labs(x= 'Quality',
y= 'Density',
title= 'Density Vs. Quality'))
Os vinhos melhores avaliados tem menor densidade, e contem um maior o teor de alcool,e ao comparar alcohol vs density vemos que isto realmente ocorre e faz muito sentido. Irei verificar isso nos plots multivariados.
grid.arrange(ggplot(aes(x= quality, y= citric.acid), data = wines) +
geom_violin(trim=FALSE, fill="gray") +
geom_jitter( alpha = .25, color = 'red2') +
stat_summary(fun.y = "mean", geom = "point", color = "black",
shape = 2, size = 4) +
labs(x= 'Quality',
y= 'Citric Acid',
title= 'Citric Acid Vs. Quality'))
E novamente, algo diferente a se perceber, vinhos de melhor qualidade tendem a ter maiores taxas de ácidos citricos, porém o Ph se mantém bem proximo da neutralidade para vinhos de maior qualidade.
Residual sugar parece não surtir tanto efeito na qualidade final, mas o que é possivel perceber é grande parte dos vinhos médios tem mais açucar residual que os melhores avaliados.
Para ter uma melhor visualização da qualidade dos vinhos, criarei uma nova coluna que categorizará a qualidade em ruim, médio e bom.
Outra variavel que apesar de não ter correlação direta com a qualidade, pode explicar algo. Residual sugar é responsável pela sabor adocicado do vinho, quero entender se os vinhos com avaliação média tem realmente este comportamento.
##
## Call:
## lm(formula = residual.sugar ~ quality, data = wines)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6475 -0.6475 -0.3475 0.0525 12.9764
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.40369 0.24872 9.664 <2e-16 ***
## quality 0.02397 0.04368 0.549 0.583
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.41 on 1597 degrees of freedom
## Multiple R-squared: 0.0001886, Adjusted R-squared: -0.0004375
## F-statistic: 0.3012 on 1 and 1597 DF, p-value: 0.5832
Realmente, Residual sugar não tem nenhuma relação direta a qualidade final dos vinhos.
Neste plot é possível esclarecer a suposição de que os melhores vinhos tem acidez um pouco elevada e maior densidade. Enquantos os vinhos médios tem pouca acidez e mais densidade.
Com este plot é possivel esclarecer minha dúvida referente a essas duas variáveis, no qual podemos verificar que quanto maior o teor alcoolico, menor a densidade. E combinados podem afetar na qualidade final.
Para verificar se realmente o alcool tem efeito na qualidade final farei uma regressão linear.
##
## Call:
## lm(formula = alcohol ~ quality, data = wines)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.2517 -0.6233 -0.2233 0.5483 4.8767
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.88160 0.16532 41.62 <2e-16 ***
## quality 0.62835 0.02904 21.64 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9374 on 1597 degrees of freedom
## Multiple R-squared: 0.2267, Adjusted R-squared: 0.2263
## F-statistic: 468.3 on 1 and 1597 DF, p-value: < 2.2e-16
Conforme visto acima, apesar de Alcohol ter forte correlação com a qualidade, o R² mostra que alcohol tem efeito de 22% sobre a qualidade final, o que não é pouco dado a quantidade de variáveis que podem alterar o fator final.
Este é o gráfico que melhor explica a relação entre alcool, acidez e os vinhos de alta e baixa qualidade. As duas variaveis mais correlacionadas com a qualidade.
Aqui podemos perceber que vinhos de qualidade alta não tem menos que 9% teor de alcool, enquanto que vinhos de baixa qualidade não passam de 12% de teor de alcool.
Conforme observado na fase inicial deste projeto, volatile acidity em grande quantidade é propenso a ter um gosto desagradável, se mostrando se a principal caracteristica de vinhos de qualidade inferior.
E aqui também é bem claro perceber a correlação negativamente forte entre a Quality e volatile Acidity.
Para realizar este projeto, não me atentei somente ao dataset como fiz uma grande pesquisa para poder entender como as principais substâncias químicas podem alterar na Qualidade final dos vinhos.
O alcool pode sim afetar a qualidade do vinho, porém não tanto quanto a acidez volatile que mostrou ter uma forte correlação com a qualidade. Pois quanto maior a quantide desta substancia maior a chance do vinho se tornar desagradável se comparando ao vinagre, e os vinhos de qualidade inferior mostram muito bem isso no último gráfico.
Por mais que a densidade não altere a qualidade final dos vinhos, foi interessante perceber que quanto maior a quantidade de alcool menor a densidade, devido o alcool ter uma densidade mais baixa que a da água.
É possivel que perceber que os vinhos mais bem avaliados também um certa acidez e menor densidade, logo podendo conter maior teor alcoolico.
Açucar residual não tem relaçao direta com a qualidade, porém o mesmo é responsável pela fermentação, quando em contato com as leveduras. A quantidade de açucar contido nas uvas podem aumentar ou diminuir o teor alcoolico dos vinhos. Algo que é interessante de pontuar é que o clima também pode influenciar na quantidade de alcool fermentado.
Quando a fruta recebe a quantidade necessária de luz solar e calor, o nível de acidez diminui e o de açúcar aumenta. Sendo assim, conhecer o clima e regiões de onde os vinhos vieram seria bom para poder ter uma análise mais concisa.
Infelizmente o dataset contém muitos dados voltados para a qualidade média, tem alguns outliers para as qualidades superior e inferior, o que pode atrapalhar no caso de tentar aplicar algum modelo de Machine learning para encontrar algum padrão.
Com o que foi dito acima, concluirei que os melhores vinhos deste dataset em grande parte são vinhos secos, no quais tem uma maior teor alcoolico, menor densidade acidez e refrescância. E os vinhos de qualidade inferior seguem um padrão oposto, tendo menor teor alcoolico, em parte com muita acidez tornando o vinho desagradável.
Um fator importante de se pontuar é que por mais que este dataset seja completo, as avaliações foram feitas por alguns especialistas, o que talvez possam não trazer a verdadeira análise final sobre qualidade de vinhos, a opinião é muito subjetiva e podemos concordar em muitos pontos e discordar em outros. O mundo dos vinhos é muito vasto e há muito para se aprender e provar.
Fazendo estas análises, eu fui imerso em praticamente um novo mundo, tanto na parte dos vinhos que era algo que nunca havia tido tanto contato, quanto a parte de realizar as análises, plotar e entender os gráficos. Nisso pude me sentir finalmente como um Cientista de dados, porém eu sei que ainda há muito o que aprender e melhorar para meus proximos projetos.