PROJETOS EM DATA SCIENCE
Projeto_2: Vinho
Programa
Pós-Graduação em Estatística e Experimentação Agropecuária da Universidade Federal de Lavras (DES/UFLA). Disciplina Tópicos Especiais. Professor Responsável Paulo Henrique. Análise e Visualização de Dados
Descrição geral dos dados
Data set foram obtidos na Home Page do Paulo Cortez, assim como a descrição de como foram coletados os dados.
Esse conjunto de dados organizado contém 1.599 vinhos tintos com 11 variáveis sobre as propriedades químicas do vinho. Pelo menos três especialistas em vinhos avaliaram a qualidade de cada vinho, fornecendo uma classificação entre 0 (muito ruim) e 10 (muito excelente).
O objetivo do projeto é construir um modelo de classificação que preveja sua qualidade com base nas características físicas e químicas do vinho (a qualidade do vinho foi avaliada com base em seu sabor).
Análise descritiva
As variáveis são: * Acidez: Atribuída como fator com 96 níveis; * Volatilidade; * Ácido citrico; * Açucar residual; * Dióxido de enxofre livre; * Cloretos; * Dióxido de enxofre total; * Densidade; * Ph; * Sulfatos. * Alcool; * Qualidade (resposta).
Length Class Mode
0 NULL NULL
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.000 5.000 6.000 5.636 6.000 8.000
'data.frame': 1599 obs. of 13 variables:
$ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
$ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
$ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
$ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
$ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
$ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
$ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
$ density : num 0.998 0.997 0.997 0.998 0.998 ...
$ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
$ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
$ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
$ quality : int 5 5 5 6 5 5 5 7 7 5 ...
$ quality_f : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...
[1] "fixed.acidity" "volatile.acidity" "citric.acid"
[4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
[7] "total.sulfur.dioxide" "density" "pH"
[10] "sulphates" "alcohol" "quality"
[13] "quality_f"
fixed.acidity volatile.acidity citric.acid residual.sugar
Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
chlorides free.sulfur.dioxide total.sulfur.dioxide density
Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
pH sulphates alcohol quality quality_f
Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000 3: 10
1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000 4: 53
Median :3.310 Median :0.6200 Median :10.20 Median :6.000 5:681
Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636 6:638
3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000 7:199
[ reached getOption("max.print") -- omitted 1 row ]
3 4 5 6 7 8
10 53 681 638 199 18
Todas as variáveis são do tipo numérico, exceto a qualidade, que é um número inteiro. Criaremos uma variável chamada ‘quality_f’ como fator.
No conjunto de dados, a pontuação variável de ‘qualidade’ entre 3 e 8. Os resultados acima mostram
a distribuição do vinho tinto de cada índice de qualidade no conjunto de dados. Podemos ver
o maior índice de qualidade do vinho tinto entre 5 e 6.
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.40 9.50 10.20 10.42 11.10 14.90
Existe um pico em torno de 9,2 - 9,8 na distribuição da variável ‘alcohol’. Além disso, notei que poucos vinhos têm álcool extremamente alto (acima de 14 e entre 14,5 e 15,0) e álcool extremamente baixo (abaixo de 9).
wine$quality: 3
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.400 9.725 9.925 9.955 10.575 11.000
------------------------------------------------------------
wine$quality: 4
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.00 9.60 10.00 10.27 11.00 13.10
------------------------------------------------------------
wine$quality: 5
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.5 9.4 9.7 9.9 10.2 14.9
------------------------------------------------------------
wine$quality: 6
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.40 9.80 10.50 10.63 11.30 14.00
------------------------------------------------------------
wine$quality: 7
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.20 10.80 11.50 11.47 12.10 14.00
------------------------------------------------------------
wine$quality: 8
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.80 11.32 12.15 12.09 12.88 14.00
Parece que os delineamento de álcool que têm álcool extremamente baixo (abaixo de 9)
tendem estar na categoria de baixa qualidade 3, 4, 5 e 6, enquanto os delinemaneto de álcool
que têm álcool extremamente alto (acima de 14) tendem a estar em categorias altas de qualidade 5,6,7 e 8.
# A tibble: 6 x 4
quality alco_mean alco_median n
<int> <dbl> <dbl> <int>
1 3 9.96 9.93 10
2 4 10.3 10 53
3 5 9.90 9.7 681
4 6 10.6 10.5 638
5 7 11.5 11.5 199
6 8 12.1 12.2 18
Eu agrupei um subconjunto tabela ‘wine.alco_by_quality’, descrevendo álcool
categorizado em qualidade. Percebi que a categoria de melhor qualidade possui a maior média 12,09 e mediana do álcool 12,88.
wine$quality: 3
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.400 9.725 9.925 9.955 10.575 11.000
------------------------------------------------------------
wine$quality: 4
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.00 9.60 10.00 10.27 11.00 13.10
------------------------------------------------------------
wine$quality: 5
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.5 9.4 9.7 9.9 10.2 14.9
------------------------------------------------------------
wine$quality: 6
Min. 1st Qu. Median Mean 3rd Qu. Max.
8.40 9.80 10.50 10.63 11.30 14.00
------------------------------------------------------------
wine$quality: 7
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.20 10.80 11.50 11.47 12.10 14.00
------------------------------------------------------------
wine$quality: 8
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.80 11.32 12.15 12.09 12.88 14.00
Examinei a média e a mediana do álcool em cada categoria de qualidade e estou
curioso para descobrir se o álcool influenciar a qualidade do vinho. E se houver
outras variáveis juntamente com o álcool influenciam a qualidade.
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 0.090 0.260 0.271 0.420 1.000
“Citric.acid” é ligeiramente inclinado para a direita. Há um pico alto na distribuição da variável ‘citric.acid’ em 0,00. É normal porque o ácido cítrico costuma estarem presentes em pequenas quantidades nos vinhos.
Existem outros 3 picos relativamente pequenos na distribuição. Notei também um contorno, que é de 1,00. Como o citric.acid pode adicionar frescor e sabor aos vinhos, estou pensando se um maior teor de ácido cítrico influencia positivamente a qualidade dos vinhos. E se o vinho com ácido cítrico igual a 1 estiver em melhor qualidade.
fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
152 9.2 0.52 1 3.4 0.61
free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
152 32 69 0.9996 2.74 2 9.4
quality quality_f
152 4 4
Enquanto me surpreendeu que o vinho com o máximo de “citric.acid” estivesse na qualidade 4, que não contribui para uma melhor qualidade.
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.60 7.10 7.90 8.32 9.20 15.90
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
Acima de dois histogramas mostram a distribuição da variável ‘fixed.acidity’ (não
evapora-se rapidamente) e a variável ‘volatile.acidity’ (representa a quantidade de
ácido acético no vinho, que em níveis muito altos pode levar a um sabor desagradável de vinagre).
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.900 1.900 2.200 2.539 2.600 15.500
O açúcar residual está inclinado para a direita, com alguns contornos acima de 11. A maioria
do açúcar residual está entre 1 e 3.
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
A maioria dos cloretos está entre 0,05 e 0,12.
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
Cerca de 75% do vinho tem densidade 0.9978. A densidade média é de 0,9968 e a densidade média é de 0,9967, o que esses dois são bem próximos.
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.740 3.210 3.310 3.311 3.400 4.010
pH é normalmente distribuído normalmente para algumas cliassificações. O pH médio é de 3,311, e cerca de 75% do pH é de 3,4.
quality_bucket
Low (Rating 3 - 4) Medium (Rating 5 - 6) High (Rating 7 - 8)
63 1319 217
Criei o quality_bucket para agrupar classificações de qualidade. Vinhos que recebem 3 e 4 pontos de qualidade agrupados em “Low” quality_bucket, vinhos que recebem 5 e 6 pontos de qualidade agrupados em “Medium” quality_bucket e vinhos que recebem 7 e 8 pontos de qualidade agrupados em “High” quality_bucket.
Análise estatística univariada
Existem 1599 observações de vinho no conjunto de dados com 12 recursos (acidez fixa, acidez volátil, ácido cítrico, açúcar residual, cloretos,
dióxido de enxofre livre, dióxido de enxofre total, densidade, pH, sulfatos, álcool e
qualidade). A qualidade da variável de saída é baseada nos dados do sensor, com uma pontuação entre
0 e 10.
Defino a variável ‘quality’ como variável de fator ordenada. Seus níveis são mostrados
como abaixo:
(muito ruim) —–> (muito excelente)
quality: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Enquanto no conjunto de dados, a variável de qualidade varia entre 3 e 8.
Outras observações:
- A maioria da qualidade do vinho é 5 e 6.
- O álcool médio é 10,42% e o álcool mediano é 10,20%.
- A qualidade mínima do vinho no conjunto de dados é 3, a qualidade máxima é 8, e a qualidade média é 5.636.
- Cerca de 75% do vinho contém \(2,6 g/dm^3\) de açúcar residual.
- O ácido cítrico médio é \(0,271 g/dm^3\) e o ácido cítrico máximo é \(1g/dm^3\).
Seção de plotagens bivariadas
A partir dessa matriz, notei que entre minhas variáveis interessadas em destaque (álcool, qualidade, pH, densidade e citric.acid), gostaria de dar uma olhada em algumas correlações significativas , como correlação de qualidade e álcool, álcool e pH, citric.acid e densidade, citric.acid e pH, citric.acid e qualidade. Porque esses valores de correlação parecem ser maiores que 0,3 ou menores que -0,3, o que significa pode ter uma correlação significativa.
Relação entre álcool e qualidade
Eu removi delineadores em álcool para ver se a relação entre álcool e
qualidade seria mais forte. Acabou um pouco mais forte. Portanto, é melhor usar a correlação de Pearson para testar esses dois. E talvez haja mais variáveis participando desse relacionamento.
Pearson's product-moment correlation
data: wine$alcohol and wine$quality
t = 21.639, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4373540 0.5132081
sample estimates:
cor
0.4761663
resultado mostra correlação de Pearson Acima há uma correlação moderada entre
álcool e qualidade. Para ser mais específico, o vinho com álcool mais alto tende a ter melhor qualidade.
Relação entre citric.acid e densidade
Pearson's product-moment correlation
data: wine$citric.acid and wine$density
t = 15.665, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3216809 0.4066925
sample estimates:
cor
0.3649472
Existe uma correlação positiva significativa, mas pequena, entre ácido cítrico e densidade.
Relação entre álcool e pH
Pearson's product-moment correlation
data: wine$alcohol and wine$pH
t = 8.397, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1582061 0.2521123
sample estimates:
cor
0.2056325
Álcool e pH têm pouca correlação.
Relação entre álcool e densidade
Pearson's product-moment correlation
data: wine$alcohol and wine$density
t = -22.838, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.5322547 -0.4583061
sample estimates:
cor
-0.4961798
Existe uma correlação moderada entre variáveis de álcool e densidade. Para ser específico, o vinho com álcool mais alto tende a ter densidade mais baixa.
Relação entre citric.acid e qualidade
Pearson's product-moment correlation
data: wine$citric.acid and wine$quality
t = 9.2875, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1793415 0.2723711
sample estimates:
cor
0.2263725
wine$quality: 3
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
------------------------------------------------------------
wine$quality: 4
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
------------------------------------------------------------
wine$quality: 5
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
------------------------------------------------------------
wine$quality: 6
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
------------------------------------------------------------
wine$quality: 7
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
------------------------------------------------------------
wine$quality: 8
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
wine$quality: 3
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
------------------------------------------------------------
wine$quality: 4
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
------------------------------------------------------------
wine$quality: 5
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
------------------------------------------------------------
wine$quality: 6
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
------------------------------------------------------------
wine$quality: 7
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
------------------------------------------------------------
wine$quality: 8
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
# A tibble: 6 x 3
quality citric_mean `n()`
<int> <dbl> <int>
1 3 0.171 10
2 4 0.174 53
3 5 0.244 681
4 6 0.274 638
5 7 0.375 199
6 8 0.391 18
Vinho de melhor qualidade tem maior média de ácido cítrico.
Enquanto citric.acid adicionaria ‘crescor’ ou sabor ao vinho, há pouca correlação
entre qualidade e citric.acid. Mas há uma tendência de que vinhos de melhor qualidade tenham maior média de ácido cítrico.
Relação entre citric.acid e álcool
Pearson's product-moment correlation
data: wine$citric.acid and wine$alcohol
t = 4.4188, df = 1597, p-value = 1.059e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.06121189 0.15807276
sample estimates:
cor
0.1099032
Pouca correlação entre ácido cítrico e álcool.
Relação entre pH e densidade
Pearson's product-moment correlation
data: wine$pH and wine$density
t = -14.53, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.3842835 -0.2976642
sample estimates:
cor
-0.3416993
Existe uma correlação significativa, porém pequena, entre pH e densidade.
Relação entre pH e citric.acid
Pearson's product-moment correlation
data: wine$citric.acid and wine$pH
t = -25.767, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.5756337 -0.5063336
sample estimates:
cor
-0.5419041
pH e citric.acid têm uma correlação negativa moderada em torno de -0,5419.
Seção de gráficos multivariados
Álcool e densidade na categoria de qualidade
É difícil ver os resultados por causa de tantas diferenças cores. Então eu criei
quality_bucket para melhor visualização.
Parece que três grupos de qualidade seguem a relação entre densidade e álcool.
Densidade e pH na categoria de qualidade
Os grupos de qualidade seguem a relação de pH e densidade. E é claro que o grupo de baixa qualidade possui menor faixa de pH e densidade, em comparação com o grupo de média e alta qualidade.
Citric.acid e pH na categoria de qualidade
Grupos de qualidade seguem a relação de pH e ácido cítrico. O grupo de baixa qualidade possui uma faixa relativamente maior de ácido cítrico. Além disso, notei que muitos vinhos de qualidade média têm \(0\) (zero) ácido cítrico, em comparação com grupos de baixa e alta qualidade.
Citric.acid e densidade na categoria de qualidade
#### Calcular o valor do \(R^2\)
Ao calcular o valor \(R^2\), quero testar se a variável mais forte álcool teria um valor elevado para provar sua relação linear com a qualidade.
[1] 0.2267344
[1] 0.2317266
[1] 0.2576685
[1] 0.2626409
Escolhi o álcool para testar a relação linear com a qualidade. Infelizmente, o \(R^2\)
não é forte (0,22673).
Mas quando adicionei cada uma das variáveis de interesse a esse modelo, o valor de \(R^2\) melhorou de 0,22673 para 0,2626.
[1] 0.2461944
Valor \(R^2\) fraco para comprovar correlação linear entre álcool e densidade.
Gráficos Finais e Resumo
Plote número um 1)
Álcool e densidade têm uma correlação negativa moderada em torno de -0,496. Vinho com maior porcentagem de álcool em volume tende a ter menor densidade \((g/cm^3)\). E todos os grupos de qualidade de vinho seguem a relação entre álcool e densidade.
Gráfico dois 2)
O álcool tem uma correlação mais forte com a qualidade em torno de 0,476. Vinhos com mais a porcentagem de álcool em volume tende a ter melhor qualidade. Mas notei que vinho com pontuação de qualidade 5 está um pouco fora da linha. Pode porque há ainda variáveis potenciais (juntamente com o álcool para influenciar a qualidade) que eu não discutiu.
Traçar Três 3)
O pH e o ácido cítrico \((g/dm^3)\) têm uma correlação negativa moderada em torno de -0,5419. Os vinhos com ácido cítrico mais alto \((g/dm^3)\) tendem a ter pH mais baixo. E toda a qualidade do vinho grupos seguem essa relação de pH e ácido cítrico. Além disso, grupo de baixa qualidade de o vinho tende a ter uma faixa maior de ácido cítrico \((g/dm^3)\), em comparação com médio e grupo de vinhos de alta qualidade.
Modelo de classificação do vinho
De modo a analisar as covariáveis disponíveis, vamos construir os componentes prinicpais de modo a reduzir a dimensionalidade dos dados e selecionar as variáveis com maior poder de explicação da variabilidade, pois variáveis sensoriais podem apresentar altas correlações.
Podemos notar que todas as covariáveis disponibilizadas no conjunto de dados são atribuídas como fator, com exceção da qualidade, que deve ser transformada. No gráfico de barras abaixo, temos o número de vinhos observados em cada nível de qualidade. Podemos notar a maior concentração de vinhos com qualidade 5 e 6.
Como os dois primeiros componentes principais explicam aproximadamente 79% da variabilidade do conjunto de dados, vamos reservar as variáveis que mais contribuíram para a construção de cada componente, sendo elas: densidade e Dióxido de enxofre total.
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7
Standard deviation 33.6721 7.61153 1.76105 1.34886 1.02291 0.20346 0.15229
Proportion of Variance 0.9466 0.04837 0.00259 0.00152 0.00087 0.00003 0.00002
Cumulative Proportion 0.9466 0.99495 0.99753 0.99905 0.99993 0.99996 0.99998
PC8 PC9 PC10 PC11
Standard deviation 0.10652 0.10039 0.03814 0.0007493
Proportion of Variance 0.00001 0.00001 0.00000 0.0000000
Cumulative Proportion 0.99999 1.00000 1.00000 1.0000000
Assim, vamos construir um modelo de árvores aleatórias e analisar a taxa de acerto do modelo a partir das duas covariáveis. Para isso, criaremos um conjunto com 90% de dados para treino e 10% para teste.
Confusion Matrix and Statistics
Reference
Prediction 3 4 5 6 7 8
3 0 0 0 0 0 0
4 0 1 1 0 0 0
5 0 0 43 13 2 0
6 0 3 17 31 10 0
7 0 0 1 6 7 0
8 0 0 0 1 1 0
Overall Statistics
Accuracy : 0.5985
95% CI : (0.5114, 0.6813)
No Information Rate : 0.4526
P-Value [Acc > NIR] : 0.0004185
Kappa : 0.36
Mcnemar's Test P-Value : NA
Statistics by Class:
Class: 3 Class: 4 Class: 5 Class: 6 Class: 7 Class: 8
Sensitivity NA 0.250000 0.6935 0.6078 0.35000 NA
Specificity 1 0.992481 0.8000 0.6512 0.94017 0.9854
Pos Pred Value NA 0.500000 0.7414 0.5082 0.50000 NA
Neg Pred Value NA 0.977778 0.7595 0.7368 0.89431 NA
Prevalence 0 0.029197 0.4526 0.3723 0.14599 0.0000
Detection Rate 0 0.007299 0.3139 0.2263 0.05109 0.0000
Detection Prevalence 0 0.014599 0.4234 0.4453 0.10219 0.0146
Balanced Accuracy NA 0.621241 0.7468 0.6295 0.64509 NA
Podemos notar que o modelo apresentou uma acurácia baixa, aproximadamente 64%, considerando as duas covariáves e kappa de 0,4206, o que pode não ser interessante. Note que no modelo estamos usando 500 árvores. Outros métodos podem ser utiizados para comparar a taxa de acurácia deste.
Entretanto, podemos notar que a matriz o método apresentou dificuldade em classificar qualidades do tipo 5 e 6, com maior sensitividade para vinhos com qualidade 5 de 79,03. De modo a melhorar a acurácia, podemos considerar outros modelos e encontrar o com melhor poder de predição.
Reflexão
Este conjunto de dados de Qualidade do vinho tinto continha 1.599 observações de vinhos tintos. Tem 12 variáveis no conjunto de dados, incluindo 11 variáveis de propriedades químicas em estes vinhos e 1 variável de saída da qualidade do vinho, classificada por especialistas e está entre 0 (muito ruim) e 10 (muito excelente).
Estou interessado em explorar como essas propriedades químicas influenciam a qualidade de vinho. Através de análises univariadas, bivariadas, multivariadas e estatísticas análise, testei diferentes relações entre essas variáveis.
Entre as variáveis incluídas no conjunto de dados, o álcool teve a correlação mais forte com qualidade de vinho. A correlação é de cerca de 0,476. Vinhos com mais álcool porcentagem em volume tende a ter melhor qualidade. Infelizmente, o O valor do quadrado r entre álcool e qualidade não é forte (cerca de 0,22673). Mas quando adicionei cada uma das variáveis (das quais estou interessado neste conjunto de dados) uma em uma vez nesse modelo, o valor do quadrado r melhorou de 0,22673 para 0,2626.
Penso que as limitações deste conjunto de dados seriam um dos principais desafios.
Entre 1.599 obeservações de vinhos, 82,4% dos vinhos receberam pontuação de 5 ou 6.
Cerca de 4% dos vinhos receberam pontuação 3 ou 4 e 13,6% dos vinhos receberam pontuação
de 7 ou 8. Seria melhor ter uma variedade maior de índice de qualidade para o
conjunto de dados.
Para futuras análises futuras, seria interessante e significativo combinar ou
compare esse conjunto de dados com o datast de vinho branco. Então, podemos ver como esses produtos químicos
correlação das propriedades com a qualidade alterada.
Referência:
- P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis. Modelagem das preferências de vinho por mineração de dados a partir de propriedades físico-químicas.
Em Decision Support Systems, Elsevier, 47 (4): 547-553. ISSN: 0167-9236. - https://www.linkedin.com/pulse/regression-analysis-how-do-i-interinter-r-squared-assess-gaurhari-dass
- https://discussions.udacity.com/t/how-to-quantify-correlation-between-categorical-and-numerical-variable/47067
- https://stackoverflow.com/questions/21945156/ggplot-geom-boxplot-and-geom-jitter
- https://briatte.github.io/ggcorr/#controlling-the-coefficient-labels