PROJETOS EM DATA SCIENCE

Programa
Descrição geral dos dados
Análise descritiva
Análise estatística univariada
Seção de plotagens bivariadas
Seção de gráficos multivariados
Gráficos Finais e Resumo
Modelo de classificação do vinho
Reflexão
Referência:

Programa

Pós-Graduação em Estatística e Experimentação Agropecuária da Universidade Federal de Lavras (DES/UFLA). Disciplina Tópicos Especiais. Professor Responsável Paulo Henrique. Análise e Visualização de Dados

Descrição geral dos dados

Data set foram obtidos na Home Page do Paulo Cortez, assim como a descrição de como foram coletados os dados.

Esse conjunto de dados organizado contém 1.599 vinhos tintos com 11 variáveis sobre as propriedades químicas do vinho. Pelo menos três especialistas em vinhos avaliaram a qualidade de cada vinho, fornecendo uma classificação entre 0 (muito ruim) e 10 (muito excelente).

O objetivo do projeto é construir um modelo de classificação que preveja sua qualidade com base nas características físicas e químicas do vinho (a qualidade do vinho foi avaliada com base em seu sabor).

Análise descritiva

As variáveis são: * Acidez: Atribuída como fator com 96 níveis; * Volatilidade; * Ácido citrico; * Açucar residual; * Dióxido de enxofre livre; * Cloretos; * Dióxido de enxofre total; * Densidade; * Ph; * Sulfatos. * Alcool; * Qualidade (resposta).

Length  Class   Mode 
     0   NULL   NULL

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  3.000   5.000   6.000   5.636   6.000   8.000

'data.frame':   1599 obs. of  13 variables:
 $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
 $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
 $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
 $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
 $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
 $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
 $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
 $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
 $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
 $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
 $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
 $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
 $ quality_f           : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...

 [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
 [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
 [7] "total.sulfur.dioxide" "density"              "pH"                  
[10] "sulphates"            "alcohol"              "quality"             
[13] "quality_f"

 fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
 Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
 1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
 Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
 Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
 3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
   chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
 Min.   :0.01200   Min.   : 1.00       Min.   :  6.00       Min.   :0.9901  
 1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00       1st Qu.:0.9956  
 Median :0.07900   Median :14.00       Median : 38.00       Median :0.9968  
 Mean   :0.08747   Mean   :15.87       Mean   : 46.47       Mean   :0.9967  
 3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00       3rd Qu.:0.9978  
       pH          sulphates         alcohol         quality      quality_f
 Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000   3: 10    
 1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000   4: 53    
 Median :3.310   Median :0.6200   Median :10.20   Median :6.000   5:681    
 Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636   6:638    
 3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000   7:199    
 [ reached getOption("max.print") -- omitted 1 row ]


  3   4   5   6   7   8 
 10  53 681 638 199  18

Todas as variáveis são do tipo numérico, exceto a qualidade, que é um número inteiro. Criaremos uma variável chamada ‘quality_f’ como fator.

No conjunto de dados, a pontuação variável de ‘qualidade’ entre 3 e 8. Os resultados acima mostram
a distribuição do vinho tinto de cada índice de qualidade no conjunto de dados. Podemos ver
o maior índice de qualidade do vinho tinto entre 5 e 6.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   8.40    9.50   10.20   10.42   11.10   14.90

Existe um pico em torno de 9,2 - 9,8 na distribuição da variável ‘alcohol’. Além disso, notei que poucos vinhos têm álcool extremamente alto (acima de 14 e entre 14,5 e 15,0) e álcool extremamente baixo (abaixo de 9).

wine$quality: 3
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  8.400   9.725   9.925   9.955  10.575  11.000 
------------------------------------------------------------ 
wine$quality: 4
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   9.00    9.60   10.00   10.27   11.00   13.10 
------------------------------------------------------------ 
wine$quality: 5
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    8.5     9.4     9.7     9.9    10.2    14.9 
------------------------------------------------------------ 
wine$quality: 6
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   8.40    9.80   10.50   10.63   11.30   14.00 
------------------------------------------------------------ 
wine$quality: 7
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   9.20   10.80   11.50   11.47   12.10   14.00 
------------------------------------------------------------ 
wine$quality: 8
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   9.80   11.32   12.15   12.09   12.88   14.00

Parece que os delineamento de álcool que têm álcool extremamente baixo (abaixo de 9)
tendem estar na categoria de baixa qualidade 3, 4, 5 e 6, enquanto os delinemaneto de álcool
que têm álcool extremamente alto (acima de 14) tendem a estar em categorias altas de qualidade 5,6,7 e 8.

# A tibble: 6 x 4
  quality alco_mean alco_median     n
    <int>     <dbl>       <dbl> <int>
1       3      9.96        9.93    10
2       4     10.3        10       53
3       5      9.90        9.7    681
4       6     10.6        10.5    638
5       7     11.5        11.5    199
6       8     12.1        12.2     18

Eu agrupei um subconjunto tabela ‘wine.alco_by_quality’, descrevendo álcool
categorizado em qualidade. Percebi que a categoria de melhor qualidade possui a maior média 12,09 e mediana do álcool 12,88.

wine$quality: 3
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  8.400   9.725   9.925   9.955  10.575  11.000 
------------------------------------------------------------ 
wine$quality: 4
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   9.00    9.60   10.00   10.27   11.00   13.10 
------------------------------------------------------------ 
wine$quality: 5
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    8.5     9.4     9.7     9.9    10.2    14.9 
------------------------------------------------------------ 
wine$quality: 6
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   8.40    9.80   10.50   10.63   11.30   14.00 
------------------------------------------------------------ 
wine$quality: 7
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   9.20   10.80   11.50   11.47   12.10   14.00 
------------------------------------------------------------ 
wine$quality: 8
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   9.80   11.32   12.15   12.09   12.88   14.00

Examinei a média e a mediana do álcool em cada categoria de qualidade e estou
curioso para descobrir se o álcool influenciar a qualidade do vinho. E se houver
outras variáveis juntamente com o álcool influenciam a qualidade.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.000   0.090   0.260   0.271   0.420   1.000

“Citric.acid” é ligeiramente inclinado para a direita. Há um pico alto na distribuição da variável ‘citric.acid’ em 0,00. É normal porque o ácido cítrico costuma estarem presentes em pequenas quantidades nos vinhos.

Existem outros 3 picos relativamente pequenos na distribuição. Notei também um contorno, que é de 1,00. Como o citric.acid pode adicionar frescor e sabor aos vinhos, estou pensando se um maior teor de ácido cítrico influencia positivamente a qualidade dos vinhos. E se o vinho com ácido cítrico igual a 1 estiver em melhor qualidade.

    fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
152           9.2             0.52           1            3.4      0.61
    free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates alcohol
152                  32                   69  0.9996 2.74         2     9.4
    quality quality_f
152       4         4

Enquanto me surpreendeu que o vinho com o máximo de “citric.acid” estivesse na qualidade 4, que não contribui para uma melhor qualidade.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   4.60    7.10    7.90    8.32    9.20   15.90

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1200  0.3900  0.5200  0.5278  0.6400  1.5800

Acima de dois histogramas mostram a distribuição da variável ‘fixed.acidity’ (não
evapora-se rapidamente) e a variável ‘volatile.acidity’ (representa a quantidade de
ácido acético no vinho, que em níveis muito altos pode levar a um sabor desagradável de vinagre).

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.900   1.900   2.200   2.539   2.600  15.500

O açúcar residual está inclinado para a direita, com alguns contornos acima de 11. A maioria
do açúcar residual está entre 1 e 3.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

A maioria dos cloretos está entre 0,05 e 0,12.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.9901  0.9956  0.9968  0.9967  0.9978  1.0037

Cerca de 75% do vinho tem densidade 0.9978. A densidade média é de 0,9968 e a densidade média é de 0,9967, o que esses dois são bem próximos.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  2.740   3.210   3.310   3.311   3.400   4.010

pH é normalmente distribuído normalmente para algumas cliassificações. O pH médio é de 3,311, e cerca de 75% do pH é de 3,4.

quality_bucket
    Low (Rating 3 - 4) Medium (Rating 5 - 6)     High (Rating 7 - 8) 
                    63                   1319                    217

Criei o quality_bucket para agrupar classificações de qualidade. Vinhos que recebem 3 e 4 pontos de qualidade agrupados em “Low” quality_bucket, vinhos que recebem 5 e 6 pontos de qualidade agrupados em “Medium” quality_bucket e vinhos que recebem 7 e 8 pontos de qualidade agrupados em “High” quality_bucket.

Análise estatística univariada

Existem 1599 observações de vinho no conjunto de dados com 12 recursos (acidez fixa, acidez volátil, ácido cítrico, açúcar residual, cloretos,
dióxido de enxofre livre, dióxido de enxofre total, densidade, pH, sulfatos, álcool e
qualidade). A qualidade da variável de saída é baseada nos dados do sensor, com uma pontuação entre
0 e 10.

Defino a variável ‘quality’ como variável de fator ordenada. Seus níveis são mostrados
como abaixo:

(muito ruim) —–> (muito excelente)

quality: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Enquanto no conjunto de dados, a variável de qualidade varia entre 3 e 8.

Outras observações:

A maioria da qualidade do vinho é 5 e 6.
O álcool médio é 10,42% e o álcool mediano é 10,20%.
A qualidade mínima do vinho no conjunto de dados é 3, a qualidade máxima é 8, e a qualidade média é 5.636.
Cerca de 75% do vinho contém \(2,6 g/dm^3\) de açúcar residual.
O ácido cítrico médio é \(0,271 g/dm^3\) e o ácido cítrico máximo é \(1g/dm^3\).

Seção de plotagens bivariadas

A partir dessa matriz, notei que entre minhas variáveis interessadas em destaque (álcool, qualidade, pH, densidade e citric.acid), gostaria de dar uma olhada em algumas correlações significativas , como correlação de qualidade e álcool, álcool e pH, citric.acid e densidade, citric.acid e pH, citric.acid e qualidade. Porque esses valores de correlação parecem ser maiores que 0,3 ou menores que -0,3, o que significa pode ter uma correlação significativa.

Relação entre álcool e qualidade

Eu removi delineadores em álcool para ver se a relação entre álcool e
qualidade seria mais forte. Acabou um pouco mais forte. Portanto, é melhor usar a correlação de Pearson para testar esses dois. E talvez haja mais variáveis participando desse relacionamento.


    Pearson's product-moment correlation

data:  wine$alcohol and wine$quality
t = 21.639, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.4373540 0.5132081
sample estimates:
      cor 
0.4761663

resultado mostra correlação de Pearson Acima há uma correlação moderada entre
álcool e qualidade. Para ser mais específico, o vinho com álcool mais alto tende a ter melhor qualidade.

Relação entre citric.acid e densidade


    Pearson's product-moment correlation

data:  wine$citric.acid and wine$density
t = 15.665, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3216809 0.4066925
sample estimates:
      cor 
0.3649472

Existe uma correlação positiva significativa, mas pequena, entre ácido cítrico e densidade.

Relação entre álcool e pH


    Pearson's product-moment correlation

data:  wine$alcohol and wine$pH
t = 8.397, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1582061 0.2521123
sample estimates:
      cor 
0.2056325

Álcool e pH têm pouca correlação.

Relação entre álcool e densidade


    Pearson's product-moment correlation

data:  wine$alcohol and wine$density
t = -22.838, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.5322547 -0.4583061
sample estimates:
       cor 
-0.4961798

Existe uma correlação moderada entre variáveis de álcool e densidade. Para ser específico, o vinho com álcool mais alto tende a ter densidade mais baixa.

Relação entre citric.acid e qualidade


    Pearson's product-moment correlation

data:  wine$citric.acid and wine$quality
t = 9.2875, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1793415 0.2723711
sample estimates:
      cor 
0.2263725

wine$quality: 3
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
------------------------------------------------------------ 
wine$quality: 4
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
------------------------------------------------------------ 
wine$quality: 5
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
------------------------------------------------------------ 
wine$quality: 6
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
------------------------------------------------------------ 
wine$quality: 7
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
------------------------------------------------------------ 
wine$quality: 8
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

wine$quality: 3
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
------------------------------------------------------------ 
wine$quality: 4
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
------------------------------------------------------------ 
wine$quality: 5
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
------------------------------------------------------------ 
wine$quality: 6
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
------------------------------------------------------------ 
wine$quality: 7
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
------------------------------------------------------------ 
wine$quality: 8
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

# A tibble: 6 x 3
  quality citric_mean `n()`
    <int>       <dbl> <int>
1       3       0.171    10
2       4       0.174    53
3       5       0.244   681
4       6       0.274   638
5       7       0.375   199
6       8       0.391    18

Vinho de melhor qualidade tem maior média de ácido cítrico.

Enquanto citric.acid adicionaria ‘crescor’ ou sabor ao vinho, há pouca correlação
entre qualidade e citric.acid. Mas há uma tendência de que vinhos de melhor qualidade tenham maior média de ácido cítrico.

Relação entre citric.acid e álcool


    Pearson's product-moment correlation

data:  wine$citric.acid and wine$alcohol
t = 4.4188, df = 1597, p-value = 1.059e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.06121189 0.15807276
sample estimates:
      cor 
0.1099032

Pouca correlação entre ácido cítrico e álcool.

Relação entre pH e densidade


    Pearson's product-moment correlation

data:  wine$pH and wine$density
t = -14.53, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.3842835 -0.2976642
sample estimates:
       cor 
-0.3416993

Existe uma correlação significativa, porém pequena, entre pH e densidade.

Relação entre pH e citric.acid


    Pearson's product-moment correlation

data:  wine$citric.acid and wine$pH
t = -25.767, df = 1597, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.5756337 -0.5063336
sample estimates:
       cor 
-0.5419041

pH e citric.acid têm uma correlação negativa moderada em torno de -0,5419.

Seção de gráficos multivariados

Álcool e densidade na categoria de qualidade

É difícil ver os resultados por causa de tantas diferenças cores. Então eu criei
quality_bucket para melhor visualização.

Parece que três grupos de qualidade seguem a relação entre densidade e álcool.

Densidade e pH na categoria de qualidade

Os grupos de qualidade seguem a relação de pH e densidade. E é claro que o grupo de baixa qualidade possui menor faixa de pH e densidade, em comparação com o grupo de média e alta qualidade.

Citric.acid e pH na categoria de qualidade

Grupos de qualidade seguem a relação de pH e ácido cítrico. O grupo de baixa qualidade possui uma faixa relativamente maior de ácido cítrico. Além disso, notei que muitos vinhos de qualidade média têm \(0\) (zero) ácido cítrico, em comparação com grupos de baixa e alta qualidade.

Citric.acid e densidade na categoria de qualidade

#### Calcular o valor do \(R^2\)

Ao calcular o valor \(R^2\), quero testar se a variável mais forte álcool teria um valor elevado para provar sua relação linear com a qualidade.

[1] 0.2267344

[1] 0.2317266

[1] 0.2576685

[1] 0.2626409

Escolhi o álcool para testar a relação linear com a qualidade. Infelizmente, o \(R^2\)
não é forte (0,22673).

Mas quando adicionei cada uma das variáveis de interesse a esse modelo, o valor de \(R^2\) melhorou de 0,22673 para 0,2626.

[1] 0.2461944

Valor \(R^2\) fraco para comprovar correlação linear entre álcool e densidade.

Gráficos Finais e Resumo

Plote número um 1)

Álcool e densidade têm uma correlação negativa moderada em torno de -0,496. Vinho com maior porcentagem de álcool em volume tende a ter menor densidade \((g/cm^3)\). E todos os grupos de qualidade de vinho seguem a relação entre álcool e densidade.

Gráfico dois 2)

O álcool tem uma correlação mais forte com a qualidade em torno de 0,476. Vinhos com mais a porcentagem de álcool em volume tende a ter melhor qualidade. Mas notei que vinho com pontuação de qualidade 5 está um pouco fora da linha. Pode porque há ainda variáveis potenciais (juntamente com o álcool para influenciar a qualidade) que eu não discutiu.

Traçar Três 3)

O pH e o ácido cítrico \((g/dm^3)\) têm uma correlação negativa moderada em torno de -0,5419. Os vinhos com ácido cítrico mais alto \((g/dm^3)\) tendem a ter pH mais baixo. E toda a qualidade do vinho grupos seguem essa relação de pH e ácido cítrico. Além disso, grupo de baixa qualidade de o vinho tende a ter uma faixa maior de ácido cítrico \((g/dm^3)\), em comparação com médio e grupo de vinhos de alta qualidade.

Modelo de classificação do vinho

De modo a analisar as covariáveis disponíveis, vamos construir os componentes prinicpais de modo a reduzir a dimensionalidade dos dados e selecionar as variáveis com maior poder de explicação da variabilidade, pois variáveis sensoriais podem apresentar altas correlações.

Podemos notar que todas as covariáveis disponibilizadas no conjunto de dados são atribuídas como fator, com exceção da qualidade, que deve ser transformada. No gráfico de barras abaixo, temos o número de vinhos observados em cada nível de qualidade. Podemos notar a maior concentração de vinhos com qualidade 5 e 6.

Como os dois primeiros componentes principais explicam aproximadamente 79% da variabilidade do conjunto de dados, vamos reservar as variáveis que mais contribuíram para a construção de cada componente, sendo elas: densidade e Dióxido de enxofre total.

Importance of components:
                           PC1     PC2     PC3     PC4     PC5     PC6     PC7
Standard deviation     33.6721 7.61153 1.76105 1.34886 1.02291 0.20346 0.15229
Proportion of Variance  0.9466 0.04837 0.00259 0.00152 0.00087 0.00003 0.00002
Cumulative Proportion   0.9466 0.99495 0.99753 0.99905 0.99993 0.99996 0.99998
                           PC8     PC9    PC10      PC11
Standard deviation     0.10652 0.10039 0.03814 0.0007493
Proportion of Variance 0.00001 0.00001 0.00000 0.0000000
Cumulative Proportion  0.99999 1.00000 1.00000 1.0000000

Assim, vamos construir um modelo de árvores aleatórias e analisar a taxa de acerto do modelo a partir das duas covariáveis. Para isso, criaremos um conjunto com 90% de dados para treino e 10% para teste.

Confusion Matrix and Statistics

          Reference
Prediction  3  4  5  6  7  8
         3  0  0  0  0  0  0
         4  0  1  1  0  0  0
         5  0  0 43 13  2  0
         6  0  3 17 31 10  0
         7  0  0  1  6  7  0
         8  0  0  0  1  1  0

Overall Statistics
                                          
               Accuracy : 0.5985          
                 95% CI : (0.5114, 0.6813)
    No Information Rate : 0.4526          
    P-Value [Acc > NIR] : 0.0004185       
                                          
                  Kappa : 0.36            
                                          
 Mcnemar's Test P-Value : NA              

Statistics by Class:

                     Class: 3 Class: 4 Class: 5 Class: 6 Class: 7 Class: 8
Sensitivity                NA 0.250000   0.6935   0.6078  0.35000       NA
Specificity                 1 0.992481   0.8000   0.6512  0.94017   0.9854
Pos Pred Value             NA 0.500000   0.7414   0.5082  0.50000       NA
Neg Pred Value             NA 0.977778   0.7595   0.7368  0.89431       NA
Prevalence                  0 0.029197   0.4526   0.3723  0.14599   0.0000
Detection Rate              0 0.007299   0.3139   0.2263  0.05109   0.0000
Detection Prevalence        0 0.014599   0.4234   0.4453  0.10219   0.0146
Balanced Accuracy          NA 0.621241   0.7468   0.6295  0.64509       NA

Podemos notar que o modelo apresentou uma acurácia baixa, aproximadamente 64%, considerando as duas covariáves e kappa de 0,4206, o que pode não ser interessante. Note que no modelo estamos usando 500 árvores. Outros métodos podem ser utiizados para comparar a taxa de acurácia deste.

Entretanto, podemos notar que a matriz o método apresentou dificuldade em classificar qualidades do tipo 5 e 6, com maior sensitividade para vinhos com qualidade 5 de 79,03. De modo a melhorar a acurácia, podemos considerar outros modelos e encontrar o com melhor poder de predição.

Reflexão

Este conjunto de dados de Qualidade do vinho tinto continha 1.599 observações de vinhos tintos. Tem 12 variáveis no conjunto de dados, incluindo 11 variáveis de propriedades químicas em estes vinhos e 1 variável de saída da qualidade do vinho, classificada por especialistas e está entre 0 (muito ruim) e 10 (muito excelente).

Estou interessado em explorar como essas propriedades químicas influenciam a qualidade de vinho. Através de análises univariadas, bivariadas, multivariadas e estatísticas análise, testei diferentes relações entre essas variáveis.

Entre as variáveis incluídas no conjunto de dados, o álcool teve a correlação mais forte com qualidade de vinho. A correlação é de cerca de 0,476. Vinhos com mais álcool porcentagem em volume tende a ter melhor qualidade. Infelizmente, o O valor do quadrado r entre álcool e qualidade não é forte (cerca de 0,22673). Mas quando adicionei cada uma das variáveis (das quais estou interessado neste conjunto de dados) uma em uma vez nesse modelo, o valor do quadrado r melhorou de 0,22673 para 0,2626.

Penso que as limitações deste conjunto de dados seriam um dos principais desafios.
Entre 1.599 obeservações de vinhos, 82,4% dos vinhos receberam pontuação de 5 ou 6.
Cerca de 4% dos vinhos receberam pontuação 3 ou 4 e 13,6% dos vinhos receberam pontuação
de 7 ou 8. Seria melhor ter uma variedade maior de índice de qualidade para o
conjunto de dados.

Para futuras análises futuras, seria interessante e significativo combinar ou
compare esse conjunto de dados com o datast de vinho branco. Então, podemos ver como esses produtos químicos
correlação das propriedades com a qualidade alterada.

Referência:

P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis. Modelagem das preferências de vinho por mineração de dados a partir de propriedades físico-químicas.
Em Decision Support Systems, Elsevier, 47 (4): 547-553. ISSN: 0167-9236.
https://www.linkedin.com/pulse/regression-analysis-how-do-i-interinter-r-squared-assess-gaurhari-dass
https://discussions.udacity.com/t/how-to-quantify-correlation-between-categorical-and-numerical-variable/47067
https://stackoverflow.com/questions/21945156/ggplot-geom-boxplot-and-geom-jitter
https://briatte.github.io/ggcorr/#controlling-the-coefficient-labels

PROJETOS EM DATA SCIENCE

Projeto_2: Vinho

PROJETOS EM DATA SCIENCE

Programa

Descrição geral dos dados

Análise descritiva

Análise estatística univariada

Seção de plotagens bivariadas

Relação entre álcool e qualidade

Relação entre citric.acid e densidade

Relação entre álcool e pH

Relação entre álcool e densidade

Relação entre citric.acid e qualidade

Relação entre citric.acid e álcool

Relação entre pH e densidade

Relação entre pH e citric.acid

Seção de gráficos multivariados

Álcool e densidade na categoria de qualidade

Densidade e pH na categoria de qualidade

Citric.acid e pH na categoria de qualidade

Citric.acid e densidade na categoria de qualidade

Gráficos Finais e Resumo

Plote número um 1)

Gráfico dois 2)

Traçar Três 3)

Modelo de classificação do vinho

Reflexão

Referência: