Integrantes

Dimensiones

summary(winequality_red)
##  fixed acidity   volatile acidity  citric acid    residual sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free sulfur dioxide total sulfur dioxide    density      
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00       Min.   :0.9901  
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00       1st Qu.:0.9956  
##  Median :0.07900   Median :14.00       Median : 38.00       Median :0.9968  
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47       Mean   :0.9967  
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00       3rd Qu.:0.9978  
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00       Max.   :1.0037  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000  
##  1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.310   Median :0.6200   Median :10.20   Median :6.000  
##  Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636  
##  3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :8.000

Se aprecian 12 variables de las cuales todas son cuantitativas, con excepción de quality que es cualitativa.

Histograma

par(mfrow = c(3,4), mar = c(2, 4, 2, 1)) 
for (col in names(winequality_red)) {
  hist(winequality_red[[col]],
       main = paste("Histograma de", col),
       xlab = col,
       ylab = "Frecuencia",
       col = "skyblue",
       border = "white")
}

Se aprecia que de solo la variable densidad y Ph presentan una distribución normal o simétrica según los histogramas. Mientras que el resto de variables son asimétricas.

BoxPlot

par(mfrow = c(3, 4))
for (col in names(winequality_red)) {
  boxplot(winequality_red[[col]],
          main = paste("Boxplot de", col),
          col = "tomato",
          horizontal = FALSE)
}

Se muestra que todas las variables presentan outliers, por lo que se recomienda aplicar un tratamiento de outliers. Asimismo, estos outliers se pueden atribuir a errores humanos de medición o del instrumento.

Pareto

par(mfrow = c(1, 1))
freq <- table(winequality_red$quality)
pareto.chart(freq,
             main = "Pareto - Quality",
             xlab = "Calidad",
             ylab = "Frecuencia",
             ylab2 = "Porcentaje acumulado")

##    
## Pareto chart analysis for freq
##        Frequency    Cum.Freq.   Percentage Cum.Percent.
##   5  681.0000000  681.0000000   42.5891182   42.5891182
##   6  638.0000000 1319.0000000   39.8999375   82.4890557
##   7  199.0000000 1518.0000000   12.4452783   94.9343340
##   4   53.0000000 1571.0000000    3.3145716   98.2489056
##   8   18.0000000 1589.0000000    1.1257036   99.3746091
##   3   10.0000000 1599.0000000    0.6253909  100.0000000

Notamos que el volumen más grande de muestra se encuentran en las dimensiones 5 y 6 de la variable calidad.