summary(winequality_red)
## fixed acidity volatile acidity citric acid residual sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free sulfur dioxide total sulfur dioxide density
## Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
## Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
## Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
## Max. :0.61100 Max. :72.00 Max. :289.00 Max. :1.0037
## pH sulphates alcohol quality
## Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000
## 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.310 Median :0.6200 Median :10.20 Median :6.000
## Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636
## 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :4.010 Max. :2.0000 Max. :14.90 Max. :8.000
Se aprecian 12 variables de las cuales todas son cuantitativas, con excepción de quality que es cualitativa.
par(mfrow = c(3,4), mar = c(2, 4, 2, 1))
for (col in names(winequality_red)) {
hist(winequality_red[[col]],
main = paste("Histograma de", col),
xlab = col,
ylab = "Frecuencia",
col = "skyblue",
border = "white")
}
Se aprecia que de solo la variable densidad y Ph presentan una distribución normal o simétrica según los histogramas. Mientras que el resto de variables son asimétricas.
par(mfrow = c(3, 4))
for (col in names(winequality_red)) {
boxplot(winequality_red[[col]],
main = paste("Boxplot de", col),
col = "tomato",
horizontal = FALSE)
}
Se muestra que todas las variables presentan outliers, por lo que se recomienda aplicar un tratamiento de outliers. Asimismo, estos outliers se pueden atribuir a errores humanos de medición o del instrumento.
par(mfrow = c(1, 1))
freq <- table(winequality_red$quality)
pareto.chart(freq,
main = "Pareto - Quality",
xlab = "Calidad",
ylab = "Frecuencia",
ylab2 = "Porcentaje acumulado")
##
## Pareto chart analysis for freq
## Frequency Cum.Freq. Percentage Cum.Percent.
## 5 681.0000000 681.0000000 42.5891182 42.5891182
## 6 638.0000000 1319.0000000 39.8999375 82.4890557
## 7 199.0000000 1518.0000000 12.4452783 94.9343340
## 4 53.0000000 1571.0000000 3.3145716 98.2489056
## 8 18.0000000 1589.0000000 1.1257036 99.3746091
## 3 10.0000000 1599.0000000 0.6253909 100.0000000
Notamos que el volumen más grande de muestra se encuentran en las dimensiones 5 y 6 de la variable calidad.