La base de datos de winequality -Red describen las variantes tinta y blanca del vino portugués “Vinho Verde”. Se descargo desde kaggle https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009
La base de datos esta en formato CSV y fue importado al Rstudio. Adicionalmente se realizo un resumen de cada variable
BD <- read.csv("C:/Users/Diego Vallejo/OneDrive/Escritorio/winequality-red.csv")
summary(BD)
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
## Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
## Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
## Max. :0.61100 Max. :72.00 Max. :289.00 Max. :1.0037
## pH sulphates alcohol quality
## Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000
## 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.310 Median :0.6200 Median :10.20 Median :6.000
## Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636
## 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :4.010 Max. :2.0000 Max. :14.90 Max. :8.000
### Graficos de las variables
BDN <- NULL
BDC <- NULL
dimension <- dim(BD)
par(mfrow=c(2,dimension[2]/2))
#############################################################################
###################### exploración de los datos #############################
for(j in 1:dimension[2]) {
if(is.numeric(BD[,j])) {
texto <- paste('análisis del atributo ',colnames(BD)[j])
hist(BD[,j],col=j, main = texto)
} else {
texto <- paste('análisis del atributo ',colnames(BD)[j])
pie(table(BD[,j]), main = texto)
}
}
Se puede observar que todas las variables son de tipo numerica, por que al ejecutar el codigo todas las variables son mostradas en graficos de Histograma, de lo contrario hubiera mostrado alguna variable de tipo de grafico pie.