RESPONSABLES

ANÁLISIS EXPLORATORIO DE UNA BASE DE DATOS DE CONTROL DE CALIDAD DE PRODUCCIÓN DE VINO

Este es una análisis descriptivo de una base de datos de control de calidad de producción de vino. Datos de la empresa reeservados.

Si quiere acceder a la BD, puede descargarla en:click aquí

Código para el acceso y exploración de los datos

#Lectura y asignación de variable para la base de datos
BD <- read.csv("winequality-red.csv")

#Identificación del atributo de la base de datos
class(BD)
## [1] "data.frame"
#Vista de los primeros registros de la base de datos
head(BD)
##   fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1           7.4             0.70        0.00            1.9     0.076
## 2           7.8             0.88        0.00            2.6     0.098
## 3           7.8             0.76        0.04            2.3     0.092
## 4          11.2             0.28        0.56            1.9     0.075
## 5           7.4             0.70        0.00            1.9     0.076
## 6           7.4             0.66        0.00            1.8     0.075
##   free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates alcohol
## 1                  11                   34  0.9978 3.51      0.56     9.4
## 2                  25                   67  0.9968 3.20      0.68     9.8
## 3                  15                   54  0.9970 3.26      0.65     9.8
## 4                  17                   60  0.9980 3.16      0.58     9.8
## 5                  11                   34  0.9978 3.51      0.56     9.4
## 6                  13                   40  0.9978 3.51      0.56     9.4
##   quality
## 1       5
## 2       5
## 3       5
## 4       6
## 5       5
## 6       5
#Dimension de la base de datos: Filas y columnas
dim(BD)
## [1] 1599   12
#Nombres de las columnas de la BD
names(BD)
##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"
#Nombres de las columnas de la BD
colnames(BD)
##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"
#Obtiene la cantidad de columnas de BD
columnas <- dim(BD)[2]
columnas
## [1] 12
#Obtiene la cantidad de registros de BD
filas <- dim(BD)[1]
filas
## [1] 1599
#Estructura de la BD
str(BD)
## 'data.frame':    1599 obs. of  12 variables:
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
#Resumen estadístico de las variables
summary(BD)
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00       Min.   :0.9901  
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00       1st Qu.:0.9956  
##  Median :0.07900   Median :14.00       Median : 38.00       Median :0.9968  
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47       Mean   :0.9967  
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00       3rd Qu.:0.9978  
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00       Max.   :1.0037  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000  
##  1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.310   Median :0.6200   Median :10.20   Median :6.000  
##  Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636  
##  3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :8.000

GRAFICAS DE LAS VARIABLES

Gráficos de las 12 variables descritas en el apartado anterior

Código para histogramas de las variables
#Obtiene la cantidad de columnas de BD'
columnas <- dim(BD)[2]
columnas
## [1] 12
#Obtiene la cantidad de registros de BD'
filas <- dim(BD)[1]
filas
## [1] 1599
#Variables para los indices de variables númericas y caracter.
indexn <- NULL
indexc <- NULL

#Indicamos la distribución de la parrilla de gráficas
par(mfrow = c(3,4))

#realizamos un for para indicar la iteracion de las columnas objetivo (variables)
for (i in 1:columnas) {
  if(is.numeric(BD[,i])== TRUE){
    hist(BD[ ,i],col=i,
         xlab=colnames(BD[i]),
         main= paste("Var: ", colnames(BD[i]), xlab=i
         ))
    
    indexn <- c(indexn,i)
  } 
  else
    {
  pie(table(BD[ ,i]))
  indexc <- c(indexc,i) 
  }
}

NOTAS

Nota 1 Las siguientes notas por variable, son un análisis básico tomado en cuenta de los datos utilizados para poder describir las variables respecto a la calidad del vino.

NOta 2 Se asumen unidades de concentración para las variables en “g/l”, escala de 1-14 para el ph y g/mL para la densidad.

  1. Var. Fixed. Acidity (acidez fija):
  • Se puede observar que la mayoria de los vinos se concentran en un rango de 6 y 9 de acidez fija.
  • Se observa una ligera asimetria hacia la derecha, lo que indica que existen algunos vinos con acidez fija altos.
  1. Var. Volatile acidity (acidez volatil):
  • Se observa que existe una concentración en los valores bajos para la acidez volatil. Se observa una ligera cola hacia la derecha.
  1. Var. Citric Acid. (ácido cítrico):
  • Se puede observar que hay niveles de acido citrico bajos con una ligera cola hacia la derecha a partir de los 0.6 g/l.
  1. Var. residual.sugar (azucar residual):
  • Se observa una ligera cola hacia la derecha lo cual indica que tenemos una pequeña porción de vinos con alto contenido de azucar, alcanzando inclusive valores de 15.5 g/l, cuando la media es de 2.539 g/l
  1. Var. chlorides (cloruros):
  • Se observa que hay una concentración baja de cloruros con una asimetria hacia la derecha, llegando a 0.611 g/l cuando la mediana es 0.07900.
  1. Var free.sulfur.dioxide (dioxido de sulfuro libre):
  • Se observa que el dioxido de azufre libre en los vinos analizados presenta una gran variabilidad, concentrado en valores menores a 21, con una cola hacia la derecha.
  1. Var. total.sulfur.dioxide (dioxido de sulfuro total):
  • Se observa que el dioxido de azufre total presenta una alta variabilidad, concentrado en valores menores a 62 g/l. Y se observa una cola hacia la derecha.
  1. Var. density (densidad):
  • Se observan valores homogeneos para esta variable, teniendo como mediana valores de 0.9968 g/mL
  1. Var pH (potencial de hidrogeno):
  • Se observan valores homogeneos para la variable ph, que tienen como mediana 3.31 de ph
  1. Var Suplhates (sulfatos):
  • Se observa que la variable sulfatos presenta una concentración en valores bajos con una cola hacia la derecha, llegando a valores maximos de 2.00 g/l
  1. Var alcohol (alcohol):
  • Se observa que la variable alcohol presenta valores moderados con una asimetria ligera.
  1. Var quality:
  • Se observa que la variable calidad presenta valores moderados con una ligera cola hacia la derecha.

CONCLUSIONES

    • Se puede concluir que la mayoría de los vinos al mantener una acidez volatil baja se encuentran conservados. Según bibliografia grados de 1 g/l de acidez volatil pueden indicar aromas y sabores similares a vinagre.
    • Según bibliografia valores de 1 g/l son los máximos permitidos para un vino, por lo tanto podemos decir que los vinos analizados contienen un nivel adecuado de acido citrico y además presentan una gran variedad de tonos de acidez y aromas.
    • En terminos de calidad tener una gran variación de estos niveles bajos de acido citrico podría indicar que el lote analizado no tiene caracteristicas similares en cuanto a acidez.
    • Se observa que se tiene una concentración de valores bajos de azucar residual. Lo cual puede indicar que estamos ante la presencia de un lote de vinos secos en su mayoria.
    • Según bibliografia los cloruros le dan una sabor salado al vino, siendo valores máximos aceptables 1,2 g/l, por lo cual podemos decir que los vinos analizados no presentan serios problemas respecto a cloruros
    • Según los valores presentados de dixido de azufre libre y total podemos conluir que estos estan dentro de los rangos permitidos según biliografia.
    • Ségún la variable ph podemos concluir que estamos ante la presencia de vinos acidos en su mayoría.
    • Según biliografia y los valores obtenidos de la variable sulfato podemos consluir que estamos ante la presencia de vinos estables respecto a sabor y equilibrio del vino.

RECOMENDACIONES.

  1. Se recomiendo proporcionar las unidades de medida para las variables para poder realizar un analisis más exacto.
  2. Se recomienda especificar la metodologia usada para la medición de la variable calidad para poder hacer una relación de variable-variable.
  3. Se recomiendo tener más información acerca de los tipos de vino, tipos de uva, enología en general para poder realizar comparaciones y conclusiones más orientadas a la realidad.