Analisis descriptivo de la calidad de vino

A continuacion se realiza un analisis descriptivo de los datos de la base “Calidad de vino”:

#importar la base de datos de y realizar el resumen de la data
BD <- read.csv("~/Documents/Cursos/Business Analytics/Statistics programming for business analytics/winequality-red.csv")

#imprimir la dimension de la base de datos
dim (BD)
## [1] 1599   12
#los nombres de la base de datos
names(BD)
##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"
colnames(BD)
##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"
#la cantidad de columnnaas de la base de datos
columna <- dim(BD)[2]
columna
## [1] 12
#la composicion de la data
str(BD)
## 'data.frame':    1599 obs. of  12 variables:
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
#resumen de los cuartiles de la data
summary(BD)
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00       Min.   :0.9901  
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00       1st Qu.:0.9956  
##  Median :0.07900   Median :14.00       Median : 38.00       Median :0.9968  
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47       Mean   :0.9967  
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00       3rd Qu.:0.9978  
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00       Max.   :1.0037  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000  
##  1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.310   Median :0.6200   Median :10.20   Median :6.000  
##  Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636  
##  3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :8.000

Grafica de la base de datos

indexn <- NULL
indexc <- NULL

par(mfrow = c(2,5))

for(i in 1:columna){
  if(is.numeric(BD[ , i])== TRUE){
    titulo <- paste("Analisis de la variable: ", colnames(BD[i]))
    hist(BD[ , i], col = i, main = titulo)
    indexn <- c(indexn,i)
  } else{
    titulo <- paste("Analisis de la variable: ", colnames(BD[i]))
    pie(table(BD[ , i]), main = titulo)
    indexc <- c(indexc,i)
  }
}

  1. fixed.acidity: Estadísticas: La acidez fija varía entre 4.6 y 15.9, con una media de 8.32. La mayoría de los valores están concentrados entre 7.1 y 9.2. Gráfico: La distribución tiene una forma aproximadamente normal, con una ligera asimetría hacia valores más altos. La mayoría de los vinos tienen una acidez fija cercana a 7-9.

  2. volatile.acidity: Estadísticas: La acidez volátil va desde 0.12 hasta 1.58, con una media de 0.527. La mayoría de los valores se encuentran entre 0.39 y 0.64. Gráfico: La distribución está sesgada hacia la derecha, con muchos valores pequeños (alrededor de 0.4-0.6) y pocos valores más grandes.

  3. citric.acid:

    Estadísticas: Los valores oscilan entre 0 y 1.0, con una media de 0.271. La mayoría de los vinos tienen valores bajos (entre 0.09 y 0.42). Gráfico: La distribución tiene una caída gradual; la mayoría de los valores se concentran entre 0.1 y 0.4.

  4. residual.sugar: Estadísticas: Los valores van desde 0.9 hasta 15.5, con una media de 2.539. El 50% de los datos están entre 1.9 y 2.6. Gráfico: La distribución está altamente sesgada hacia la derecha, con la mayoría de los valores por debajo de 5.

  5. chlorides: Estadísticas: Los valores están entre 0.012 y 0.611, con una media de 0.087. La mayoría de los datos se encuentran entre 0.07 y 0.09. Gráfico: La distribución presenta una concentración muy alta de valores pequeños (cercanos a 0.1), con pocos casos de valores más altos.

  6. free.sulfur.dioxide: Estadísticas: Los valores oscilan entre 1 y 72, con una media de 15.87. La mayoría de los datos están entre 7 y 21. Gráfico: La distribución está sesgada hacia la derecha, con muchos valores bajos (entre 0 y 20).

  7. total.sulfur.dioxide: Estadísticas: La variable varía entre 6 y 289, con una media de 46.47. El 50% de los datos están entre 22 y 62. Gráfico: La distribución muestra una asimetría positiva, con valores bajos predominando.

  8. density: Estadísticas: Los valores varían entre 0.9901 y 1.0037, con una media de 0.9967. La mayoría de los valores están entre 0.9956 y 0.9978. Gráfico: La distribución es aproximadamente simétrica y centrada alrededor de 0.996.

  9. pH: Estadísticas: Los valores oscilan entre 2.74 y 4.01, con una media de 3.311. La mayoría de los vinos tienen valores de pH entre 3.21 y 3.4. Gráfico: La distribución es casi simétrica, con un pico alrededor de 3.3.

  10. sulphates: Estadísticas: Los valores van desde 0.33 hasta 2.0, con una media de 0.658. La mayoría de los datos se concentran entre 0.55 y 0.73. Gráfico: La distribución está sesgada hacia la derecha, con valores bajos predominando.

  11. alcohol: Estadísticas: Los valores varían entre 8.4 y 14.9, con una media de 10.42. La mayoría de los vinos tienen valores entre 9.5 y 11.1. Gráfico: La distribución tiene una asimetría negativa, con más vinos concentrados en niveles bajos de alcohol (entre 9 y 11).

  12. quality: Estadísticas: Los valores oscilan entre 3 y 8, con una media de 5.636. La mayoría de los vinos tienen una calidad de 5 o 6. Gráfico: La distribución es discreta y bimodal, con picos en las calificaciones de 5 y 6.

En general, los gráficos muestran que muchas variables presentan distribuciones asimétricas hacia la derecha (sesgadas), indicando que la mayoría de los valores están en rangos bajos, mientras que unos pocos valores más altos se presentan como extremos.