A continuación, se realiza un análisis descriptivo de la base de datos Wine Quality, con la finalidad de comprender las características generales de los datos,variables, y así poder identificar patrones relevantes y explorar posibles relaciones entre estas. Este análisis sirve como base para futuros modelos predictivos y toma de decisiones informadas en el ámbito de la enología.
BD1 <- read.csv("C:/Users/ADMIN/Downloads/winequality-red (1).csv")
dim(BD1) #filas y columnas imprime la dimensión de la base de datos #Se observa que hay 1599 filas y 12 columnas
## [1] 1599 12
names(BD1) #nombre de encabezado de las columnas, incluye características fisico químicas del vino, como acidez, pH y alcohol, así como la variable objetivo quality, que mide la calidad del vino en una escala discreta.
## [1] "fixed.acidity" "volatile.acidity" "citric.acid"
## [4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
## [7] "total.sulfur.dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
columna <- dim (BD1)[2] #cantidad de columnas de la base de datos
columna
## [1] 12
str(BD1) #la composición de la data #La mayoría de las variables son numéricas continuas #La variable quality es un entero (int), lo que indica que la calidad se mide en una escala ordinal discreta, probablemente del 0 al 10.
## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
#fixed.acidity y volatile.acidity: Representan la acidez fija y volátil, importantes para el equilibrio del sabor.
#citric.acid: Un componente que agrega frescura al vino.
#residual.sugar: Indicador de dulzura, que puede influir en la percepción del vino.
#chlorides: Relacionado con la salinidad del vino.
#sulfur.dioxide: Importante para la preservación y antioxidación del vino.
#density: Relacionada con el contenido de alcohol y azúcar.
#pH: Mide la acidez general del vino.
#sulphates: Asociados a la astringencia y preservación.
#alcohol: Contenido alcohólico, que es clave para la percepción de calidad y cuerpo del vino.
summary(BD1) #resumen de los cuartiles de la data
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
## Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
## Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
## Max. :0.61100 Max. :72.00 Max. :289.00 Max. :1.0037
## pH sulphates alcohol quality
## Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000
## 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.310 Median :0.6200 Median :10.20 Median :6.000
## Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636
## 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :4.010 Max. :2.0000 Max. :14.90 Max. :8.000
You can also embed plots, for example:
indexn <- NULL
indexc <- NULL
par(mfrow=c(3,4)) #fila,columna siempre
for(i in 1:columna){
if(is.numeric(BD1[ , i])== TRUE){
titulo <- paste("Variable: ", colnames(BD1[i]))
hist(BD1[ , i], col = i, main = titulo)
indexn <- c(indexn,i)
} else{
titulo <- paste("Variable: ", colnames(BD1[i]))
pie(table(BD1[ , i]), main = titulo)
indexc <- c(indexc,i)
}
}
#ANÁLISIS DE LAS VARIABLES: -Acidez: fixed.acidity y volatile.acidity presentan valores medios de 8.32 y 0.5278 respectivamente. Un nivel adecuado de acidez es crucial para el sabor del vino, pero valores extremos pueden afectar la percepción de calidad.
-Azúcares Residuales: residual.sugar tiene un rango amplio (0.9 a 15.5), lo que indica que hay vinos desde secos hasta más dulces. La mediana y el tercer cuartil (2.2 y 2.6) sugieren que la mayoría de los vinos son relativamente secos.
-Cloruros: Los valores medios de chlorides (0.08747) son bajos, pero la presencia de valores máximos altos (0.611) podría indicar problemas de salinidad en algunos vinos.
-Dióxido de Azufre: Las variables free.sulfur.dioxide y total.sulfur.dioxide tienen rangos amplios, con máximos de 72 y 289 respectivamente. Estas sustancias se utilizan como conservantes, pero niveles elevados pueden ser problemáticos para el sabor o la salud.
-Densidad: La densidad tiene un rango pequeño (0.9901 a 1.0037), lo que es esperado, ya que la densidad del vino está estrechamente ligada al contenido de alcohol y azúcar.
-ph: La mediana del pH (3.31) y su rango (2.74 a 4.01) están dentro de lo esperado para vinos, donde valores más bajos indican mayor acidez.
-Sulfatos: Los sulphates (0.33 a 2.00) son importantes para la percepción de astringencia y estructura del vino. La mediana es 0.62, con un promedio ligeramente superior, indicando una distribución posiblemente sesgada.
-Alcohol: El contenido de alcohol varía significativamente (8.4 a 14.9), con una mediana de 10.2. Esto puede influir directamente en la percepción de calidad y cuerpo del vino.
-Calidad: La variable quality tiene un rango de 3 a 8, con una mediana de 6. Esto sugiere que la mayoría de los vinos están en un rango de calidad media.