#Instalacion del Dataset: Winequality-white
dataB=read.csv(url("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv"), sep=";")
names(dataB) <- c("Acidez Fija","Acidez Volátil","Ácido Cítrico","Azucar Residual","Cloruros","Dióxido de azufre libre","Dióxido de azufre total","Densidad","pH","Sulfatos","Alcohol","Calidad")
View(dataB)
A partir de un dataset proporcionado de 4898 observaciones, repartidas en 12 variables, cuya principal característica es su tipo, que al ser cuantitativas, resulta más sencillo el cálculo de las medidas de tendencia central por cada variable.
Análisis de datos Univariante.
La acidez en la mediada de la cantidad de ácidos presentes en un vino o la intensidad en la que se encuentra en el mismo, a la acides total la componen la acidez fija y la acidez volátil.
library(moments)
hist(dataB$`Acidez Fija`,main = 'Histograma de Acidez Fija',xlab = 'Acidez Fija', col="blue")
boxplot(dataB$`Acidez Fija`,horizontal = TRUE, col="blue")
summary(dataB$`Acidez Fija`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
sd(dataB$`Acidez Fija`)
## [1] 0.8438682
kurtosis(dataB$`Acidez Fija`)
## [1] 5.168737
skewness(dataB$`Acidez Fija`)
## [1] 0.6475531
hist(dataB$`Acidez Volátil`, main="Histograma de acidez volatil",xlab = "Acidez volatil (g/L)")
boxplot(dataB$`Acidez Volátil`,horizontal = TRUE)
summary(dataB$`Acidez Volátil`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
sd(dataB$`Acidez Volátil`)
## [1] 0.1007945
library(moments)
skewness(dataB$`Acidez Volátil`)
## [1] 1.576497
kurtosis(dataB$`Acidez Volátil`)
## [1] 8.085205
hist(dataB$`Ácido Cítrico`,main = 'Histograma de Ácido Cítrico',xlab = 'Ácido Cítrico',col="blue")
boxplot(dataB$`Ácido Cítrico`,horizontal = TRUE, col="blue")
summary(dataB$`Ácido Cítrico`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
sd(dataB$`Ácido Cítrico`)
## [1] 0.1210198
kurtosis(dataB$`Ácido Cítrico`)
## [1] 9.167374
skewness(dataB$`Ácido Cítrico`)
## [1] 1.281528
hist(dataB$`Azucar Residual`, main = "Histograma de frecuencias para Azucar Residual",xlab = "Azucar Residual (g/L)")
boxplot(dataB$`Azucar Residual`,horizontal = TRUE)
summary(dataB$`Azucar Residual`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
sd(dataB$`Azucar Residual`)
## [1] 5.072058
skewness(dataB$`Azucar Residual`)
## [1] 1.076764
kurtosis(dataB$`Azucar Residual`)
## [1] 6.465054
hist(dataB$Cloruros,main = 'Histograma de Cloruros',xlab = 'Cloruros',col="blue")
boxplot(dataB$Cloruros,horizontal = TRUE, col="blue")
summary(dataB$Cloruros)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
sd(dataB$Cloruros)
## [1] 0.02184797
kurtosis(dataB$Cloruros)
## [1] 40.52504
skewness(dataB$Cloruros)
## [1] 5.021792
hist(dataB$`Dióxido de azufre libre`,main="Histograma de Dioxido de Azufre Libre",xlab = "Dioxido de Azufre Libre (ppm)")
boxplot(dataB$`Dióxido de azufre libre`,horizontal = TRUE)
summary(dataB$`Dióxido de azufre libre`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
sd(dataB$`Dióxido de azufre libre`)
## [1] 17.00714
skewness(dataB$`Dióxido de azufre libre`)
## [1] 1.406314
kurtosis(dataB$`Dióxido de azufre libre`)
## [1] 14.45342
hist(dataB$`Dióxido de azufre total`,main = 'Histograma de Dióxido de azufre total',xlab = 'Dióxido de azufre total', col="blue")
boxplot(dataB$`Dióxido de azufre total`,horizontal = TRUE, col="blue")
summary(dataB$`Dióxido de azufre total`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
sd(dataB$`Dióxido de azufre total`)
## [1] 42.49806
kurtosis(dataB$`Dióxido de azufre total`)
## [1] 3.570045
skewness(dataB$`Dióxido de azufre total`)
## [1] 0.3905902
hist(dataB$Densidad,main = "Histograma de frecuencias de la Densidad",xlab = "Densidad
(g/ml)")
boxplot(dataB$Densidad,horizontal = TRUE)
summary(dataB$Densidad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
sd(dataB$Densidad)
## [1] 0.002990907
skewness(dataB$Densidad)
## [1] 0.9774735
kurtosis(dataB$Densidad)
## [1] 12.78259
hist(dataB$pH,main = 'Histograma de PH',xlab = 'PH', col="blue")
boxplot(dataB$pH,horizontal = TRUE, col="blue")
summary(dataB$pH)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820
sd(dataB$pH)
## [1] 0.1510006
kurtosis(dataB$pH)
## [1] 3.529009
skewness(dataB$pH)
## [1] 0.4576423
hist(dataB$Alcohol,main = 'Histograma de Alcohol',xlab = 'Alcohol', col="blue")
boxplot(dataB$Alcohol,horizontal = TRUE, col="blue")
summary(dataB$Alcohol)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
sd(dataB$Alcohol)
## [1] 1.230621
kurtosis(dataB$Alcohol)
## [1] 2.301063
skewness(dataB$Alcohol)
## [1] 0.4871927
hist(dataB$Sulfatos,main="Histograma de frecuencia de los Sulfatos",xlab="Sulfatos (g/L)")
boxplot(dataB$Sulfatos,horizontal = TRUE)
summary(dataB$Sulfatos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
sd(dataB$Sulfatos)
## [1] 0.1141258
skewness(dataB$Sulfatos)
## [1] 0.9768944
kurtosis(dataB$Sulfatos)
## [1] 4.588081
hist(dataB$Calidad,main="Histograma de frecuencias de la Calidad del vino",xlab="Calidad")
boxplot(dataB$Calidad,horizontal = TRUE)
summary(dataB$Calidad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.878 6.000 9.000
sd(dataB$Calidad)
## [1] 0.8856386
skewness(dataB$Calidad)
## [1] 0.1557487
kurtosis(dataB$Calidad)
## [1] 3.21508
Análisis de datos bivariante o multivariante
#Covarianzas
cov(dataB[,c(5,10,9)])
## Cloruros Sulfatos pH
## Cloruros 4.773337e-04 4.179687e-05 -0.0002983649
## Sulfatos 4.179687e-05 1.302471e-02 0.0026875230
## pH -2.983649e-04 2.687523e-03 0.0228011811
#Coeficiente de Correlacion
cor(dataB[,c(5,10,9)])
## Cloruros Sulfatos pH
## Cloruros 1.00000000 0.01676288 -0.09043946
## Sulfatos 0.01676288 1.00000000 0.15595150
## pH -0.09043946 0.15595150 1.00000000
plot(dataB[,c(5,10,9)],pch=16 ,col=c("red","blue","green"))
#Cloruros = rojo
#Sulfatos = Azul
#pH = verde
Tal como se conoce el pH, es la medida de acidez de una disolución o mezcla liquida y está estrechamente relacionado con las especies químicas que interactúen en la misma, pudiendo ser estos cationes, aniones y sales tanto orgánicas como inorgánicas. Dado el conjunto de datos de muestras de vino blanco, se puede apreciar que está compuesto por especies azucaradas (azúcar residual), ácido cítrico, dióxido de azufre e iones cloruros y sulfatos, los mismos que al interactuar unos con otros dotan a cada observación de una acidez que luego se representa por el pH. En este caso al separar el estudio de los iones cloruros y sulfatos en el pH, se estableció, que inicialmente, la varianza de cada uno de los iones cloruros (4.773337x10-4), sulfatos (1.302471x10-2), y el pH (0.0228011811) son altamente referenciales para obtener una relación, al analizar la covarianza entre los cloruros y sulfatos, se obtiene un valor positivo de 4.179687x10-5 denotado una relación directa entre ellos, pero al relacionar los iones cloruros con el pH, la covarianza se torna negativa (-2.983649x10-4), es decir que la relación entre ellos es inversa, es decir que si la concentración de cloruros es baja [0.00, 0.10], el pH tomara valores altos en el intervalo establecido, que no pasen de 3.6. En el caso de los iones sulfatos estos poseen una covarianza con respecto al pH de 2.687523 x10-3, mostrando relación directa, si hay mayor cantidad de sulfatos, pues el pH de la muestra aumenta. En el diagrama se aprecia, que la relación de sulfatos y pH, abarca algunas muestras valiosas para los intervalos de [0.4, 0.8] y [2.8, 3.6] respectivamente. De la misma manera se puede entender la relación positiva o negativa de las variables, por medio del coeficiente de correlación, donde las variables que se correlacionan con sí mismas reciben el valor de 1 y en las especies distintas, se obtuvo los mismos signos de correlación negativos entre cloruros y pH (-0.09043946), y positivos entre los dos iones (0.01676288) y el ion sulfato con el pH (0.155595150).
#Covarianzas
cov(dataB[,c(6,7)])
## Dióxido de azufre libre Dióxido de azufre total
## Dióxido de azufre libre 289.2427 444.8659
## Dióxido de azufre total 444.8659 1806.0855
#Coeficiente de Correlacion
cor(dataB[,c(6,7)])
## Dióxido de azufre libre Dióxido de azufre total
## Dióxido de azufre libre 1.000000 0.615501
## Dióxido de azufre total 0.615501 1.000000
plot(x = dataB$`Dióxido de azufre total` , y =dataB$`Dióxido de azufre libre`,ylim = c(0,200),pch = 20, col=c("yellow","black"),
main = "Dioxido de Azufre", xlab ="Total (ppm)" , ylab = "Libre (ppm)")
legend(x = "topright", legend = c("Total","Libre"),
fill = c("yellow", "black"))
Como inicialmente se expuso, el dióxido de azufre es una pieza clave en la preservación del vino al consumir el oxígeno, pero en realidad hay dos tipos de dióxido de azufre presentes, el libre, que fue del cual se expuso anteriormente y el caso del total, resulta de la combinación de dióxido de azufre libre con otros gases sulfurados presentes, dando en si una mayor protección a los vinos, incluso como desinfectantes. El análisis de esta muestra resulta más sencillo, dado que se emplea dos variables de la misma especie química, misma unidad de concentración ppm pero en diferentes proporciones, la varianza del dióxido libre es 289.2427 y del dióxido total es 1806.0855. La covarianza de ambas especies concentradas, es 444.8659, es decir que ambas variables llevan una relación directa y positiva, dado que al aumentar el dióxido de azufre libre, también aumenta el total y viceversa. Además estas variables poseen un coeficiente de correlación de 0.615501. Este análisis requirió del uso de un diagrama de dispersión, para entender que la mayoría de datos obtenidos, de dióxido de azufre total como libre, se abarcan en concentraciones proporcionales de [0, 200] y [0, 100] respectivamente. Aunque también se presentan valores un poco alejados por encima de las 100 ppm para el dióxido de azufre libre, e incluso el valor máximo llega a los 289.00.
#Covarianzas
cov(dataB[,c(4,11)])
## Azucar Residual Alcohol
## Azucar Residual 25.72577 -2.812740
## Alcohol -2.81274 1.514427
#Coeficiente de Correlacion
cor(dataB[,c(4,11)])
## Azucar Residual Alcohol
## Azucar Residual 1.0000000 -0.4506312
## Alcohol -0.4506312 1.0000000
plot(dataB$`Azucar Residual`,dataB$Alcohol,main = "Diagrama de dispersion: Azucar residual-Alcohol",xlab = "Azucar Residual (g/L)",ylab = "Alcohol (%masa) ",pch=20,col=c("blue","green"))
legend(x = "topright", legend = c("Azucar Residual","Alcohol"),
fill = c("blue", "green"))
El grado alcohólico de una bebida está relacionado con el contenido de alcohol en peso de una disolución, en cambio el azúcar residual, corresponde a aquellos carbohidratos o moléculas azucaradas que aportan en color, sabor y olor de la bebida. Estas moléculas azucaradas clasifican al vino en seco (0-9), semiseco (9-18), semidulce (18-50) y dulce (mayor 50). Según el diagrama de dispersión los vinos de la muestra son del tipo secos y semisecos, al obtener la mayoría de sus valores de azúcar entre 0 a 20 g/L, y el grado o peso de alcohol corresponde entre el 8 al 14% de alcohol. Interpretando mediante la matriz de varianza y covarianza, la varianza de alcohol es del 1.514427 y para el azúcar residual, es 25.72577. Al momento de relacionar ambas variables se denota un valor negativo de -2.81274, lo que implica una relación inversa o negativa entre las variables, por consiguiente el coeficiente de relación entre las variables también negativo es de -0.4506312, así que si el grado alcohólico de la bebida aumenta, el azúcar residual debería disminuir, o si una bebida es demasiado dulce, el grado alcohólico no debería ser muy alto. Con respecto al diagrama de dispersión, se puede apreciar una acumulación de datos en el porcentaje de alcohol definido en el intervalo [9, 11] y entre la concentración de azúcar residual en [0,20]. El grafico presenta también valores aberrantes, como una muestra dulce con azúcar residual superior a 60 g/L, comprendido entre el 11-12% de grado alcohólico.
##Relacion dela Acidez Fija en el PH
cov(dataB[,c(1,9)])
## Acidez Fija pH
## Acidez Fija 0.71211359 -0.05426483
## pH -0.05426483 0.02280118
cor(dataB[,c(1,9)])
## Acidez Fija pH
## Acidez Fija 1.0000000 -0.4258583
## pH -0.4258583 1.0000000
plot(dataB[,c(1,9)],pch=16 ,col=c("red","green"))
legend(x = "topright", legend = c("Acidez Fija","pH"),
fill = c("red","green"))
#red=Acidez Fija
#green=PH
El PH es un medidor de la acidez total activa en el vino. El PH tiene una relación directa con la fermentación, la estabilidad del vino, el color y sabor. Por lo cual se realizó un análisis de correlación de la acidez fija y el PH del vino, individualmente tienen una varianza de (0.71211359) y (0.02280118) luego se obtuvo el valor de la covariancia (-0.05426483) nos indica que como varia inversamente el porcentaje de acidez fija con el PH. Para comprender mejor como funciona se obtuvo un coeficiente de correlación (-0.4258583) el cual representa una relación lineal débil, el signo de negativo del coeficiente de correlación indica que si la proporción de Acidez fija aumenta provoca que el PH aumente, lo cual se evidencia en el gráfico de dispersión. Al ser una relación débil nos indica que la acidez fija influye débilmente al valor del PH.
##relacion entre el nivel de alcohol y la calidad
cov(dataB[,c(11,12)])
## Alcohol Calidad
## Alcohol 1.5144270 0.4747264
## Calidad 0.4747264 0.7843557
cor(dataB[,c(11,2)])
## Alcohol Acidez Volátil
## Alcohol 1.00000000 0.06771794
## Acidez Volátil 0.06771794 1.00000000
plot(dataB[,c(11,12)],pch=16 ,col=c("red","green"))
legend(x = "topright", legend = c("Alcohol","Calidad"),
fill = c("red","green"))
#red=Alcohol
#green=calidad
Bastante parte de las personas tienen su opinión de que el vino con mayor grado de alcohol tiene una mayor calidad, sin embargo, esto no es cierto y se ve evidenciado en la información proporcionada y obtenida de los datos analizados. si bien los vinos modernos tienen una tendencia a tener un mayor grado de alcohol, la muestra analizada tiene una media de 10.51 grados y una varianza de 1.5144270. Para comprobar si el nivel de alcohol influye en la calidad del vino blanco se calculó la covarianza que es (0.4747264) que para comprender mejor como influye una variable con otra se calculó el coeficiente de correlación (0.4355747) este valor nos muestra que el nivel de alcohol y la calidad de vino tienen una relación débil, en el diagrama de dispersión se observa que no hay una relación lineal entre los valores de nivel de alcohol y la calidad del vino blanco. Por lo tanto, el nivel de alcohol del vino blanco no influye en que tenga una mayor o menor calidad del mismo.
Note that the echo = FALSE
parameter was added to the code chunk to prevent printing of the R code that generated the plot.