#Instalacion del Dataset: Winequality-white

dataB=read.csv(url("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv"), sep=";")
names(dataB) <- c("Acidez Fija","Acidez Volátil","Ácido Cítrico","Azucar Residual","Cloruros","Dióxido de azufre libre","Dióxido de azufre total","Densidad","pH","Sulfatos","Alcohol","Calidad") 

View(dataB)

A partir de un dataset proporcionado de 4898 observaciones, repartidas en 12 variables, cuya principal característica es su tipo, que al ser cuantitativas, resulta más sencillo el cálculo de las medidas de tendencia central por cada variable.

Análisis de datos Univariante.

La acidez en la mediada de la cantidad de ácidos presentes en un vino o la intensidad en la que se encuentra en el mismo, a la acides total la componen la acidez fija y la acidez volátil.

Acidez Fija

library(moments)
hist(dataB$`Acidez Fija`,main = 'Histograma de Acidez Fija',xlab = 'Acidez Fija', col="blue")

boxplot(dataB$`Acidez Fija`,horizontal = TRUE, col="blue")

summary(dataB$`Acidez Fija`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200
sd(dataB$`Acidez Fija`)
## [1] 0.8438682
kurtosis(dataB$`Acidez Fija`)
## [1] 5.168737
skewness(dataB$`Acidez Fija`)
## [1] 0.6475531
  1. La acidez fija es una agrupación de ácidos naturales procedentes de la uva o formados en el proceso de fermentación, puesto que el ácido tartárico es el más representativo se mide en base a él, unidades gramos/litro. En base al diagrama de cagas se estableció un máximo y mínimo de (14.200) y (3.800) respectivamente, el histograma de frecuencia ubicaba la mayor cantidad de datos en el intervalo [6, 7] en el cual se encuentra la media (6.855) y la mediana (6.800), presentan una desviación estándar de (0.8438682) aun así estos valores son muy cercanos. El 50% de la muestra se encuentra en los valores del primer cuartil (6.300) y el tercer cuartil (7.300), en la tabla de frecuencia se evidencia la concentración de valores en estos intervalos puesto que tiene una curtosis de (5.168737) una distribución leptocúrtica y además un sesgo de 0.6475531 representa asimetría positiva, siendo un factor para esta asimetría la gran cantidad de valores aberrantes.

Acidez Volatil

hist(dataB$`Acidez Volátil`, main="Histograma de acidez volatil",xlab = "Acidez volatil (g/L)")

boxplot(dataB$`Acidez Volátil`,horizontal = TRUE)

summary(dataB$`Acidez Volátil`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2782  0.3200  1.1000
sd(dataB$`Acidez Volátil`)
## [1] 0.1007945
library(moments)
skewness(dataB$`Acidez Volátil`)
## [1] 1.576497
kurtosis(dataB$`Acidez Volátil`)
## [1] 8.085205
  1. En el caso de la acidez volátil, expresado en unidades gramo sobre litro [g/L], con valores máximo y mínimo, 1.1000 y 0.0800 respectivamente, corresponden al intervalo de acidez de la muestra, según el histograma, la mayoría de observaciones se encontraban en el intervalo [0.2, 0.3], donde se incluyen los valores de media (0.2782) y mediana (0.2600) siendo estos cercanos entre sí, presentando una desviación estándar de 0.1007945 considerando estas medidas como representativas de la muestra, además los cuartiles primero (0.2100) y tercero (0.3200) se sitúan en el intervalo [0.2, 0.4], intervalo que predominan las observaciones. Cabe recalcar la amplia presencia de datos aberrantes, superiores a los 0.5 g/L, uno de estos es el máximo 1.1000, distinguiéndose así un evidente sesgo a la derecha en el diagrama de caja. Los valores de sesgo (1.576497) y curtosis (8.082205), representan asimetría positiva y distribución leptocúrtica.

Ácido Cítrico

hist(dataB$`Ácido Cítrico`,main = 'Histograma de Ácido Cítrico',xlab = 'Ácido Cítrico',col="blue")

boxplot(dataB$`Ácido Cítrico`,horizontal = TRUE, col="blue")

summary(dataB$`Ácido Cítrico`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600
sd(dataB$`Ácido Cítrico`)
## [1] 0.1210198
kurtosis(dataB$`Ácido Cítrico`)
## [1] 9.167374
skewness(dataB$`Ácido Cítrico`)
## [1] 1.281528
  1. El ácido cítrico normalmente se encuentra abundante en la mayoría de frutas excepto en las uvas, en concentraciones de alrededor de 0.2 a 0.4 g/l. en la muestra se encontró concentraciones máximas y mínimas de (1.600) y (0.000), además de una media y mediana de (0.3342) y (0.3200) valores que corresponden al rango de concentraciones que normalmente tienen las uvas. La muestra posee una desviación estándar de (0.1210198), el diagrama de cajas refleja un sesgo a la derecha (1.281528), cabe mencionar que este diagrama permite conocer que existe una gran cantidad de datos aberrantes mayoritariamente ubicados a la derecha lo cual evidencia una asimetría a la derecha, mientras que la distribución de los datos de la muestra es leptocúrtica debido a que la curtosis es de (9.167374) y que el 50% de los datos están en un rango entre (0.2700) y (0.3900) el cual es pequeño en comparación entre el mínimo y el máximo valor de la muestra, sin embargo cabe recalcar que un poco más del 50% se encuentra en un rango aceptable de ácido cítrico.

Azucar Residual

hist(dataB$`Azucar Residual`, main = "Histograma de frecuencias para Azucar Residual",xlab = "Azucar Residual  (g/L)")

boxplot(dataB$`Azucar Residual`,horizontal = TRUE)

summary(dataB$`Azucar Residual`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800
sd(dataB$`Azucar Residual`)
## [1] 5.072058
skewness(dataB$`Azucar Residual`)
## [1] 1.076764
kurtosis(dataB$`Azucar Residual`)
## [1] 6.465054
  1. El vino dado sus características derivadas de la fermentación alcohólica, posee una fuente de azucares llamados azucares residuales, que lo pueden clasificar en seco (0-9), semiseco (9-18), semidulce (18-50) y dulce (mayor 50). Esta característica se la mide en gramos litros [g/L], y en base a la muestra, la mayoría de las observaciones se encuentran entre los 0 y 10 gramos litros, siendo en su mayoría vinos secos y semisecos, esto se evidencia en base a una media de 6.391, además los valores de mediana (5.200) y cuartiles primero (1.700) y tercero (9.900), indican que la media al no parecerse a la mediana, presentándose una desviación estándar de 5.072058, un valor bastante alto, dado que los valores aberrantes son denotados por los valores mínimo (0.600) y en especial el máximo (65.800), este valor al estar demasiado alejado de la media, altera el resto de datos, haciendo de la media muy poco representativa, denotando sesgo hacia la derecha en el diagrama de caja. Los valores de sesgo (1.076764) y curtosis (6.465054), representan asimetría positiva y distribución leptocúrtica.

Cloruros

hist(dataB$Cloruros,main = 'Histograma de Cloruros',xlab = 'Cloruros',col="blue")

boxplot(dataB$Cloruros,horizontal = TRUE, col="blue")

summary(dataB$Cloruros)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
sd(dataB$Cloruros)
## [1] 0.02184797
kurtosis(dataB$Cloruros)
## [1] 40.52504
skewness(dataB$Cloruros)
## [1] 5.021792
  1. Una de los principales componentes de las sales en el vino son los cloruros, las sales minerales en el vino producen en organismo placer organoléptico, favorecen la hidratación, resalta sabores de los alimentos. La muestra en la que se está trabajando tiene una media de (0.04577) mg/L. la concentración del 50% de la muestra se encuentra entre (0.03600 y 0.04577) mientras que el valor mínimo y máximo es (0.0090 y0.34600). Al hacer uso del diagrama de cajas nos permite que la mayor cantidad de datos aberrantes están a la derecha, y esto refleja el valor del sesgo (5.021792) y valor alto y una curtosis de (40.52504) una distribución leptocúrtica que es observada claramente en el Histograma de frecuencia.

Dioxido de Azufre Libre

hist(dataB$`Dióxido de azufre libre`,main="Histograma de Dioxido de Azufre Libre",xlab = "Dioxido de Azufre Libre (ppm)")

boxplot(dataB$`Dióxido de azufre libre`,horizontal = TRUE)

summary(dataB$`Dióxido de azufre libre`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00
sd(dataB$`Dióxido de azufre libre`)
## [1] 17.00714
skewness(dataB$`Dióxido de azufre libre`)
## [1] 1.406314
kurtosis(dataB$`Dióxido de azufre libre`)
## [1] 14.45342
  1. En el proceso de fermentación alcohólica, al producirse alcohol, este mismo es propenso a oxidarse, dando un sabor amargo similar al del vinagre haciendo del vino, no apto para el consumo, por ello en los viñedos se ingresa dióxido de azufre para que este consuma oxígeno y evite la oxidación, el término “libre” hace referencia a los bisulfitos, y se miden en partes por millón (ppm). En este caso se encontró una media (35.31) mayor a la mediana (34.00), al poseer una desviación estándar de 17.00714 también hace de la media, a pesar de ser valores cercanos, poco representativa, es decir, hay muestras con elevadas cantidades de dióxido de azufre libre, en base a los cuartiles primero (23.00) y tercero (46.00), considerando un valor mínimo de 2.00 y un máximo de 289.00, es decir hay muestras con valores muy elevados, indicando que estos son vinos con un buen cuidado en la prevención de la oxidación, la gráfica del diagrama de cajas, está ligeramente sesgado hacia la derecha. . Los valores de sesgo (1.06314) y curtosis (14.45342), representan asimetría positiva y distribución leptocúrtica.

Dióxido de azufre total

hist(dataB$`Dióxido de azufre total`,main = 'Histograma de Dióxido de azufre total',xlab = 'Dióxido de azufre total', col="blue")

boxplot(dataB$`Dióxido de azufre total`,horizontal = TRUE, col="blue")

summary(dataB$`Dióxido de azufre total`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   108.0   134.0   138.4   167.0   440.0
sd(dataB$`Dióxido de azufre total`)
## [1] 42.49806
kurtosis(dataB$`Dióxido de azufre total`)
## [1] 3.570045
skewness(dataB$`Dióxido de azufre total`)
## [1] 0.3905902
  1. El dióxido de azufre a lo largo de los años ha sido utilizado como conservante. En el vino es utilizado por su actividad antioxidante y también por sus cualidades antimicrobianas, además evita la formación de defectos en el vino, sin embargo, el uso del dióxido de azufre genera efectos adversos a determinados consumidores. En Europa la legislación indica que se debe utilizar un máximo de 210 mg/L en vinos blancos. En la muestra analizada se tiene una media de (138.4) y una mediana de 134.0 las cuales están bajo el máximo establecido por la legislación europea, también con el primer cuartil (108.0) y el tercer cuartil (167.0) los que están en valores aceptables, sin embargo, el valor máximo es de (440) lo cual es más del doble del máximo recomendado. Habiendo una desviación estándar de (42.49806) y un sesgo a la derecha de (0.3905902) generado por los valores superiores al máximo permitido siendo muchos datos aberrantes. Se tiene una curtosis de 3.570045 lo que refleja una ligera distribución leptocúrtica.

Densidad

hist(dataB$Densidad,main = "Histograma de frecuencias de la Densidad",xlab = "Densidad
     (g/ml)")

boxplot(dataB$Densidad,horizontal = TRUE)

summary(dataB$Densidad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390
sd(dataB$Densidad)
## [1] 0.002990907
skewness(dataB$Densidad)
## [1] 0.9774735
kurtosis(dataB$Densidad)
## [1] 12.78259
  1. Una propiedad muy empleada en la ingeniería es la densidad, y en específico, al momento de obtener la densidad de vino, se aprecia que es muy cercana a la densidad del agua 1 g/ml, por ello el histograma, resulto muy concentrado en el intervalo [0.99, 1.00], con una media de 0.9940 y la mediana 0.9937, son valores bastantes cercanos, con una desviación estándar de 0.002990907, muy baja por ello se puede referir a esta media como representativa, con cuartiles primero y tercero, 0.9917 y 0.9961, pertenecientes a dicho intervalo, además los valores máximo y mínimo, 0.9871 y 1.0390, solo se presenta aberrante en el máximo, pero esto no afecta tanto, por ello el diagrama de cajas presenta un leve sesgo hacia la derecha. . Los valores de sesgo (0.9774735) y curtosis (12.78259), representan asimetría positiva y distribución leptocúrtica.

PH

hist(dataB$pH,main = 'Histograma de PH',xlab = 'PH', col="blue")

boxplot(dataB$pH,horizontal = TRUE, col="blue")

summary(dataB$pH)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.188   3.280   3.820
sd(dataB$pH)
## [1] 0.1510006
kurtosis(dataB$pH)
## [1] 3.529009
skewness(dataB$pH)
## [1] 0.4576423
  1. El PH es la unidad de medida de la acidez del vino, esta se distribuye en una escala que va desde 0 muy acido hasta 14 muy alcalino siendo 7 un punto neutro. La mayoría de los vinos blancos suelen estar entre 3 y 3.3 puesto que el vino es una bebida acida y por lo general se intenta que los vinos no tengan un PH cercano o superior a 4. En el Histograma de frecuencia se observa que la mayoría de los datos de la muestra se encuentran en el intervalo [3.1, 3.2] y con una media de (3.188) y una mediana de (3.180) los dos valores muy cercanos y dentro del rango estándar del PH de los vinos blancos, se tiene una desviación estándar de (0.1510006) y un sesgo a la derecha de (0.4576423)ya que la mayor concentración de datos y exactamente el 50% están en el intervalo del primer cuartil (3.090) y el tercer cuartil (3.280) y hay algunos datos aberrantes en su mayoría a la derecha. Se tiene una curtosis de (3.529009) esta distribución se asemeja un poco a una distribución normal.

Alcohol

hist(dataB$Alcohol,main = 'Histograma de Alcohol',xlab = 'Alcohol', col="blue")

boxplot(dataB$Alcohol,horizontal = TRUE, col="blue")

summary(dataB$Alcohol)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20
sd(dataB$Alcohol)
## [1] 1.230621
kurtosis(dataB$Alcohol)
## [1] 2.301063
skewness(dataB$Alcohol)
## [1] 0.4871927
  1. Los sulfatos son especies químicas, producto de la fermentación alcohólica, provenientes de las frutas que al final derivan en sulfitos. Esta sustancia funciona como conservante de los aromas del vino y eliminación de bacterias. En la muestra, según el histograma los intervalos comprendidos entre [0.4, 0.6] gramos litro (g/L), son aquellos que abarcan la mayoría de las observaciones, evidenciándose al analizar los cuartiles primero (0.4100), tercero (0.5500) y la mediana (0.4700) pertenecen a dicho intervalo, además la media (0.4898) está cercana a la mediana, con una desviación estándar de 0.1141258, indicando que la media es representativa de la muestra, hay que considerar que la muestra posee datos aberrantes mayores a 0.8, donde se encuentra el máximo (1.0800). El diagrama de cajas, presenta un ligero sesgo hacia la derecha. . Los valores de sesgo (0.9768944) y curtosis (4.588081), representan asimetría positiva y distribución leptocúrtica.

Sulfatos

hist(dataB$Sulfatos,main="Histograma de frecuencia de los Sulfatos",xlab="Sulfatos  (g/L)")

boxplot(dataB$Sulfatos,horizontal = TRUE)

summary(dataB$Sulfatos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.4100  0.4700  0.4898  0.5500  1.0800
sd(dataB$Sulfatos)
## [1] 0.1141258
skewness(dataB$Sulfatos)
## [1] 0.9768944
kurtosis(dataB$Sulfatos)
## [1] 4.588081
  1. El vino al ser una bebida fermentada, posee una graduación alcohólica entre los 3.5 y 15 grados. Pero habitualmente los vinos blancos están entre 10 y 12 grados de alcohol. Cada grado es un 1% de alcohol. La media de grados de alcohol de la muestra está en (10.51) y la mediana (10.40) valores que están en el estándar de la producción de vinos blancos. Con una desviación de (1.230621) y unos valores máximo y mínimo de 14.20 y 8.00 respectivamente, una concentración del 50% de los datos entre (9.50 y 11.40) grados, el Histograma de frecuencia revela un sesgo a la derecha claramente (0.4871927). la curtosis es de 2.30163 no están muy agrupados los datos de la muestra.

Calidad

hist(dataB$Calidad,main="Histograma de frecuencias de la Calidad del vino",xlab="Calidad")

boxplot(dataB$Calidad,horizontal = TRUE)

summary(dataB$Calidad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.878   6.000   9.000
sd(dataB$Calidad)
## [1] 0.8856386
skewness(dataB$Calidad)
## [1] 0.1557487
kurtosis(dataB$Calidad)
## [1] 3.21508
  1. De las variables presentadas, la calidad representa una comparación puntual, son valores enteros, su análisis será el más sencillo de ellos, el histograma revela que la mayoría de observaciones, poseen una calificación de 6 y luego 5, denotando que la mayoría de vinos tienen una calidad aceptable y muy pocos llevan una calificación de 9, analizando los valores de media 5.878 y desviación estándar 0.8856386, con un primer cuartil de 5.000 y coinciden en los valores de la mediana y tercer cuartil coinciden 6.000 muy cercano a la media, con datos aberrantes más puntuales, en su máximo como mínimo, 9.000 y 3.000 respectivamente. . Los valores de sesgo (0.1557487) y curtosis (3.21508), representan asimetría positiva y distribución leptocúrtica.

Análisis de datos bivariante o multivariante

Influencia de iones cloruros y sulfatos en el pH

#Covarianzas
cov(dataB[,c(5,10,9)]) 
##               Cloruros     Sulfatos            pH
## Cloruros  4.773337e-04 4.179687e-05 -0.0002983649
## Sulfatos  4.179687e-05 1.302471e-02  0.0026875230
## pH       -2.983649e-04 2.687523e-03  0.0228011811
#Coeficiente de Correlacion 
cor(dataB[,c(5,10,9)])
##             Cloruros   Sulfatos          pH
## Cloruros  1.00000000 0.01676288 -0.09043946
## Sulfatos  0.01676288 1.00000000  0.15595150
## pH       -0.09043946 0.15595150  1.00000000
plot(dataB[,c(5,10,9)],pch=16 ,col=c("red","blue","green"))

#Cloruros = rojo
#Sulfatos = Azul
#pH = verde

 Tal como se conoce el pH, es la medida de acidez de una disolución o mezcla liquida y está estrechamente relacionado con las especies químicas que interactúen en la misma, pudiendo ser estos cationes, aniones y sales tanto orgánicas como inorgánicas. Dado el conjunto de datos de muestras de vino blanco, se puede apreciar que está compuesto por especies azucaradas (azúcar residual), ácido cítrico, dióxido de azufre e iones cloruros y sulfatos, los mismos que al interactuar unos con otros dotan a cada observación de una acidez que luego se representa por el pH.  En este caso al separar el estudio de los iones cloruros y sulfatos en el pH, se estableció, que inicialmente, la varianza de cada uno de los iones cloruros (4.773337x10-4), sulfatos (1.302471x10-2), y el pH (0.0228011811) son altamente referenciales para obtener una relación, al analizar la covarianza entre los cloruros y sulfatos, se obtiene un valor positivo de 4.179687x10-5 denotado una relación directa entre ellos, pero al relacionar los iones cloruros con el pH, la covarianza se torna negativa (-2.983649x10-4), es decir que la relación entre ellos es inversa, es decir que si la concentración de cloruros es baja [0.00, 0.10], el pH tomara valores altos en el intervalo establecido, que no pasen de 3.6. En el caso de los iones sulfatos estos poseen una covarianza con respecto al pH de 2.687523 x10-3, mostrando relación directa, si hay mayor cantidad de sulfatos, pues el pH de la muestra aumenta. En el diagrama se aprecia, que la relación de sulfatos y pH, abarca algunas muestras valiosas para los intervalos de [0.4, 0.8] y [2.8, 3.6] respectivamente.  De la misma manera se puede entender la relación positiva o negativa de las variables, por medio del coeficiente de correlación, donde las variables que se correlacionan con sí mismas reciben el valor de 1 y en las especies distintas, se obtuvo los mismos signos de correlación negativos entre cloruros y pH (-0.09043946), y positivos entre los dos iones (0.01676288) y el ion sulfato con el pH (0.155595150).

Dioxido de Azufre

#Covarianzas
cov(dataB[,c(6,7)]) 
##                         Dióxido de azufre libre Dióxido de azufre total
## Dióxido de azufre libre                289.2427                444.8659
## Dióxido de azufre total                444.8659               1806.0855
#Coeficiente de Correlacion 
cor(dataB[,c(6,7)])
##                         Dióxido de azufre libre Dióxido de azufre total
## Dióxido de azufre libre                1.000000                0.615501
## Dióxido de azufre total                0.615501                1.000000
plot(x = dataB$`Dióxido de azufre total` , y =dataB$`Dióxido de azufre libre`,ylim = c(0,200),pch = 20, col=c("yellow","black"), 
     main = "Dioxido de Azufre", xlab ="Total (ppm)" , ylab = "Libre (ppm)")
legend(x = "topright", legend = c("Total","Libre"), 
       fill = c("yellow", "black"))

 Como inicialmente se expuso, el dióxido de azufre es una pieza clave en la preservación del vino al consumir el oxígeno, pero en realidad hay dos tipos de dióxido de azufre presentes, el libre, que fue del cual se expuso anteriormente y el caso del total, resulta de la combinación de dióxido de azufre libre con otros gases sulfurados presentes, dando en si una mayor protección a los vinos, incluso como desinfectantes.  El análisis de esta muestra resulta más sencillo, dado que se emplea dos variables de la misma especie química, misma unidad de concentración ppm pero en diferentes proporciones, la varianza del dióxido libre es 289.2427 y del dióxido total es 1806.0855. La covarianza de ambas especies concentradas, es 444.8659, es decir que ambas variables llevan una relación directa y positiva, dado que al aumentar el dióxido de azufre libre, también aumenta el total y viceversa. Además estas variables poseen un coeficiente de correlación de 0.615501.  Este análisis requirió del uso de un diagrama de dispersión, para entender que la mayoría de datos obtenidos, de dióxido de azufre total como libre, se abarcan en concentraciones proporcionales de [0, 200] y [0, 100] respectivamente. Aunque también se presentan valores un poco alejados por encima de las 100 ppm para el dióxido de azufre libre, e incluso el valor máximo llega a los 289.00.

Relacion entre el Azucar Residual y el Grado Alcoholico

#Covarianzas
cov(dataB[,c(4,11)]) 
##                 Azucar Residual   Alcohol
## Azucar Residual        25.72577 -2.812740
## Alcohol                -2.81274  1.514427
#Coeficiente de Correlacion 
cor(dataB[,c(4,11)])
##                 Azucar Residual    Alcohol
## Azucar Residual       1.0000000 -0.4506312
## Alcohol              -0.4506312  1.0000000
plot(dataB$`Azucar Residual`,dataB$Alcohol,main = "Diagrama de dispersion: Azucar residual-Alcohol",xlab = "Azucar Residual (g/L)",ylab = "Alcohol (%masa) ",pch=20,col=c("blue","green"))
legend(x = "topright", legend = c("Azucar Residual","Alcohol"), 
       fill = c("blue", "green"))

 El grado alcohólico de una bebida está relacionado con el contenido de alcohol en peso de una disolución, en cambio el azúcar residual, corresponde a aquellos carbohidratos o moléculas azucaradas que aportan en color, sabor y olor de la bebida. Estas moléculas azucaradas clasifican al vino en seco (0-9), semiseco (9-18), semidulce (18-50) y dulce (mayor 50). Según el diagrama de dispersión los vinos de la muestra son del tipo secos y semisecos, al obtener la mayoría de sus valores de azúcar entre 0 a 20 g/L, y el grado o peso de alcohol corresponde entre el 8 al 14% de alcohol.  Interpretando mediante la matriz de varianza y covarianza, la varianza de alcohol es del 1.514427 y para el azúcar residual, es 25.72577. Al momento de relacionar ambas variables se denota un valor negativo de -2.81274, lo que implica una relación inversa o negativa entre las variables, por consiguiente el coeficiente de relación entre las variables también negativo es de -0.4506312, así que si el grado alcohólico de la bebida aumenta, el azúcar residual debería disminuir, o si una bebida es demasiado dulce, el grado alcohólico no debería ser muy alto.  Con respecto al diagrama de dispersión, se puede apreciar una acumulación de datos en el porcentaje de alcohol definido en el intervalo [9, 11] y entre la concentración de azúcar residual en [0,20]. El grafico presenta también valores aberrantes, como una muestra dulce con azúcar residual superior a 60 g/L, comprendido entre el 11-12% de grado alcohólico.

##Relacion dela Acidez Fija en el PH

cov(dataB[,c(1,9)])
##             Acidez Fija          pH
## Acidez Fija  0.71211359 -0.05426483
## pH          -0.05426483  0.02280118
cor(dataB[,c(1,9)])
##             Acidez Fija         pH
## Acidez Fija   1.0000000 -0.4258583
## pH           -0.4258583  1.0000000
plot(dataB[,c(1,9)],pch=16 ,col=c("red","green")) 
legend(x = "topright", legend = c("Acidez Fija","pH"), 
       fill = c("red","green"))

#red=Acidez Fija
#green=PH

El PH es un medidor de la acidez total activa en el vino. El PH tiene una relación directa con la fermentación, la estabilidad del vino, el color y sabor. Por lo cual se realizó un análisis de correlación de la acidez fija y el PH del vino, individualmente tienen una varianza de (0.71211359) y (0.02280118) luego se obtuvo el valor de la covariancia (-0.05426483) nos indica que como varia inversamente el porcentaje de acidez fija con el PH. Para comprender mejor como funciona se obtuvo un coeficiente de correlación (-0.4258583) el cual representa una relación lineal débil, el signo de negativo del coeficiente de correlación indica que si la proporción de Acidez fija aumenta provoca que el PH aumente, lo cual se evidencia en el gráfico de dispersión. Al ser una relación débil nos indica que la acidez fija influye débilmente al valor del PH.

##relacion entre el nivel de alcohol y la calidad

cov(dataB[,c(11,12)])
##           Alcohol   Calidad
## Alcohol 1.5144270 0.4747264
## Calidad 0.4747264 0.7843557
cor(dataB[,c(11,2)])
##                   Alcohol Acidez Volátil
## Alcohol        1.00000000     0.06771794
## Acidez Volátil 0.06771794     1.00000000
plot(dataB[,c(11,12)],pch=16 ,col=c("red","green")) 
legend(x = "topright", legend = c("Alcohol","Calidad"), 
       fill = c("red","green"))

#red=Alcohol
#green=calidad

Bastante parte de las personas tienen su opinión de que el vino con mayor grado de alcohol tiene una mayor calidad, sin embargo, esto no es cierto y se ve evidenciado en la información proporcionada y obtenida de los datos analizados. si bien los vinos modernos tienen una tendencia a tener un mayor grado de alcohol, la muestra analizada tiene una media de 10.51 grados y una varianza de 1.5144270. Para comprobar si el nivel de alcohol influye en la calidad del vino blanco se calculó la covarianza que es (0.4747264) que para comprender mejor como influye una variable con otra se calculó el coeficiente de correlación (0.4355747) este valor nos muestra que el nivel de alcohol y la calidad de vino tienen una relación débil, en el diagrama de dispersión se observa que no hay una relación lineal entre los valores de nivel de alcohol y la calidad del vino blanco. Por lo tanto, el nivel de alcohol del vino blanco no influye en que tenga una mayor o menor calidad del mismo.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.