ESTADISTICA DESCRIPTIVA

Primer parcial

Vino blanco ~ Base de datos

Paralelo 6

La base de datos utilizada para la realización de este proyecto investigativo es de la marca portuguesa Vinho Verde.

El objetivo de la revisión de esta base de datos es para modelar las diferentes caracterizaciones Físico-químicas en la industria vitinícola.

Llamado y apertura de la base datos

Aquí en detalle del análisis físico-químico con un total de 4898 resultados arrojados.

library(knitr)
library("rsconnect")
Sys.setlocale("LC_ALL", "ES_ES.UTF-8")

## Warning in Sys.setlocale("LC_ALL", "ES_ES.UTF-8"): OS reports request to set
## locale to "ES_ES.UTF-8" cannot be honored

## [1] ""

knitr::opts_chunk$set(error = FALSE)
data=read.csv(url("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv"), sep=";")
datos_frame <- data.frame(data)
head(datos_frame)

##   fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1           7.0             0.27        0.36           20.7     0.045
## 2           6.3             0.30        0.34            1.6     0.049
## 3           8.1             0.28        0.40            6.9     0.050
## 4           7.2             0.23        0.32            8.5     0.058
## 5           7.2             0.23        0.32            8.5     0.058
## 6           8.1             0.28        0.40            6.9     0.050
##   free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates alcohol
## 1                  45                  170  1.0010 3.00      0.45     8.8
## 2                  14                  132  0.9940 3.30      0.49     9.5
## 3                  30                   97  0.9951 3.26      0.44    10.1
## 4                  47                  186  0.9956 3.19      0.40     9.9
## 5                  47                  186  0.9956 3.19      0.40     9.9
## 6                  30                   97  0.9951 3.26      0.44    10.1
##   quality
## 1       6
## 2       6
## 3       6
## 4       6
## 5       6
## 6       6

attach(data)
attach(datos_frame) #lo que estamos haciendo es usar el comando attach, para fijar el data frame a trabajar

## The following objects are masked from data:
## 
##     alcohol, chlorides, citric.acid, density, fixed.acidity,
##     free.sulfur.dioxide, pH, quality, residual.sugar, sulphates,
##     total.sulfur.dioxide, volatile.acidity

Medidas de tendencia Central, Dispersión y de Distribución para todo el conjunto de datos:

Haremos uso de la librería psych, específicamente el comando describe, para tener una descripción completa por cada variable. El cual nos brindará sus medidas estaditicamente descriptivas, tales como: el promedio, desviación estándar, mediana, máximo, mínimo, rango, sesgo, curtosis y mediana truncada.

library(psych)
describe(datos_frame)

##                      vars    n   mean    sd median trimmed   mad  min    max
## fixed.acidity           1 4898   6.85  0.84   6.80    6.82  0.74 3.80  14.20
## volatile.acidity        2 4898   0.28  0.10   0.26    0.27  0.09 0.08   1.10
## citric.acid             3 4898   0.33  0.12   0.32    0.33  0.09 0.00   1.66
## residual.sugar          4 4898   6.39  5.07   5.20    5.80  5.34 0.60  65.80
## chlorides               5 4898   0.05  0.02   0.04    0.04  0.01 0.01   0.35
## free.sulfur.dioxide     6 4898  35.31 17.01  34.00   34.36 16.31 2.00 289.00
## total.sulfur.dioxide    7 4898 138.36 42.50 134.00  136.96 43.00 9.00 440.00
## density                 8 4898   0.99  0.00   0.99    0.99  0.00 0.99   1.04
## pH                      9 4898   3.19  0.15   3.18    3.18  0.15 2.72   3.82
## sulphates              10 4898   0.49  0.11   0.47    0.48  0.10 0.22   1.08
## alcohol                11 4898  10.51  1.23  10.40   10.43  1.48 8.00  14.20
## quality                12 4898   5.88  0.89   6.00    5.85  1.48 3.00   9.00
##                       range skew kurtosis   se
## fixed.acidity         10.40 0.65     2.17 0.01
## volatile.acidity       1.02 1.58     5.08 0.00
## citric.acid            1.66 1.28     6.16 0.00
## residual.sugar        65.20 1.08     3.46 0.07
## chlorides              0.34 5.02    37.51 0.00
## free.sulfur.dioxide  287.00 1.41    11.45 0.24
## total.sulfur.dioxide 431.00 0.39     0.57 0.61
## density                0.05 0.98     9.78 0.00
## pH                     1.10 0.46     0.53 0.00
## sulphates              0.86 0.98     1.59 0.00
## alcohol                6.20 0.49    -0.70 0.02
## quality                6.00 0.16     0.21 0.01

Determinaciones para el Vino Blanco:

Este conjunto de datos estará establecido mediante variables físicoquímicas y sensoriales. Usando los debidos algoritmos procederemos al estudio de cada una de las variables existentes, tales como:

Acidez Fija: haciendo referencia a los Ácidos naturales proveniente de la uva utilizada.

Acidez Volátil: la cual se puede calcular mediante pruebas de laboratorio de química orgánica, empleando los métodos de destilación directa y la destilación por arrastre de vapor.

Ácido Cítrico: Desaparece por el accionar de las bacterias presentes en la fermentación.

Azúcar Residual: es la azúcar que queda presente en el vino déspues del proceso de fermentación, aparecen en forma de pentosas.

Cloruros: estos tienen una relación entre la planta y el suelo, debido a su capacidad de absorción.

Dióxido de azufre libre: uno de los compuesto que oxidará a los fenoles permitiendo asi la produción de un producto llamado sulfito.

Dióxido de azufre total: cantidad correspondiente a la capicidad toal de dióxido de azufre presente en el vino.

Densidad: corresponde segun la masa volúmica.

pH: es la medida que proporciona estabilidad al vino.

Sulfatos: infiere a las coloraciones con sulfuro.

Alcohol: viene regido por el estatuo del vino, y se usa métodos de graduación de alchol como el Txakolis.

Calidad: esto se refleja en la producción de la uva, el cual es la materia prima, que conjunto a varios procesos hará que el vino obtenga una excelente calidad.

Variables Cuantitativas

Acidez Fija

Las uvas son una fruta con un gran potencial de ácidos implicados, sobretodo al momento de su maduración que se incrementa exponencialmente. Estos ácidos son: Ácidos tartárico y el Ácido málico. La acidez juega un papel muy importante en el vino, gracias a las propiedades organolópticas.

library(fdth) #Descarga de la libreria ''fdth''

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

attach(datos_frame) #Fijacion del data frame para trabajar con cada variable con mayor facilidad.

## The following objects are masked from datos_frame (pos = 5):
## 
##     alcohol, chlorides, citric.acid, density, fixed.acidity,
##     free.sulfur.dioxide, pH, quality, residual.sugar, sulphates,
##     total.sulfur.dioxide, volatile.acidity

## The following objects are masked from data:
## 
##     alcohol, chlorides, citric.acid, density, fixed.acidity,
##     free.sulfur.dioxide, pH, quality, residual.sugar, sulphates,
##     total.sulfur.dioxide, volatile.acidity

tb1<- fdt(fixed.acidity, breaks = "Sturges") #Tabla de datos agrupdos para la variable 'acidez fija'.
tb1

##     Class limits    f   rf rf(%)   cf  cf(%)
##   [3.762,4.5177)    8 0.00  0.16    8   0.16
##  [4.5177,5.2734)   97 0.02  1.98  105   2.14
##  [5.2734,6.0291)  653 0.13 13.33  758  15.48
##  [6.0291,6.7849) 1569 0.32 32.03 2327  47.51
##  [6.7849,7.5406) 1684 0.34 34.38 4011  81.89
##  [7.5406,8.2963)  605 0.12 12.35 4616  94.24
##   [8.2963,9.052)  210 0.04  4.29 4826  98.53
##   [9.052,9.8077)   60 0.01  1.22 4886  99.76
##  [9.8077,10.563)    8 0.00  0.16 4894  99.92
##  [10.563,11.319)    2 0.00  0.04 4896  99.96
##  [11.319,12.075)    1 0.00  0.02 4897  99.98
##  [12.075,12.831)    0 0.00  0.00 4897  99.98
##  [12.831,13.586)    0 0.00  0.00 4897  99.98
##  [13.586,14.342)    1 0.00  0.02 4898 100.00

Podemos observar la marca de clase, y las frecuencias relativas, absolutas y acumuladas.

Medidas de tendencia Central, Dispersión y de Distribución

describe(fixed.acidity)

##    vars    n mean   sd median trimmed  mad min  max range skew kurtosis   se
## X1    1 4898 6.85 0.84    6.8    6.82 0.74 3.8 14.2  10.4 0.65     2.17 0.01

Podemos observar que tenemos su media, la mediana y la media truncada tienen valores muy parecidos es decir, tienen una distribución con tendencia a ser simétrica.

Lo podemos denotar con el resultado de su sesgo, en esta variable es relativamente bueno, se encuentra en un rango entre 0 y 1. Estos resultados expresan que difiere en 0.6 con la media aritmética. Con respecto a la curtosis, tiene una alta concentración de valores con respecto a su distribución de frecuencia. Es de tipo leptocúrtica al ser 2.16 (es decir, mayor que 0).

Histograma

hist(datos_frame$fixed.acidity, labels = T ,main = "Histograma de la Acidez fija en el Vino Blanco",
     xlab=" ",
     ylab = "Frecuencia ", col="lightblue")

Si examinamos la figura, denotamos como se encuentra en un rango de [6,8] los datos que presentan una mayor frecuencia con respecto a la acidez que generalmente se obtiene del vino, esto tambien va de la mano con el pH usado.

Diagrama de Caja

boxplot(datos_frame$fixed.acidity, main= "Diagrama de caja - la Acidez fija en el Vino Blanco", horizontal = TRUE)

Existen muchos datos dispersos (valores atípicos) en esta variable, el diagrama de caja es una excelente opción ante la discusión de datos, especialmente en el rango que se encuentra entre [8,10].

El sabor ácido que se percibe en el vino esta condicionado por factores, y uno de ellos es la cantidad de protones que se tiene proporcionados pro la acidez real comprobandose con el pH. En el vino influyen los ácidos tartárico, málico y láctico, proporcionado así una gran ionización por parte del tartárico, tiene un rol importante.

Acidez Volátil

La acidez vólatil se puede obtener mediante dos métodos, tales como: la destilación directa , el método de Mathieu y al que recurren muchas industrias es el método de García Tena.

Esta acidez volátil ocurre gracias a los efectos de fermentación de bacterias acóticas. Provocando así, un olor característico en el vino, el cual es su olor a vinagre. Estos datos pueden variar según el vino que se desea hacer o producir en masa.

tb2 <- fdt(volatile.acidity, breaks = "Sturges")
tb2 #Tabla de datos agrupados usando el comando 'fdt'

##     Class limits    f   rf rf(%)   cf  cf(%)
##  [0.0792,0.1529)  264 0.05  5.39  264   5.39
##  [0.1529,0.2266) 1284 0.26 26.21 1548  31.60
##  [0.2266,0.3003) 1813 0.37 37.02 3361  68.62
##   [0.3003,0.374)  883 0.18 18.03 4244  86.65
##   [0.374,0.4477)  373 0.08  7.62 4617  94.26
##  [0.4477,0.5214)  145 0.03  2.96 4762  97.22
##  [0.5214,0.5951)   63 0.01  1.29 4825  98.51
##  [0.5951,0.6688)   41 0.01  0.84 4866  99.35
##  [0.6688,0.7425)   19 0.00  0.39 4885  99.73
##  [0.7425,0.8162)    6 0.00  0.12 4891  99.86
##  [0.8162,0.8899)    1 0.00  0.02 4892  99.88
##  [0.8899,0.9636)    3 0.00  0.06 4895  99.94
##   [0.9636,1.037)    2 0.00  0.04 4897  99.98
##    [1.037,1.111)    1 0.00  0.02 4898 100.00

Aplicamos la opción de tabla de datos agrupados para clasificar la información por sus marcas de clases y apreciar mejor los datos.

Medidas de tendencia Central, Dispersión y de Distribución

describe(volatile.acidity)

##    vars    n mean  sd median trimmed  mad  min max range skew kurtosis se
## X1    1 4898 0.28 0.1   0.26    0.27 0.09 0.08 1.1  1.02 1.58     5.08  0

En esta tabla se encuentra resumido los datos principales de la variable Acidez Volátil, según los métodos usados por la marca Vinho Verde empleando las respectivas fórmulas de cálculo cuantitativos. La esteoquiometría aplicada en la reacción muestra como tuvo una ligera inclinación a la derecha con respecto a la media. El valor de la curtosis es relativamente alto, indicando una concentración de valores.

Histograma

hist(datos_frame$volatile.acidity, main = "Histograma de la Acidez Volátil en el Vino Blanco",
     xlab=" ",
     ylab = "Frecuencia ", col="beige")

En el eje de las ‘x’ tenemos las mediciones el rango de los datos usados, mientras que en el eje de la ‘y’ muestra la frecuencia o repeteición de estos datos.

Notamos que existe una concentración justo en el rango de [0.2266,0.3003), se obtiene hasta 1813 datos.

Diagrama de Caja

boxplot(datos_frame$volatile.acidity, main= "Diagrama de caja - Acidez Volátil en el Vino Blanco ", horizontal = TRUE)

Los valores atípicos poseen una tendencia para la izquierda, y se lo esperaba debido a su curtosis establecida.

Una de las principales propiedades que se tiene en el vino son los ácidos orgánicos que llegan a contribuir la medid a de la acidez y saber diferenciar gracias al pH. Cuando el vino es lo suficientemente ácido pude presentar sabor pastoso o ser frágil.
Debe presentar una acidez adecuada para mantener equilibrio con los respectivos elementos gustativos para poder llegar equi

Ácido Cítrico

Es uno de los ácidos naturales más importantes en la elaboración de un vino. Es el que brinda sensaciones amigables, mezclas de aromas antes la degustación.

tb3<-fdt(citric.acid, breaks = "Sturges")
tb3

##     Class limits    f   rf rf(%)   cf  cf(%)
##       [0,0.1198)  100 0.02  2.04  100   2.04
##  [0.1198,0.2395)  566 0.12 11.56  666  13.60
##  [0.2395,0.3593) 2566 0.52 52.39 3232  65.99
##   [0.3593,0.479) 1063 0.22 21.70 4295  87.69
##   [0.479,0.5988)  445 0.09  9.09 4740  96.77
##  [0.5988,0.7185)   85 0.02  1.74 4825  98.51
##  [0.7185,0.8383)   61 0.01  1.25 4886  99.76
##  [0.8383,0.9581)    4 0.00  0.08 4890  99.84
##   [0.9581,1.078)    6 0.00  0.12 4896  99.96
##    [1.078,1.198)    0 0.00  0.00 4896  99.96
##    [1.198,1.317)    1 0.00  0.02 4897  99.98
##    [1.317,1.437)    0 0.00  0.00 4897  99.98
##    [1.437,1.557)    0 0.00  0.00 4897  99.98
##    [1.557,1.677)    1 0.00  0.02 4898 100.00

Los límites de clase se dividieron en pequeñas proporciones para mejor entendimiento con el uso de tablas de frecuencias.

Medidas de tendencia Central, Dispersión y de Distribución

describe(citric.acid)

##    vars    n mean   sd median trimmed  mad min  max range skew kurtosis se
## X1    1 4898 0.33 0.12   0.32    0.33 0.09   0 1.66  1.66 1.28     6.16  0

El dato más común usado para calcular cuan disperso son los datos es la desviación estándar, y esta tiene 0.12 con respecto al valor de la media/promedio.

Histograma

hist(datos_frame$citric.acid, main = "Histograma del Ácido Citrico en el Vino Blanco",
     xlab = '',
     ylab='Frecuencia', col='aquamarine')

Con anterioridad calculamos mediante la tabla de frecuencias los valores que se concentrarían mas en algún rango. En este caso es [0.2395,0.3593), teniendo hasta 2566 datos que se han repetido, más de la mitad de datos totales obtenidos.

Diagrama de Caja

boxplot(datos_frame$citric.acid, main="Diagrama de caja - Acido Citrico en el Vino Blanco ", horizontal = TRUE)

Tiene una concentración de valores más dispersos del lado derecho del diagrama, es decir, son datos que son mucho mas alejados de la media establecida.

El conocimiento del componente ácido del vino es muy impornante para la producción vitinícola, puesto que se debe seguirse la maduración de la uva durante la fermentación y la conservación que del vino, para finalmente llegar a la comercialización.

Azúcar Residual

La azúcar puede aparecer hasta 200 gramos aproximiados por litro de Vino, las reacciones quimicas que se dan acabo dan como producto moléculas de glucosa y fructuosa (pentosas). Aunque la gran mayoría desaparece déspues de la fermentación bacteriana, pero, es aquí donde aparece la famosa azúcar residual.

tb4<- fdt(residual.sugar, breaks = "Sturges")
tb4 #tabla número 4 de datos agrupados

##     Class limits    f   rf rf(%)   cf  cf(%)
##   [0.594,5.2986) 2473 0.50 50.49 2473  50.49
##  [5.2986,10.003) 1232 0.25 25.15 3705  75.64
##  [10.003,14.708)  829 0.17 16.93 4534  92.57
##  [14.708,19.412)  332 0.07  6.78 4866  99.35
##  [19.412,24.117)   27 0.01  0.55 4893  99.90
##  [24.117,28.821)    2 0.00  0.04 4895  99.94
##  [28.821,33.526)    2 0.00  0.04 4897  99.98
##  [33.526,38.231)    0 0.00  0.00 4897  99.98
##  [38.231,42.935)    0 0.00  0.00 4897  99.98
##   [42.935,47.64)    0 0.00  0.00 4897  99.98
##   [47.64,52.344)    0 0.00  0.00 4897  99.98
##  [52.344,57.049)    0 0.00  0.00 4897  99.98
##  [57.049,61.753)    0 0.00  0.00 4897  99.98
##  [61.753,66.458)    1 0.00  0.02 4898 100.00

Clasificamos y ordemanos la información usando una tabla de datos agrupados para mejor comprendimiento de la variable, podemos darnos cuenta que entros los primeros 5 rangos establecidos se tiene una gran parte de datos.

Medidas de tendencia Central, Dispersión y de Distribución

describe(residual.sugar)

##    vars    n mean   sd median trimmed  mad min  max range skew kurtosis   se
## X1    1 4898 6.39 5.07    5.2     5.8 5.34 0.6 65.8  65.2 1.08     3.46 0.07

Los valores de simétria son relativamente bajos con respecto a cero. Pero el dato de la desviación estándar nos da una idea de cuan disperso estan los datos, de como varian segun la media en esta variable.

Histograma

hist(datos_frame$residual.sugar, main = "Histograma del Azúcar Residual en el Vino blanco",
     xlab=" ",
     ylab = 'Frencuencia', col="darkseagreen")

La razón por la que en el histograma se encuentre precisamente 2473 datos de lado izquierdo, es por su frecuencia. El primer límite [0.594,5.2986) tiene 50.49% de concentración, en un solo bloque tenemos a la mitad de datos.

Diagrama de Caja

boxplot(datos_frame$residual.sugar, main= "Diagrama de caja - Azucar Residual en el Vino blanco", horizontal = TRUE)

Esta es la primera variable que podemos notar como uno de sus puntos es el más disperso que el de la media, es decir es un número fuera de lo común, por eso se los denota como valor o valores atípicos. En este caso hay 5 de ellos.

En todos los vinos del mercado se encontrará azúcar residual en su proporción, sin execpciones. Cuando el jugo de la uva se lleva a fermentación, agregando levaduras, estas absorben las moléculas de azúcar presentes en el entorno para continuar con sus actividad, ya que estas bacterias requieren de energía química para realizar sus debidos procesos naturales.

Cloruros

El cloruro es un compuesto químico asociado con el equilibrio que puede aportar, se encuentra en pequeñas prorciones en los jugos digestivos. Tambien conocido por sus propiedades de desocntaminacion al ser un ion inorgánico.

tb5<- fdt(chlorides, breaks = "Sturges")
tb5 #Tabla numero cinco de frecuencias absolutas, relativas y acumuladas

##       Class limits    f   rf rf(%)   cf  cf(%)
##  [0.00891,0.03324)  899 0.18 18.35  899  18.35
##  [0.03324,0.05756) 3501 0.71 71.48 4400  89.83
##  [0.05756,0.08189)  336 0.07  6.86 4736  96.69
##   [0.08189,0.1062)   55 0.01  1.12 4791  97.82
##    [0.1062,0.1305)   29 0.01  0.59 4820  98.41
##    [0.1305,0.1549)   22 0.00  0.45 4842  98.86
##    [0.1549,0.1792)   29 0.01  0.59 4871  99.45
##    [0.1792,0.2035)   12 0.00  0.24 4883  99.69
##    [0.2035,0.2278)    7 0.00  0.14 4890  99.84
##    [0.2278,0.2522)    3 0.00  0.06 4893  99.90
##    [0.2522,0.2765)    2 0.00  0.04 4895  99.94
##    [0.2765,0.3008)    1 0.00  0.02 4896  99.96
##    [0.3008,0.3251)    1 0.00  0.02 4897  99.98
##    [0.3251,0.3495)    1 0.00  0.02 4898 100.00

Apreciamos como los datos tendrán una tendencia de frecuencia a estar entre los primeros rangos definidos en nuestros limites de clase.

Medidas de tendencia Central, Dispersión y de Distribución

describe(chlorides)

##    vars    n mean   sd median trimmed  mad  min  max range skew kurtosis se
## X1    1 4898 0.05 0.02   0.04    0.04 0.01 0.01 0.35  0.34 5.02    37.51  0

La desviación estándar nos indica que los datos difieren en un 0.02 con respecto a la media aritmética, un valor muy bajo. Y esto se ve reflejado con la curtosis, tiene un valor de 37.51, significando que hay una gran concentración de valores en la media. Primera variable con una curtosis mayor a 10.

Histograma

hist(datos_frame$chlorides, main = "Histograma de los Cloruros en el Vino Blanco",
     xlab="",
     ylab="Frecuencia", col = "lightblue3")

Como mencionamos antes, los datos tenian una tendencia a estar entre los primeros rangos, y para ser exactos se encuentra entre [0.00891,0.03324) y [0.03324,0.05756). El último rango mencionado posee 3501 datos, representando hasta el 71.48% de los datos adquiridos.

Diagrama de caja

boxplot(datos_frame$chlorides, main= "Diagrama de caja - Cloruros en el Vino Blanco", horizontal = TRUE)

Con anterioridad mencionamos que entre los primeros rangos se encontraría la mayoría de datos que, es por eso aproximadamente el 7% y 8% de los datos se encuentran como valores atípicos.

Dióxido de azufre libre

El dióxido de azufre es un compuesto químico entre Azufre y dos átomos de oxígeno. Ha sido utilizado para la conservación de productos, y en este caso sirve como aditivo en el vino. Ya que presenta actividades antioxidantes con algunas enzimas presentes.

tb6<-fdt(free.sulfur.dioxide, breaks = "Sturges")
tb6

##       Class limits    f   rf rf(%)   cf  cf(%)
##     [1.98,22.6879) 1131 0.23 23.09 1131  23.09
##  [22.6879,43.3957) 2344 0.48 47.86 3475  70.95
##  [43.3957,64.1036) 1209 0.25 24.68 4684  95.63
##  [64.1036,84.8114)  178 0.04  3.63 4862  99.27
##  [84.8114,105.519)   23 0.00  0.47 4885  99.73
##  [105.519,126.227)    8 0.00  0.16 4893  99.90
##  [126.227,146.935)    4 0.00  0.08 4897  99.98
##  [146.935,167.643)    0 0.00  0.00 4897  99.98
##  [167.643,188.351)    0 0.00  0.00 4897  99.98
##  [188.351,209.059)    0 0.00  0.00 4897  99.98
##  [209.059,229.766)    0 0.00  0.00 4897  99.98
##  [229.766,250.474)    0 0.00  0.00 4897  99.98
##  [250.474,271.182)    0 0.00  0.00 4897  99.98
##   [271.182,291.89)    1 0.00  0.02 4898 100.00

Organizamos los datos usando el comando ‘fdt’ para los obtener los Datos agrupados. Denotamos como varios de los primeros rangos se tiene mucha concentración de datos, pero en los ultimos se encuentra hasta 0 datos ellos.

Medidas de tendencia Central, Dispersión y de Distribución

describe(free.sulfur.dioxide)

##    vars    n  mean    sd median trimmed   mad min max range skew kurtosis   se
## X1    1 4898 35.31 17.01     34   34.36 16.31   2 289   287 1.41    11.45 0.24

Esta es otra variable con una tendecia de tener los valores concentrados al rededor de la media, la curtosis nos afirma este dato, teniendo una valoración de 11.45.

Histograma

hist(datos_frame$free.sulfur.dioxide, main = "Histograma del Dioxido de Sulfuro Libre en el Vino Blanco",
     xlab=" ",
     ylab="Frecuencia", col = "indianred1")

El rango de [22.6879,43.3957) es el que presenta mayor frencucia en esta variable, teniendo hasta el 47.86% de datos solo en este limite de clase.

Diagrama de caja

boxplot(datos_frame$free.sulfur.dioxide, main= "Diagrama de caja - Dioxido de Sulfuro Libre en el Vino Blanco", horizontal = TRUE)

La información de la desviación estándar nos adelantaba una idea de como difieren los datos con resto a la media, llega a ser variable hasta en una tasa de 17.01.

Cabe recalcar que gracias al dióxido de azufre libre (útil), es el que conjunto a reacciones con aldehídos, produce la conocida resaca o dolores de cabeza así como el rubor facial.

Dióxido de azufre total

Para calcular el dióxido de azfre total se lo puede calcular usando la siguiente formula:

        *SO2libre* + *SO2 Combinado*= **SO2Total**

Esta variable resulta de la elaboración procediente del SO2 en el vino, y existen dos parte el libre (el cual hemos mencionado con aterioridad), y el dióxido de azufre total, que es la suma de estos dos.

tb7<- fdt(total.sulfur.dioxide, breaks = "Sturges")
tb7

##     Class limits    f   rf rf(%)   cf  cf(%)
##    [8.91,40.016)   29 0.01  0.59   29   0.59
##  [40.016,71.123)  157 0.03  3.21  186   3.80
##  [71.123,102.23)  821 0.17 16.76 1007  20.56
##  [102.23,133.34) 1413 0.29 28.85 2420  49.41
##  [133.34,164.44) 1168 0.24 23.85 3588  73.25
##  [164.44,195.55)  829 0.17 16.93 4417  90.18
##  [195.55,226.65)  362 0.07  7.39 4779  97.57
##  [226.65,257.76)  107 0.02  2.18 4886  99.76
##  [257.76,288.87)    5 0.00  0.10 4891  99.86
##  [288.87,319.97)    4 0.00  0.08 4895  99.94
##  [319.97,351.08)    1 0.00  0.02 4896  99.96
##  [351.08,382.19)    1 0.00  0.02 4897  99.98
##  [382.19,413.29)    0 0.00  0.00 4897  99.98
##   [413.29,444.4)    1 0.00  0.02 4898 100.00

En este caso, los datos se encuentran un poco mas variados. Con pequeñas diferencia de 12 datos que en el diagram de caja de esta variable podremos apreciar que seran los valores atípicos.

Medidas de tendencia Central, Dispersión y de Distribución

describe(total.sulfur.dioxide)

##    vars    n   mean   sd median trimmed mad min max range skew kurtosis   se
## X1    1 4898 138.36 42.5    134  136.96  43   9 440   431 0.39     0.57 0.61

Esta es una de las variables que posee una desviación estándar elevada. Es decir que hay muchos datos que se extedienten por encima del valor de la media establecida.

Histograma

hist(datos_frame$total.sulfur.dioxide, main="Histograma del Dióxido de Sulfuro Total en el Vino Blanco ",
     xlab=" ",
     ylab="Frecuencia", col = 'deeppink1')

El rango de [102.23,133.34) pose hasta un 49.41% concentración de datos.

Diagrama de caja

boxplot(datos_frame$total.sulfur.dioxide, main= "Diagrama de caja - Dióxido de Sulfuro Total en el Vino Blanco", horizontal = TRUE)

La concentración de sulfitos esta regulado por la Consejos Reguladores, por medida de que existen sufiltos presentes combinados malos. En el continente Europeo se ejerce una Ley de obligar a todos los vinos del mercado que tienen más de 10mg por litro colocar en la etiqueta contiene sulfitos.

Matriz de correlación

cor(data$free.sulfur.dioxide,data$total.sulfur.dioxide)

## [1] 0.615501

Densidad

Para la determinación de la densidad en el mosto de las uvas se utiliza el principio de Arquímides para calcular la masa volúmica presente en el líquido y pruebas físicas como la de flotabilidad, saber finalmente la densidad.

Estos procedimientos se realizan a 20 °C.

tb8<- fdt(density, breaks = "Sturges")
tb8

##     Class limits    f   rf rf(%)   cf  cf(%)
##  [0.9772,0.9824)    0 0.00  0.00    0   0.00
##  [0.9824,0.9875)    8 0.00  0.16    8   0.16
##  [0.9875,0.9927) 1780 0.36 36.34 1788  36.50
##  [0.9927,0.9978) 2494 0.51 50.92 4282  87.42
##   [0.9978,1.003)  613 0.13 12.52 4895  99.94
##    [1.003,1.008)    0 0.00  0.00 4895  99.94
##    [1.008,1.013)    2 0.00  0.04 4897  99.98
##    [1.013,1.018)    0 0.00  0.00 4897  99.98
##    [1.018,1.024)    0 0.00  0.00 4897  99.98
##    [1.024,1.029)    0 0.00  0.00 4897  99.98
##    [1.029,1.034)    0 0.00  0.00 4897  99.98
##    [1.034,1.039)    1 0.00  0.02 4898 100.00
##    [1.039,1.044)    0 0.00  0.00 4898 100.00
##    [1.044,1.049)    0 0.00  0.00 4898 100.00

Ordenando los datos mediante nuestro comando ‘fdt’ obtenemos nuestros limites de clases, representando ayuda para la interpretación de los datos.

Medidas de tendencia Central, Dispersión y de Distribución

describe(density)

##    vars    n mean sd median trimmed mad  min  max range skew kurtosis se
## X1    1 4898 0.99  0   0.99    0.99   0 0.99 1.04  0.05 0.98     9.78  0

La desviación estandar nos da un valor de cero. Esto representa que los datos tienden a estar concetrados en la media.

Histograma

hist(datos_frame$density, main = "Histograma de la Densidad en el Vino Blanco",
     xlab=" ",
     ylab="Frecuencia", col ='lavender' )

Los rango [0.9875,0.9927) y [0.9927,0.9978), representando hasta 36.50% y 87.42% respectivamente concentracion de los datos.

Diagrama de Caja

boxplot(datos_frame$density, main= "Diagrama de caja - Densidad en el Vino Blanco", horizontal = TRUE)

Con la tabla de datos agrupados sabiamos que ibamos a tener 3 valores atípicos. Los dos estarían en el rango de [1.008,1.013), y el último [1.034,1.039). Por eso consideramos necesaria una tabla y la ayuda de los diagramas, podemos descrubrir y estudiar los datos con mayor presición.

Teniendo una vez definido un criterio científico, de los valores habituales con respecto al Vino Blanco con masa volúmica a una temperatura de 20 °C, se tiene una densidad medida en gramos sobre mililitros de 0,9880-0,9930 g/mL

Procederemos a la creación de una nueva variable, que brindará un mejor entendimiento según al estar edificada con etiquetas en factor de caracteres o strings.

nuevaData <- data.frame(data, cut(data$alcohol, breaks = c(2,12,13,14,15),
                                   labels = c("Muy baja","Moderadamente Baja","Alta","MUy alto")))
nuevaData_1<-data.frame(nuevaData,cut(nuevaData$density, breaks=c(0,0.9880,0.9930,0.9974), labels=c("Indeseada","Densidad apropiada","Desproporcioando"))) #codigo de la columna/variable representada con caracteres el rango preciso de la densidad del Vino Blanco
head(nuevaData_1$cut.nuevaData.density..breaks...c.0..0.988..0.993..0.9974...labels...c..Indeseada...) #Al ser una columna con mas de 400 datos usaremos el comando head() para visualizar una proporcion de ellos.

## [1] <NA>             Desproporcioando Desproporcioando Desproporcioando
## [5] Desproporcioando Desproporcioando
## Levels: Indeseada Densidad apropiada Desproporcioando

Diagrama de barras

#descarga de la libreria a usar que es:
library(ggplot2)

## 
## Attaching package: 'ggplot2'

## The following objects are masked from 'package:psych':
## 
##     %+%, alpha

#Para Poder realizar un diagrama de barras necesitaremos sacar las frecuencias absuolutas y frecuencias relativas
db<-table(nuevaData_1$cut.nuevaData.density..breaks...c.0..0.988..0.993..0.9974...labels...c..Indeseada...) 
db<-prop.table(db)
barplot(db,xlab = 'Densidad', ylab = "Frecuencia Relativa",col = "lightpink", main = 'Diagrama de Barras')#Con el comando barplot() de la librería podremos realizar nuestro diagrama de barras.

Los valores de la densidad se han mantenido en un poco mas del 50% del rango establecido o conocido en Vinos Blancos secos específicamente.

Diagrama de pie

Visto desde otro punto de vista:

pie(x=db, labels = c("Indeseado",'Densidad apropiada','Desproporcionado'),main = "Grafico de pastel- Densidad")

pH

Esta es otra variable que ayuda en la clasificación química del vino. El pH se la puede determinar apartir de la alcalinidad presente en el vino, tambien llamada la medida de acidez por la participación de los ácidos previamente mencionados (dióxido de azufre, ácido cítrico, etc.)

el pH tiene teóricamente expresado es el negativo del logaritmo base diez de la concentración de iones y/o protones de hidrogeno, formula:

        pH= -log[H+]

Aunque si queremos calcular en los alimentos que consumimos a diario debemos de precisar otros factores. Las sustancias ácidas débiles son las principales usadas, y estas se disocian en protones de Agua y de hidrogeno [H+], para llegar a un equilibrio de reacción:

      [HA] + H2O [A-] + [H+]

Se puede calcular este equilibrio con la constante (Ka), donde se define como un grado de disociación. Ka = [A-] x [H+] / [HA]

tb9<- fdt(pH, breaks = "Sturges")
tb9

##   Class limits    f   rf rf(%)   cf  cf(%)
##  [2.693,2.776)    3 0.00  0.06    3   0.06
##  [2.776,2.859)   21 0.00  0.43   24   0.49
##  [2.859,2.943)  183 0.04  3.74  207   4.23
##  [2.943,3.026)  421 0.09  8.60  628  12.82
##  [3.026,3.109)  821 0.17 16.76 1449  29.58
##  [3.109,3.192) 1256 0.26 25.64 2705  55.23
##  [3.192,3.276)  924 0.19 18.86 3629  74.09
##  [3.276,3.359)  603 0.12 12.31 4232  86.40
##  [3.359,3.442)  400 0.08  8.17 4632  94.57
##  [3.442,3.525)  156 0.03  3.18 4788  97.75
##  [3.525,3.608)   67 0.01  1.37 4855  99.12
##  [3.608,3.692)   26 0.01  0.53 4881  99.65
##  [3.692,3.775)   12 0.00  0.24 4893  99.90
##  [3.775,3.858)    5 0.00  0.10 4898 100.00

En esta distribución más ordenada que nos brinda la tabla de datos agrupada.

Medidas de tendencia Central, Dispersión y de Distribución

describe(pH)

##    vars    n mean   sd median trimmed  mad  min  max range skew kurtosis se
## X1    1 4898 3.19 0.15   3.18    3.18 0.15 2.72 3.82   1.1 0.46     0.53  0

Los valores son proporcionados, la desviación estandar difiere en poca proporción con la media y con media truncada.

Histograma

hist(datos_frame$pH, main = "Histograma del Ph en el Vino blanco",
     xlab=" ",
     ylab='Frencuencia', col = 'lightslateblue')

En el rango [3.109,3.192) se encuentra hasta un 25.64% de los datos representados en esta variable.

Diagrama de Caja

boxplot(datos_frame$pH, main= "Diagrama de caja - Ph en el Vino blanco", horizontal = TRUE)

Encotramos que los datos o valores atípicos estan comprendidos entre los primeros y ultimos lmites de clase.

Comprender la importancia del ph se da mediante calibraciones previas, siguiendo patrones. Las muestras pasan por un proceso de reposo durante 15minutos a una temperatura ambiente, para proceder a los cálculos.

Estudios han revelado que el comportamiento ácido, es la acidez total que interviene más que el pH. Y con medidas de experimentación, se le agrega agua para disminuir el impacto pero siempre sin modificar el pH.

Así, afirmamos cuan importante es la medición del pH, interpretar las diferencias de acidez que pueden haber entre vinos debido a ácidez titulables. Esto se debe en gran parte al equilibrio de otros factores implicados en las reacciones, pero el factor que denota más acidez es el que baja mucho más el pH en el medio tampón.

Sulfatos

Son el resultado de entrar en contacto con el dióxido de azufre encontrado en el vino al ser una bebida o solución alcalina. Los sufitos o sulafato son sales pertenecientes al grupo de los ésteres en química orgánica.

Observamos de manera más ordenado la distribución de datos, el rango [0.4049,0.4672) se encuentra con un total de 22.16% de datos totales.*

Medidas de tendencia Central, Dispersión y de Distribución

describe(sulphates)

##    vars    n mean   sd median trimmed mad  min  max range skew kurtosis se
## X1    1 4898 0.49 0.11   0.47    0.48 0.1 0.22 1.08  0.86 0.98     1.59  0

Estos valores son muy bajos, pero aún así no es mucha la diferencia de datos, podemos corraborarlo con la desviación estándar.

Histograma

hist(datos_frame$sulphates, main = "Histograma de sulfatos en el Vino Blanco",
     xlab = "",
     ylab = "Frecuencia", col = "magenta4")

En el histograma denotamos como se obtiene gradualmente mayor frecuencia entre los primeros rangos.

Diagrama de Caja

boxplot(datos_frame$sulphates, main= "Diagrama de caja - sulfatos en el Vino Blanco", horizontal = TRUE)

Con nuestra tabla de datos agrupados vericamos que en los finales límites de clase se obtendrián los valores atípicos para esta variable.

Los sulfitos provienen d elso derivados del azufre presente en este caso en el vino. Sirven para reducir la oxidación y el control microbiano, es decir, que elimina posibles contaminaciones por parte de los microorganimos que no son necesarios en la fermentación.

La concentración de sulfatos en esta base de datos no supera el número 2, caso contrario puede resultar tóxico en alta concentraciones. Pero con certeza se puede clarificar que su presencia en el vino no es peligrosa. Es apta y ayuda a su conservación

Alcohol

Esta bebida procedente de una larga fermentación la cual tiene una concentración alcohólica variante y su rango esta entre los 3,5 y 15 grados.

La fermentación, de tipo alcohólica, es muy usada en procesos de toda gama. Los agentes que presentan un rol fundamental son las llamadas levaduras con la bacteria/hongo Saccharomyces cerevisiae, su explotación industrial las ha llevado a su máximo uso.

Existen parámetros para definir etiquetas en la elaboración de un vino, y entre estas es la cantidad porcentual de alcohol presente en su composición. (¿Qué graduación alcohólica tienen los vinos?, 2017).

La lista de los alcoholes puede ser:

Etanol (expresado en las etiquetas como reconocimiento debido a ser el compuesto con más presencia)

Metanol

Butanodiol

Manitol (baja concentración)

Sorbitol

tb11<-fdt(alcohol, breaks = "Sturges")

Los datos se encuentran mejor distribuidos, y la información más ordenada.

Medidas de tendencia Central, Dispersión y de Distribución

describe(alcohol)

##    vars    n  mean   sd median trimmed  mad min  max range skew kurtosis   se
## X1    1 4898 10.51 1.23   10.4   10.43 1.48   8 14.2   6.2 0.49     -0.7 0.02

En este caso no presenta una distribución normal o en campana los datos continuos. La curtosis nos arroja un resultado negativo dando a notar que no posee las colas de unaa distribución normal. Con respecto a la desviación estándar varia en 1.23 con respecto a la media aritmética.

Histograma

hist(datos_frame$alcohol, main = "Histograma del Acohol presente en el Vino Blanco",
     xlab = " ",
     ylab="Frecuencia", col = 'mediumaquamarine')

La frecuencia de datos más alta se encuentra en el rango de [9.2961,9.7549), con un 17.01% de datos.

Diagrama de Caja

boxplot(datos_frame$alcohol, main= "Diagrama de caja - Acohol presente en el Vino Blanco", horizontal = TRUE)

Apreciamos que al tener datos mejores agrupados, no existen valores tan alejados de la media.

Se puede calcular el grado de alcohol presente en el vino de presente general es con la técnica de determinación areométrica, consiste en hacer 3 lecturas.

Diagrama de barras

nuevaData<-data.frame(data,cut(data$density, breaks=c(0,0.9880,0.9930,0.9974), labels=c("Indeseada","Densidad apropiada","Desproporcioando")))# creación del nuevo dataframe agregandole nuestra nueva variable cualitativa para mejor entendimiento,
head(nuevaData_1$cut.data.alcohol..breaks...c.2..12..13..14..15...labels...c..Muy.baja...)#visualización del rando establecido de alcohol probable.

## [1] Muy baja Muy baja Muy baja Muy baja Muy baja Muy baja
## Levels: Muy baja Moderadamente Baja Alta MUy alto

library(ggplot2)#abrir nuestra libreria
nuevaData <- data.frame(data, cut(data$alcohol, breaks = c(2,12,13,14,15),
                                   labels = c("Muy baja","Moderadamente Baja","Alta","MUy alto")))
Ap <- table(nuevaData$cut.data.alcohol..breaks...c.2..12..13..14..15...labels...c..Muy.baja...)
AP<- prop.table(Ap)

barplot(AP, xlab=" Alcohol Propable (AP)",ylab= "Frecuencia Relativa", col = "mistyrose")

Cada 17,5 gramos de azúcar contenidos en un litro de mosto darán un 1 % en volumen de alcohol (1 grado).

Generalmente los refractómetros dan ya la conversión en grados que va ha tener el vino como Alcohol Probable (AP).

Los grados de alcohol en el vino los agrupamos en cuatro:

Muy baja (menos de 12,5%)
Moderadamente baja (12,5 a 13,5%)
Alta (13,5 a 14,5%)
Muy alto (más del 14,5 por ciento)
Diagrama de pastel

Ap <- table(nuevaData$cut.data.alcohol..breaks...c.2..12..13..14..15...labels...c..Muy.baja...)
pie(x= Ap, labels = c("Mur baja","Moderadamente baja","Alta"), main = "Grafico de pastel- Alcohol Probable")

Los vinos, “habitualmente”, se hallan entre valores de alcohol de 10 a 14° (diez a catorce grados). Los vinos tintos suelen estar comprendidos entre 12 y 13° y los blancos y rosados entre 10 y 12°. La cuestión no es simple para los blancos y rosados. Hace años gustaban estos vinos con 13° y envejecidos en roble. Hoy este tipo de vino es minoritario, para consumidores limitados, mientras el mercado demanda blancos y rosados de menor grado. No obstante, se detecta una tendencia a la vuelta a los blancos con crianza en madera.

Dato importante

Se obtuvieron diferentes descubrimientos en material escrito o también en libros acerca de la relación existente entre el vino y la medicina, principios relativos con el alcohol, vino y un acompañamiento inusual, el dolor de cabeza. Así como también se pudo encontrar escritos y evaluaciones literarias de viñedos, uvas y todo con los respecte a la elaboración del vino.

Existen pocas demostraciones científicas o estudios dedicados a la relación coexistente entre el dolor de cabeza y el vino, y las evidencias que hay son resúmenes o quejas de personas que, ante un padecimiento mostrado, han dicho que tomaron vino.

Y la International Headache Society define a estos dolores de cabeza que inclusive pueden llegar a ser migrañas como, cefaleas atribuidas por el uso o exposición de alcohol. (Krymchantowski & Jevoux, 2014).

Calidad

Esta es una de las varias más bonitas del vino, se trata de su calidad sensorial. Es cierto la importancia de la cadidad fisicoquímica presente, pero no podemos dejar de lado a aquellas percepciones al momento de testear o probar un cop de vino.

Las cosas que pueden hacer qu eel vino no tenga una buena calidad son:

-Vino con turbidez.
- Olores desagradables debido a la reducción a los compuestos de azufre vólatil.
- Sabores.
-Moho

tb12<- fdt(quality, breaks = "Sturges")
tb12

##   Class limits    f   rf rf(%)   cf  cf(%)
##   [2.97,3.407)   20 0.00  0.41   20   0.41
##  [3.407,3.844)    0 0.00  0.00   20   0.41
##  [3.844,4.281)  163 0.03  3.33  183   3.74
##  [4.281,4.719)    0 0.00  0.00  183   3.74
##  [4.719,5.156) 1457 0.30 29.75 1640  33.48
##  [5.156,5.593)    0 0.00  0.00 1640  33.48
##   [5.593,6.03) 2198 0.45 44.88 3838  78.36
##   [6.03,6.467)    0 0.00  0.00 3838  78.36
##  [6.467,6.904)    0 0.00  0.00 3838  78.36
##  [6.904,7.341)  880 0.18 17.97 4718  96.33
##  [7.341,7.779)    0 0.00  0.00 4718  96.33
##  [7.779,8.216)  175 0.04  3.57 4893  99.90
##  [8.216,8.653)    0 0.00  0.00 4893  99.90
##   [8.653,9.09)    5 0.00  0.10 4898 100.00

La tabla de datos agrupados para nuestra última variable, que puede ser incluso una de las más importantes. Presenta concentración de datos en dos rangos, los cuales son [4.719,5.156) y [5.593,6.03) obteniendo así una representación del 29.75% y 44.88% respectivamente de datos totales.

Medidas de tendencia Central, Dispersión y de Distribución

describe(quality)

##    vars    n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 4898 5.88 0.89      6    5.85 1.48   3   9     6 0.16     0.21 0.01

Los valores presentados con respecto a las medidas de dispersión y de tendencia central son normales.

Histograma

hist(datos_frame$quality, main ="Histograma de la calidad del Vino Blanco",
     xlab="",
     ylab="Frecuencia", col = "lightsalmon")

Existen rangos donde no se encuentra ningún dato, en el histograma se puede apreciar de manera gráfica.

Diagrama de Caja

boxplot(datos_frame$quality, main= "Diagrama de caja - calidad del Vino Blanco", horizontal = TRUE)

Existen pocos datos dispersos o atípicos en la variable de Calidad.

Lo que se busca son atributos positivos al vino, que aporten algo diferente o su personalidad, lo que los haga distintos al resto. Estos factores se evalúan con los sentidos del gusto, vista y olfato.

Aquí interviere el conjunto de todas las variables antes explicadas para entrar al concepto de la enología. La enología es la ciencia que trata con todo los conceptos y procesos a los vinos y mosto de uva, es la suma de conocimientos y técnicas aplicadas para futuros procesos de elaboración de vinos.

’‘Los grandes vinos nacen en el viñedo’’, una frase que proviene de la enología sensitiva que se tuvo a partir de los años 1991 y que se ha mantenido a flote. Desde donde se han implementado cierts técnicas que parecen muy efímeras, pero dejan un gran rasto en el vino. Se controla desde cuantas hojas puede haber por racimo en una línea, hasta el tiempo favorable de exposición solar que requiere la planta, el sistema de riego implicado para la planta, la forma del arado o preparación de cultivo.

No cabe duda que esta ciencia ha llegado para quedarse, con lleva a la elaboración y creación del vino de una forma muy espiritual.

ESTADISTICA DESCRIPTIVA BIVARIANTE O MULTIVARIANTE

Diagramas segmentados

Con la ayuda del comando plot() crearemos un diagrama de barra segmentado, usando como argumento en la ‘’x’’ como una variable de tipo texto, y en la ‘’y’’ se usarán variables de tipo númerico.

plot(x=nuevaData$cut.data.alcohol..breaks...c.2..12..13..14..15...labels...c..Muy.baja...,y=data$alcohol, horizontal= F)

Es muy practica la visualización de los datos mediante este diagra de cajas segmentado, podemos analizar con mayor precisión y comparar las distribuciónes de la relación entre las variables.

Matriz de correlación y matriz de covarianzas

Hemos mencionado la relación que tienen los ácidos que son los metabolitos creados por reacciones químicas circundantes, con el pH del vino y como este a su vez, influye en la calidad como última medida.

Vamos a usar esta herramienta estadística que permitirá evaluar la dirección y la fuerza, de modo que los relacionará de tal forma que arrojé un valor expresando el comportamiento de la relación entre variables.

Método Pearson

library(MASS) #Iniciamos instalando nuestra libreria con el paquete 'MASS'
attach(nuevaData_1) #Fijamos nuestro data Frame con las 2 variables que creamos con anterioridad

## The following objects are masked from datos_frame (pos = 5):
## 
##     alcohol, chlorides, citric.acid, density, fixed.acidity,
##     free.sulfur.dioxide, pH, quality, residual.sugar, sulphates,
##     total.sulfur.dioxide, volatile.acidity

## The following objects are masked from datos_frame (pos = 8):
## 
##     alcohol, chlorides, citric.acid, density, fixed.acidity,
##     free.sulfur.dioxide, pH, quality, residual.sugar, sulphates,
##     total.sulfur.dioxide, volatile.acidity

## The following objects are masked from data:
## 
##     alcohol, chlorides, citric.acid, density, fixed.acidity,
##     free.sulfur.dioxide, pH, quality, residual.sugar, sulphates,
##     total.sulfur.dioxide, volatile.acidity

cor(x= pH, y=fixed.acidity, method = "pearson") #podemos indicar los datos en el orden que queramos, la gráfica es simétrica

## [1] -0.4258583

Con el método de correlación lineal de Pearson asumimos que la tendencia de los datos deben ser de tipo lineal, no deben de existir los famosos valores atípicos que hemos calculado en la tabla de datos agrupado, y observado en el diagrama de caja, usar unicamente variables numericas( ya seas discretas o continuas) y por último tener los suficientes datos.

En estas dos variables se observa una tendencia al decrecimiento conforma otra de ellas esta aumentando. Estamos hablando de una correlación negativa.

Método de Spearman

#Podemos a su vez usar el método de Spearman
cor(pH, fixed.acidity, method ='spearman')

## [1] -0.4183412

Usamos el mismo comando pero con un método diferente, el de Spearman. Este tiene un cálculo diferente a l relación de Pearson, puesto que implica si la tendencia de ls variables fueran monótonas ya sea para aumento o disminución.

Matriz gráfica de correlación Data Frame en general

cor(data) #Trabaja unicamente con variables con valores númericos, por ende usamos nuestro primer Data Frame.

##                      fixed.acidity volatile.acidity  citric.acid residual.sugar
## fixed.acidity           1.00000000      -0.02269729  0.289180698     0.08902070
## volatile.acidity       -0.02269729       1.00000000 -0.149471811     0.06428606
## citric.acid             0.28918070      -0.14947181  1.000000000     0.09421162
## residual.sugar          0.08902070       0.06428606  0.094211624     1.00000000
## chlorides               0.02308564       0.07051157  0.114364448     0.08868454
## free.sulfur.dioxide    -0.04939586      -0.09701194  0.094077221     0.29909835
## total.sulfur.dioxide    0.09106976       0.08926050  0.121130798     0.40143931
## density                 0.26533101       0.02711385  0.149502571     0.83896645
## pH                     -0.42585829      -0.03191537 -0.163748211    -0.19413345
## sulphates              -0.01714299      -0.03572815  0.062330940    -0.02666437
## alcohol                -0.12088112       0.06771794 -0.075728730    -0.45063122
## quality                -0.11366283      -0.19472297 -0.009209091    -0.09757683
##                        chlorides free.sulfur.dioxide total.sulfur.dioxide
## fixed.acidity         0.02308564       -0.0493958591          0.091069756
## volatile.acidity      0.07051157       -0.0970119393          0.089260504
## citric.acid           0.11436445        0.0940772210          0.121130798
## residual.sugar        0.08868454        0.2990983537          0.401439311
## chlorides             1.00000000        0.1013923521          0.198910300
## free.sulfur.dioxide   0.10139235        1.0000000000          0.615500965
## total.sulfur.dioxide  0.19891030        0.6155009650          1.000000000
## density               0.25721132        0.2942104109          0.529881324
## pH                   -0.09043946       -0.0006177961          0.002320972
## sulphates             0.01676288        0.0592172458          0.134562367
## alcohol              -0.36018871       -0.2501039415         -0.448892102
## quality              -0.20993441        0.0081580671         -0.174737218
##                          density            pH   sulphates     alcohol
## fixed.acidity         0.26533101 -0.4258582910 -0.01714299 -0.12088112
## volatile.acidity      0.02711385 -0.0319153683 -0.03572815  0.06771794
## citric.acid           0.14950257 -0.1637482114  0.06233094 -0.07572873
## residual.sugar        0.83896645 -0.1941334540 -0.02666437 -0.45063122
## chlorides             0.25721132 -0.0904394560  0.01676288 -0.36018871
## free.sulfur.dioxide   0.29421041 -0.0006177961  0.05921725 -0.25010394
## total.sulfur.dioxide  0.52988132  0.0023209718  0.13456237 -0.44889210
## density               1.00000000 -0.0935914935  0.07449315 -0.78013762
## pH                   -0.09359149  1.0000000000  0.15595150  0.12143210
## sulphates             0.07449315  0.1559514973  1.00000000 -0.01743277
## alcohol              -0.78013762  0.1214320987 -0.01743277  1.00000000
## quality              -0.30712331  0.0994272457  0.05367788  0.43557472
##                           quality
## fixed.acidity        -0.113662831
## volatile.acidity     -0.194722969
## citric.acid          -0.009209091
## residual.sugar       -0.097576829
## chlorides            -0.209934411
## free.sulfur.dioxide   0.008158067
## total.sulfur.dioxide -0.174737218
## density              -0.307123313
## pH                    0.099427246
## sulphates             0.053677877
## alcohol               0.435574715
## quality               1.000000000

Diagramas de dispersión

plot(pH~quality, main= "Diagrama de dispersion entre las variables\n Calidad y pH presente en el Vino",
     xlab= "Calidad", ylab= "pH")

#crear una linea de regresión
abline(lm(pH~quality))

El diagrama de dispersión sirve para el análisis de dos variables entre si, y analizar alguna relación ente ellas. Verificar si tienen dependencia o no. Mediante estudios determinamos cuan importantes es el pH para la calidad del vino, debido que el pH recoje toda la información necesaria para la determinación de un buen vino.

Gráficos para varias variables cuantitativas

pairs(data) #hechas para todas las doce variables continuas del data frame

Usando el comando pairs() para la obtención de un matriz de dispersión completa, relacionando cada variable cuantitativa para presentar un método simple de relacion de pares. Parecido a la funcion plot().

Proyecto de Investigación

Marena Arias Brito

11/28/2020

ESTADISTICA DESCRIPTIVA

Primer parcial

Vino blanco ~ Base de datos

Paralelo 6

La base de datos utilizada para la realización de este proyecto investigativo es de la marca portuguesa Vinho Verde.

El objetivo de la revisión de esta base de datos es para modelar las diferentes caracterizaciones Físico-químicas en la industria vitinícola.

Llamado y apertura de la base datos

Aquí en detalle del análisis físico-químico con un total de 4898 resultados arrojados.

Medidas de tendencia Central, Dispersión y de Distribución para todo el conjunto de datos:

Determinaciones para el Vino Blanco:

Este conjunto de datos estará establecido mediante variables físicoquímicas y sensoriales. Usando los debidos algoritmos procederemos al estudio de cada una de las variables existentes, tales como:

Variables Cuantitativas

Acidez Fija

Las uvas son una fruta con un gran potencial de ácidos implicados, sobretodo al momento de su maduración que se incrementa exponencialmente. Estos ácidos son: Ácidos tartárico y el Ácido málico. La acidez juega un papel muy importante en el vino, gracias a las propiedades organolópticas.

Podemos observar la marca de clase, y las frecuencias relativas, absolutas y acumuladas.

Medidas de tendencia Central, Dispersión y de Distribución

Podemos observar que tenemos su media, la mediana y la media truncada tienen valores muy parecidos es decir, tienen una distribución con tendencia a ser simétrica.

Histograma

Si examinamos la figura, denotamos como se encuentra en un rango de [6,8] los datos que presentan una mayor frecuencia con respecto a la acidez que generalmente se obtiene del vino, esto tambien va de la mano con el pH usado.

Diagrama de Caja

Existen muchos datos dispersos (valores atípicos) en esta variable, el diagrama de caja es una excelente opción ante la discusión de datos, especialmente en el rango que se encuentra entre [8,10].

Acidez Volátil

La acidez vólatil se puede obtener mediante dos métodos, tales como: la destilación directa , el método de Mathieu y al que recurren muchas industrias es el método de García Tena.

Esta acidez volátil ocurre gracias a los efectos de fermentación de bacterias acóticas. Provocando así, un olor característico en el vino, el cual es su olor a vinagre. Estos datos pueden variar según el vino que se desea hacer o producir en masa.

Aplicamos la opción de tabla de datos agrupados para clasificar la información por sus marcas de clases y apreciar mejor los datos.

Medidas de tendencia Central, Dispersión y de Distribución

Histograma

En el eje de las ‘x’ tenemos las mediciones el rango de los datos usados, mientras que en el eje de la ‘y’ muestra la frecuencia o repeteición de estos datos.

Notamos que existe una concentración justo en el rango de [0.2266,0.3003), se obtiene hasta 1813 datos.

Diagrama de Caja

Los valores atípicos poseen una tendencia para la izquierda, y se lo esperaba debido a su curtosis establecida.

Ácido Cítrico

Los límites de clase se dividieron en pequeñas proporciones para mejor entendimiento con el uso de tablas de frecuencias.

Medidas de tendencia Central, Dispersión y de Distribución

El dato más común usado para calcular cuan disperso son los datos es la desviación estándar, y esta tiene 0.12 con respecto al valor de la media/promedio.

Histograma

Con anterioridad calculamos mediante la tabla de frecuencias los valores que se concentrarían mas en algún rango. En este caso es [0.2395,0.3593), teniendo hasta 2566 datos que se han repetido, más de la mitad de datos totales obtenidos.

Diagrama de Caja

Tiene una concentración de valores más dispersos del lado derecho del diagrama, es decir, son datos que son mucho mas alejados de la media establecida.

El conocimiento del componente ácido del vino es muy impornante para la producción vitinícola, puesto que se debe seguirse la maduración de la uva durante la fermentación y la conservación que del vino, para finalmente llegar a la comercialización.

Azúcar Residual

Clasificamos y ordemanos la información usando una tabla de datos agrupados para mejor comprendimiento de la variable, podemos darnos cuenta que entros los primeros 5 rangos establecidos se tiene una gran parte de datos.

Medidas de tendencia Central, Dispersión y de Distribución

Los valores de simétria son relativamente bajos con respecto a cero. Pero el dato de la desviación estándar nos da una idea de cuan disperso estan los datos, de como varian segun la media en esta variable.

Histograma

La razón por la que en el histograma se encuentre precisamente 2473 datos de lado izquierdo, es por su frecuencia. El primer límite [0.594,5.2986) tiene 50.49% de concentración, en un solo bloque tenemos a la mitad de datos.

Diagrama de Caja

Esta es la primera variable que podemos notar como uno de sus puntos es el más disperso que el de la media, es decir es un número fuera de lo común, por eso se los denota como valor o valores atípicos. En este caso hay 5 de ellos.

Cloruros

El cloruro es un compuesto químico asociado con el equilibrio que puede aportar, se encuentra en pequeñas prorciones en los jugos digestivos. Tambien conocido por sus propiedades de desocntaminacion al ser un ion inorgánico.

Apreciamos como los datos tendrán una tendencia de frecuencia a estar entre los primeros rangos definidos en nuestros limites de clase.

Medidas de tendencia Central, Dispersión y de Distribución

Histograma

Como mencionamos antes, los datos tenian una tendencia a estar entre los primeros rangos, y para ser exactos se encuentra entre [0.00891,0.03324) y [0.03324,0.05756). El último rango mencionado posee 3501 datos, representando hasta el 71.48% de los datos adquiridos.

Diagrama de caja

Con anterioridad mencionamos que entre los primeros rangos se encontraría la mayoría de datos que, es por eso aproximadamente el 7% y 8% de los datos se encuentran como valores atípicos.

Dióxido de azufre libre

El dióxido de azufre es un compuesto químico entre Azufre y dos átomos de oxígeno. Ha sido utilizado para la conservación de productos, y en este caso sirve como aditivo en el vino. Ya que presenta actividades antioxidantes con algunas enzimas presentes.

Organizamos los datos usando el comando ‘fdt’ para los obtener los Datos agrupados. Denotamos como varios de los primeros rangos se tiene mucha concentración de datos, pero en los ultimos se encuentra hasta 0 datos ellos.

Medidas de tendencia Central, Dispersión y de Distribución

Esta es otra variable con una tendecia de tener los valores concentrados al rededor de la media, la curtosis nos afirma este dato, teniendo una valoración de 11.45.

Histograma

El rango de [22.6879,43.3957) es el que presenta mayor frencucia en esta variable, teniendo hasta el 47.86% de datos solo en este limite de clase.

Diagrama de caja

La información de la desviación estándar nos adelantaba una idea de como difieren los datos con resto a la media, llega a ser variable hasta en una tasa de 17.01.

Cabe recalcar que gracias al dióxido de azufre libre (útil), es el que conjunto a reacciones con aldehídos, produce la conocida resaca o dolores de cabeza así como el rubor facial.

Dióxido de azufre total

Para calcular el dióxido de azfre total se lo puede calcular usando la siguiente formula:

Esta variable resulta de la elaboración procediente del SO2 en el vino, y existen dos parte el libre (el cual hemos mencionado con aterioridad), y el dióxido de azufre total, que es la suma de estos dos.

En este caso, los datos se encuentran un poco mas variados. Con pequeñas diferencia de 12 datos que en el diagram de caja de esta variable podremos apreciar que seran los valores atípicos.

Medidas de tendencia Central, Dispersión y de Distribución

Esta es una de las variables que posee una desviación estándar elevada. Es decir que hay muchos datos que se extedienten por encima del valor de la media establecida.

El rango de [102.23,133.34) pose hasta un 49.41% concentración de datos.

Diagrama de caja

La concentración de sulfitos esta regulado por la Consejos Reguladores, por medida de que existen sufiltos presentes combinados malos. En el continente Europeo se ejerce una Ley de obligar a todos los vinos del mercado que tienen más de 10mg por litro colocar en la etiqueta contiene sulfitos.

Matriz de correlación

Densidad