El reporte completo puede visualizarse en el siguiente enlace: https://rpubs.com/f1116392/1377133
Presentamos la revisión inicial de la información sobre la Calidad del Vino. La data contiene 12 variables y 1599 registros, todos de tipo numérico y sin valores faltantes.
El equipo de trabajo determina las siguientes hipótesis:
H₀ (Hipótesis nula): El contenido de alcohol no tiene relación significativa con la calidad del vino. (La media de calidad es igual para vinos con diferentes niveles de alcohol).
H₁ (Hipótesis alternativa): El contenido de alcohol sí influye significativamente en la calidad del vino. (La media de calidad varía según el nivel de alcohol).
#Importar datos desde la función
library(tidyverse)
datos <- read_csv("winequality-red.csv")
#Muestra solo 8 registros
head(datos,8)
#dimensiones de los datos filas y columnas muestra
dim(datos)
#Revisión de estructura
str(datos)
#Revisión de datos faltantes
colSums(is.na(datos))
#Resumen estadistico
summary(datos)
A fin de validar las hipótesis realizamos el análisis de la correlación con la variable de Quality, identificamos que las variables con mayor relación con Quality (aproximadamente ±0.20) son: alcohol, volatile acidity, sulphates y citric acid. Debido a esto, resulta relevante examinarlas con mayor detalle para entender mejor su impacto sobre la calidad.
# Calcular la Matriz de Correlación
matriz_correlacion <- cor(datos)
# Redondear los valores para facilitar la lectura (opcional)
round(matriz_correlacion, 2)
## fixed acidity volatile acidity citric acid residual sugar
## fixed acidity 1.00 -0.26 0.67 0.11
## volatile acidity -0.26 1.00 -0.55 0.00
## citric acid 0.67 -0.55 1.00 0.14
## residual sugar 0.11 0.00 0.14 1.00
## chlorides 0.09 0.06 0.20 0.06
## free sulfur dioxide -0.15 -0.01 -0.06 0.19
## total sulfur dioxide -0.11 0.08 0.04 0.20
## density 0.67 0.02 0.36 0.36
## pH -0.68 0.23 -0.54 -0.09
## sulphates 0.18 -0.26 0.31 0.01
## alcohol -0.06 -0.20 0.11 0.04
## quality 0.12 -0.39 0.23 0.01
## chlorides free sulfur dioxide total sulfur dioxide density
## fixed acidity 0.09 -0.15 -0.11 0.67
## volatile acidity 0.06 -0.01 0.08 0.02
## citric acid 0.20 -0.06 0.04 0.36
## residual sugar 0.06 0.19 0.20 0.36
## chlorides 1.00 0.01 0.05 0.20
## free sulfur dioxide 0.01 1.00 0.67 -0.02
## total sulfur dioxide 0.05 0.67 1.00 0.07
## density 0.20 -0.02 0.07 1.00
## pH -0.27 0.07 -0.07 -0.34
## sulphates 0.37 0.05 0.04 0.15
## alcohol -0.22 -0.07 -0.21 -0.50
## quality -0.13 -0.05 -0.19 -0.17
## pH sulphates alcohol quality
## fixed acidity -0.68 0.18 -0.06 0.12
## volatile acidity 0.23 -0.26 -0.20 -0.39
## citric acid -0.54 0.31 0.11 0.23
## residual sugar -0.09 0.01 0.04 0.01
## chlorides -0.27 0.37 -0.22 -0.13
## free sulfur dioxide 0.07 0.05 -0.07 -0.05
## total sulfur dioxide -0.07 0.04 -0.21 -0.19
## density -0.34 0.15 -0.50 -0.17
## pH 1.00 -0.20 0.21 -0.06
## sulphates -0.20 1.00 0.09 0.25
## alcohol 0.21 0.09 1.00 0.48
## quality -0.06 0.25 0.48 1.00
Presentamos los gráficos de las variables que muestran una correlación superior a ±20% con Quality: alcohol, volatile acidity, sulphates y citric acid. Además, incluimos los gráficos de fixed acidity y pH para complementar el análisis.”
Podemos decir respecto a la relación entre Quality con las variables:
Alcohol (+0.48): Relación Positiva Fuerte, El contenido de alcohol es el predictor más fuerte de la calidad. Un mayor porcentaje de alcohol está asociado con una mejor clasificación de calidad. volatile acidity (-0.39): Relación Negativa Moderada, Esta es la correlación negativa más fuerte. Un aumento en la acidez volátil (que podría significar un deterioro del vino) conduce a una disminución significativa de la calidad. sulphates (+0.25): Relación Positiva Débil/Moderada, Los sulfatos (que actúan como conservantes) tienen una influencia positiva, aunque más débil. Niveles ligeramente más altos de sulfatos están relacionados con una mejor calidad. citric acid (+0.23): Relación Positiva Débil, el ácido cítrico tiene una pequeña influencia positiva en la calidad.
El gráfico entre fixed acidity vs. pH ilustra que un pH bajo significa que la muestra es más ácida y viceversa.
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.
Con base al análisis exploratorio realizado podemos identificar una relación positiva entre el nivel de alcohol y la calidad del vino. La pendiente ascendente de la recta de regresión indica que, conforme aumenta el contenido de alcohol, también tienden a incrementarse las puntuaciones de calidad. Por lo tanto, se rechaza H₀ y se acepta H₁, concluyendo que el contenido del alcohol si influye significativamente en la calidad del vino.