knitr::opts_chunk$set(echo = TRUE)
##Importar base con extencion CSV
file.choose()
## [1] "C:\\Users\\johan\\Downloads\\taller-1-Analitica-de-datos.Rmd"
vino_blanco <- read.csv("C:\\Users\\johan\\Downloads\\winequality-white.csv", sep = ";")
head(vino_blanco)
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 7.0 0.27 0.36 20.7 0.045
## 2 6.3 0.30 0.34 1.6 0.049
## 3 8.1 0.28 0.40 6.9 0.050
## 4 7.2 0.23 0.32 8.5 0.058
## 5 7.2 0.23 0.32 8.5 0.058
## 6 8.1 0.28 0.40 6.9 0.050
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 45 170 1.0010 3.00 0.45 8.8
## 2 14 132 0.9940 3.30 0.49 9.5
## 3 30 97 0.9951 3.26 0.44 10.1
## 4 47 186 0.9956 3.19 0.40 9.9
## 5 47 186 0.9956 3.19 0.40 9.9
## 6 30 97 0.9951 3.26 0.44 10.1
## quality
## 1 6
## 2 6
## 3 6
## 4 6
## 5 6
## 6 6
## Convertir quality a factor (variable cualitativa)
vino_blanco$quality <- as.factor(vino_blanco$quality)
##Cargar la librería
library(highcharter)
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
##Crear el gráfico de barras
hchart(vino_blanco$quality, type = "column")
##Crear el gráfico de barras
hchart(vino_blanco$quality, quality = "column")
##Diagrama de dispersión entre 'citric acid' y 'fixed acidity'
hchart(vino_blanco, type = "scatter", hcaes(x = citric.acid, y = fixed.acidity))
##Diagrama de dispersión entre 'residual sugar' y 'density'
hchart(vino_blanco, type = "scatter", hcaes(x = residual.sugar, y = density))
# Cargar la librería
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
##Seleccionar las variables de interés
variables_interes <- vino_blanco %>%
select(citric.acid, residual.sugar, density, fixed.acidity)
##Crear la matriz de diagramas de dispersión
pairs(variables_interes, pch = 19, col = 'purple')
##Matriz de correlación
cor_matrix <- cor(variables_interes)
#cargar la libreria
library(corrplot)
## corrplot 0.92 loaded
library(reshape2)
cor_data <- as.data.frame(as.table(cor_matrix))
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.5
## ✔ ggplot2 3.5.1 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(highcharter)
library(GGally)
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
library(knitr)
# Matriz de correlación
hchart(cor_matrix, type = "heatmap") %>%
hc_title(text = "cor_matrix")
# Cargar la librería
library(webshot2)
##Conlusiones
Correlación entre variables: La matriz de correlación revela una fuerte relación positiva entre el azúcar residual y la densidad del vino, lo que sugiere que a medida que aumenta el contenido de azúcar residual, también lo hace la densidad del vino.
Distribución de la calidad: El análisis gráfico muestra que la mayoría de los vinos blancos se clasifican en una calidad media, indicando una consistencia en los procesos de producción, aunque existe espacio para mejorar la proporción de vinos de alta calidad.