Este análisis tiene como objetivo explorar la relación entre el porcentaje de cacao y el rating del café, y construir un modelo de regresión lineal para predecir el rating a partir del porcentaje de cacao.
Primero, cargamos los datos proporcionados.
library(ggplot2)
library(dplyr)
# Cargar datos
data <- read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/flavors_of_cacao_limpio.csv")
# Vista previa de los datos
head(data)
## porcentaje rating
## 1 0.63 3.75
## 2 0.70 2.75
## 3 0.70 3.00
## 4 0.70 3.50
## 5 0.70 3.50
## 6 0.70 2.75
Exploramos la relación entre el porcentaje de cacao y el rating mediante un gráfico de dispersión.
# Gráfico de dispersión
ggplot(data, aes(x = porcentaje, y = rating)) +
geom_point(color = "blue", alpha = 0.6) +
labs(title = "Relación entre Porcentaje de Cacao y Rating",
x = "Porcentaje de Cacao",
y = "Rating") +
theme_minimal()
Ajustamos un modelo de regresión lineal para predecir el rating basado en el porcentaje de cacao.
# Modelo de regresión lineal
modelo <- lm(rating ~ porcentaje, data = data)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = rating ~ porcentaje, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.20715 -0.31967 0.04285 0.31781 1.79285
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.0806 0.1268 32.192 < 2e-16 ***
## porcentaje -1.2478 0.1761 -7.085 1.98e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4716 on 1793 degrees of freedom
## Multiple R-squared: 0.02724, Adjusted R-squared: 0.02669
## F-statistic: 50.2 on 1 and 1793 DF, p-value: 1.985e-12
Evaluamos la bondad de ajuste del modelo y visualizamos la línea de regresión sobre los datos.
# Predicción y gráfico con línea de regresión
ggplot(data, aes(x = porcentaje, y = rating)) +
geom_point(color = "blue", alpha = 0.6) +
geom_smooth(method = "lm", color = "red") +
labs(title = "Modelo de Regresión Lineal",
x = "Porcentaje de Cacao",
y = "Rating") +
theme_minimal()
El modelo ajustado proporciona una herramienta para predecir el rating del café basado en el porcentaje de cacao.