Introducción

Este análisis tiene como objetivo explorar la relación entre el porcentaje de cacao y el rating del café, y construir un modelo de regresión lineal para predecir el rating a partir del porcentaje de cacao.

Carga de Datos

Primero, cargamos los datos proporcionados.

library(ggplot2)
library(dplyr)

# Cargar datos
data <- read.csv("https://raw.githubusercontent.com/rpizarrog/Ciencia-de-los-Datos-Descriptivo-Predictivo/refs/heads/main/datos/flavors_of_cacao_limpio.csv")

# Vista previa de los datos
head(data)
##   porcentaje rating
## 1       0.63   3.75
## 2       0.70   2.75
## 3       0.70   3.00
## 4       0.70   3.50
## 5       0.70   3.50
## 6       0.70   2.75

Análisis Exploratorio de Datos

Exploramos la relación entre el porcentaje de cacao y el rating mediante un gráfico de dispersión.

# Gráfico de dispersión
ggplot(data, aes(x = porcentaje, y = rating)) +
  geom_point(color = "blue", alpha = 0.6) +
  labs(title = "Relación entre Porcentaje de Cacao y Rating",
       x = "Porcentaje de Cacao",
       y = "Rating") +
  theme_minimal()

Modelo de Regresión Lineal

Ajustamos un modelo de regresión lineal para predecir el rating basado en el porcentaje de cacao.

# Modelo de regresión lineal
modelo <- lm(rating ~ porcentaje, data = data)

# Resumen del modelo
summary(modelo)
## 
## Call:
## lm(formula = rating ~ porcentaje, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.20715 -0.31967  0.04285  0.31781  1.79285 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   4.0806     0.1268  32.192  < 2e-16 ***
## porcentaje   -1.2478     0.1761  -7.085 1.98e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4716 on 1793 degrees of freedom
## Multiple R-squared:  0.02724,    Adjusted R-squared:  0.02669 
## F-statistic:  50.2 on 1 and 1793 DF,  p-value: 1.985e-12

Validación del Modelo

Evaluamos la bondad de ajuste del modelo y visualizamos la línea de regresión sobre los datos.

# Predicción y gráfico con línea de regresión
ggplot(data, aes(x = porcentaje, y = rating)) +
  geom_point(color = "blue", alpha = 0.6) +
  geom_smooth(method = "lm", color = "red") +
  labs(title = "Modelo de Regresión Lineal",
       x = "Porcentaje de Cacao",
       y = "Rating") +
  theme_minimal()

Conclusión

El modelo ajustado proporciona una herramienta para predecir el rating del café basado en el porcentaje de cacao.