El café es uno de los productos agrícolas más importantes y comercializados a nivel mundial, además de representar una fuente significativa de ingresos para múltiples países productores. La calidad del café constituye un factor clave dentro de la industria, ya que influye directamente en la percepción del consumidor, el valor comercial del producto y su posicionamiento en mercados especializados.
La evaluación de la calidad del café suele realizarse a partir de características sensoriales como el aroma, sabor, acidez, cuerpo y balance, así como de variables relacionadas con el procesamiento y manejo del grano. Estas características permiten identificar atributos asociados a cafés de mayor calidad y comprender cómo diferentes factores pueden influir en la experiencia sensorial final.
El presente análisis utiliza un dataset de calidad del café que contiene información sobre variables sensoriales, métodos de procesamiento y características del producto provenientes de distintos países productores. A través de técnicas de análisis exploratorio y estadísticas descriptivas, se busca identificar cuáles variables presentan mayor relación con la calidad del café.
¿Qué características sensoriales y de procesamiento presentan mayor relación con la calidad del café?
El dataset utilizado contiene información relacionada con la calidad sensorial del café y variables asociadas a su procesamiento y origen. La base de datos cuenta con 1.338 observaciones válidas y 22 variables, incluyendo características sensoriales como aroma, sabor, acidez, cuerpo y balance, además de variables de procesamiento como método de procesamiento, humedad y variedad del café.
También se incluyen variables relacionadas con el origen del producto, tales como continente y país de procedencia, permitiendo realizar comparaciones entre diferentes contextos de producción cafetera. Se identificó y eliminó un registro con valores en cero en todos los atributos sensoriales, correspondiente a un dato corrupto.
Las variables del dataset se pueden clasificar en tres grupos:
| Tipo | Variables |
|---|---|
| Sensoriales | Aroma, Flavor, Aftertaste, Acidity, Body, Balance |
| Procesamiento | Processing.Method, Moisture, Category.One.Defects, Category.Two.Defects |
| Origen | Species, Continent.of.Origin, Country.of.Origin, Variety |
Con el objetivo de representar la calidad general del café mediante
una sola métrica, se construyó la variable Quality.Score
como el promedio simple de los seis atributos sensoriales
principales: Aroma, Flavor, Aftertaste, Acidity, Body y
Balance. Este enfoque es consistente con metodologías utilizadas en
evaluaciones profesionales de café de especialidad, donde cada atributo
tiene igual peso en la percepción global del producto.
| Medida | Valor |
|---|---|
| Media | 7.516 |
| Mediana | 7.528 |
| Desviación estándar | 0.283 |
| Mínimo | 6.447 |
| Máximo | 8.640 |
| Q1 (25%) | 7.348 |
| Q3 (75%) | 7.680 |
El índice de calidad presenta una media de 7.52 y una mediana de 7.53, valores muy cercanos entre sí, lo que sugiere una distribución aproximadamente simétrica. La desviación estándar de 0.28 indica una dispersión moderada alrededor de la media. El rango total del índice va desde 6.45 hasta 8.64, aunque la mayoría de los cafés se concentran entre los valores del primer y tercer cuartil (7.35 – 7.68), lo que representa la franja típica de calidad en el dataset.
La distribución del índice de calidad muestra una forma ligeramente asimétrica hacia la izquierda, con una cola más pronunciada en los valores bajos. Esto indica que la mayoría de los cafés evaluados en el dataset obtienen puntuaciones moderadas o altas, mientras que los registros con calidad muy baja son menos frecuentes pero existen. La proximidad entre la media (7.52) y la mediana (7.53) confirma que los valores extremos no distorsionan significativamente la tendencia central. La concentración principal se ubica en el rango 7.5 – 8.5, correspondiente al segmento de cafés de calidad media-alta según estándares de la industria.
El análisis geográfico revela diferencias relevantes en la calidad promedio según el país de origen. Ethiopia lidera el ranking con un índice promedio de 7.96, seguido de Kenya con 7.78. Los países africanos tienden a concentrarse en la parte alta del ranking, lo que es consistente con la reputación de la región —especialmente el Cuerno de África— como cuna de cafés de especialidad con perfiles sensoriales complejos. En contraste, algunos países de América Central y Asia obtienen puntuaciones más bajas en promedio, aunque con alta variabilidad interna que merece explorarse más adelante.
El boxplot por continente evidencia que África presenta la mediana más alta de calidad entre todas las regiones, con una distribución relativamente compacta en valores altos. América del Sur y América del Norte muestran una mayor dispersión, lo que refleja la diversidad de condiciones de producción dentro de estas regiones. Asia presenta los valores más bajos en promedio, aunque con presencia de outliers en el extremo superior que indican la existencia de cafés asiáticos de alta calidad (como algunos de Taiwán o Indonesia). La amplitud del rango intercuartílico varía considerablemente entre continentes, sugiriendo que el origen geográfico sí es un factor diferenciador de la calidad.
El gráfico de violín-boxplot muestra que el método Pulped natural / honey presenta la mediana más alta de calidad (7.53), aunque su distribución es más estrecha debido al menor número de muestras con este método. El procesamiento Washed / Wet (lavado) también muestra valores medianos altos y una distribución amplia que refleja su predominancia en el dataset. El método Natural / Dry presenta mayor variabilidad: produce tanto algunos de los cafés mejor valorados como varios de los peores, lo que es coherente con las características propias de este proceso, donde una mayor exposición del grano puede potenciar atributos únicos pero también favorecer defectos si no se controla adecuadamente.
La matriz de correlación revela que todos los atributos
sensoriales tienen una relación positiva fuerte con el
Quality.Score, lo cual es esperado dado que este
índice es un promedio de los mismos. Lo más informativo es analizar la
correlación entre atributos: Flavor y
Quality.Score presentan la correlación más alta (0.92),
seguido de Balance (0.86) y Aftertaste
(0.91). Esto sugiere que el sabor y el balance son los atributos más
representativos de la percepción global de calidad. La correlación entre
Aroma y Flavor (0.74) es también
elevada, lo que indica que los cafés con mejor aroma tienden a tener
mejor sabor, una relación fisiológica y química bien documentada en la
ciencia sensorial del café.
La relación entre la humedad del grano y el índice de calidad es prácticamente nula (r = -0.212), lo que se refleja en la línea de tendencia casi horizontal. Esto indica que, dentro del rango típico de humedad registrado en el dataset (entre 0.08% y 0.14% aproximadamente), esta variable no es un predictor significativo de la calidad sensorial. En la práctica, la humedad es más relevante como indicador de conservación y riesgo de deterioro del grano que como determinante de sus atributos sensoriales directos.
La correlación entre los defectos de categoría 1 y el índice de calidad es negativa y débil (r = -0.091). Si bien la tendencia indica que a mayor número de defectos la calidad tiende a reducirse, la relación no es muy fuerte porque la gran mayoría de las muestras (84.9% del dataset) presenta cero defectos de categoría 1, lo que limita la variabilidad de esta variable. En los pocos casos donde sí aparecen defectos, el impacto negativo sobre la calidad sensorial es visible, lo cual es coherente con el hecho de que los defectos físicos del grano (granos negros, fermentados, con vinagre) afectan directamente el perfil de taza.
El análisis exploratorio del dataset de calidad del café permite extraer las siguientes conclusiones en respuesta a la pregunta de investigación:
1. Los atributos sensoriales más influyentes en la calidad
global son el Flavor (sabor) y el Balance, con las
correlaciones más altas respecto al Quality.Score. Le
siguen el Aftertaste (retrogusto) y el Aroma. Esto sugiere que en una
evaluación de calidad, mejorar el sabor y el balance del café tendrá el
mayor impacto en su puntuación general.
2. El origen geográfico es un factor diferenciador relevante. Los cafés provenientes de África —especialmente Etiopía— muestran consistentemente índices de calidad superiores, con medianas más altas y menor dispersión. Esto refleja la ventaja de las condiciones agroecológicas y la tradición cafetera de la región.
3. El método de procesamiento influye en la calidad, pero también en la variabilidad. El procesamiento Natural / Dry produce tanto los cafés más destacados como algunos de los peores, lo que indica que este método potencia la calidad cuando se aplica con control riguroso, pero es más sensible a errores de proceso. El método lavado es más homogéneo.
4. La humedad del grano no muestra relación significativa con la calidad sensorial dentro de los rangos típicos registrados, por lo que no es una variable predictora útil para estimar la calidad de taza.
5. Los defectos físicos tienen un efecto negativo sobre la calidad, aunque moderado en este dataset dado que la mayoría de las muestras no presenta defectos de categoría 1. Su presencia sí deteriora los atributos sensoriales cuando es significativa.
En síntesis, la calidad del café está determinada principalmente por sus características sensoriales intrínsecas —ligadas al origen y al procesamiento—, más que por variables de conservación como la humedad. Los esfuerzos para mejorar la calidad deberían orientarse al control del proceso de beneficio y a la selección de orígenes con perfiles sensoriales consistentes.