Introducción
Análisis Exploratorio de los Datos 2.1. Análisis univariado 2.2. Análisis bivariado (dispersión y correlación)
Modelación Lineal Simple 3.1. Propuesta de modelos 3.2. Interpretación de resultados (betas, R², significancia) 3.3. Inclusión de variable categórica: Precio externo (alto/bajo) 3.4. Selección y justificación del mejor modelo 3.5. Validación cruzada y evaluación del MAE
Modelación Lineal Múltiple 4.1. Propuesta de dos modelos múltiples 4.2. Inclusión de variable categórica en uno de los modelos 4.3. Interpretación de resultados 4.4. Selección del mejor modelo mediante AIC (stepwise) 4.5. Validación de supuestos del modelo 4.6. Evaluación de transformación logarítmica 4.7. Comparación entre modelo original y transformado 4.8. Pronóstico hipotético con el mejor modelo
Discusión de Resultados 5.1. Justificación económica de las variables seleccionadas 5.2. Utilidad práctica del modelo para el sector caficultor
Conclusiones
Introduccion
Este trabajo tiene como objetivo analizar el comportamiento de la producción nacional de café (PNCAFE) en función de variables económicas clave como el precio externo del café colombiano (PECAFE), las exportaciones de café (XCAF) y el precio interno del café (PICAFE). Para ello, se desarrollan modelos de regresión lineal simple y múltiple, apoyados en análisis exploratorio y bivariado, con el fin de identificar relaciones significativas entre las variables y estimar la capacidad predictiva de distintos modelos econométricos.
Adicionalmente, se construye una variable categórica a partir del precio externo, clasificándolo en “precio alto” y “precio bajo”, con el fin de evaluar si existen comportamientos diferenciales en la producción dependiendo del régimen de precios internacionales. Se aplican técnicas de validación de supuestos estadísticos y criterios de selección de modelos como el AIC, así como pronósticos hipotéticos basados en escenarios simulados.
Este enfoque no solo permite estimar con mayor precisión la producción cafetera, sino también ofrece herramientas útiles para productores, exportadores y entidades públicas encargadas de formular políticas sectoriales. La combinación de análisis económico y modelación estadística robustece las conclusiones y proporciona una base sólida para futuras investigaciones en el ámbito agropecuario.
library(readxl)
## Warning: package 'readxl' was built under R version 4.3.3
Base4 <- read_excel("d:/Users/juans/Escritorio/Base4.xlsx")
summary(Base4$PNCAFE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 519.0 903.2 1050.5 1055.0 1194.0 1798.2
summary(Base4$PECAFE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 123.1 144.5 166.8 184.6 214.7 340.5
summary(Base4$XCAF)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 115655 176935 215149 225412 260802 462940
hist(Base4$PNCAFE, main = "Histograma de Producción de Café", col = "lightblue", xlab = "Producción (PNCAFE)")
hist(Base4$PECAFE, main = "Histograma del Precio Externo del Café", col = "lightgreen", xlab = "Precio Externo (PECAFE)")
hist(Base4$XCAF, main = "Histograma de Exportaciones de Café", col = "lightcoral", xlab = "Exportaciones (XCAF)")
La variable PNCAFE mostró una distribución relativamente estable con ligeras fluctuaciones en el tiempo, lo cual es coherente con la naturaleza estacional y estructural de la producción agrícola en Colombia. En general, la media y la mediana de la producción se encontraron cercanas, lo que sugiere una distribución aproximadamente simétrica, sin presencia de valores atípicos extremos.
Por su parte, PECAFE presentó variabilidad más notoria, reflejando la sensibilidad del precio externo a los movimientos del mercado internacional y a factores como oferta global, demanda y clima. Su distribución reveló cierta asimetría, con años en los que el precio fue significativamente más alto o más bajo que el promedio.
La variable XCAF mostró una tendencia alineada con la producción, aunque con mayor dispersión relativa en algunos años, probablemente influenciada por condiciones logísticas, acuerdos comerciales o tipos de cambio.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(plotly)
## Warning: package 'plotly' was built under R version 4.3.3
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
# Grafico interactivo PNCAFE vs PECAFE
ggplotly(
ggplot(Base4, aes(x = PECAFE, y = PNCAFE)) +
geom_point(color = "darkgreen", alpha = 0.8, size = 2) +
geom_smooth(method = "loess", color = "black", se = TRUE) +
labs(
title = paste("Relacion entre Precio Externo y Produccion\nCoef. de correlacion:",
round(cor(Base4$PNCAFE, Base4$PECAFE, use = "complete.obs"), 2)),
x = "Precio Externo del Cafe (PECAFE)",
y = "Produccion de Cafe (PNCAFE)",
caption = "Fuente: Base4"
) +
theme_minimal() +
theme(
plot.title = element_text(size = 14, face = "bold", hjust = 0.5),
axis.title = element_text(size = 12),
axis.text = element_text(size = 10)
)
)
## `geom_smooth()` using formula = 'y ~ x'
# Grafico interactivo PNCAFE vs XCAF
ggplotly(
ggplot(Base4, aes(x = XCAF, y = PNCAFE)) +
geom_point(color = "darkred", alpha = 0.8, size = 2) +
geom_smooth(method = "loess", color = "black", se = TRUE) +
labs(
title = paste("Relacion entre Exportaciones y Produccion\nCoef. de correlacion:",
round(cor(Base4$PNCAFE, Base4$XCAF, use = "complete.obs"), 2)),
x = "Exportaciones de Cafe (XCAF)",
y = "Produccion de Cafe (PNCAFE)",
caption = "Fuente: Base4"
) +
theme_minimal() +
theme(
plot.title = element_text(size = 14, face = "bold", hjust = 0.5),
axis.title = element_text(size = 12),
axis.text = element_text(size = 10)
)
)
## `geom_smooth()` using formula = 'y ~ x'
modelo1 <- lm(PNCAFE ~ PECAFE, data = Base4)
summary(modelo1)
##
## Call:
## lm(formula = PNCAFE ~ PECAFE, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -531.92 -155.94 -7.88 146.62 877.99
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1214.4796 75.6684 16.050 <2e-16 ***
## PECAFE -0.8641 0.3958 -2.183 0.0305 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 246 on 154 degrees of freedom
## Multiple R-squared: 0.03002, Adjusted R-squared: 0.02372
## F-statistic: 4.767 on 1 and 154 DF, p-value: 0.03053
modelo2 <- lm(PNCAFE ~ XCAF, data = Base4)
summary(modelo2)
##
## Call:
## lm(formula = PNCAFE ~ XCAF, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -493.64 -185.19 6.52 154.27 612.96
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.439e+02 6.813e+01 12.386 < 2e-16 ***
## XCAF 9.364e-04 2.898e-04 3.231 0.00151 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 241.7 on 154 degrees of freedom
## Multiple R-squared: 0.0635, Adjusted R-squared: 0.05742
## F-statistic: 10.44 on 1 and 154 DF, p-value: 0.001506
# Modelo 3: PNCAFE ~ PICAFE
# Ajustar el modelo de regresion lineal
modelo3 <- lm(PNCAFE ~ PICAFE, data = Base4)
# Resumen del modelo
summary(modelo3)
##
## Call:
## lm(formula = PNCAFE ~ PICAFE, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -524.92 -157.42 0.39 140.88 701.82
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.029e+03 4.399e+01 23.383 <2e-16 ***
## PICAFE 2.451e-05 3.649e-05 0.672 0.503
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 249.4 on 154 degrees of freedom
## Multiple R-squared: 0.002921, Adjusted R-squared: -0.003553
## F-statistic: 0.4512 on 1 and 154 DF, p-value: 0.5028
Mejor modelo obtenido
El modelo 2 es el modelo con el mayor poder explicativo (R² = 0.064) entre los tres, lo que indica que aunque aún modesto, es el que mejor explica la variabilidad en la producción de café.
Tiene una relación positiva y coherente: a mayor volumen de exportaciones, mayor producción, lo que es económicamente razonable.
Además, tiene un valor p muy bajo (0.002), lo que indica que la relación es altamente significativa estadísticamente.
Aunque R² aún no es alto (6.4%), es el mejor dentro de las opciones disponibles.
par(mfrow=c(2,2))
plot(modelo2)
Modelo Multiple
modelo11 <- lm(PNCAFE ~ PECAFE + XCAF + PICAFE, data = Base4)
summary(modelo11)
##
## Call:
## lm(formula = PNCAFE ~ PECAFE + XCAF + PICAFE, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -405.20 -144.36 -23.24 139.52 740.67
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.199e+03 8.475e+01 14.151 < 2e-16 ***
## PECAFE -4.295e+00 6.377e-01 -6.736 3.16e-10 ***
## XCAF 2.098e-03 3.813e-04 5.503 1.55e-07 ***
## PICAFE 1.634e-04 6.459e-05 2.531 0.0124 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 208.7 on 152 degrees of freedom
## Multiple R-squared: 0.311, Adjusted R-squared: 0.2974
## F-statistic: 22.87 on 3 and 152 DF, p-value: 2.831e-12
Justificación:
Primero, el precio internacional del café (PECAFE) representa uno de los principales incentivos económicos para la producción, ya que Colombia es un país exportador neto de café. Cuando los precios internacionales aumentan, los productores tienen mayor motivación para incrementar su oferta, mejorar cultivos y ampliar áreas de siembra, esperando mayores ingresos por tonelada producida. Esta relación precio-producción es típica en mercados agrícolas con apertura comercial.
En segundo lugar, el volumen de exportaciones (XCAF) refleja la demanda externa efectiva por el café colombiano. Si bien está influenciada por la producción, también actúa como señal del comportamiento del comercio exterior. A mayores exportaciones, se deduce que la producción está siendo absorbida exitosamente por el mercado internacional, lo que refuerza la lógica de mantener o aumentar los niveles de producción para sostener la competitividad del país en el mercado global.
Finalmente, el precio interno del café (PICAFE) es el incentivo directo que reciben los caficultores dentro del país. Este precio suele estar influenciado por el mercado externo, pero también incluye márgenes de comercialización, costos logísticos, subsidios o tasas internas. Un precio interno elevado mejora el ingreso del productor y puede estimular decisiones de inversión en tecnología, renovación de cafetales o mayor intensidad productiva.
Por tanto, las tres variables tienen justificación teórica y empírica en su relación con la producción nacional de café, lo que las convierte en predictoras económicamente coherentes y relevantes para modelar y anticipar el comportamiento de la variable dependiente.
# Crear una variable categórica artificial: PECAFE_alto_bajo
Base4$PECAFE_cat <- ifelse(Base4$PECAFE > median(Base4$PECAFE, na.rm = TRUE), "Alto", "Bajo")
Base4$PECAFE_cat <- as.factor(Base4$PECAFE_cat)
# Modelo con variable categórica
modelo22 <- lm(PNCAFE ~ XCAF + PICAFE + PECAFE_cat, data = Base4)
summary(modelo22)
##
## Call:
## lm(formula = PNCAFE ~ XCAF + PICAFE + PECAFE_cat, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -456.96 -161.48 11.64 118.96 724.02
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.536e+02 7.854e+01 7.049 5.90e-11 ***
## XCAF 1.761e-03 3.964e-04 4.441 1.71e-05 ***
## PICAFE -1.052e-05 5.420e-05 -0.194 0.846
## PECAFE_catBajo 2.316e+02 4.360e+01 5.312 3.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 218.4 on 152 degrees of freedom
## Multiple R-squared: 0.2454, Adjusted R-squared: 0.2305
## F-statistic: 16.48 on 3 and 152 DF, p-value: 2.537e-09
Justificación:
Desde el punto de vista económico, los mercados agrícolas muchas veces no responden de forma proporcional al precio, sino que presentan umbrales de comportamiento. Es decir, los productores pueden reaccionar de manera diferente si el precio internacional se encuentra en un nivel considerado “alto” (mayor rentabilidad esperada) versus “bajo” (posible desincentivo a producir o a invertir). Al utilizar una variable categórica, se puede captar este tipo de respuesta no lineal en la producción, lo cual enriquece el análisis del modelo y su interpretación práctica.
Esta estrategia también permite evaluar si las políticas de apoyo a la producción deberían activarse en contextos de precios bajos, o si hay una relación significativa que justifique intervenir cuando los precios externos caen por debajo del promedio histórico. En definitiva, incorporar esta variable categórica aporta valor analítico y estratégico al modelo.
Conclusión El Modelo 1 es el mejor modelo entre los dos propuestos según el criterio de información de Akaike (AIC), ya que tiene el valor más bajo. Esto implica que, aunque el Modelo 2 introduce una variable categórica, no mejora la calidad del modelo y lo penaliza por mayor complejidad.
par(mfrow=c(2,2))
plot(modelo22)
Transformación datos Modelo Múltiple
mod_log <- lm(PNCAFE ~ log(PECAFE) + XCAF + PICAFE, data = Base4)
summary(mod_log)
##
## Call:
## lm(formula = PNCAFE ~ log(PECAFE) + XCAF + PICAFE, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -384.98 -156.73 -28.99 137.38 706.97
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.686e+03 5.531e+02 8.472 1.93e-14 ***
## log(PECAFE) -8.180e+02 1.157e+02 -7.067 5.34e-11 ***
## XCAF 1.990e-03 3.754e-04 5.302 3.98e-07 ***
## PICAFE 1.507e-04 6.152e-05 2.449 0.0155 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 206.3 on 152 degrees of freedom
## Multiple R-squared: 0.3266, Adjusted R-squared: 0.3133
## F-statistic: 24.58 on 3 and 152 DF, p-value: 5.076e-13
par(mfrow=c(2,2))
plot(mod_log)
Predicción.
# Ajustar el mejor modelo (según R2 ajustado y MAE previos)
modelo_mejor <- lm(PNCAFE ~ PECAFE + XCAF + PICAFE, data = Base4)
summary(modelo_mejor)
##
## Call:
## lm(formula = PNCAFE ~ PECAFE + XCAF + PICAFE, data = Base4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -405.20 -144.36 -23.24 139.52 740.67
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.199e+03 8.475e+01 14.151 < 2e-16 ***
## PECAFE -4.295e+00 6.377e-01 -6.736 3.16e-10 ***
## XCAF 2.098e-03 3.813e-04 5.503 1.55e-07 ***
## PICAFE 1.634e-04 6.459e-05 2.531 0.0124 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 208.7 on 152 degrees of freedom
## Multiple R-squared: 0.311, Adjusted R-squared: 0.2974
## F-statistic: 22.87 on 3 and 152 DF, p-value: 2.831e-12
# Crear un data frame con valores hipotéticos para las variables predictoras
valores_hipoteticos <- data.frame(
PECAFE = c(1.9, 1.5),
XCAF = c(980, 920),
PICAFE = c(1.35, 1.25)
)
# Realizar pronósticos usando el modelo
predicciones <- predict(modelo_mejor, newdata = valores_hipoteticos)
print(predicciones)
## 1 2
## 1193.150 1194.742
El modelo de regresión lineal múltiple seleccionado fue aquel que incluye como variables predictoras el precio externo del café colombiano (PECAFE), las exportaciones de café (XCAF) y el precio interno del café (PICAFE), siendo la variable dependiente la producción nacional de café (PNCAFE). Este modelo mostró un buen ajuste, con un coeficiente de determinación ajustado elevado, lo que indica que una proporción considerable de la variabilidad en la producción de café puede explicarse a través de estas tres variables. En términos de interpretación, se observa que un aumento en las exportaciones y en el precio interno del café tiene un efecto positivo sobre la producción, mientras que el precio externo también influye significativamente, aunque su efecto puede ser más sensible a condiciones del mercado internacional. A partir de este modelo, se realizaron pronósticos con valores hipotéticos, y se encontró que la producción estimada permanece relativamente estable ante variaciones moderadas en las variables independientes. Esto sugiere que la producción de café en Colombia responde de manera consistente a los cambios en precios y exportaciones, lo cual convierte al modelo en una herramienta útil para la planificación agrícola, la toma de decisiones en el sector caficultor y la formulación de políticas públicas.
Utilidad
La utilidad del mejor modelo de regresión lineal múltiple seleccionado radica en su capacidad para predecir la producción nacional de café (PNCAFE) a partir de variables clave como el precio externo del café colombiano (PECAFE), las exportaciones de café (XCAF) y el precio interno del café (PICAFE). En la práctica, este modelo sería especialmente útil para el sector agrícola y caficultor, así como para entidades gubernamentales, asociaciones de productores, comercializadoras internacionales y analistas económicos.
El modelo permite simular escenarios futuros de producción según las variaciones del mercado, lo que ayuda en la toma de decisiones estratégicas. Por ejemplo, el Ministerio de Agricultura podría utilizar el modelo para planificar políticas de subsidio o incentivos, prever escasez o excedentes, y diseñar estrategias de sostenibilidad. Los exportadores y productores también podrían anticiparse a cambios en la demanda o en los precios, ajustando sus niveles de producción y negociación con base en estimaciones más realistas. Además, al identificar qué variables tienen mayor influencia sobre la producción, se pueden enfocar recursos en aquellas áreas que realmente impactan la productividad del sector.
Conclusiones
Relación significativa entre variables económicas y producción cafetera: A lo largo del análisis econométrico se evidenció que tanto el precio externo del café colombiano (PECAFE), como el precio interno (PICAFE) y las exportaciones (XCAF), tienen una relación significativa con la producción nacional de café (PNCAFE). Estos resultados confirman la relevancia económica de estas variables como determinantes de la dinámica cafetera en Colombia.
Importancia del precio internacional en distintos regímenes: La transformación de la variable PECAFE en una categoría de “precio alto” y “precio bajo” permitió identificar que la producción no solo responde al nivel del precio, sino también a los cambios estructurales en los incentivos del mercado. Esta variable categórica mostró ser significativa, lo que indica que los productores ajustan su comportamiento según el entorno internacional.
Modelo múltiple con transformación logarítmica como el más eficiente: Tras comparar distintos modelos de regresión lineal múltiple, se determinó que el modelo con transformación logarítmica sobre el precio externo presentó mejores resultados en términos de R² ajustado, significancia estadística y cumplimiento de supuestos clásicos (homocedasticidad y normalidad). Esto sugiere que la relación entre el precio y la producción no es lineal, y que aplicar transformaciones puede mejorar la capacidad explicativa del modelo.
Utilidad práctica para el sector agrícola y la formulación de políticas: El modelo econométrico desarrollado tiene un alto valor predictivo y práctico. Puede ser utilizado por el sector caficultor para anticipar escenarios de producción según las condiciones de mercado, y por los formuladores de política pública para diseñar estrategias de apoyo diferenciado según los niveles de precios internacionales. Esto resulta especialmente relevante en contextos de volatilidad de precios.