El arroz representa un pilar fundamental en la agricultura colombiana, siendo vital tanto para la seguridad alimentaria como para la economía nacional. Con una arraigada historia de cultivo en la región, Colombia ha experimentado diversos cambios en su producción de arroz a lo largo del tiempo, influenciados por factores climáticos, económicos y sociales.
En un contexto donde la agricultura emerge como un sector económico crucial y la necesidad de asegurar la disponibilidad de alimentos para una población en crecimiento es prioritaria, resulta imperativo comprender las tendencias y los determinantes que inciden en la producción de arroz en Colombia. Este estudio se centra en analizar la relación entre la producción de arroz y una variedad de factores que podrían influir en ella durante el período comprendido entre 2010 y 2021.
Para alcanzar este propósito, se emplearán herramientas estadísticas como la correlación y la regresión lineal. En última instancia, este estudio tiene como objetivo enriquecer el conocimiento existente sobre la agricultura colombiana y proporcionar información valiosa para los responsables de la formulación de políticas, los agricultores y otros actores interesados en fomentar el desarrollo agrícola y la seguridad alimentaria en el país.
Para ello se trabajará con una base de datos suministrada por FEDEARROZ, donde encontraremos la siguiente información:
| AÑO | PRODUCCIÓN NACIONAL (Tn) |
|---|---|
| 2010 | 1.399.014 |
| 2011 | 1.531.170 |
| 2012 | 1.387.541 |
| 2013 | 1.471.531 |
| 2014 | 1.327.277 |
| 2015 | 1.462.775 |
| 2016 | 1.663.982 |
| 2017 | 1.739.407 |
| 2018 | 1.718.278 |
| 2019 | 1.652.766 |
| 2020 | 1.714.297 |
| 2021 | 1.725.319 |
Fuente. Esta tabla muestra la producción anual para los años 2010 y 2021. FEDEARROZ
En primer lugar, se procede a elaborar un gráfico que representa la producción en función del tiempo, con el objetivo de visualizar y analizar el comportamiento de los datos a lo largo del tiempo.
Gráfico 1. Diagrama de dispersión del años en función de la producción de arroz en colombia.
Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
datos <- data.frame(Tiempo, Produccion)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
plot(Produccion ~ Tiempo, data = datos, main = "Producción en función del Tiempo",
xlab = "Tiempo", ylab = "Producción")
El Gráfico 1 ilustra la trayectoria de la producción anual de arroz en Colombia desde 2010 hasta 2021. Se destaca una tendencia general al alza en la producción, aunque con algunas fluctuaciones. Además, se evidencia una relación positiva entre el tiempo y la producción, sin la presencia de valores atípicos.
En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.
pairs(Tiempo ~ Produccion)
conc <- cor(Tiempo, Produccion)
conc
## [1] 0.8081423
La gráfica muestra una clara tendencia ascendente que evidencia una correlación positiva entre el tiempo y la producción. A medida que transcurre el tiempo, la producción también aumenta, lo que se refleja en una correlación fuerte de 0.8081423 entre estas dos variables.
Aunque la mayoría de los puntos de datos se ajustan a esta tendencia, existe cierta variabilidad en los datos, lo que indica que no todos los puntos siguen exactamente la misma trayectoria ascendente. Sin embargo, no se observan valores atípicos que puedan distorsionar la interpretación general.
En resumen, la producción tiende a aumentar con el tiempo y existe una relación sólida entre estas dos variables. A pesar de la variabilidad en los datos, la tendencia general es claramente ascendente, lo que sugiere que el tiempo tiene un impacto significativo en la producción.
cor.test(Tiempo, Produccion)
##
## Pearson's product-moment correlation
##
## data: Tiempo and Produccion
## t = 4.3389, df = 10, p-value = 0.001469
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4368484 0.9441518
## sample estimates:
## cor
## 0.8081423
El coeficiente de correlación de Pearson (r) entre las variables “Tiempo (Año)” y “Producción” es 0.808, indicando una fuerte correlación positiva que sugiere una asociación favorable entre el tiempo dedicado a una actividad y la producción resultante, respaldando así la existencia de una correlación significativa entre ambas variables. El intervalo de confianza del 95%, que va desde 0.437 a 0.944, proporciona una estimación razonablemente precisa del verdadero valor de la correlación entre “Tiempo” y “Producción”.
Procedemos a hacer la prueba de normalidad Shapiro-Wilk
shapiro.test(Produccion)
##
## Shapiro-Wilk normality test
##
## data: Produccion
## W = 0.88112, p-value = 0.09059
La variable producción presenta una distribución normal, por lo tanto la correlación de pearson es la prueba adecuada para la base de datos que estamos manejando.
# Ajuste del modelo de Regresion lineal
modelo <- lm(Produccion ~ Tiempo, data = datos)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = Produccion ~ Tiempo, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -187619 -39407 -7344 70301 122077
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -67252676 15860824 -4.240 0.00172 **
## Tiempo 34145 7869 4.339 0.00147 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94100 on 10 degrees of freedom
## Multiple R-squared: 0.6531, Adjusted R-squared: 0.6184
## F-statistic: 18.83 on 1 and 10 DF, p-value: 0.001469
par(mfrow = c(2, 2))
plot(modelo)
Los gráficos de dispersión analizados muestran que los modelos de regresión lineal son satisfactorios. En el gráfico de residuos vs. valores ajustados, los puntos están dispersos aleatoriamente alrededor de cero, indicando un buen ajuste del modelo a los datos. La distribución de los residuos es aproximadamente normal según el gráfico de residuos normalizados vs. cuantiles teóricos. Además, no hay puntos con un alto apalancamiento o distancia de Cook, lo que sugiere que ningún dato ejerce una influencia desproporcionada en los modelos. En resumen, los modelos de regresión se ajustan bien a los datos sin puntos de datos influyentes.
H_0: No hay correlación entre las variables Tiempo y Producción (r=0).
H_1: Existe una correlación entre las variables Tiempo y Producción (r≠0).
En otras palabras:
H_0: La hipótesis nula es la declaración de que no hay relación lineal entre las variables Tiempo y Producción, lo que se expresaría como r=0. En otras palabras, sugiere que el coeficiente de correlación de Pearson (r) entre estas dos variables es cero, lo que indica ausencia de correlación lineal.
H_1: La hipótesis alternativa es la afirmación opuesta a la hipótesis nula. En este caso, sugiere que hay una correlación significativa entre las variables Tiempo y Producción, es decir, que el coeficiente de correlación de Pearson (r) es diferente de cero.
El resultado indica que el valor p es 0.001469, que es menor que el nivel de significancia usual de 0.05. Esto significa que hay suficiente evidencia estadística para rechazar la hipótesis nula en favor de la alternativa, sugiriendo una correlación significativa entre las variables Tiempo y Producción. El coeficiente de correlación de Pearson estimado es aproximadamente 0.808, indicando una fuerte correlación positiva entre estas variables. El intervalo de confianza del 95% para el coeficiente de correlación es (0.4368484, 0.9441518), lo que sugiere que el verdadero valor del coeficiente de correlación está muy probablemente dentro de este rango. Además, el valor p de 0.001469, siendo menor que el nivel de significancia de 0.05, proporciona evidencia significativa para rechazar la hipótesis nula de que la correlación es nula.
ggplot(data = datos, aes(x = Tiempo, y = Produccion)) +
geom_point() +
geom_smooth(method = "lm", se = TRUE, color = "firebrick") +
theme_bw() + labs(x = "Tiempo", y = "Produccion")
## `geom_smooth()` using formula = 'y ~ x'
La ecuación del modelo de regresión lineal que se ajusto a la base de datos es la siguiente:
La ecuación de una línea recta en forma de pendiente-intersección es:
\[ y(t)=34.145t-67.252.676+94.100 \]
Donde:
\(y\) es la variable dependiente (Producción de arroz).
\(t\) es la variable independiente (Tiempo en años).
\(34.145\) es la pendiente de la línea.
\(67.252.676\) es la intersección con el eje \(y\).
\(94.100\) es el error.
El coeficiente de intersección de -67.252.676 significa que si el tiempo fuera cero, se esperaría que la producción fuera de -67.252.676 unidades. Sin embargo, este valor no tiene sentido en este contexto, ya que el tiempo no puede ser cero.
El coeficiente de tiempo de 34.145 significa que se espera que la producción aumente en 34.145 unidades por cada unidad de tiempo adicional. Este coeficiente es estadísticamente significativo al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que hay una relación lineal positiva entre el tiempo y la producción.
El modelo tiene un R-cuadrado ajustado de 0,6184, lo que significa que explica el 61,84% de la variabilidad en la producción. Este es un valor R-cuadrado razonablemente alto, lo que indica que el modelo es un buen ajuste para los datos.
El modelo también tiene una prueba F estadísticamente significativa al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que el modelo es mejor que un modelo sin predictores.
El modelo de regresión lineal simple que se encontro es un buen ajuste para los datos y proporciona una forma útil de predecir la producción en función del tiempo. El modelo tiene un R-cuadrado ajustado alto y una prueba F estadísticamente significativa, lo que indica que el modelo es un buen ajuste para los datos.
Para este caso se trabajará con la misma base de datos suministrada por FEDEARROZ, pero se encontrara otra variable donde encontraremos la siguiente información:
| AÑO | PRODUCCIÓN NACIONAL (Tn) | ÁREA COSECHADA (Ha) |
|---|---|---|
| 2010 | 1.399.014 | 228.198 |
| 2011 | 1.531.170 | 255.619 |
| 2012 | 1.387.541 | 235.596 |
| 2013 | 1.471.531 | 251.676 |
| 2014 | 1.327.277 | 218.701 |
| 2015 | 1.462.775 | 233.037 |
| 2016 | 1.663.982 | 257.562 |
| 2017 | 1.739.407 | 281.581 |
| 2018 | 1.718.278 | 264.193 |
| 2019 | 1.652.766 | 248.448 |
| 2020 | 1.714.297 | 252.801 |
| 2021 | 1.725.319 | 259.902 |
Fuente. Esta tabla muestra la producción y la área cosechada para los años 2010 y 2021. FEDEARROZ
En primer lugar, se procede a elaborar un gráfico que represente la producción en función de tiempo y área cosechada, con el objetivo de visualizar y analizar el comportamiento de los datos.
Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
Area_cosechada <- c(228.198, 255.619, 235.596, 251.676, 218.701, 233.037, 257.562, 281.581, 264.193, 248.448, 252.801, 259.902)
Area_cosechada_metros_cuadrados <- c(2281980, 2556190, 2355960, 2516760, 2187010, 2330370, 2575620, 2815810, 2641930, 2484480, 2528010, 2599020)
# Crea el marco de datos
datos <- data.frame(Tiempo = Tiempo, Produccion = Produccion, Area_cosechada = Area_cosechada)
Se ajusto los valores del Área cosechada ya que se encuentran en terminos de hectareas se hizo la conversión de hectareas a metros cuadrados como se ve en lo anterior.
Gráfico 1. Diagrama de dispersión de producción en función de tiempo y área cosechada de arroz en colombia.
ggplot(datos, aes(x = Tiempo)) +
geom_point(aes(y = Produccion, color = "Produccion"), size = 1.5) +
geom_point(aes(y = Area_cosechada_metros_cuadrados , color = "Area_cosechada_metros_cuadrados "), linetype = "dashed", size = 1.5) +
labs(title = "Producción y Área Cosechada a lo largo del tiempo",
y = "Cantidad",
color = "Variable") +
scale_color_manual(values = c("Produccion" = "blue", "Area_cosechada_metros_cuadrados " = "red")) +
theme_minimal()
## Warning in geom_point(aes(y = Area_cosechada_metros_cuadrados, color =
## "Area_cosechada_metros_cuadrados "), : Ignoring unknown parameters: `linetype`
La correlación es una medida estadística que evalúa la relación entre dos o más variables. En el análisis de datos, la correlación es una herramienta fundamental para comprender cómo cambian conjuntamente las variables y si existe una relación lineal entre ellas. Una correlación positiva indica que las variables tienden a aumentar o disminuir juntas, mientras que una correlación negativa señala que una variable tiende a aumentar mientras la otra disminuye.
# Corellación
correlation_matrix <- cor(datos) # Calcular la matriz de correlación
correlation_matrix
## Tiempo Produccion Area_cosechada
## Tiempo 1.0000000 0.8081423 0.4988909
## Produccion 0.8081423 1.0000000 0.8676665
## Area_cosechada 0.4988909 0.8676665 1.0000000
La imagen muestra una matriz de correlación, que es una tabla que muestra la correlación entre cada par de variables en un conjunto de datos. La correlación es una medida de la fuerza y la dirección de la relación lineal entre dos variables. Un coeficiente de correlación de 0 indica que no hay relación entre las variables, un coeficiente de correlación de 1 indica una correlación positiva perfecta y un coeficiente de correlación de -1 indica una correlación negativa perfecta.
Tiempo y Producción tienen una correlación positiva fuerte (0.808), lo que significa que a medida que aumenta el tiempo, también lo hace la producción.
Tiempo y Área Cosechada muestran una correlación positiva más débil (0.499), lo que indica que a medida que pasa el tiempo, el área cosechada tiende a aumentar, pero no tan fuertemente como la relación entre tiempo y producción.
Producción y Área Cosechada tienen una correlación positiva fuerte (0.868), lo que significa que a medida que aumenta la producción, también lo hace el área cosechada.
En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.
pairs(datos, main = "Gráfico de Pares para las Variables")
El diagrama de dispersión muestra que existe una relación positiva entre las tres variables. Esto significa que a medida que aumenta el tiempo, también aumenta la producción y el área cosechada. La relación entre el tiempo y la producción es la más fuerte, seguida de la relación entre el tiempo y el área cosechada. La relación entre la producción y el área cosechada es la más débil.
# Ajusta el modelo de regresión lineal múltiple
modelo <- lm(Produccion ~ Tiempo + Area_cosechada, data = datos)
# Muestra un resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = Produccion ~ Tiempo + Area_cosechada, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -56595 -33097 4358 26028 61235
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.233e+07 7.900e+06 -5.358 0.000458 ***
## Tiempo 2.111e+04 3.969e+03 5.318 0.000482 ***
## Area_cosechada 5.410e+03 8.219e+02 6.583 0.000101 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 41140 on 9 degrees of freedom
## Multiple R-squared: 0.9403, Adjusted R-squared: 0.9271
## F-statistic: 70.93 on 2 and 9 DF, p-value: 3.094e-06
Valores t y p:
Intercepción: -5.358, 0.000458
Tiempo: 2.111e+04, 3.969e+03
Área cosechada: 5.318, 0.000482
Los valores t y p se utilizan para evaluar la significancia estadística de los coeficientes. Un valor t grande y un valor p pequeño indican que el coeficiente es estadísticamente significativo. En este caso, el valor t de la intercepción es grande y el valor p es pequeño, lo que sugiere que la intercepción es estadísticamente significativa. Los valores t del tiempo y el área cosechada también son grandes y los valores p son pequeños, lo que sugiere que estos coeficientes también son estadísticamente significativos.
R-cuadrado múltiple y R-cuadrado ajustado:
R-cuadrado múltiple: 0.9403
R-cuadrado ajustado: 0.9271
El R-cuadrado múltiple y el R-cuadrado ajustado proporcionan medidas de la bondad de ajuste del modelo. Un valor cercano a 1 indica que el modelo se ajusta bien a los datos. En este caso, el R-cuadrado múltiple es de 0.9403 y el R-cuadrado ajustado es de 0.9271, lo que sugiere que el modelo se ajusta razonablemente bien a los datos.
\[ H_0: β_1 = β_2 = 0 \]
\[ H_1: β_1 ≠ β_2 ≠ 0 \]
En este caso, podríamos considerar la prueba de hipótesis para cada coeficiente por separado. Si el valor p asociado a un coeficiente es menor que el nivel de significancia (generalmente 0.05), entonces rechazamos la hipótesis nula y concluimos que hay evidencia suficiente para afirmar que el coeficiente es significativamente diferente de cero.
En el resultado que has proporcionado, los valores p para ambas variables, tiempo y área cosechada, son mucho menores que 0.05 (0.000482 y 0.000101 respectivamente). Por lo tanto, podemos rechazar la hipótesis nula para ambas variables.
Por lo tanto, concluimos que tanto el tiempo como el área cosechada tienen una relación significativa con la producción, según los datos y el modelo de regresión lineal proporcionado.
# Anlisis de supuestos
par(mfrow = c(2, 2))
plot(modelo)
Análisis de los gráficos de verificación de supuestos
Los gráficos de dispersión muestran que el modelo de regresión lineal es una buena aproximación para la relación entre producción, tiempo y área cosechada. Los residuos se distribuyen aleatoriamente alrededor de una línea horizontal, indicando que no hay una relación sistemática entre los residuos y los valores ajustados. El gráfico Q-Q muestra que los residuos se distribuyen normalmente. La escala de los residuos es pequeña y su ubicación es cercana a cero, lo que sugiere que no hay una tendencia sistemática en ellos. En el gráfico de residuos vs. apalancamiento, la mayoría de los puntos están cerca del centro, lo que indica que no tienen un gran impacto en el modelo. En resumen, el modelo de regresión lineal es adecuado para entender la relación entre las variables mencionadas.
ggplot(datos, aes(x = Tiempo)) +
geom_point(aes(y = Produccion), color = "blue") +
geom_point(aes(y = Area_cosechada_metros_cuadrados), color = "green") +
geom_smooth(method = "lm", se = TRUE, aes(y = Produccion), color = "firebrick") +
geom_smooth(method = "lm", se = TRUE, aes(y = Area_cosechada_metros_cuadrados), color = "darkgreen") +
theme_bw() +
labs(x = "Tiempo", y = "Valores") +
scale_y_continuous(labels = scales::comma) # Ajustar formato de los números en el eje Y
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
La ecuación del modelo de regresión lineal multiple que se ajusto a la base de datos es la siguiente:
\[Producción = 21110 * Tiempo + 5.410x10^{3} * Area-cosechada -4.233610^{7}+ ε \]
Donde