Introducción

El arroz representa un pilar fundamental en la agricultura colombiana, siendo vital tanto para la seguridad alimentaria como para la economía nacional. Con una arraigada historia de cultivo en la región, Colombia ha experimentado diversos cambios en su producción de arroz a lo largo del tiempo, influenciados por factores climáticos, económicos y sociales.

En un contexto donde la agricultura emerge como un sector económico crucial y la necesidad de asegurar la disponibilidad de alimentos para una población en crecimiento es prioritaria, resulta imperativo comprender las tendencias y los determinantes que inciden en la producción de arroz en Colombia. Este estudio se centra en analizar la relación entre la producción de arroz y una variedad de factores que podrían influir en ella durante el período comprendido entre 2010 y 2021.

Para alcanzar este propósito, se emplearán herramientas estadísticas como la correlación y la regresión lineal. En última instancia, este estudio tiene como objetivo enriquecer el conocimiento existente sobre la agricultura colombiana y proporcionar información valiosa para los responsables de la formulación de políticas, los agricultores y otros actores interesados en fomentar el desarrollo agrícola y la seguridad alimentaria en el país.

Para ello se trabajará con una base de datos suministrada por FEDEARROZ, donde encontraremos la siguiente información:

Tabla de Producción Nacional de Arroz en Colombia (2010-2021).

AÑO PRODUCCIÓN NACIONAL (Tn)
2010 1.399.014
2011 1.531.170
2012 1.387.541
2013 1.471.531
2014 1.327.277
2015 1.462.775
2016 1.663.982
2017 1.739.407
2018 1.718.278
2019 1.652.766
2020 1.714.297
2021 1.725.319

Fuente. Esta tabla muestra la producción anual para los años 2010 y 2021. FEDEARROZ

En primer lugar, se procede a elaborar un gráfico que represente el año en función de la producción, con el objetivo de visualizar y analizar el comportamiento de los datos a lo largo del tiempo.

Gráfico 1. Diagrama de dispersión del años en función de la producción de arroz en colombia.

Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)

Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
datos <- data.frame(Año = Tiempo, Producción = Produccion)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
ggplot(datos, aes(x= Producción, y=Año))+ geom_point()+ geom_smooth(method = "lm", se= T)+theme_light() +labs(y= "Año", x= "Producción")
## `geom_smooth()` using formula = 'y ~ x'

El Gráfico 1 ilustra la trayectoria de la producción anual de arroz en Colombia desde 2010 hasta 2021. Se destaca una tendencia general al alza en la producción, aunque con algunas fluctuaciones. Además, se evidencia una relación positiva entre el tiempo y la producción, sin la presencia de valores atípicos.

Calculo de la correlación.

En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.

pairs(Produccion ~ Tiempo)

conc <- cor(Tiempo, Produccion)
conc
## [1] 0.8081423

La gráfica muestra una clara tendencia ascendente que evidencia una correlación positiva entre el tiempo y la producción. A medida que transcurre el tiempo, la producción también aumenta, lo que se refleja en una correlación fuerte de 0.8081423 entre estas dos variables.

Aunque la mayoría de los puntos de datos se ajustan a esta tendencia, existe cierta variabilidad en los datos, lo que indica que no todos los puntos siguen exactamente la misma trayectoria ascendente. Sin embargo, no se observan valores atípicos que puedan distorsionar la interpretación general.

En resumen, la producción tiende a aumentar con el tiempo y existe una relación sólida entre estas dos variables. A pesar de la variabilidad en los datos, la tendencia general es claramente ascendente, lo que sugiere que el tiempo tiene un impacto significativo en la producción.

cor.test(Tiempo, Produccion)
## 
##  Pearson's product-moment correlation
## 
## data:  Tiempo and Produccion
## t = 4.3389, df = 10, p-value = 0.001469
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4368484 0.9441518
## sample estimates:
##       cor 
## 0.8081423

El coeficiente de correlación de Pearson (r) entre las variables “Tiempo (Año)” y “Producción” es 0.808, indicando una fuerte correlación positiva que sugiere una asociación favorable entre el tiempo dedicado a una actividad y la producción resultante, respaldando así la existencia de una correlación significativa entre ambas variables. El intervalo de confianza del 95%, que va desde 0.437 a 0.944, proporciona una estimación razonablemente precisa del verdadero valor de la correlación entre “Tiempo” y “Producción”.

Prueba de Shapiro-Wilk

Procedemos a hacer la prueba de normalidad Shapiro-Wilk

shapiro.test(Produccion)
## 
##  Shapiro-Wilk normality test
## 
## data:  Produccion
## W = 0.88112, p-value = 0.09059

La variable producción presenta una distribución normal, por lo tanto la correlación de pearson es la prueba adecuada para la base de datos que estamos manejando.

Validación de Hipótesis

H_0: No hay correlación entre las variables Tiempo y Producción (r=0).

H_1: Existe una correlación entre las variables Tiempo y Producción (r≠0).

En otras palabras:

-H_0: La hipótesis nula es la declaración de que no hay relación lineal entre las variables Tiempo y Producción, lo que se expresaría como r=0. En otras palabras, sugiere que el coeficiente de correlación de Pearson (r) entre estas dos variables es cero, lo que indica ausencia de correlación lineal.

-H_1: La hipótesis alternativa es la afirmación opuesta a la hipótesis nula. En este caso, sugiere que hay una correlación significativa entre las variables Tiempo y Producción, es decir, que el coeficiente de correlación de Pearson (r) es diferente de cero.

El resultado indica que el valor p es 0.001469, que es menor que el nivel de significancia usual de 0.05. Esto significa que hay suficiente evidencia estadística para rechazar la hipótesis nula en favor de la alternativa, sugiriendo una correlación significativa entre las variables Tiempo y Producción. El coeficiente de correlación de Pearson estimado es aproximadamente 0.808, indicando una fuerte correlación positiva entre estas variables. El intervalo de confianza del 95% para el coeficiente de correlación es (0.4368484, 0.9441518), lo que sugiere que el verdadero valor del coeficiente de correlación está muy probablemente dentro de este rango. Además, el valor p de 0.001469, siendo menor que el nivel de significancia de 0.05, proporciona evidencia significativa para rechazar la hipótesis nula de que la correlación es nula.