El arroz representa un pilar fundamental en la agricultura colombiana, siendo vital tanto para la seguridad alimentaria como para la economía nacional. Con una arraigada historia de cultivo en la región, Colombia ha experimentado diversos cambios en su producción de arroz a lo largo del tiempo, influenciados por factores climáticos, económicos y sociales.
En un contexto donde la agricultura emerge como un sector económico crucial y la necesidad de asegurar la disponibilidad de alimentos para una población en crecimiento es prioritaria, resulta imperativo comprender las tendencias y los determinantes que inciden en la producción de arroz en Colombia. Este estudio se centra en analizar la relación entre la producción de arroz y una variedad de factores que podrían influir en ella durante el período comprendido entre 2010 y 2021.
Para alcanzar este propósito, se emplearán herramientas estadísticas como la correlación y la regresión lineal. En última instancia, este estudio tiene como objetivo enriquecer el conocimiento existente sobre la agricultura colombiana y proporcionar información valiosa para los responsables de la formulación de políticas, los agricultores y otros actores interesados en fomentar el desarrollo agrícola y la seguridad alimentaria en el país.
Para ello se trabajará con una base de datos suministrada por FEDEARROZ, donde encontraremos la siguiente información:
| AÑO | PRODUCCIÓN NACIONAL (Tn) |
|---|---|
| 2010 | 1.399.014 |
| 2011 | 1.531.170 |
| 2012 | 1.387.541 |
| 2013 | 1.471.531 |
| 2014 | 1.327.277 |
| 2015 | 1.462.775 |
| 2016 | 1.663.982 |
| 2017 | 1.739.407 |
| 2018 | 1.718.278 |
| 2019 | 1.652.766 |
| 2020 | 1.714.297 |
| 2021 | 1.725.319 |
Fuente. Esta tabla muestra la producción anual para los años 2010 y 2021. FEDEARROZ
En primer lugar, se procede a elaborar un gráfico que representa la producción en función del tiempo, con el objetivo de visualizar y analizar el comportamiento de los datos a lo largo del tiempo.
Gráfico 1. Diagrama de dispersión del años en función de la producción de arroz en colombia.
Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
datos <- data.frame(Tiempo, Produccion)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
plot(Produccion ~ Tiempo, data = datos, main = "Producción en función del Tiempo",
xlab = "Tiempo", ylab = "Producción")
El Gráfico 1 ilustra la trayectoria de la producción anual de arroz en Colombia desde 2010 hasta 2021. Se destaca una tendencia general al alza en la producción, aunque con algunas fluctuaciones. Además, se evidencia una relación positiva entre el tiempo y la producción, sin la presencia de valores atípicos.
En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.
pairs(Tiempo ~ Produccion)
conc <- cor(Tiempo, Produccion)
conc
## [1] 0.8081423
La gráfica muestra una clara tendencia ascendente que evidencia una correlación positiva entre el tiempo y la producción. A medida que transcurre el tiempo, la producción también aumenta, lo que se refleja en una correlación fuerte de 0.8081423 entre estas dos variables.
Aunque la mayoría de los puntos de datos se ajustan a esta tendencia, existe cierta variabilidad en los datos, lo que indica que no todos los puntos siguen exactamente la misma trayectoria ascendente. Sin embargo, no se observan valores atípicos que puedan distorsionar la interpretación general.
En resumen, la producción tiende a aumentar con el tiempo y existe una relación sólida entre estas dos variables. A pesar de la variabilidad en los datos, la tendencia general es claramente ascendente, lo que sugiere que el tiempo tiene un impacto significativo en la producción.
cor.test(Tiempo, Produccion)
##
## Pearson's product-moment correlation
##
## data: Tiempo and Produccion
## t = 4.3389, df = 10, p-value = 0.001469
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4368484 0.9441518
## sample estimates:
## cor
## 0.8081423
El coeficiente de correlación de Pearson (r) entre las variables “Tiempo (Año)” y “Producción” es 0.808, indicando una fuerte correlación positiva que sugiere una asociación favorable entre el tiempo dedicado a una actividad y la producción resultante, respaldando así la existencia de una correlación significativa entre ambas variables. El intervalo de confianza del 95%, que va desde 0.437 a 0.944, proporciona una estimación razonablemente precisa del verdadero valor de la correlación entre “Tiempo” y “Producción”.
Procedemos a hacer la prueba de normalidad Shapiro-Wilk
shapiro.test(Produccion)
##
## Shapiro-Wilk normality test
##
## data: Produccion
## W = 0.88112, p-value = 0.09059
La variable producción presenta una distribución normal, por lo tanto la correlación de pearson es la prueba adecuada para la base de datos que estamos manejando.
# Ajuste del modelo de Regresion lineal
modelo <- lm(Produccion ~ Tiempo, data = datos)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = Produccion ~ Tiempo, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -187619 -39407 -7344 70301 122077
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -67252676 15860824 -4.240 0.00172 **
## Tiempo 34145 7869 4.339 0.00147 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94100 on 10 degrees of freedom
## Multiple R-squared: 0.6531, Adjusted R-squared: 0.6184
## F-statistic: 18.83 on 1 and 10 DF, p-value: 0.001469
par(mfrow = c(2, 2))
plot(modelo)
Los gráficos de dispersión analizados muestran que los modelos de regresión lineal son satisfactorios. En el gráfico de residuos vs. valores ajustados, los puntos están dispersos aleatoriamente alrededor de cero, indicando un buen ajuste del modelo a los datos. La distribución de los residuos es aproximadamente normal según el gráfico de residuos normalizados vs. cuantiles teóricos. Además, no hay puntos con un alto apalancamiento o distancia de Cook, lo que sugiere que ningún dato ejerce una influencia desproporcionada en los modelos. En resumen, los modelos de regresión se ajustan bien a los datos sin puntos de datos influyentes.
\(H_0\): No hay correlación entre las variables Tiempo y Producción (r=0).
\(H_1\): Existe una correlación entre las variables Tiempo y Producción (r≠0).
En otras palabras:
\(H_0\): La hipótesis nula es la declaración de que no hay relación lineal entre las variables Tiempo y Producción, lo que se expresaría como r=0. En otras palabras, sugiere que el coeficiente de correlación de Pearson (r) entre estas dos variables es cero, lo que indica ausencia de correlación lineal.
\(H_1\): La hipótesis alternativa es la afirmación opuesta a la hipótesis nula. En este caso, sugiere que hay una correlación significativa entre las variables Tiempo y Producción, es decir, que el coeficiente de correlación de Pearson (r) es diferente de cero.
El resultado indica que el valor p es 0.001469, que es menor que el nivel de significancia usual de 0.05. Esto significa que hay suficiente evidencia estadística para rechazar la hipótesis nula en favor de la alternativa, sugiriendo una correlación significativa entre las variables Tiempo y Producción. El coeficiente de correlación de Pearson estimado es aproximadamente 0.808, indicando una fuerte correlación positiva entre estas variables. El intervalo de confianza del 95% para el coeficiente de correlación es (0.4368484, 0.9441518), lo que sugiere que el verdadero valor del coeficiente de correlación está muy probablemente dentro de este rango. Además, el valor p de 0.001469, siendo menor que el nivel de significancia de 0.05, proporciona evidencia significativa para rechazar la hipótesis nula de que la correlación es nula.
ggplot(data = datos, aes(x = Tiempo, y = Produccion)) +
geom_point() +
geom_smooth(method = "lm", se = TRUE, color = "firebrick") +
theme_bw() + labs(x = "Tiempo", y = "Produccion")
## `geom_smooth()` using formula = 'y ~ x'
La ecuación del modelo de regresión lineal que se ajusto a la base de datos es la siguiente:
La ecuación de una línea recta en forma de pendiente-intersección es:
\[ y(t)=34.145t-67.252.676+94.100 \]
Donde:
\(y\) es la variable dependiente (Producción de arroz).
\(t\) es la variable independiente (Tiempo en años).
\(34.145\) es la pendiente de la línea.
\(67.252.676\) es la intersección con el eje \(y\).
\(94.100\) es el error.
El coeficiente de intersección de -67.252.676 significa que si el tiempo fuera cero, se esperaría que la producción fuera de -67.252.676 unidades. Sin embargo, este valor no tiene sentido en este contexto, ya que el tiempo no puede ser cero.
El coeficiente de tiempo de 34.145 significa que se espera que la producción aumente en 34.145 unidades por cada unidad de tiempo adicional. Este coeficiente es estadísticamente significativo al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que hay una relación lineal positiva entre el tiempo y la producción.
El modelo tiene un R-cuadrado ajustado de 0,6184, lo que significa que explica el 61,84% de la variabilidad en la producción. Este es un valor R-cuadrado razonablemente alto, lo que indica que el modelo es un buen ajuste para los datos.
El modelo también tiene una prueba F estadísticamente significativa al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que el modelo es mejor que un modelo sin predictores.
El modelo de regresión lineal simple que se encontro es un buen ajuste para los datos y proporciona una forma útil de predecir la producción en función del tiempo. El modelo tiene un R-cuadrado ajustado alto y una prueba F estadísticamente significativa, lo que indica que el modelo es un buen ajuste para los datos.
Para este caso se trabajará con la misma base de datos suministrada por FEDEARROZ, pero se encontrara otra variable donde encontraremos la siguiente información:
| AÑO | PRODUCCIÓN NACIONAL (Tn) | ÁREA COSECHADA (Ha) |
|---|---|---|
| 2010 | 1.399.014 | 228.198 |
| 2011 | 1.531.170 | 255.619 |
| 2012 | 1.387.541 | 235.596 |
| 2013 | 1.471.531 | 251.676 |
| 2014 | 1.327.277 | 218.701 |
| 2015 | 1.462.775 | 233.037 |
| 2016 | 1.663.982 | 257.562 |
| 2017 | 1.739.407 | 281.581 |
| 2018 | 1.718.278 | 264.193 |
| 2019 | 1.652.766 | 248.448 |
| 2020 | 1.714.297 | 252.801 |
| 2021 | 1.725.319 | 259.902 |
Fuente. Esta tabla muestra la producción y la área cosechada para los años 2010 y 2021. FEDEARROZ
En primer lugar, se procede a elaborar un gráfico que represente la producción en función de tiempo y área cosechada, con el objetivo de visualizar y analizar el comportamiento de los datos.
Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
Area_cosechada <- c(228.198, 255.619, 235.596, 251.676, 218.701, 233.037, 257.562, 281.581, 264.193, 248.448, 252.801, 259.902)
Area_cosechada_metros_cuadrados <- c(2281980, 2556190, 2355960, 2516760, 2187010, 2330370, 2575620, 2815810, 2641930, 2484480, 2528010, 2599020)
# Crea el marco de datos
datos <- data.frame(Tiempo = Tiempo, Produccion = Produccion, Area_cosechada = Area_cosechada)
Se ajusto los valores del Área cosechada ya que se encuentran en terminos de hectareas se hizo la conversión de hectareas a metros cuadrados como se ve en lo anterior.
Gráfico 1. Diagrama de dispersión de producción en función de tiempo y área cosechada de arroz en colombia.
ggplot(datos, aes(x = Tiempo)) +
geom_point(aes(y = Produccion, color = "Produccion"), size = 1.5) +
geom_point(aes(y = Area_cosechada_metros_cuadrados , color = "Area_cosechada_metros_cuadrados "), linetype = "dashed", size = 1.5) +
labs(title = "Producción y Área Cosechada a lo largo del tiempo",
y = "Cantidad",
color = "Variable") +
scale_color_manual(values = c("Produccion" = "blue", "Area_cosechada_metros_cuadrados " = "red")) +
theme_minimal()
## Warning in geom_point(aes(y = Area_cosechada_metros_cuadrados, color =
## "Area_cosechada_metros_cuadrados "), : Ignoring unknown parameters: `linetype`
La correlación es una medida estadística que evalúa la relación entre dos o más variables. En el análisis de datos, la correlación es una herramienta fundamental para comprender cómo cambian conjuntamente las variables y si existe una relación lineal entre ellas. Una correlación positiva indica que las variables tienden a aumentar o disminuir juntas, mientras que una correlación negativa señala que una variable tiende a aumentar mientras la otra disminuye.
# Corellación
correlation_matrix <- cor(datos) # Calcular la matriz de correlación
correlation_matrix
## Tiempo Produccion Area_cosechada
## Tiempo 1.0000000 0.8081423 0.4988909
## Produccion 0.8081423 1.0000000 0.8676665
## Area_cosechada 0.4988909 0.8676665 1.0000000
La imagen muestra una matriz de correlación, que es una tabla que muestra la correlación entre cada par de variables en un conjunto de datos. La correlación es una medida de la fuerza y la dirección de la relación lineal entre dos variables. Un coeficiente de correlación de 0 indica que no hay relación entre las variables, un coeficiente de correlación de 1 indica una correlación positiva perfecta y un coeficiente de correlación de -1 indica una correlación negativa perfecta.
Tiempo y Producción tienen una correlación positiva fuerte (0.808), lo que significa que a medida que aumenta el tiempo, también lo hace la producción.
Tiempo y Área Cosechada muestran una correlación positiva más débil (0.499), lo que indica que a medida que pasa el tiempo, el área cosechada tiende a aumentar, pero no tan fuertemente como la relación entre tiempo y producción.
Producción y Área Cosechada tienen una correlación positiva fuerte (0.868), lo que significa que a medida que aumenta la producción, también lo hace el área cosechada.
En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.
pairs(datos, main = "Gráfico de Pares para las Variables")
El diagrama de dispersión muestra que existe una relación positiva entre las tres variables. Esto significa que a medida que aumenta el tiempo, también aumenta la producción y el área cosechada. La relación entre el tiempo y la producción es la más fuerte, seguida de la relación entre el tiempo y el área cosechada. La relación entre la producción y el área cosechada es la más débil.
# Ajusta el modelo de regresión lineal múltiple
modelo <- lm(Produccion ~ Tiempo + Area_cosechada, data = datos)
# Muestra un resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = Produccion ~ Tiempo + Area_cosechada, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -56595 -33097 4358 26028 61235
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.233e+07 7.900e+06 -5.358 0.000458 ***
## Tiempo 2.111e+04 3.969e+03 5.318 0.000482 ***
## Area_cosechada 5.410e+03 8.219e+02 6.583 0.000101 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 41140 on 9 degrees of freedom
## Multiple R-squared: 0.9403, Adjusted R-squared: 0.9271
## F-statistic: 70.93 on 2 and 9 DF, p-value: 3.094e-06
Valores t y p:
Intercepción: -5.358, 0.000458
Tiempo: 2.111e+04, 3.969e+03
Área cosechada: 5.318, 0.000482
Los valores t y p se utilizan para evaluar la significancia estadística de los coeficientes. Un valor t grande y un valor p pequeño indican que el coeficiente es estadísticamente significativo. En este caso, el valor t de la intercepción es grande y el valor p es pequeño, lo que sugiere que la intercepción es estadísticamente significativa. Los valores t del tiempo y el área cosechada también son grandes y los valores p son pequeños, lo que sugiere que estos coeficientes también son estadísticamente significativos.
R-cuadrado múltiple y R-cuadrado ajustado:
R-cuadrado múltiple: 0.9403
R-cuadrado ajustado: 0.9271
El R-cuadrado múltiple y el R-cuadrado ajustado proporcionan medidas de la bondad de ajuste del modelo. Un valor cercano a 1 indica que el modelo se ajusta bien a los datos. En este caso, el R-cuadrado múltiple es de 0.9403 y el R-cuadrado ajustado es de 0.9271, lo que sugiere que el modelo se ajusta razonablemente bien a los datos.
\[ H_0: β_1 = β_2 = 0 \]
\[ H_1: β_1 ≠ β_2 ≠ 0 \]
En este caso, podríamos considerar la prueba de hipótesis para cada coeficiente por separado. Si el valor p asociado a un coeficiente es menor que el nivel de significancia (generalmente 0.05), entonces rechazamos la hipótesis nula y concluimos que hay evidencia suficiente para afirmar que el coeficiente es significativamente diferente de cero.
En el resultado que has proporcionado, los valores p para ambas variables, tiempo y área cosechada, son mucho menores que 0.05 (0.000482 y 0.000101 respectivamente). Por lo tanto, podemos rechazar la hipótesis nula para ambas variables.
Por lo tanto, concluimos que tanto el tiempo como el área cosechada tienen una relación significativa con la producción, según los datos y el modelo de regresión lineal proporcionado.
# Aplicar ANOVA al modelo
resultado_anova <- anova(modelo)
print(resultado_anova)
## Analysis of Variance Table
##
## Response: Produccion
## Df Sum Sq Mean Sq F value Pr(>F)
## Tiempo 1 1.6672e+11 1.6672e+11 98.522 3.807e-06 ***
## Area_cosechada 1 7.3327e+10 7.3327e+10 43.332 0.0001013 ***
## Residuals 9 1.5230e+10 1.6922e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La variable “Tiempo” tiene un efecto significativo sobre la producción \((F(1, 0) = 98.522\), \(p < 0.001)\).
La variable “Área cosechada” también tiene un efecto significativo sobre la producción \((F(1, 0) = 43.332, p < 0.001)\).
Interpretación
Los resultados del análisis de varianza indican que existe una relación significativa entre la producción y el tiempo, así como entre la producción y el área cosechada. Esto significa que la cantidad de tiempo que se dedica a la producción y el área de tierra que se cosecha tienen un impacto importante en la cantidad de producto que se genera.
Estudio Residuales
residuales <- resid(modelo)
ajustados <- predict(modelo)
# Crear el gráfico Residuales vs. Ajustados
plot(ajustados, residuales, main = "Gráfico de Residuales vs. Ajustados",
xlab = "Valores Ajustados", ylab = "Residuales")
abline(h = 0, col = "red") # Agregar una línea horizontal en y = 0
Los residuos exhiben una distribución aparentemente aleatoria alrededor de la línea cero, sin ningún patrón discernible en su disposición. Además, la varianza de los residuos parece mantenerse constante en todos los valores ajustados, lo que sugiere una adecuada homogeneidad en los errores del modelo. No se observa agrupamiento de puntos de datos en ninguna región específica del diagrama, lo que podría indicar ausencia de problemas significativos en el modelo analizado.
En relación al diagrama proporcionado, no se evidencian señales claras que sugieran la presencia de valores atípicos o anomalías que puedan afectar la validez del modelo. Sin embargo, se recomienda siempre llevar a cabo un análisis más detallado de los datos y del modelo para confirmar esta conclusión y garantizar la robustez de los resultados obtenidos.
# Anlisis de supuestos
par(mfrow = c(2, 2))
plot(modelo)
Análisis de los gráficos de verificación de supuestos
Los gráficos de dispersión muestran que el modelo de regresión lineal es una buena aproximación para la relación entre producción, tiempo y área cosechada. Los residuos se distribuyen aleatoriamente alrededor de una línea horizontal, indicando que no hay una relación sistemática entre los residuos y los valores ajustados. El gráfico Q-Q muestra que los residuos se distribuyen normalmente. La escala de los residuos es pequeña y su ubicación es cercana a cero, lo que sugiere que no hay una tendencia sistemática en ellos. En el gráfico de residuos vs. apalancamiento, la mayoría de los puntos están cerca del centro, lo que indica que no tienen un gran impacto en el modelo. En resumen, el modelo de regresión lineal es adecuado para entender la relación entre las variables mencionadas.
ggplot(datos, aes(x = Tiempo)) +
geom_point(aes(y = Produccion), color = "blue") +
geom_point(aes(y = Area_cosechada_metros_cuadrados), color = "black") +
geom_smooth(method = "lm", se = TRUE, aes(y = Produccion), color = "firebrick") +
geom_smooth(method = "lm", se = TRUE, aes(y = Area_cosechada_metros_cuadrados), color = "darkgreen") +
theme_bw() +
labs(x = "Tiempo", y = "Valores") +
scale_y_continuous(labels = scales::comma) # Ajustar formato de los números en el eje Y
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
La ecuación del modelo de regresión lineal multiple que se ajusto a la base de datos es la siguiente:
\[Producción = 21110 * Tiempo + 5.410x10^{3} * Area-cosechada -4.233610^{7}+ ε \]
Donde
\(y\) es la variable dependiente (Producción de arroz).
\(β_0=-4.233610^{7}\)
\(β_1=-21110\)
\(β_2=-5.410x10^{3}\)
El intercepto es el valor de producción agrícola esperado cuando no se cultiva nada y no pasa tiempo, siendo 21.110 unidades. El coeficiente del tiempo (5.410) indica que por cada año adicional de cultivo se espera un aumento de 5.410 unidades en la producción, manteniendo el área constante. El coeficiente del área cosechada (6.583) indica que por cada hectárea adicional de cultivo se espera un aumento de 6.583 unidades en la producción, manteniendo constante el tiempo.
El valor de R cuadrado ajustado de 0.9271, lo que significa que explica el 92,71%. Este es un valor R-cuadrado razonablemente alto, lo que indica que el modelo es un buen ajuste para los datos lo que indica que el modelo explica una gran parte de la variación en la producción. La prueba F de 70.93 con un valor p de 3.0946e-06 indica que el modelo es estadísticamente significativo.
El modelo de regresión lineal multiple que se encontro es un buen ajuste para los datos y proporciona una forma útil de predecir la producción de un cultivo en función del tiempo y el área cosechada. El modelo tiene un R-cuadrado ajustado alto y una prueba F estadísticamente significativa, lo que indica que el modelo es un buen ajuste para los datos.
nueva_data <- data.frame(Tiempo = 2027, Area_cosechada = 260)
prediccion <- predict(modelo, newdata = nueva_data)
prediccion
## 1
## 1868693
De lo anterior se da valores al tiempo y la área cosechada para comprobar si el modelo tiene sentido y lo cual que para el año \(2027\) y para una área cosechada de \(260\) Hectareas da un total de \(1.868.693\) toneladas de producción de arroz.
En el caso, podrías definir una variable de respuesta binaria basada en algún criterio relacionado con la producción agrícola. Por ejemplo, podrías definir una variable de respuesta que indique si la producción en un determinado año fue alta o baja en relación con algún umbral.
Para simplificar, podríamos considerar que la producción es “alta” si está por encima de la media y “baja” si está por debajo de la media. Entonces, podríamos crear una variable llamada “Produccion_alta” que tome el valor de \(1\) si la producción está por encima de la media y \(0\) si está por debajo.
Por lo tanto las variables ssonn las siguientes:
#Calcular la media de la producción:
Media_produccion <- mean(Produccion)
Media_produccion
## [1] 1566113
Crear la variable de respuesta binaria:
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
Area_cosechada <- c(228.198, 255.619, 235.596, 251.676, 218.701, 233.037, 257.562, 281.581, 264.193, 248.448, 252.801, 259.902)
Produccion_alta <- c(0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1)
Donde de la Produccion_alta se elaboro de acuerdo al promedio de la producción siendo \(0\) los valores que esta debajo del promedio de la producción y \(1\) son los valores que superan el promedio de esta misma.
ggplot(data = datos, aes(x = Produccion_alta, y = Area_cosechada, color = factor(Produccion_alta))) +
geom_boxplot(outlier.shape = NA) +
geom_jitter(width = 0.1) +
theme_bw() +
theme(legend.position = "none")
Análisis del diagrama de caja y bigotes
Distribución de los datos
El diagrama de caja y bigotes muestra la distribución de los datos para dos grupos: “Produccion_alta” y “Produccion_baja”. La caja central de cada grupo representa el rango intercuartílico (IQR), que abarca el 50% central de los datos. La línea horizontal dentro de la caja representa la mediana, que es el valor que divide los datos en dos mitades. Los bigotes se extienden desde la caja hasta los valores máximos y mínimos que no se consideran atípicos.
Comparación de los grupos
La caja del grupo “Produccion_alta” se encuentra a la derecha de la caja del grupo “Produccion_baja”. Esto indica que la mediana de la variable “Area_cosechada” es mayor para el grupo “Produccion_alta” que para el grupo “Produccion_baja”.
La caja del grupo “Produccion_alta” es más pequeña que la caja del grupo “Produccion_baja”. Esto indica que los datos del grupo “Produccion_alta” están más concentrados alrededor de la mediana, mientras que los datos del grupo “Produccion_baja” están más dispersos.
Los bigotes del grupo “Produccion_alta” son más cortos que los bigotes del grupo “Produccion_baja”. Esto indica que hay menos valores atípicos en el grupo “Produccion_alta” que en el grupo “Produccion_baja”.
modelo <- glm(Produccion_alta ~ Area_cosechada, data = datos, family = "binomial")
summary(modelo)
##
## Call:
## glm(formula = Produccion_alta ~ Area_cosechada, family = "binomial",
## data = datos)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -51.5143 34.3876 -1.498 0.134
## Area_cosechada 0.2056 0.1360 1.511 0.131
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 16.6355 on 11 degrees of freedom
## Residual deviance: 8.1466 on 10 degrees of freedom
## AIC: 12.147
##
## Number of Fisher Scoring iterations: 6
La intersección del modelo es de \(-51.5143\). Esto significa que si el área cosechada fuera de \(0\), se esperaría que la producción alta fuera de \(-51.5143\). Sin embargo, como la variable dependiente es binaria, este valor no tiene un significado práctico.
El coeficiente de regresión para el área cosechada es de \(0.2056\). Esto significa que se espera que la producción alta aumente en \(0.2056\) unidades por cada unidad de aumento en el área cosechada. El error estándar del coeficiente de regresión es de \(0.1360\), lo que significa que hay una incertidumbre considerable en esta estimación. El valor \(z\) del coeficiente de regresión es de \(1.511\), y el p-valor es de \(0.131\). Esto significa que no hay evidencia estadísticamente significativa para rechazar la hipótesis nula de que el coeficiente de regresión es igual a \(0\).
Conclusión
El modelo GLM muestra que hay una relación positiva entre el área cosechada y la producción alta. Sin embargo, la evidencia estadística no es lo suficientemente fuerte como para concluir que esta relación sea significativa. Se necesitarían más datos para confirmar esta relación.
ggplot(data = datos, aes(x = Area_cosechada, y = Produccion_alta)) +
geom_point() +
geom_smooth(method = "glm", method.args = list(family = "binomial"), se = TRUE, color = "red") +
theme_bw() +
labs(x = "Área cosechada", y = "Producción alta")
## `geom_smooth()` using formula = 'y ~ x'
La ecuación del modelo de regresión binomial para este caso específico es la siguiente:
\[ \log \left( \frac{p(\text{Produccion\_alta} = 1)}{1 - p(\text{Produccion\_alta} = 1)} \right) = 0.134 + 0.2056 \times \text{Area\_cosechada} \]
Donde:
\(p(Produccion-alta = 1)\) es la probabilidad de que la variable “Produccion_alta” sea igual a 1.
Area_cosechada es el valor de la variable explicativa “Area_cosechada”.
Interpretación de la ecuación
La ecuación del modelo de regresión binomial puede interpretarse de la siguiente manera: por cada unidad de aumento en el valor de la variable “Area_cosechada”, la probabilidad de que la variable “Produccion_alta” sea igual a 1 aumenta en un 20.56%.
El modelo de regresión binomial muestra que existe una relación positiva entre la variable “Area_cosechada” y la probabilidad de que la variable “Produccion_alta” sea igual a 1. Por cada unidad de aumento en el valor de la variable “Area_cosechada”, la probabilidad de que la variable “Produccion_alta” sea igual a 1 aumenta en un 20.56 %.