Modelos de Regresión

AÑO	PRODUCCIÓN NACIONAL (Tn)
2010	1.399.014
2011	1.531.170
2012	1.387.541
2013	1.471.531
2014	1.327.277
2015	1.462.775
2016	1.663.982
2017	1.739.407
2018	1.718.278
2019	1.652.766
2020	1.714.297
2021	1.725.319

Gráfico 1. Diagrama de dispersión del años en función de la producción de arroz en colombia.

Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)

Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
datos <- data.frame(Tiempo, Produccion)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.2

plot(Produccion ~ Tiempo, data = datos, main = "Producción en función del Tiempo", 
     xlab = "Tiempo", ylab = "Producción")

El Gráfico 1 ilustra la trayectoria de la producción anual de arroz en Colombia desde 2010 hasta 2021. Se destaca una tendencia general al alza en la producción, aunque con algunas fluctuaciones. Además, se evidencia una relación positiva entre el tiempo y la producción, sin la presencia de valores atípicos.

Calculo de la correlación.

En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.

pairs(Tiempo ~ Produccion)

conc <- cor(Tiempo, Produccion)
conc

## [1] 0.8081423

La gráfica muestra una clara tendencia ascendente que evidencia una correlación positiva entre el tiempo y la producción. A medida que transcurre el tiempo, la producción también aumenta, lo que se refleja en una correlación fuerte de 0.8081423 entre estas dos variables.

Aunque la mayoría de los puntos de datos se ajustan a esta tendencia, existe cierta variabilidad en los datos, lo que indica que no todos los puntos siguen exactamente la misma trayectoria ascendente. Sin embargo, no se observan valores atípicos que puedan distorsionar la interpretación general.

En resumen, la producción tiende a aumentar con el tiempo y existe una relación sólida entre estas dos variables. A pesar de la variabilidad en los datos, la tendencia general es claramente ascendente, lo que sugiere que el tiempo tiene un impacto significativo en la producción.

cor.test(Tiempo, Produccion)

## 
##  Pearson's product-moment correlation
## 
## data:  Tiempo and Produccion
## t = 4.3389, df = 10, p-value = 0.001469
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4368484 0.9441518
## sample estimates:
##       cor 
## 0.8081423

El coeficiente de correlación de Pearson (r) entre las variables “Tiempo (Año)” y “Producción” es 0.808, indicando una fuerte correlación positiva que sugiere una asociación favorable entre el tiempo dedicado a una actividad y la producción resultante, respaldando así la existencia de una correlación significativa entre ambas variables. El intervalo de confianza del 95%, que va desde 0.437 a 0.944, proporciona una estimación razonablemente precisa del verdadero valor de la correlación entre “Tiempo” y “Producción”.

Prueba de Shapiro-Wilk

Procedemos a hacer la prueba de normalidad Shapiro-Wilk

shapiro.test(Produccion)

## 
##  Shapiro-Wilk normality test
## 
## data:  Produccion
## W = 0.88112, p-value = 0.09059

La variable producción presenta una distribución normal, por lo tanto la correlación de pearson es la prueba adecuada para la base de datos que estamos manejando.

Análisis de Regresión Lineal

# Ajuste del modelo de Regresion lineal
modelo <- lm(Produccion ~ Tiempo, data = datos)

# Resumen del modelo
summary(modelo)

## 
## Call:
## lm(formula = Produccion ~ Tiempo, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -187619  -39407   -7344   70301  122077 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -67252676   15860824  -4.240  0.00172 **
## Tiempo          34145       7869   4.339  0.00147 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94100 on 10 degrees of freedom
## Multiple R-squared:  0.6531, Adjusted R-squared:  0.6184 
## F-statistic: 18.83 on 1 and 10 DF,  p-value: 0.001469

Verificacion de Supuestos

par(mfrow = c(2, 2))
plot(modelo)

Los gráficos de dispersión analizados muestran que los modelos de regresión lineal son satisfactorios. En el gráfico de residuos vs. valores ajustados, los puntos están dispersos aleatoriamente alrededor de cero, indicando un buen ajuste del modelo a los datos. La distribución de los residuos es aproximadamente normal según el gráfico de residuos normalizados vs. cuantiles teóricos. Además, no hay puntos con un alto apalancamiento o distancia de Cook, lo que sugiere que ningún dato ejerce una influencia desproporcionada en los modelos. En resumen, los modelos de regresión se ajustan bien a los datos sin puntos de datos influyentes.

Validación de Hipótesis

\(H_0\): No hay correlación entre las variables Tiempo y Producción (r=0).
\(H_1\): Existe una correlación entre las variables Tiempo y Producción (r≠0).

En otras palabras:

\(H_0\): La hipótesis nula es la declaración de que no hay relación lineal entre las variables Tiempo y Producción, lo que se expresaría como r=0. En otras palabras, sugiere que el coeficiente de correlación de Pearson (r) entre estas dos variables es cero, lo que indica ausencia de correlación lineal.
\(H_1\): La hipótesis alternativa es la afirmación opuesta a la hipótesis nula. En este caso, sugiere que hay una correlación significativa entre las variables Tiempo y Producción, es decir, que el coeficiente de correlación de Pearson (r) es diferente de cero.

El resultado indica que el valor p es 0.001469, que es menor que el nivel de significancia usual de 0.05. Esto significa que hay suficiente evidencia estadística para rechazar la hipótesis nula en favor de la alternativa, sugiriendo una correlación significativa entre las variables Tiempo y Producción. El coeficiente de correlación de Pearson estimado es aproximadamente 0.808, indicando una fuerte correlación positiva entre estas variables. El intervalo de confianza del 95% para el coeficiente de correlación es (0.4368484, 0.9441518), lo que sugiere que el verdadero valor del coeficiente de correlación está muy probablemente dentro de este rango. Además, el valor p de 0.001469, siendo menor que el nivel de significancia de 0.05, proporciona evidencia significativa para rechazar la hipótesis nula de que la correlación es nula.

Representación gráfica del Modelo de Regresión Lineal

ggplot(data = datos, aes(x = Tiempo, y = Produccion)) +
  geom_point() +
  geom_smooth(method = "lm", se = TRUE, color = "firebrick") +
  theme_bw() + labs(x = "Tiempo", y = "Produccion")

## `geom_smooth()` using formula = 'y ~ x'

La ecuación del modelo de regresión lineal que se ajusto a la base de datos es la siguiente:

La ecuación de una línea recta en forma de pendiente-intersección es:

\[ y(t)=34.145t-67.252.676+94.100 \]

Donde:

\(y\) es la variable dependiente (Producción de arroz).
\(t\) es la variable independiente (Tiempo en años).
\(34.145\) es la pendiente de la línea.
\(67.252.676\) es la intersección con el eje \(y\).
\(94.100\) es el error.

Interpretación de los coeficientes

El coeficiente de intersección de -67.252.676 significa que si el tiempo fuera cero, se esperaría que la producción fuera de -67.252.676 unidades. Sin embargo, este valor no tiene sentido en este contexto, ya que el tiempo no puede ser cero.

El coeficiente de tiempo de 34.145 significa que se espera que la producción aumente en 34.145 unidades por cada unidad de tiempo adicional. Este coeficiente es estadísticamente significativo al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que hay una relación lineal positiva entre el tiempo y la producción.

Evaluación del modelo

El modelo tiene un R-cuadrado ajustado de 0,6184, lo que significa que explica el 61,84% de la variabilidad en la producción. Este es un valor R-cuadrado razonablemente alto, lo que indica que el modelo es un buen ajuste para los datos.

El modelo también tiene una prueba F estadísticamente significativa al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que el modelo es mejor que un modelo sin predictores.

Conclusión

El modelo de regresión lineal simple que se encontro es un buen ajuste para los datos y proporciona una forma útil de predecir la producción en función del tiempo. El modelo tiene un R-cuadrado ajustado alto y una prueba F estadísticamente significativa, lo que indica que el modelo es un buen ajuste para los datos.

Modelo de Regresión Lineal Multiple

Para este caso se trabajará con la misma base de datos suministrada por FEDEARROZ, pero se encontrara otra variable donde encontraremos la siguiente información:

AÑO	PRODUCCIÓN NACIONAL (Tn)	ÁREA COSECHADA (Ha)
2010	1.399.014	228.198
2011	1.531.170	255.619
2012	1.387.541	235.596
2013	1.471.531	251.676
2014	1.327.277	218.701
2015	1.462.775	233.037
2016	1.663.982	257.562
2017	1.739.407	281.581
2018	1.718.278	264.193
2019	1.652.766	248.448
2020	1.714.297	252.801
2021	1.725.319	259.902

Fuente. Esta tabla muestra la producción y la área cosechada para los años 2010 y 2021. FEDEARROZ

En primer lugar, se procede a elaborar un gráfico que represente la producción en función de tiempo y área cosechada, con el objetivo de visualizar y analizar el comportamiento de los datos.

Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
Area_cosechada <- c(228.198, 255.619, 235.596, 251.676, 218.701, 233.037, 257.562, 281.581, 264.193, 248.448, 252.801, 259.902)
Area_cosechada_metros_cuadrados <- c(2281980, 2556190, 2355960, 2516760, 2187010, 2330370, 2575620, 2815810, 2641930, 2484480, 2528010, 2599020)
# Crea el marco de datos
datos <- data.frame(Tiempo = Tiempo, Produccion = Produccion, Area_cosechada = Area_cosechada)

Se ajusto los valores del Área cosechada ya que se encuentran en terminos de hectareas se hizo la conversión de hectareas a metros cuadrados como se ve en lo anterior.

Gráfico 1. Diagrama de dispersión de producción en función de tiempo y área cosechada de arroz en colombia.

ggplot(datos, aes(x = Tiempo)) +
  geom_point(aes(y = Produccion, color = "Produccion"), size = 1.5) +
  geom_point(aes(y = Area_cosechada_metros_cuadrados , color = "Area_cosechada_metros_cuadrados "), linetype = "dashed", size = 1.5) +
  labs(title = "Producción y Área Cosechada a lo largo del tiempo",
       y = "Cantidad",
       color = "Variable") +
  scale_color_manual(values = c("Produccion" = "blue", "Area_cosechada_metros_cuadrados " = "red")) +
  theme_minimal()

## Warning in geom_point(aes(y = Area_cosechada_metros_cuadrados, color =
## "Area_cosechada_metros_cuadrados "), : Ignoring unknown parameters: `linetype`

Calculo de la correlación.

La correlación es una medida estadística que evalúa la relación entre dos o más variables. En el análisis de datos, la correlación es una herramienta fundamental para comprender cómo cambian conjuntamente las variables y si existe una relación lineal entre ellas. Una correlación positiva indica que las variables tienden a aumentar o disminuir juntas, mientras que una correlación negativa señala que una variable tiende a aumentar mientras la otra disminuye.

# Corellación 
correlation_matrix <- cor(datos) # Calcular la matriz de correlación
correlation_matrix

##                   Tiempo Produccion Area_cosechada
## Tiempo         1.0000000  0.8081423      0.4988909
## Produccion     0.8081423  1.0000000      0.8676665
## Area_cosechada 0.4988909  0.8676665      1.0000000

La imagen muestra una matriz de correlación, que es una tabla que muestra la correlación entre cada par de variables en un conjunto de datos. La correlación es una medida de la fuerza y la dirección de la relación lineal entre dos variables. Un coeficiente de correlación de 0 indica que no hay relación entre las variables, un coeficiente de correlación de 1 indica una correlación positiva perfecta y un coeficiente de correlación de -1 indica una correlación negativa perfecta.

Tiempo y Producción tienen una correlación positiva fuerte (0.808), lo que significa que a medida que aumenta el tiempo, también lo hace la producción.
Tiempo y Área Cosechada muestran una correlación positiva más débil (0.499), lo que indica que a medida que pasa el tiempo, el área cosechada tiende a aumentar, pero no tan fuertemente como la relación entre tiempo y producción.
Producción y Área Cosechada tienen una correlación positiva fuerte (0.868), lo que significa que a medida que aumenta la producción, también lo hace el área cosechada.

En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.

pairs(datos, main = "Gráfico de Pares para las Variables")

El diagrama de dispersión muestra que existe una relación positiva entre las tres variables. Esto significa que a medida que aumenta el tiempo, también aumenta la producción y el área cosechada. La relación entre el tiempo y la producción es la más fuerte, seguida de la relación entre el tiempo y el área cosechada. La relación entre la producción y el área cosechada es la más débil.

Análisis de Regresión Lineal Multiple

# Ajusta el modelo de regresión lineal múltiple
modelo <- lm(Produccion ~ Tiempo + Area_cosechada, data = datos)

# Muestra un resumen del modelo
summary(modelo)

## 
## Call:
## lm(formula = Produccion ~ Tiempo + Area_cosechada, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -56595 -33097   4358  26028  61235 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -4.233e+07  7.900e+06  -5.358 0.000458 ***
## Tiempo          2.111e+04  3.969e+03   5.318 0.000482 ***
## Area_cosechada  5.410e+03  8.219e+02   6.583 0.000101 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 41140 on 9 degrees of freedom
## Multiple R-squared:  0.9403, Adjusted R-squared:  0.9271 
## F-statistic: 70.93 on 2 and 9 DF,  p-value: 3.094e-06

Valores t y p:

Intercepción: -5.358, 0.000458
Tiempo: 2.111e+04, 3.969e+03
Área cosechada: 5.318, 0.000482

Los valores t y p se utilizan para evaluar la significancia estadística de los coeficientes. Un valor t grande y un valor p pequeño indican que el coeficiente es estadísticamente significativo. En este caso, el valor t de la intercepción es grande y el valor p es pequeño, lo que sugiere que la intercepción es estadísticamente significativa. Los valores t del tiempo y el área cosechada también son grandes y los valores p son pequeños, lo que sugiere que estos coeficientes también son estadísticamente significativos.

R-cuadrado múltiple y R-cuadrado ajustado:

R-cuadrado múltiple: 0.9403
R-cuadrado ajustado: 0.9271

El R-cuadrado múltiple y el R-cuadrado ajustado proporcionan medidas de la bondad de ajuste del modelo. Un valor cercano a 1 indica que el modelo se ajusta bien a los datos. En este caso, el R-cuadrado múltiple es de 0.9403 y el R-cuadrado ajustado es de 0.9271, lo que sugiere que el modelo se ajusta razonablemente bien a los datos.

Validación de Hipótesis

\(H_0\): No existe una relación lineal entre la producción y el tiempo o el área cosechada.

\[ H_0: β_1 = β_2 = 0 \]

\(H_1\): Existe una relación lineal entre la producción y el tiempo o el área cosechada.

\[ H_1: β_1 ≠ β_2 ≠ 0 \]

En este caso, podríamos considerar la prueba de hipótesis para cada coeficiente por separado. Si el valor p asociado a un coeficiente es menor que el nivel de significancia (generalmente 0.05), entonces rechazamos la hipótesis nula y concluimos que hay evidencia suficiente para afirmar que el coeficiente es significativamente diferente de cero.

En el resultado que has proporcionado, los valores p para ambas variables, tiempo y área cosechada, son mucho menores que 0.05 (0.000482 y 0.000101 respectivamente). Por lo tanto, podemos rechazar la hipótesis nula para ambas variables.

Por lo tanto, concluimos que tanto el tiempo como el área cosechada tienen una relación significativa con la producción, según los datos y el modelo de regresión lineal proporcionado.

ANOVA (Análisis de Varianza)

# Aplicar ANOVA al modelo
resultado_anova <- anova(modelo)
print(resultado_anova)

## Analysis of Variance Table
## 
## Response: Produccion
##                Df     Sum Sq    Mean Sq F value    Pr(>F)    
## Tiempo          1 1.6672e+11 1.6672e+11  98.522 3.807e-06 ***
## Area_cosechada  1 7.3327e+10 7.3327e+10  43.332 0.0001013 ***
## Residuals       9 1.5230e+10 1.6922e+09                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La variable “Tiempo” tiene un efecto significativo sobre la producción \((F(1, 0) = 98.522\), \(p < 0.001)\).
La variable “Área cosechada” también tiene un efecto significativo sobre la producción \((F(1, 0) = 43.332, p < 0.001)\).

Interpretación

Los resultados del análisis de varianza indican que existe una relación significativa entre la producción y el tiempo, así como entre la producción y el área cosechada. Esto significa que la cantidad de tiempo que se dedica a la producción y el área de tierra que se cosecha tienen un impacto importante en la cantidad de producto que se genera.

Estudio Residuales

residuales <- resid(modelo)

ajustados <- predict(modelo)

# Crear el gráfico Residuales vs. Ajustados
plot(ajustados, residuales, main = "Gráfico de Residuales vs. Ajustados",
     xlab = "Valores Ajustados", ylab = "Residuales")
abline(h = 0, col = "red")  # Agregar una línea horizontal en y = 0

Los residuos exhiben una distribución aparentemente aleatoria alrededor de la línea cero, sin ningún patrón discernible en su disposición. Además, la varianza de los residuos parece mantenerse constante en todos los valores ajustados, lo que sugiere una adecuada homogeneidad en los errores del modelo. No se observa agrupamiento de puntos de datos en ninguna región específica del diagrama, lo que podría indicar ausencia de problemas significativos en el modelo analizado.

En relación al diagrama proporcionado, no se evidencian señales claras que sugieran la presencia de valores atípicos o anomalías que puedan afectar la validez del modelo. Sin embargo, se recomienda siempre llevar a cabo un análisis más detallado de los datos y del modelo para confirmar esta conclusión y garantizar la robustez de los resultados obtenidos.

Verificacion de Supuestos

# Anlisis de supuestos
par(mfrow = c(2, 2))
plot(modelo)

Análisis de los gráficos de verificación de supuestos

Los gráficos de dispersión muestran que el modelo de regresión lineal es una buena aproximación para la relación entre producción, tiempo y área cosechada. Los residuos se distribuyen aleatoriamente alrededor de una línea horizontal, indicando que no hay una relación sistemática entre los residuos y los valores ajustados. El gráfico Q-Q muestra que los residuos se distribuyen normalmente. La escala de los residuos es pequeña y su ubicación es cercana a cero, lo que sugiere que no hay una tendencia sistemática en ellos. En el gráfico de residuos vs. apalancamiento, la mayoría de los puntos están cerca del centro, lo que indica que no tienen un gran impacto en el modelo. En resumen, el modelo de regresión lineal es adecuado para entender la relación entre las variables mencionadas.

Representación gráfica del Modelo de Regresión Lineal Multiple

ggplot(datos, aes(x = Tiempo)) +
  geom_point(aes(y = Produccion), color = "blue") +
  geom_point(aes(y = Area_cosechada_metros_cuadrados), color = "black") +
  geom_smooth(method = "lm", se = TRUE, aes(y = Produccion), color = "firebrick") +
  geom_smooth(method = "lm", se = TRUE, aes(y = Area_cosechada_metros_cuadrados), color = "darkgreen") +
  theme_bw() + 
  labs(x = "Tiempo", y = "Valores") +
  scale_y_continuous(labels = scales::comma)  # Ajustar formato de los números en el eje Y

## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'

La ecuación del modelo de regresión lineal multiple que se ajusto a la base de datos es la siguiente:

\[Producción = 21110 * Tiempo + 5.410x10^{3} * Area-cosechada -4.233610^{7}+ ε \]

Donde

\(y\) es la variable dependiente (Producción de arroz).
\(β_0=-4.233610^{7}\)
\(β_1=-21110\)
\(β_2=-5.410x10^{3}\)

Interpretación de los coeficientes del modelo de regresión lineal múltiple

El intercepto es el valor de producción agrícola esperado cuando no se cultiva nada y no pasa tiempo, siendo 21.110 unidades. El coeficiente del tiempo (5.410) indica que por cada año adicional de cultivo se espera un aumento de 5.410 unidades en la producción, manteniendo el área constante. El coeficiente del área cosechada (6.583) indica que por cada hectárea adicional de cultivo se espera un aumento de 6.583 unidades en la producción, manteniendo constante el tiempo.

Evaluación del modelo

El valor de R cuadrado ajustado de 0.9271, lo que significa que explica el 92,71%. Este es un valor R-cuadrado razonablemente alto, lo que indica que el modelo es un buen ajuste para los datos lo que indica que el modelo explica una gran parte de la variación en la producción. La prueba F de 70.93 con un valor p de 3.0946e-06 indica que el modelo es estadísticamente significativo.

Conclusión

El modelo de regresión lineal multiple que se encontro es un buen ajuste para los datos y proporciona una forma útil de predecir la producción de un cultivo en función del tiempo y el área cosechada. El modelo tiene un R-cuadrado ajustado alto y una prueba F estadísticamente significativa, lo que indica que el modelo es un buen ajuste para los datos.

Predicción del modelo

nueva_data <- data.frame(Tiempo = 2027, Area_cosechada = 260)
prediccion <- predict(modelo, newdata = nueva_data)
prediccion

##       1 
## 1868693

De lo anterior se da valores al tiempo y la área cosechada para comprobar si el modelo tiene sentido y lo cual que para el año \(2027\) y para una área cosechada de \(260\) Hectareas da un total de \(1.868.693\) toneladas de producción de arroz.

Regresión logística simple

En el caso, podrías definir una variable de respuesta binaria basada en algún criterio relacionado con la producción agrícola. Por ejemplo, podrías definir una variable de respuesta que indique si la producción en un determinado año fue alta o baja en relación con algún umbral.

Para simplificar, podríamos considerar que la producción es “alta” si está por encima de la media y “baja” si está por debajo de la media. Entonces, podríamos crear una variable llamada “Produccion_alta” que tome el valor de \(1\) si la producción está por encima de la media y \(0\) si está por debajo.

Por lo tanto las variables ssonn las siguientes:

#Calcular la media de la producción:

Media_produccion <- mean(Produccion)
Media_produccion

## [1] 1566113

Crear la variable de respuesta binaria:

Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
Area_cosechada <- c(228.198, 255.619, 235.596, 251.676, 218.701, 233.037, 257.562, 281.581, 264.193, 248.448, 252.801, 259.902)

Produccion_alta <- c(0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1)

Donde de la Produccion_alta se elaboro de acuerdo al promedio de la producción siendo \(0\) los valores que esta debajo del promedio de la producción y \(1\) son los valores que superan el promedio de esta misma.

Representación de las observaciones

ggplot(data = datos, aes(x = Produccion_alta, y = Area_cosechada, color = factor(Produccion_alta))) +
  geom_boxplot(outlier.shape = NA) +
  geom_jitter(width = 0.1) +
  theme_bw() +
  theme(legend.position = "none")

Análisis del diagrama de caja y bigotes

Distribución de los datos

El diagrama de caja y bigotes muestra la distribución de los datos para dos grupos: “Produccion_alta” y “Produccion_baja”. La caja central de cada grupo representa el rango intercuartílico (IQR), que abarca el 50% central de los datos. La línea horizontal dentro de la caja representa la mediana, que es el valor que divide los datos en dos mitades. Los bigotes se extienden desde la caja hasta los valores máximos y mínimos que no se consideran atípicos.

Comparación de los grupos

Posición de las cajas

La caja del grupo “Produccion_alta” se encuentra a la derecha de la caja del grupo “Produccion_baja”. Esto indica que la mediana de la variable “Area_cosechada” es mayor para el grupo “Produccion_alta” que para el grupo “Produccion_baja”.

Tamaño de las cajas

La caja del grupo “Produccion_alta” es más pequeña que la caja del grupo “Produccion_baja”. Esto indica que los datos del grupo “Produccion_alta” están más concentrados alrededor de la mediana, mientras que los datos del grupo “Produccion_baja” están más dispersos.

Longitud de los bigotes

Los bigotes del grupo “Produccion_alta” son más cortos que los bigotes del grupo “Produccion_baja”. Esto indica que hay menos valores atípicos en el grupo “Produccion_alta” que en el grupo “Produccion_baja”.

Generar el modelo de regresión logística

modelo <- glm(Produccion_alta ~ Area_cosechada, data = datos, family = "binomial")
summary(modelo)

## 
## Call:
## glm(formula = Produccion_alta ~ Area_cosechada, family = "binomial", 
##     data = datos)
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)
## (Intercept)    -51.5143    34.3876  -1.498    0.134
## Area_cosechada   0.2056     0.1360   1.511    0.131
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 16.6355  on 11  degrees of freedom
## Residual deviance:  8.1466  on 10  degrees of freedom
## AIC: 12.147
## 
## Number of Fisher Scoring iterations: 6

La intersección del modelo es de \(-51.5143\). Esto significa que si el área cosechada fuera de \(0\), se esperaría que la producción alta fuera de \(-51.5143\). Sin embargo, como la variable dependiente es binaria, este valor no tiene un significado práctico.

El coeficiente de regresión para el área cosechada es de \(0.2056\). Esto significa que se espera que la producción alta aumente en \(0.2056\) unidades por cada unidad de aumento en el área cosechada. El error estándar del coeficiente de regresión es de \(0.1360\), lo que significa que hay una incertidumbre considerable en esta estimación. El valor \(z\) del coeficiente de regresión es de \(1.511\), y el p-valor es de \(0.131\). Esto significa que no hay evidencia estadísticamente significativa para rechazar la hipótesis nula de que el coeficiente de regresión es igual a \(0\).

Conclusión

El modelo GLM muestra que hay una relación positiva entre el área cosechada y la producción alta. Sin embargo, la evidencia estadística no es lo suficientemente fuerte como para concluir que esta relación sea significativa. Se necesitarían más datos para confirmar esta relación.

Representación gráfica del Modelo de Regresión Lineal Multiple

ggplot(data = datos, aes(x = Area_cosechada, y = Produccion_alta)) +
  geom_point() +
  geom_smooth(method = "glm", method.args = list(family = "binomial"), se = TRUE, color = "red") +
  theme_bw() +
  labs(x = "Área cosechada", y = "Producción alta")

## `geom_smooth()` using formula = 'y ~ x'

Ecuación del modelo

La ecuación del modelo de regresión binomial para este caso específico es la siguiente:

\[ \log \left( \frac{p(\text{Produccion\_alta} = 1)}{1 - p(\text{Produccion\_alta} = 1)} \right) = 0.134 + 0.2056 \times \text{Area\_cosechada} \]

Donde:

\(p(Produccion-alta = 1)\) es la probabilidad de que la variable “Produccion_alta” sea igual a 1.
Area_cosechada es el valor de la variable explicativa “Area_cosechada”.

Interpretación de la ecuación

La ecuación del modelo de regresión binomial puede interpretarse de la siguiente manera: por cada unidad de aumento en el valor de la variable “Area_cosechada”, la probabilidad de que la variable “Produccion_alta” sea igual a 1 aumenta en un 20.56%.

El modelo de regresión binomial muestra que existe una relación positiva entre la variable “Area_cosechada” y la probabilidad de que la variable “Produccion_alta” sea igual a 1. Por cada unidad de aumento en el valor de la variable “Area_cosechada”, la probabilidad de que la variable “Produccion_alta” sea igual a 1 aumenta en un 20.56 %.

Modelos de Regresión

John Alexander González Galindo

2024-23-06

Introducción

Tabla de Producción Nacional de Arroz en Colombia (2010-2021).

Calculo de la correlación.

Prueba de Shapiro-Wilk

Análisis de Regresión Lineal

Verificacion de Supuestos

Validación de Hipótesis

Representación gráfica del Modelo de Regresión Lineal

Interpretación de los coeficientes

Evaluación del modelo

Conclusión

Modelo de Regresión Lineal Multiple

Calculo de la correlación.

Análisis de Regresión Lineal Multiple

Validación de Hipótesis

ANOVA (Análisis de Varianza)

Verificacion de Supuestos

Representación gráfica del Modelo de Regresión Lineal Multiple

Interpretación de los coeficientes del modelo de regresión lineal múltiple

Evaluación del modelo

Conclusión

Predicción del modelo

Regresión logística simple

Representación de las observaciones

Generar el modelo de regresión logística

Representación gráfica del Modelo de Regresión Lineal Multiple

Ecuación del modelo

Referencias