Correlación y Regresión Lineal

AÑO	PRODUCCIÓN NACIONAL (Tn)
2010	1.399.014
2011	1.531.170
2012	1.387.541
2013	1.471.531
2014	1.327.277
2015	1.462.775
2016	1.663.982
2017	1.739.407
2018	1.718.278
2019	1.652.766
2020	1.714.297
2021	1.725.319

Gráfico 1. Diagrama de dispersión del años en función de la producción de arroz en colombia.

Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)

Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
datos <- data.frame(Tiempo, Produccion)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.2

plot(Produccion ~ Tiempo, data = datos, main = "Producción en función del Tiempo", 
     xlab = "Tiempo", ylab = "Producción")

El Gráfico 1 ilustra la trayectoria de la producción anual de arroz en Colombia desde 2010 hasta 2021. Se destaca una tendencia general al alza en la producción, aunque con algunas fluctuaciones. Además, se evidencia una relación positiva entre el tiempo y la producción, sin la presencia de valores atípicos.

Calculo de la correlación.

En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.

pairs(Tiempo ~ Produccion)

conc <- cor(Tiempo, Produccion)
conc

## [1] 0.8081423

La gráfica muestra una clara tendencia ascendente que evidencia una correlación positiva entre el tiempo y la producción. A medida que transcurre el tiempo, la producción también aumenta, lo que se refleja en una correlación fuerte de 0.8081423 entre estas dos variables.

Aunque la mayoría de los puntos de datos se ajustan a esta tendencia, existe cierta variabilidad en los datos, lo que indica que no todos los puntos siguen exactamente la misma trayectoria ascendente. Sin embargo, no se observan valores atípicos que puedan distorsionar la interpretación general.

En resumen, la producción tiende a aumentar con el tiempo y existe una relación sólida entre estas dos variables. A pesar de la variabilidad en los datos, la tendencia general es claramente ascendente, lo que sugiere que el tiempo tiene un impacto significativo en la producción.

cor.test(Tiempo, Produccion)

## 
##  Pearson's product-moment correlation
## 
## data:  Tiempo and Produccion
## t = 4.3389, df = 10, p-value = 0.001469
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4368484 0.9441518
## sample estimates:
##       cor 
## 0.8081423

El coeficiente de correlación de Pearson (r) entre las variables “Tiempo (Año)” y “Producción” es 0.808, indicando una fuerte correlación positiva que sugiere una asociación favorable entre el tiempo dedicado a una actividad y la producción resultante, respaldando así la existencia de una correlación significativa entre ambas variables. El intervalo de confianza del 95%, que va desde 0.437 a 0.944, proporciona una estimación razonablemente precisa del verdadero valor de la correlación entre “Tiempo” y “Producción”.

Prueba de Shapiro-Wilk

Procedemos a hacer la prueba de normalidad Shapiro-Wilk

shapiro.test(Produccion)

## 
##  Shapiro-Wilk normality test
## 
## data:  Produccion
## W = 0.88112, p-value = 0.09059

La variable producción presenta una distribución normal, por lo tanto la correlación de pearson es la prueba adecuada para la base de datos que estamos manejando.

Análisis de Regresión Lineal

# Ajuste del modelo de Regresion lineal
modelo <- lm(Produccion ~ Tiempo, data = datos)

# Resumen del modelo
summary(modelo)

## 
## Call:
## lm(formula = Produccion ~ Tiempo, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -187619  -39407   -7344   70301  122077 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -67252676   15860824  -4.240  0.00172 **
## Tiempo          34145       7869   4.339  0.00147 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94100 on 10 degrees of freedom
## Multiple R-squared:  0.6531, Adjusted R-squared:  0.6184 
## F-statistic: 18.83 on 1 and 10 DF,  p-value: 0.001469

Verificacion de Supuestos

par(mfrow = c(2, 2))
plot(modelo)

Los gráficos de dispersión analizados muestran que los modelos de regresión lineal son satisfactorios. En el gráfico de residuos vs. valores ajustados, los puntos están dispersos aleatoriamente alrededor de cero, indicando un buen ajuste del modelo a los datos. La distribución de los residuos es aproximadamente normal según el gráfico de residuos normalizados vs. cuantiles teóricos. Además, no hay puntos con un alto apalancamiento o distancia de Cook, lo que sugiere que ningún dato ejerce una influencia desproporcionada en los modelos. En resumen, los modelos de regresión se ajustan bien a los datos sin puntos de datos influyentes.

Validación de Hipótesis

H_0: No hay correlación entre las variables Tiempo y Producción (r=0).
H_1: Existe una correlación entre las variables Tiempo y Producción (r≠0).

En otras palabras:

H_0: La hipótesis nula es la declaración de que no hay relación lineal entre las variables Tiempo y Producción, lo que se expresaría como r=0. En otras palabras, sugiere que el coeficiente de correlación de Pearson (r) entre estas dos variables es cero, lo que indica ausencia de correlación lineal.
H_1: La hipótesis alternativa es la afirmación opuesta a la hipótesis nula. En este caso, sugiere que hay una correlación significativa entre las variables Tiempo y Producción, es decir, que el coeficiente de correlación de Pearson (r) es diferente de cero.

El resultado indica que el valor p es 0.001469, que es menor que el nivel de significancia usual de 0.05. Esto significa que hay suficiente evidencia estadística para rechazar la hipótesis nula en favor de la alternativa, sugiriendo una correlación significativa entre las variables Tiempo y Producción. El coeficiente de correlación de Pearson estimado es aproximadamente 0.808, indicando una fuerte correlación positiva entre estas variables. El intervalo de confianza del 95% para el coeficiente de correlación es (0.4368484, 0.9441518), lo que sugiere que el verdadero valor del coeficiente de correlación está muy probablemente dentro de este rango. Además, el valor p de 0.001469, siendo menor que el nivel de significancia de 0.05, proporciona evidencia significativa para rechazar la hipótesis nula de que la correlación es nula.

Representación gráfica del Modelo de Regresión Lineal

ggplot(data = datos, aes(x = Tiempo, y = Produccion)) +
  geom_point() +
  geom_smooth(method = "lm", se = TRUE, color = "firebrick") +
  theme_bw() + labs(x = "Tiempo", y = "Produccion")

## `geom_smooth()` using formula = 'y ~ x'

La ecuación del modelo de regresión lineal que se ajusto a la base de datos es la siguiente:

La ecuación de una línea recta en forma de pendiente-intersección es:

\[ y(t)=34.145t-67.252.676+94.100 \]

Donde:

\(y\) es la variable dependiente (Producción de arroz).
\(t\) es la variable independiente (Tiempo en años).
\(34.145\) es la pendiente de la línea.
\(67.252.676\) es la intersección con el eje \(y\).
\(94.100\) es el error.

Interpretación de los coeficientes

El coeficiente de intersección de -67.252.676 significa que si el tiempo fuera cero, se esperaría que la producción fuera de -67.252.676 unidades. Sin embargo, este valor no tiene sentido en este contexto, ya que el tiempo no puede ser cero.

El coeficiente de tiempo de 34.145 significa que se espera que la producción aumente en 34.145 unidades por cada unidad de tiempo adicional. Este coeficiente es estadísticamente significativo al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que hay una relación lineal positiva entre el tiempo y la producción.

Evaluación del modelo

El modelo tiene un R-cuadrado ajustado de 0,6184, lo que significa que explica el 61,84% de la variabilidad en la producción. Este es un valor R-cuadrado razonablemente alto, lo que indica que el modelo es un buen ajuste para los datos.

El modelo también tiene una prueba F estadísticamente significativa al nivel del 0,01%, lo que significa que hay una fuerte evidencia para apoyar la afirmación de que el modelo es mejor que un modelo sin predictores.

Conclusión

El modelo de regresión lineal simple que se encontro es un buen ajuste para los datos y proporciona una forma útil de predecir la producción en función del tiempo. El modelo tiene un R-cuadrado ajustado alto y una prueba F estadísticamente significativa, lo que indica que el modelo es un buen ajuste para los datos.

Modelo de Regresión Lineal Multiple

Para este caso se trabajará con la misma base de datos suministrada por FEDEARROZ, pero se encontrara otra variable donde encontraremos la siguiente información:

AÑO	PRODUCCIÓN NACIONAL (Tn)	ÁREA COSECHADA (Ha)
2010	1.399.014	228.198
2011	1.531.170	255.619
2012	1.387.541	235.596
2013	1.471.531	251.676
2014	1.327.277	218.701
2015	1.462.775	233.037
2016	1.663.982	257.562
2017	1.739.407	281.581
2018	1.718.278	264.193
2019	1.652.766	248.448
2020	1.714.297	252.801
2021	1.725.319	259.902

Fuente. Esta tabla muestra la producción y la área cosechada para los años 2010 y 2021. FEDEARROZ

En primer lugar, se procede a elaborar un gráfico que represente la producción en función de tiempo y área cosechada, con el objetivo de visualizar y analizar el comportamiento de los datos.

Tiempo <- c(2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021)
Produccion <- c(1399014, 1531170, 1387541, 1471531, 1327277, 1462775, 1663982, 1739407, 1718278, 1652766, 1714297, 1725319)
Area_cosechada <- c(228.198, 255.619, 235.596, 251.676, 218.701, 233.037, 257.562, 281.581, 264.193, 248.448, 252.801, 259.902)
Area_cosechada_metros_cuadrados <- c(2281980, 2556190, 2355960, 2516760, 2187010, 2330370, 2575620, 2815810, 2641930, 2484480, 2528010, 2599020)
# Crea el marco de datos
datos <- data.frame(Tiempo = Tiempo, Produccion = Produccion, Area_cosechada = Area_cosechada)

Se ajusto los valores del Área cosechada ya que se encuentran en terminos de hectareas se hizo la conversión de hectareas a metros cuadrados como se ve en lo anterior.

Gráfico 1. Diagrama de dispersión de producción en función de tiempo y área cosechada de arroz en colombia.

ggplot(datos, aes(x = Tiempo)) +
  geom_point(aes(y = Produccion, color = "Produccion"), size = 1.5) +
  geom_point(aes(y = Area_cosechada_metros_cuadrados , color = "Area_cosechada_metros_cuadrados "), linetype = "dashed", size = 1.5) +
  labs(title = "Producción y Área Cosechada a lo largo del tiempo",
       y = "Cantidad",
       color = "Variable") +
  scale_color_manual(values = c("Produccion" = "blue", "Area_cosechada_metros_cuadrados " = "red")) +
  theme_minimal()

## Warning in geom_point(aes(y = Area_cosechada_metros_cuadrados, color =
## "Area_cosechada_metros_cuadrados "), : Ignoring unknown parameters: `linetype`

Calculo de la correlación.

La correlación es una medida estadística que evalúa la relación entre dos o más variables. En el análisis de datos, la correlación es una herramienta fundamental para comprender cómo cambian conjuntamente las variables y si existe una relación lineal entre ellas. Una correlación positiva indica que las variables tienden a aumentar o disminuir juntas, mientras que una correlación negativa señala que una variable tiende a aumentar mientras la otra disminuye.

# Corellación 
correlation_matrix <- cor(datos) # Calcular la matriz de correlación
correlation_matrix

##                   Tiempo Produccion Area_cosechada
## Tiempo         1.0000000  0.8081423      0.4988909
## Produccion     0.8081423  1.0000000      0.8676665
## Area_cosechada 0.4988909  0.8676665      1.0000000

La imagen muestra una matriz de correlación, que es una tabla que muestra la correlación entre cada par de variables en un conjunto de datos. La correlación es una medida de la fuerza y la dirección de la relación lineal entre dos variables. Un coeficiente de correlación de 0 indica que no hay relación entre las variables, un coeficiente de correlación de 1 indica una correlación positiva perfecta y un coeficiente de correlación de -1 indica una correlación negativa perfecta.

Tiempo y Producción tienen una correlación positiva fuerte (0.808), lo que significa que a medida que aumenta el tiempo, también lo hace la producción.
Tiempo y Área Cosechada muestran una correlación positiva más débil (0.499), lo que indica que a medida que pasa el tiempo, el área cosechada tiende a aumentar, pero no tan fuertemente como la relación entre tiempo y producción.
Producción y Área Cosechada tienen una correlación positiva fuerte (0.868), lo que significa que a medida que aumenta la producción, también lo hace el área cosechada.

En la gráfica 2 podemos observar un poco mas detallado el comportamiento de los datos estudiados.

pairs(datos, main = "Gráfico de Pares para las Variables")

El diagrama de dispersión muestra que existe una relación positiva entre las tres variables. Esto significa que a medida que aumenta el tiempo, también aumenta la producción y el área cosechada. La relación entre el tiempo y la producción es la más fuerte, seguida de la relación entre el tiempo y el área cosechada. La relación entre la producción y el área cosechada es la más débil.

Análisis de Regresión Lineal Multiple

# Ajusta el modelo de regresión lineal múltiple
modelo <- lm(Produccion ~ Tiempo + Area_cosechada, data = datos)

# Muestra un resumen del modelo
summary(modelo)

## 
## Call:
## lm(formula = Produccion ~ Tiempo + Area_cosechada, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -56595 -33097   4358  26028  61235 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -4.233e+07  7.900e+06  -5.358 0.000458 ***
## Tiempo          2.111e+04  3.969e+03   5.318 0.000482 ***
## Area_cosechada  5.410e+03  8.219e+02   6.583 0.000101 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 41140 on 9 degrees of freedom
## Multiple R-squared:  0.9403, Adjusted R-squared:  0.9271 
## F-statistic: 70.93 on 2 and 9 DF,  p-value: 3.094e-06

Valores t y p:

Intercepción: -5.358, 0.000458
Tiempo: 2.111e+04, 3.969e+03
Área cosechada: 5.318, 0.000482

Los valores t y p se utilizan para evaluar la significancia estadística de los coeficientes. Un valor t grande y un valor p pequeño indican que el coeficiente es estadísticamente significativo. En este caso, el valor t de la intercepción es grande y el valor p es pequeño, lo que sugiere que la intercepción es estadísticamente significativa. Los valores t del tiempo y el área cosechada también son grandes y los valores p son pequeños, lo que sugiere que estos coeficientes también son estadísticamente significativos.

R-cuadrado múltiple y R-cuadrado ajustado:

R-cuadrado múltiple: 0.9403
R-cuadrado ajustado: 0.9271

El R-cuadrado múltiple y el R-cuadrado ajustado proporcionan medidas de la bondad de ajuste del modelo. Un valor cercano a 1 indica que el modelo se ajusta bien a los datos. En este caso, el R-cuadrado múltiple es de 0.9403 y el R-cuadrado ajustado es de 0.9271, lo que sugiere que el modelo se ajusta razonablemente bien a los datos.

Validación de Hipótesis

H_0: No existe una relación lineal entre la producción y el tiempo o el área cosechada.

\[ H_0: β_1 = β_2 = 0 \]

H_1: Existe una relación lineal entre la producción y el tiempo o el área cosechada.

\[ H_1: β_1 ≠ β_2 ≠ 0 \]

En este caso, podríamos considerar la prueba de hipótesis para cada coeficiente por separado. Si el valor p asociado a un coeficiente es menor que el nivel de significancia (generalmente 0.05), entonces rechazamos la hipótesis nula y concluimos que hay evidencia suficiente para afirmar que el coeficiente es significativamente diferente de cero.

En el resultado que has proporcionado, los valores p para ambas variables, tiempo y área cosechada, son mucho menores que 0.05 (0.000482 y 0.000101 respectivamente). Por lo tanto, podemos rechazar la hipótesis nula para ambas variables.

Por lo tanto, concluimos que tanto el tiempo como el área cosechada tienen una relación significativa con la producción, según los datos y el modelo de regresión lineal proporcionado.

Verificacion de Supuestos

# Anlisis de supuestos
par(mfrow = c(2, 2))
plot(modelo)

Análisis de los gráficos de verificación de supuestos

Los gráficos de dispersión muestran que el modelo de regresión lineal es una buena aproximación para la relación entre producción, tiempo y área cosechada. Los residuos se distribuyen aleatoriamente alrededor de una línea horizontal, indicando que no hay una relación sistemática entre los residuos y los valores ajustados. El gráfico Q-Q muestra que los residuos se distribuyen normalmente. La escala de los residuos es pequeña y su ubicación es cercana a cero, lo que sugiere que no hay una tendencia sistemática en ellos. En el gráfico de residuos vs. apalancamiento, la mayoría de los puntos están cerca del centro, lo que indica que no tienen un gran impacto en el modelo. En resumen, el modelo de regresión lineal es adecuado para entender la relación entre las variables mencionadas.

Representación gráfica del Modelo de Regresión Lineal Multiple

ggplot(datos, aes(x = Tiempo)) +
  geom_point(aes(y = Produccion), color = "blue") +
  geom_point(aes(y = Area_cosechada_metros_cuadrados), color = "green") +
  geom_smooth(method = "lm", se = TRUE, aes(y = Produccion), color = "firebrick") +
  geom_smooth(method = "lm", se = TRUE, aes(y = Area_cosechada_metros_cuadrados), color = "darkgreen") +
  theme_bw() + 
  labs(x = "Tiempo", y = "Valores") +
  scale_y_continuous(labels = scales::comma)  # Ajustar formato de los números en el eje Y

## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'

La ecuación del modelo de regresión lineal multiple que se ajusto a la base de datos es la siguiente:

\[Producción = 21110 * Tiempo + 5.410x10^{3} * Area-cosechada -4.233610^{7}+ ε \]

Donde

Correlación y Regresión Lineal

John Alexander Gonzalez Galindo

2024-04-06

Introducción

Tabla de Producción Nacional de Arroz en Colombia (2010-2021).

Calculo de la correlación.

Prueba de Shapiro-Wilk

Análisis de Regresión Lineal

Verificacion de Supuestos

Validación de Hipótesis

Representación gráfica del Modelo de Regresión Lineal

Interpretación de los coeficientes

Evaluación del modelo

Conclusión

Modelo de Regresión Lineal Multiple

Calculo de la correlación.

Análisis de Regresión Lineal Multiple

Validación de Hipótesis

Verificacion de Supuestos

Representación gráfica del Modelo de Regresión Lineal Multiple