- Establecer carpeta de trabajo
Regresión linea simple
Importar
visualizar
## # A tibble: 6 x 2
## fecha sumaAnual
## <dbl> <dbl>
## 1 2010 76048.
## 2 2011 70980.
## 3 2012 68123.
## 4 2013 68152.
## 5 2014 69096.
## 6 2015 66068.
Análisis de correlación
- Matríz de diagramas de dispersión
A continuación se hara una cuantificación del gradod e relacion lineal, por medio de la matríz de coeficientes de correlación
## fecha sumaAnual
## fecha 1.0000000 -0.9425888
## sumaAnual -0.9425888 1.0000000
Observamos que hay un -94% de relacion entre las graficas fecha y semana anual, estan 94% inrelacionadas, pero observandolas por separados, vemos una instancia de decaimiento en cada una.
Esto explicado con un coeficiente de correlación de: -0.9425888
Recta de mínimos cuadrados
#Variable independiente(x) ~ variable dependiente(y)
regresion <- lm(sumaAnual ~ fecha, data = gasNatural)
summary(regresion)##
## Call:
## lm(formula = sumaAnual ~ fecha, data = gasNatural)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4835.6 -2911.7 -825.7 2096.6 6155.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7187712.7 892626.5 8.052 4.17e-05 ***
## fecha -3537.4 443.1 -7.983 4.43e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4025 on 8 degrees of freedom
## Multiple R-squared: 0.8885, Adjusted R-squared: 0.8745
## F-statistic: 63.73 on 1 and 8 DF, p-value: 4.433e-05
Con base a lo estimado en el análisis de regresión lineal, obtenemos la ecuacion de la recta de mínimos cuadrados
\[ y = 7187712.7 - 3537.4x\]
Gráfica de la recta de mínimos cuadrados
Inferencia en el modelo de regresion simple
- Suponemos ahora que los datos proceden de un modelo de regresion simple de la forma
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \]
Donde: * Los errores aleatorios \(\epsilon_i\) son independientes con distribucion normal 0 y varianza \(\sigma^2\)
- los errores tipicos de los stimadores de los parametros $ _0 y _1$ se encuentran en columna std. Error serían de manera correspondiente 1.970e+00 y 3.146e-05
Cálculo del nivel de confianza
- Intervalo de confianza para el 95% de los datos
## 2.5 % 97.5 %
## (Intercept) 5129312.405 9246113.085
## fecha -4559.161 -2515.579
- Intervalo de confianza para el 90% de los datos
## 5 % 95 %
## (Intercept) 5527830.938 8847594.553
## fecha -4361.336 -2713.404
Representación gráfica de los intervalos de confianza
nuevas.fechas <- data.frame(fecha = seq(2010,2018))
# Gráfico de dispersion y recta
plot(gasNatural$fecha, gasNatural$sumaAnual, xlab = "Fecha", ylab = "suma Anual")
abline(regresion)
# Intervalos de confianza de la respuesta media
# ip es una matriz con tres columnas
# La primera es la predicción y las otras son los extremos del intervalo
ic <- predict(regresion, nuevas.fechas, interval = "confidence")
lines(nuevas.fechas$fecha, ic[,2], lty=2, col = "blue")
lines(nuevas.fechas$fecha, ic[,3], lty=2, col = "blue")
#Intervalos de predicción
ip <- predict(regresion, nuevas.fechas, interval = "prediction")
lines(nuevas.fechas$fecha, ip[,2], lty=2, col = "red")
lines(nuevas.fechas$fecha, ip[,3], lty=2, col = "red")Conclusion
Podemos observar que a lo largo de los años el gas natural producido a ido disminuyendo, probablemente porque las familias empiezan consumir distintos alimentos, no caseros, tal vez sea por como se dio el alimento de comida rapida en esos años talvez, no es muy seguro, pero si podemos afirmar que a la produccion del gas ha ido disminuyendo bastante desde el año 2010 hasta el 2018.