Regresion lineal simple
Importar
Datos
## [1] "edad" "facebok" "instagram"
Visualizar
## # A tibble: 6 x 3
## edad facebok instagram
## <dbl> <dbl> <dbl>
## 1 17 109000000 56600000
## 2 24 474800000 274000000
## 3 34 627000000 325200000
## 4 44 332500000 153100000
## 5 54 201500000 72200000
## 6 64 119000000 30000000
Analisis de correlación
- Matriz de diagramas de dispersion
A continuación se hará una cuantificacion del grado de relacion lineal, por medio de la matriz de coeficientes de correleacion.
## edad facebok instagram
## edad 1.0000000 -0.4572431 -0.5548169
## facebok -0.4572431 1.0000000 0.9899295
## instagram -0.5548169 0.9899295 1.0000000
Con esto observamos que a el indice de relacion que tienen de usarios tanto facebook, e instagram con un indice de relacion de 98% Esto explicado con un coeficiente de correlacion de 0.9899295
Recta de minimos cuadrados
##
## Call:
## lm(formula = facebok ~ instagram, data = datos)
##
## Residuals:
## 1 2 3 4 5 6 7
## -41844921 -40686279 25636824 19797254 24489462 12770811 -163150
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.591e+07 1.875e+07 2.982 0.0307 *
## instagram 1.677e+00 1.073e-01 15.637 1.94e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 32310000 on 5 degrees of freedom
## Multiple R-squared: 0.98, Adjusted R-squared: 0.976
## F-statistic: 244.5 on 1 and 5 DF, p-value: 1.944e-05
con base a lo estimado en el analisis de regresion lineal, obtenemos la ecuacion de la recta de minimos cuadrados
\[y = 22.1979137029 + 4.55855862633x\]
Grafica de la recta de minimos cuadrados
Modelación (Cálculo) de predicciones
## 1 2 3 4 5 6 7 8
## 55910745 55910747 55910748 55910750 55910752 55910753 55910755 55910757
## 9 10 11 12 13 14 15 16
## 55910758 55910760 55910762 55910763 55910765 55910767 55910769 55910770
## 17 18 19 20 21 22 23 24
## 55910772 55910774 55910775 55910777 55910779 55910780 55910782 55910784
## 25 26 27 28 29 30 31
## 55910785 55910787 55910789 55910790 55910792 55910794 55910795
Inferencia en el modo de regresion simple
*Suponemos ahora que los datos proceden de un modelo de regresión simple, de la forma:
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n,\]
Donde: * Los errores aleatorios \(\epsilon_i\) son independientes con distribucion normal 0 y varianza \(\sigma^2\)
- Los errores tipicos de los stimadores de los parametros \(\beta_0 y \beta_1\) se encuentran en la columa std error serian de manera correspondiente: 1.875e+07 = 12.0967784284 y 1.073e-01 = 1.91671640194
Cálculo del nivel de confianza
- Intervalo de confianza para el 95% de los datos
## 2.5 % 97.5 %
## (Intercept) 7.711221e+06 1.041102e+08
## instagram 1.401548e+00 1.953019e+00
- Intervalo de confianza para el 90% de los datos
## 5 % 95 %
## (Intercept) 1.812770e+07 9.369369e+07
## instagram 1.461137e+00 1.893429e+00
Representación gráfica de los intervalos de confianza
nuevos.datos <- data.frame(instagram=seq(30,60))
#Gráfico de dispersion y recta
plot(datos$instagram, datos$facebok, xlab="Instagram", ylab= "Facebok")
abline(regresion)
# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
# La primera es la prediccion, y las otras son los extremos del intervalo
ic <- predict(regresion, nuevos.datos, interval = "confidence")
lines(nuevos.datos$instagram, ic[, 2], lty = 2)
lines(nuevos.datos$instagram, ic[, 3], lty = 2)
#Intervalos de predicción
ic <- predict(regresion, nuevos.datos, interval = "prediction")
lines(nuevos.datos$instagram, ic[, 2], lty = 2, col = "red")
lines(nuevos.datos$instagram, ic[, 3], lty = 2, col = "red")