Importar librerias
Buscar ruta del archivo
## [1] "C:\\Users\\Andrea\\Documents\\PROBABILIDAD\\U1A9.Rmd"
##Cargar excel de las busquedas entre los dos terminos: COVID y Clases
##Cargar datos: COVID y Clases
## [1] "COVID" "Clases"
Datos de la tabla
## # A tibble: 6 x 2
## COVID Clases
## <dbl> <dbl>
## 1 0 7
## 2 0 6
## 3 0 5
## 4 0 6
## 5 0 6
## 6 0 5
Análisis de correlación
- Matriz de diagramas de dispersión
A continuación se hará una cuantificación del grado de relación lineal, por medio de la matriz de coeficientes de correlación.
## COVID Clases
## COVID 1.0000000 0.3861665
## Clases 0.3861665 1.0000000
Recta de mínimos cuadrados
##
## Call:
## lm(formula = COVID ~ Clases, data = casos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -65.909 -33.852 -2.972 38.192 59.734
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.610 8.510 2.775 0.00775 **
## Clases 1.951 0.659 2.960 0.00469 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 38.37 on 50 degrees of freedom
## Multiple R-squared: 0.1491, Adjusted R-squared: 0.1321
## F-statistic: 8.763 on 1 and 50 DF, p-value: 0.00469
Con base a lo estimado en el análisis de regresión lineal, obtenemos la ecuación de la recta de mínimos cuadrados
\[y = 23.610 + 1.951x \]
Gráfica de la recta de mínimos cuadrados
Modelación (cálculo) de predicciones
## 1 2 3 4 5 6 7 8
## 62.62808 64.57897 66.52986 68.48076 70.43165 72.38254 74.33343 76.28432
## 9 10 11 12 13 14 15 16
## 78.23522 80.18611 82.13700 84.08789 86.03878 87.98967 89.94057 91.89146
## 17 18 19 20 21 22 23 24
## 93.84235 95.79324 97.74413 99.69503 101.64592 103.59681 105.54770 107.49859
## 25 26 27 28 29 30 31 32
## 109.44948 111.40038 113.35127 115.30216 117.25305 119.20394 121.15484 123.10573
## 33 34 35 36 37 38 39 40
## 125.05662 127.00751 128.95840 130.90930 132.86019 134.81108 136.76197 138.71286
## 41
## 140.66375
Inferencia en el modelo de regresión simple
*Suponemos ahora que los datos proceden de un modelo de regresión simple, de la forma:
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] Donde:
Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal 0 y varianza \(\sigma^2\)
Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 29.6376 y 0.7243
Cálculo del nivel de confianza
- Intervalo de confianza para el 95% de los datos
## 2.5 % 97.5 %
## (Intercept) 6.5179989 40.702489
## Clases 0.6271868 3.274597
- Intervalo de confianza para el 90% de los datos
## 5 % 95 %
## (Intercept) 9.3487869 37.871701
## Clases 0.8464165 3.055367
Representación gráfica de los intervalos de confianza
nuevas.Clases <- data.frame(Clases=seq(20,60))
#Gráfico de dispersión y recta
plot (casos$Clases, casos$COVID, xlab="Clases",ylab="COVID")
abline(regresion)
# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo
ic <- predict(regresion,nuevas.Clases, interval = "confidence")
lines(nuevas.Clases$Clases, ic[, 2], lty=2)
lines(nuevas.Clases$Clases, ic[, 3], lty=2)
#Intervalos de predicción
ic <- predict(regresion,nuevas.Clases, interval = "prediction")
lines(nuevas.Clases$Clases, ic[, 2], lty=2, col = "purple")
lines(nuevas.Clases$Clases, ic[, 3], lty=2, col = "blue")Como resultado de la evaluacion previa, se puede ver la relacion de los dos terminos de busqueda, nos damos cuenta que la busqueda de Clases y COVID, para mi sorpresa, no cuentan con tantas busquedas en comun como lo creia, pero durante meses de reinscripcion hubo un pequeño aumento, ya que como vemos COVID afecto clases presenciales en Mexico.