U1A9

setwd("~/PROBABILIDAD")

Importar librerias

library(pacman)
p_load("readxl","DT","prettydoc")

Buscar ruta del archivo

file.choose()

## [1] "C:\\Users\\Andrea\\Documents\\PROBABILIDAD\\U1A9.Rmd"

##Cargar excel de las busquedas entre los dos terminos: COVID y Clases

caso <-"C:\\Users\\Andrea\\Documents\\PROBABILIDAD\\CClases.xlsx"

##Cargar datos: COVID y Clases

casos <- read_excel(caso)

names(casos)

## [1] "COVID"  "Clases"

Visualizar: COVID y Clases

*Tabla

datatable(casos)

Datos de la tabla

head(casos)

## # A tibble: 6 x 2
##   COVID Clases
##   <dbl>  <dbl>
## 1     0      7
## 2     0      6
## 3     0      5
## 4     0      6
## 5     0      6
## 6     0      5

Análisis de correlación

Matriz de diagramas de dispersión

pairs(casos)

A continuación se hará una cuantificación del grado de relación lineal, por medio de la matriz de coeficientes de correlación.

cor(casos)

##            COVID    Clases
## COVID  1.0000000 0.3861665
## Clases 0.3861665 1.0000000

Recta de mínimos cuadrados

regresion <- lm(COVID ~ Clases, data=casos)
summary(regresion)

## 
## Call:
## lm(formula = COVID ~ Clases, data = casos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -65.909 -33.852  -2.972  38.192  59.734 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   23.610      8.510   2.775  0.00775 **
## Clases         1.951      0.659   2.960  0.00469 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 38.37 on 50 degrees of freedom
## Multiple R-squared:  0.1491, Adjusted R-squared:  0.1321 
## F-statistic: 8.763 on 1 and 50 DF,  p-value: 0.00469

Con base a lo estimado en el análisis de regresión lineal, obtenemos la ecuación de la recta de mínimos cuadrados

\[y = 23.610 + 1.951x \]

Gráfica de la recta de mínimos cuadrados

plot (casos$COVID, casos$Clases, xlab="SONORA",ylab="TAMAULIPAS")
abline(regresion)

Modelación (cálculo) de predicciones

nuevas.Clases <- data.frame(Clases=seq(20,60))
predict(regresion,nuevas.Clases)

##         1         2         3         4         5         6         7         8 
##  62.62808  64.57897  66.52986  68.48076  70.43165  72.38254  74.33343  76.28432 
##         9        10        11        12        13        14        15        16 
##  78.23522  80.18611  82.13700  84.08789  86.03878  87.98967  89.94057  91.89146 
##        17        18        19        20        21        22        23        24 
##  93.84235  95.79324  97.74413  99.69503 101.64592 103.59681 105.54770 107.49859 
##        25        26        27        28        29        30        31        32 
## 109.44948 111.40038 113.35127 115.30216 117.25305 119.20394 121.15484 123.10573 
##        33        34        35        36        37        38        39        40 
## 125.05662 127.00751 128.95840 130.90930 132.86019 134.81108 136.76197 138.71286 
##        41 
## 140.66375

Inferencia en el modelo de regresión simple

*Suponemos ahora que los datos proceden de un modelo de regresión simple, de la forma:

\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] Donde:

Los errores aleatorios $\epsilon_i$ son independientes con distribución normal 0 y varianza $\sigma^2$
Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 29.6376 y 0.7243

Cálculo del nivel de confianza

Intervalo de confianza para el 95% de los datos

confint(regresion)

##                 2.5 %    97.5 %
## (Intercept) 6.5179989 40.702489
## Clases      0.6271868  3.274597

Intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90)

##                   5 %      95 %
## (Intercept) 9.3487869 37.871701
## Clases      0.8464165  3.055367

Representación gráfica de los intervalos de confianza

nuevas.Clases <- data.frame(Clases=seq(20,60))
#Gráfico de dispersión y recta
plot (casos$Clases, casos$COVID, xlab="Clases",ylab="COVID")
abline(regresion)

# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo
ic <- predict(regresion,nuevas.Clases, interval = "confidence")
lines(nuevas.Clases$Clases, ic[, 2], lty=2)
lines(nuevas.Clases$Clases, ic[, 3], lty=2)

#Intervalos de predicción
ic <- predict(regresion,nuevas.Clases, interval = "prediction")
lines(nuevas.Clases$Clases, ic[, 2], lty=2, col = "purple")
lines(nuevas.Clases$Clases, ic[, 3], lty=2, col = "blue")

Como resultado de la evaluacion previa, se puede ver la relacion de los dos terminos de busqueda, nos damos cuenta que la busqueda de Clases y COVID, para mi sorpresa, no cuentan con tantas busquedas en comun como lo creia, pero durante meses de reinscripcion hubo un pequeño aumento, ya que como vemos COVID afecto clases presenciales en Mexico.