Inferencia estadística

Caso de estudio 1: ¿Están relacionadas las búsquedas de halloween y disfraz en México desde el año 2004 hasta 2020?

Para esto se colectamos los últimos 16 años de datos de búsquedas de google a través de la herramienta google trends: https://trends.google.com.mx/trends/?geo=MX

library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("busquedasHalloweenDisfraz.csv", col_types =cols(halloween = col_number(), disfraz = col_number()))
datatable(busquedas)

*Formulación de hipótesis

Consideramos que los datos SÍ están realcionados, dado que la gente busca disfraz más, a raíz de la llegada de halloween

*Para esto realizaremos una matris de diagramas de dispersión

pairs(busquedas)

Matriz de coeficientes de correlación

cor(busquedas)

##           halloween   disfraz
## halloween 1.0000000 0.8238575
## disfraz   0.8238575 1.0000000

Recta de mínimos cuadrados

Se hace el ajusto de la tendencia de los puntos a un modelo líneal (lm)

regresion <- lm(halloween ~ disfraz, data=busquedas)
summary(regresion)

## 
## Call:
## lm(formula = halloween ~ disfraz, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -32.644  -4.130  -0.577   1.040  49.870 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.76386    0.85452  -0.894    0.372    
## disfraz      1.72347    0.08405  20.505   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.21 on 199 degrees of freedom
## Multiple R-squared:  0.6787, Adjusted R-squared:  0.6771 
## F-statistic: 420.4 on 1 and 199 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cudrados

\[ y = -0.76386 + 1.72347 x \]

Trazado de la recta de mínimos cuadrados

plot (busquedas$halloween, busquedas$disfraz, xlab="Busquedas de halloween", ylab="Busquedas de disfraz")
abline(regresion)

En base al índice de correlación de 0.82, la R2 de 0.67 y el ajuste de la recta, podemos inferir, que los datos SÍ están relacionados. Sin embargo, NO podemos aún realizar comprobación de hipótesis o de causalidad.

Modelación (cálculo) de predicciones

nuevas.busquedas <- data.frame(disfraz=seq(0,100))
predict(regresion,nuevas.busquedas)

##           1           2           3           4           5           6 
##  -0.7638628   0.9596035   2.6830698   4.4065362   6.1300025   7.8534688 
##           7           8           9          10          11          12 
##   9.5769351  11.3004015  13.0238678  14.7473341  16.4708005  18.1942668 
##          13          14          15          16          17          18 
##  19.9177331  21.6411994  23.3646658  25.0881321  26.8115984  28.5350648 
##          19          20          21          22          23          24 
##  30.2585311  31.9819974  33.7054637  35.4289301  37.1523964  38.8758627 
##          25          26          27          28          29          30 
##  40.5993291  42.3227954  44.0462617  45.7697280  47.4931944  49.2166607 
##          31          32          33          34          35          36 
##  50.9401270  52.6635934  54.3870597  56.1105260  57.8339923  59.5574587 
##          37          38          39          40          41          42 
##  61.2809250  63.0043913  64.7278576  66.4513240  68.1747903  69.8982566 
##          43          44          45          46          47          48 
##  71.6217230  73.3451893  75.0686556  76.7921219  78.5155883  80.2390546 
##          49          50          51          52          53          54 
##  81.9625209  83.6859873  85.4094536  87.1329199  88.8563862  90.5798526 
##          55          56          57          58          59          60 
##  92.3033189  94.0267852  95.7502516  97.4737179  99.1971842 100.9206505 
##          61          62          63          64          65          66 
## 102.6441169 104.3675832 106.0910495 107.8145159 109.5379822 111.2614485 
##          67          68          69          70          71          72 
## 112.9849148 114.7083812 116.4318475 118.1553138 119.8787801 121.6022465 
##          73          74          75          76          77          78 
## 123.3257128 125.0491791 126.7726455 128.4961118 130.2195781 131.9430444 
##          79          80          81          82          83          84 
## 133.6665108 135.3899771 137.1134434 138.8369098 140.5603761 142.2838424 
##          85          86          87          88          89          90 
## 144.0073087 145.7307751 147.4542414 149.1777077 150.9011741 152.6246404 
##          91          92          93          94          95          96 
## 154.3481067 156.0715730 157.7950394 159.5185057 161.2419720 162.9654384 
##          97          98          99         100         101 
## 164.6889047 166.4123710 168.1358373 169.8593037 171.5827700

Inferencia en el modelo de regresión simple

*Suponemos ahora que los datos proceden de un modelo de regresión simple, de la forma:

\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] Donde:

Los errores aleatorios $\epsilon_i$ son independientes con distribución normal 0 y varianza $\sigma^2$
Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 0.85452 y 0.08405

Cálculo del nivel de confianza

Intervalo de confianza para el 95% de los datos

confint(regresion)

##                 2.5 %    97.5 %
## (Intercept) -2.448947 0.9212212
## disfraz      1.557718 1.8892146

Intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90)

##                   5 %      95 %
## (Intercept) -2.176004 0.6482779
## disfraz      1.584565 1.8623674

Representación gráfica de los intervalos de confianza

nuevas.busquedas <- data.frame(disfraz=seq(0,100))
#Gráfico de dispersión y recta
plot (busquedas$halloween, busquedas$disfraz, xlab="Busquedas de halloween", ylab="Busquedas de disfraz")
abline(regresion)

# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo
ic <- predict(regresion,nuevas.busquedas, interval = "confidence")
lines(nuevas.busquedas$disfraz, ic[, 2], lty=2)
lines(nuevas.busquedas$disfraz, ic[, 3], lty=2)

#Intervalos de predicción
ic <- predict(regresion,nuevas.busquedas, interval = "prediction")
lines(nuevas.busquedas$disfraz, ic[, 2], lty=2, col = "red")
lines(nuevas.busquedas$disfraz, ic[, 3], lty=2, col = "red")

Conclusión

Conforme a los datos representados en la tabla y en las gráficas, se puede concluir que las búsquedas de “disfraz” se incrementan cuando se busca “halloween” y por ello, las dos búsquedas están relacionadas.Se puede decir que es normal que se incrementen las búsquedas de ambos, ya que, en las fechas del halloween se utilizan.

U1A9

Miguel Sanez

27/9/2020