U1A9

Miguel Sanez

27/9/2020

Inferencia estadística

Caso de estudio 1: ¿Están relacionadas las búsquedas de halloween y disfraz en México desde el año 2004 hasta 2020?

Para esto se colectamos los últimos 16 años de datos de búsquedas de google a través de la herramienta google trends: https://trends.google.com.mx/trends/?geo=MX

library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("busquedasHalloweenDisfraz.csv", col_types =cols(halloween = col_number(), disfraz = col_number()))
datatable(busquedas)

*Formulación de hipótesis

Consideramos que los datos SÍ están realcionados, dado que la gente busca disfraz más, a raíz de la llegada de halloween

*Para esto realizaremos una matris de diagramas de dispersión

pairs(busquedas)

Matriz de coeficientes de correlación

cor(busquedas)
##           halloween   disfraz
## halloween 1.0000000 0.8238575
## disfraz   0.8238575 1.0000000

Recta de mínimos cuadrados

Se hace el ajusto de la tendencia de los puntos a un modelo líneal (lm)

regresion <- lm(halloween ~ disfraz, data=busquedas)
summary(regresion)
## 
## Call:
## lm(formula = halloween ~ disfraz, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -32.644  -4.130  -0.577   1.040  49.870 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.76386    0.85452  -0.894    0.372    
## disfraz      1.72347    0.08405  20.505   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.21 on 199 degrees of freedom
## Multiple R-squared:  0.6787, Adjusted R-squared:  0.6771 
## F-statistic: 420.4 on 1 and 199 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cudrados

\[ y = -0.76386 + 1.72347 x \]

  • Trazado de la recta de mínimos cuadrados
plot (busquedas$halloween, busquedas$disfraz, xlab="Busquedas de halloween", ylab="Busquedas de disfraz")
abline(regresion)

En base al índice de correlación de 0.82, la R2 de 0.67 y el ajuste de la recta, podemos inferir, que los datos SÍ están relacionados. Sin embargo, NO podemos aún realizar comprobación de hipótesis o de causalidad.

Modelación (cálculo) de predicciones

nuevas.busquedas <- data.frame(disfraz=seq(0,100))
predict(regresion,nuevas.busquedas)
##           1           2           3           4           5           6 
##  -0.7638628   0.9596035   2.6830698   4.4065362   6.1300025   7.8534688 
##           7           8           9          10          11          12 
##   9.5769351  11.3004015  13.0238678  14.7473341  16.4708005  18.1942668 
##          13          14          15          16          17          18 
##  19.9177331  21.6411994  23.3646658  25.0881321  26.8115984  28.5350648 
##          19          20          21          22          23          24 
##  30.2585311  31.9819974  33.7054637  35.4289301  37.1523964  38.8758627 
##          25          26          27          28          29          30 
##  40.5993291  42.3227954  44.0462617  45.7697280  47.4931944  49.2166607 
##          31          32          33          34          35          36 
##  50.9401270  52.6635934  54.3870597  56.1105260  57.8339923  59.5574587 
##          37          38          39          40          41          42 
##  61.2809250  63.0043913  64.7278576  66.4513240  68.1747903  69.8982566 
##          43          44          45          46          47          48 
##  71.6217230  73.3451893  75.0686556  76.7921219  78.5155883  80.2390546 
##          49          50          51          52          53          54 
##  81.9625209  83.6859873  85.4094536  87.1329199  88.8563862  90.5798526 
##          55          56          57          58          59          60 
##  92.3033189  94.0267852  95.7502516  97.4737179  99.1971842 100.9206505 
##          61          62          63          64          65          66 
## 102.6441169 104.3675832 106.0910495 107.8145159 109.5379822 111.2614485 
##          67          68          69          70          71          72 
## 112.9849148 114.7083812 116.4318475 118.1553138 119.8787801 121.6022465 
##          73          74          75          76          77          78 
## 123.3257128 125.0491791 126.7726455 128.4961118 130.2195781 131.9430444 
##          79          80          81          82          83          84 
## 133.6665108 135.3899771 137.1134434 138.8369098 140.5603761 142.2838424 
##          85          86          87          88          89          90 
## 144.0073087 145.7307751 147.4542414 149.1777077 150.9011741 152.6246404 
##          91          92          93          94          95          96 
## 154.3481067 156.0715730 157.7950394 159.5185057 161.2419720 162.9654384 
##          97          98          99         100         101 
## 164.6889047 166.4123710 168.1358373 169.8593037 171.5827700

Inferencia en el modelo de regresión simple

*Suponemos ahora que los datos proceden de un modelo de regresión simple, de la forma:

\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] Donde:

  • Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal 0 y varianza \(\sigma^2\)

  • Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 0.85452 y 0.08405

Cálculo del nivel de confianza

  • Intervalo de confianza para el 95% de los datos
confint(regresion)
##                 2.5 %    97.5 %
## (Intercept) -2.448947 0.9212212
## disfraz      1.557718 1.8892146
  • Intervalo de confianza para el 90% de los datos
confint(regresion, level=0.90)
##                   5 %      95 %
## (Intercept) -2.176004 0.6482779
## disfraz      1.584565 1.8623674

Representación gráfica de los intervalos de confianza

nuevas.busquedas <- data.frame(disfraz=seq(0,100))
#Gráfico de dispersión y recta
plot (busquedas$halloween, busquedas$disfraz, xlab="Busquedas de halloween", ylab="Busquedas de disfraz")
abline(regresion)

# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo
ic <- predict(regresion,nuevas.busquedas, interval = "confidence")
lines(nuevas.busquedas$disfraz, ic[, 2], lty=2)
lines(nuevas.busquedas$disfraz, ic[, 3], lty=2)

#Intervalos de predicción
ic <- predict(regresion,nuevas.busquedas, interval = "prediction")
lines(nuevas.busquedas$disfraz, ic[, 2], lty=2, col = "red")
lines(nuevas.busquedas$disfraz, ic[, 3], lty=2, col = "red")

Conclusión

Conforme a los datos representados en la tabla y en las gráficas, se puede concluir que las búsquedas de “disfraz” se incrementan cuando se busca “halloween” y por ello, las dos búsquedas están relacionadas.Se puede decir que es normal que se incrementen las búsquedas de ambos, ya que, en las fechas del halloween se utilizan.