Inferencia estadística
Caso de estudio 1: ¿Están relacionadas las búsquedas de halloween y disfraz en México desde el año 2004 hasta 2020?
Para esto se colectamos los últimos 16 años de datos de búsquedas de google a través de la herramienta google trends: https://trends.google.com.mx/trends/?geo=MX
library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("busquedasHalloweenDisfraz.csv", col_types =cols(halloween = col_number(), disfraz = col_number()))
datatable(busquedas)*Formulación de hipótesis
Consideramos que los datos SÍ están realcionados, dado que la gente busca disfraz más, a raíz de la llegada de halloween
*Para esto realizaremos una matris de diagramas de dispersión
Matriz de coeficientes de correlación
## halloween disfraz
## halloween 1.0000000 0.8238575
## disfraz 0.8238575 1.0000000
Recta de mínimos cuadrados
Se hace el ajusto de la tendencia de los puntos a un modelo líneal (lm)
##
## Call:
## lm(formula = halloween ~ disfraz, data = busquedas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -32.644 -4.130 -0.577 1.040 49.870
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.76386 0.85452 -0.894 0.372
## disfraz 1.72347 0.08405 20.505 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.21 on 199 degrees of freedom
## Multiple R-squared: 0.6787, Adjusted R-squared: 0.6771
## F-statistic: 420.4 on 1 and 199 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cudrados
\[ y = -0.76386 + 1.72347 x \]
- Trazado de la recta de mínimos cuadrados
plot (busquedas$halloween, busquedas$disfraz, xlab="Busquedas de halloween", ylab="Busquedas de disfraz")
abline(regresion)En base al índice de correlación de 0.82, la R2 de 0.67 y el ajuste de la recta, podemos inferir, que los datos SÍ están relacionados. Sin embargo, NO podemos aún realizar comprobación de hipótesis o de causalidad.
Modelación (cálculo) de predicciones
## 1 2 3 4 5 6
## -0.7638628 0.9596035 2.6830698 4.4065362 6.1300025 7.8534688
## 7 8 9 10 11 12
## 9.5769351 11.3004015 13.0238678 14.7473341 16.4708005 18.1942668
## 13 14 15 16 17 18
## 19.9177331 21.6411994 23.3646658 25.0881321 26.8115984 28.5350648
## 19 20 21 22 23 24
## 30.2585311 31.9819974 33.7054637 35.4289301 37.1523964 38.8758627
## 25 26 27 28 29 30
## 40.5993291 42.3227954 44.0462617 45.7697280 47.4931944 49.2166607
## 31 32 33 34 35 36
## 50.9401270 52.6635934 54.3870597 56.1105260 57.8339923 59.5574587
## 37 38 39 40 41 42
## 61.2809250 63.0043913 64.7278576 66.4513240 68.1747903 69.8982566
## 43 44 45 46 47 48
## 71.6217230 73.3451893 75.0686556 76.7921219 78.5155883 80.2390546
## 49 50 51 52 53 54
## 81.9625209 83.6859873 85.4094536 87.1329199 88.8563862 90.5798526
## 55 56 57 58 59 60
## 92.3033189 94.0267852 95.7502516 97.4737179 99.1971842 100.9206505
## 61 62 63 64 65 66
## 102.6441169 104.3675832 106.0910495 107.8145159 109.5379822 111.2614485
## 67 68 69 70 71 72
## 112.9849148 114.7083812 116.4318475 118.1553138 119.8787801 121.6022465
## 73 74 75 76 77 78
## 123.3257128 125.0491791 126.7726455 128.4961118 130.2195781 131.9430444
## 79 80 81 82 83 84
## 133.6665108 135.3899771 137.1134434 138.8369098 140.5603761 142.2838424
## 85 86 87 88 89 90
## 144.0073087 145.7307751 147.4542414 149.1777077 150.9011741 152.6246404
## 91 92 93 94 95 96
## 154.3481067 156.0715730 157.7950394 159.5185057 161.2419720 162.9654384
## 97 98 99 100 101
## 164.6889047 166.4123710 168.1358373 169.8593037 171.5827700
Inferencia en el modelo de regresión simple
*Suponemos ahora que los datos proceden de un modelo de regresión simple, de la forma:
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] Donde:
Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal 0 y varianza \(\sigma^2\)
Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 0.85452 y 0.08405
Cálculo del nivel de confianza
- Intervalo de confianza para el 95% de los datos
## 2.5 % 97.5 %
## (Intercept) -2.448947 0.9212212
## disfraz 1.557718 1.8892146
- Intervalo de confianza para el 90% de los datos
## 5 % 95 %
## (Intercept) -2.176004 0.6482779
## disfraz 1.584565 1.8623674
Representación gráfica de los intervalos de confianza
nuevas.busquedas <- data.frame(disfraz=seq(0,100))
#Gráfico de dispersión y recta
plot (busquedas$halloween, busquedas$disfraz, xlab="Busquedas de halloween", ylab="Busquedas de disfraz")
abline(regresion)
# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo
ic <- predict(regresion,nuevas.busquedas, interval = "confidence")
lines(nuevas.busquedas$disfraz, ic[, 2], lty=2)
lines(nuevas.busquedas$disfraz, ic[, 3], lty=2)
#Intervalos de predicción
ic <- predict(regresion,nuevas.busquedas, interval = "prediction")
lines(nuevas.busquedas$disfraz, ic[, 2], lty=2, col = "red")
lines(nuevas.busquedas$disfraz, ic[, 3], lty=2, col = "red")Conclusión
Conforme a los datos representados en la tabla y en las gráficas, se puede concluir que las búsquedas de “disfraz” se incrementan cuando se busca “halloween” y por ello, las dos búsquedas están relacionadas.Se puede decir que es normal que se incrementen las búsquedas de ambos, ya que, en las fechas del halloween se utilizan.