Prueba de hipótesis para un experimento: Reddit y GameStop, ¿Cuál es su relación?
A continuación se realizará un análisis de correlación con datos obtenidos de Google Trends en búsquedas web con las palabras Reddit y GameStop.
GameStop
Importar
Bibliotecas y datos
library(readr) #para leer datos
library(DT) # tablas interactivas
datos <- read_csv("datos.csv") #importar datos
## Parsed with column specification:
## cols(
## reddit = col_double(),
## gamestop = col_double()
## )
Visualizar
Modelar
Coeficiente de correlación de pearson
¿Qué tanto se han relacionado estos temas en los últimos 7 días y en todo el mundo?
- Matriz de coeficientes de correlación
## reddit gamestop
## reddit 1.0000000 0.6088754
## gamestop 0.6088754 1.0000000
Con un coeficiente de correlación de 0.6088754 se puede decir que no existe una correlación tan alta en las búsquedas de la semana pasada debido a lo sucedido, ni mucho menos una causalidad. Sin embargo, la correlación no es nula ya que queda presente una pequeña relación entre ambas búsquedas.
:)
Cálculo y representación de la recta de mínimos cuadrados
##
## Call:
## lm(formula = reddit ~ gamestop, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.224 -7.194 -1.393 7.440 24.219
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.05126 1.17504 19.617 <2e-16 ***
## gamestop 0.28013 0.02833 9.889 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.401 on 166 degrees of freedom
## Multiple R-squared: 0.3707, Adjusted R-squared: 0.3669
## F-statistic: 97.8 on 1 and 166 DF, p-value: < 2.2e-16
El valor de p es muy pequeño, por lo cual se puede seguir aceptando que existe una correlación.
Ecuación de la recta de mínimos cuadrados \(y\)
\[ y = 23.05126 + 0.28013x \]
Con esta ecuación podemos modelar y predecir valores
plot(datos$gamestop, datos$reddit, xlab = "Búsquedas GameStop", ylab = "Búsquedas Reddit")
abline(regresion, col="red")
Con esta gráfica podemos observar que la línea es positiva, lo cual indica que es directamente proporcional (a mayor búsquedas de Reddit, mayor se hacen las búsquedas de GameStop. Sin embargo, los datos se encuentran muy dispersos y con una desviación estándar alta.
## 1 2 3 4 5 6 7 8
## 23.05126 23.33138 23.61151 23.89164 24.17177 24.45190 24.73203 25.01216
## 9 10 11 12 13 14 15 16
## 25.29229 25.57242 25.85254 26.13267 26.41280 26.69293 26.97306 27.25319
## 17 18 19 20 21 22 23 24
## 27.53332 27.81345 28.09358 28.37370 28.65383 28.93396 29.21409 29.49422
## 25 26 27 28 29 30 31 32
## 29.77435 30.05448 30.33461 30.61473 30.89486 31.17499 31.45512 31.73525
## 33 34 35 36 37 38 39 40
## 32.01538 32.29551 32.57564 32.85577 33.13589 33.41602 33.69615 33.97628
## 41 42 43 44 45 46 47 48
## 34.25641 34.53654 34.81667 35.09680 35.37693 35.65705 35.93718 36.21731
## 49 50 51 52 53 54 55 56
## 36.49744 36.77757 37.05770 37.33783 37.61796 37.89809 38.17821 38.45834
## 57 58 59 60 61 62 63 64
## 38.73847 39.01860 39.29873 39.57886 39.85899 40.13912 40.41924 40.69937
## 65 66 67 68 69 70 71 72
## 40.97950 41.25963 41.53976 41.81989 42.10002 42.38015 42.66028 42.94040
## 73 74 75 76 77 78 79 80
## 43.22053 43.50066 43.78079 44.06092 44.34105 44.62118 44.90131 45.18144
## 81 82 83 84 85 86 87 88
## 45.46156 45.74169 46.02182 46.30195 46.58208 46.86221 47.14234 47.42247
## 89 90 91 92 93 94 95 96
## 47.70260 47.98272 48.26285 48.54298 48.82311 49.10324 49.38337 49.66350
## 97 98 99 100 101 102 103 104
## 49.94363 50.22375 50.50388 50.78401 51.06414 51.34427 51.62440 51.90453
## 105 106 107 108 109 110 111
## 52.18466 52.46479 52.74491 53.02504 53.30517 53.58530 53.86543
Intervalo de confianza en el modelo de regresión simple
## 2.5 % 97.5 %
## (Intercept) 20.7313081 25.3712032
## gamestop 0.2242021 0.3360557
El hecho de que exista una correlación pearson alta, no significa que exista una causalidad
Conclusión
Con un coeficiente de correlación de 0.6088754 se puede decir que no existe una correlación tan alta en las búsquedas de la semana pasada debido a lo sucedido, ni mucho menos una causalidad. Sin embargo, la correlación no es nula ya que queda presente una pequeña relación entre ambas búsquedas. Además, la relación se encuentra de forma directamente proporcional según la gráfica de la recta de mínimos cuadrados.