Prueba de hipotesis para un experimiento.
Se utilizaran datos de google trends para analizar si existe una relacion entre las busquedas de Noticia con WhatsApp, para ver que tanto las personas relacionan ambos terminos. Recientemente WhatsApp fue protagonista de muchas publicaciones y noticias globales por sus nuevos terminos. Asi que veremos como estas se relacionan:
Importar
Bibliotecas y datos
## Parsed with column specification:
## cols(
## Noticia = col_double(),
## WhatsApp = col_double()
## )
Visualizar
Modelar
Que tanto se relacionan estos temas?
Para esto haremos una matriz de coeficientes de correlacion:
## Noticia WhatsApp
## Noticia 1.0000000 -0.4669631
## WhatsApp -0.4669631 1.0000000
Con un indice de correlacion Pearson de -0.46, nos podemos dar cuenta que no hay tanta relacion entre ellos. Lo cual es sorprendente ya que fue un topico bastante hablado pero al parecer no fue buscado como una noticia por el publico general.
Calculo y representacion de la recta de minimos cuadrados
##
## Call:
## lm(formula = Noticia ~ WhatsApp, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.6002 -1.9801 -0.8490 0.9234 15.4492
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 28.85143 2.92874 9.851 2.66e-13 ***
## WhatsApp -0.15247 0.04083 -3.734 0.000483 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.208 on 50 degrees of freedom
## Multiple R-squared: 0.2181, Adjusted R-squared: 0.2024
## F-statistic: 13.94 on 1 and 50 DF, p-value: 0.0004834
Ecuación de la recta de mínimos cuadrados \(y\) \[ y = 28.85143 + -0.15247x \]
Con esta ecuación podemos modelar y predecir valores
plot(data$WhatsApp, data$Noticia, xlab = "Búsquedas de noticias", ylab = "Búsquedas de Whatsapp")
abline(reg)En esta grafica se puede observar que la linea inicia en un buen lugar pero va disminuyendo a lo largo del tiempo, por lo tanto la cantidad de busquedas de estos dos terminos juntos no fue muy popular ultimamente. Los datos se encuentran dispersos en el inicio y su coeficiente fue muy baja (0.2181).
## 1 2 3 4 5 6 7 8
## 28.85143 28.69896 28.54649 28.39402 28.24156 28.08909 27.93662 27.78415
## 9 10 11 12 13 14 15 16
## 27.63168 27.47921 27.32674 27.17427 27.02180 26.86933 26.71686 26.56440
## 17 18 19 20 21 22 23 24
## 26.41193 26.25946 26.10699 25.95452 25.80205 25.64958 25.49711 25.34464
## 25 26 27 28 29 30 31 32
## 25.19217 25.03971 24.88724 24.73477 24.58230 24.42983 24.27736 24.12489
## 33 34 35 36 37 38 39 40
## 23.97242 23.81995 23.66748 23.51501 23.36255 23.21008 23.05761 22.90514
## 41 42 43 44 45 46 47 48
## 22.75267 22.60020 22.44773 22.29526 22.14279 21.99032 21.83785 21.68539
## 49 50 51 52
## 21.53292 21.38045 21.22798 21.07551
Con estos datos ya dados podemos estimar una observación futura con determinada probabilidad.
Intervalo de confianza
## 2.5 % 97.5 %
## (Intercept) 22.9688784 34.73398536
## WhatsApp -0.2344829 -0.07045526
El hecho de que exista una correlación Pearson alta, no significa que exista una causalidad pero en mi caso la correlacion es negativa, por lo que es menos probable que exista una causalidad.
Conclusion
Con un coeficiente de correlacion negativo de -0.46 puedo decir que es muy poco probable que exista una relacion directa sobre estos dos terminos, menos una causalidad. Se puede ver en las rectas que existe un poco de relacion durante el inicio del periodo pero se dispersan de manera constante durante el periodo mismo.