Inferencia estadística
Caso de estudio 1: ¿Están relacionadas las búsquedas de Donald Trump y Estados Unidos en México en el año 2020?
Para esto se colectarons los últimos 12 meses de datos de búsquedas de google a través de la herramienta google trends: https://trends.google.com.mx/trends/?geo=MX
Viusalizamos Datos
## # A tibble: 6 x 2
## DonaldTrump EstadosUnidos
## <dbl> <dbl>
## 1 17 49
## 2 5 27
## 3 4 39
## 4 5 30
## 5 6 30
## 6 5 25
*Formulación de hipótesis
Consideramos que los datos no estan muy relacionados, exceptuando en un pico que se ve como ambas busquedas aumentan, esto tal vez por la conmemoracion de los caidos y un probable discurso del presidente Trump.
Analizis de correlacion
*Para esto realizaremos una matris de diagramas de dispersión
Matriz de coeficientes de correlación
## DonaldTrump EstadosUnidos
## DonaldTrump 1.0000000 0.4608068
## EstadosUnidos 0.4608068 1.0000000
Podemos observar que hay una relacion del 46% con respecto a ambas busquedas esto se debe a que el presidente ofrece un tributo en el memorial Day
Recta de mínimos cuadrados
Generamos mediante la siguiente formula la recta de minimos cuadrados para conocer la relacion y confianza que tienen los datos
Se hace el ajusto de la tendencia de los puntos a un modelo líneal (lm)
##
## Call:
## lm(formula = DonaldTrump ~ EstadosUnidos, data = busquedas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.290 -2.560 -0.951 -0.129 34.926
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.91630 2.77840 0.330 0.7435
## EstadosUnidos 0.17374 0.05577 3.115 0.0036 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.116 on 36 degrees of freedom
## Multiple R-squared: 0.2123, Adjusted R-squared: 0.1905
## F-statistic: 9.705 on 1 and 36 DF, p-value: 0.003597
- Ecuación de la recta de mínimos cudrados
\[ y = 0.91630 + 0.17374x \]
- Trazado de la recta de mínimos cuadrados
Graficamos los datos de acuerdo a la obtención de la recta de mínimos cuadrados
plot (busquedas$DonaldTrump, busquedas$EstadosUnidos, xlab="Busquedas de Donald Trump", ylab="Busquedas de Estados Unidos")
abline(regresion) ## Calculamos la confiablilidad
## 2.5 % 97.5 %
## (Intercept) -4.71855698 6.5511597
## EstadosUnidos 0.06063388 0.2868464
Predicciones
## 1 2 3 4 5 6 7 8
## 9.603309 9.777049 9.950789 10.124530 10.298270 10.472010 10.645750 10.819490
## 9 10 11 12 13 14 15 16
## 10.993230 11.166971 11.340711 11.514451 11.688191 11.861931 12.035671 12.209411
## 17 18 19 20 21 22 23 24
## 12.383152 12.556892 12.730632 12.904372 13.078112 13.251852 13.425593 13.599333
## 25 26 27 28 29 30 31
## 13.773073 13.946813 14.120553 14.294293 14.468034 14.641774 14.815514
Representación de los intervalos de confianza
plot(busquedas$EstadosUnidos, busquedas$DonaldTrump, xlab = "Estados Unidos", ylab="Donald Trump")
abline(regresion)
intervalo <- predict(regresion, grado, interval = "confidence")
lines(grado$EstadosUnidos, intervalo[, 2], lty=2, col="red")
lines(grado$EstadosUnidos, intervalo[, 3], lty=2, col="red")
intervalo <- predict(regresion, grado, interval = "prediction")
lines(grado$EstadosUnidos, intervalo[, 2], lty=2, col="blue")
lines(grado$EstadosUnidos, intervalo[, 3], lty=2, col="blue")Conclusion
En conclusión las busquedas parecen no tener una relación real entre las busquedas de las variables, sin embargo parece cer que durante la epoca del memorial a los veteranos y a los caidos, el Memorial Day, ambas busquedas parecen tener un pico intenso de busquedas durante esa epoca, esto debido al discurso que da el presidente de la epoca.