Inferencia estadística

Caso de estudio 1: ¿Están relacionadas las búsquedas de Donald Trump y Estados Unidos en México en el año 2020?

Para esto se colectarons los últimos 12 meses de datos de búsquedas de google a través de la herramienta google trends: https://trends.google.com.mx/trends/?geo=MX

library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("DonaldTrump VS Estados Unidos.csv", col_types =cols(DonaldTrump = col_number(), EstadosUnidos = col_number()))
datatable(busquedas)

Viusalizamos Datos

head(busquedas)
## # A tibble: 6 x 2
##   DonaldTrump EstadosUnidos
##         <dbl>         <dbl>
## 1          17            49
## 2           5            27
## 3           4            39
## 4           5            30
## 5           6            30
## 6           5            25

*Formulación de hipótesis

Consideramos que los datos no estan muy relacionados, exceptuando en un pico que se ve como ambas busquedas aumentan, esto tal vez por la conmemoracion de los caidos y un probable discurso del presidente Trump.

Analizis de correlacion

*Para esto realizaremos una matris de diagramas de dispersión

pairs(busquedas)

Matriz de coeficientes de correlación

cor(busquedas)
##               DonaldTrump EstadosUnidos
## DonaldTrump     1.0000000     0.4608068
## EstadosUnidos   0.4608068     1.0000000

Podemos observar que hay una relacion del 46% con respecto a ambas busquedas esto se debe a que el presidente ofrece un tributo en el memorial Day

Recta de mínimos cuadrados

Generamos mediante la siguiente formula la recta de minimos cuadrados para conocer la relacion y confianza que tienen los datos

Se hace el ajusto de la tendencia de los puntos a un modelo líneal (lm)

regresion <- lm(DonaldTrump ~ EstadosUnidos, data=busquedas)
summary(regresion)
## 
## Call:
## lm(formula = DonaldTrump ~ EstadosUnidos, data = busquedas)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.290 -2.560 -0.951 -0.129 34.926 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    0.91630    2.77840   0.330   0.7435   
## EstadosUnidos  0.17374    0.05577   3.115   0.0036 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.116 on 36 degrees of freedom
## Multiple R-squared:  0.2123, Adjusted R-squared:  0.1905 
## F-statistic: 9.705 on 1 and 36 DF,  p-value: 0.003597
  • Ecuación de la recta de mínimos cudrados

\[ y = 0.91630 + 0.17374x \]

  • Trazado de la recta de mínimos cuadrados

Graficamos los datos de acuerdo a la obtención de la recta de mínimos cuadrados

plot (busquedas$DonaldTrump, busquedas$EstadosUnidos, xlab="Busquedas de Donald Trump", ylab="Busquedas de Estados Unidos")
abline(regresion)

## Calculamos la confiablilidad

confint(regresion)
##                     2.5 %    97.5 %
## (Intercept)   -4.71855698 6.5511597
## EstadosUnidos  0.06063388 0.2868464

Predicciones

grado <- data.frame(EstadosUnidos=seq(50,80))
predict(regresion,grado)
##         1         2         3         4         5         6         7         8 
##  9.603309  9.777049  9.950789 10.124530 10.298270 10.472010 10.645750 10.819490 
##         9        10        11        12        13        14        15        16 
## 10.993230 11.166971 11.340711 11.514451 11.688191 11.861931 12.035671 12.209411 
##        17        18        19        20        21        22        23        24 
## 12.383152 12.556892 12.730632 12.904372 13.078112 13.251852 13.425593 13.599333 
##        25        26        27        28        29        30        31 
## 13.773073 13.946813 14.120553 14.294293 14.468034 14.641774 14.815514

Representación de los intervalos de confianza

plot(busquedas$EstadosUnidos, busquedas$DonaldTrump, xlab = "Estados Unidos", ylab="Donald Trump")
abline(regresion)
intervalo <- predict(regresion, grado, interval = "confidence")
lines(grado$EstadosUnidos, intervalo[, 2], lty=2, col="red")
lines(grado$EstadosUnidos, intervalo[, 3], lty=2, col="red")


intervalo <- predict(regresion, grado, interval = "prediction")
lines(grado$EstadosUnidos, intervalo[, 2], lty=2, col="blue")
lines(grado$EstadosUnidos, intervalo[, 3], lty=2, col="blue")

Conclusion

En conclusión las busquedas parecen no tener una relación real entre las busquedas de las variables, sin embargo parece cer que durante la epoca del memorial a los veteranos y a los caidos, el Memorial Day, ambas busquedas parecen tener un pico intenso de busquedas durante esa epoca, esto debido al discurso que da el presidente de la epoca.