U1A9

River

9/25/2020


Interferencia estadistica

Caso de estudio 1: Estan relacionados las busquedas de LoL (League of Legends) y Mundial en Mexico en el año 2020?

Para esto se colectaron los ultimos 12 meses de datos de busqueda de google a traves de la herramienta google trends: https://trends.google.com.mx

setwd("~/Probabilidad y Estadistica")
library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("trend.csv", col_types = cols(LoL = col_number(), 
    Mundial = col_number()))
datatable(busquedas)
  • Formulacion de Hipotesis

Consideramos que los datos si estan relacionados dado que la gente el mundial de LoL debido a que en estas epocas empieza la fase de grupos. .

pairs(busquedas)

Matriz de coeficientes de correlacion

cor(busquedas)
##               LoL   Mundial
## LoL     1.0000000 0.4738786
## Mundial 0.4738786 1.0000000

Recta de minimos cuadrados

Se hace el ajuste de la tendencia de los puntos a un modelo lineal (lm)

regresion <- lm(LoL ~ Mundial, data = busquedas)
summary(regresion)
## 
## Call:
## lm(formula = LoL ~ Mundial, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.8759 -2.1570  0.2849  1.6609 14.7652 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  19.7098     1.7360  11.353 1.89e-15 ***
## Mundial       0.1214     0.0319   3.805 0.000387 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 50 degrees of freedom
## Multiple R-squared:  0.2246, Adjusted R-squared:  0.2091 
## F-statistic: 14.48 on 1 and 50 DF,  p-value: 0.0003873
  • Ecuacion de la recta de minimos cuadrados

\[ y = 19.7098 + 0.1214 x\] * Trazado de la recta de minimos cuadrados

plot(busquedas$Mundial, busquedas$LoL, xlab = "Busquedas de LoL", ylab = "Busquedas de Mundial")
abline(regresion)

confint(regresion)
##                   2.5 %     97.5 %
## (Intercept) 16.22290723 23.1967395
## Mundial      0.05730585  0.1854358
grado <- data.frame(Mundial = seq(0, 30))
predict(regresion, grado)
##        1        2        3        4        5        6        7        8 
## 19.70982 19.83119 19.95257 20.07394 20.19531 20.31668 20.43805 20.55942 
##        9       10       11       12       13       14       15       16 
## 20.68079 20.80216 20.92353 21.04490 21.16627 21.28764 21.40902 21.53039 
##       17       18       19       20       21       22       23       24 
## 21.65176 21.77313 21.89450 22.01587 22.13724 22.25861 22.37998 22.50135 
##       25       26       27       28       29       30       31 
## 22.62272 22.74409 22.86547 22.98684 23.10821 23.22958 23.35095
plot(busquedas$'Mundial', busquedas$LoL, xlab="Busquedas de Mundial", ylab="Busqueda de LoL")
abline(regresion)

intervaloConfianza <- predict(regresion, grado, interval= "confidence")
lines(grado$Mundial, intervaloConfianza[, 2], lty=2, col="red")
lines(grado$Mundial, intervaloConfianza[, 3], lty=2, col="red")

intervaloConfianza <- predict(regresion, grado, interval= "prediction")
lines(grado$Mundial, intervaloConfianza[, 2], lty=2, col="blue")
lines(grado$Mundial, intervaloConfianza[, 3], lty=2, col="blue")

En base al indice de correlacion de 0.93 la R2 de 0.87 y el ajuste de la recta, podemos inferir que los datos si estan relacionados. Sin embargo NO podemos aun realizar comprobacion de hipotesis o de casualidad.