setwd(“~/PyEitson”)

Inferencia estadística

Caso de estudio 1: ¿Están relacionadas las búsquedas de covid y cubrebocas en méxico en el año 2020?

Para esto se colectaron los ultimos 12 meses de datos de busquedas de google a través de la herramienta de google trends. trends.google.com

library(pacman)
p_load("readr","DT")
busquedas = read_csv("busquedas.csv", col_types = cols(covid = col_number(), cubrebocas = col_number()))
datatable(busquedas)

## Formulación de pregunta

Consideramos que los datos SI están relacionados,

Diagramas de dispersión

pairs(busquedas)

Matriz de coeficientes de correlacion

cor(busquedas)
##                covid cubrebocas
## covid      1.0000000  0.9365086
## cubrebocas 0.9365086  1.0000000

Recta de mínimos cuadrados

Se hace el ajuste de la tendencia de los puntos a un modelo linea (lm)

regresion = lm(covid ~ cubrebocas, data=busquedas)
summary(regresion)
## 
## Call:
## lm(formula = covid ~ cubrebocas, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -49.889  -3.412  -1.818  10.399  22.727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.818      2.936   0.619    0.539    
## cubrebocas     6.384      0.338  18.886   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.36 on 50 degrees of freedom
## Multiple R-squared:  0.877,  Adjusted R-squared:  0.8746 
## F-statistic: 356.7 on 1 and 50 DF,  p-value: < 2.2e-16

*Ecuación de la recta de numeros cuadrados

\[y = 2.1827 + 6.3078 x \] * Trazado de la recta de mínimos cuadrados

plot(busquedas$covid, busquedas$cubrebocas, xlab="Busquedas de covid", ylab="Busquedas de cubrebocas")
abline(regresion)

En base al índice de correlación de 0.93, la R2 de 0.87 y el ajuste de la recta, podemos inferir que los datos si están relacionados. Sin embargo no podemos aún realizar la comprobación de hipótesis o de causalidad.

mlb_futbol <- read_csv("C:/Users/Usuario/Documents/PyEitson/mlb_futbol.csv", 
     col_types = cols(MLB = col_number(), 
         FUTBOL = col_number()))
datatable(mlb_futbol)
pairs(mlb_futbol)

*Ecuación de la recta de numeros cuadrados

\[y = -0.7063 + 0.5379 x \]

cor(mlb_futbol)
##        MLB FUTBOL
## MLB      1     NA
## FUTBOL  NA      1
regresion = lm(MLB ~ FUTBOL, data=mlb_futbol)
summary(regresion)
## 
## Call:
## lm(formula = MLB ~ FUTBOL, data = mlb_futbol)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.474 -12.539  -2.547  10.165  56.064 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.7063     5.9313  -0.119 0.905690    
## FUTBOL        0.5379     0.1291   4.168 0.000122 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 19.33 on 50 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.2578, Adjusted R-squared:  0.243 
## F-statistic: 17.37 on 1 and 50 DF,  p-value: 0.0001219
plot(mlb_futbol$MLB, mlb_futbol$FUTBOL, xlab="Concurrencia MLB", ylab="Concurrencia FUTBOL")
abline(regresion)

En base a los datos obtenidos y el ajuste de la recta, podemos inferir que los datos no están relacionados. Sin embargo no podemos aún realizar la comprobación de hipótesis o de causalidad.