setwd(“~/PyEitson”)
Para esto se colectaron los ultimos 12 meses de datos de busquedas de google a través de la herramienta de google trends. trends.google.com
library(pacman)
p_load("readr","DT")
busquedas = read_csv("busquedas.csv", col_types = cols(covid = col_number(), cubrebocas = col_number()))
datatable(busquedas)
## Formulación de pregunta
Consideramos que los datos SI están relacionados,
pairs(busquedas)
cor(busquedas)
## covid cubrebocas
## covid 1.0000000 0.9365086
## cubrebocas 0.9365086 1.0000000
Se hace el ajuste de la tendencia de los puntos a un modelo linea (lm)
regresion = lm(covid ~ cubrebocas, data=busquedas)
summary(regresion)
##
## Call:
## lm(formula = covid ~ cubrebocas, data = busquedas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -49.889 -3.412 -1.818 10.399 22.727
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.818 2.936 0.619 0.539
## cubrebocas 6.384 0.338 18.886 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.36 on 50 degrees of freedom
## Multiple R-squared: 0.877, Adjusted R-squared: 0.8746
## F-statistic: 356.7 on 1 and 50 DF, p-value: < 2.2e-16
*Ecuación de la recta de numeros cuadrados
\[y = 2.1827 + 6.3078 x \] * Trazado de la recta de mínimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab="Busquedas de covid", ylab="Busquedas de cubrebocas")
abline(regresion)
En base al índice de correlación de 0.93, la R2 de 0.87 y el ajuste de la recta, podemos inferir que los datos si están relacionados. Sin embargo no podemos aún realizar la comprobación de hipótesis o de causalidad.
mlb_futbol <- read_csv("C:/Users/Usuario/Documents/PyEitson/mlb_futbol.csv",
col_types = cols(MLB = col_number(),
FUTBOL = col_number()))
datatable(mlb_futbol)
pairs(mlb_futbol)
*Ecuación de la recta de numeros cuadrados
\[y = -0.7063 + 0.5379 x \]
cor(mlb_futbol)
## MLB FUTBOL
## MLB 1 NA
## FUTBOL NA 1
regresion = lm(MLB ~ FUTBOL, data=mlb_futbol)
summary(regresion)
##
## Call:
## lm(formula = MLB ~ FUTBOL, data = mlb_futbol)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36.474 -12.539 -2.547 10.165 56.064
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.7063 5.9313 -0.119 0.905690
## FUTBOL 0.5379 0.1291 4.168 0.000122 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 19.33 on 50 degrees of freedom
## (2 observations deleted due to missingness)
## Multiple R-squared: 0.2578, Adjusted R-squared: 0.243
## F-statistic: 17.37 on 1 and 50 DF, p-value: 0.0001219
plot(mlb_futbol$MLB, mlb_futbol$FUTBOL, xlab="Concurrencia MLB", ylab="Concurrencia FUTBOL")
abline(regresion)
En base a los datos obtenidos y el ajuste de la recta, podemos inferir que los datos no están relacionados. Sin embargo no podemos aún realizar la comprobación de hipótesis o de causalidad.