Inferencia estadística
Caso de estudio 1
¿Tienen relacion las búsquedas en México de cubrebocas y covid?
Cubrebocas
Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas
- Colectar datos
library(pacman)
p_load("readr","DT")
busquedas <- read_csv("busquedas.csv", col_types = cols(covid = col_number(),
cubrebocas = col_number()))
datatable(busquedas)- ¿Están relacionados los datos?
Matriz de diagramas de dispersión
- Matriz de coeficientes de correlación
## covid cubrebocas
## covid 1.0000000 0.9356061
## cubrebocas 0.9356061 1.0000000
- Recta de mínimos cuadrados
##
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8747 -1.2513 -0.4953 0.5047 7.0884
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.495288 0.433409 1.143 0.259
## covid 0.138774 0.007406 18.739 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared: 0.8754, Adjusted R-squared: 0.8729
## F-statistic: 351.2 on 1 and 50 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cuadrados
\[ y = 0.495288 + 0.138774x \]
- Trazado de la recta de minimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab="Busquedas de covid", ylab="busquedas de cubrebocas")
abline(regresion)- Comparacion de proporciones de los datos
- Análisis de tendencia central
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 49.50 42.58 82.25 100.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 7.500 6.404 11.000 21.000
- Análisis de dispersión
## [1] 40.54547
## [1] 6.013904
¿Qué podemos concluír con esto?
Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.
Caso de estudio 2
¿Tienen relacion las búsquedas en México de Halloween y disfraces?
Halloween
Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en Halloween, la gente también busca disfraces
- Colectar datos
library(readr)
caso2 <- read_csv("caso2.csv", col_types = cols(halloween = col_number(),
disfraces = col_number()))
datatable(caso2)- ¿Están relacionados los datos?
Matriz de diagramas de dispersión
- Matriz de coeficientes de correlación
## halloween disfraces
## halloween 1.0000000 0.9757122
## disfraces 0.9757122 1.0000000
- Recta de mínimos cuadrados
##
## Call:
## lm(formula = disfraces ~ halloween, data = caso2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.414 -0.573 -0.573 0.427 6.345
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.12936 0.09077 12.44 <2e-16 ***
## halloween 0.44360 0.00620 71.54 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.361 on 258 degrees of freedom
## Multiple R-squared: 0.952, Adjusted R-squared: 0.9518
## F-statistic: 5119 on 1 and 258 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cuadrados
\[ y = 1.12936 + 0.44360x \]
- Trazado de la recta de minimos cuadrados
plot(caso2$halloween, caso2$disfraces, xlab="Busquedas de Halloween", ylab="busquedas de disfraces")
abline(regresion)- Comparacion de proporciones de los datos
boxplot(caso2$halloween ~ caso2$disfraces, col="orange", xlab="Busquedas de disfraces", ylab = "busquedas de Halloween")- Análisis de tendencia central
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 5.396 2.000 100.000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 2.000 3.523 2.000 42.000
- Análisis de dispersión
## [1] 13.63509
## [1] 6.199035
¿Qué podemos concluír con esto?
Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.