Inferencia estadística
Caso de estudio 1
¿Tienen relacion las búsquedas en México de cubrebocas y covid?
Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas
- Colectar datos
library(pacman)
p_load("readr","DT")
setwd("~/PYE1112ADITSON")
busquedasg <- read_csv("busquedasg.csv",
col_types = cols(covid = col_number(),
cubrebocas = col_number()))
datatable(busquedasg)- ¿Están relacionados los datos?
Matriz de diagramas de dispersión
- Matriz de coeficientes de correlación
## covid cubrebocas
## covid 1.0000000 0.9356061
## cubrebocas 0.9356061 1.0000000
- Recta de mínimos cuadrados
##
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedasg)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8747 -1.2513 -0.4953 0.5047 7.0884
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.495288 0.433409 1.143 0.259
## covid 0.138774 0.007406 18.739 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared: 0.8754, Adjusted R-squared: 0.8729
## F-statistic: 351.2 on 1 and 50 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cuadrados
\[ y = 0.495288 + 0.138774x \]
- Trazado de la recta de minimos cuadrados
plot(busquedasg$covid, busquedasg$cubrebocas, xlab="Busquedas de covid", ylab="busquedas de cubrebocas")
abline(regresion)- Comparacion de proporciones de los datos
- Análisis de tendencia central
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 49.50 42.58 82.25 100.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 7.500 6.404 11.000 21.000
- Análisis de dispersión
## [1] 40.54547
## [1] 6.013904
¿Qué podemos concluír con esto?
Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.
Caso de estudio 2
¿Tienen relacion las búsquedas en México de La Liga de futbol española y el Futbol Club Barcelona?
Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en La Liga de futbol Española, las personas también buscan partidos y/o datos sobre el FC Barcelona
- Colectar datos
library(readr)
busquedau1a12 <- read_csv("busquedau1a12.csv",
col_types = cols(LaLiga = col_number(),
`FC Barcelona` = col_number()))
datatable(busquedau1a12)- ¿Están relacionados los datos?
Matriz de diagramas de dispersión
Fútbol Club Barcelona
- Matriz de coeficientes de correlación
## LaLiga FC Barcelona
## LaLiga 1.0000000 0.5334979
## FC Barcelona 0.5334979 1.0000000
- Recta de mínimos cuadrados
##
## Call:
## lm(formula = `FC Barcelona` ~ LaLiga, data = busquedau1a12)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.333 -9.245 -6.503 1.279 75.034
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.2400 4.6486 1.557 0.126
## LaLiga 0.8842 0.1982 4.460 4.65e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.24 on 50 degrees of freedom
## Multiple R-squared: 0.2846, Adjusted R-squared: 0.2703
## F-statistic: 19.89 on 1 and 50 DF, p-value: 4.651e-05
- Ecuación de la recta de mínimos cuadrados
\[ y = 7.2400 + 0.8842x \]
- Trazado de la recta de minimos cuadrados
plot(busquedau1a12$LaLiga, busquedau1a12$`FC Barcelona`, xlab="Busquedas de LaLiga", ylab="Busquedas de FC Barcelona")
abline(regresion1)- Comparacion de proporciones de los datos
- Análisis de tendencia central
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 9.75 17.50 19.67 25.50 54.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 9.25 20.00 24.63 33.25 100.00
- Análisis de dispersión
## [1] 12.8852
## [1] 21.3551
¿Qué podemos concluír con esto?
Puedo concluir que si existe cierta relación entre ambos temas de búsqueda, ya que el índice de correlación lineal es del 53%, más sin embargo, esté no es muy alto, lo que me incita a pensar que no hay una causalidad.