U1A12

Silvia Flores

27/9/2020

setwd("~/probabilidadyestadistica")

Inferencia estadística

Caso de estudio 1

¿Tienen relacion las búsquedas en México de cubrebocas y covid?

Cubrebocas

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

  • Colectar datos
library(pacman)
p_load("readr","DT")

busquedas <- read_csv("busquedas.csv", col_types = cols(covid = col_number(), 
    cubrebocas = col_number()))
datatable(busquedas)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedas)

  • Matriz de coeficientes de correlación
cor(busquedas)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Recta de mínimos cuadrados
regresion <-lm(cubrebocas ~ covid, data=busquedas )
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab="Busquedas de covid", ylab="busquedas de cubrebocas")
abline(regresion)

  • Comparacion de proporciones de los datos
boxplot(busquedas$covid ~ busquedas$cubrebocas, col="grey")

  • Análisis de tendencia central
summary(busquedas$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedas$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedas$covid)
## [1] 40.54547
sd(busquedas$cubrebocas)
## [1] 6.013904

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relacion las búsquedas en México de Halloween y disfraces?

Halloween

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en Halloween, la gente también busca disfraces

  • Colectar datos
library(readr)
caso2 <- read_csv("caso2.csv", col_types = cols(halloween = col_number(), 
    disfraces = col_number()))
datatable(caso2)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(caso2)

  • Matriz de coeficientes de correlación
cor(caso2)
##           halloween disfraces
## halloween 1.0000000 0.9757122
## disfraces 0.9757122 1.0000000
  • Recta de mínimos cuadrados
regresion <-lm(disfraces ~ halloween, data=caso2 )
summary(regresion)
## 
## Call:
## lm(formula = disfraces ~ halloween, data = caso2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -6.414 -0.573 -0.573  0.427  6.345 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.12936    0.09077   12.44   <2e-16 ***
## halloween    0.44360    0.00620   71.54   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.361 on 258 degrees of freedom
## Multiple R-squared:  0.952,  Adjusted R-squared:  0.9518 
## F-statistic:  5119 on 1 and 258 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 1.12936 + 0.44360x \]

  • Trazado de la recta de minimos cuadrados
plot(caso2$halloween, caso2$disfraces, xlab="Busquedas de Halloween", ylab="busquedas de disfraces")
abline(regresion)

  • Comparacion de proporciones de los datos
boxplot(caso2$halloween ~ caso2$disfraces, col="orange", xlab="Busquedas de disfraces", ylab = "busquedas de Halloween")

  • Análisis de tendencia central
summary(caso2$halloween)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.000   1.000   5.396   2.000 100.000
summary(caso2$disfraces)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   2.000   3.523   2.000  42.000
  • Análisis de dispersión
sd(caso2$halloween)
## [1] 13.63509
sd(caso2$disfraces)
## [1] 6.199035

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.