U1A12

Javier Salgueiro

27/09/2020

Inferencia estadística

Caso de estudio 1

¿Tienen relacion las búsquedas en México de cubrebocas y covid?

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

  • Colectar datos
library(pacman)
p_load("readr","DT")
setwd("~/PYE1112ADITSON")

busquedasg <- read_csv("busquedasg.csv", 
    col_types = cols(covid = col_number(), 
        cubrebocas = col_number()))
datatable(busquedasg)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedasg)

  • Matriz de coeficientes de correlación
cor(busquedasg)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Recta de mínimos cuadrados
regresion <-lm(cubrebocas ~ covid, data=busquedasg )
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedasg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedasg$covid, busquedasg$cubrebocas, xlab="Busquedas de covid", ylab="busquedas de cubrebocas")
abline(regresion)

  • Comparacion de proporciones de los datos
boxplot(busquedasg$covid ~ busquedasg$cubrebocas, col="violet")

  • Análisis de tendencia central
summary(busquedasg$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedasg$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedasg$covid)
## [1] 40.54547
sd(busquedasg$cubrebocas)
## [1] 6.013904

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relacion las búsquedas en México de La Liga de futbol española y el Futbol Club Barcelona?

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en La Liga de futbol Española, las personas también buscan partidos y/o datos sobre el FC Barcelona

  • Colectar datos
library(readr)
busquedau1a12 <- read_csv("busquedau1a12.csv", 
    col_types = cols(LaLiga = col_number(), 
        `FC Barcelona` = col_number()))
datatable(busquedau1a12)

  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedau1a12)

Fútbol Club Barcelona

  • Matriz de coeficientes de correlación
cor(busquedau1a12)
##                 LaLiga FC Barcelona
## LaLiga       1.0000000    0.5334979
## FC Barcelona 0.5334979    1.0000000
  • Recta de mínimos cuadrados
regresion1 <-lm(`FC Barcelona` ~ LaLiga, data=busquedau1a12 )
summary(regresion1)
## 
## Call:
## lm(formula = `FC Barcelona` ~ LaLiga, data = busquedau1a12)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -25.333  -9.245  -6.503   1.279  75.034 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   7.2400     4.6486   1.557    0.126    
## LaLiga        0.8842     0.1982   4.460 4.65e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.24 on 50 degrees of freedom
## Multiple R-squared:  0.2846, Adjusted R-squared:  0.2703 
## F-statistic: 19.89 on 1 and 50 DF,  p-value: 4.651e-05
  • Ecuación de la recta de mínimos cuadrados

\[ y = 7.2400 + 0.8842x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedau1a12$LaLiga, busquedau1a12$`FC Barcelona`, xlab="Busquedas de LaLiga", ylab="Busquedas de FC Barcelona")
abline(regresion1)

  • Comparacion de proporciones de los datos
boxplot(busquedau1a12$LaLiga ~ busquedau1a12$`FC Barcelona`, col="violet")

  • Análisis de tendencia central
summary(busquedau1a12$LaLiga)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    9.75   17.50   19.67   25.50   54.00
summary(busquedau1a12$`FC Barcelona`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    9.25   20.00   24.63   33.25  100.00
  • Análisis de dispersión
sd(busquedau1a12$LaLiga)
## [1] 12.8852
sd(busquedau1a12$`FC Barcelona`)
## [1] 21.3551

¿Qué podemos concluír con esto?

Puedo concluir que si existe cierta relación entre ambos temas de búsqueda, ya que el índice de correlación lineal es del 53%, más sin embargo, esté no es muy alto, lo que me incita a pensar que no hay una causalidad.