U1A12

Jorge Valenzuela Parra

25/9/2020


Inferencia estadística

Caso de estudio 1

¿Tienen relación las búsquedas en México de cubrebocas y covid?

Mi hipótesis es nula es que SI se tienen relación dado que cuando existe interés de búsqueda en COVID, la gente también busca informarse de cubrebocas

  • Colectar datos
library(pacman)
p_load("readr", "DT", "prettydoc")
busquedas <- read_csv("busquedas.csv", col_types = cols(covid = col_number(), 
    cubrebocas = col_number()))
  • ¿Están los datos relacionados?

Matriz de diagramas de dispersión

pairs(busquedas)

  • Matriz de coeficientes de correlación
cor(busquedas)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Trazado de la recta de mínimos cuadrados
regresion <- lm(cubrebocas ~ covid, data=busquedas)
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de mínimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab="Busquedas de COVID", ylab="Busquedas de cubrebocas")
abline(regresion)

  • Comparación de proporciones de los datos
boxplot(busquedas$covid ~ busquedas$cubrebocas, col = "pink")

  • Análisis de tendencia central
summary(busquedas$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedas$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedas$covid)
## [1] 40.54547
sd(busquedas$cubrebocas)
## [1] 6.013904

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relación las búsquedas en el mundo del mercado de fichajes y transfermarkt? Transfermarkt es una página en la que se archivan las estadísticas y calculan precios de los jugadores de futbol.

El mercado de fichajes son dos fechas al año en en Europa en las que pueden haber transacciones (compra, venta, préstamo) de jugadores entre los equipos europeos y del mundo. Estandarizado esto en casi todos los continentes.

Mi hipótesis es que SI tienen relación esas búsquedas, pues los equipos empiezan por buscar precios en Transfermarkt, cuando son las fechas del mercado de fichajes, a la vez que las personas hacen la misma búsqueda para informarse de las ventas de jugadores

  • Colectar datos
library(readr) #DATOS DE LAS BUSQUEDAS DE SEPTIEMBRE DE 2019 A SEPTIEMBRE DE 2020
u1a12 <- read_csv("u1a12.csv", col_types = cols(transfer = col_number(), 
    mercado = col_number()))
  • ¿Están los datos relacionados?

Matriz de diagramas de dispersión

pairs(u1a12)

Sí están relacionadas, una respecto a la otra.

  • Matriz de coeficientes de correlación
cor(u1a12)
##          transfer  mercado
## transfer 1.000000 0.942286
## mercado  0.942286 1.000000

En efecto, esta respuesta nos dice que si están muy relacionadas las búsquedas entre estas dos variables.

  • Trazado de la recta de mínimos cuadrados
regr <- lm(mercado ~ transfer, data=u1a12)
summary(regr)
## 
## Call:
## lm(formula = mercado ~ transfer, data = u1a12)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -17.5126  -5.4865  -0.0015   5.7541  20.7189 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -21.62147    3.19378   -6.77 1.38e-08 ***
## transfer      1.82835    0.09187   19.90  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.629 on 50 degrees of freedom
## Multiple R-squared:  0.8879, Adjusted R-squared:  0.8857 
## F-statistic:   396 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = -21.62147 + 1.82835x \]

  • Trazado de la recta de mínimos cuadrados
plot(u1a12$transfer, u1a12$mercado, xlab="Busquedas de Transfermarkt", ylab="Busquedas de mercado de fichajes")
abline(regr)

  • Comparación de proporciones de los datos
boxplot(u1a12$transfer ~ u1a12$mercado, col = "purple")

  • Análisis de tendencia central
summary(u1a12$transfer)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   22.00   27.00   32.23   43.00   58.00
summary(u1a12$mercado)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   20.75   24.50   37.31   46.75  100.00
  • Análisis de dispersión
sd(u1a12$transfer)
## [1] 13.15163
sd(u1a12$mercado)
## [1] 25.51857
  • Conclusión Las variables SI están relacionadas, y se puede inferir que se busca Transfermarkt en los mismos tiempos que el mercado de fichajes, ya que cuando el mercado de fichajes se abre y hay más búsqueda de información de los jugadores.