U1A12

VictorCarvajalRomán

25/9/2020


Inferencia estadística

Caso de estudio 1

¿Tienen relación las búsquedas en México de cubrebocas y covid?

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

Google Trends México, Covid vs Cubrebocas

  • Colectar datos
library(pacman)
p_load("readr","DT","prettydoc")
busquedas <- read_csv("busquedas.csv", col_types = cols(covid = col_number(), 
    cubrebocas = col_number()))
View(busquedas)
head(busquedas)
## # A tibble: 6 x 2
##   covid cubrebocas
##   <dbl>      <dbl>
## 1     0          0
## 2     0          0
## 3     0          0
## 4     0          0
## 5     0          0
## 6     0          0
datatable(busquedas)

¿Están relacionados los datos?

  • Matriz de diagramas de dispersión
pairs(busquedas)

  • Matriz de coeficientes de correlación
cor(busquedas)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Trazado de la recta de mínimos cuadrados
regresion <- lm(cubrebocas ~ covid, data = busquedas)
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta

\[ y= 0.495288 + 0.138774x \]

  • Trazado de la recta de mínimos cuadrados
plot(busquedas$covid,busquedas$cubrebocas, xlab="Búsquedas de covid", ylab="Búsquedas de cubrebocas")
#plot(x,y), comando de gráfica
abline(regresion)

  • Comparación de proporciones de los datos
boxplot(busquedas$covid, busquedas$cubrebocas, col="grey")

boxplot(busquedas$covid ~ busquedas$cubrebocas, col="grey")

  • Análisis de tendencia central
#Resumen
summary(busquedas$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedas$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
#Desviación estándar
sd(busquedas$covid)
## [1] 40.54547
sd(busquedas$cubrebocas)
## [1] 6.013904

Importancia del uso de cubrebocas para prevenir el contagio de COVID-19

¿Qué podemos concluir con esto? Que las variables SI están relacionadas (en un 93.56%), pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relación las búsquedas en México de Trump y Estados Unidos?

Mi hipótesis nula es que SI tienen relación dado que Trump es el presidente de Estados Unidos, y toda acción que él haga bajo ese mando afecta de una manera u otra al país, o genera polémica en este, atrayendo interés de la población para hacer ambas búsquedas

Google Trends México, Trump vs Estados Unidos

  • Colectar datos
busquedas_USA <- read_csv("multiTimelinetrump.csv", 
    col_types = cols(Trump = col_number(), 
        `EstadosUnidos` = col_number()))
View(busquedas_USA)
head(busquedas_USA)
## # A tibble: 6 x 2
##   Trump EstadosUnidos
##   <dbl>         <dbl>
## 1     9            37
## 2     8            40
## 3     7            38
## 4     6            41
## 5     9            33
## 6     9            40
datatable(busquedas_USA)

¿Están relacionados los datos?

  • Matriz de diagramas de dispersión
pairs(busquedas_USA)

  • Matriz de coeficientes de correlación
cor(busquedas_USA) #Índice de correlación
##                   Trump EstadosUnidos
## Trump         1.0000000     0.6512274
## EstadosUnidos 0.6512274     1.0000000
  • Trazado de la recta de mínimos cuadrados
regresion_USA <- lm(EstadosUnidos ~ Trump, data = busquedas_USA)
summary(regresion_USA)
## 
## Call:
## lm(formula = EstadosUnidos ~ Trump, data = busquedas_USA)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -27.448  -4.737  -1.046   5.577  33.205 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  32.7541     2.1708  15.088  < 2e-16 ***
## Trump         0.8729     0.1438   6.068 1.72e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.519 on 50 degrees of freedom
## Multiple R-squared:  0.4241, Adjusted R-squared:  0.4126 
## F-statistic: 36.82 on 1 and 50 DF,  p-value: 1.716e-07
  • Ecuación de la recta

\[ y= 32.7541 + 0.8729x \]

  • Trazado de la recta de mínimos cuadrados
plot(busquedas_USA$Trump,busquedas_USA$EstadosUnidos, xlab="Búsquedas de Trump", ylab="Búsquedas de Estados Unidos")
#plot(x,y), comando de gráfica
abline(regresion_USA)

  • Comparación de proporciones de los datos
boxplot(busquedas_USA$Trump, busquedas_USA$EstadosUnidos, col="blue")

boxplot(busquedas_USA$Trump ~ busquedas_USA$EstadosUnidos, col="blue")

  • Análisis de tendencia central
#Resumen
summary(busquedas_USA$Trump)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00    8.00    9.00   11.98   12.25   57.00
summary(busquedas_USA$EstadosUnidos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   26.00   36.75   39.00   43.21   46.25  100.00
  • Análisis de dispersión
#Desviación estándar
sd(busquedas_USA$Trump)
## [1] 9.266195
sd(busquedas_USA$EstadosUnidos)
## [1] 12.41968

Donald Trump, Presidente de Estados Unidos de América

¿Qué podemos concluir con esto? Podemos concluir que sí existe cierta correlación entre ambas búsquedas pues en nuestro análisis obtuvimos un índice del 65.12% de correlación. Sin embargo, estos datos no son sucientes para concluir que existe una causalidad. Puesto que la gente puede hacer una u otra búsqueda, y no hacer la otra.