Inferencia estadística

Caso de estudio 1

¿Tienen relación las búsqueda en México sw cubrebocas y covid?

Mi hipótesis nula es que si tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

Covid-19 y Cubrebocas

  • Colectar datos
library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("busquedas.csv", col_types = cols(covid = col_number(), 
    cubrebocas = col_number()))
datatable(busquedas)

* ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedas)

* Matriz de coeficientes de correlación

cor(busquedas)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Recta de mínimos cuadrados
regresion <- lm(cubrebocas ~ covid, data = busquedas)
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de mínimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab = "Búsquedas de covid", ylab = "Búsquedas de cubrebocas")
abline(regresion)

  • Comparación de proporciones de los datos
boxplot(busquedas$covid ~ busquedas$cubrebocas, col="grey")

* Análisis de tendencia central

summary(busquedas$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedas$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedas$covid)
## [1] 40.54547
sd(busquedas$cubrebocas)
## [1] 6.013904

¿Qué podemos concluir con esto?

Que las variables SI están relacionadas, pero NO se puede inferir que existe una causalidad a ciencia cierta.

Caso de estudio 2

Mi hipótesis nula es que si tienen relación las búsquedas de las palabras “carro” y “seguro” en México en los últimos 17 años, ya que generalmente cuando alguien desea investigar las características de un automóvil o carro que está por adquirir también invesiga sobre el seguro del mismo.

Familia adquiriendo un auto nuevo

  • Colectar datos
library(pacman)
p_load("readr", "DT")
busquedas1 <- read_csv("carro.csv", col_types = cols(carro = col_number(), 
    seguro = col_number()))
datatable(busquedas1)

* ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedas1)

* Matriz de coeficientes de correlación

cor(busquedas1)
##            carro    seguro
## carro  1.0000000 0.8991033
## seguro 0.8991033 1.0000000
  • Recta de mínimos cuadrados
regresion <- lm(seguro ~ carro, data = busquedas1)
summary(regresion)
## 
## Call:
## lm(formula = seguro ~ carro, data = busquedas1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -16.7125  -4.1826  -0.0984   3.9993  21.4071 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 25.59049    1.15450   22.17   <2e-16 ***
## carro        0.63858    0.02204   28.98   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.713 on 199 degrees of freedom
## Multiple R-squared:  0.8084, Adjusted R-squared:  0.8074 
## F-statistic: 839.6 on 1 and 199 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de mínimos cuadrados
plot(busquedas1$carro, busquedas1$seguro, xlab="Busquedas de carro", ylab="busquedas de seguro")
abline(regresion)

  • Comparación de proporciones de los datos
boxplot(busquedas1$carro ~ busquedas1$seguro, col="grey")

* Análisis de tendencia central

summary(busquedas1$carro)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   29.00   42.00   47.78   69.00   93.00
summary(busquedas1$seguro)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    29.0    45.0    50.0    56.1    66.0   100.0
  • Análisis de dispersión
#Desviación estándar de los datos
sd(busquedas1$carro)
## [1] 21.53775
sd(busquedas1$seguro)
## [1] 15.29706

¿Qué podemos concluir con esto?

Que las variables si se encuentran relacionadas entre sí, pero al igual que en el caso anterior, no se puede asegurar de manera exacta que una causa a la otra.

Redacción personal

Tal como se indica en ambos casos de estudio y de la misma forma que se ha estado discutiendo en clase, el que una variable esté relacionada no necesariamente signifca que sea a causa de otra, por lo que en esta actividad únicamente se hace un análisis de la relación que existe entre ambas. En el caso de estudio de 2, puede intuirse que si tiene sentido que exista esa relación entre las variables, pues efectivamente cuando una persona desea adquirir un nuevo automóvil, es normal que investigue ciertas características, algunas especificaciones técnicas y otras como el seguro ante daños que ofrece. Sin embargo, el término “seguro” es una palabra muy general, por lo cual puede ser que no todas esas búsquedas sean consecuancia del aumento de las búsquedas de la palabra “carro”.