Inferencia estadística
Caso de estudio 1
¿Tienen relación las búsqueda en México sw cubrebocas y covid?
Mi hipótesis nula es que si tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas
Covid-19 y Cubrebocas
- Colectar datos
library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("busquedas.csv", col_types = cols(covid = col_number(),
cubrebocas = col_number()))
datatable(busquedas)Matriz de diagramas de dispersión
* Matriz de coeficientes de correlación
## covid cubrebocas
## covid 1.0000000 0.9356061
## cubrebocas 0.9356061 1.0000000
- Recta de mínimos cuadrados
##
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8747 -1.2513 -0.4953 0.5047 7.0884
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.495288 0.433409 1.143 0.259
## covid 0.138774 0.007406 18.739 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared: 0.8754, Adjusted R-squared: 0.8729
## F-statistic: 351.2 on 1 and 50 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cuadrados
\[ y = 0.495288 + 0.138774x \]
- Trazado de la recta de mínimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab = "Búsquedas de covid", ylab = "Búsquedas de cubrebocas")
abline(regresion)- Comparación de proporciones de los datos
* Análisis de tendencia central
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 49.50 42.58 82.25 100.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 7.500 6.404 11.000 21.000
- Análisis de dispersión
## [1] 40.54547
## [1] 6.013904
¿Qué podemos concluir con esto?
Que las variables SI están relacionadas, pero NO se puede inferir que existe una causalidad a ciencia cierta.
Caso de estudio 2
Mi hipótesis nula es que si tienen relación las búsquedas de las palabras “carro” y “seguro” en México en los últimos 17 años, ya que generalmente cuando alguien desea investigar las características de un automóvil o carro que está por adquirir también invesiga sobre el seguro del mismo.
Familia adquiriendo un auto nuevo
- Colectar datos
library(pacman)
p_load("readr", "DT")
busquedas1 <- read_csv("carro.csv", col_types = cols(carro = col_number(),
seguro = col_number()))
datatable(busquedas1)Matriz de diagramas de dispersión
* Matriz de coeficientes de correlación
## carro seguro
## carro 1.0000000 0.8991033
## seguro 0.8991033 1.0000000
- Recta de mínimos cuadrados
##
## Call:
## lm(formula = seguro ~ carro, data = busquedas1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.7125 -4.1826 -0.0984 3.9993 21.4071
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 25.59049 1.15450 22.17 <2e-16 ***
## carro 0.63858 0.02204 28.98 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.713 on 199 degrees of freedom
## Multiple R-squared: 0.8084, Adjusted R-squared: 0.8074
## F-statistic: 839.6 on 1 and 199 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cuadrados
\[ y = 0.495288 + 0.138774x \]
- Trazado de la recta de mínimos cuadrados
plot(busquedas1$carro, busquedas1$seguro, xlab="Busquedas de carro", ylab="busquedas de seguro")
abline(regresion)- Comparación de proporciones de los datos
* Análisis de tendencia central
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 29.00 42.00 47.78 69.00 93.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 29.0 45.0 50.0 56.1 66.0 100.0
- Análisis de dispersión
## [1] 21.53775
## [1] 15.29706
¿Qué podemos concluir con esto?
Que las variables si se encuentran relacionadas entre sí, pero al igual que en el caso anterior, no se puede asegurar de manera exacta que una causa a la otra.
Redacción personal
Tal como se indica en ambos casos de estudio y de la misma forma que se ha estado discutiendo en clase, el que una variable esté relacionada no necesariamente signifca que sea a causa de otra, por lo que en esta actividad únicamente se hace un análisis de la relación que existe entre ambas. En el caso de estudio de 2, puede intuirse que si tiene sentido que exista esa relación entre las variables, pues efectivamente cuando una persona desea adquirir un nuevo automóvil, es normal que investigue ciertas características, algunas especificaciones técnicas y otras como el seguro ante daños que ofrece. Sin embargo, el término “seguro” es una palabra muy general, por lo cual puede ser que no todas esas búsquedas sean consecuancia del aumento de las búsquedas de la palabra “carro”.