U1A12

Marijose González del Real

25/Sep/2020

Inferencia estadística

Caso de estudio 1

¿Tienen relación las búsquedas en México de cubrebocas y covid?

Cubrebocas

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

  • Colectar datos
library(pacman)
p_load("readr", "DT")
busquedas <- read_csv("busquedas.csv", 
    col_types = cols(covid = col_number(), 
        cubrebocas = col_number()))
View(busquedas)
head(busquedas)
## # A tibble: 6 x 2
##   covid cubrebocas
##   <dbl>      <dbl>
## 1     0          0
## 2     0          0
## 3     0          0
## 4     0          0
## 5     0          0
## 6     0          0
datatable(busquedas)
  • ¿Están relacionados los datos?

  • Matríz de diagrama de dispersión

pairs(busquedas)

  • Matríz de coeficiente de correlación
cor(busquedas)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Trazado de la recta de mínimos cuadrados
regresion <- lm(cubrebocas ~ covid, data=busquedas)
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774 x \]

  • Trazado de la recta de mínimos cuadrados
plot(busquedas$covid, busquedas$cubrebocas, xlab="Búsquedas de covid", ylab="Búsquedas de cubrebocas")
abline(regresion)

  • Comparación de proporciones de los datos
boxplot(busquedas$covid ~ busquedas$cubrebocas, col="grey")

  • Análisis de tendencia central
summary(busquedas$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedas$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedas$covid)
## [1] 40.54547
sd(busquedas$cubrebocas)
## [1] 6.013904

¿Qué podemos concluir con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relación las búsquedas en México de cómo bajar de peso y ejercicios para bajar de peso?

Bajar de peso

La hipótesis plantea que si una persona busca cómo bajar de peso, deberá aparecer entre ellas la solución de hacer ejercicio. Por consiguiente, se buscarán ejercicios para bajar de peso, creando así una relación entre ambas búsquedas

  • Colectar datos
library(pacman)
p_load("readr", "DT")
peso <- read_csv("peso.csv", col_types = cols(pregunta = col_number(), 
    solucion = col_number()))
View(peso)
head(peso)
## # A tibble: 6 x 2
##   pregunta solucion
##      <dbl>    <dbl>
## 1       87       14
## 2       87       11
## 3       96       13
## 4       95       13
## 5       89       10
## 6      100       12
datatable(peso)
  • ¿Están relacionados los datos?

  • Matríz de diagrama de dispersión

pairs(peso)

  • Matríz de coeficiente de correlación
cor(peso)
##           pregunta  solucion
## pregunta 1.0000000 0.6428499
## solucion 0.6428499 1.0000000
  • Trazado de la recta de mínimos cuadrados
regresion <- lm(solucion ~ pregunta, data=peso)
summary(regresion)
## 
## Call:
## lm(formula = solucion ~ pregunta, data = peso)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.7001 -2.2384 -0.5632  1.7269 11.4368 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.46828    0.73799    1.99   0.0477 *  
## pregunta     0.16241    0.01202   13.51   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.285 on 259 degrees of freedom
## Multiple R-squared:  0.4133, Adjusted R-squared:  0.411 
## F-statistic: 182.4 on 1 and 259 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 1.468286 + 0.16241 x \]

  • Trazado de la recta de mínimos cuadrados
plot(peso$pregunta, peso$solucion, xlab="Búsquedas de cómo bajar de peso", ylab="Búsquedas de ejercicios para bajar de peso")
abline(regresion)

  • Comparación de proporciones de los datos
boxplot(peso$pregunta ~ peso$solucion, col="grey")

  • Análisis de tendencia central
summary(peso$pregunta)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      29      46      55      59      70     100
summary(peso$solucion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.00    8.00   10.00   11.05   14.00   26.00
  • Análisis de dispersión
sd(peso$pregunta)
## [1] 16.94391
sd(peso$solucion)
## [1] 4.280705

¿Qué podemos concluir con esto?

Existe una relación entre las variables de la pregunta y la solución, debido a que se tiene un coeficiente de correlación de 0.6428499, el cual es significativo. Sin embargo, se puede decir que NO todas las personas que buscan cómo bajar de peso, buscarán ejercicios para bajar de peso, ya que pueden buscar otras soluciones como el hacer dietas, ir al nutriólogo, evitar ciertos alimentos, entre otras. Puede ser evidente que no exista una causalidad pero aún hay probabilidades que exista una por lógica.