U1A12

Jose Ibarra

9/27/2020

library(pacman)
p_load("prettydoc")

Inferencia estadística

Caso de estudio 1

¿Tienen relacion las búsquedas en México de cubrebocas y covid?

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

  • Colectar datos
library(pacman)
p_load("readr","DT")
busquedasg <- read_csv("busquedasg.csv", 
    col_types = cols(covid = col_number(), 
        cubrebocas = col_number()))
datatable(busquedasg)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedasg)

  • Matriz de coeficientes de correlación
cor(busquedasg)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Recta de mínimos cuadrados
regresion <-lm(cubrebocas ~ covid, data=busquedasg )
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedasg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedasg$covid, busquedasg$cubrebocas, xlab="Busquedas de covid", ylab="busquedas de cubrebocas")
abline(regresion)

  • Comparacion de proporciones de los datos
boxplot(busquedasg$covid ~ busquedasg$cubrebocas, col="grey")

  • Análisis de tendencia central
summary(busquedasg$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedasg$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedasg$covid)
## [1] 40.54547
sd(busquedasg$cubrebocas)
## [1] 6.013904

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relacion las búsquedas en México de la aplicacion Zoom y la Escuela en los ultimos 3 meses?

Mi hipótesis nula es que si tienen una relación ya que la aplicación zoom es una de las aplicaciones más usadas por los estudiantes, y por eso es muy probable que los datos estén relacionados

Zoom

  • Colectar datos
library(pacman)
p_load("readr","DT")
busquedasg2 <- read_csv("busquedasg2.csv", 
    col_types = cols(ZoomVideo = col_number(), 
        Escuela = col_number()))
datatable(busquedasg2)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedasg2)

  • Matriz de coeficientes de correlación
cor(busquedasg2)
##           ZoomVideo   Escuela
## ZoomVideo 1.0000000 0.8609931
## Escuela   0.8609931 1.0000000
  • Recta de mínimos cuadrados
regresion2 <-lm(ZoomVideo ~ Escuela, data=busquedasg2 )
summary(regresion2)
## 
## Call:
## lm(formula = ZoomVideo ~ Escuela, data = busquedasg2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.3977  -2.9973   0.0299   4.1892  19.6397 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -14.13391    2.76045   -5.12 1.78e-06 ***
## Escuela       0.96423    0.06072   15.88  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.063 on 88 degrees of freedom
## Multiple R-squared:  0.7413, Adjusted R-squared:  0.7384 
## F-statistic: 252.2 on 1 and 88 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = -14.13391 + 0.96423x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedasg2$ZoomVideo, busquedasg2$Escuela, xlab="Busquedas de Zoom", ylab="busquedas de Escuela")
abline(regresion2)

  • Comparacion de proporciones de los datos
boxplot(busquedasg2$ZoomVideo ~ busquedasg2$Escuela, col="grey")

  • Análisis de tendencia central
summary(busquedasg2$ZoomVideo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.00   19.00   23.00   28.08   37.75  100.00
summary(busquedasg2$Escuela)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   34.00   45.00   43.78   52.00   98.00
  • Análisis de dispersión
sd(busquedasg2$ZoomVideo)
## [1] 13.80785
sd(busquedasg2$Escuela)
## [1] 12.32954

¿Qué podemos concluír con esto?

Podemos concluir que en efecto los datos están relacionados hasta con 80 porciento de relación. Con la matriz de coeficientes de correlación se obtuvo ese 80 por ciento de relación, pero cuando se realizo el trazado de la línea de mínimos cuadrados no se obtuvo una relación visual con la recta. Es evidente que hay una relación entre los datos, pero hubo ese inconveniente a la hora de trazar la línea.