U1A12

felipe escarrega valdez

22/9/2020

Inferencia estadística

Caso de estudio 1

¿Tienen relacion las búsquedas en México de cubrebocas y covid?

Mi hipótesis nula es que SI tienen relación dado que cuando existe un interés de búsqueda en covid, la gente también busca informarse de cubrebocas

covid

  • Colectar datos
library(pacman)
p_load("readr","DT")
busquedasg <- read_csv("busquedasg.csv", 
    col_types = cols(covid = col_number(), 
        cubrebocas = col_number()))
datatable(busquedasg)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedasg)

  • Matriz de coeficientes de correlación
cor(busquedasg)
##                covid cubrebocas
## covid      1.0000000  0.9356061
## cubrebocas 0.9356061  1.0000000
  • Recta de mínimos cuadrados
regresion <-lm(cubrebocas ~ covid, data=busquedasg )
summary(regresion)
## 
## Call:
## lm(formula = cubrebocas ~ covid, data = busquedasg)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8747 -1.2513 -0.4953  0.5047  7.0884 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.495288   0.433409   1.143    0.259    
## covid       0.138774   0.007406  18.739   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.144 on 50 degrees of freedom
## Multiple R-squared:  0.8754, Adjusted R-squared:  0.8729 
## F-statistic: 351.2 on 1 and 50 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = 0.495288 + 0.138774x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedasg$covid, busquedasg$cubrebocas, xlab="Busquedas de covid", ylab="busquedas de cubrebocas")
abline(regresion)

  • Comparacion de proporciones de los datos
boxplot(busquedasg$covid ~ busquedasg$cubrebocas, col="grey")

  • Análisis de tendencia central
summary(busquedasg$covid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00   49.50   42.58   82.25  100.00
summary(busquedasg$cubrebocas)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   7.500   6.404  11.000  21.000
  • Análisis de dispersión
sd(busquedasg$covid)
## [1] 40.54547
sd(busquedasg$cubrebocas)
## [1] 6.013904

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas, pero NO podemos inferir que existe aún una causalidad.

Caso de estudio 2

¿Tienen relacion las búsquedas en México de hoteles en el esto de Guerrero y Acapulco?

Mi hipótesis nula es que SI tienen relación dado que cuando que Acapulco es una de las ciudades con mas turismo en Mexico y por ende las personas buscan hospedaje cerca o en la mismo ciudad

acapulco.jpg

  • Colectar datos
library(pacman)
p_load("readr","DT")

busquedash <- read_csv("acaho.csv", col_types = cols(hoteles = col_number(), 
    Acapulco = col_number()))
View(busquedash)
datatable(busquedash)
  • ¿Están relacionados los datos?

Matriz de diagramas de dispersión

pairs(busquedash)

  • Matriz de coeficientes de correlación
cor(busquedash)
##           hoteles Acapulco
## hoteles  1.000000 0.421323
## Acapulco 0.421323 1.000000
  • Recta de mínimos cuadrados
regresion <-lm(hoteles ~ Acapulco, data=busquedash )
summary(regresion)
## 
## Call:
## lm(formula = hoteles ~ Acapulco, data = busquedash)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.911 -10.693  -4.634  10.658  29.762 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  39.4595     6.0557   6.516 3.43e-08 ***
## Acapulco      0.3272     0.0996   3.285  0.00187 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.06 on 50 degrees of freedom
## Multiple R-squared:  0.1775, Adjusted R-squared:  0.1611 
## F-statistic: 10.79 on 1 and 50 DF,  p-value: 0.001867
  • Ecuación de la recta de mínimos cuadrados

\[ y = 39.4595 + 0.3272x \]

  • Trazado de la recta de minimos cuadrados
plot(busquedash$Acapulco, busquedash$hoteles, xlab="Busquedas de Acapulco", ylab="busquedas de Hoteles en el estado de Guerrero")
abline(regresion)

  • Comparacion de proporciones de los datos
boxplot(busquedash$hoteles ~ busquedash$Acapulco, col="grey")

  • Análisis de tendencia central
summary(busquedash$Acapulco)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   28.00   42.75   53.50   58.02   72.50  100.00
summary(busquedash$hoteles)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   34.00   50.00   58.00   58.44   67.50   97.00
  • Análisis de dispersión
sd(busquedash$Acapulco)
## [1] 18.35969
sd(busquedash$hoteles)
## [1] 14.25732

¿Qué podemos concluír con esto?

Que las variables SI están relacionadas un 43% ya que en México, acapulco es una de las zonas turisticas mas grandes, donde millones de personas de otro paises quieren conocer por lo tanto buscan hospedaje en esta zona via internet para las reservaciones,pero NO podemos inferir que existe aún una causalidad ya que no por solo hoteles en el estado de guerrero quiera decir que su destino sea Acapulco.