U1A4

Andrea Felix

10/2/2021

Prueba de hipotesis para un experimiento.

Se utilizaran datos de google trends para analizar si existe una relacion entre las busquedas de Noticia con WhatsApp, para ver que tanto las personas relacionan ambos terminos. Recientemente WhatsApp fue protagonista de muchas publicaciones y noticias globales por sus nuevos terminos. Asi que veremos como estas se relacionan:

WhatsApp

Importar

Bibliotecas y datos

library(readr)
library(DT)
data <- read_csv("data.csv")
## Parsed with column specification:
## cols(
##   Noticia = col_double(),
##   WhatsApp = col_double()
## )

Visualizar

Tabla de los datos

datatable(data)

Graficas

Exploraremos la relación que existe ente las variables por medio de una matriz de diagramas de dispersión.

pairs(data)

Podemos observar los datos, notar que se alejan y acercan unos de otros y no tienen una linealidad tan positiva pero…¿Existe alguna relacion?

Modelar

Que tanto se relacionan estos temas?

Para esto haremos una matriz de coeficientes de correlacion:

cor(data)
##             Noticia   WhatsApp
## Noticia   1.0000000 -0.4669631
## WhatsApp -0.4669631  1.0000000

Con un indice de correlacion Pearson de -0.46, nos podemos dar cuenta que no hay tanta relacion entre ellos. Lo cual es sorprendente ya que fue un topico bastante hablado pero al parecer no fue buscado como una noticia por el publico general.

Calculo y representacion de la recta de minimos cuadrados

reg = lm(Noticia ~ WhatsApp, data=data)
summary(reg)
## 
## Call:
## lm(formula = Noticia ~ WhatsApp, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.6002 -1.9801 -0.8490  0.9234 15.4492 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 28.85143    2.92874   9.851 2.66e-13 ***
## WhatsApp    -0.15247    0.04083  -3.734 0.000483 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.208 on 50 degrees of freedom
## Multiple R-squared:  0.2181, Adjusted R-squared:  0.2024 
## F-statistic: 13.94 on 1 and 50 DF,  p-value: 0.0004834

Ecuación de la recta de mínimos cuadrados \(y\) \[ y = 28.85143 + -0.15247x \]

Con esta ecuación podemos modelar y predecir valores

plot(data$WhatsApp, data$Noticia, xlab = "Búsquedas de noticias", ylab = "Búsquedas de Whatsapp")
abline(reg)

En esta grafica se puede observar que la linea inicia en un buen lugar pero va disminuyendo a lo largo del tiempo, por lo tanto la cantidad de busquedas de estos dos terminos juntos no fue muy popular ultimamente. Los datos se encuentran dispersos en el inicio y su coeficiente fue muy baja (0.2181).

wsp <- data.frame(WhatsApp = seq (0,51))
predict(reg , wsp)
##        1        2        3        4        5        6        7        8 
## 28.85143 28.69896 28.54649 28.39402 28.24156 28.08909 27.93662 27.78415 
##        9       10       11       12       13       14       15       16 
## 27.63168 27.47921 27.32674 27.17427 27.02180 26.86933 26.71686 26.56440 
##       17       18       19       20       21       22       23       24 
## 26.41193 26.25946 26.10699 25.95452 25.80205 25.64958 25.49711 25.34464 
##       25       26       27       28       29       30       31       32 
## 25.19217 25.03971 24.88724 24.73477 24.58230 24.42983 24.27736 24.12489 
##       33       34       35       36       37       38       39       40 
## 23.97242 23.81995 23.66748 23.51501 23.36255 23.21008 23.05761 22.90514 
##       41       42       43       44       45       46       47       48 
## 22.75267 22.60020 22.44773 22.29526 22.14279 21.99032 21.83785 21.68539 
##       49       50       51       52 
## 21.53292 21.38045 21.22798 21.07551

Con estos datos ya dados podemos estimar una observación futura con determinada probabilidad.

Intervalo de confianza

confint(reg)
##                  2.5 %      97.5 %
## (Intercept) 22.9688784 34.73398536
## WhatsApp    -0.2344829 -0.07045526

El hecho de que exista una correlación Pearson alta, no significa que exista una causalidad pero en mi caso la correlacion es negativa, por lo que es menos probable que exista una causalidad.

Intervalo de confianza para el 90% de los datos

confint(reg, level =0.90)
##                    5 %        95 %
## (Intercept) 23.9431368 33.75972702
## WhatsApp    -0.2208999 -0.08403825

Conclusion

Con un coeficiente de correlacion negativo de -0.46 puedo decir que es muy poco probable que exista una relacion directa sobre estos dos terminos, menos una causalidad. Se puede ver en las rectas que existe un poco de relacion durante el inicio del periodo pero se dispersan de manera constante durante el periodo mismo.