U1A4

Diana Paola GarcĂ­a Torrecillas

04/02/2021

Prueba de hipĂłtesis para un experimento

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de reyes magos con las roscas.

Importar

Biblioteca y datos

dia de reyes

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/paola 6to semestre/eamj1130") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos
## 
## -- Column specification --------------------------------------------------------
## cols(
##   `reyes magos` = col_double(),
##   rosca = col_double()
## )
#visualizar datos en tabla 

Visualizar

Gráficas

Exploraremos la relaciĂłn que existe entre las variables del dia de los reyes magos con roscas por medio de una matriz de diagrama de dispersiĂłn.

pairs(datos)

Modelar

Coeficiente de correlaciĂłn de pearson

ÂżExiste alguna relaciĂłn?

  • Matriz de coeficientes de correlaciĂłn
cor(datos)
##             reyes magos     rosca
## reyes magos   1.0000000 0.9671031
## rosca         0.9671031 1.0000000

Con un Ă­ndice de correlaciĂłn Pearson de 0.96 determinamos que existe una correlaciĂłn.

Cálculo y representación de la recta de mínimos cuadrados

regresion = lm(`reyes magos` ~  rosca, data=datos)
summary(regresion)
## 
## Call:
## lm(formula = `reyes magos` ~ rosca, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.2917  -1.0765  -1.0765  -0.0765  16.3196 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.08900    0.18292  -0.487    0.627    
## rosca        1.16546    0.01909  61.065   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.826 on 258 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.935 
## F-statistic:  3729 on 1 and 258 DF,  p-value: < 2.2e-16

Como podemos observar en nuestros datos tenemos un punto mínimo de -15.2917 nuestro primer cuartil es de -1.0765 y una mediana de -1.0765 nuestro tercer cuartil de -0.0765 y un punto máximo de 16.3196

EcuaciĂłn de la recta de mĂ­nimos cuadrados \[ y=-0.08900 + 1.16546x \] Con esta ecuaciĂłn podemos modelar y predecir valores relacionados con las variables estudiadas en este caso.

PredicciĂłn de valores utilizando la ecuaciĂłn de la recta de mĂ­nimos cuadrados

plot(datos$rosca, datos$`reyes magos`, xlab ="BĂşsquedas de roscas", ylab = "Busquedas de reyes magos")
abline(regresion)

Obtuvimos un coeficiente r-squared:0.9353 y con ello podemos decir que nuestros datos estan muy cerca de la lĂ­nea de regresiĂłn ajustada.

EstimaciĂłn de predicciones

nuevos.rosca <- data.frame(rosca=seq(0,50)) #esto genera un vector de secuencia de valores de 1 en 1, hasta el 50 desde el 0
predict(regresion, nuevos.rosca)
##           1           2           3           4           5           6 
## -0.08899726  1.07646393  2.24192512  3.40738630  4.57284749  5.73830867 
##           7           8           9          10          11          12 
##  6.90376986  8.06923104  9.23469223 10.40015342 11.56561460 12.73107579 
##          13          14          15          16          17          18 
## 13.89653697 15.06199816 16.22745935 17.39292053 18.55838172 19.72384290 
##          19          20          21          22          23          24 
## 20.88930409 22.05476528 23.22022646 24.38568765 25.55114883 26.71661002 
##          25          26          27          28          29          30 
## 27.88207120 29.04753239 30.21299358 31.37845476 32.54391595 33.70937713 
##          31          32          33          34          35          36 
## 34.87483832 36.04029951 37.20576069 38.37122188 39.53668306 40.70214425 
##          37          38          39          40          41          42 
## 41.86760544 43.03306662 44.19852781 45.36398899 46.52945018 47.69491136 
##          43          44          45          46          47          48 
## 48.86037255 50.02583374 51.19129492 52.35675611 53.52221729 54.68767848 
##          49          50          51 
## 55.85313967 57.01860085 58.18406204

Con estos datos ya dados podemos estimar una observaciĂłn futura con determinada probabilidad.

Intervalo de confianza en el modelo de regresiĂłn simple

confint(regresion)
##                  2.5 %    97.5 %
## (Intercept) -0.4491982 0.2712037
## rosca        1.1278778 1.2030446

Con esto podemos decir que -0.4491982 es el punto donde la recta corta el eje vertical, es decir, la disminuciĂłn esperada en el nĂşmero de reyes magos cuando las roscas es cero.

El hecho de que exista una correlaciĂłn pearson alta, no significa que exista una causalidad

Intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90)
##                    5 %      95 %
## (Intercept) -0.3909537 0.2129591
## rosca        1.1339550 1.1969674

Con un intervalo de confianza del 90% podemos decir ques es desde -0.3909537 en Y hasta 0.2129591 en Y y en X es desde 1.1339550 hasta 1.1969674

ConclusiĂłn

Con un Ă­ndice de correlaciĂłn Pearson de 0.96 determinamos que existe una correlaciĂłn, por lo que podemos decir que es una correlaciĂłn positiva, tambien obtuvimos los intervalos de confianza y como obtuvimos un valor alto de pearson es probable que tengamos una causalidad, una vez realizada la ecuacion de la recta de mĂ­nimos y cuadrados Obtuvimos un coeficiente r-squared:0.9353 y con ello podemos decir que nuestros datos estan muy cerca de la lĂ­nea de regresiĂłn ajustada.

rosca