Prueba de hipĂłtesis para un experimento
Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de reyes magos con las roscas.
Importar
Biblioteca y datos
dia de reyes
library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/paola 6to semestre/eamj1130") # folder de trabajo
<- read_csv("datos.csv") #importar datos datos
##
## -- Column specification --------------------------------------------------------
## cols(
## `reyes magos` = col_double(),
## rosca = col_double()
## )
#visualizar datos en tabla
Visualizar
Gráfica de Google Trends
Tabla interactiva de datos Como podemos observar hay una relaciĂłn de la busqueda de reyes magos y roscas
datatable(datos) #visualizar datos en tabla
Gráficas
Exploraremos la relaciĂłn que existe entre las variables del dia de los reyes magos con roscas por medio de una matriz de diagrama de dispersiĂłn.
pairs(datos)
Modelar
Coeficiente de correlaciĂłn de pearson
ÂżExiste alguna relaciĂłn?
- Matriz de coeficientes de correlaciĂłn
cor(datos)
## reyes magos rosca
## reyes magos 1.0000000 0.9671031
## rosca 0.9671031 1.0000000
Con un Ăndice de correlaciĂłn Pearson de 0.96 determinamos que existe una correlaciĂłn.
Cálculo y representaciĂłn de la recta de mĂnimos cuadrados
= lm(`reyes magos` ~ rosca, data=datos)
regresion summary(regresion)
##
## Call:
## lm(formula = `reyes magos` ~ rosca, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.2917 -1.0765 -1.0765 -0.0765 16.3196
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.08900 0.18292 -0.487 0.627
## rosca 1.16546 0.01909 61.065 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.826 on 258 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.935
## F-statistic: 3729 on 1 and 258 DF, p-value: < 2.2e-16
Como podemos observar en nuestros datos tenemos un punto mĂnimo de -15.2917 nuestro primer cuartil es de -1.0765 y una mediana de -1.0765 nuestro tercer cuartil de -0.0765 y un punto máximo de 16.3196
EcuaciĂłn de la recta de mĂnimos cuadrados \[ y=-0.08900 + 1.16546x \] Con esta ecuaciĂłn podemos modelar y predecir valores relacionados con las variables estudiadas en este caso.
PredicciĂłn de valores utilizando la ecuaciĂłn de la recta de mĂnimos cuadrados
plot(datos$rosca, datos$`reyes magos`, xlab ="BĂşsquedas de roscas", ylab = "Busquedas de reyes magos")
abline(regresion)
Obtuvimos un coeficiente r-squared:0.9353 y con ello podemos decir que nuestros datos estan muy cerca de la lĂnea de regresiĂłn ajustada.
EstimaciĂłn de predicciones
<- data.frame(rosca=seq(0,50)) #esto genera un vector de secuencia de valores de 1 en 1, hasta el 50 desde el 0
nuevos.rosca predict(regresion, nuevos.rosca)
## 1 2 3 4 5 6
## -0.08899726 1.07646393 2.24192512 3.40738630 4.57284749 5.73830867
## 7 8 9 10 11 12
## 6.90376986 8.06923104 9.23469223 10.40015342 11.56561460 12.73107579
## 13 14 15 16 17 18
## 13.89653697 15.06199816 16.22745935 17.39292053 18.55838172 19.72384290
## 19 20 21 22 23 24
## 20.88930409 22.05476528 23.22022646 24.38568765 25.55114883 26.71661002
## 25 26 27 28 29 30
## 27.88207120 29.04753239 30.21299358 31.37845476 32.54391595 33.70937713
## 31 32 33 34 35 36
## 34.87483832 36.04029951 37.20576069 38.37122188 39.53668306 40.70214425
## 37 38 39 40 41 42
## 41.86760544 43.03306662 44.19852781 45.36398899 46.52945018 47.69491136
## 43 44 45 46 47 48
## 48.86037255 50.02583374 51.19129492 52.35675611 53.52221729 54.68767848
## 49 50 51
## 55.85313967 57.01860085 58.18406204
Con estos datos ya dados podemos estimar una observaciĂłn futura con determinada probabilidad.
Intervalo de confianza en el modelo de regresiĂłn simple
confint(regresion)
## 2.5 % 97.5 %
## (Intercept) -0.4491982 0.2712037
## rosca 1.1278778 1.2030446
Con esto podemos decir que -0.4491982 es el punto donde la recta corta el eje vertical, es decir, la disminuciĂłn esperada en el nĂşmero de reyes magos cuando las roscas es cero.
El hecho de que exista una correlaciĂłn pearson alta, no significa que exista una causalidad
Intervalo de confianza para el 90% de los datos
confint(regresion, level=0.90)
## 5 % 95 %
## (Intercept) -0.3909537 0.2129591
## rosca 1.1339550 1.1969674
Con un intervalo de confianza del 90% podemos decir ques es desde -0.3909537 en Y hasta 0.2129591 en Y y en X es desde 1.1339550 hasta 1.1969674
ConclusiĂłn
Con un Ăndice de correlaciĂłn Pearson de 0.96 determinamos que existe una correlaciĂłn, por lo que podemos decir que es una correlaciĂłn positiva, tambien obtuvimos los intervalos de confianza y como obtuvimos un valor alto de pearson es probable que tengamos una causalidad, una vez realizada la ecuacion de la recta de mĂnimos y cuadrados Obtuvimos un coeficiente r-squared:0.9353 y con ello podemos decir que nuestros datos estan muy cerca de la lĂnea de regresiĂłn ajustada.
rosca