Prueba de hipótesis para un experimento
● Se utilizarán datos de Google Trends para anlizar si existe una relacion entre la búsqueda de pure con las manzanas, ya que desde que era pequeño a mi abuelita solo le gustaba el pure de manzana pero nunca supe si era comun en todos lados o solo era cosa de ella…asi que decidi comprobarlo
library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/Stat") # folder de trabajo
datosPure <- read_csv("datosPure.csv") #importar datos##
## -- Column specification --------------------------------------------------------
## cols(
## Pure = col_double(),
## Manzana = col_double()
## )
Visualizar Datos
Tabla
● Tabla interactiva con los datos de las busquedas
En la siguiente tabla se muestra la cantidad de veces que los datos ingresados fueron buscados, en este caso los datos fueron “Pure” y “Manzana”
datatable(datosPure) #visualizar datosGraficas
● Exploremos la relacion que existe entre las variables Manzana y Pure por medio de una matriz de diagramas de dispersión
Aqui se muestra una matriz de diagramas de dispersion, donde se puede ver la relacion que presentan las variables “Pure” y “Manzana”
pairs(datosPure)¿Existe alguna relación?
● Matriz de coeficientes de correlación
cor(datosPure)## Pure Manzana
## Pure 1.0000000 0.7603831
## Manzana 0.7603831 1.0000000
Con indice de coorelacion de Pearson de 0.76 determinamos que existe una pequeña correlacion mas no una causalidad en estas 2 busquedas.
Calculo y representacion de la recta de mínimos cuadrados
En la siguiente informacion se encuentran los Residuales, Coeficientes, Interceptos, Codicos de significancia, Errores estandar residuales y algunos otros datos que se generan.
regresion = lm(Manzana ~ Pure, data=datosPure)
summary(regresion)##
## Call:
## lm(formula = Manzana ~ Pure, data = datosPure)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.2307 -3.8445 -0.1911 3.5020 29.2641
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.3790 1.4736 5.007 1.02e-06 ***
## Pure 2.3466 0.1245 18.842 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.424 on 259 degrees of freedom
## Multiple R-squared: 0.5782, Adjusted R-squared: 0.5766
## F-statistic: 355 on 1 and 259 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados Y
y=7.3790+2.3466x
Con esta ecuación podemos modelar y predecir valores a partir de dos variables de búsqueda, como lo son Manzana y Pure.
Con esta escuacion se puede calcular la recta de regresion lineal que minimiza los residuos (Que se refiere a las diferencias entre los valores reales y los estimados por la recta).
plot(datosPure$Pure, datosPure$Manzana, xlab = "Busqueda de manzana", ylab = "Busquedas de pure")
abline(regresion)Estimacion de predicciones
Estos son valores con una determinada probabilidad, basados en pasadas observaciones.
nuevos.pure <- data.frame(Pure=seq(0,20), Manzana=seq(0,20))
predict(regresion, nuevos.pure)## 1 2 3 4 5 6 7 8
## 7.378995 9.725547 12.072099 14.418651 16.765203 19.111756 21.458308 23.804860
## 9 10 11 12 13 14 15 16
## 26.151412 28.497964 30.844516 33.191069 35.537621 37.884173 40.230725 42.577277
## 17 18 19 20 21
## 44.923829 47.270382 49.616934 51.963486 54.310038
Intervalo de confianza en el modelo de regresión simple
confint(regresion)## 2.5 % 97.5 %
## (Intercept) 4.477229 10.280760
## Pure 2.101312 2.591793
El hecho de que exista una correlación pearson alta, no significa que exista una causalidad
confint(regresion, level=0.90)## 5 % 95 %
## (Intercept) 4.946435 9.811555
## Pure 2.140966 2.552138