Prueba de hipótesis para un experimento

● Se utilizarán datos de Google Trends para anlizar si existe una relacion entre la búsqueda de pure con las manzanas, ya que desde que era pequeño a mi abuelita solo le gustaba el pure de manzana pero nunca supe si era comun en todos lados o solo era cosa de ella…asi que decidi comprobarlo

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/Stat") # folder de trabajo
datosPure <- read_csv("datosPure.csv") #importar datos
## 
## -- Column specification --------------------------------------------------------
## cols(
##   Pure = col_double(),
##   Manzana = col_double()
## )

Visualizar Datos

Tabla

● Tabla interactiva con los datos de las busquedas

datatable(datosPure) #visualizar datos

Graficas

● Exploremos la relacion que existe entre las variables Manzana y Pure por medio de una matriz de diagramas de dispersión

pairs(datosPure)

¿Existe alguna relación?

● Matriz de coeficientes de correlación

cor(datosPure)
##              Pure   Manzana
## Pure    1.0000000 0.7603831
## Manzana 0.7603831 1.0000000

Con indice de coorelacion de Pearson de 0.76 determinamos que existe una pequeña correlacion mas no una causalidad en estas 2 busquedas.

Calculo y representacion de la recta de mínimos cuadrados

regresion = lm(Manzana ~ Pure, data=datosPure)
summary(regresion)
## 
## Call:
## lm(formula = Manzana ~ Pure, data = datosPure)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14.2307  -3.8445  -0.1911   3.5020  29.2641 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   7.3790     1.4736   5.007 1.02e-06 ***
## Pure          2.3466     0.1245  18.842  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.424 on 259 degrees of freedom
## Multiple R-squared:  0.5782, Adjusted R-squared:  0.5766 
## F-statistic:   355 on 1 and 259 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados y

y=7.3790+2.3466x

Con esta ecuación podemos modelar y predecir valores a partir de dos variables de búsqueda, como lo son Manzana y Pure.