● Se utilizarán datos de Google Trends para anlizar si existe una relacion entre la búsqueda de pure con las manzanas, ya que desde que era pequeño a mi abuelita solo le gustaba el pure de manzana pero nunca supe si era comun en todos lados o solo era cosa de ella…asi que decidi comprobarlo
library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/Stat") # folder de trabajo
datosPure <- read_csv("datosPure.csv") #importar datos
##
## -- Column specification --------------------------------------------------------
## cols(
## Pure = col_double(),
## Manzana = col_double()
## )
● Tabla interactiva con los datos de las busquedas
datatable(datosPure) #visualizar datos
● Exploremos la relacion que existe entre las variables Manzana y Pure por medio de una matriz de diagramas de dispersión
pairs(datosPure)
● Matriz de coeficientes de correlación
cor(datosPure)
## Pure Manzana
## Pure 1.0000000 0.7603831
## Manzana 0.7603831 1.0000000
Con indice de coorelacion de Pearson de 0.76 determinamos que existe una pequeña correlacion mas no una causalidad en estas 2 busquedas.
regresion = lm(Manzana ~ Pure, data=datosPure)
summary(regresion)
##
## Call:
## lm(formula = Manzana ~ Pure, data = datosPure)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.2307 -3.8445 -0.1911 3.5020 29.2641
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.3790 1.4736 5.007 1.02e-06 ***
## Pure 2.3466 0.1245 18.842 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.424 on 259 degrees of freedom
## Multiple R-squared: 0.5782, Adjusted R-squared: 0.5766
## F-statistic: 355 on 1 and 259 DF, p-value: < 2.2e-16
y=7.3790+2.3466x
Con esta ecuación podemos modelar y predecir valores a partir de dos variables de búsqueda, como lo son Manzana y Pure.