Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de gmail con la de outlook. Durante los ultimos años
library(readr)
library(DT)
setwd("~/marina/estadistica aplicada/U1A3")
datos <- read_csv("datos.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## gmail = col_double(),
## outlook = col_double()
## )
la tabla que se muestra acontinuacion son datos obtenidos que nos arrojo la grafica de google trends donde nos muestra la cantidad de veces que estas palabras fueron buscadas
se observa la matriz de diagramas de dispersion donde se puede visualizar la relacion que ambas variables presentan tanto gmail como outlook.
pairs(datos)
## Parsed with column specification:
## cols(
## gmail = col_double(),
## outlook = col_double()
## )
¿Existe alguna relación?
## gmail outlook
## gmail 1.0000000 0.77254097
## outlook 0.77254097 1.0000000
Con un índice de correlación Pearson de 0.77 determinamos que existe una correlación, mas no necesariamente una causalidad.
Acontinuacion se observan los residuales, los coeficientes, el intercepto, los codigos de significancia, los errores estandar, R cuadrada y el valor de p. y con dos datos tomados de aqui se puede generar la ecuacion que se ocupara para la recta de minimos cuadrados
regresion = lm(gmail ~ outlook,
data=datos)
summary(regresion)
##
## Call:
## lm(formula = gmail ~ outlook, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18.6986 -5.8180 0.2218 5.3533 27.5246
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.27985 3.06911 2.698 0.00744 **
## outlook 1.56575 0.07996 19.580 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.004 on 259 degrees of freedom
## Multiple R-squared: 0.5968, Adjusted R-squared: 0.5953
## F-statistic: 383.4 on 1 and 259 DF, p-value: < 2.2e-16
Ecuacion de la recta de minimos cuadrados
\[ y = 8.27985 + 1.56575x \] La ecuacion que se muestra arriba es la ecuacion que se utilizara para poder representar y predecir los valores que se presentan en la matriz de diagramas de dispersion